JP7324891B2 - バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP7324891B2
JP7324891B2 JP2022056947A JP2022056947A JP7324891B2 JP 7324891 B2 JP7324891 B2 JP 7324891B2 JP 2022056947 A JP2022056947 A JP 2022056947A JP 2022056947 A JP2022056947 A JP 2022056947A JP 7324891 B2 JP7324891 B2 JP 7324891B2
Authority
JP
Japan
Prior art keywords
backbone network
inference
network
target
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022056947A
Other languages
English (en)
Other versions
JP2022091919A (ja
Inventor
チェン ツイ
ティンクァン ガオ
シェンユ ウェイ
ユニン ドゥ
ルオユ ガオ
ビン ルー
イン チョウ
シュエイン リュー
チウェン リュー
シャオグアン フ
ディアンハイ ユ
ヤンジュン マ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022091919A publication Critical patent/JP2022091919A/ja
Application granted granted Critical
Publication of JP7324891B2 publication Critical patent/JP7324891B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0806Configuration setting for initial configuration or provisioning, e.g. plug-and-play
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/084Configuration by using pre-existing information, e.g. using templates or copying from other elements
    • H04L41/0846Configuration by using pre-existing information, e.g. using templates or copying from other elements based on copy from other elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本出願は、人工知能技術分野に関し、具体的に深層学習、およびコンピュータビジョン技術分野に関し、特にバックボーンネットワークの生成方法、装置、機器、記憶媒体およびコンピュータプログラムに関する。
深層学習によるコンピュータビジョンタスクでは、画像分類、オブジェクト検出、画像セマンティック分割、メトリクス学習などにバックボーンネットワークが必要とされ、バックボーンネットワークは特徴の抽出器として重要な意味を持つことは言うまでもない。SHuffleNetV2、MobileNetV3など、従来の軽量バックボーンネットワークは、Intel CPU(Intel Central Processing Unit)側での推論所要時間の面でまだ理想的ではないため、オブジェクト検出、画像分割などのタスクをIntel CPU側でリアルタイムに予測することができない。
本出願はバックボーンネットワーク生成方法、装置、機器、記憶媒体およびコンピュータプログラムを提供する。
本出願の第1の態様によれば、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得するステップと、初期バックボーンネットワークセット中の各初期バックボーンネットワークに対して、トレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するステップと、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定するステップと、基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するステップと、を含むバックボーンネットワーク生成方法を提供する。
本出願の第2の態様によれば、分類対象画像を取得するステップと、第1の態様のいずれか1項に記載の方法により予め生成されたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得るステップと、画像特徴を分類して分類結果を得るステップと、を含む画像分類方法を提供する。
本出願の第3の態様によれば、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得するように構成される第1の取得モジュールと、初期バックボーンネットワークセット中の各初期バックボーンネットワークに対して、トレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するように構成されるトレーニングモジュールと、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定するように構成される決定モジュールと、
基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するように構成される取得モジュールと、を含むバックボーンネットワーク生成装置を提供する。
本出願の第4の態様によれば、分類対象画像を取得するように構成される第2の取得モジュールと、第1の態様のいずれか1項に記載の方法により予め生成されたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得るように構成される抽出モジュールと、画像特徴を分類して分類結果を得るように構成される分類モジュールと、を含む画像分類装置を提供する。
本出願の第5の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様のいずれかの実施形態に記載のバックボーンネットワーク生成方法または第2の態様のいずれかの実施形態に記載の画像分類方法が実行される、電子機器を提供する。
本出願の第6の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は第1の態様のいずれかの実施形態に記載のバックボーンネットワーク生成方法または第2の態様のいずれかの実施形態に記載の画像分類方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
本出願の第7の態様によれば、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載のバックボーンネットワーク生成方法または第2の態様のいずれかの実施形態に記載の画像分類方法が実現されるコンピュータプログラムを提供する。
なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されるであろう。
図面は本出願をよりよく理解するために用いられ、本出願に対する限定を構成しない。
本出願の適用可能な例示的なシステムアーキテクチャを示す図である。 本出願に係るバックボーンネットワーク生成方法の一実施形態を示すフローチャートである。 本出願に係るバックボーンネットワーク生成方法のもう一つの実施形態を示すフローチャートである。 本出願に係るバックボーンネットワーク生成方法の更なる実施形態を示すフローチャートである。 本出願に係る画像分類方法の一実施形態を示すフローチャートである。 本出願に係るバックボーンネットワーク生成装置の一実施形態を示す構造概略図である。 本出願に係る画像分類装置の一実施形態を示す構造概略図である。 本出願の実施形態に係るバックボーンネットワーク生成方法または画像分類方法を実現するための電子機器のブロック図である。
以下は図面を参照して本出願の例示的な実施形態を説明し、ここで理解を助けるため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。
図1は、本出願に係るバックボーンネットワーク生成方法またはバックボーンネットワーク生成装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105の間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、情報を送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをしてもよい。端末装置101、102、103には、様々なクライアントアプリケーションをインストールすることができる。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェア若しくはソフトウェアモジュールとして実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
サーバ105は、様々なサービスを提供できる。例えば、サーバ105は、端末装置101、102、103から取得されたトレーニング画像セット、推論画像セット、および初期バックボーンネットワークセットを解析および処理し、処理結果(例えば、ターゲットバックボーンネットワーク)を生成することができる。
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
なお、本出願の実施形態に係るバックボーンネットワーク生成方法は、通常にサーバ105によって実行され、これに応じて、バックボーンネットワーク生成装置は、通常にサーバ105に設けられている。
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要性に応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
次に、本出願に係るバックボーンネットワーク生成方法の一実施形態のフロー200を示す図2を参照する。当該バックボーンネットワーク生成方法は、次のステップを含む。
ステップ201では、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する。
本実施形態において、バックボーンネットワーク生成方法の実行主体(例えば、図1に示すサーバ105)は、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得することができる。ここで、トレーニング画像セットは、初期バックボーンネットワークセットにおける初期バックボーンネットワークをトレーニングするためのものであって、少なくとも1枚の画像を含む。トレーニング画像セットは、従来の画像セット、例えばImageNet-1k画像データセットを採用してもよいし、従来の画像から収集された、所定数の画像を含む画像セットであってもよいが、本実施形態ではこれを特に限定しない。推論画像セットには少なくとも1枚の画像が含まれ、トレーニング済みのバックボーンネットワークは、推論画像セットの推論画像を推論することができる。初期バックボーンネットワークセットには、少なくとも1つの初期バックボーンネットワークが含まれ、初期バックボーンネットワークは、従来のバックボーンネットワークであってもよいし、トレーニングによって得られたバックボーンネットワークであってもよく、本実施形態ではこれを特に限定しない。
ステップ202では、初期バックボーンネットワークセット中の初期バックボーンネットワークごとに、トレーニング画像セットと推論画像セットとを用いて初期バックボーンネットワークのトレーニングと推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得る。
本実施形態では、ステップ201で取得された初期バックボーンネットワークセットの各初期バックボーンネットワークに対して、上記実行主体は、ステップ201で取得されたトレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークのトレーニングと推論を行うことにより、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得ることができる。
例えば、上記実行主体は、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得た後、上記トレーニング済みのバックボーンネットワークを用いて、推論画像セットの推論画像を推論することにより、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得ることができる。推論画像セットに少なくとも1枚の画像が含まれてもよい。推論画像セットに1枚の画像のみが含まれる場合には、上記実行主体は、トレーニング済みのバックボーンネットワークを用いて上記画像を推論する際の推論所要時間および推論結果の精度を、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度とする。推論画像セットに複数枚の画像が含まれる場合には、上記実行主体は、トレーニング済みのバックボーンネットワークを用いて上記画像のそれぞれを推論する際の推論所要時間および推論結果の精度を記録し、すべての画像の推論所要時間およびすべての画像の推論精度の平均値をそれぞれ求め、それらの平均値の結果をそれぞれ、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度とする。
あるいは、上記推論プロセスはIntel CPU上で実行されるので、推論プロセス中にMKLDNN(Depth Learning Acceleration Library)をオンにすることで、Intel CPU下でのバックボーンネットワークの推論速度を上げるようにしてもよい。
ステップ203では、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定する。
本実施形態では、上記実行主体は、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて基本的なバックボーンネットワークを決定することができ、このうち、基本的なバックボーンネットワークは、上記トレーニング済みのバックボーンネットワークのうち、推論所要時間が少なく推論精度が高いバックボーンネットワーク、すなわち、初期バックボーンネットワークセットの中で最も効果の高いバックボーンネットワークである。
ステップ202の後に、初期バックボーンネットワークセットにおける各初期バックボーンネットワークに対応するトレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得ることができる。かつ、推論所要時間が少ないほど、推論精度が高いほど、バックボーンネットワークが良い、または、推論所要時間が同じである場合、推論精度が高いほどバックボーンネットワークが良い、または、推論精度が同じである場合、推論所要時間が少ないほどバックボーンネットワークが良いので、上記実行主体は、上記の規則に従って基本的なバックボーンネットワークを決定することを理解すべきである。異なるバックボーンネットワークの推論所要時間および推論精度がいずれも異なる場合、推論所要時間および推論精度に対応する比例関係に基づいて基本的なバックボーンネットワークを決定することができる。
あるいは、上記実行主体は、基本的なバックボーンネットワークを決定した後、上記基本的なバックボーンネットワークに対応する設計規則を見つけ出し、その設計規則に基づいて、上記基本的なバックボーンネットワークと同様の構造を有する他のバックボーンネットワークを決定し、ステップ202~203を繰り返し実行することにより、他のバックボーンネットワークに対応する推論所要時間および推論精度を得、上記推論所要時間および推論精度に基づいて、より効果的なバックボーンネットワークを決定し、それを基本的なバックボーンネットワークとすることができる。
ステップ204では、基本的なバックボーンネットワークと予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを得る。
本実施形態では、上記実行主体は、ステップ203で得られた基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを得ることができる。このうち、予め設定されたターゲットネットワークは、予め構築された、基本的なバックボーンネットワークの推論精度をさらに向上させることができるが、基本的なバックボーンネットワークの推論所要時間にほとんど影響を与えないネットワークであり、例えば、ターゲットネットワークには、より大きな全結合層またはより強力な活性化関数を含めることができる。
ステップ203で得られた基本的なバックボーンネットワークは、既に推論所要時間-推論精度をバランスよく生成されたので、本ステップでは、上記実行主体は、予め設定されたターゲットネットワークを取得し、当該ターゲットネットワークをステップ203で得られた基本的なバックボーンネットワークに追加してターゲットバックボーンネットワークを得ることにより、ターゲットバックボーンネットワークの推論精度をさらに向上させる。
本出願の実施形態に係るバックボーンネットワーク生成方法は、まず、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する。次に、初期バックボーンネットワークセットの中の各初期バックボーンネットワークに対して、トレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得する。次に、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定する。最後に、基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得する。本実施形態におけるバックボーンネットワーク生成方法は、Intel CPUに基づいているので、本実施形態の方法によって得られたターゲットバックボーンネットワークは、Intel CPU上でより高い推論精度とより速い推論速度を有しており、また、本実施形態の方法によるターゲットバックボーンネットワークは、移行コストが低く、移行に役立つ。
本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連法律法規の規定に準拠し、且つ公序良俗に反しない。
次に、本出願に係るバックボーンネットワーク生成方法のもう一つの実施形態のフロー300を示す図3を参照する。当該バックボーンネットワーク生成方法は、次のステップを含む。
ステップ301では、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する。
本実施形態において、バックボーンネットワーク生成方法の実行主体(例えば、図1に示すサーバ105)は、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得することができる。ステップ301は、上記実施形態のステップ201とほぼ一致し、具体的な実現方式は上記ステップ201の説明を参照することができ、ここではその説明を省略する。
本実施形態のいくつかのオプション的な実施形態において、初期バックボーンネットワークセットは、少なくとも1つの初期バックボーンネットワークを含み、初期バックボーンネットワークは、それぞれの軽量バックボーンネットワークのネットワークブロックを取得して、ネットワークブロックセットを取得し、ネットワークブロックセット内のネットワークブロックをランダムに組み合わせて、初期バックボーンネットワークを得ることによって得られる。
本実現方式では、まず、従来の各軽量バックボーンネットワークにおけるネットワークブロック(block)を取得して、少なくとも1つのblockを含むネットワークブロックセットを得ることができ、例えば、ネットワークブロックセットにDepthSepConv(Depthwise Separable Convolution)、Channel-Shuffle block、Inverted residual block、Ghost block、Fire blockのうちの1つまたは複数を含んでもよい。ここで、DepthSepConvはバックボーンネットワークMobileNetV1で使用されるblockであり、Channel-Shuffle blockはバックボーンネットワークShuffleNetV1/V2で使用されるblockであり、Inverted residual blockはバックボーンネットワークMobileNetV2/V3で使用されるblockであり、Ghost blockはバックボーンネットワークGhostNetで用いられるblockであり、Fire blockはバックボーンネットワークSqueezeNetで使用されるblockである。
そして、上記実行主体は、ネットワークブロックセット内のネットワークブロックをランダムに組み合わせることで、少なくとも1つの組み合わせられた初期バックボーンネットワークを得ることができ、少なくとも1つの初期バックボーンネットワークは、初期バックボーンネットワークセットを構成する。ネットワークブロックセット中のネットワークブロックをランダムに組み合わせることにより、得られた初期バックボーンネットワークの構造は特定の構造に限らず、初期バックボーンネットワークの構造が豊富になる。
なお、ネットワークブロックセット中の任意の2つのネットワークブロックを組み合わせてもよいし、ネットワークブロックセット中の任意の3つのネットワークブロックを組み合わせてもよく、本実施形態ではランダムに組み合わせる場合に使用するblockの個数を限定しない。
ステップ302では、初期バックボーンネットワークセットにおける初期バックボーンネットワークごとに、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングし、トレーニング済みのバックボーンネットワークを得る。
本実施形態では、初期バックボーンネットワークセットにおける初期バックボーンネットワークごとに、バックボーンネットワーク生成方法の実行主体(例えば、図1に示すサーバ105)は、ステップ301で取得されたトレーニング画像セットを用いて初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得ることができる。上記実行主体は、ImageNet-1k画像データセットを用いて初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得ることが好ましい。
ステップ303では、トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、推論ネットワークを用いて推論画像セットを推論し、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得る。
本実施形態では、上記実行主体は、ステップ302でトレーニングされたバックボーンネットワークを推論ネットワークに変換することができ、具体的な変換処理は、従来技術を用いて実現することができるので、ここではその説明を省略する。そして、上記実行主体は、得られた推論ネットワークを用いて推論画像セットを推論することにより、推論ネットワークが推論画像セット内の各画像を推論する際の推論所要時間および推論精度を得、その後、すべての画像の推論所要時間および推論精度を平均化し、その結果を推論ネットワークの推論プロセスにおける推論所要時間および推論精度とする。したがって、得られた推論ネットワークに対応する推論所要時間および推論精度は、推論ネットワークの推論プロセスにおける推論所要時間および推論精度の平均レベルをより代表できるものとなる。
ステップ304では、各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を2次元座標系における点としてプロットする。
本実施形態では、上記実行主体は、推論所要時間を横座標とし、推論精度を縦座標とすることにより、各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を2次元座標系における点としてプロットし、各推論ネットワークに対応する推論所要時間および推論精度の点を含む2次元座標系を得ることができる。
ステップ305では、2次元座標系における各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとする。
本実施形態では、上記実行主体は、2次元座標系における各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとすることができる。2次元座標系において左上に近い点ほど初期バックボーンネットワークの推論所要時間が少なく、推論精度が高いから、左上に近い点ほど初期バックボーンネットワークが良いことが理解できる。そこで、本実施形態では、2次元座標系における左上に近い点を目標点とし、この目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとして決定することにより、より高い推論精度とより短い推論所要時間を有する基本的なバックボーンネットワークを得ることができる。
ステップ306では、ターゲットネットワークを取得する。
本実施形態では、上記実行主体はターゲットネットワークを取得することができ、ターゲットネットワークは、予め構築された、基本的なバックボーンネットワークの推論所要時間にほとんど影響を与えることなく、その推論精度をさらに向上させることができる。ここで、ターゲットネットワークには、活性化関数、全結合層の少なくとも1つが含まれる。一例として、活性化関数は、より効果的でより強力な活性化関数であるh-swish活性化関数であってもよく、あるいは、より大きな全結合層を使用してもよい。
ステップ307では、ターゲットネットワークを基本的なバックボーンネットワークに追加し、ターゲットバックボーンネットワークを得る。
本実施形態では、上記実行主体は、ステップ306で得られたターゲットネットワークを上記基本的なバックボーンネットワークに追加して、ターゲットバックボーンネットワークを得ることができる。例えば、より大きな全結合層を基本的なバックボーンネットワークの端部に付加して、ターゲットバックボーンネットワークを得る。したがって、ターゲットバックボーンネットワークの推論所要時間を保証しながら、ターゲットバックボーンネットワークの推論精度をさらに向上させた。
図3から分かるように、図2に対応する実施形態と比較して、本実施形態におけるバックボーンネットワーク生成方法は、まず、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得し、初期バックボーンネットワークセット中の各初期バックボーンネットワークに対して、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングし、トレーニング済みのバックボーンネットワークを得る。そして、トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、推論ネットワークを用いて推論画像セットを推論し、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得る。そして、各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を2次元座標系における点としてマッピングし、2次元座標系の各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとする。最後に、ターゲットネットワークを取得し、ターゲットネットワークを基本的なバックボーンネットワークに追加して、ターゲットバックボーンネットワークを得る。本実施形態におけるバックボーンネットワーク生成方法は、ターゲットバックボーンネットワークのIntel CPU上での推論所要時間を保証した上で、ターゲットバックボーンネットワークの推論精度をさらに向上させた。
次に、本出願に係るバックボーンネットワーク生成方法のもう一つの実施形態のフロー400を示す図4を参照する。当該バックボーンネットワーク生成方法は、次のステップを含む。
ステップ401では、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する。
ステップ402では、初期バックボーンネットワークセットにおける初期バックボーンネットワークごとに、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングし、トレーニング済みのバックボーンネットワークを得る。
ステップ403では、トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、推論ネットワークを用いて推論画像セットを推論し、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得る。
ステップ404では、各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を2次元座標系における点としてプロットする。
ステップ405では、2次元座標系における各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとする。
ステップ406では、ターゲットネットワークを取得する。
ステップ407では、ターゲットネットワークを基本的なバックボーンネットワークに追加し、ターゲットバックボーンネットワークを得る。
ステップ401~407は上記実施形態のステップ301~307とほぼ一致し、具体的な実現方式は前記ステップ301~307の説明を参照することができ、ここではその説明を省略する。
ステップ408では、ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新する。
本実施形態では、バックボーンネットワーク生成方法の実行主体(例えば、図1に示すサーバ105)は、ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新することができ、すなわち、ターゲットバックボーンネットワークの畳み込みカーネルサイズ(kernel-size)を、現在の畳み込みカーネルサイズよりも大きな所定サイズに変更することができ、所定サイズは、状況に応じて設定することができ、本実施形態ではそれを限定しない。ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新することにより、ターゲットバックボーンネットワークの推論精度をさらに向上させることができる。
ステップ409では、SEモジュールをターゲットバックボーンネットワークにおける所定の目標追加位置に追加し、最終的なバックボーンネットワークを得る。
本実施形態では、上記実行主体は、SEモジュール(Squeeze-and-Excitation Networks)をターゲットバックボーンネットワークの所定の目標追加位置に追加して、最終的なバックボーンネットワークを得ることができる。このうち、SEモジュールは各チャネル間の相関関係を学習し、チャネルに対するアテンションをスクリーニングし、ネットワークモデルの精度をさらに向上させることができ、かつ、従来のネットワークモデルフレームワークにSEモジュールをロードすることができる。本実施形態では、ステップ408で得られたターゲットバックボーンネットワークにSEモジュールをロードして最終的なバックボーンネットワークを得ることにより、最終的なバックボーンネットワークの推論精度をさらに向上させた。
本実施形態のいくつかのオプション的な実施形態において、上記目標追加位置は、SEモジュールをターゲットバックボーンネットワーク内の異なる位置に追加して、対応する第1のバックボーンネットワークセットを得るステップと、第1のバックボーンネットワークセット内の第1のバックボーンネットワークのそれぞれに対して、第1のバックボーンネットワークを用いて推論画像セットを推論して、第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、各第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、目標追加位置を決定するステップとによって決定される。
本実現方式では、まずSEモジュールをターゲットバックボーンネットワークの異なる位置に追加することで、複数の対応する第1のバックボーンネットワークが得られ、複数の第1のバックボーンネットワークが第1のバックボーンネットワークセットを構成する。そして、第1のバックボーンネットワークセット内の第1のバックボーンネットワークごとに、上記第1のバックボーンネットワークを用いて推論画像セット内の推論画像を推論することにより、第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得る。最後に、各第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて最良の効果を有する第1のバックボーンネットワークを決定し、特定の決定プロセスについては、前述の実施形態を参照することができるので、ここではその説明を省略する。最良の効果を有する第1のバックボーンネットワークにおけるSEモジュールの追加位置は目標追加位置である。各第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいてSEモジュールの目標追加位置を決定することにより、SEモジュールを追加した最終的なバックボーンネットワークの推論精度が向上された。
図4から分かるように、本実施形態におけるバックボーンネットワーク生成方法は、図3に対応する実施形態と比較して、ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新することと、ターゲットバックボーンネットワークにSEモジュールを追加することにより、最終的なバックボーンネットワークを得るステップを強調しており、最終的なバックボーンネットワークの推論精度をさらに向上させた。
次に、本出願に係る画像分類方法の一実施形態のフロー500を示す図5を参照する。当該画像分類方法は、次のステップを含む。
ステップ501では、分類対象画像を取得する。
本実施形態において、画像分類方法の実行主体(例えば、図1に示すサーバ105)は、分類対象画像を取得することができる。分類対象画像は、ユーザが既存の画像から選択してアップロードしたものであってもよいし、ユーザが端末装置のカメラで撮影したものであってもよい。かつ、分類対象画像は、あらゆる人または物を含む画像であってもよい。本実施形態では特にこれを限定しない。
ステップ502では、予め生成されたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得る。
本実施形態では、上記実行主体は、上記実施形態で説明した方法により得られた、予めトレーニングされたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得ることができる。具体的には、上記実行主体は、ステップ501で取得された分類対象画像を、予め生成されたバックボーンネットワークに入力して、バックボーンネットワークによって分類対象画像の特徴を抽出することにより、分類対象画像に対応する画像特徴を求めることができる。
ステップ503では、画像特徴を分類し、分類結果を得る。
本実施形態において、上記実行主体はステップ502で得られた画像特徴を分類して最終的な分類結果を取得することができる。具体的には、上記実行主体は、バックボーンネットワークによって抽出された各次元の画像特徴に基づいて、各次元の画像特徴に分類タグを付与し、各分類タグに基づいて最終的な分類結果を得ることができる。
本出願の実施形態に係る画像分類方法は、まず、分類対象画像を取得し、次に、予めトレーニングされたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得、最後に、画像特徴を分類して分類結果を得る。本実施形態における画像分類方法は、予め生成されたバックボーンネットワークを用いて分類対象画像の特徴を抽出することにより、特徴抽出の速度および精度を向上させ、最終的な分類結果の精度を向上させた。
更に図6を参照すると、上記の各図に示された方法の実施態様として、本出願は、バックボーンネットワーク生成装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図6に示すように、本実施形態のバックボーンネットワーク生成装置600は、第1の取得モジュール601と、トレーニングモジュール602と、決定モジュール603と、取得モジュール604とを備える。このうち、第1の取得モジュール601は、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得するように構成される。トレーニングモジュールと602は、初期バックボーンネットワークセット中の各初期バックボーンネットワークに対して、トレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するように構成される。決定モジュール603は、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定するように構成される。取得モジュール604は、基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するように構成される。
本実施形態において、バックボーンネットワーク生成装置600における第1の取得モジュール601と、トレーニングモジュール602と、決定モジュール603と、取得モジュール604の具体的な処理およびそれらの技術効果は、それぞれ図2の対応する実施形態におけるステップ201~204の関連する説明を参照することができ、ここでその説明を省略する。
本実施形態のいくつかのオプション的な実施形態において、トレーニングモジュールは、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングし、トレーニング済みのバックボーンネットワークを得るように構成されるトレーニングサブモジュールと、トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、推論ネットワークを用いて推論画像セットを推論し、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得るように構成される推論サブモジュールとを備える。
本実施形態のいくつかのオプション的な実施形態において、決定モジュールは、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を2次元座標系における点としてプロットするように構成されるプロットサブモジュールと、2次元座標系における各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとするように構成される決定サブモジュールとを備える。
本実施形態のいくつかのオプション的な実施形態において、取得モジュールは、活性化関数および全結合層の少なくとも1つを含むターゲットネットワークを取得するように構成されるターゲットネットワーク取得サブモジュールと、ターゲットネットワークを基本的なバックボーンネットワークに追加して、ターゲットバックボーンネットワークを取得するように構成されるターゲットバックボーンネットワーク取得サブモジュールとを備える。
本実施形態のいくつかのオプション的な実施形態において、上記バックボーンネットワーク生成装置600は、ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新するように構成される更新モジュールをさらに備える。
本実施形態のいくつかのオプション的な実施形態において、上記バックボーンネットワーク生成装置600は、SEモジュールをターゲットバックボーンネットワークの所定の目標追加位置に追加して最終的なバックボーンネットワークを生成するように構成される追加モジュールをさらに備える。
本実施形態のいくつかのオプション的な実施形態において、目標追加位置は、SEモジュールをターゲットバックボーンネットワーク内の異なる位置に追加して、対応する第1のバックボーンネットワークセットを得るステップと、第1のバックボーンネットワークセット内の第1のバックボーンネットワークのそれぞれに対して、第1のバックボーンネットワークを用いて推論画像セットを推論して、第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、各第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、目標追加位置を決定するステップとによって決定される。
本実施形態のいくつかのオプション的な実施形態において、初期バックボーンネットワークセットは、少なくとも1つの初期バックボーンネットワークを含み、初期バックボーンネットワークは、それぞれの軽量バックボーンネットワークのネットワークブロックを取得して、ネットワークブロックセットを取得し、ネットワークブロックセット内のネットワークブロックをランダムに組み合わせて、初期バックボーンネットワークを得ることによって得られる。
更に図7を参照すると、上記の各図に示された方法の実施態様として、本出願は、画像分類装置の一実施形態を提供し、当該装置の実施形態は、図5に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図7に示すように、本実施形態の画像分類装置700は、第2の取得モジュール701と、抽出モジュール702と、分類モジュール703とを備える。第2の取得モジュール701は、分類対象画像を取得するように構成される。抽出モジュール702は、予め生成されたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得るように構成される。分類モジュール703は、画像特徴を分類して分類結果を得るように構成される。
本実施形態において、画像分類装置700における第2の取得モジュール701と、抽出モジュール702と、分類モジュール703の具体的な処理およびそれらの技術効果は、それぞれ図5の対応する実施形態におけるステップ501~503の関連する説明を参照することができ、ここでその説明を省略する。
本出願の実施形態によれば、本出願はさらに電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムを提供する。
図8は、本出願の実施形態を実施するために使用できる例示的な電子機器800の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
図8に示すように、電子機器800は、読み出し専用メモリ(ROM)802に記憶されているコンピュータプログラムまたは記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット801を備える。RAM803には、電子機器800の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット801、ROM802およびRAM803は、バス804を介して互いに接続されている。入/出力(I/O)インターフェース805もバス804に接続されている。
電子機器800において、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット809とを備える複数のコンポーネントは、I/Oインターフェース805に接続されている。通信ユニット809は、電子機器800がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
計算ユニット801は、処理および計算機能を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット801のいくつかの例示としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上述したバックボーンネットワーク生成方法または画像分類方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、バックボーンネットワーク生成方法または画像分類方法は、記憶ユニット808などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM802および/または通信ユニット809を介して電子機器800にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM803にロードされ、計算ユニット801によって実行されると、上述のバックボーンネットワーク生成方法または画像分類方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態において、計算ユニット801は、他の任意の適切な方式によって(例えば、ファームウェアによって)バックボーンネットワーク生成方法または画像分類方法を実行するように構成されていてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも1つの入力装置および該少なくとも1つの出力装置に伝送することを含み得る。
本出願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本出願のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置またはデバイスが使用するため、または指令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD?ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく)、且つ音入力、音声入力または、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステムおよび技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本出願に記載された各ステップは、本出願に出願された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (19)

  1. トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する取得ステップと、
    前記初期バックボーンネットワークセット中の初期バックボーンネットワークごとに、前記トレーニング画像セットと前記推論画像セットとを用いて、前記初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するトレーニング・推論ステップと、
    各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定する基本的なバックボーンネットワークの決定ステップと、
    前記基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するターゲットバックボーンネットワーク取得ステップと、
    を含み、
    前記トレーニング・推論ステップは、
    前記トレーニング画像セットを用いて前記初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得るステップと、
    前記トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、前記推論ネットワークを用いて前記推論画像セットを推論し、前記推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、
    を含むバックボーンネットワーク生成方法。
  2. 前記基本的なバックボーンネットワーク定ステップは、
    各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を2次元座標系における点としてプロットするステップと、
    前記2次元座標系における各点から目標点を決定し、前記目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとするステップと、
    を含む請求項に記載のバックボーンネットワーク生成方法。
  3. 前記ターゲットバックボーンネットワーク取得ステップは、
    活性化関数および全結合層のうちの少なくとも一方を含むターゲットネットワークを取得するステップと、
    前記ターゲットネットワークを前記基本的なバックボーンネットワークに追加して、ターゲットバックボーンネットワークを得るステップと、
    を含む請求項1に記載のバックボーンネットワーク生成方法。
  4. 前記ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新するステップをさらに含む、請求項1~のいずれか1項に記載のバックボーンネットワーク生成方法。
  5. 前記ターゲットバックボーンネットワークにおける所定の目標追加位置にSEモジュールを追加し、最終的なバックボーンネットワークを得るステップをさらに含む、請求項1~のいずれか1項に記載のバックボーンネットワーク生成方法。
  6. 前記目標追加位置は、
    前記ターゲットバックボーンネットワークの異なる位置にSEモジュールを追加して、対応する第1のバックボーンネットワークセットを得るステップと、
    前記第1のバックボーンネットワークセット中の第1のバックボーンネットワークごとに、前記第1のバックボーンネットワークを用いて前記推論画像セットを推論し、前記第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、
    各第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、前記目標追加位置を決定するステップと、
    によって決定される請求項に記載のバックボーンネットワーク生成方法。
  7. 前記初期バックボーンネットワークセットは、少なくとも1つの初期バックボーンネットワークを含み、
    前記初期バックボーンネットワークは、
    各軽量バックボーンネットワークのネットワークブロックを取得し、ネットワークブロックセットを得るステップと、
    前記ネットワークブロックセット中のネットワークブロックをランダムに組み合わせて前記初期バックボーンネットワークを得るステップと、
    によって取得される請求項1に記載のバックボーンネットワーク生成方法。
  8. 分類対象画像を取得するステップと、
    請求項1~のいずれか1項に記載のバックボーンネットワーク生成方法により予め生成されたターゲットバックボーンネットワークを用いて、前記分類対象画像の特徴を抽出して画像特徴を得るステップと、
    前記画像特徴を分類して分類結果を得るステップと、
    を含む画像分類方法。
  9. トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得するように構成される第1の取得モジュールと、
    前記初期バックボーンネットワークセット中の初期バックボーンネットワークごとに、前記トレーニング画像セットと前記推論画像セットとを用いて、前記初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するように構成されるトレーニングモジュールと、
    各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定するように構成される決定モジュールと、
    前記基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するように構成される取得モジュールと、
    を備え
    前記トレーニングモジュールは、
    前記トレーニング画像セットを用いて前記初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得るように構成されるトレーニングサブモジュールと、
    前記トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、前記推論ネットワークを用いて前記推論画像セットを推論し、前記推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得るように構成される推論サブモジュールと、
    を備えるバックボーンネットワーク生成装置。
  10. 前記決定モジュールは、
    各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を2次元座標系における点としてプロットするように構成されるプロットサブモジュールと、
    前記2次元座標系における各点から目標点を決定し、前記目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとするように構成される決定サブモジュールと、
    を備える請求項に記載のバックボーンネットワーク生成装置。
  11. 前記取得モジュールは、
    活性化関数および全結合層のうちの少なくとも一方を含むターゲットネットワークを取得するように構成されるターゲットネットワーク取得サブモジュールと、
    前記ターゲットネットワークを前記基本的なバックボーンネットワークに追加し、ターゲットバックボーンネットワークを得るように構成されるターゲットバックボーンネットワーク取得サブモジュールと、
    を備える請求項に記載のバックボーンネットワーク生成装置。
  12. 前記ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新するように構成される更新モジュールをさらに備える、請求項11のいずれか1項に記載のバックボーンネットワーク生成装置。
  13. 前記ターゲットバックボーンネットワークにおける所定の目標追加位置にSEモジュールを追加し、最終的なバックボーンネットワークを得るように構成される追加モジュールをさらに含む、請求項12のいずれか1項に記載のバックボーンネットワーク生成装置。
  14. 前記目標追加位置は、
    前記ターゲットバックボーンネットワークの異なる位置にSEモジュールを追加して、対応する第1のバックボーンネットワークセットを得るステップと、
    前記第1のバックボーンネットワークセット中の第1のバックボーンネットワークごとに、前記第1のバックボーンネットワークを用いて前記推論画像セットを推論し、前記第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、
    各第1のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、前記目標追加位置を決定するステップと、
    によって決定される請求項13に記載のバックボーンネットワーク生成装置。
  15. 前記初期バックボーンネットワークセットは、少なくとも1つの初期バックボーンネットワークを含み、
    前記初期バックボーンネットワークは、
    各軽量バックボーンネットワークのネットワークブロックを取得し、ネットワークブロックセットを得るステップと、
    前記ネットワークブロックセット中のネットワークブロックをランダムに組み合わせて前記初期バックボーンネットワークを得るステップと、
    によって取得される請求項に記載のバックボーンネットワーク生成装置。
  16. 分類対象画像を取得するように構成される第2の取得モジュールと、
    請求項1~のいずれか1項に記載のバックボーンネットワーク生成方法により予め生成されたターゲットバックボーンネットワークを用いて、前記分類対象画像の特徴を抽出して画像特徴を得るように構成される抽出モジュールと、
    前記画像特徴を分類して分類結果を得るように構成される分類モジュールと、
    を備える画像分類装置。
  17. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、
    前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか1項に記載のバックボーンネットワーク生成方法または請求項に記載の画像分類方法を実行させる、電子機器。
  18. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~のいずれか1項に記載のバックボーンネットワーク生成方法または請求項に記載の画像分類方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
  19. プロセッサによって実行されると、請求項1~のいずれか1項に記載のバックボーンネットワーク生成方法または請求項に記載の画像分類方法が実現されるコンピュータプログラム。
JP2022056947A 2021-09-16 2022-03-30 バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム Active JP7324891B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111088473.8 2021-09-16
CN202111088473.8A CN113792876B (zh) 2021-09-16 2021-09-16 骨干网络的生成方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
JP2022091919A JP2022091919A (ja) 2022-06-21
JP7324891B2 true JP7324891B2 (ja) 2023-08-10

Family

ID=78878719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022056947A Active JP7324891B2 (ja) 2021-09-16 2022-03-30 バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (4)

Country Link
US (1) US11929871B2 (ja)
EP (1) EP4095761A1 (ja)
JP (1) JP7324891B2 (ja)
CN (1) CN113792876B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036363B (zh) * 2023-10-10 2024-01-30 国网四川省电力公司信息通信公司 一种基于多特征融合的遮挡绝缘子检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354837A1 (en) 2018-05-18 2019-11-21 Baidu Usa Llc Resource-efficient neural architects
CN111626349A (zh) 2020-05-22 2020-09-04 中国科学院空天信息创新研究院 一种基于深度学习的目标检测方法和系统
CN111797983A (zh) 2020-05-25 2020-10-20 华为技术有限公司 一种神经网络构建方法以及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168541A (zh) * 2018-10-15 2021-07-23 菲力尔商业系统公司 用于成像系统的深度学习推理系统和方法
US11157793B2 (en) * 2019-10-25 2021-10-26 Vicarious Fpc, Inc. Method and system for query training
CN111192294B (zh) * 2019-12-30 2022-04-22 华中科技大学 一种基于目标检测的目标跟踪方法及系统
US20210264261A1 (en) * 2020-02-21 2021-08-26 Caci, Inc. - Federal Systems and methods for few shot object detection
CN111582372A (zh) * 2020-05-09 2020-08-25 西交利物浦大学 图像分类方法、模型、存储介质及电子设备
CN111626407A (zh) * 2020-05-22 2020-09-04 中国科学院空天信息创新研究院 一种深度神经网络模型快速重构方法和系统
CN111950702A (zh) * 2020-07-16 2020-11-17 华为技术有限公司 一种神经网络结构确定方法及其装置
CN112308822A (zh) * 2020-10-10 2021-02-02 杭州电子科技大学 基于深度卷积神经网络的椎间盘ct图像检测方法
CN112288772B (zh) * 2020-10-14 2022-06-07 武汉大学 基于在线多特征选择的通道注意力目标跟踪方法
CN112446379B (zh) * 2021-02-01 2021-04-20 清华大学 一种动态大场景自适应智能处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354837A1 (en) 2018-05-18 2019-11-21 Baidu Usa Llc Resource-efficient neural architects
CN111626349A (zh) 2020-05-22 2020-09-04 中国科学院空天信息创新研究院 一种基于深度学习的目标检测方法和系统
CN111797983A (zh) 2020-05-25 2020-10-20 华为技术有限公司 一种神经网络构建方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mingxing Tan et al.,MnasNet: Platform-Aware Neural Architecture Search for Mobile,[online],2018年07月31日,internet, [retrieved on 2023.03.22], <url: https://arxiv.org/pdf/1807.11626v1.pdf>

Also Published As

Publication number Publication date
EP4095761A1 (en) 2022-11-30
US11929871B2 (en) 2024-03-12
CN113792876A (zh) 2021-12-14
CN113792876B (zh) 2023-08-29
US20220247626A1 (en) 2022-08-04
JP2022091919A (ja) 2022-06-21

Similar Documents

Publication Publication Date Title
CN111898696B (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
TWI737006B (zh) 一種跨模態訊息檢索方法、裝置和儲存介質
EP4033453A1 (en) Training method and apparatus for target detection model, device and storage medium
US20220129731A1 (en) Method and apparatus for training image recognition model, and method and apparatus for recognizing image
EP3913542A2 (en) Method and apparatus of training model, device, medium, and program product
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
JP2023531350A (ja) サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法
JP2022177201A (ja) 画像処理方法、装置、電子機器及び記憶媒体
Huu et al. Proposing a Recognition System of Gestures Using MobilenetV2 Combining Single Shot Detector Network for Smart‐Home Applications
CN111539897A (zh) 用于生成图像转换模型的方法和装置
KR20230007998A (ko) 멀티태스크의 인식 방법, 훈련 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
JP2022173321A (ja) オブジェクトの検出方法、装置、デバイス、媒体及びプログラム
JP7324891B2 (ja) バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN114266937A (zh) 模型训练、图像处理方法,装置,设备以及存储介质
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
CN114020950A (zh) 图像检索模型的训练方法、装置、设备以及存储介质
CN113657468A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
WO2024040870A1 (zh) 文本图像生成、训练、文本图像处理方法以及电子设备
JP2023078411A (ja) 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品
CN116402914A (zh) 用于确定风格化图像生成模型的方法、装置及产品
CN113361621B (zh) 用于训练模型的方法和装置
CN114974438A (zh) 粒子运动模拟方法、装置、设备、存储介质和程序产品
CN114297022A (zh) 云环境异常检测方法、装置、电子设备和存储介质
CN114596203A (zh) 用于生成图像和用于训练图像生成模型的方法和装置
CN111949860B (zh) 用于生成相关度确定模型的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230731

R150 Certificate of patent or registration of utility model

Ref document number: 7324891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150