JP7324891B2

JP7324891B2 - バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP7324891B2
Application number: JP2022056947A
Authority: JP
Inventors: チェンツイ; ティンクァンガオ; シェンユウェイ; ユニンドゥ; ルオユガオ; ビンルー; インチョウ; シュエインリュー; チウェンリュー; シャオグアンフ; ディアンハイユ; ヤンジュンマ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-16
Filing date: 2022-03-30
Publication date: 2023-08-10
Anticipated expiration: 2042-03-30
Also published as: EP4095761A1; US11929871B2; CN113792876A; CN113792876B; US20220247626A1; JP2022091919A

Description

本出願は、人工知能技術分野に関し、具体的に深層学習、およびコンピュータビジョン技術分野に関し、特にバックボーンネットワークの生成方法、装置、機器、記憶媒体およびコンピュータプログラムに関する。

深層学習によるコンピュータビジョンタスクでは、画像分類、オブジェクト検出、画像セマンティック分割、メトリクス学習などにバックボーンネットワークが必要とされ、バックボーンネットワークは特徴の抽出器として重要な意味を持つことは言うまでもない。ＳＨｕｆｆｌｅＮｅｔＶ２、ＭｏｂｉｌｅＮｅｔＶ３など、従来の軽量バックボーンネットワークは、ＩｎｔｅｌＣＰＵ（ＩｎｔｅｌＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）側での推論所要時間の面でまだ理想的ではないため、オブジェクト検出、画像分割などのタスクをＩｎｔｅｌＣＰＵ側でリアルタイムに予測することができない。

本出願はバックボーンネットワーク生成方法、装置、機器、記憶媒体およびコンピュータプログラムを提供する。

本出願の第１の態様によれば、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得するステップと、初期バックボーンネットワークセット中の各初期バックボーンネットワークに対して、トレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するステップと、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定するステップと、基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するステップと、を含むバックボーンネットワーク生成方法を提供する。

本出願の第２の態様によれば、分類対象画像を取得するステップと、第１の態様のいずれか１項に記載の方法により予め生成されたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得るステップと、画像特徴を分類して分類結果を得るステップと、を含む画像分類方法を提供する。

本出願の第３の態様によれば、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得するように構成される第１の取得モジュールと、初期バックボーンネットワークセット中の各初期バックボーンネットワークに対して、トレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するように構成されるトレーニングモジュールと、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定するように構成される決定モジュールと、
基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するように構成される取得モジュールと、を含むバックボーンネットワーク生成装置を提供する。

本出願の第４の態様によれば、分類対象画像を取得するように構成される第２の取得モジュールと、第１の態様のいずれか１項に記載の方法により予め生成されたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得るように構成される抽出モジュールと、画像特徴を分類して分類結果を得るように構成される分類モジュールと、を含む画像分類装置を提供する。

本出願の第５の態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な指令が格納され、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに第１の態様のいずれかの実施形態に記載のバックボーンネットワーク生成方法または第２の態様のいずれかの実施形態に記載の画像分類方法が実行される、電子機器を提供する。

本出願の第６の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は第１の態様のいずれかの実施形態に記載のバックボーンネットワーク生成方法または第２の態様のいずれかの実施形態に記載の画像分類方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。

本出願の第７の態様によれば、プロセッサによって実行されると、第１の態様のいずれかの実施形態に記載のバックボーンネットワーク生成方法または第２の態様のいずれかの実施形態に記載の画像分類方法が実現されるコンピュータプログラムを提供する。

なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されるであろう。

図面は本出願をよりよく理解するために用いられ、本出願に対する限定を構成しない。
本出願の適用可能な例示的なシステムアーキテクチャを示す図である。本出願に係るバックボーンネットワーク生成方法の一実施形態を示すフローチャートである。本出願に係るバックボーンネットワーク生成方法のもう一つの実施形態を示すフローチャートである。本出願に係るバックボーンネットワーク生成方法の更なる実施形態を示すフローチャートである。本出願に係る画像分類方法の一実施形態を示すフローチャートである。本出願に係るバックボーンネットワーク生成装置の一実施形態を示す構造概略図である。本出願に係る画像分類装置の一実施形態を示す構造概略図である。本出願の実施形態に係るバックボーンネットワーク生成方法または画像分類方法を実現するための電子機器のブロック図である。

以下は図面を参照して本出願の例示的な実施形態を説明し、ここで理解を助けるため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。

図１は、本出願に係るバックボーンネットワーク生成方法またはバックボーンネットワーク生成装置の実施形態が適用可能な例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５の間で通信リンクを提供するための媒体として使用される。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

ユーザは、情報を送受信するために、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と情報のやり取りをしてもよい。端末装置１０１、１０２、１０３には、様々なクライアントアプリケーションをインストールすることができる。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置１０１、１０２、１０３がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェア若しくはソフトウェアモジュールとして実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。

サーバ１０５は、様々なサービスを提供できる。例えば、サーバ１０５は、端末装置１０１、１０２、１０３から取得されたトレーニング画像セット、推論画像セット、および初期バックボーンネットワークセットを解析および処理し、処理結果（例えば、ターゲットバックボーンネットワーク）を生成することができる。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ１０５がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。

なお、本出願の実施形態に係るバックボーンネットワーク生成方法は、通常にサーバ１０５によって実行され、これに応じて、バックボーンネットワーク生成装置は、通常にサーバ１０５に設けられている。

図１における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要性に応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。

次に、本出願に係るバックボーンネットワーク生成方法の一実施形態のフロー２００を示す図２を参照する。当該バックボーンネットワーク生成方法は、次のステップを含む。

ステップ２０１では、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する。

本実施形態において、バックボーンネットワーク生成方法の実行主体（例えば、図１に示すサーバ１０５）は、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得することができる。ここで、トレーニング画像セットは、初期バックボーンネットワークセットにおける初期バックボーンネットワークをトレーニングするためのものであって、少なくとも１枚の画像を含む。トレーニング画像セットは、従来の画像セット、例えばＩｍａｇｅＮｅｔ－１ｋ画像データセットを採用してもよいし、従来の画像から収集された、所定数の画像を含む画像セットであってもよいが、本実施形態ではこれを特に限定しない。推論画像セットには少なくとも１枚の画像が含まれ、トレーニング済みのバックボーンネットワークは、推論画像セットの推論画像を推論することができる。初期バックボーンネットワークセットには、少なくとも１つの初期バックボーンネットワークが含まれ、初期バックボーンネットワークは、従来のバックボーンネットワークであってもよいし、トレーニングによって得られたバックボーンネットワークであってもよく、本実施形態ではこれを特に限定しない。

ステップ２０２では、初期バックボーンネットワークセット中の初期バックボーンネットワークごとに、トレーニング画像セットと推論画像セットとを用いて初期バックボーンネットワークのトレーニングと推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得る。

本実施形態では、ステップ２０１で取得された初期バックボーンネットワークセットの各初期バックボーンネットワークに対して、上記実行主体は、ステップ２０１で取得されたトレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークのトレーニングと推論を行うことにより、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得ることができる。

例えば、上記実行主体は、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得た後、上記トレーニング済みのバックボーンネットワークを用いて、推論画像セットの推論画像を推論することにより、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得ることができる。推論画像セットに少なくとも１枚の画像が含まれてもよい。推論画像セットに１枚の画像のみが含まれる場合には、上記実行主体は、トレーニング済みのバックボーンネットワークを用いて上記画像を推論する際の推論所要時間および推論結果の精度を、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度とする。推論画像セットに複数枚の画像が含まれる場合には、上記実行主体は、トレーニング済みのバックボーンネットワークを用いて上記画像のそれぞれを推論する際の推論所要時間および推論結果の精度を記録し、すべての画像の推論所要時間およびすべての画像の推論精度の平均値をそれぞれ求め、それらの平均値の結果をそれぞれ、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度とする。

あるいは、上記推論プロセスはＩｎｔｅｌＣＰＵ上で実行されるので、推論プロセス中にＭＫＬＤＮＮ（ＤｅｐｔｈＬｅａｒｎｉｎｇＡｃｃｅｌｅｒａｔｉｏｎＬｉｂｒａｒｙ）をオンにすることで、ＩｎｔｅｌＣＰＵ下でのバックボーンネットワークの推論速度を上げるようにしてもよい。

ステップ２０３では、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定する。

本実施形態では、上記実行主体は、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて基本的なバックボーンネットワークを決定することができ、このうち、基本的なバックボーンネットワークは、上記トレーニング済みのバックボーンネットワークのうち、推論所要時間が少なく推論精度が高いバックボーンネットワーク、すなわち、初期バックボーンネットワークセットの中で最も効果の高いバックボーンネットワークである。

ステップ２０２の後に、初期バックボーンネットワークセットにおける各初期バックボーンネットワークに対応するトレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得ることができる。かつ、推論所要時間が少ないほど、推論精度が高いほど、バックボーンネットワークが良い、または、推論所要時間が同じである場合、推論精度が高いほどバックボーンネットワークが良い、または、推論精度が同じである場合、推論所要時間が少ないほどバックボーンネットワークが良いので、上記実行主体は、上記の規則に従って基本的なバックボーンネットワークを決定することを理解すべきである。異なるバックボーンネットワークの推論所要時間および推論精度がいずれも異なる場合、推論所要時間および推論精度に対応する比例関係に基づいて基本的なバックボーンネットワークを決定することができる。

あるいは、上記実行主体は、基本的なバックボーンネットワークを決定した後、上記基本的なバックボーンネットワークに対応する設計規則を見つけ出し、その設計規則に基づいて、上記基本的なバックボーンネットワークと同様の構造を有する他のバックボーンネットワークを決定し、ステップ２０２～２０３を繰り返し実行することにより、他のバックボーンネットワークに対応する推論所要時間および推論精度を得、上記推論所要時間および推論精度に基づいて、より効果的なバックボーンネットワークを決定し、それを基本的なバックボーンネットワークとすることができる。

ステップ２０４では、基本的なバックボーンネットワークと予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを得る。

本実施形態では、上記実行主体は、ステップ２０３で得られた基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを得ることができる。このうち、予め設定されたターゲットネットワークは、予め構築された、基本的なバックボーンネットワークの推論精度をさらに向上させることができるが、基本的なバックボーンネットワークの推論所要時間にほとんど影響を与えないネットワークであり、例えば、ターゲットネットワークには、より大きな全結合層またはより強力な活性化関数を含めることができる。

ステップ２０３で得られた基本的なバックボーンネットワークは、既に推論所要時間－推論精度をバランスよく生成されたので、本ステップでは、上記実行主体は、予め設定されたターゲットネットワークを取得し、当該ターゲットネットワークをステップ２０３で得られた基本的なバックボーンネットワークに追加してターゲットバックボーンネットワークを得ることにより、ターゲットバックボーンネットワークの推論精度をさらに向上させる。

本出願の実施形態に係るバックボーンネットワーク生成方法は、まず、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する。次に、初期バックボーンネットワークセットの中の各初期バックボーンネットワークに対して、トレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得する。次に、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定する。最後に、基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得する。本実施形態におけるバックボーンネットワーク生成方法は、ＩｎｔｅｌＣＰＵに基づいているので、本実施形態の方法によって得られたターゲットバックボーンネットワークは、ＩｎｔｅｌＣＰＵ上でより高い推論精度とより速い推論速度を有しており、また、本実施形態の方法によるターゲットバックボーンネットワークは、移行コストが低く、移行に役立つ。

本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連法律法規の規定に準拠し、且つ公序良俗に反しない。

次に、本出願に係るバックボーンネットワーク生成方法のもう一つの実施形態のフロー３００を示す図３を参照する。当該バックボーンネットワーク生成方法は、次のステップを含む。

ステップ３０１では、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する。

本実施形態において、バックボーンネットワーク生成方法の実行主体（例えば、図１に示すサーバ１０５）は、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得することができる。ステップ３０１は、上記実施形態のステップ２０１とほぼ一致し、具体的な実現方式は上記ステップ２０１の説明を参照することができ、ここではその説明を省略する。

本実施形態のいくつかのオプション的な実施形態において、初期バックボーンネットワークセットは、少なくとも１つの初期バックボーンネットワークを含み、初期バックボーンネットワークは、それぞれの軽量バックボーンネットワークのネットワークブロックを取得して、ネットワークブロックセットを取得し、ネットワークブロックセット内のネットワークブロックをランダムに組み合わせて、初期バックボーンネットワークを得ることによって得られる。

本実現方式では、まず、従来の各軽量バックボーンネットワークにおけるネットワークブロック（ｂｌｏｃｋ）を取得して、少なくとも１つのｂｌｏｃｋを含むネットワークブロックセットを得ることができ、例えば、ネットワークブロックセットにＤｅｐｔｈＳｅｐＣｏｎｖ（ＤｅｐｔｈｗｉｓｅＳｅｐａｒａｂｌｅＣｏｎｖｏｌｕｔｉｏｎ）、Ｃｈａｎｎｅｌ－Ｓｈｕｆｆｌｅｂｌｏｃｋ、Ｉｎｖｅｒｔｅｄｒｅｓｉｄｕａｌｂｌｏｃｋ、Ｇｈｏｓｔｂｌｏｃｋ、Ｆｉｒｅｂｌｏｃｋのうちの１つまたは複数を含んでもよい。ここで、ＤｅｐｔｈＳｅｐＣｏｎｖはバックボーンネットワークＭｏｂｉｌｅＮｅｔＶ１で使用されるｂｌｏｃｋであり、Ｃｈａｎｎｅｌ－ＳｈｕｆｆｌｅｂｌｏｃｋはバックボーンネットワークＳｈｕｆｆｌｅＮｅｔＶ１／Ｖ２で使用されるｂｌｏｃｋであり、ＩｎｖｅｒｔｅｄｒｅｓｉｄｕａｌｂｌｏｃｋはバックボーンネットワークＭｏｂｉｌｅＮｅｔＶ２／Ｖ３で使用されるｂｌｏｃｋであり、ＧｈｏｓｔｂｌｏｃｋはバックボーンネットワークＧｈｏｓｔＮｅｔで用いられるｂｌｏｃｋであり、ＦｉｒｅｂｌｏｃｋはバックボーンネットワークＳｑｕｅｅｚｅＮｅｔで使用されるｂｌｏｃｋである。

そして、上記実行主体は、ネットワークブロックセット内のネットワークブロックをランダムに組み合わせることで、少なくとも１つの組み合わせられた初期バックボーンネットワークを得ることができ、少なくとも１つの初期バックボーンネットワークは、初期バックボーンネットワークセットを構成する。ネットワークブロックセット中のネットワークブロックをランダムに組み合わせることにより、得られた初期バックボーンネットワークの構造は特定の構造に限らず、初期バックボーンネットワークの構造が豊富になる。

なお、ネットワークブロックセット中の任意の２つのネットワークブロックを組み合わせてもよいし、ネットワークブロックセット中の任意の３つのネットワークブロックを組み合わせてもよく、本実施形態ではランダムに組み合わせる場合に使用するｂｌｏｃｋの個数を限定しない。

ステップ３０２では、初期バックボーンネットワークセットにおける初期バックボーンネットワークごとに、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングし、トレーニング済みのバックボーンネットワークを得る。

本実施形態では、初期バックボーンネットワークセットにおける初期バックボーンネットワークごとに、バックボーンネットワーク生成方法の実行主体（例えば、図１に示すサーバ１０５）は、ステップ３０１で取得されたトレーニング画像セットを用いて初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得ることができる。上記実行主体は、ＩｍａｇｅＮｅｔ－１ｋ画像データセットを用いて初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得ることが好ましい。

ステップ３０３では、トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、推論ネットワークを用いて推論画像セットを推論し、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得る。

本実施形態では、上記実行主体は、ステップ３０２でトレーニングされたバックボーンネットワークを推論ネットワークに変換することができ、具体的な変換処理は、従来技術を用いて実現することができるので、ここではその説明を省略する。そして、上記実行主体は、得られた推論ネットワークを用いて推論画像セットを推論することにより、推論ネットワークが推論画像セット内の各画像を推論する際の推論所要時間および推論精度を得、その後、すべての画像の推論所要時間および推論精度を平均化し、その結果を推論ネットワークの推論プロセスにおける推論所要時間および推論精度とする。したがって、得られた推論ネットワークに対応する推論所要時間および推論精度は、推論ネットワークの推論プロセスにおける推論所要時間および推論精度の平均レベルをより代表できるものとなる。

ステップ３０４では、各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を２次元座標系における点としてプロットする。

本実施形態では、上記実行主体は、推論所要時間を横座標とし、推論精度を縦座標とすることにより、各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を２次元座標系における点としてプロットし、各推論ネットワークに対応する推論所要時間および推論精度の点を含む２次元座標系を得ることができる。

ステップ３０５では、２次元座標系における各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとする。

本実施形態では、上記実行主体は、２次元座標系における各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとすることができる。２次元座標系において左上に近い点ほど初期バックボーンネットワークの推論所要時間が少なく、推論精度が高いから、左上に近い点ほど初期バックボーンネットワークが良いことが理解できる。そこで、本実施形態では、２次元座標系における左上に近い点を目標点とし、この目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとして決定することにより、より高い推論精度とより短い推論所要時間を有する基本的なバックボーンネットワークを得ることができる。

ステップ３０６では、ターゲットネットワークを取得する。

本実施形態では、上記実行主体はターゲットネットワークを取得することができ、ターゲットネットワークは、予め構築された、基本的なバックボーンネットワークの推論所要時間にほとんど影響を与えることなく、その推論精度をさらに向上させることができる。ここで、ターゲットネットワークには、活性化関数、全結合層の少なくとも１つが含まれる。一例として、活性化関数は、より効果的でより強力な活性化関数であるｈ－ｓｗｉｓｈ活性化関数であってもよく、あるいは、より大きな全結合層を使用してもよい。

ステップ３０７では、ターゲットネットワークを基本的なバックボーンネットワークに追加し、ターゲットバックボーンネットワークを得る。

本実施形態では、上記実行主体は、ステップ３０６で得られたターゲットネットワークを上記基本的なバックボーンネットワークに追加して、ターゲットバックボーンネットワークを得ることができる。例えば、より大きな全結合層を基本的なバックボーンネットワークの端部に付加して、ターゲットバックボーンネットワークを得る。したがって、ターゲットバックボーンネットワークの推論所要時間を保証しながら、ターゲットバックボーンネットワークの推論精度をさらに向上させた。

図３から分かるように、図２に対応する実施形態と比較して、本実施形態におけるバックボーンネットワーク生成方法は、まず、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得し、初期バックボーンネットワークセット中の各初期バックボーンネットワークに対して、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングし、トレーニング済みのバックボーンネットワークを得る。そして、トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、推論ネットワークを用いて推論画像セットを推論し、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得る。そして、各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を２次元座標系における点としてマッピングし、２次元座標系の各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとする。最後に、ターゲットネットワークを取得し、ターゲットネットワークを基本的なバックボーンネットワークに追加して、ターゲットバックボーンネットワークを得る。本実施形態におけるバックボーンネットワーク生成方法は、ターゲットバックボーンネットワークのＩｎｔｅｌＣＰＵ上での推論所要時間を保証した上で、ターゲットバックボーンネットワークの推論精度をさらに向上させた。

次に、本出願に係るバックボーンネットワーク生成方法のもう一つの実施形態のフロー４００を示す図４を参照する。当該バックボーンネットワーク生成方法は、次のステップを含む。

ステップ４０１では、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する。

ステップ４０２では、初期バックボーンネットワークセットにおける初期バックボーンネットワークごとに、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングし、トレーニング済みのバックボーンネットワークを得る。

ステップ４０３では、トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、推論ネットワークを用いて推論画像セットを推論し、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得る。

ステップ４０４では、各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を２次元座標系における点としてプロットする。

ステップ４０５では、２次元座標系における各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとする。

ステップ４０６では、ターゲットネットワークを取得する。

ステップ４０７では、ターゲットネットワークを基本的なバックボーンネットワークに追加し、ターゲットバックボーンネットワークを得る。

ステップ４０１～４０７は上記実施形態のステップ３０１～３０７とほぼ一致し、具体的な実現方式は前記ステップ３０１～３０７の説明を参照することができ、ここではその説明を省略する。

ステップ４０８では、ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新する。

本実施形態では、バックボーンネットワーク生成方法の実行主体（例えば、図１に示すサーバ１０５）は、ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新することができ、すなわち、ターゲットバックボーンネットワークの畳み込みカーネルサイズ（ｋｅｒｎｅｌ－ｓｉｚｅ）を、現在の畳み込みカーネルサイズよりも大きな所定サイズに変更することができ、所定サイズは、状況に応じて設定することができ、本実施形態ではそれを限定しない。ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新することにより、ターゲットバックボーンネットワークの推論精度をさらに向上させることができる。

ステップ４０９では、ＳＥモジュールをターゲットバックボーンネットワークにおける所定の目標追加位置に追加し、最終的なバックボーンネットワークを得る。

本実施形態では、上記実行主体は、ＳＥモジュール（Ｓｑｕｅｅｚｅ－ａｎｄ－ＥｘｃｉｔａｔｉｏｎＮｅｔｗｏｒｋｓ）をターゲットバックボーンネットワークの所定の目標追加位置に追加して、最終的なバックボーンネットワークを得ることができる。このうち、ＳＥモジュールは各チャネル間の相関関係を学習し、チャネルに対するアテンションをスクリーニングし、ネットワークモデルの精度をさらに向上させることができ、かつ、従来のネットワークモデルフレームワークにＳＥモジュールをロードすることができる。本実施形態では、ステップ４０８で得られたターゲットバックボーンネットワークにＳＥモジュールをロードして最終的なバックボーンネットワークを得ることにより、最終的なバックボーンネットワークの推論精度をさらに向上させた。

本実施形態のいくつかのオプション的な実施形態において、上記目標追加位置は、ＳＥモジュールをターゲットバックボーンネットワーク内の異なる位置に追加して、対応する第１のバックボーンネットワークセットを得るステップと、第１のバックボーンネットワークセット内の第１のバックボーンネットワークのそれぞれに対して、第１のバックボーンネットワークを用いて推論画像セットを推論して、第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、各第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、目標追加位置を決定するステップとによって決定される。

本実現方式では、まずＳＥモジュールをターゲットバックボーンネットワークの異なる位置に追加することで、複数の対応する第１のバックボーンネットワークが得られ、複数の第１のバックボーンネットワークが第１のバックボーンネットワークセットを構成する。そして、第１のバックボーンネットワークセット内の第１のバックボーンネットワークごとに、上記第１のバックボーンネットワークを用いて推論画像セット内の推論画像を推論することにより、第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得る。最後に、各第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて最良の効果を有する第１のバックボーンネットワークを決定し、特定の決定プロセスについては、前述の実施形態を参照することができるので、ここではその説明を省略する。最良の効果を有する第１のバックボーンネットワークにおけるＳＥモジュールの追加位置は目標追加位置である。各第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいてＳＥモジュールの目標追加位置を決定することにより、ＳＥモジュールを追加した最終的なバックボーンネットワークの推論精度が向上された。

図４から分かるように、本実施形態におけるバックボーンネットワーク生成方法は、図３に対応する実施形態と比較して、ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新することと、ターゲットバックボーンネットワークにＳＥモジュールを追加することにより、最終的なバックボーンネットワークを得るステップを強調しており、最終的なバックボーンネットワークの推論精度をさらに向上させた。

次に、本出願に係る画像分類方法の一実施形態のフロー５００を示す図５を参照する。当該画像分類方法は、次のステップを含む。

ステップ５０１では、分類対象画像を取得する。

本実施形態において、画像分類方法の実行主体（例えば、図１に示すサーバ１０５）は、分類対象画像を取得することができる。分類対象画像は、ユーザが既存の画像から選択してアップロードしたものであってもよいし、ユーザが端末装置のカメラで撮影したものであってもよい。かつ、分類対象画像は、あらゆる人または物を含む画像であってもよい。本実施形態では特にこれを限定しない。

ステップ５０２では、予め生成されたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得る。

本実施形態では、上記実行主体は、上記実施形態で説明した方法により得られた、予めトレーニングされたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得ることができる。具体的には、上記実行主体は、ステップ５０１で取得された分類対象画像を、予め生成されたバックボーンネットワークに入力して、バックボーンネットワークによって分類対象画像の特徴を抽出することにより、分類対象画像に対応する画像特徴を求めることができる。

ステップ５０３では、画像特徴を分類し、分類結果を得る。

本実施形態において、上記実行主体はステップ５０２で得られた画像特徴を分類して最終的な分類結果を取得することができる。具体的には、上記実行主体は、バックボーンネットワークによって抽出された各次元の画像特徴に基づいて、各次元の画像特徴に分類タグを付与し、各分類タグに基づいて最終的な分類結果を得ることができる。

本出願の実施形態に係る画像分類方法は、まず、分類対象画像を取得し、次に、予めトレーニングされたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得、最後に、画像特徴を分類して分類結果を得る。本実施形態における画像分類方法は、予め生成されたバックボーンネットワークを用いて分類対象画像の特徴を抽出することにより、特徴抽出の速度および精度を向上させ、最終的な分類結果の精度を向上させた。

更に図６を参照すると、上記の各図に示された方法の実施態様として、本出願は、バックボーンネットワーク生成装置の一実施形態を提供し、当該装置の実施形態は、図２に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

図６に示すように、本実施形態のバックボーンネットワーク生成装置６００は、第１の取得モジュール６０１と、トレーニングモジュール６０２と、決定モジュール６０３と、取得モジュール６０４とを備える。このうち、第１の取得モジュール６０１は、トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得するように構成される。トレーニングモジュールと６０２は、初期バックボーンネットワークセット中の各初期バックボーンネットワークに対して、トレーニング画像セットと推論画像セットとを用いて、初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するように構成される。決定モジュール６０３は、各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定するように構成される。取得モジュール６０４は、基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するように構成される。

本実施形態において、バックボーンネットワーク生成装置６００における第１の取得モジュール６０１と、トレーニングモジュール６０２と、決定モジュール６０３と、取得モジュール６０４の具体的な処理およびそれらの技術効果は、それぞれ図２の対応する実施形態におけるステップ２０１～２０４の関連する説明を参照することができ、ここでその説明を省略する。

本実施形態のいくつかのオプション的な実施形態において、トレーニングモジュールは、トレーニング画像セットを用いて初期バックボーンネットワークをトレーニングし、トレーニング済みのバックボーンネットワークを得るように構成されるトレーニングサブモジュールと、トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、推論ネットワークを用いて推論画像セットを推論し、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得るように構成される推論サブモジュールとを備える。

本実施形態のいくつかのオプション的な実施形態において、決定モジュールは、推論ネットワークの推論プロセスにおける推論所要時間および推論精度を２次元座標系における点としてプロットするように構成されるプロットサブモジュールと、２次元座標系における各点から目標点を決定し、目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとするように構成される決定サブモジュールとを備える。

本実施形態のいくつかのオプション的な実施形態において、取得モジュールは、活性化関数および全結合層の少なくとも１つを含むターゲットネットワークを取得するように構成されるターゲットネットワーク取得サブモジュールと、ターゲットネットワークを基本的なバックボーンネットワークに追加して、ターゲットバックボーンネットワークを取得するように構成されるターゲットバックボーンネットワーク取得サブモジュールとを備える。

本実施形態のいくつかのオプション的な実施形態において、上記バックボーンネットワーク生成装置６００は、ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新するように構成される更新モジュールをさらに備える。

本実施形態のいくつかのオプション的な実施形態において、上記バックボーンネットワーク生成装置６００は、ＳＥモジュールをターゲットバックボーンネットワークの所定の目標追加位置に追加して最終的なバックボーンネットワークを生成するように構成される追加モジュールをさらに備える。

本実施形態のいくつかのオプション的な実施形態において、目標追加位置は、ＳＥモジュールをターゲットバックボーンネットワーク内の異なる位置に追加して、対応する第１のバックボーンネットワークセットを得るステップと、第１のバックボーンネットワークセット内の第１のバックボーンネットワークのそれぞれに対して、第１のバックボーンネットワークを用いて推論画像セットを推論して、第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、各第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、目標追加位置を決定するステップとによって決定される。

更に図７を参照すると、上記の各図に示された方法の実施態様として、本出願は、画像分類装置の一実施形態を提供し、当該装置の実施形態は、図５に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

図７に示すように、本実施形態の画像分類装置７００は、第２の取得モジュール７０１と、抽出モジュール７０２と、分類モジュール７０３とを備える。第２の取得モジュール７０１は、分類対象画像を取得するように構成される。抽出モジュール７０２は、予め生成されたバックボーンネットワークを用いて、分類対象画像の特徴を抽出して画像特徴を得るように構成される。分類モジュール７０３は、画像特徴を分類して分類結果を得るように構成される。

本実施形態において、画像分類装置７００における第２の取得モジュール７０１と、抽出モジュール７０２と、分類モジュール７０３の具体的な処理およびそれらの技術効果は、それぞれ図５の対応する実施形態におけるステップ５０１～５０３の関連する説明を参照することができ、ここでその説明を省略する。

本出願の実施形態によれば、本出願はさらに電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムを提供する。

図８は、本出願の実施形態を実施するために使用できる例示的な電子機器８００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本出願の実施形態を限定することを意図するものではない。

図８に示すように、電子機器８００は、読み出し専用メモリ（ＲＯＭ）８０２に記憶されているコンピュータプログラムまたは記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット８０１を備える。ＲＡＭ８０３には、電子機器８００の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット８０１、ＲＯＭ８０２およびＲＡＭ８０３は、バス８０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続されている。

電子機器８００において、キーボード、マウスなどの入力ユニット８０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット８０７と、磁気ディスク、光ディスクなどの記憶ユニット８０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット８０９とを備える複数のコンポーネントは、Ｉ／Ｏインターフェース８０５に接続されている。通信ユニット８０９は、電子機器８００がインターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。

計算ユニット８０１は、処理および計算機能を有する様々な汎用および／または専用処理コンポーネントであってもよい。計算ユニット８０１のいくつかの例示としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット８０１は、上述したバックボーンネットワーク生成方法または画像分類方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、バックボーンネットワーク生成方法または画像分類方法は、記憶ユニット８０８などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ８０２および／または通信ユニット８０９を介して電子機器８００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ８０３にロードされ、計算ユニット８０１によって実行されると、上述のバックボーンネットワーク生成方法または画像分類方法の１つまたは複数のステップを実行可能である。あるいは、他の実施形態において、計算ユニット８０１は、他の任意の適切な方式によって（例えば、ファームウェアによって）バックボーンネットワーク生成方法または画像分類方法を実行するように構成されていてもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも１つの入力装置および該少なくとも１つの出力装置に伝送することを含み得る。

本出願の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本出願のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置またはデバイスが使用するため、または指令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ?ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく）、且つ音入力、音声入力または、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで説明したシステムおよび技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本出願に記載された各ステップは、本出願に出願された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得する取得ステップと、
前記初期バックボーンネットワークセット中の初期バックボーンネットワークごとに、前記トレーニング画像セットと前記推論画像セットとを用いて、前記初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するトレーニング・推論ステップと、
各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定する基本的なバックボーンネットワークの決定ステップと、
前記基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するターゲットバックボーンネットワーク取得ステップと、
を含み、
前記トレーニング・推論ステップは、
前記トレーニング画像セットを用いて前記初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得るステップと、
前記トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、前記推論ネットワークを用いて前記推論画像セットを推論し、前記推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、
を含むバックボーンネットワーク生成方法。
前記基本的なバックボーンネットワークの決定ステップは、
各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を２次元座標系における点としてプロットするステップと、
前記２次元座標系における各点から目標点を決定し、前記目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとするステップと、
を含む請求項１に記載のバックボーンネットワーク生成方法。
前記ターゲットバックボーンネットワーク取得ステップは、
活性化関数および全結合層のうちの少なくとも一方を含むターゲットネットワークを取得するステップと、
前記ターゲットネットワークを前記基本的なバックボーンネットワークに追加して、ターゲットバックボーンネットワークを得るステップと、
を含む請求項１に記載のバックボーンネットワーク生成方法。
前記ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新するステップをさらに含む、請求項１～３のいずれか１項に記載のバックボーンネットワーク生成方法。
前記ターゲットバックボーンネットワークにおける所定の目標追加位置にＳＥモジュールを追加し、最終的なバックボーンネットワークを得るステップをさらに含む、請求項１～４のいずれか１項に記載のバックボーンネットワーク生成方法。
前記目標追加位置は、
前記ターゲットバックボーンネットワークの異なる位置にＳＥモジュールを追加して、対応する第１のバックボーンネットワークセットを得るステップと、
前記第１のバックボーンネットワークセット中の第１のバックボーンネットワークごとに、前記第１のバックボーンネットワークを用いて前記推論画像セットを推論し、前記第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、
各第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、前記目標追加位置を決定するステップと、
によって決定される請求項５に記載のバックボーンネットワーク生成方法。
前記初期バックボーンネットワークセットは、少なくとも１つの初期バックボーンネットワークを含み、
前記初期バックボーンネットワークは、
各軽量バックボーンネットワークのネットワークブロックを取得し、ネットワークブロックセットを得るステップと、
前記ネットワークブロックセット中のネットワークブロックをランダムに組み合わせて前記初期バックボーンネットワークを得るステップと、
によって取得される請求項１に記載のバックボーンネットワーク生成方法。
分類対象画像を取得するステップと、
請求項１～７のいずれか１項に記載のバックボーンネットワーク生成方法により予め生成されたターゲットバックボーンネットワークを用いて、前記分類対象画像の特徴を抽出して画像特徴を得るステップと、
前記画像特徴を分類して分類結果を得るステップと、
を含む画像分類方法。
トレーニング画像セット、推論画像セットおよび初期バックボーンネットワークセットを取得するように構成される第１の取得モジュールと、
前記初期バックボーンネットワークセット中の初期バックボーンネットワークごとに、前記トレーニング画像セットと前記推論画像セットとを用いて、前記初期バックボーンネットワークをトレーニングして推論を行い、トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を取得するように構成されるトレーニングモジュールと、
各トレーニング済みのバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、基本的なバックボーンネットワークを決定するように構成される決定モジュールと、
前記基本的なバックボーンネットワークと、予め設定されたターゲットネットワークとに基づいて、ターゲットバックボーンネットワークを取得するように構成される取得モジュールと、
を備え、
前記トレーニングモジュールは、
前記トレーニング画像セットを用いて前記初期バックボーンネットワークをトレーニングして、トレーニング済みのバックボーンネットワークを得るように構成されるトレーニングサブモジュールと、
前記トレーニング済みのバックボーンネットワークを推論ネットワークに変換し、前記推論ネットワークを用いて前記推論画像セットを推論し、前記推論ネットワークの推論プロセスにおける推論所要時間および推論精度を得るように構成される推論サブモジュールと、
を備えるバックボーンネットワーク生成装置。
前記決定モジュールは、
各推論ネットワークの推論プロセスにおける推論所要時間および推論精度を２次元座標系における点としてプロットするように構成されるプロットサブモジュールと、
前記２次元座標系における各点から目標点を決定し、前記目標点に対応する初期バックボーンネットワークを基本的なバックボーンネットワークとするように構成される決定サブモジュールと、
を備える請求項９に記載のバックボーンネットワーク生成装置。
前記取得モジュールは、
活性化関数および全結合層のうちの少なくとも一方を含むターゲットネットワークを取得するように構成されるターゲットネットワーク取得サブモジュールと、
前記ターゲットネットワークを前記基本的なバックボーンネットワークに追加し、ターゲットバックボーンネットワークを得るように構成されるターゲットバックボーンネットワーク取得サブモジュールと、
を備える請求項９に記載のバックボーンネットワーク生成装置。
前記ターゲットバックボーンネットワークの畳み込みカーネルサイズを更新するように構成される更新モジュールをさらに備える、請求項９～１１のいずれか１項に記載のバックボーンネットワーク生成装置。
前記ターゲットバックボーンネットワークにおける所定の目標追加位置にＳＥモジュールを追加し、最終的なバックボーンネットワークを得るように構成される追加モジュールをさらに含む、請求項９～１２のいずれか１項に記載のバックボーンネットワーク生成装置。
前記目標追加位置は、
前記ターゲットバックボーンネットワークの異なる位置にＳＥモジュールを追加して、対応する第１のバックボーンネットワークセットを得るステップと、
前記第１のバックボーンネットワークセット中の第１のバックボーンネットワークごとに、前記第１のバックボーンネットワークを用いて前記推論画像セットを推論し、前記第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度を得るステップと、
各第１のバックボーンネットワークの推論プロセスにおける推論所要時間および推論精度に基づいて、前記目標追加位置を決定するステップと、
によって決定される請求項１３に記載のバックボーンネットワーク生成装置。
前記初期バックボーンネットワークセットは、少なくとも１つの初期バックボーンネットワークを含み、
前記初期バックボーンネットワークは、
各軽量バックボーンネットワークのネットワークブロックを取得し、ネットワークブロックセットを得るステップと、
前記ネットワークブロックセット中のネットワークブロックをランダムに組み合わせて前記初期バックボーンネットワークを得るステップと、
によって取得される請求項９に記載のバックボーンネットワーク生成装置。
分類対象画像を取得するように構成される第２の取得モジュールと、
請求項１～７のいずれか１項に記載のバックボーンネットワーク生成方法により予め生成されたターゲットバックボーンネットワークを用いて、前記分類対象画像の特徴を抽出して画像特徴を得るように構成される抽出モジュールと、
前記画像特徴を分類して分類結果を得るように構成される分類モジュールと、
を備える画像分類装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が格納され、
前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～７のいずれか１項に記載のバックボーンネットワーク生成方法または請求項８に記載の画像分類方法を実行させる、電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項１～７のいずれか１項に記載のバックボーンネットワーク生成方法または請求項８に記載の画像分類方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～７のいずれか１項に記載のバックボーンネットワーク生成方法または請求項８に記載の画像分類方法が実現されるコンピュータプログラム。