JP2023011883A

JP2023011883A - 事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP2023011883A
Application number: JP2022178057A
Authority: JP
Inventors: トンシー，; teng Xi; ガンジャン，; Gang Zhang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-05
Filing date: 2022-11-07
Publication date: 2023-01-24
Also published as: US20230145853A1; CN114037058A; CN114037058B

Abstract

【課題】人工知能技術分野に関し、事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体及びプログラムを提供する。【解決手段】方法は、複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定し、複数のタスクと一対一に対応する複数の性能指標集合に基づいて、候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定し、目標モデル構造を事前トレーニングモデルとして特定する。【選択図】図２

Description

本開示は、人工知能技術分野に関し、特にコンピュータビジョン及びディープラーニングの技術分野に関する。具体的には、事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体、及びコンピュータプログラムに関する。

事前トレーニングモデルは、大量のトレーニングデータを用いて、所定モデルをトレーニングして得られた、タスクと無関係なモデルを指してもよい。下流タスクに対して、下流タスクに関連する少量のトレーニングデータを用いて、事前トレーニングモデルを微調整して、下流タスクを処理するためのモデルを取得することができる。例えば、下流タスクは、画像処理タスク、音声処理タスク又はテキスト処理タスクなどを含んでよい。

本開示は、事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体、及びコンピュータプログラムを提供する。

本開示の一態様によれば、事前トレーニングモデルの生成方法を提供し、当該方法は、複数のタスクのうちの各タスクに対して、探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定することと、前記複数のタスクと一対一に対応する複数の性能指標集合に基づいて、前記候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定することと、前記目標モデル構造を事前トレーニングモデルとして特定することと、を含む。

本開示の別の態様によれば、事前トレーニングモデルの生成装置を提供し、当該装置は、複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定する第１の特定モジュールと、前記複数のタスクと一対一に対応する複数の性能指標集合に基づいて、前記候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定する第２の特定モジュールと、前記目標モデル構造を事前トレーニングモデルとして特定する第３の特定モジュールと、を含む。

本開示の別の態様によれば、電子機器を提供し、当該電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されたメモリとを備え、前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが前記のような方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される。

本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令が、コンピュータに前記のような方法を実行させる。

本開示の別の態様によれば、コンピュータプログラムを提供し、プロセッサにより実行される場合に、前記のような方法を実現する。

理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

ここで、図面は、本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の実施例に係る事前トレーニングモデルを適用可能な生成方法及び装置の例示的なシステムアーキテクチャを模式的に示す図である。図２は、本開示の実施例に係る事前トレーニングモデルの生成方法を模式的に示すフローチャートである。図３は、本開示の実施例に係る事前トレーニングモデルの生成過程を模式的に示す原理概略図である。図４は、本開示の実施例に係る事前トレーニングモデルの生成装置を模式的に示すブロック図である。図５は、本開示の実施例に係る事前トレーニングモデルの生成方法を実現することに適する電子装置を模式的に示すブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することがなく、ここで記載される実施例に対して様々な変更・修正を行うことができると分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

事前トレーニングモデルは、次のように生成されてもよい。

１つの方式は、人工設計に基づくモデル構造を用いて事前トレーニングモデルを生成することである。すなわち、人工設計のモデル構造により、事前トレーニングモデルを取得する。例えば、人工設計のモデル構造は、ＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、残差ネットワーク）に基づくモデル構造又はＴｒａｎｓｆｏｒｍｅｒに基づくモデル構造を含んでもよい。

もう１つの方式は、自動ディープラーニング（即ちＡｕｔｏＤＬ）に基づいて探索して得られたモデル構造を用いて事前トレーニングモデルを生成することである。すなわち、自動探索方法に基づいて、ＩｍａｇｅＮｅｔデータセットを用いて、ＡｕｔｏＤＬに基づくモデル構造を取得してもよい。ＡｕｔｏＤＬに基づくモデル構造を用いて、事前トレーニングモデルを生成する。

上記１つの方式について、人工設計に基づくモデル構造を用いて生成された事前トレーニングモデルの予測精度は、高くない。上記もう１つの方式について、ＩｍａｇｅＮｅｔデータセットと実際のデータ処理タスクが利用するトレーニングセットとの間のデータ分布状況に、差異が存在し、したがって、ＡｕｔｏＤＬに基づくモデル構造を用いて生成された事前トレーニングモデルの予測精度も高くない。

このために、本開示の実施例は、事前トレーニングモデルの生成解決案を提供し、すなわち、複数のタスクのうちの各タスクに対応する性能指標集合に基づいて、候補モデル構造集合から性能指標条件を満たす目標モデル構造を特定し、候補モデル構造集合は、ハイパーネットワークに基づく探索空間から特定され、複数のタスクに対して、性能指標条件を満たす事前トレーニングモデルを自動的に探索して取得し、事前トレーニングモデルの異なる複数種のタスクに対する精度を向上させる。これにより、規模の小さい事前トレーニングモデルは、規模の大きい事前トレーニングモデルと同様の予測精度を達成することができ、かつ規模の小さい事前トレーニングモデルのトレーニング速度がより速い。これを基礎として、事前トレーニングモデルをチップ又は他のハードウェア製品に適用して、文字処理タスク、画像処理タスク又は音声処理タスク等を実行すれば、関連製品のコアコンピタンスを向上させることができる。

本開示の発明において、係るユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示および適用等の処理は、いずれも関連する法律・法規の規定に適合し、必要な秘密保守装置を行ない、かつ公序良俗に反するものではない。

本開示の技術的解決案において、ユーザの個人情報を取得し、または採集する前に、いずれもユーザの納得または同意を取得した。

図１は、本開示の実施例に係る事前トレーニングモデルを適用可能な生成方法及び装置の例示的なシステムアーキテクチャを模式的に示す図である。

留意されるべきこととして、図１に示すのは、当業者が本開示の技術的内容をより理解しやすいように本開示の実施例のシステムアーキテクチャを適用可能な例示に過ぎず、一方、本開示の実施例は、他の装置、システム、環境又はシーンに適用されないことを意味するものではない。例えば、別の実施例において、事前トレーニングモデルの生成方法及び装置を適用することができる例示的なシステムアーキテクチャは、端末装置を含んでもよいが、端末装置は、サーバと対話する必要がなく、本開示の実施例が提供する事前トレーニングモデルの生成方法及び装置を実現することができる。

図１に示すように、該実施例に係るシステムアーキテクチャ１００は、端末装置１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクの媒体を提供するために用いられる。ネットワーク１０４は、例えば、有線及び／又は無線通信リンクなどの様々な接続タイプを含んでもよい。

ユーザは、端末装置１０１、１０２、１０３を用いてネットワーク１０４を介してサーバ１０５と対話することによって、メッセージ等を受信又は送信してもよい。端末装置１０１、１０２、１０３に、例えば、知識閲覧系アプリケーション、ウェブページブラウザアプリケーション、探索系アプリケーション、リアルタイム通信ツール、メールボックスクライアント及び／又はソーシャルプラットフォームソフトウェアなど（例に過ぎない）の様々な通信クライアントアプリケーションがインストールされておいてもよい。

端末装置１０１、１０２、１０３は、表示スクリーンを備えかつウェブページの閲覧をサポートする様々な電子機器であってよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ等を含むが、それらに限定されない。

サーバ１０５は、例えば、ユーザが端末装置１０１、１０２、１０３により閲覧されたコンテンツをサポートすることを提供するバックグラウンド管理サーバ（例に過ぎない）など、様々なサービスを提供する様々なタイプのサーバであってもよい。バックグラウンド管理サーバは、受信されたユーザ要求等のデータに対する分析するなどの処理を行い、処理結果（例えば、ユーザの要求に応じて取得又は生成されたウェブページ、情報、又はデータなど）を端末装置にフィードバックしてもよい。

サーバ１０５は、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストと呼ばれ、クラウドコンピューティングサービス系統のうちの１つのホスト製品であり、従来の物理ホストとVPSサービス（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ、ＶＰＳ）において存在する管理難度が大きく、業務拡張性が弱いという欠陥が解決されている。サーバ１０５は、システムのサーバであってもよく、又はブロックチェーンを組み合わせしたサーバであってもよい。

説明すべきこととして、本開示の実施例が提供する事前トレーニングモデルの生成方法は、一般的にサーバ１０５により実行されてもよい。それに応じて、本開示の実施例が提供する事前トレーニングモデルの生成装置は、一般的にサーバ１０５に設置されてもよい。本開示の実施例が提供する事前トレーニングモデルの生成方法は、サーバ１０５とは異なりかつ端末機器１０１、１０２、１０３及び／又はサーバ１０５と通信可能なサーバ又はサーバクラスタによって実行されてもよい。それに応じて、本開示の実施例が提供する事前トレーニングモデルの生成装置は、サーバ１０５とは異なりかつ端末装置１０１、１０２、１０３及び／又はサーバ１０５と通信可能なサーバ又はサーバクラスタに設置されてもよい。

又は、本開示の実施例が提供する事前トレーニングモデルの生成方法は、一般的に端末装置１０１、１０２、又は１０３により実行されてもよい。それに応じて、本開示の実施例が提供する事前トレーニングモデルの生成装置は、端末装置１０１、１０２、又は１０３に設置されてもよい。

理解されるべきこととして、図１における端末装置、ネットワーク及びサーバの数は、単に例示的である。必要に応じて、任意の数の端末装置、ネットワーク及びサーバを備えてもよい。

図２は、本開示の実施例に係る事前トレーニングモデルの生成方法を模式的に示すフローチャートである。

図２に示すように、該方法は、操作Ｓ２１０～Ｓ２３０を含む。

操作Ｓ２１０では、複数のタスクのうちの各タスクに対して、候補モデル構造集合に対応する性能指標集合を特定し、ここで、候補モデル構造集合は、探索空間に含まれる複数のモデル構造から特定され、探索空間は、ハイパーネットワークに基づく探索空間である。

操作Ｓ２２０では、複数の性能指標集合に基づいて、候補モデル構造集合から目標モデル構造を特定し、ここで、目標モデル構造は性能指標条件を満たすモデル構造であり、複数の性能指標集合は、複数のタスクと一対一に対応する。

操作Ｓ２３０では、目標モデル構造を事前トレーニングモデルとして特定する。

本開示の実施例によれば、タスクは、例えば、画像処理タスク、テキスト処理タスク及び音声処理タスクなどに分けられるように、処理データに応じて分類されてもよい。複数のタスクのそれぞれは、画像処理タスク、テキスト処理タスク、音声処理タスクのいずれかであってもよい。しかし、それに限定されない。タスクは、例えば、分類タスク、検出タスク、分割タスク、識別タスク、検索タスクなどに分けられるように、適用分野に応じて分類されてもよい。複数のタスクのそれぞれは、分類タスク、検出タスク、分割タスク、認識タスク、検索タスクのいずれかであってもよい。

本開示の実施例によれば、初期探索空間とは、モデル構造を提供するための空間であることを意味してもよい。初期探索空間は、１つ以上のハイパーネットワークに基づく探索空間を含んでもよい。初期探索空間は、全量の探索空間であってもよい。

本開示の実施例によれば、複数のタスクの需要に応じて、複数のタスクに一対一に対応する複数の初期探索空間を構築してよもよく、例えば、複数のタスクのうちの各タスクに対して、初期探索空間は、タスクに対応する探索空間を含んでもよい。例えば、初期探索空間は、タスクに対応する、ＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、残差ネットワーク）に基づく探索空間、ＭｏｂｉｌｅＮｅｔに基づく探索空間、Ｔｒａｎｓｆｏｒｍｅｒに基づく探索空間などのうちの１つを含んでもよい。しかし、それに限定されない。複数のタスクの需要に応じて、１つの初期探索空間を構築してもよい。例えば、複数のタスクに対して、初期探索空間は、異種探索空間を含んでもよい。異種探索空間は、異なるタイプの探索空間を含む探索空間を指してもよい。例えば、異種探索空間は、複数のタスクに一対一に対応する複数の探索空間を含む探索空間を指してもよい。

本開示の実施例によれば、初期探索空間は、複数のモデル構造を含んでもよい。モデル構造は、上記１つ以上のタスクを実行するためのモデル構造であってもよい。各モデル構造は、少なくとも１つのモデルサブ構造と、異なるモデルサブ構造との間の接続関係を含んでもよい。各モデル構造は、異なるモデルサブ構造の間の接続関係に基づいて、少なくとも１つのモデルサブ構造を接続して得られる構造であってもよい。各モデル構造が含む少なくとも１つのモデルサブ構造は、少なくとも１つの操作層からの構造であってもよく、すなわち、各モデル構造は、異なるモデルサブ構造の間の接続関係に基づいて、少なくとも１つの操作層からの少なくとも１つのモデルサブ構造を接続して得られる構造であってもよい。例えば、少なくとも１つの操作層は、入力層、畳み込み層、プーリング層、全結合層、バッチ正規化層及び非線形層などのうちの少なくとも１つを含んでもよい。少なくとも１つのモデルサブ構造は、畳み込み構造（すなわち、畳み込みカーネル）、プーリング構造（すなわち、プーリングカーネル）、全結合構造及び正規化構造などのうちの少なくとも１つを含んでもよい。異なるモデルサブ構造のハイパーパラメータは、同じであるか又は異なる。モデルサブ構造のハイパーパラメータは、モデルサブ構造のサイズ、モデルサブ構造の数及びステップサイズなどのうちの少なくとも１つを含んでもよい。例えば、畳み込み構造のハイパーパラメータは、畳み込み構造のサイズ、畳み込み構造の数及び畳み込みステップサイズを含んでもよい。接続関係は、加算及びチャネル合併等の少なくとも１つを含んでもよい。

本開示の実施例によれば、初期探索空間は、探索空間の生成ポリシーに基づいて生成されてもよい。生成ポリシーは、タスク生成需要に応じて特定されてもよい。例えば、タスク生成需要に応じて、所望のモデルサブ構造の数、モデルサブ構造のタイプとモデルサブ構造との間の接続関係を特定してもよい。モデルサブ構造の数及びモデルサブ構造のタイプに基づいて、少なくとも１つのモデルサブ構造を特定する。モデルサブ構造の間の接続関係に基づいて、少なくとも１つのモデルサブ構造を関連し、少なくとも１つのモデル構造を取得する。少なくとも１つのモデル構造に基づいて、初期探索空間を取得する。

本開示の実施例によれば、ハイパーネットワークは、探索ポリシーに基づいて初期探索空間から特定された、複数のモデル構造を含むネットワークであってもよい。複数のタスクに対して、複数のタスクに一対一に対応する複数の初期探索空間を特定し、複数の初期探索空間に基づいて、複数の初期探索空間に一対一に対応する複数のハイパーネットワークを特定してもよい。例えば、タスクの数は、３つを含み、それぞれタスクＡ、タスクＢ及びタスクＣであり、タスクＡに対応する初期探索空間１、タスクＢに対応する初期探索空間２、タスクＣに対応する初期探索空間３をそれぞれ構築し、探索ポリシーに基づいて、初期探索空間１からタスクＡに対応するハイパーネットワーク１’を特定し、初期探索空間２からタスクＢに対応するハイパーネットワーク２’を特定し、及び初期探索空間３からタスクＣに対応するハイパーネットワーク３’を特定する。

本開示の別の実施例によれば、複数のタスクに対して、複数のタスクに合わせた、異種探索空間を含む初期探索空間を特定してもよい。探索ポリシーに基づいて、異種探索空間を含む初期探索空間から複数のタスクに一対一に対応する複数のハイパーネットワークを特定してもよい。例えば、探索ポリシーに基づいて、異種探索空間を含む初期探索空間から、タスクＡに対応するハイパーネットワーク１’、タスクＢに対応するハイパーネットワーク２’、及びタスクＣに対応するハイパーネットワーク３’を特定する。

本開示の実施例によれば、探索ポリシーは、初期探索空間からハイパーネットワークを特定するためのポリシーを指してもよい。したがって、ハイパーネットワークに基づく探索空間は、初期探索空間のサブ空間であると考えられ、これにより、ハイパーネットワークに基づく探索空間の構成は、初期探索空間と同じであり、すなわち、ハイパーネットワークに基づく探索空間は、複数のモデル構造を含んでもよい。各モデル構造は、少なくとも１つのモデルサブ構造と、異なるモデルサブ構造との間の接続関係を含んでもよい。

本開示の実施例によれば、ハイパーネットワークに基づく探索空間は、ハイパーネットワークに含まれる全てのモデル構造の探索空間であってもよい。複数のタスクに一対一に対応する複数のハイパーネットワークのうちの各ハイパーネットワークに対して、ハイパーネットワークに対応するタスクのトレーニングセットを用いてハイパーネットワークをトレーニングし、トレーニングされたハイパーネットワークを取得してもよい。ハイパーネットワークのトレーニングを完了した後、複数のトレーニングされたハイパーネットワークのうちの各トレーニングされたハイパーネットワークに含まれる各モデル構造のモデルパラメータが特定される。

本開示の実施例によれば、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造のうちの各モデル構造のモデルパラメータが特定される。ハイパーネットワークに基づく探索空間は、複数を含んでもよく、複数の探索空間は、複数のタスクと一対一に対応する。ハイパーネットワークに基づく探索空間は、タイプの異なる複数の探索空間のうちの１つの異種探索空間を含んでもよい。

本開示の実施例によれば、候補モデル構造集合は、目標モデル構造を特定するための集合を指してもよい。候補モデル集合は、スクリーニングポリシーに基づいて、探索空間に含まれる複数のモデル構成から特定されてもよい。候補モデル構成集合は、複数のモデル構成を含んでもよい。候補モデル構造集合に含まれるモデル構造を候補モデル構造と称してもよく、すなわち、候補モデル構造集合は、複数の候補モデル構造を含んでもよい。スクリーニングポリシーは、スクリーニング需要に応じて特定されてもよい。例えば、スクリーニング需要に応じて、所望のモデル構造の数及びモデル構造のタイプを特定してもよい。探索空間から、所望のモデル構造の数やタイプの要求に合わせた複数のモデル構造を探索する。複数のモデル構造に基づいて、候補モデル構造集合を取得する。ランダムサンプリングポリシーに基づいて、探索空間から、所望のモデル構造の数及びタイプの要求に合わせた複数のモデル構造を探索してもよい。候補モデル構造集合に含まれる候補モデル構造の数は、所定数閾値以上であってもよい。例えば、所定数閾値は、１００万個である。

本開示の例示的な実施例によれば、複数の候補モデル集合のうちの各候補モデル構造集合に対して、タスクに対応する探索空間から、複数の候補モデル構造を特定してもよい。例えば、タスクＡに対して、タスクＡに対応するハイパーネットワーク１’に基づく探索空間から、複数の候補モデル構造を特定し、タスクＡに対応する候補モデル構造集合を形成し、タスクＢに対して、タスクＢに対応するハイパーネットワーク２’に基づく探索空間から、複数の候補モデル構造を特定し、タスクＢに対応する候補モデル構造集合を形成する。

本開示の実施例が提供する候補モデル構造集合の特定方式を用い、自動的に探索することができるだけでなく、知能性を向上させ、かつ候補モデル構造集合のうちの複数の候補モデル構造の間の多様性を豊富にすることができる。

本開示の実施例によれば、複数の性能指標集合は、複数のタスクと一対一に対応する。複数の性能指標集合のうちの各性能指標集合は、複数の性能指標を含んでいてもよい。性能指標は、候補モデル構造のタスクに対する性能を評価するための指標値であってもよい。例えば、第１の性能評価集合は、タスクＡに対する複数の候補モデル構造に一対一に対応する複数の性能指標を含む。第２の性能評価集合は、タスクＢに対する複数の候補モデル構成と一対一に対応する複数の性能指標を含む。

本開示の実施例によれば、少なくとも１つの性能指標項を用いて、複数のタスクの適用における各候補モデル構造の性能表現を評価してもよく、各性能指標項は、該性能指標項に対応する性能指標を有する。性能指標項は、精度（ｐｒｅｃｉｓｉｏｎ）、正確度（ａｃｃｕｒａｃｙ）、リコール率、トレーニング速度、予測速度のうちの少なくとも１つを含んでもよい。それに応じて、性能指標は、精度値、正確度値、リコール率値、トレーニング速度値、予測速度値などのうちの少なくとも１つを含んでもよい。

本開示の実施例によれば、複数のタスクのうちの各タスクに対して、各タスクは、複数の候補モデル構造のうちの各候補モデル構造に対応する少なくとも１つの性能指標を有し、これにより、各タスクは、該タスクに対応する複数の候補モデル構造に関する性能指標集合を有する。

本開示の実施例によれば、性能指標条件は、候補モデル構造集合から、目標モデル構造を特定する条件として用いられてもよい。例えば、性能指標は、精度値、正確度値、リコール率値、トレーニング速度値、予測速度値のうちの少なくとも１つを含んでもよい。性能指標条件は、目標モデル構造が、精度値が精度指標条件を満たすモデル構造であることであってもよい。しかし、それに限定されない。性能指標条件は、さらに、目標モデル構造が、リコール率値がリコール指標条件を満たすモデル構造であることであってもよい。

本開示の実施例によれば、各候補モデル構造の複数のタスクのうちの各タスクに対応する少なくとも１つの性能指標が特定された後、性能指標条件及び複数のタスクのうちの各タスクに対応する性能指標集合に基づいて、複数の候補モデル構造から、目標モデル構造を特定してもよい。

本開示の実施例によれば、性能指標条件及び複数のタスクのうちの各タスクに対応する性能指標集合に基づいて、複数の候補モデル構造から、目標モデル構造を特定することは、複数のタスクのうちの各タスクに対して、タスクに対応する性能指標集合から、複数の候補モデル構造のうちの各候補モデル構造の単一性能指標を特定し、候補モデル構造の単一性能指標に基づいて、候補モデル構造の複数のタスクに対する総合性能指標を特定することを含んでもよい。複数の候補モデル構造に一対一に対応する複数の総合性能指標に基づいて、候補モデル構造集合のうちの複数の候補モデル構造をソートし、ソート結果を取得してもよい。ソート結果に基づいて、複数の候補モデル構造から、目標モデル構造を特定する。ソートは、総合性能指標に応じて小さい順にソートするか又は総合性能指標に応じて大きい順にソートすることを含んでもよい。異なる総合性能指標のソート方式は、実際の業務需要に応じて配置されてもよく、ここでは限定されない。

本開示の実施例によれば、候補モデル構造の単一性能指標に基づいて、候補モデル構造の複数のタスクに対する総合性能指標を特定することは、候補モデル構造に対応する複数の単一性能指標を重み付け加算して、総合性能指標を取得することを含んでもよい。

例えば、性能指標項は、１つを含み、例えば精度である。タスクの数は、３つを含み、それぞれタスクＡ、タスクＢ及びタスクＣである。候補モデル構造集合は、３つの候補モデル構造を含み、それぞれ候補モデル構造ａ、候補モデル構造ｂ及び候補モデル構造ｃである。複数のタスクに一対一に対応する複数の性能指標集合は、タスクＡに対応する性能指標集合と、タスクＢに対応する性能指標集合と、タスクＣに対応する性能指標集合とを含む。タスクＡに対応する性能指標集合は、候補モデル構造ａ、候補モデル構造ｂ及び候補モデル構造ｃのそれぞれタスクＡに対する単一性能指標Ａ_ａｐ、単一性能指標Ａ_ｂｐ及び単一性能指標Ａ_ｃｐを含む。タスクＢに対応する性能指標集合は、候補モデル構造ａ、候補モデル構造ｂ及び候補モデル構造ｃのそれぞれタスクＢに対する単一性能指標Ｂ_ａｐ、単一性能指標Ｂ_ｂｐ及び単一性能指標Ｂ_ｃｐを含む。タスクＣに対応する性能指標集合は、候補モデル構造ａ、候補モデル構造ｂ及び候補モデル構造ｃのそれぞれタスクＣに対する単一性能指標Ｃ_ａｐ、単一性能指標Ｃ_ｂｐ及び単一性能指標Ｃ_ｃｐを含む。

候補モデル構造ａについて、総合性能指標は、単一性能指標Ａ_ａｐ、単一性能指標Ｂ_ａｐ及び単一性能指標Ｃ_ａｐに基づいて重み付け加算して特定されてもよい。

候補モデル構造ｂについて、総合性能指標は、単一性能指標Ａ_ｂｐ、単一性能指標Ｂ_ｂｐ及び単一性能指標Ｃ_ｂｐに基づいて重み付け加算して特定されてもよい。

候補モデル構造ｃについて、総合性能指標は、単一性能指標Ａ_ｃｐ、単一性能指標Ｂ_ｃｐ及び単一性能指標Ｃ_ｃｐに基づいて重み付け加算して特定されてもよい。

同様の方式で、複数の候補モデル構造に一対一に対応する複数の総合性能指標に基づいてソートし、ソート結果に基づいて、候補モデル構造ａ、候補モデル構造ｂ及び候補モデル構造ｃから、候補モデル構造ｃを目標モデル構造として特定してもよい。

本開示の実施例によれば、複数のタスクのうちの各タスクに対応する性能指標集合に基づいて、候補モデル構造集合から、性能指標条件を満たす目標モデル構造を特定し、候補モデル構造集合は、ハイパーネットワークに基づく探索空間から特定され、複数のタスクに対して性能指標条件を満たす事前トレーニングモデルを自動的に探索して取得することを実現し、事前トレーニングモデルの異なる複数種のタスクに対する精度を向上させる。これにより、規模の小さい事前トレーニングモデルは、規模の大きい事前トレーニングモデルと同様の予測精度を達成することができ、かつ規模の小さい事前トレーニングモデルのトレーニング速度がより速い。これを基礎として、事前トレーニングモデルがチップ又は他のハードウェア製品に適用されて、テキスト処理タスク、画像処理タスク又は音声処理タスク等を実行すれば、関連製品のコアコンピタンスを向上させることができる。

本開示の実施例によれば、上記事前トレーニングモデルの生成方法は、さらに、以下の操作を含んでよい。

複数のタスクのうちの各タスクに対して、タスクに対応するトレーニングセットを用いて、タスクに対応するハイパーネットワークをトレーニングし、タスクに対応するトレーニングされたハイパーネットワークを取得する。複数のタスクに一対一に対応する複数のトレーニングされたハイパーネットワークに基づいて、探索空間を取得する。

本開示の実施例によれば、複数のタスクに一対一に対応する複数のトレーニングセットに合わせてもよく、各トレーニングセットは、タスクに対応するハイパーネットワークをトレーニングするために用いられる。各トレーニングセットは、複数のトレーニングデータを含んでもよい。トレーニングデータは、サーバが端末装置により取得されたサンプルデータであってもよく、サーバにより取得されたローカルに記憶されたサンプルデータであってもよく、インターネット等の経路を介して取得されたサンプルデータであってもよい。

本開示の実施例によれば、探索ポリシーに基づいて、初期探索空間から、ハイパーネットワークを特定してもよい。損失関数に基づいて、トレーニングセットを用いてハイパーネットワークをトレーニングし、トレーニングされたハイパーネットワークを取得する。例えば、損失関数に基づいて、トレーニングセットを用いて、損失関数の出力値を取得し、損失関数の出力値に基づいて、所定の条件を満たすまでハイパーネットワークのモデルパラメータを調整し、所定の条件を満たす場合に得られたハイパーネットワークを、トレーニングされたハイパーネットワークとして特定してもよい。

本開示の実施例によれば、複数のトレーニングされたハイパーネットワークを取得した後、複数のトレーニングされたハイパーネットワークに基づいて、ハイパーネットワークに基づく探索空間を取得してもよい。ハイパーネットワークに基づく探索空間は、複数のトレーニングされたハイパーネットワークに含まれる全てのモデル構造の探索空間であってもよい。トレーニングが完了してトレーニングされたハイパーネットワークを取得した後、トレーニングされたハイパーネットワークに含まれる各モデル構造のモデルパラメータが特定され、したがって、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造のうちの各モデル構造のモデルパラメータも特定される。

本開示の実施例によれば、操作Ｓ２１０について、複数のタスクのうちの各タスクに対して、候補モデル構造集合に対応する性能指標集合を特定することは、以下の操作を含んでもよい。

複数のタスクのうちの各タスクに対して、タスクに対応する性能予測器を用いて、候補モデル構造集合を処理し、候補モデル構造集合に対応する性能指標集合を取得する。

本開示の実施例によれば、性能予測器は、モデル構造の性能を予測するために用いられる。性能予測器は、モデル構造とモデル構造の性能との間を表すモデルであってもよい。性能予測器は、機械学習モデル又はディープラーニングモデルを用いてトレーニングされたモデル構造とモデル構造の性能との間のモデルであってもよい。例えば、機械学習モデルは、ランダムフォレストモデル又はリッジ回帰モデル等を含んでもよい。性能予測器は、統計モデルを用いて構築されたモデル構造とモデル構造の性能との関係を表すモデルであってもよい。統計モデルは、確率分布モデルを含んでもよい。例えば、確率分布モデルは、ガウス分布モデルなどを含んでもよい。

本開示の実施例によれば、複数のタスクに一対一に対応する複数の性能予測器を構築してもよい。複数のタスクのうちの各タスクに対して、タスクに対応する性能予測器を用いて、候補モデル構造集合に対応する単一性能指標集合を特定する。

本開示の実施例によれば、上記事前トレーニングモデルの生成方法は、さらに、以下の操作を含んでもよい。

探索空間から、評価モデル構造集合を特定する。評価モデル構造集合を用いて、複数のタスクに一対一に対応する複数の性能予測器を取得する。

本開示の実施例によれば、評価モデル構造集合は、複数のモデル構造を含んでもよい。評価モデル構造集合に含まれるモデル構造を、評価モデル構造と称してもよい。評価モデル構造とは、ハイパーネットワークに基づく探索空間のうち、代表的なモデル構造であってもよい。代表的とは、探索空間におけるモデル構造が有する特徴を示すことが可能であることを指してもよい。評価モデル構造のモデルパラメータは、ハイパーネットワークにおける評価モデル構造に対応するモデル構造のモデルパラメータに基づいて特定されてもよく、すなわち、評価モデル構造のモデルパラメータは、ハイパーネットワークにおける評価モデル構造に対応するモデル構造のモデルパラメータと一致してもよい。評価モデル構造は、性能予測器の構築に関与してもよい。

本開示の実施例によれば、代表的なポリシーに基づいて、探索空間から複数のモデル構造を特定し、複数のモデル構造に基づいて、評価モデル構造集合を取得してもよい。さらに、複数のタスクに一対一に対応する複数の評価セットに基づいて、評価モデル構造集合を用いて、複数のタスクに一対一に対応する複数の性能予測器を取得する。複数の評価セットのうちの各評価セットは、複数のトレーニングサンプルを含んでもよい。

本開示の実施例によれば、複数のタスクに一対一に対応する複数の評価セットに基づいて、評価モデル構造集合を用いて、複数のタスクに一対一に対応する複数の性能予測器を取得することは、複数のタスクのうちの各タスクに対して、評価モデル構造集合を用いて、タスクに対応する評価セットを処理し、評価モデル構造集合に対応する性能指標集合を取得することを含んでもよい。複数のタスクのうちの各タスクに対して、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合と、所定モデルとを用いて、タスクに対応する性能予測器を取得する。

本開示の実施例によれば、複数のタスクのうちの各タスクに対して、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合と、所定モデルとを用いて、タスクに対応する性能予測器を取得することは、複数のタスクのうちの各タスクに対して、評価モデル構造集合に対応する性能指標集合に基づいて、予測方法を用いて初期確率モデルのハイパーパラメータを更新し、ハイパーパラメータの予測値を取得することを含んでもよい。ハイパーパラメータの予測値に基づいて、性能予測器を特定する。初期確率モデルは、初期探索空間に対応する確率分布モデルを初期化して得られた確率分布モデルであってもよい。

本開示の実施例によれば、複数のタスクのうちの各タスクに対して、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合と、所定モデルとを用いて、性能予測器を取得することは、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合とを用いて、機械学習モデル又はディープラーニングモデルをトレーニングし、性能予測器を取得することを含んでもよい。

本開示の実施例によれば、評価モデル構造集合を用いて、性能予測器を取得することは、評価モデル構造集合を用いて評価セットを処理し、評価モデル構造集合に対応する精度評価値集合を取得することと、評価モデル構造集合と、評価モデル構造集合に対応する精度指標集合とを用いて、精度予測器を取得することとの少なくとも１つを含んでもよい。

本開示の実施例によれば、精度予測器は、モデル構造の精度値を予測するために用いられてもよい。

評価モデル構造集合に対応する評価モデルコード集合を特定する。

本開示の実施例によれば、複数のタスクのうちの各タスクに対して、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合とを用いて、タスクに対応する性能予測器を取得することは、以下の操作を含んでもよい。

複数のタスクのうちの各タスクに対して、評価モデル構造集合に対応する評価モデルコード集合と、性能指標集合とを用いて、タスクに対応する性能予測器を取得する。

本開示の実施例によれば、モデル構造は、モデルコードで示されてもよく、すなわち、コード生成器を用いて、評価モデル構造集合における各評価モデル構造を処理し、各評価モデル構造に対応する評価モデルコードを取得してもよい。

本開示の実施例によれば、探索空間から、評価モデル構造集合を特定することは、以下の操作を含んでもよい。

探索空間に含まれる複数のモデル構成のうちの各モデル構成に対応する情報エントロピーを特定する。探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、探索空間から評価モデル構造集合を特定する。

本開示の実施例によれば、情報エントロピーは、情報量のメジャーを示すために用いられてもよい。モデル構造の情報エントロピーを用いて、探索空間に含まれる複数のモデル構造から、評価モデル構造集合を特定してもよい。

本開示の実施例によれば、探索空間に含まれる複数のモデル構造のうちの各モデル構造のモデルコードを特定してもよい。確率モデルのハイパーパラメータと、各モデル構造のモデルコードとに基づいて、共分散行列を特定する。さらに、共分散行列に基づいて、各モデル構造の情報エントロピーを特定する。上記モデル構造の情報エントロピーの特定する方式は、例示的な実施例だけであり、それに限定されなく、本分野の既知の特定する方式を含んでもよく、モデル構造の情報エントロピーの特定を実現することができればよい。

本開示の実施例によれば、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、探索空間から評価モデル構造集合を特定することは、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーをソートすることと、ソート結果に基づいて、探索空間から評価モデル構造集合を特定することとを含んでもよい。ソートは、情報エントロピーの大きい順にソートするか、又は情報エントロピーの小さい順にソートすることを含んでもよい。例えば、情報の大きい順に、探索空間に含まれる複数のモデル構造のうちの各モデル構造をソートし、ソート結果のうちソートして上位の所定数のモデル構造を、評価モデル構造集合として特定してもよい。候補として、情報エントロピー閾値と、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーとに基づいて、探索空間に含まれる複数のモデル構造から、評価モデル構造集合を特定してもよい。例えば、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対して、モデル構造の情報エントロピーが情報エントロピー閾値以上であることを特定した場合、モデル構造を評価モデル構造として特定する。

本開示の実施例によれば、探索空間から評価モデル構造集合を特定することは、以下の操作を含んでもよい。

探索空間に含まれる複数のモデル構造に基づいて、探索空間に対応する少なくとも１つのクラスタセンターを特定する。探索空間に対応する少なくとも１つのクラスタセンターに基づいて、探索空間から評価モデル構造集合を特定する。

本開示の実施例によれば、クラスタリングアルゴリズムを用いて、探索空間に含まれる複数のモデル構造のうちのモデル構造を処理し、探索空間に対応する少なくとも１つのクラスタセンターを取得してもよい。クラスタリングアルゴリズムは、Ｋ平均値クラスタリングアルゴリズム、Ｋ中心クラスタリングアルゴリズム、ＣＬＡＲＡ（ＣｌｕｓｔｅｒｉｎｇＬＡＲｇｅＡｐｐｌｉｃａｔｉｏｎ）アルゴリズム又はファジィＣ平均値アルゴリズムを含んでもよい。

本開示の実施例によれば、探索空間に対応する少なくとも１つのクラスタセンターのうちの各クラスタセンターを評価モデル構造として特定してもよい。

以上、例示的な実施例だけであり、それに限定されるものではなく、事前トレーニングモデルの予測精度を向上させることができれば、本分野の既知の他の事前トレーニングモデルの生成方法を含んでもよい。

以下、図３を参照し、具体的な実施例を参照して例えば図２に示す方法をさらに説明する。

図３は、本開示の実施例に係る事前トレーニングモデルの生成過程を模式的に示す原理概略図である。

図３に示すように、３００において、ハイパーネットワークに基づく探索空間３０１から、評価モデル構造集合３０２を特定する。複数のタスクのうちの各タスクに対して、評価モデル構造３０２を用いて、タスクに対応する評価セット３０３を処理し、評価モデル構造集合３０２のタスクに対応する性能指標集合３０４を取得する。

複数のタスクのうちの各タスクに対して、評価モデル構造集合３０２、評価モデル構造集合３０２のタスクに対応する性能指標集合３０４及び所定モデル３０５を用いて、タスクに対応する性能予測器３０６を取得する。

複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間３０１から、タスクに対応する候補モデル構造集合３０７を特定する。

複数のタスクのうちの各タスクに対して、タスクに対応する性能予測器３０６を用いて、タスクに対応する候補モデル構造集合３０７を処理し、タスクに対応する性能指標集合３０８を取得する。

複数のタスクに一対一に対応する複数の性能指標集合３０８に基づいて、候補モデル構造集合３０７から、目標モデル構造３０９を特定する。目標モデル構造３０９を事前トレーニングモデル３１０とする。

図４は、本開示の実施例に係る事前トレーニングモデルの生成装置を模式的に示すブロック図である。

図４に示すように、事前トレーニングモデルの生成装置４００は、第１の特定モジュール４１０と、第２の特定モジュール４２０と、第３の特定モジュール４３０とを含んでもよい。

第１の特定モジュール４１０は、複数のタスクのうちの各タスクに対して、候補モデル構造集合に対応する性能指標集合を特定し、ここで、候補モデル構造集合は、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される。

第２の特定モジュール４２０は、複数のタスクと一対一に対応する複数の性能指標集合に基づいて、候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定する。

第３の特定モジュール４３０は、目標モデル構造を事前トレーニングモデルとして特定する。

本開示の実施例によれば、上記事前トレーニングモデルの生成装置４００は、第１の取得モジュールと、第２の取得モジュールとをさらに含んでもよい。

第１の取得モジュールは、複数のタスクのうちの各タスクに対して、タスクに対応するトレーニングセットを用いて、タスクに対応するハイパーネットワークをトレーニングし、タスクに対応するトレーニングされたハイパーネットワークを取得する。

第２の取得モジュールは、複数のタスクに一対一に対応する複数のトレーニングされたハイパーネットワークに基づいて、探索空間を取得する。

本開示の実施例によれば、第１の特定モジュール４１０は、第１の取得サブモジュールを含んでもよい。

第１の取得サブモジュールは、複数のタスクのうちの各タスクに対して、タスクに対応する性能予測器を用いて、候補モデル構造集合を処理し、候補モデル構造集合に対応する性能指標集合を取得する。

本開示の実施例によれば、上記事前トレーニングモデルの生成装置４００は、第４の特定モジュールと、第３の取得モジュールとをさらに含んでもよい。

第４の特定モジュールは、探索空間から評価モデル構造集合を特定する。

第３の取得モジュールは、評価モデル構造集合を用いて、複数のタスクに一対一に対応する複数の性能予測器を取得する。

本開示の実施例によれば、第３の取得モジュールは、第２の取得サブモジュールと、第３の取得サブモジュールとを含んでもよい。

第２の取得サブモジュールは、複数のタスクのうちの各タスクに対して、評価モデル構造集合を用いて、タスクに対応する評価セットを処理し、評価モデル構造集合に対応する性能指標集合を取得する。

第３の取得サブモジュールは、複数のタスクのうちの各タスクに対して、評価モデル構造集合及び評価モデル構造集合に対応する性能指標集合を用いて、タスクに対応する性能予測器を取得する。

本開示の実施例によれば、上記事前トレーニングモデルの生成装置５００は、第５の特定モジュールをさらに含んでもよい。

第５の特定モジュールは、評価モデル構造集合に対応する評価モデルコード集合を特定する。

本開示の実施例によれば、第３の取得サブモジュールは、第１の取得ユニットを含んでもよい。

第１の取得ユニットは、複数のタスクのうちの各タスクに対して、評価モデル構造集合に対応する評価モデルコード集合及び性能指標集合を用いて、タスクに対応する性能予測器を取得する。

本開示の実施例によれば、第４の特定モジュールは、第１の特定サブモジュールと、第２の特定サブモジュールとを含んでもよい。

第１の特定サブモジュールは、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーを特定する。

第２の特定サブモジュールは、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、探索空間から評価モデル構造集合を特定する。

本開示の実施例によれば、第４の特定モジュールは、第３の特定サブモジュールと、第４の特定サブモジュールとを含んでもよい。

第３の特定サブモジュールは、探索空間に含まれる複数のモデル構造に基づいて、探索空間に対応する少なくとも１つのクラスタセンターを特定する。

第４の特定サブモジュールは、探索空間に対応する少なくとも１つのクラスタセンターに基づいて、探索空間から評価モデル構造集合を特定する。

本開示の実施例によれば、性能指標集合に含まれる複数の性能指標のうちの各性能指標は、精度、リコール率、トレーニング速度、予測速度の少なくとも１つを含む。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。

本開示の実施例によれば、電子機器は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信接続されるメモリとを備え、ここで、メモリには、少なくとも１つのプロセッサにより実行可能な命令が記憶されており、命令は、少なくとも１つのプロセッサが上記のような方法を実行することができるように、少なくとも１つのプロセッサにより実行される。

本開示の実施例によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、コンピュータ命令がコンピュータに上記のような方法を実行させる。

本開示の実施例によれば、コンピュータプログラムであって、プロセッサにより実行される時に上記のような方法を実現する。

図５は、本開示の実施例を実施可能な電子機器５００を模式的に示すブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを示すことを目的とする。電子機器は、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の演算装置という様々な形式の移動装置をさらに示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は、例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定しない。

図５に示すように、装置５００は、演算ユニット５０１を含み、演算ユニット５０１は、リードオンリーメモリ（ＲＯＭ）５０２に記憶されたコンピュータプログラム又は記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。ＲＡＭ５０３には、さらに装置５００の操作に必要な様々なプログラム及びデータを記憶してもよい。演算ユニット５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４を介して相互に接続される。入出力インタフェース５０５も、バス５０４に接続される。

装置５００における複数の部品は、Ｉ／Ｏインタフェース５０５に接続され、Ｉ／Ｏインタフェース５０５は、例えばキーボード、マウス等の入力ユニット５０６と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット５０７と、例えば磁気ディスク、光ディスク等の記憶ユニット５０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット５０９とを含む。通信ユニット５０９は、機器５００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信ネットワークを介して他の機器と情報／データをやり取りすることを可能にする。

演算ユニット５０１は、処理及び演算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。演算ユニット５０１の幾つかの例としては、中央処理装置（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種動作機械学習モデルアルゴリズムをランニングする演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、それらに限定されない。演算ユニット５０１は、例えば事前トレーニングモデルの生成方法のような上記に記載の各方法及び処理を実行する。例えば、いくつかの実施例において、事前トレーニングモデルの生成方法は、例えば記憶ユニット５０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ５０２及び／又は通信ユニット５０９を介して装置５００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ５０３にロードされて演算ユニット５０１により実行される場合、上記に記載の事前トレーニングモデルの生成方法の１つ又は複数の操作を実行してもよい。代替的に、他の実施例において、演算ユニット５０１は、他の任意の適切な方式（例えば、ファームウェアを介する）により事前トレーニングモデルの生成方法を実行するように構成されてもよい。

本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び／又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数の言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んでか又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んででもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせしたサーバであってもよい。

理解されるべきこととして、以上に示した様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発明に記載の各操作は、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解されるべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定することと、
前記複数のタスクと一対一に対応する複数の性能指標集合に基づいて、前記候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定することと、
前記目標モデル構造を事前トレーニングモデルとして特定することと、を含む、
事前トレーニングモデルの生成方法。
複数のタスクのうちの各タスクに対して、前記タスクに対応するトレーニングセットを用いて前記タスクに対応するハイパーネットワークをトレーニングし、前記タスクに対応するトレーニングされたハイパーネットワークを取得することと、
前記複数のタスクに一対一に対応する複数のトレーニングされたハイパーネットワークに基づいて、前記探索空間を取得することと、をさらに含む、
請求項１に記載の方法。
前記複数のタスクのうちの各タスクに対して、候補モデル構造集合に対応する性能指標集合を特定することは、
前記複数のタスクのうちの各タスクに対して、前記タスクに対応する性能予測器を用いて前記候補モデル構造集合を処理し、前記候補モデル構造集合に対応する性能指標集合を取得することを含む、
請求項１又は２に記載の方法。
前記探索空間から評価モデル構造集合を特定することと、
前記評価モデル構造集合を用いて、前記複数のタスクに一対一に対応する複数の性能予測器を取得することと、をさらに含む、
請求項３に記載の方法。
前記評価モデル構造集合を用いて、前記複数のタスクに一対一に対応する複数の性能予測器を取得することは、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合を用いて前記タスクに対応する評価セットを処理し、前記評価モデル構造集合に対応する性能指標集合を取得することと、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合及び前記評価モデル構造集合に対応する性能指標集合を用いて、前記タスクに対応する性能予測器を取得することと、を含む、
請求項４に記載の方法。
前記評価モデル構造集合に対応する評価モデルコード集合を特定することをさらに含み、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合及び前記評価モデル構造集合に対応する性能指標集合を用いて、前記タスクに対応する性能予測器を取得することは、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合に対応する評価モデルコード集合及び性能指標集合を用いて、前記タスクに対応する性能予測器を取得することを含む、
請求項５に記載の方法。
前記探索空間から評価モデル構造集合を特定することは、
前記探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーを特定することと、
前記探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、前記探索空間から前記評価モデル構造集合を特定することと、を含む、
請求項４に記載の方法。
前記探索空間から評価モデル構造集合を特定することは、
前記探索空間に含まれる複数のモデル構造に基づいて、前記探索空間に対応する少なくとも１つのクラスタセンターを特定することと、
前記探索空間に対応する少なくとも１つのクラスタセンターに基づいて、前記探索空間から前記評価モデル構造集合を特定することと、を含む、
請求項４に記載の方法。
前記性能指標集合に含まれる複数の性能指標のうちの各性能指標は、
精度値、リコール率値、トレーニング速度値、予測速度値の少なくとも１つを含む、
請求項１又は２に記載の方法。
複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定する第１の特定モジュールと、
前記複数のタスクと一対一に対応する複数の性能指標集合に基づいて、前記候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定する第２の特定モジュールと、
前記目標モデル構造を事前トレーニングモデルとして特定する第３の特定モジュールと、を含む、
事前トレーニングモデルの生成装置。
複数のタスクのうちの各タスクに対して、前記タスクに対応するトレーニングセットを用いて前記タスクに対応するハイパーネットワークをトレーニングし、前記タスクに対応するトレーニングされたハイパーネットワークを取得する第１の取得モジュールと、
前記複数のタスクに一対一に対応する複数のトレーニングされたハイパーネットワークに基づいて、前記探索空間を取得する第２の取得モジュールと、をさらに含む、
請求項１０に記載の装置。
前記第１の特定モジュールは、
前記複数のタスクのうちの各タスクに対して、前記タスクに対応する性能予測器を用いて前記候補モデル構造集合を処理し、前記候補モデル構造集合に対応する性能指標集合を取得する第１の取得サブモジュールを含む、
請求項１０又は１１に記載の装置。
前記探索空間から評価モデル構造集合を特定する第４の特定モジュールと、
前記評価モデル構造集合を用いて、前記複数のタスクに一対一に対応する複数の性能予測器を取得する第３の取得モジュールと、をさらに含む、
請求項１２に記載の装置。
前記第３の取得モジュールは、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合を用いて前記タスクに対応する評価セットを処理し、前記評価モデル構造集合に対応する性能指標集合を取得する第２の取得サブモジュールと、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合及び前記評価モデル構造集合に対応する性能指標集合を用いて、前記タスクに対応する性能予測器を取得する第３の取得サブモジュールと、を含む、
請求項１３に記載の装置。
前記評価モデル構造集合に対応する評価モデルコード集合を特定する第５の特定モジュールをさらに含み、
前記第３の取得サブモジュールは、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合に対応する評価モデルコード集合及び性能指標集合を用いて、前記タスクに対応する性能予測器を取得する第１の取得ユニットを含む、
請求項１４に記載の装置。
前記第４の特定モジュールは、
前記探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーを特定する第１の特定サブモジュールと、
前記探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、前記探索空間から前記評価モデル構造集合を特定する第２の特定サブモジュールと、を含む、
請求項１３に記載の装置。
前記第４の特定モジュールは、
前記探索空間に含まれる複数のモデル構造に基づいて、前記探索空間に対応する少なくとも１つのクラスタセンターを特定する第３の特定サブモジュールと、
前記探索空間に対応する少なくとも１つのクラスタセンターに基づいて、前記探索空間から前記評価モデル構造集合を特定する第４の特定サブモジュールと、を含む、
請求項１３に記載の装置。
前記性能指標集合に含まれる複数の性能指標のうちの各性能指標は、
精度値、リコール率値、トレーニング速度値、予測速度値の少なくとも１つを含む、
請求項１０又は１１に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、
前記命令は、前記少なくとも１つのプロセッサが請求項１又は２に記載の方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１又は２に記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行される場合に、請求項１又は２に記載の方法を実現する
コンピュータプログラム。