JP7214786B2

JP7214786B2 - 深層学習推論エンジンのスケジューリング方法、装置、機器及び媒体

Info

Publication number: JP7214786B2
Application number: JP2021084449A
Authority: JP
Inventors: ホンティアンヤン，; シェンギーへー，; シュージュンワン，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2021-05-19
Publication date: 2023-01-30
Anticipated expiration: 2041-05-19
Also published as: CN111738446A; EP3893112A2; KR20210080292A; CN115759252A; JP2021121959A; EP3893112A3; CN111738446B; US20210248469A1

Description

本願はコンピュータ分野に関し、特に人工知能、深層学習及びチップ技術に関し、具体的には深層学習推論エンジンのスケジューリング方法、装置、機器及び媒体に関する。

深層学習技術の継続的な発展と成熟に伴い、深層学習技術は、顔認識など、各業界の様々なシーンで遭遇する問題を解決するために絶えず応用されている。中でも、専用のＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）チップを用いて深層学習モデルを実行する推論が主流になりつつある。

一般的に、深層学習モデルを実行するためのＡＩチップは、ＣＰＵと同様に、多くの物理コアを持ち、同時に複数の深層学習モデルが同じＡＩチップ上で実行される可能性もあり、深層学習モデルごとに実行時間が異なる。では、ＡＩチップの全ての物理コアの演算力をいかに活用してシステム性能を可能な限り向上させるかが、重要なポイントとなる。

本願の実施例は、システム性能を向上させるために、深層学習推論エンジンのスケジューリング方法、装置、機器及び媒体を提供する。

第１の態様によれば、本願の実施例は、深層学習推論エンジンのスケジューリング方法を提供し、当該方法は、アプリケーション層からの現在の推論タスクのスケジューリング要求に応答して、前記現在の推論タスクのタイプを決定するステップと、各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷を計算するステップと、
前記各推論エンジンの総負荷を比較し、比較結果に基づいて前記各推論エンジンから前記現在の推論タスクを実行する目標推論エンジンを決定するステップと、前記目標推論エンジンの、推論エンジンの呼び出しパスを表すためのインデックスを前記アプリケーション層に返信するステップと、を含む。

第２の態様によれば、本願の実施例は、深層学習推論エンジンのスケジューリング装置をさらに提供し、当該装置は、アプリケーション層からの現在の推論タスクのスケジューリング要求に応答して、前記現在の推論タスクのタイプを決定するためのタイプ決定モジュールと、
各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷を計算するための計算モジュールと、前記各推論エンジンの総負荷を比較し、比較結果に基づいて前記各推論エンジンから前記現在の推論タスクを実行する目標推論エンジンを決定するための比較モジュールと、前記目標推論エンジンの、推論エンジンの呼び出しパスを表すためのインデックスを前記アプリケーション層に返信するための返信モジュールと、を備える。

第３の態様によれば、本願の実施例は、電子機器をさらに提供し、当該電子機器は、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されたメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも１つのプロセッサが本願の実施例のいずれかに記載の深層学習推論エンジンのスケジューリング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、本願の実施例は、コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令が前記コンピュータに本願の実施例のいずれかに記載の深層学習推論エンジンのスケジューリング方法を実行させるために用いられる。

第５の態様によれば、本願の実施例は、少なくとも１つの推論エンジンを含み、本願の実施例のいずれかに記載の深層学習推論エンジンのスケジューリング方法を実行するためのスケジューラーをさらに含むＡＩチップをさらに提供する。

第６の態様によれば、本願の実施例は、コンピュータプログラムを提供し、コンピュータ上で動作しているときに、前記コンピュータプログラムが前記コンピュータに本願の実施例のいずれかに記載の深層学習推論エンジンのスケジューリング方法を実行させるために用いられる。

本願の実施例の技術的解決手段によれば、各推論エンジンが現在の推論タスクを実行した後の総負荷を計算することにより、各推論エンジンが現在の推論タスクを実行する計算力を測定し、実際の計算力に応じて推論エンジンを割り当て、それによりシステム性能を向上させる。且つ、顔認識に推論エンジンを適用する場合、顔認識の速度と実行効率を向上させることができる。

なお、この部分に記載されている内容は、本願の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本願の範囲を限定するものでもない。本願の他の特徴は、以下の説明を通じて容易に理解され、上記の選択可能な形態が有する他の効果は、以下で具体的な実施例に関連して説明されるであろう。

図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本願の第１の実施例による深層学習推論エンジンのスケジューリング方法の概略フローチャートである。本願の第２の実施例による深層学習推論エンジンのスケジューリング方法の概略フローチャートである。本願の第２の実施例による深層学習推論タスクのスケジューリングの概略図である。本願の第３の実施例による深層学習推論エンジンのスケジューリング装置の構造概略図である。本願の実施例の深層学習推論エンジンのスケジューリング方法を実現するための電子機器のブロック図である。

以下、図面を組み合わせて本願の例示的な実施例を説明し、理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

図１は、本願の第１の実施例による深層学習推論エンジンのスケジューリング方法の概略フローチャートであり、本実施例は、人工知能、深層学習、及びチップ技術に関わる、推論エンジンの計算力に基づいて深層学習モデルをスケジューリングする場合に適用可能である。当該方法は深層学習推論エンジンのスケジューリング装置によって実行されることができ、当該装置はソフトウェア及び／及びハードウェアの方式により実現され、好ましくは、コンピュータ機器などの電子機器に配置される。図１に示すように、当該方法は具体的にはＳ１０１～Ｓ１０４を含む。

Ｓ１０１、アプリケーション層からの現在の推論タスクのスケジューリング要求に応答して、前記現在の推論タスクのタイプを決定する。

深層学習モデルを実行するためのＡＩチップは、ＣＰＵと同様に、多くの物理コアを持ち、同時に複数の深層学習モデルが同じＡＩチップ上で実行される可能性もあり、深層学習モデルごとに実行時間が異なる。これらの深層モデルは、例えば、顔認識モデルや生体検出モデルなどのタイプであってもよい。各種類の深層モデルの毎回の前向き推論を、１回の前向き推論タスクと呼ぶ。毎回の前向き推論タスクには、実際の物理推論エンジンを指定して実行する必要がある。

通常、深層学習推論タスクは、チップのアプリケーション層により提出され、ここで、前記スケジューリング要求には少なくとも各推論タスクのタイプが含まれる。全ての推論エンジンの計算力のバランスを取り、各推論エンジンの計算例を最大化し、システム性能を向上させるために、本願の実施例はアプリケーション層と推論エンジンへの深層学習推論タスクの提出の間に１つのスケジューラーを挿入し、各推論エンジンの負荷状況に基づいて、各深層学習推論タスクの推論エンジンの割り当て及びスケジューリングがスケジューラーにより自動的に行われる。

Ｓ１０２、各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷を計算する。

各推論エンジンの計算力を十分に活用し、システム性能を向上させるために、深層学習モデルのタイプによって実行時間が異なり、従って、本願の実施例では、各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷をまず計算し、総負荷状況に基づいてスケジューリングする。ここで、前記負荷は、実行時間で特徴付けることができ、つまり、前記総負荷は、推論エンジンが履歴タスク及び現在タスクを含む全ての推論タスクを実行する総時間を表し、スケジューリングの際に、総実行時間が最も速い推論エンジンを選択して、現在の推論タスクのスケジューリングを行うことができる。

また、前記方法は、前記各推論エンジンが各推論タスクを実行する、推論タスクのタイプ及び負荷が含まれる負荷フィードバックメッセージを受信するステップと、前記負荷フィードバックメッセージに基づいて、前記各推論エンジンが実行した推論タスクタイプ及びその負荷を保存するステップと、をさらに含む。

具体的には、各推論エンジンは、推論タスクを１つ実行するたびに、当該タスクを実行する負荷状況及びタスクタイプを、負荷フィードバックチャネルを介して、負荷フィードバックメッセージを送信するようにスケジューラーにフィードバックし、スケジューラーはそれを記録して保存する。そして、スケジューラーが受信した現在の推論タスクのスケジューリング要求に対して、スケジューラーは、保存された負荷情報に基づいて、各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷を統計して計算でき、またリアルタイムで統計し、負荷フィードバックメッセージを受信するたびに、統計状況を更新し、次回のスケジューリングの基準にすることもできる。

Ｓ１０３、前記各推論エンジンの総負荷を比較し、比較結果に基づいて前記各推論エンジンから前記現在の推論タスクを実行する目標推論エンジンを決定する。

各推論エンジンの総負荷状況は、現在の各推論エンジンの計算力状況を示しており、総負荷のうち値が最も小さいものは計算力が最も強く、つまり、実行速度が最も速いことを示しているので、総負荷が最も小さい推論エンジンを目標推論エンジンとして選択することができる。

Ｓ１０４、前記目標推論エンジンの、推論エンジンの呼び出しパスを表すためのインデックスを前記アプリケーション層に返信する。

目標推論エンジンを決定した後、当該目標推論エンジンのインデックスをアプリケーション層に返信し、アプリケーション層はインデックスに基づいて、目標推論エンジンを呼び出した後、現在の推論タスクは駆動層目標推論エンジンのタスクキューに入り、実行を待つ。

説明すべきものとして、従来技術では、通常、推論エンジンをランダムに割り当てたり、推論タスクと推論エンジンを直接バインドしたりして、全てのエンジンの計算力をうまく利用しておらず、エンジンによってはリアルタイム性が問題になりやすいが、エンジンによってはアイドル状態になったり、異なるエンジン間で負荷が不均衡になったりしてシステム性能に影響を与えやすい。これに対し、本願の実施例の技術的解決手段は、各推論エンジンのそれぞれの現在の負荷状態に基づいてスケジューリングを行えば、この問題の発生を回避し、システム性能を向上させることができる。

図２は、本願の第２の実施例による深層学習推論エンジンのスケジューリング方法の概略フローチャートであり、本実施例は上記実施例に基づいてさらに最適化される。図２に示すように、当該方法は具体的にはＳ２０１～Ｓ２０５を含む。

Ｓ２０１、アプリケーション層からの現在の推論タスクのスケジューリング要求に応答して、前記現在の推論タスクのタイプを決定する。

Ｓ２０２、前記各推論エンジンの履歴負荷、及び各推論エンジンが前記タイプの推論タスクを実行する負荷を取得する。

Ｓ２０３、前記各推論エンジンの履歴負荷と、前記タイプの推論タスクを実行する負荷との合計値をそれぞれ計算し、前記合計値を前記各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷とする。

本実施例において、スケジューラーは前記各推論エンジンが各推論タスクを実行する、推論タスクのタイプ及び負荷が含まれる負荷フィードバックメッセージを受信し、前記負荷フィードバックメッセージに基づいて、前記各推論エンジンが実行した推論タスクタイプ及びその負荷を保存する。そして、スケジューラーが受信した現在の推論タスクのスケジューリング要求に対して、スケジューラーは、保存された負荷情報に基づいて、各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷を統計して計算でき、またリアルタイムで統計し、負荷フィードバックメッセージを受信するたびに、統計状況を更新し、次回のスケジューリングの基準にすることもできる。

つまり、スケジューラーは保存された情報に基づいて、各推論エンジンの履歴負荷、すなわち履歴推論タスクの合計実行時間を計算し、そして各推論エンジンが前記タイプの推論タスクを実行する履歴平均負荷を計算するか、各推論エンジンが前回に前記タイプの推論タスクを実行した負荷を直接取得し、最後に、各推論エンジンの履歴負荷と前記タイプの推論タスクを実行する負荷との合計値をそれぞれ計算し、合計値を各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷とし、当該総負荷は各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷を表す。総負荷を計算することにより、スケジューリングの根拠とすることができ、各推論エンジンの現在の負荷状況に基づいてスケジューリングし、異なる推論エンジン間で負荷均衡を達成させ、システムのリアルタイム性と応答速度を向上させる。また、総負荷に基づいて、深層学習推論エンジンのリソース使用率を統計することもできる。

Ｓ２０４、前記各推論エンジンの総負荷を比較し、比較結果に基づいて前記各推論エンジンから前記現在の推論タスクを実行する目標推論エンジンを決定する。

Ｓ２０５、前記目標推論エンジンの、推論エンジンの呼び出しパスを表すためのインデックスを前記アプリケーション層に返信する。

図３は、本願の第２の実施例による深層学習推論タスクのスケジューリングの概略図である。図に示すように、本願の実施例はアプリケーション層と推論エンジンとの間にスケジューラーを追加し、スケジューラーは推論タスク１及び推論タスク２のそれぞれのタイプを取得し、負荷フィードバックチャネルにより、各推論エンジン＃０及び＃１のそれぞれが各タイプの推論タスクを実行する履歴負荷を取得し、履歴負荷に基づいて、各推論エンジンが現在タイプの推論タスクを実行した後の総負荷を計算する。例えば、推論エンジン＃０及び＃１のそれぞれについて、現在の推論タスクを実行した後の総負荷Ｆ０がＦ１より大きいことを計算すると、Ｆ１に対応する推論エンジン＃１の計算力が最大であることを示し、現在の推論タスクを当該推論エンジン＃１にスケジューリングする。スケジュールされた推論タスクは、駆動層のタスクキューに入り、実行待ちキューに入る。

本願の実施例の技術的解決手段は、各推論エンジンが現在の推論タスクを実行した後の総負荷を計算することにより、各推論エンジンが現在の推論タスクを実行する計算力を測定し、実際の計算力に応じて推論エンジンを割り当て、異なる推論エンジン間で負荷均衡を達成させ、システムのリアルタイム性と応答速度を向上させる。且つ、顔認識に推論エンジンを適用する場合、顔認識の速度と実行効率を向上させることができる。

図４は、本願の第３の実施例による深層学習推論エンジンのスケジューリング装置の構造概略図であり、本実施例は、人工知能、深層学習、及びチップ技術に関わる、推論エンジンの計算力に基づいて深層学習モデルをスケジューリングする場合に適用可能である。当該装置は本願の任意の実施例に記載の深層学習推論エンジンのスケジューリング方法を実現できる。図４に示すように、当該装置３００は、具体的には、アプリケーション層からの現在の推論タスクのスケジューリング要求に応答して、前記現在の推論タスクのタイプを決定するためのタイプ決定モジュール３０１と、各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷を計算するための計算モジュール３０２と、前記各推論エンジンの総負荷を比較し、比較結果に基づいて前記各推論エンジンから前記現在の推論タスクを実行する目標推論エンジンを決定するための比較モジュール３０３と、前記目標推論エンジンの、推論エンジンの呼び出しパスを表すためのインデックスを前記アプリケーション層に返信するための返信モジュール３０４と、を備える。

選択的に、前記計算モジュールは、前記各推論エンジンの履歴負荷、及び各推論エンジンが前記タイプの推論タスクを実行する負荷を取得するための取得ユニットと、前記各推論エンジンの履歴負荷と、前記タイプの推論タスクを実行する負荷との合計値をそれぞれ計算し、前記合計値を前記各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷とするための計算ユニットと、を備える。

選択的に、前記各推論エンジンが前記タイプの推論タスクを実行する負荷は、各推論エンジンが前記タイプの推論タスクを実行する履歴平均負荷、又は、各推論エンジンが前回に前記タイプの推論タスクを実行した負荷、を含む。

選択的に、前記装置は、前記各推論エンジンが各推論タスクを実行する、推論タスクのタイプ及び負荷が含まれる負荷フィードバックメッセージを受信し、前記負荷フィードバックメッセージに基づいて、前記各推論エンジンが実行した推論タスクタイプ及びその負荷を保存するための保存モジュール、をさらに備える。

選択的に、前記比較モジュールは具体的には、前記各推論エンジンの総負荷を比較し、前記総負荷のうち値が最も小さい総負荷に対応する推論エンジンを、前記現在の推論タスクを実行する目標推論エンジンとするために用いられる。

本願の実施例にて提供される深層学習推論エンジンのスケジューリング装置３００は本願の任意の実施例にて提供される深層学習推論エンジンのスケジューリング方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例で詳細に説明されていない内容については、本願の任意の方法例における説明を参照することができる。

本願の実施例によれば、本願は、少なくとも１つの推論エンジンを含み、上記のいずれかの実施例に記載の深層学習推論エンジンのスケジューリング方法を実行するためのスケジューラーをさらに含む、ＡＩチップをさらに提供する。

本願の実施例のＡＩチップにおいて、アプリケーション層と推論エンジンへの深層学習推論タスクの提出の間に１つのスケジューラーが挿入されるため、各推論エンジンの負荷状況に応じて各深層学習推論タスクに推論エンジンの割り当て及びスケジューリングを自動的に行うことを実現し、それによりシステム性能を向上させる。ＡＩチップが顔認識タスクに適用されると、推論エンジンがスケジューラーによって合理的に割り当てられ、スケジュールされるため、性能が向上し、従って、ＡＩチップの処理効率も大幅に向上し、さらに顔認識の速度及び実行効率が向上し、顔認識結果が迅速に得られ、ユーザの待ち時間が短縮される。

本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図５は、本願の実施例による深層学習推論エンジンのスケジューリング方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本願の実現を制限することを意図したものではない。

図５に示すように、当該電子機器は、１つ又は複数のプロセッサ５０１と、メモリ５０２と、高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力／出力装置（例えば、インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施方式では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作（例えば、サーバアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図４では、１つのプロセッサ５０１を例とする。

メモリ５０２は、本願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中で、前記メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記少なくとも１つのプロセッサが本願により提供される深層学習推論エンジンのスケジューリング方法を実行するようにする。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本願により提供される深層学習推論エンジンのスケジューリング方法を実行させるためのコンピュータ命令が記憶されている。

メモリ５０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本願の実施例における深層学習推論エンジンのスケジューリング方法に対応するプログラム命令／モジュール（例えば、図４に示すタイプ決定モジュール３０１、計算モジュール３０２、比較モジュール３０３、及び返信モジュール３０４）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ５０１は、メモリ５０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における深層学習推論エンジンのスケジューリング方法を実現する。

メモリ５０２は、ストレージプログラムエリアとストレージデータエリアとを備えることができ、その中で、ストレージプログラムエリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、本願の実施例の深層学習推論エンジンのスケジューリング方法を実現する電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ５０２は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ５０２は、プロセッサ５０１に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して本願の実施例の深層学習推論エンジンのスケジューリング方法を実現する電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

本願の実施例の深層学習推論エンジンのスケジューリング方法を実現する電子機器は、入力装置５０３と出力装置５０４とをさらに備えることができる。プロセッサ５０１、メモリ５０２、入力装置５０３、及び出力装置５０４は、バス又は他の方式を介して接続することができ、図５では、バスを介して接続することを例とする。

入力装置５０３は、入力された数字又は文字情報を受信し、本願の実施例の深層学習推論エンジンのスケジューリング方法を実現する電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置５０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを備えることができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び／又は対象指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」の用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」の用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。

本願の実施例の技術的解決手段によれば、各推論エンジンが現在の推論タスクを実行した後の総負荷を計算することにより、各推論エンジンが現在の推論タスクを実行する計算力を測定し、実際の計算力に応じて推論エンジンを割り当て、異なる推論エンジン間で負荷均衡を達成させ、システムのリアルタイム性と応答速度を向上させ、それによりシステム性能を向上させる。且つ、顔認識に推論エンジンを適用する場合、顔認識の速度と実行効率を向上させることができる。

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の具体的な実施方式は、本願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims

コンピュータによって実行される深層学習推論エンジンのスケジューリング方法であって、
アプリケーション層からの現在の推論タスクのスケジューリング要求に応答して、前記現在の推論タスクのタイプを決定するステップと、
各推論エンジンが前記タイプの現在の推論タスクを実行すると仮定した場合の総負荷を計算するステップと、
前記各推論エンジンの総負荷を比較し、比較結果に基づいて前記各推論エンジンから前記現在の推論タスクを実行する目標推論エンジンを決定するステップと、
前記目標推論エンジンの、推論エンジンの呼び出しパスを表すためのインデックスを前記アプリケーション層に返信するステップと、
を含む、深層学習推論エンジンのスケジューリング方法。
各推論エンジンが前記タイプの現在の推論タスクを実行すると仮定した場合の総負荷を計算する前記ステップが、
前記各推論エンジンの履歴負荷及び各推論エンジンが前記タイプの推論タスクを実行する負荷を取得するステップと、
前記各推論エンジンの履歴負荷と、前記タイプの推論タスクを実行する負荷との合計値をそれぞれ計算し、前記合計値を前記各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷とするステップと、
を含む請求項１に記載の方法。
前記各推論エンジンが前記タイプの推論タスクを実行する負荷が、
各推論エンジンが過去に前記タイプの推論タスクを実行した平均負荷、又は、
各推論エンジンが前回に前記タイプの推論タスクを実行した負荷、
を含む請求項２に記載の方法。
前記各推論エンジンが各推論タスクを実行する、推論タスクのタイプ及び負荷が含まれる負荷フィードバックメッセージを受信するステップと、
前記負荷フィードバックメッセージに基づいて、前記各推論エンジンが実行した推論タスクタイプ及びその負荷を保存するステップと、
を含む請求項１から３のいずれか一項に記載の方法。
比較結果に基づいて前記各推論エンジンから前記現在の推論タスクを実行する目標推論エンジンを決定する前記ステップが、
前記総負荷のうち値が最も小さい総負荷に対応する推論エンジンを、前記現在の推論タスクを実行する目標推論エンジンとするステップを含む請求項１に記載の方法。
アプリケーション層からの現在の推論タスクのスケジューリング要求に応答して、前記現在の推論タスクのタイプを決定するためのタイプ決定モジュールと、
各推論エンジンが前記タイプの現在の推論タスクを実行すると仮定した場合の総負荷を計算するための計算モジュールと、
前記各推論エンジンの総負荷を比較し、比較結果に基づいて前記各推論エンジンから前記現在の推論タスクを実行する目標推論エンジンを決定するための比較モジュールと、
前記目標推論エンジンの、推論エンジンの呼び出しパスを表すためのインデックスを前記アプリケーション層に返信するための返信モジュールと、
を備える、深層学習推論エンジンのスケジューリング装置。
前記計算モジュールが、
前記各推論エンジンの履歴負荷及び各推論エンジンが前記タイプの推論タスクを実行する負荷を取得するための取得ユニットと、
前記各推論エンジンの履歴負荷と、前記タイプの推論タスクを実行する負荷との合計値をそれぞれ計算し、前記合計値を前記各推論エンジンが前記タイプの現在の推論タスクを実行した後の総負荷とするための計算ユニットと、
を備える請求項６に記載の装置。
前記各推論エンジンが前記タイプの推論タスクを実行する負荷が、
各推論エンジンが過去に前記タイプの推論タスクを実行した平均負荷、又は、
各推論エンジンが前回に前記タイプの推論タスクを実行した負荷、
を含む請求項７に記載の装置。
前記各推論エンジンが各推論タスクを実行する、推論タスクのタイプ及び負荷が含まれる負荷フィードバックメッセージを受信し、前記負荷フィードバックメッセージに基づいて、前記各推論エンジンが実行した推論タスクタイプ及びその負荷を保存するための保存モジュールを含む請求項６から８のいずれか一項に記載の装置。
前記比較モジュールが、前記各推論エンジンの総負荷を比較し、前記総負荷のうち値が最も小さい総負荷に対応する推論エンジンを、前記現在の推論タスクを実行する目標推論エンジンとするために用いられる請求項６に記載の装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも１つのプロセッサが請求項１から５のいずれか一項に記載の深層学習推論エンジンのスケジューリング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令がコンピュータに請求項１から５のいずれか一項に記載の深層学習推論エンジンのスケジューリング方法を実行させるために用いられる非一時的なコンピュータ読み取り可能な記憶媒体。
少なくとも１つの推論エンジンを含み、
請求項１から５のいずれか一項に記載の深層学習推論エンジンのスケジューリング方法を実行するためのスケジューラーを含むＡＩチップ。
コンピュータ上で動作しているときに、請求項１から５のいずれか一項に記載の深層学習推論エンジンのスケジューリング方法を前記コンピュータに実行させるコンピュータプログラム。