JP2022172927A

JP2022172927A - 情報処理装置、集約制御プログラムおよび集約制御方法

Info

Publication number: JP2022172927A
Application number: JP2021079279A
Authority: JP
Inventors: 貴久鈴木; Takahisa Suzuki; 隆一松倉; Ryuichi Matsukura; 慎也豊永; Shinya Toyonaga; 美帆河野; Miho Kawano
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2022-11-17
Also published as: US20220357991A1

Abstract

【課題】１台のＧＰＵで複数の映像の処理を実行する場合に、ＧＰＵ２２のメモリの利用効率を向上させる。【解決手段】実行サーバ１は、複数のアプリケーション毎に、推論処理が利用する学習モデル３２の識別情報、推論処理の動作周期、１フレームの推論処理の処理時間、学習モデル３２の使用メモリ量を対応付けて記憶するプロファイル情報１５を有する。実行サーバ１は、プロファイル情報１５を用いて、学習モデル３２毎に、アプリケーションの処理を集約するかしないかを示す集約要否および集約するために用いられるプロセス数を決定する集約対象決定部１２２を有する。実行サーバ１は、集約すると決定された学習モデル３２を利用するアプリケーションの推論処理をアプリケーションの推論処理を実行するプロセスとは別の集約実行プロセス１４で集約して実行する実行制御部１２４を有する。【選択図】図３

Description

本発明は、情報処理装置、集約制御プログラムおよび集約制御方法に関する。

近年、ＧＰＵ（Graphical Processing Unit）を使ってＡＩ（Artificial Intelligence）処理を実行するシステムが増加している。例えば、映像のＡＩ処理により物体検知等を行うシステムがある。

このようなシステムでは、１台のＧＰＵが１台のカメラから転送される映像を処理していたが、映像は一定周期で送られるため、処理の隙間でＧＰＵが空く時間が生じる。そこで、１台のＧＰＵが複数台のカメラから転送される映像を収容して処理することで、相互に隙間を埋めて効率よく利用することが期待される。

一例として、オブジェクトの検出処理が、複数の学習モデルによる処理をシーケンシャル（逐次）またはパラレル（並列）に実行する技術が開示されている（例えば、特許文献１～３参照）。

ここで、複数の学習モデルによる映像の処理をパラレル（並列）で実行する場合には、並列で実行する数分の学習モデルに関わるＧＰＵのメモリ量を必要とする。

特開２００２－８３２９７号公報特開２０２０－１１２９３７号公報米国特許出願公開第２０１４／０２７０４２９号明細書

しかしながら、１台のＧＰＵで複数の映像の処理を並列で実行する場合、ＧＰＵのメモリの利用効率が悪くなるという問題がある。かかる問題について説明する。図１２は、ＧＰＵのメモリ利用効率が悪いという問題を説明する図である。図１２左図に示すように、１台のＧＰＵが、複数の処理を逐次実行している。ここでは、４個の映像の推論処理が逐次実行される場合を示す。各推論処理は、同一の学習モデルを利用している。かかる場合には、ＧＰＵは、各推論処理を集約して逐次実行するため、ＧＰＵのメモリ使用量は、１個の学習モデルに必要なメモリ使用量を示す。

また、図１２右図に示すように、１台のＧＰＵは、４個の映像の推論処理を並列で実行することができる。かかる場合には、ＧＰＵは、同一の学習モデルを利用していても、ＧＰＵのメモリ使用量は、並列で実行する数分の学習モデルに必要なメモリ使用量を示す。つまり、各推論処理を集約せずに並列で実行する場合には、各推論処理を集約して逐次に実行する場合と比較して、ＧＰＵのメモリ使用量が大きくなる。すなわち、１台のＧＰＵで複数の映像の推論処理を並列で実行する場合には、ＧＰＵのメモリ使用量がＧＰＵのメモリ総使用量を超える場合も想定され、ＧＰＵのメモリの利用効率が悪くなる。

本発明は、１つの側面では、１台のＧＰＵで複数の映像の処理を実行する場合に、ＧＰＵのメモリの利用効率を向上させることを目的とする。

１つの態様では、情報処理装置は、ＧＰＵ（Graphical Processing Unit）を用いた動画像に対するアプリケーションの処理の実行制御を行う情報処理装置であって、複数のアプリケーション毎に、前記処理が利用する学習モデルの識別情報、前記処理の動作周期、１フレームの前記処理の処理時間、前記学習モデルの使用メモリ量を対応付けて記憶する記憶部と、前記複数のアプリケーション毎に記憶された各種情報を用いて、前記学習モデル毎に、アプリケーションの処理を集約するかしないかを示す集約要否および集約するために用いられるプロセス数を決定する決定部と、集約すると決定された学習モデルを利用するアプリケーションの処理を前記アプリケーションの処理を実行するプロセスとは別のプロセスで集約して実行する実行部と、を有する。

１実施態様によれば、１台のＧＰＵで複数の映像の処理を実行する場合に、ＧＰＵのメモリの利用効率を向上させることが可能となる。

図１は、実施例に係る実行サーバを含むシステムの機能構成の一例を示す図である。図２は、実施例に係る集約制御を説明する図である。図３は、実施例に係る実行サーバの機能構成の一例を示す図である。図４は、実施例に係るプロファイル情報のデータ構造の一例を示す図である。図５は、実施例に係る集約対象情報のデータ構造の一例を示す図である。図６は、集約数決定の一例を示す図である。図７は、集約数決定の別例を示す図である。図８は、実施例に係る集約対象決定処理のフローチャートの一例を示す図である。図９は、実施例に係る実行制御処理のフローチャートの一例を示す図である。図１０は、実施例に係る処理結果受信処理のフローチャートの一例を示す図である。図１１は、実行サーバのハードウェア構成の一例を示す図である。図１２は、ＧＰＵのメモリ利用効率が悪いという問題を説明する図である。

以下に、本願の開示する情報処理装置、集約制御プログラムおよび集約制御方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

［システムの構成］
図１は、実施例に係る実行サーバを含むシステムの機能構成の一例を示す図である。システム９は、実行サーバ１と、ストレージサーバ３と、複数のカメラ５とを有する。システム９は、動画像（映像）に関し、推論処理する推論プロセス１１（アプリケーション）を、ＧＰＵ（Graphics Processing Unit）を搭載する実行サーバ１上で実行する。そして、システム９は、１台のＧＰＵ上で複数の推論プロセス１１を実行することを想定する。ここでいう推論プロセス１１とは、例えば、カメラ５から出力される映像から不審者を推定したり、交通量を推定したりするアプリケーションのことをいう。推論プロセス１１は、ＡＩフレームワーク１３の所定のライブラリを組み込んで学習モデル３２を用いて推論処理を実行する。

ストレージサーバ３は、複数のカメラ５からそれぞれ出力される映像のデータソース３１と、学習モデル３２とを有する。学習モデル３２は、推論プロセス１１の推論処理に利用されるモデルである。

実行サーバ１は、集約制御部１２を、複数の推論プロセス１１と、ＡＩフレームワーク１３との間に設ける。加えて、実行サーバ１は、プロファイル情報１５を設ける。

ＡＩフレームワーク１３は、推論プロセス１１および後述する集約実行プロセス１４の推論処理を実行する。ＡＩフレームワーク１３は、映像に関する推論処理を行うためのライブラリであり、推論プロセス１１や集約実行プロセス１４に組み込まれる。例えば、ＡＩフレームワーク１３は、推論プロセス１１から呼び出され、推論処理を実行する。ＡＩフレームワーク１３としては、一例として、ＴｅｎｓｏｒＦｌｏｗ、ＭＸＮｅｔ、Ｐｙｔｏｒｃｈなどが挙げられる。

プロファイル情報１５は、複数の推論プロセス１１（アプリケーション）毎に、各アプリケーションが利用する学習モデル３２と、推論処理の動作周期（フレームレート）、１フレームの処理時間、ＧＰＵ２２のメモリ使用量を対応付けた情報である。なお、プロファイル情報１５については、詳細に説明する。

集約制御部１２は、集約制御の運用前に、プロファイル情報１５に基づいて、学習モデル３２毎に、学習モデル３２を利用する推論プロセス１１のアプリケーションの推論処理を集約するかしないかを示す集約要否および集約数を決定する。ここでいう集約数とは、集約して実行する場合に用いるプロセスの数のことをいう。このプロセスは、集約実行プロセス１４のことである。そして、集約制御部１２は、集約制御の運用時に、集約すると決定された学習モデル３２を利用するアプリケーションの推論処理を、推論プロセス１１とは別の集約実行プロセス１４で実行するように制御する。すなわち、集約制御部１２は、推論プロセス１１からＡＩフレームワーク１３への推論要求を監視し、集約対象の学習モデル３２を利用するアプリケーションからの推論要求を集約実行プロセス１４で推論を行わせるように推論要求の送信先を制御する。

［集約制御の説明］
ここで、実施例に係る集約制御について、図２を参照して説明する。図２は、実施例に係る集約制御を説明する図である。図２に示すように、集約制御部１２は、プロファイル情報１５とＧＰＵ２２の搭載メモリ量に基づいて、集約対象の学習モデル３２と、集約して実行する場合の集約実行プロセス１４の数（集約数）を決定する。そして、集約制御部１２は、集約対象の学習モデル３２を利用するアプリケーションの推論処理を、推論プロセス１１とは別のプロセスである集約実行プロセス１４で実行するように制御する。なお、集約制御部１２は、集約対象でない学習モデル３２を利用するアプリケーションの推論処理については、そのままアプリケーションの推論プロセス１１から実行するように制御する。

ここでは、アプリケーションＡの推論処理の推論プロセス１１が起動されている。アプリケーションＡの推論処理は、学習モデルＸを利用する。アプリケーションＢの推論処理の推論プロセス１１が起動されている。アプリケーションＢの推論処理は、学習モデルＸを利用する。アプリケーションＣの推論処理の推論プロセス１１が起動されている。アプリケーションＣの推論処理は、学習モデルＹを利用する。集約制御部１２は、プロファイル情報１５とＧＰＵ２２の搭載メモリ量に基づいて、集約対象の学習モデル３２として学習モデルＸを、集約数として「１」を決定したとする。そして、集約制御部１２は、決定時に、集約実行プロセス１４を集約数分起動する。その後、集約制御部１２は、集約対象の学習モデルＸを利用するアプリケーションＡ、Ｂの推論処理を、推論プロセス１１とは別のプロセスである集約実行プロセス１４で実行するように制御する。この結果、集約実行プロセス１４は、アプリケーションＡの推論処理と、アプリケーションＢの推論処理とを集約して逐次実行する。集約実行プロセス１４の実行によるＧＰＵメモリ２２１のメモリ使用量は、１個の学習モデルＸに必要なメモリ使用量となるので、並列で実行する場合と比べて少なくなる。

なお、集約制御部１２は、集約対象でない学習モデルＹを利用するアプリケーションＣの推論処理については、そのままアプリケーションＣの推論プロセス１１から実行するように制御する。これにより、集約制御部１２は、１台のＧＰＵ２２で複数の推論処理を実行する場合に、ＧＰＵメモリ２２１の利用効率を向上させることが可能となる。以降では、このような集約制御部１２を含む実行サーバ１について、詳細に説明する。

［実行サーバの機能構成］
図３は、実施例に係る実行サーバの機能構成の一例を示す図である。図３に示すように、推論プロセス１１、集約制御部１２、ＡＩフレームワーク１３、集約実行プロセス１４およびプロファイル情報１５を有する。

推論プロセス１１は、アプリケーション１１１と、プロセス制御部１１２とを有する。推論プロセス１１は、アプリケーション１１１毎に起動される。アプリケーション１１１は、学習モデル３２を利用してフレーム毎に推論処理を行う。アプリケーション１１１は、各フレームの推論処理を行う際に、プロセス制御部１１２に対して推論要求を出力する。プロセス制御部１１２は、推論要求検知部１１２１、実行先判定要求部１１２２、推論要求送信部１１２３、処理結果受信部１１２４および処理結果送信部１１２５を有する。

推論要求検知部１１２１は、アプリケーション１１１からの推論要求を検知する。実行先判定要求部１１２２は、集約制御部１２に対して、推論要求を実行する実行先の判定を要求する。すなわち、実行先判定要求部１１２２は、アプリケーション１１１の推論要求を集約するかしないかを示す集約要否の判定を要求する。

推論要求送信部１１２３は、推論要求の実行先が自身の推論プロセス１１であると判定された場合には、自身の推論プロセス１１からＡＩフレームワーク１３に対して推論要求を実行する。すなわち、推論要求送信部１１２３は、アプリケーション１１１の推論要求を集約しない（集約否）と判定された場合には、自身の推論プロセス１１からＡＩフレームワーク１３に対して推論要求を実行する。

処理結果受信部１１２４は、推論要求を集約しない（集約否）と判定された場合には、ＡＩフレームワーク１３から処理結果を受信する。また、処理結果受信部１１２４は、推論要求を集約する（集約要）と判定された場合には、集約制御部１２から処理結果を受信する。

処理結果送信部１１２５は、受信された処理結果をアプリケーション１１１に返信する。

集約制御部１２は、読込部１２１、集約対象決定部１２２、プロセス管理部１２３、実行制御部１２４、推論要求送信部１２５、処理結果受信部１２６および処理結果送信部１２７を有する。また、集約制御部１２は、集約対象情報１３１および推論実行情報１３２を有する。

読込部１２１は、プロファイル情報１５を読み込む。ここでいうプロファイル情報１５とは、例えば。集約対象の学習モデル３２と、集約して実行する場合の集約実行プロセス１４の数（集約数）を決定するために用いられる情報であり、アプリケーション１１１毎に事前に設定される。

ここで、プロファイル情報１５のデータ構造の一例を、図４を参照して説明する。図４は、実施例に係るプロファイル情報のデータ構造の一例を示す図である。図４に示すように、プロファイル情報１５は、アプリケーションの識別情報、学習モデルの識別情報、推論処理の動作周期、１回の推論処理の時間および学習モデルのＧＰＵメモリ使用量を対応付けた情報である。アプリケーションの識別情報は、アプリケーション１１１の名前または推論プロセス１１のプロセスＩＤ（IDentifier）を示す。学習モデルの識別情報は、アプリケーション１１１が利用する学習モデル３２のモデル名または識別ＩＤを示す。推論処理の動作周期は、１回の推論処理の開始から次回の推論処理の開始直前までの時間を示す。１回の推論処理の時間は、１回の推論処理に要する時間を示す。動作周期および推論処理の時間の時間単位は、一例として、ミリ秒（ｍｓ）である。学習モデルのＧＰＵメモリ使用量は、学習モデル３２が必要とするＧＰＵメモリ２２１の使用量を示す。

なお、１回の推論処理の動作周期および学習モデルのＧＰＵメモリ使用量は、学習モデル３２が同じであれば、同じ値となる。一例として、アプリケーションの識別情報が「アプリＡ」である場合に、学習モデルの識別情報として「Ｘ」、推論処理の動作周期として「１００」、１回の推論処理の時間として「５０」、学習モデルのＧＰＵメモリ使用量として「ａａ」を記憶している。アプリケーションの識別情報が「アプリＢ」である場合に、学習モデルの識別情報として「Ｘ」、推論処理の動作周期として「２００」、１回の推論処理の時間として「５０」、学習モデルのＧＰＵメモリ使用量として「ａａ」を記憶している。アプリケーションの識別情報が「アプリＣ」である場合に、学習モデルの識別情報として「Ｙ」、推論処理の動作周期として「４００」、１回の推論処理の時間として「８０」、学習モデルのＧＰＵメモリ使用量として「ｃｃ」を記憶している。

図３に戻って、集約対象決定部１２２は、プロファイル情報１５に基づき、集約対象の学習モデル３２および集約して実行する場合の集約実行プロセス１４の数（集約数）を決定する。

例えば、集約対象決定部１２２は、同一の学習モデル３２を利用するアプリケーション１１１に対して、各推論処理の動作間隔（動作周期）と推論処理時間とから、集約しても動作周期内で処理できるように集約実行プロセス１４の数（集約数）を決定する。各推論処理の動作間隔および推論処理時間は、プロファイル情報１５の各アプリケーション１１１に対応する推論処理の動作周期および１回の推論処理の時間から取得される。集約対象決定部１２２は、同一の学習モデル３２を利用する各アプリケーション１１１の１回の推論処理時間と動作間隔（動作周期）を用いて、１回の推論処理時間／動作間隔を合計して得られる値（小数点以下を切り上げ）を計算する。集約対象決定部１２２は、計算して得られた値を、対象の学習モデル３２の集約数として決定する。ここでいう１個のアプリケーション１１１における推論処理時間／動作間隔（動作周期）は、単位時間当たりの推論処理がＧＰＵを占める割合である。したがって、対象の複数のアプリケーション１１１に対する推論処理時間／動作間隔の合計（小数点以下を切り上げ）が単位時間を超えない場合には、１個の集約実行プロセス１４が各アプリケーション１１１の推論処理を各動作間隔内で実行できる。一方、推論処理時間／動作間隔の合計（小数点以下を切り上げ）が単位時間を超える場合には、合計（小数点以下を切り上げ）から得られる個数の集約実行プロセス１４が各アプリケーション１１１の推論処理を各動作間隔内で実行できる。

また、集約対象決定部１２２は、ＧＰＵ２２に搭載するメモリ量に収まるように、推論処理を集約する集約対象の学習モデル３２を決定する。

一例として、集約対象決定部１２２は、学習モデル３２毎に、使用するＧＰＵメモリ２２１のメモリ量と決定された集約数とから、集約する場合および集約しない場合のＧＰＵメモリ２２１の総使用量を算出する。対象の学習モデル３２に対する集約する場合のＧＰＵメモリ２２１の総使用量Ｚ１は、以下の式（１）で計算される。
集約する場合のＧＰＵメモリ２２１の総使用量Ｚ１＝集約数×ＧＰＵメモリ使用量・・・（１）

対象の学習モデル３２に対する集約しない場合のＧＰＵメモリ２２１の総使用量Ｚ２は、以下の式（２）で計算される。
集約しない場合のＧＰＵメモリ２２１の総使用量Ｚ２＝対象の学習モデル３２を利用する推論プロセス１１の数×ＧＰＵメモリ使用量・・・（２）

なお、式（１）（２）のＧＰＵメモリ使用量は、プロファイル情報１５の中の対象の学習モデル３２を利用するアプリケーション１１１に対応する学習モデルのＧＰＵメモリ使用量から取得されれば良い。

そして、集約対象決定部１２２は、利用される全ての学習モデル３２に対する集約しない場合のＧＰＵメモリ２２１の総使用量を算出する。そして、集約対象決定部１２２は、全ての学習モデル３２に対する集約しない場合のＧＰＵメモリ２２１の総使用量がＧＰＵ２２に搭載するメモリ量より小さい場合には、集約対象の学習モデル３２を決定しない。すなわち、集約対象決定部１２２は、いずれの学習モデル３２に対するアプリケーション１１１の推論プロセス１１も集約しないで、各推論プロセス１１を並列処理することを決定する。

そして、集約対象決定部１２２は、全ての学習モデル３２に対する集約しない場合のＧＰＵメモリ２２１の総使用量がＧＰＵ２２に搭載するメモリ量以上の場合には、集約効果が大きい程優先度を高くして、集約対象の学習モデル３２を決定する。一例として、集約対象決定部１２２は、学習モデル３２毎に、集約する場合と集約しない場合とのＧＰＵメモリ２２１の総使用量の差を計算する。対象の学習モデル３２に対するＧＰＵメモリ２２１の総使用量の差Ｚ３は、以下の式（３）で計算される。
ＧＰＵメモリ２２１の総使用量の差Ｚ３＝推論プロセスの数×ＧＰＵメモリ使用量－集約数×ＧＰＵメモリ使用量・・・（３）
そして、集約対象決定部１２２は、ＧＰＵメモリ２２１の総使用量の差Ｚ３が大きい程優先度を高くして、優先度が高い順に集約する学習モデル３２を集約対象として決定する。

そして、集約対象決定部１２２は、決定した学習モデル３２を集約するとし、それ以外の学習モデル３２を集約しないとしてＧＰＵメモリ２２１の総使用量を算出する。なお、集約するとした学習モデル３２に対するＧＰＵメモリ２２１の総使用量は、式（１）により算出されれば良い。集約しないとした学習モデル３２に対するＧＰＵメモリ２２１の総使用量は、式（２）により算出されれば良い。

そして、集約対象決定部１２２は、算出したＧＰＵメモリ２２１の総使用量がＧＰＵ２２に搭載するメモリ量より小さい場合には、ＧＰＵメモリ２２１に収まるので、集約対象決定処理を終了する。また、集約対象決定部１２２は、算出したＧＰＵメモリ２２１の総使用量がＧＰＵ２２に搭載するメモリ量以上の場合には、以下の処理を行う。集約対象決定部１２２は、ＧＰＵメモリ２２１に収まらないので、優先度の高い順に集約する学習モデル３２を増やしていき、ＧＰＵメモリ２２１に収まるように集約対象の学習モデル３２を決定する。

プロセス管理部１２３は、集約実行プロセス１４を管理する。例えば、プロセス管理部１２３は、集約対象決定部１２２によって集約対象として決定された学習モデル３２の集約数分の集約実行プロセス１４を起動する。そして、集約対象決定部１２２は、集約対象として決定された学習モデル３２の識別情報に対応付けて当該学習モデル３２を利用するアプリケーション１１１の識別情報を集約対象情報１３１の対象アプリケーションリストに記録する。加えて、集約対象決定部１２２は、集約対象として決定された学習モデル３２の識別情報に対応付けて集約実行プロセス１４のプロセスＩＤを集約対象情報１３１の集約実行プロセスリストに記録する。

ここで、集約対象情報１３１のデータ構造の一例を、図５を参照して説明する。図５は、実施例に係る集約対象情報のデータ構造の一例を示す図である。図５に示すように、集約対象情報１３１は、学習モデルの識別情報、対象アプリケーションリストおよび集約実行プロセスリストを対応付けた情報である。学習モデルの識別情報は、学習モデル３２のモデル名または識別ＩＤを示す。対象アプリケーションリストは、学習モデル３２を利用するアプリケーション１１１の名前または推論プロセス１１のプロセスＩＤを示す。集約実行プロセスリストは、学習モデル３２に対応する集約数分の集約実行プロセス１４のプロセスＩＤを示す。

図３に戻って、実行制御部１２４は、推論要求の実行を制御する。例えば、実行制御部１２４は、推論プロセス１１から推論要求の実行先判定の依頼を受け付ける。実行制御部１２４は、集約対象情報１３１を参照して、依頼に含まれるアプリケーション１１１の識別情報に対応する学習モデル３２が集約対象であるか否かを判定する。実行制御部１２４は、対象の学習モデル３２が集約対象でない場合には、推論要求の実行先が依頼元である旨を依頼元の推論プロセス１１へ返信する。また、実行制御部１２４は、対象の学習モデル３２が集約対象である場合には、集約対象情報１３１の集約実行プロセスリストを参照して、対象の学習モデル３２に対応する集約実行プロセス１４の空き状況を取得する。そして、実行制御部１２４は、対象の集約実行プロセス１４が空いていれば、空いている集約実行プロセス１４の一つを選択し、推論要求送信部１２５に対して推論要求の送信を指示する。また、実行制御部１２４は、対象の集約実行プロセス１４が空いていなければ、対象の集約実行プロセス１４が空くまで待機する。

推論要求送信部１２５は、実行制御部１２４の指示に基づき、推論要求を対象の集約実行プロセス１４に送信する。すなわち、推論要求送信部１２５は、推論要求を推論プロセス１１とは別の集約実行プロセス１４で実行させるべく、推論要求を対象の集約実行プロセス１４に送信する。そして、推論要求送信部１２５は、対象の集約実行プロセス１４の状態を「処理中」に変更する。集約実行プロセス１４の状態は、推論実行情報１３２で管理されれば良い。

処理結果受信部１２６は、推論要求を実行した対象の集約実行プロセス１４から処理結果を受信する。そして、処理結果受信部１２６は、対象の集約実行プロセス１４の状態を「空き」に変更する。集約実行プロセス１４の状態は、推論実行情報１３２で管理されれば良い。処理結果送信部１２７は、処理結果を依頼元の推論プロセス１１へ送信する。

集約実行プロセス１４は、集約対象の学習モデル３２を利用するアプリケーション１１１の推論処理を実行するプロセスである。すなわち、集約実行プロセス１４は、アプリケーション１１１の推論処理を実行する推論プロセス１１とは別のプロセスである。集約実行プロセス１４は、ＡＩフレームワーク１３に対して推論要求を送信する。そして、集約実行プロセス１４は、ＡＩフレームワーク１３から処理結果を受信すると、受信した処理結果を処理結果受信部１２６に返信する。

［集約数決定の一例］
ここで、集約対象決定部１２２によって行われる集約数決定について、図６および図７を参照して説明する。図６は、集約数決定の一例を示す図である。図６に示すように、対象のアプリケーション１１１を示すアプリＡの情報について、利用モデルとして「Ｘ」、推論処理時間として「５０ｍｓ」、動作周期として「１００ｍｓ」が設定されている。アプリＢの情報について、利用モデルとして「Ｘ」、推論処理時間として「５０ｍｓ」、動作周期として「２００ｍｓ」が設定されている。アプリＣの情報について、利用モデルとして「Ｙ」、推論処理時間として「８０ｍｓ」、動作周期として「４００ｍｓ」が設定されている。なお、ここでいう利用モデルＸ、Ｙとは、プロファイル情報１５の「学習モデルの識別情報」に対応する。ここでいう推論処理時間とは、プロファイル情報１５の「１回の推論処理の時間」のことをいう。動作周期とは、プロファイル情報１５の「推論処理の動作周期」に対応する。

このような状況の下、集約対象決定部１２２は、同一の学習モデル３２を利用する各アプリケーション１１１の１回の推論処理時間と動作周期を用いて、１回の推論処理時間／動作周期を合計して得られる値（小数点以下を切り上げ）を計算する。集約対象決定部１２２は、計算して得られた値を、対象の学習モデル３２の集約数として決定する。すなわち、集約対象決定部１２２は、同一の学習モデル３２を利用する推論処理に対して、それぞれの動作周期および推論処理時間から、集約しても動作周期内で処理できるように集約実行プロセス１４の数（集約数）を決定する。

ここでは、モデルＸの集約数_Ｘは、アプリＡに関する「５０／１００」とアプリＢに関する「５０／２００」を加算した値が「０．７５」と計算されるので、小数点を切り上げて「１」と計算される。図６下図に示すように、モデルＸを利用するアプリＡおよびアプリＢが１つの集約実行プロセス１１４に集約されても、それぞれの動作周期内で処理することができる。

また、モデルＹの集約数_Ｙは、アプリＣに関する「８０／４００」を計算した値が「０．２」と計算されるので、小数点を切り上げて「１」と計算される。図６下図に示すように、モデルＹを利用するアプリＣが１つの集約実行プロセス１１４に集約されても、動作周期内で処理することができる。

そして、それぞれのプロセスで実行される推論処理は、ＧＰＵ２２で並列実行される。

［集約数決定の別例］
図７は、集約数決定の別例を示す図である。図７に示すように、対象のアプリケーション１１１を示すアプリＡの情報について、利用モデルとして「Ｙ」、推論処理時間として「８０ｍｓ」、動作周期として「１００ｍｓ」が設定されている。アプリＢの情報について、利用モデルとして「Ｙ」、推論処理時間として「８０ｍｓ」、動作周期として「２００ｍｓ」が設定されている。アプリＣの情報について、利用モデルとして「Ｙ」、推論処理時間として「８０ｍｓ」、動作周期として「４００ｍｓ」が設定されている。なお、ここでいう利用モデルＹとは、プロファイル情報１５の「学習モデルの識別情報」に対応する。ここでいう推論処理時間とは、プロファイル情報１５の「１回の推論処理の時間」のことをいう。動作周期とは、プロファイル情報１５の「推論処理の動作周期」に対応する。

このような状況の下、集約対象決定部１２２は、同一の学習モデル３２を利用する各アプリケーション１１１の１回の推論処理時間と動作周期を用いて、１回の推論処理時間／動作周期を合計して得られる値（小数点以下を切り上げ）を計算する。集約対象決定部１２２は、計算して得られた値を、対象の学習モデル３２の集約数として決定する。すなわち、集約対象決定部１２２は、同一の学習モデル３２を利用する推論処理に対して、それぞれの動作周期および推論処理時間から、集約しても動作周期内で処理できるように集約する集約実行プロセス１４の数（集約数）を決定する。

ここでは、モデルＹの集約数_Ｙは、アプリＡに関する「８０／１００」とアプリＢに関する「８０／２００」とアプリＣに関する「８０／４００」を加算した値が「１．４」と計算されるので、小数点を切り上げて「２」と計算される。すなわち、モデルＹは、２つに集約される。そして、モデルＹを利用するアプリＡ，Ｂ、Ｃの推論処理は、ＧＰＵ２２で並列実行される。図７下図に示すように、モデルＹを利用するアプリＡ、アプリＢおよびアプリＣが２つの集約実行プロセス１１４に集約されても、それぞれの動作周期内で処理することができる。

［集約対象決定処理のフローチャート］
図８は、実施例に係る集約対象決定処理のフローチャートの一例を示す図である。なお、集約対象決定処理は、集約制御の運用前に実施される。

図８に示すように、集約対象決定部１２２は、学習モデル３２毎の集約数を算出する（ステップＳ１１）。例えば、集約対象決定部１２２は、プロファイル情報１５から、学習モデル３２毎に各アプリケーション１１１の１回の推論処理時間と動作周期を取得する。そして、集約対象決定部１２２は、学習モデル３２毎に、１回の推論処理時間／動作周期を合計して得られる値（小数点以下を切り上げ）を算出して、各学習モデル３２の集約数を算出する。

集約対象決定部１２２は、学習モデル３２毎の集約時のＧＰＵメモリ使用量を算出する（ステップＳ１２）。例えば、集約対象決定部１２２は、学習モデル３２毎に、集約数およびＧＰＵメモリ使用量を用いて、集約する場合のＧＰＵメモリ２２１の総使用量Ｚ１を算出する（式（１）参照）。ＧＰＵメモリ使用量は、プロファイル情報１５における対象の学習モデル３２のＧＰＵメモリ使用量を用いれば良い。

集約対象決定部１２２は、学習モデル３２毎の非集約時のＧＰＵメモリ使用量を算出する（ステップＳ１３）。例えば、集約対象決定部１２２は、学習モデル３２毎に、各学習モデル３２を利用する推論プロセス１１の数およびＧＰＵメモリ使用量を用いて、集約しない場合のＧＰＵメモリ２２１の総使用量Ｚ２を算出する（式（２）参照）。対象の学習モデル３２を利用する推論プロセス１１の数は、プロファイル情報１５における対象の学習モデル３２に対応するアプリケーション１１１の数に対応する。ＧＰＵメモリ使用量は、プロファイル情報１５における対象の学習モデル３２のＧＰＵメモリ使用量を用いれば良い。

集約対象決定部１２２は、全学習モデル３２の非集約時の総ＧＰＵメモリ使用量を算出する（ステップＳ１４）。例えば、集約対象決定部１２２は、学習モデル３２ごとの非集約時のＧＰＵメモリ使用量を合計して、非集約時の総ＧＰＵメモリ使用量を算出すれば良い。

集約対象決定部１２２は、総ＧＰＵメモリ使用量がＧＰＵメモリ２２１に収まるか否かを判定する（ステップＳ１５）。総ＧＰＵメモリ使用量がＧＰＵメモリ２２１に収まると判定した場合には（ステップＳ１５；Ｙｅｓ）、集約対象決定部１２２は、集約対象決定処理を終了する。

一方、非集約時の総ＧＰＵメモリ使用量がＧＰＵメモリ２２１に収まらないと判定した場合には（ステップＳ１５；Ｎｏ）、集約対象決定部１２２は、集約効果の大きな学習モデル３２を選択する（ステップＳ１６）。例えば、集約対象決定部１２２は、学習モデル３２毎に、集約する場合と集約しない場合とのＧＰＵメモリ２２１の総使用量の差Ｚ３を計算する（式（３）参照）。そして、集約対象決定部１２２は、総使用量の差Ｚ３が大きいものから順に学習モデル３２を選択する。

そして、プロセス管理部１２３は、選択した学習モデル３２に対応する集約数分の集約実行プロセス１４を起動する（ステップＳ１７）。そして、プロセス管理部１２３は、選択した学習モデル３２を利用するアプリケーション１１１の識別情報および集約実行プロセス１４のプロセスＩＤを集約対象情報１３１に記録する（ステップＳ１８）。

続いて、集約対象決定部１２２は、選択した学習モデル３２を集約する場合、それ以外の学習モデル３２を集約しない場合として総ＧＰＵメモリ使用量を算出する（ステップＳ１９）。なお、集約する場合の選択した学習モデル３２に対するＧＰＵメモリ２２１の総使用量は、式（１）により算出されれば良い。集約しない場合の学習モデル３２に対するＧＰＵメモリ２２１の総使用量は、式（２）により算出されれば良い。そして、集約対象決定部１２２は、算出された総ＧＰＵメモリ使用量がＧＰＵメモリ２２１に収まるか否かを判定すべく、ステップＳ１５に移行する。

［実行制御処理のフローチャート］
図９は、実施例に係る実行制御処理のフローチャートの一例を示す図である。図９に示すように、実行制御部１２４は、推論要求の実行先判定を依頼されたか否かを判定する（ステップＳ２１）。推論要求の実行先判定を依頼されていないと判定した場合には（ステップＳ２１；Ｎｏ）、実行制御部１２４は、推論要求の実行先判定を依頼されるまで、判定処理を繰り返す。

一方、推論要求の実行先判定を依頼されたと判定した場合には（ステップＳ２１；Ｙｅｓ）、実行制御部１２４は、依頼元が集約対象の推論プロセス１１であるか否かを判定する（ステップＳ２２）。例えば、実行制御部１２４は、集約対象情報１３１を参照して、依頼に含まれるアプリケーション１１１の識別情報に対応する学習モデル３２が集約対象であるか否かを判定する。

依頼元が集約対象の推論プロセス１１でないと判定した場合には（ステップＳ２２；Ｎｏ）、実行制御部１２４は、推論要求の実行先は依頼元である旨を依頼元へ応答する（ステップＳ２３）。そして、実行制御部１２４は、実行制御処理を終了する。

一方、依頼元が集約対象の推論プロセス１１であると判定した場合には（ステップＳ２２；Ｙｅｓ）、実行制御部１２４は、対象の学習モデル３２に対応する集約実行プロセス１４の空き状況を取得する（ステップＳ２４）。実行制御部１２４は、空きの集約実行プロセス１４があるか否かを判定する（ステップＳ２５）。

空きの集約実行プロセス１４がないと判定した場合には（ステップＳ２５；Ｎｏ）、実行制御部１２４は、対象の集約実行プロセス１４のいずれかが空くまで待機する（ステップＳ２６）。そして、実行制御部１２４は、ステップＳ２５に移行する。一方、空きの集約実行プロセス１４があると判定した場合には（ステップＳ２５；Ｙｅｓ）、実行制御部１２４は、空きの集約実行プロセス１４の一つを選択する（ステップＳ２７）。

そして、推論要求送信部１２５は、選択した集約実行プロセス１４に推論要求を送信する（ステップＳ２８）。そして、推論要求送信部１２５は、推論実行情報１３２における、推論要求を送信した集約実行プロセス１４の状態を「処理中」に変更する（ステップＳ２９）。そして、実行制御部１２４および推論要求送信部１２５は、実行制御処理を終了する。

［処理結果受信処理のフローチャート］
図１０は、実施例に係る処理結果受信処理のフローチャートの一例を示す図である。図１０に示すように、処理結果受信部１２６は、処理結果を受信したか否かを判定する（ステップＳ３１）。処理結果を受信していないと判定した場合には（ステップＳ３１；Ｎｏ）、処理結果受信部１２６は、処理結果を受信するまで、判定処理を繰り返す。

一方、処理結果を受信したと判定した場合には（ステップＳ３１；Ｙｅｓ）、処理結果受信部１２６は、処理結果を依頼元の推論プロセス１１へ送信する（ステップＳ３２）。そして、処理結果受信部１２６は、対応する集約実行プロセス１４の状態を「空き」に変更する（ステップＳ３３）。そして、処理結果受信部１２６は、処理結果受信処理を終了する。

［実行サーバのハードウェア構成］
図１１は、実行サーバのハードウェア構成の一例を示す図である。図１１に示すように、実行サーバ１は、ＣＰＵ２１に加えてＧＰＵ２２を有する。そして、実行サーバ１は、メモリ２３、ハードディスク２４およびネットワークインターフェイス２５を有する。図１１に示した各部は、例えばバス２６で相互に接続される。

ネットワークインターフェイス２５は、ネットワークインターフェイスカード等であり、ストレージサーバ３等の他の装置との通信を行う。ハードディスク２４は、図１および図３に示した機能を動作させるプログラムやプロファイル情報１５を記憶する。

ＣＰＵ２１は、図１および図３に示した各処理部と同様の処理を実行するプログラムをハードディスク２４等から読み出してメモリ２３に展開することで、図１および図３等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、実行サーバ１が有する各処理部と同様の機能を実行する。具体的には、ＣＰＵ２１は、推論プロセス１１、集約制御部１２、ＡＩフレームワーク１３および集約実行プロセス１４等と同様の機能を有するプログラムをハードディスク２４等から読み出す。そして、ＣＰＵ２１は、推論プロセス１１、集約制御部１２、ＡＩフレームワーク１３および集約実行プロセス１４等と同様の処理を実行するプロセスを実行する。

ＧＰＵ２２は、図１で示したＡＩフレームワーク１３を用いて推論プロセス１１の推論処理を実行するプログラムをハードディスク２４等から読み出してメモリ２３に展開することで、当該プログラムを実行するプロセスを動作させる。ＧＰＵ２２は、複数の推論プロセス１１および集約実行プロセス１４を多重で動作させる。

［実施例の効果］
このようにして、上記実施例では、実行サーバ１は、ＧＰＵ２２を用いた動画像に対するアプリケーションの推論処理の実行制御を行う。実行サーバ１は、複数のアプリケーション毎に、推論処理が利用する学習モデル３２の識別情報、推論処理の動作周期、１フレームの推論処理の処理時間、学習モデル３２の使用メモリ量を対応付けて記憶する。実行サーバ１は、複数のアプリケーション毎に記憶された各種情報を用いて、学習モデル３２毎に、アプリケーションの処理を集約するかしないかを示す集約要否および集約するために用いられるプロセス数を決定する。実行サーバ１は、集約すると決定された学習モデル３２を利用するアプリケーションの推論処理をアプリケーションの推論処理を実行するプロセスとは別の集約実行プロセス１４で集約して実行する。かかる構成によれば、実行サーバ１は、集約対象の学習モデル３２を決定することで、ＧＰＵ２２の利用効率を向上させることができる。

また、上記実施例では、実行サーバ１は、複数のアプリケーション毎に対応付けられた学習モデル３２の識別情報、推論処理の動作周期および推論処理の処理時間を用いて、学習モデル３２毎に、アプリケーションの推論処理を集約するために用いられる集約実行プロセス１４のプロセス数を決定する。かかる構成によれば、実行サーバ１は、同一の学習モデル３２を利用する推論処理に対して、それぞれの動作周期および処理時間を用いることで、集約しても動作周期内で推論処理できるように集約するプロセス数を決定できる。

また、上記実施例では、実行サーバ１は、複数のアプリケーション毎に対応付けられた学習モデル３２の識別情報および学習モデル３２の使用メモリ量、並びに学習モデル３２毎に決定された集約用のプロセス数を用いて、学習モデル３２毎に、集約する場合の学習モデル３２の使用メモリ量および集約しない場合の学習モデル３２の使用メモリ量を算出する。そして、実行サーバ１は、学習モデル３２毎に算出された、集約する場合の学習モデル３２の使用メモリ量と、集約しない場合の学習モデル３２の使用メモリ量とを用いて、学習モデル３２毎に、集約要否を決定する。かかる構成によれば、実行サーバ１は、ＧＰＵ２２のメモリ利用効率を向上させることが可能になる。

また、上記実施例では、実行サーバ１は、全ての学習モデル３２の集約しない場合の使用メモリ量がＧＰＵ２２の搭載メモリ量に収まらない場合には、集約する場合の学習モデル３２の使用メモリ量と、集約しない場合の学習モデル３２の使用メモリ量との差が大きい学習モデル３２の推論処理程優先して集約することを決定する。かかる構成によれば、実行サーバ１は、推論処理の実行に関し、ＧＰＵ２２のメモリ利用効率を向上させることができる。

また、上記実施例では、実行サーバ１は、全ての学習モデル３２の集約しない場合の使用メモリ量がＧＰＵ２２の搭載メモリ量に収まる場合には、全ての学習モデル３２の推論処理を集約しないことを決定する。かかる構成によれば、実行サーバ１は、全ての学習モデル３２の推論処理を集約しないことで、並列処理することとなり、ＧＰＵ２２の時間利用効率を向上させることができる。

［その他］
なお、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した実行サーバ１に含まれる集約制御部１２およびプロセス制御部１１２の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、処理結果送信部１１２５と処理結果受信部１１２４とを１つの部として統合しても良い。また、処理結果受信部１２６と処理結果送信部１２７とを１つの部として統合しても良い。また、集約対象決定部１２２を、集約対象を決定する第１の決定部と、集約数を決定する第２の決定部とに分散しても良い。また、プロファイル情報１５などを記憶する記憶部（図示しない）を実行サーバ１の外部装置としてネットワーク経由で接続するようにしても良い。

１実行サーバ
３ストレージサーバ
５カメラ
９システム
１１推論プロセス
１２集約制御部
１３ＡＩフレームワーク
１４集約実行プロセス
１５プロファイル情報
２１ＣＰＵ
２２ＧＰＵ
２３メモリ
２４ハードディスク
２５ネットワークインターフェイス
２６バス
３１データソース
３２学習モデル
１１１アプリケーション
１１２プロセス制御部
１１２１推論要求検知部
１１２２実行先判定要求部
１１２３推論要求送信部
１１２４処理結果受信部
１１２５処理結果送信部
１２１読込部
１２２集約対象決定部
１２３プロセス管理部
１２４実行制御部
１２５推論要求送信部
１２６処理結果受信部
１２７処理結果送信部
１３１集約対象情報
１３２推論実行情報

Claims

ＧＰＵ（Graphical Processing Unit）を用いた動画像に対するアプリケーションの処理の実行制御を行う情報処理装置であって、
複数のアプリケーション毎に、前記処理が利用する学習モデルの識別情報、前記処理の動作周期、１フレームの前記処理の処理時間、前記学習モデルの使用メモリ量を対応付けて記憶する記憶部と、
前記複数のアプリケーション毎に記憶された各種情報を用いて、前記学習モデル毎に、アプリケーションの処理を集約するかしないかを示す集約要否および集約するために用いられるプロセス数を決定する決定部と、
集約すると決定された学習モデルを利用するアプリケーションの処理を前記アプリケーションの処理を実行するプロセスとは別のプロセスで集約して実行する実行部と、
を有することを特徴とする情報処理装置。
前記決定部は、前記複数のアプリケーション毎に対応付けられた前記学習モデルの識別情報、前記処理の動作周期および前記処理の処理時間を用いて、前記学習モデル毎に、アプリケーションの処理を集約するために用いられるプロセス数を決定する
ことを特徴とする請求項１に記載の情報処理装置。
前記決定部は、
前記複数のアプリケーション毎に対応付けられた前記学習モデルの識別情報および前記学習モデルの使用メモリ量、並びに前記学習モデル毎に決定された集約用のプロセス数を用いて、前記学習モデル毎に、集約する場合の前記学習モデルの使用メモリ量および集約しない場合の前記学習モデルの使用メモリ量を算出し、
前記学習モデル毎に算出された、集約する場合の前記学習モデルの使用メモリ量と、集約しない場合の前記学習モデルの使用メモリ量とを用いて、前記学習モデル毎に、前記集約要否を決定する
ことを特徴とする請求項２に記載の情報処理装置。
前記決定部は、全ての学習モデルの集約しない場合の使用メモリ量が前記ＧＰＵの搭載メモリ量に収まらない場合には、集約する場合の前記学習モデルの使用メモリ量と、集約しない場合の前記学習モデルの使用メモリ量との差が大きい学習モデルの処理程優先して集約することを決定する
ことを特徴とする請求項３に記載の情報処理装置。
前記決定部は、全ての学習モデルの集約しない場合の使用メモリ量が前記ＧＰＵの搭載メモリ量に収まる場合には、全ての学習モデルの処理を集約しないことを決定する
ことを特徴とする請求項３に記載の情報処理装置。
ＧＰＵ（Graphical Processing Unit）を用いた動画像に対するアプリケーションの処理の実行制御を行う集約制御プログラムであって、
複数のアプリケーション毎に、前記処理が利用する学習モデルの識別情報、前記処理の動作周期、１フレームの前記処理の処理時間、前記学習モデルの使用メモリ量を対応付けた情報を用いて、前記学習モデル毎に、アプリケーションの処理を集約するかしないかを示す集約要否および集約するために用いられるプロセス数を決定し、
集約すると決定された学習モデルを利用するアプリケーションの処理を前記アプリケーションの処理を実行するプロセスとは別のプロセスで集約して実行する、
処理をコンピュータに実行させる集約制御プログラム。
ＧＰＵ（Graphical Processing Unit）を用いた動画像に対するアプリケーションの処理の実行制御を行う集約制御方法であって、
複数のアプリケーション毎に、前記処理が利用する学習モデルの識別情報、前記処理の動作周期、１フレームの前記処理の処理時間、前記学習モデルの使用メモリ量を対応付けた情報を用いて、前記学習モデル毎に、アプリケーションの処理を集約するかしないかを示す集約要否および集約するために用いられるプロセス数を決定し、
集約すると決定された学習モデルを利用するアプリケーションの処理を前記アプリケーションの処理を実行するプロセスとは別のプロセスで集約して実行する、
処理をコンピュータが実行する集約制御方法。