JP2023009354A

JP2023009354A - 演算処理装置および演算処理方法

Info

Publication number: JP2023009354A
Application number: JP2021112534A
Authority: JP
Inventors: 明彦笠置; Akihiko Kasaoki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2023-01-20
Also published as: US20230010536A1; US11782708B2

Abstract

【課題】複数のパイプラインステージに分割される複数のデータ処理を実行する演算処理装置のスループットを向上する。【解決手段】演算処理装置は、各々が複数のパイプラインステージに分割される複数のデータ処理を、タイミングをずらして処理部に並列に実行させるパイプライン制御部と、前記複数のパイプラインステージの各々の処理時間を計測する計測部と、前記複数のパイプラインステージの優先度を、計測した処理時間が長い順に高く設定する優先度設定部と、を有する。【選択図】図１

Description

本発明は、演算処理装置および演算処理方法に関する。

複数のステージに分割されるデータ処理を、タイミングをずらして並列に実行させることで、スループットを向上させるパイプライン並列システムが知られている。この種のパイプライン並列システムでは、実行可能なプロセッサ数の入力に基づいて、各ステージでの負荷が計算され、各ステージに割り当てるプロセッサ数が自動的に変更される（例えば、特許文献１参照）。

各ステージが共通バスを介して処理データをメモリに読み書きする場合、ステージ間のデータ転送の停止状況に応じてボトルネックとなっているステージが特定され、特定されたステージによるメモリアクセスの優先度が高く設定される（例えば、特許文献２参照）。処理要求に応じて処理を実行するデータ処理装置において、複数の処理要求に対する処理を実行するリソースが競合する場合、処理を順番に実行させることで、リソースの競合が回避される（例えば、特許文献３参照）。

特開２０１１－１１８５８９号公報特開２０１６－９１３０７号公報特開２０２０－１０１９２１号公報

パイプライン並列システムにおいて、他のステージより処理時間が長いステージがある場合、処理時間の長いステージにデータを供給するバッファに処理待ちのデータが溜まっていき、パイプライン並列システムのスループットは低下する。

１つの側面では、本発明は、複数のパイプラインステージに分割される複数のデータ処理を順次実行する演算処理装置のスループットを向上することを目的とする。

一つの観点によれば、演算処理装置は、各々が複数のパイプラインステージに分割される複数のデータ処理を、タイミングをずらして処理部に並列に実行させるパイプライン制御部と、前記複数のパイプラインステージの各々の処理時間を計測する計測部と、前記複数のパイプラインステージの優先度を、計測した処理時間が長い順に高く設定する優先度設定部と、を有する。

複数のパイプラインステージに分割される複数のデータ処理を実行する演算処理装置のスループットを向上することができる。

一実施形態における演算処理装置の一例を示すブロック図である。別の実施形態における演算処理装置を含む情報処理装置の一例を示すブロック図である。図２の情報処理装置により実現されるパイプラインシステムの機能構成の一例を示すブロック図である。図２の情報処理装置により実行される学習済みのニューラルネットワークを使用した画像認識処理の一例を示す説明図である。演算ステージ毎の優先度にしたがって図２のアクセラレータに処理命令が投入される例を示す説明図である。図４の処理優先度制御部の分配指示部がＡＰＩのフックによりキューの優先度を付け替える一例を示す説明図である。図４の処理優先度制御部の動作の一例を示すフロー図である。図２の情報処理装置により実行されるパイプライン並列処理の一例を示す動作シーケンス図である。図４の処理優先度制御部による優先度制御の前後での処理時間の変化の一例を示す説明図である。

以下、図面を参照して、実施形態が説明される。

図１は、一実施形態における演算処理装置の一例を示す。図１に示す演算処理装置１は、パイプライン制御部２、計測部３、優先度設定部４および処理部５を有する。例えば、演算処理装置１は、ＣＰＵ（Central Processing Unit）等のプロセッサである。パイプライン制御部２、計測部３および優先度設定部４は、演算処理装置１が実行する制御プログラムにより実現されてもよく、ハードウェアにより実現されてもよい。さらに、パイプライン制御部２、計測部３および優先度設定部４は、ソフトウェアとハードウェアとを協働させることにより実現されてもよい。

例えば、処理部５は、演算処理装置１に搭載される複数の演算コアにより実現されてもよい。処理部５は、複数のデータ処理の各々を、タイミングをずらして並列に実行するパイプライン並列処理を実行する。複数のデータ処理の処理内容は、入力データがそれぞれ異なり、出力データがそれぞれ異なることを除き、互いに同じである。

なお、演算処理装置１は、ＣＰＵ等のプロセッサとＧＰＵ（Graphics Processing Unit）等のアクセラレータとを含むサーバにより実現されてもよい。この場合、演算処理装置１は、プロセッサとアクセラレータとが搭載される制御基板を有するサーバ等の情報処理装置により実現されてもよい。パイプライン制御部２、計測部３および優先度設定部４は、プロセッサが実行する制御プログラムにより実現されてもよい。処理部５は、アクセラレータに搭載される複数の演算コアにより実現されてもよい。

処理部５がアクセラレータにより実現される場合、パイプライン制御部２は、アクセラレータの動作を制御するドライバを介して処理部５にデータ処理を実行させる。なお、ドライバは、アプリケーション・プログラマブル・インタフェース（ＡＰＩ；Application Programming Interface）を有し、ＡＰＩを介してパイプライン制御部２との間で通信を実行する。

図１に示す例では、各データ処理は、複数のステージＡ、Ｂ、Ｃ、...に分割して実行される。各ステージＡ、Ｂ、Ｃ、...は、処理部５に含まれる複数の演算コアのいずれかを使用して実行される。例えば、ステージＡ、Ｂ、Ｃ、...を実行する演算コアは、互いに異なる。各ステージＡ、Ｂ、Ｃ、...は、パイプラインステージの一例である。以下では、ステージＡ、Ｂ、Ｃ、...が区別なく説明される場合、単にステージと称される。

パイプライン制御部２は、複数のデータ処理を、タイミングをずらして処理部５に並列に実行させる。計測部３は、パイプライン制御部２が複数のデータ処理を処理部５に実行させる前の初期化期間（評価期間）に、複数のステージの各々を、入力データを変えながら処理部５に実行させ、各ステージの処理時間を計測する。そして、計測部３は、各ステージの処理時間の統計値を取得する。例えば、計測部３は、パイプライン制御部２を介して処理部５に各ステージを実行させ、処理時間を計測する。

優先度設定部４は、計測部３により計測されたステージ毎の処理時間に基づいて、初期化期間に各ステージの優先度を、処理時間が長い順に高く設定する。なお、優先度設定部４は、例えば、処理時間が長い上位の所定数のステージの優先度を、処理時間が長い順に高く設定し、他のステージの優先度を設定しなくてもよい。あるいは、優先度設定部４は、他のステージの優先度を最も低く設定してもよい。例えば、処理部５がアクセラレータにより実現される場合、優先度設定部４は、アクセラレータのドライバのＡＰＩをフックすることで、複数のステージ毎に優先度を付け替える。

この実施形態では、優先度設定部４は、計測部３により計測されたステージ毎の処理時間に基づいて、処理時間が長い順にステージの優先度を高く設定する。このため、その後のデータ処理では、優先度の高いステージの処理は、他の処理により割り込まれることなく実行可能になる。

したがって、処理部５は、他の処理の割り込みにより処理時間が延びているステージがある場合にも、優先度の付け替えによりステージの処理時間を短縮することができる。これにより、演算処理装置１は、処理部５に順次実行させるデータ処理において、処理時間の長いステージの実行が待たされることを抑制できる。この結果、演算処理装置１は、図１に示すように、各ステージの処理時間をほぼ均等にすることが可能になり、パイプライン並列処理によるデータ処理の実行効率を向上できる。すなわち、この実施形態では、複数のパイプラインステージに分割される複数のデータ処理を実行する演算処理装置１のスループットを向上することができる。

処理部５がアクセラレータにより実現される場合、優先度設定部４は、アクセラレータのドライバのＡＰＩをフックすることで、複数のステージ毎に優先度を付け替える。これにより、演算処理装置１は、パイプライン制御部２により各ステージの優先度が設定できない場合にも、優先度設定部４により、各ステージの実際の処理時間に応じて優先度を適切に設定できる。

計測部３による処理時間の計測および優先度設定部４による優先度の付け替えは、処理部５が複数のデータ処理を並列に順次実行する前の初期化期間に行われる。各ステージの優先度が予め付け替えられるため、演算処理装置１は、データ処理の実行時に処理効率が低下することを抑制できる。

図２は、別の実施形態における演算処理装置を含む情報処理装置の一例を示す。図２に示す情報処理装置１００は、例えば、サーバ等であり、プロセッサ１０、メモリ２０、補助記憶装置３０、アクセラレータ４０、メモリ５０、接続インタフェース部６０、入力インタフェース部７０、出力インタフェース部８０およびネットワークインタフェース部９０を有する。

プロセッサ１０は、例えば、ＣＰＵであり、パイプライン制御部１１、処理優先度制御部１２およびＳＲＡＭ（Static Random Access Memory）等の共有メモリ１５を有する。パイプライン制御部１１および処理優先度制御部１２は、プロセッサ１０がメモリ２０に記憶された制御プログラムを実行することにより実現されてもよい。なお、プロセッサ１０は、複数のコアを有してもよく、情報処理装置１００に搭載されるプロセッサ１０の数は、２以上でもよい。

処理優先度制御部１２は、性能分析部１３および分配指示部１４を有する。性能分析部１３は、計測部の一例であり、分配指示部１４は、優先度設定部の一例である。性能分析部１３は、図３で説明するパイプライン４１の演算ステージ４３ａ、４３ｂ毎の処理時間を計測する。分配指示部１４は、性能分析部１３により計測された演算ステージ４３ａ、４３ｂ毎の処理時間に基づいて、各演算ステージ４３ａ、４３ｂの優先度を、処理時間が長い順に高く設定する。性能分析部１３および分配指示部１４の機能の例は、図５および図６で説明される。

メモリ２０は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）等の主記憶装置である。メモリ２０は、プロセッサ１０が実行する制御プログラムおよび各種データを保持する。補助記憶装置３０は、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等である。補助記憶装置３０は、メモリ２０に転送される制御プログラム、アクセラレータ４０に実行させるデータ処理の入力データ、およびデータ処理を実行するニューラルネットワークの構成情報等を保持する。

アクセラレータ４０は、例えば、ＧＰＵであり、特定の処理に対して演算を高速に実行可能である。この実施形態では、アクセラレータ４０は、プロセッサ１０からの指示に基づいて、学習済みのニューラルネットワークを使用した画像認識処理等のデータ処理を実行する。メモリ５０は、例えば、ＤＲＡＭ等の主記憶装置である。メモリ５０は、データ処理に使用する入力データおよびデータ処理の結果である出力データを保持する。なお、アクセラレータ４０は、プロセッサ１０の共有メモリ１５に直接アクセスできない。このため、共有メモリ１５に保持されたデータのうち、アクセラレータ４０により使用されるデータは、共有メモリ１５からメモリ５０に転送される。

接続インタフェース部６０は、例えば、ＰＣＩｅ（Peripheral Component Interconnect express）スイッチ等である。接続インタフェース部６０は、プロセッサ１０、アクセラレータ４０、入力インタフェース部７０、出力インタフェース部８０およびネットワークインタフェース部９０を相互に接続する。

入力インタフェース部７０の１つは、動画像等を撮影する図示しないカメラに接続され、カメラにより取得された動画像データを入力する。また、入力インタフェース部７０の別の１つは、図示しないマウスまたはキーボード等に接続されてもよい。出力インタフェース部８０は、画像およびテキスト等を表示する図示しないディスプレイ等に接続される。ネットワークインタフェース部９０は、例えば、ＮＩＣ（Network Interface Card）であり、図示しないネットワークに接続される。

図３は、図２の情報処理装置１００により実現されるパイプラインシステムの機能構成の一例を示す。図３において、太い矢印はデータの伝達経路を示し、細い矢印は、命令等の制御信号の伝達経路を示す。データ処理を複数のステージに分割して並列に実行するパイプライン４１は、入力ステージ４２、複数の演算ステージ４３（４３ａ、４３ｂ等）および出力ステージ４４を含む。例えば、パイプライン４１によるデータ処理は、プロセッサ１０およびアクセラレータ４０の少なくとも一方により実行される。

性能分析部１３は、パイプライン４１によるデータ処理を開始する前に、入力ステージ４２から各演算ステージ４３にデータを順次供給させる。性能分析部１３は、出力ステージ４４を介して、各演算ステージ４３の処理結果を受信することで、処理時間を計測する。なお、性能分析部１３は、着目する演算ステージ４３毎にデータを順次与え、着目する演算ステージ４３の演算の終了に基づいて、処理時間を計測してもよい。分配指示部１４は、性能分析部１３により計測された演算ステージ４３毎の処理時間に基づいて、パイプライン４１によるデータ処理を開始する前に、各演算ステージ４３の優先度を、処理時間が長い順に高く設定する。

パイプライン制御部１１は、パイプライン４１によるデータ処理を開始する場合、データ処理毎に演算の実行を開始する命令を発行する。パイプライン制御部１１は、命令の発行時、処理するデータに固有のＩＤ（Identification）を与えることで、実行するデータ処理を識別可能にする。例えば、パイプライン４１により実行されるデータ処理が動画像の認識処理の場合、固有のＩＤは、画像のフレーム番号等である。パイプライン制御部１１は、パイプライン４１によるデータ処理の終了時に出力ステージ４４から処理の完了通知を受信することで、パイプライン４１で実行中のデータ処理の残存数を把握する。

入力ステージ４２は、図２の入力インタフェース部７０またはネットワークインタフェース部９０を介して画像データ等の入力データを受信し、受信した入力データを共有メモリ１５に書き込む。なお、共有メモリ１５は、パイプライン４１の各ステージからアクセス可能である。入力ステージ４２は、入力データの書き込み先を固有のＩＤにしたがって決定することで、入力データが共有メモリ１５に上書きされることを回避する。

複数の演算ステージ４３ａ、４３ｂによる処理は、例えば、アクセラレータ４０またはプロセッサ１０により実行される。各演算ステージ４３ａ、４３ｂは、前のステージから受信した固有のＩＤに基づいて共有メモリ１５から処理対象のデータを取得する。そして、各演算ステージ４３ａ、４３ｂは、取得したデータを使用して演算を実行し、演算結果を示すデータを処理結果として固有のＩＤに応じて割り当てられた共有メモリ１５の記憶領域に書き込む。

出力ステージ４４は、固有のＩＤに対応する共有メモリ１５の記憶領域から処理結果を取得する。出力ステージ４４は、取得した処理結果を、図２の出力インタフェース部８０を介して出力デバイスに送信し、あるいは図２のネットワークインタフェース部９０を介してネットワーク先のリモートノードに送信する。出力ステージ４４は、固有のＩＤのデータ処理に使用した共有メモリ１５上のデータが再利用可能であることをパイプライン制御部１１に通知する。

外部コマンド制御部１８は、図３に示すパイプラインシステムに対して外部からのコマンドを受け付け、受け付けたコマンドをパイプライン制御部１１に出力する。例えば、外部コマンド制御部１８が受け付けるコマンドは、データ処理を要求するユーザプログラム等により発行されてもよい。なお、以下の説明では、演算ステージ４３（４３ａ、４３ｂ等）は、単にステージ４３（４３ａ、４３ｂ等）とも称される。

図４は、図２の情報処理装置１００により実行される学習済みのニューラルネットワークを使用した画像認識処理の一例を示す。例えば、図４に示す画像認識処理では、情報処理装置１００は、カメラ等からリアルタイムで受信する動画像の各フレームに写っている人物を認識し、前後のフレームに写っている人物の動きから人物の行動を推定する。

情報処理装置１００は、画像認識処理において、動画像処理、人認識処理、姿勢認識処理、追跡処理および行動推定処理を順次実行する。図４に示す例では、動画像処理、人認識処理および姿勢認識処理は、プロセッサ１０の指示に基づいて、アクセラレータ４０により演算ステージ４３の処理としてそれぞれ実行される。動画像処理、人認識処理および姿勢認識処理は、アクセラレータ４０のリソースの競合が発生する場合がある。

追跡処理および行動推定処理は、プロセッサ１０により演算ステージ４３の処理としてそれぞれ実行される。なお、動画像処理、人認識処理、姿勢認識処理、追跡処理および行動推定処理は、アクセラレータ４０のみで実行されてもよく、プロセッサ１０のみで実行されてもよい。

アクセラレータ４０は、動画像処理において、動画像データから１枚の画像に対応するフレームデータを順次取り出す。アクセラレータ４０は、人認識処理において、各フレームデータから人物を抽出する。アクセラレータ４０は、姿勢認識処理において、フレーム毎に、抽出した人物の姿勢を認識する。

プロセッサ１０は、追跡処理において、前後のフレームでの姿勢認識処理により認識された人物の姿勢の変化を検出し、人物の動作を判定する。例えば、人物の動作は、止まっている、歩いている、走っている、座ろうとしている等である。プロセッサは、行動推定処理において、追跡処理の判定結果に基づいて、人物の行動を推定する。

動画像処理、人認識処理および姿勢認識処理のユーザスクリプトは、フレームワーク、ライブラリおよびアクセラレータ４０のドライバを介して、アクセラレータ４０により実行される。また、追跡処理および行動推定処理のユーザスクリプトは、フレームワークおよびライブラリを介して、プロセッサ１０により実行される。処理優先度制御部１２の分配指示部１４は、上述したように、アクセラレータ４０のドライバのＡＰＩをフックすることで、複数のステージ毎に優先度を設定する。

図５は、演算ステージ４３毎の優先度にしたがって処理命令がアクセラレータ４０に投入される例を示す。例えば、深層学習または深層学習後の認識処理等に使用されるフレームワークは、ユーザスクリプトの記述に細かな制御を含めなくてもよいように、低レベルのＡＰＩを隠蔽する。

また、アクセラレータ４０等の外部デバイスが深層学習または認識処理等に使用される場合、フレームワークは、アクセラレータ４０に関連するドライバのＡＰＩ等も隠蔽する。さらに、フレームワークは、数理演算等のライブラリも隠蔽する。これにより、ユーザスクリプトによる記述は、フレームワークが提供するＡＰＩを意識することで作成可能になる。換言すれば、ユーザスクリプトによる記述は、計算処理がプロセッサ１０またはアクセラレータ４０のいずれにより実行されるのかを意識せずに生成可能になる。

さらに、この実施形態では、アクセラレータ４０に対する処理命令を管理するための演算ステージ４３毎の優先度付きのキューの作成ＡＰＩが隠蔽される。例えば、処理命令は、アクセラレータ４０のドライバにより管理されるソフトウェアレベルのキュー４５（４５ａ、４５ｂ）と、アクセラレータ４０により管理されるハードウェアレベルのキュー４６とを介してアクセラレータ４０に投入される。

ソフトウェアレベルのキュー４５は、ハードウェアレベルのキュー４６に空きがある場合、ハードウェアレベルのキュー４６に処理命令を投入する。アクセラレータ４０は、ハードウェアレベルのキュー４５から投入される処理命令を投入順に実行する。ソフトウェアレベルのキュー４５からハードウェアレベルのキュー４６への命令の投入は、優先度の高いキューが優先される。

図５では、演算ステージ４３ａ、４３ｂにそれぞれ対応するソフトウェアレベルのキュー４５ａ、４５ｂが示される。演算ステージ４３ａに対応するキュー４５ａは、演算ステージ４３ｂに対応するキュー４５ｂより優先度が高い。このため、キュー４５ａに保持される処理命令ａ１、ａ２は、キュー４５ｂに保持される処理命令ｂ１、ｂ２より優先的にハードウェアレベルのキュー４６に投入される。そして、キュー４６は、処理命令ａ１、ａ２、ｂ１、ｂ２を保持した順にアクセラレータ４０に投入する。これにより、演算ステージ４３ａによる処理は、演算ステージ４３ｂによる処理より優先的に実行される。

図６は、図４の処理優先度制御部１２の分配指示部１４がＡＰＩのフックによりキューの優先度を付け替える一例を示す。分配指示部１４は、ドライバのＡＰＩによる優先度なしキューを生成する関数と優先度付きキューを生成する関数の両方をフックする。そして、分配指示部１４は、ＡＰＩによるキューを生成する関数を、性能分析部１３により計測された演算ステージ４３の処理時間に基づいて優先度が設定された優先度付きキューを生成する関数に付け替える。

特に限定されないが、優先度なしのキューを生成する関数は、"ｃｕＳｔｒｅａｍＣｒｅａｔｅ"であり、優先度付きキューを生成する関数は、"ｃｕＳｔｒｅａｍＣｒｅａｔｅＷｉｔｈＰｒｉｏｒｉｔｙ"である。

図７は、図４の処理優先度制御部１２の動作の一例を示す。図７に示す処理フローは、プロセッサ１０が制御プログラムを実行することで実現される。すなわち、図７は、プロセッサ１０による演算処理方法の一例を示す。図７に示す処理フローは、パイプライン制御部１１が複数のデータ処理をアクセラレータ４０に実行させる前の初期化期間（評価期間）に実行される。

まず、ステップＳ１０において、処理優先度制御部１２の性能分析部１３は、性能分析用のダミーデータをメモリ２０または補助記憶装置３０から取得し、共有メモリ１５に書き込む。ダミーデータは、アクセラレータ４０に各ステージ４３の演算を実行させる入力データを含む。そして、性能分析部１３は、ダミーデータを共有メモリ１５からメモリ５０に転送し、アクセラレータ４０に各ステージ４３の演算処理を実行させる。

次に、ステップＳ２０において、性能分析部１３は、各ステージ４３の演算処理に掛かった処理時間を計測する。図７に示す例では、ステージ４３ｃの処理時間が最も長く、ステージ４３ｄの処理時間が最も短い。

次に、ステップＳ３０において、処理優先度制御部１２の分配指示部１４は、性能分析部１３が計測した処理時間に基づいて、各ステージ４３の優先度を、処理時間が長い順に高く設定する。例えば、分配指示部１４は、処理時間が最も長いステージ４３ｃの優先度を最も高い"１"に設定し、処理時間が２番目に長いステージ４３ｂの優先度を２番目に高い"２"に設定する。分配指示部１４は、処理時間が３番目に長いステージ４３ａの優先度を"３"に設定し、処理時間が最も短いステージ４３ｄの優先度を最も低い"４"に設定する。

次に、ステップＳ４０において、分配指示部１４は、各ステージ４３の演算処理を実行するスレッドＩＤ（またはプロセスＩＤ）と優先度とを関連付ける。例えば、分配指示部１４は、ステージ４３ａの優先度"１"を、ステージ４３ｃの演算処理を実行するスレッドＩＤ（またはプロセスＩＤ）"１１１３"と関連付ける。分配指示部１４は、ステージ４３ｂの優先度"２"を、ステージ４３ｂの演算処理を実行するスレッドＩＤ（またはプロセスＩＤ）"１１１２"と関連付ける。分配指示部１４は、他のステージ４３の優先度も、スレッドＩＤと対応付ける。

次に、ステップＳ５０において、分配指示部１４は、図６で説明したように、アクセラレータ４０のドライバのＡＰＩをフックすることで、ステップＳ３０で決定した優先度をステージ４３毎に付け替える。次に、ステップＳ６０において、分配指示部１４は、ステップＳ５０で設定した優先度を有するキュー４５を再生成し、図７に示す初期化動作を完了する。

図８は、図２の情報処理装置１００により実行されるパイプライン並列処理の一例を示す。図８に示すパイプライン並列処理では、図４に示す学習済みのニューラルネットワークを使用した画像認識処理が実行される。図８の上側は、処理優先度制御部１２を動作させず、優先度を処理時間の長さに対応させない場合のパイプライン並列処理の一例を示す。図８の下側は、処理優先度制御部１２を動作させ、優先度を処理時間の長さに対応させた場合のパイプライン並列処理の一例を示す。

処理優先度制御部１２を動作させない場合、図７に示したように、処理時間は、ステージ４３ｃ、４３ｂ、４３ａ、４３ｄの順で長くなる。各ステージ４３の処理時間がばらつくため、隣接する２つのステージ４３間において後ろのステージ４３の演算を開始するまでの待ち時間が発生しやすくなる。待ち時間は、後ろのステージ４３の処理時間が長いほど長くなり、パイプライン並列処理の進行とともに蓄積される。したがって、処理優先度制御部１２を動作させない場合、パイプライン並列処理による演算処理の実行効率は低下する。

なお、パイプライン設計では、各ステージでの処理量は、ほぼ等しくなるように設定される。しかしながら、例えば、ステージ４３ｃの演算処理中に他の演算処理が割り込むことで、ステージ４３ｃの処理時間が延びる。演算処理の割り込みは、ステージ４３ｃに設定された優先度が低いほど発生しやすい。なお、図８では、ステージ４３ｃの演算処理中に他の演算処理がまとめて割り込んでいるが、他の演算処理の割り込みは、間隔を置いて複数回発生してもよい。

これに対して、処理優先度制御部１２を動作させる場合、分配指示部１４は、各ステージ４３の優先度を、処理時間が長い順に高く設定する。これにより、割り込みの頻度が高く処理時間が延びていたステージ４３ほど優先度が高く設定されるため、各ステージの処理時間をほぼ同等にすることが可能になる。

したがって、プロセッサ１０は、隣接する２つのステージ４３間において後ろのステージ４３の演算を開始するまでの待ち時間を短縮することができる。この結果、プロセッサ１０は、処理優先度制御部１２を動作させない場合に比べて、無駄な待ち時間を少なくすることができ、パイプライン並列処理による演算処理の実行効率を向上することができる。すなわち、この実施形態においても、複数のパイプラインステージに分割される複数のデータ処理を実行する情報処理装置１００のスループットを向上することができる。

図９は、図４の処理優先度制御部１２による優先度制御の前後での処理時間の変化の一例を示す。図９では、図７による計測で処理時間が最も長いステージ４３ｃにおいて、動画像のフレーム１２０からフレーム１３８をリアルタイムで処理した場合の処理時間の変化が示される。

優先度制御前の処理時間は、図８の処理優先度制御部１２を動作させない場合に対応し、優先度制御後の処理時間は、図８の処理優先度制御部１２を動作させる場合に対応する。各フレームの処理時間において、"ｉｍａｇｅｓ"は入力データの読み込みを示し、"ＣＰＮ＿ｐｒｅｐ"は前処理を示し、"ＣＰＮ＿ｒｅｓｉｚｅ"は画像データのリサイズを示す。"ｍｏｄｅｌ"は画像処理を示し、"ＣＰＮ＿ｐｅａｋ"は後処理を示す。

優先度制御前では、フレームによって処理時間のばらつきが大きい。ステージ４３ｃにおいて各フレームの処理量は、ほぼ同じである。このため、処理時間の増加は、他の処理の割り込みによる処理の遅延により発生する。優先度制御前の最大の処理時間は、１１２ｍｓである。例えば、フレームを欠落することなく動画像を処理する場合、カメラからの動画像の入力は、毎秒８フレーム以下に抑えられる。

一方、優先度が高く設定された優先度制御後では、最大の処理時間は６３ｍｓに改善する。フレームを欠落することなく動画像を処理する場合、カメラからの動画像の入力は、毎秒１５フレームまで可能になる。したがって、プロセッサ１０は、処理優先度制御部１２により優先度制御を実行することで画像認識処理の性能を向上することができる。

以上、この実施形態においても上述した実施形態と同様の効果を得ることができる。例えば、優先度の設定前には他の処理の割り込みにより処理時間が延びていたステージ４３の処理時間を短縮することができる。したがって、情報処理装置１００は、各々が複数のステージ４３に分割される複数のデータ処理を順次実行するパイプライン並列処理において、複数のステージ４３の処理時間をほぼ均等にすることができる。この結果、情報処理装置１００は、パイプライン並列処理によるデータ処理の実行効率を向上できる。

分配指示部１４は、アクセラレータ４０のドライバのＡＰＩをフックすることで、複数のステージ４３毎に優先度を付け替える。これにより、情報処理装置１００は、パイプライン制御部１１により各ステージ４３の優先度が設定できない場合にも、分配指示部１４により、各ステージ４３の実際の処理時間に応じて優先度を設定できる。性能分析部１３による処理時間の計測および分配指示部１４による優先度の設定は、アクセラレータ４０が複数のデータ処理を並列に順次実行する前の初期化期間に行われる。各ステージ４３の優先度が予め設定されるため、情報処理装置１００は、データ処理の実行時に処理効率が低下することを抑制できる。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１演算処理装置
２パイプライン制御部
３計測部
４優先度設定部
５処理部
１０プロセッサ
１１パイプライン制御部
１２処理優先度制御部
１３性能分析部
１４分配指示部
１５共有メモリ
１８外部コマンド制御部
２０メモリ
３０補助記憶装置
４０アクセラレータ
４１パイプライン
４２入力ステージ
４３演算ステージ
４４出力ステージ
４５ａ、４５ｂ、４６キュー
５０メモリ
６０接続インタフェース部
７０入力インタフェース部
８０出力インタフェース部
９０ネットワークインタフェース部

Claims

各々が複数のパイプラインステージに分割される複数のデータ処理を、タイミングをずらして処理部に並列に実行させるパイプライン制御部と、
前記複数のパイプラインステージの各々の処理時間を計測する計測部と、
前記複数のパイプラインステージの優先度を、計測した処理時間が長い順に高く設定する優先度設定部と、
を有する演算処理装置。
前記優先度設定部は、前記処理部の動作を制御するドライバのアプリケーション・プログラマブル・インタフェースをフックすることで、前記複数のパイプラインステージ毎に前記優先度を付け替える
請求項１に記載の演算処理装置。
前記計測部による処理時間の計測および優先度設定部による優先度の設定は、前記パイプライン制御部が前記複数のデータ処理を前記処理部に実行させる前に行われる
請求項１または請求項２に記載の演算処理装置。
各々が複数のパイプラインステージに分割される複数のデータ処理を、タイミングをずらして処理部に並列に実行させる前に、
前記複数のパイプラインステージの各々の処理時間を計測し、
前記複数のパイプラインステージの優先度を、計測した処理時間が長い順に高く設定する
演算処理方法。