JP2021144265A

JP2021144265A - プロセッサ性能測定装置

Info

Publication number: JP2021144265A
Application number: JP2020040547A
Authority: JP
Inventors: 裕介夏井; Yusuke Natsui
Original assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Current assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2021-09-24
Anticipated expiration: 2040-03-10
Also published as: US11604717B2; US20210286700A1; JP7404111B2

Abstract

【課題】プロセッサが実行する処理について所定の処理単位毎の性能を測定する。【解決手段】実施形態のプロセッサ性能測定装置は、１つ以上の処理単位および前記処理単位の実行に必要な１つ以上の実行単位によって所定の機能を実現するプロセッサにおいて、メモリアクセスが発生することを検出して、前記処理単位又は実行単位の切換りを推定する第１の推定と、前記メモリアクセスのアクセス先アドレスに基づいて、実行中の前記処理単位が前記１つ以上の処理単位のうちのいずれの処理単位であるか、又は実行中の前記実行単位が前記１つ以上の処理単位のうちのいずれの処理単位に対応するかを推定する第２の推定とを行う推定部と、前記第１の推定の推定結果により前記処理単位又は前記実行単位における性能を測定する測定部と、前記測定部の測定結果を前記第２の推定の推定結果に基づいて前記処理単位毎に集計する集計部と、を具備する。【選択図】図１

Description

本発明の実施形態は、プロセッサ性能測定装置に関する。

従来、ニューラルネットワークによって画像又は音声等の情報から、認識、識別処理等を実現する技術がある。例えば、畳み込みニューラルネットワーク技術では、畳み込みレイヤ及び全結合レイヤ等のレイヤを連続させることによってニューラルネットワークが構成され、各レイヤにおいて、畳み込み演算及び全結合演算等の所定の演算を行うことによって、認識、識別処理等が実現される。

ニューラルネットワークによる処理を実現するプロセッサにおいては、例えば、ニューラルネットワークのカーネルサイズ、チャンネル数（パラメータ数）、演算の種類等のネットワーク構造に応じて、レイヤ内での処理時間やバスの幅、レイテンシ等が異なる。従って、各レイヤにおけるネットワーク構造を適宜設計することで、ネットワーク全体での処理時間の短縮化を図ることが可能である。

ネットワーク構造の最適化のためにはレイヤ毎の性能を計測する必要がある。しかしながら、レイヤ毎の性能測定は容易ではない。

特開２０１７−２１１７９９号公報

実施形態は、プロセッサが実行する処理について所定の処理単位毎の性能を測定することができるプロセッサ性能測定装置を提供することを目的とする。

実施形態のプロセッサ性能測定装置は、１つ以上の処理単位および前記処理単位の実行に必要な１つ以上の実行単位によって所定の機能を実現するプロセッサにおいて、前記処理単位の実行又は前記実行単位の実行に必要なメモリアクセスが発生することを検出して、前記処理単位又は実行単位の切換りを推定する第１の推定と、前記メモリアクセスのアクセス先アドレスに基づいて、実行中の前記処理単位が前記１つ以上の処理単位のうちのいずれの処理単位であるか、又は実行中の前記実行単位が前記１つ以上の処理単位のうちのいずれの処理単位に対応するかを推定する第２の推定とを行う推定部と、前記第１の推定の推定結果により前記処理単位又は前記実行単位における性能を測定する測定部と、前記測定部の測定結果を前記第２の推定の推定結果に基づいて前記処理単位毎に集計する集計部と、を具備する。

第１の実施の形態に係るプロセッサ性能測定装置及び測定対象のプロセッサを示すブロック図。レイヤ推定処理を示すフローチャート。タイリングを説明するための説明図。図３の例におけるＣＮＮ演算及び性能測定の処理を示す説明図。ＣＮＮ演算の他の処理の例を示す説明図。第２の実施の形態を示すブロック図。第２の実施の形態を説明するメタの説明図。第３の実施の形態を示すブロック図。アフィン変換処理時の性能測定を説明するための説明図。

以下、図面を参照して本発明の実施の形態について詳細に説明する。

（第１の実施の形態）
図１は第１の実施の形態に係るプロセッサ性能測定装置及び測定対象のプロセッサを示すブロック図である。本実施の形態において性能測定の対象とするプロセッサは、所定の機能を実現するための処理を１つ以上の処理単位で行うものであり、各処理単位の性能に応じた設計を行うことにより、全体として高性能化を図ることができるものである。処理単位は、所定の設定を用いて設計されたモジュールであり、設計が異なるモジュールは異なる処理単位である。

例えば、畳み込みニューラルネットワーク（以下、ＣＮＮという）を実現するプロセッサについては、畳み込み演算を行うハードウェアモジュールやプーリング演算を行うハードウェアモジュールを有しており、これらのモジュールはそれぞれが１つの処理単位となり得るが、設定が異なれば異なる処理単位となる。例えば、１つの畳み込み演算を行うハードウェアモジュールを用いて複数のレイヤの処理が行われる場合には、各レイヤは設定が異なるので各レイヤがそれぞれ処理単位となる。また、ＣＮＮの各レイヤにおいて行われる演算（以下、ＣＮＮ演算という）をソフトウェアによってプロセッサが実現する場合には、ソフトウェアによって実現されるネットワークはレイヤ毎に設定が異なるので、各レイヤがそれぞれ処理単位となる。

プロセッサが実行する処理の種類によっては、所定の処理単位毎のプロセッサ性能の測定が困難である場合がある。例えば、ＣＮＮを実現するプロセッサについては、所定の処理単位であるレイヤ毎の性能測定には問題がある。ここで性能とは例えば、処理に要した処理時間などである。

プロセッサを構成する演算部は、ＣＰＵ等により構成された制御部から、ＣＮＮの各レイヤにおける一連の演算処理を行うための命令（インストラクション）を取得し、当該命令に従って演算を実行する。演算部が全レイヤの処理に要した処理時間等の性能については制御部において把握可能であるが、制御部はレイヤ毎の性能を把握することはできない。

なお、演算部は、各レイヤの演算を複数の命令実行（以下、ｅｘｅｃという）で行うことがある。ｅｘｅｃのための実行コード中に、各レイヤの処理開始タイミングを確認するためのコードを埋め込むことで、各レイヤの処理開始等を確認することは可能である。しかしこの場合、本来必要な実行コードとは異なるコードの埋め込みが必要となる。

また、ＣＮＮ等においては、入力画像データサイズとメモリ容量との関係等を考慮して、入力画像を複数に分割して処理を行うタイリングが採用されることがある。このタイリングにより同一レイヤの処理が分散されることがあることから、各レイヤの処理時間を求めるためには実行単位である各ｅｘｅｃの処理時間を集計する必要がある。しかし、タイリングによって、ＣＮＮの各レイヤの実行に必要なｅｘｅｃが増大する。例えば、入力画像データのチャンネル数が３で、縦×横の画素数が、２２４×２２４である場合には、ＣＮＮを１６レイヤで構成すると、ｅｘｅｃの数は数千に及ぶ。従って、処理時間の集計のために必要なメモリ容量が極めて大きくなり、また、各ｅｘｅｃを識別するために多数の識別情報を設定する必要がある。

ところで、コンピュータの性能を測定する関連技術の装置として、測定条件が指定されるとクロックカウンタにより処理の時間を計測するものがある。この装置の技術を採用してＣＮＮの各レイヤの性能を測定することが考えられる。しかし、この装置の技術を用いても演算部においていずれのｅｘｅｃが実行されるかを判断できない。従って、レイヤ毎の性能を測定することはできない。

また、他の関連技術として、プロセッサによる関数の実行時の消費電力を測定する装置もある。この装置では、プロセッサの消費電力を計測する計測関数を所定時間単位に実行すると共に、複数の関数それぞれの識別情報を記憶することで、関数毎の実行に伴うプロセッサの消費電力を測定するようになっている。しかしながら、この提案の技術を採用する場合には、計測のための実行コードの追加と、ｅｘｅｃを識別するための識別情報の追加が必要となる。

また、他の関連技術として、プロセッサの性能低下に及ぼす影響が大きく且つ統計的な信頼度が基準を満たす上位一定数の事象の統計データを記憶する装置も提案されている。しかしながら、この提案の技術を採用したとしても、性能に影響が大きい上位一定数のｅｘｅｃについての情報しか記録されず、レイヤ毎の性能を測定することはできない。

このように、ＣＮＮを実現するプロセッサにおいて、レイヤ毎の性能を測定するためには、比較的大容量のメモリが必要であったり、本来の実行コードには不要の測定用のコードを追加する必要があったりするという問題がある。

そこで、本実施の形態は、プロセッサを構成する演算部における演算の実行単位としてのｅｘｅｃの実行に際して、処理の内容や入出力データのアドレス等の情報を用いることでｅｘｅｃを識別し、当該ｅｘｅｃに対応する所定の処理単位を判定することで、所定の処理単位毎の性能を測定することを可能にする。

図１は、制御対象のプロセッサ２０がＣＮＮ演算を実行する場合の例を示している。プロセッサ２０は、制御部２１及び演算処理部２２を有する。演算処理部２２は、命令設定記憶部２３及び演算部２４が構成される。制御部２１は、ＣＰＵ（Central Processing Unit）やＦＰＧＡ（Field Programmable Gate Array）等を用いたプロセッサによって構成されていてもよく、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。

また、演算処理部２２については、ＣＮＮ専用のハードウェアアクセラレータチップ等により構成してもよく、一部をハードウェアで構成したプログラム可能なアクセラレータチップを採用してもよく、また、ＣＰＵ、ＦＰＧＡ、ＧＰＵ（Graphic Processing Unit）等を採用して、プログラムによりＣＮＮ演算の一部又は全部を実行するものであってもよい。

メモリ３０は、例えばＤＲＡＭ等の所定の記録媒体により構成され、特徴マップを記憶する領域３１、重み・バイアスを記憶する領域３２及びネットワーク設定情報を記憶する領域３３を有する。なお、これらの領域３１〜３３は、相互に別の記録媒体に設けられるものであってもよい。

領域３１には、画像データ（特徴マップ）が記憶される。ＣＮＮ演算の対象となる入力画像データは、入力特徴マップとして領域３１に格納される。また、演算処理部２２により処理された画像データについても、出力特徴マップとして領域３１に記憶される。領域３２に記憶される重み（Ｗｅｉｇｈｔ）及びバイアスは、ＣＮＮ演算におけるパラメータであり、領域３３に記憶されるネットワーク設定情報は、ＣＮＮの各レイヤを識別するレイヤＩＤのリストの情報である。

制御部２１は、領域３１に記憶される入力特徴マップ（入力データ）のアドレス（Ｉｎｐｕｔａｄｄｒｅｓｓ）及び入力データのシェープ（Ｉｎｐｕｔｓｈａｐｅ）を管理する。また、制御部２１は、領域３１に記憶される出力特徴マップ（出力データ）のアドレス（Ｏｕｔｐｕｔａｄｄｒｅｓｓ）及び出力データのシェープ（Ｏｕｔｐｕｔｓｈａｐｅ）を管理する。同様に、制御部２１は、領域３２に記憶される重みのアドレス（Ｗｅｉｇｈｔａｄｄｒｅｓｓ）とそのシェープ（Ｗｅｉｇｈｔｓｈａｐｅ）を管理する。メモリ３０は、制御部２１によって書き込み及び読み出しが制御されるようになっている。

制御部２１は、プロセッサ２０の各部を制御して、ＣＮＮ演算の実行を制御する。制御部２１は、領域３１からネットワーク設定情報を読み出し、ＣＮＮ演算に必要な命令（インストラクション）を生成して命令設定記憶部２３に与える。演算部２４は、ＣＮＮの各レイヤのＣＮＮ演算を実行可能に構成されており、命令設定記憶部２３から命令を読み出して、各レイヤのＣＮＮ演算を実行する。

例えば、命令設定記憶部２３に記憶される命令は、レジスタ２５のアドレスと値により構成することができる。演算部２４は、命令設定記憶部２３からの命令を読み出し、当該命令により指定されたレジスタ２５のアドレスに命令に対応した情報をセットする。

例えば、演算部２４は、１命令毎に、制御部２１からの情報を用いて、オペレーションの種類、Ｉｎｐｕｔａｄｄｒｅｓｓ、Ｉｎｐｕｔｓｈａｐｅ、ＷｅｉｇｈｔａｄｄｒｅｓｓＷｅｉｇｈｔｓｈａｐｅ、Ｏｕｔｐｕｔａｄｄｒｅｓｓ、Ｏｕｔｐｕｔｓｈａｐｅ等の情報をレジスタ２５にセットする。なお、オペレーションの種類は、ＣＮＮ演算が畳み込みレイヤの畳み込み演算であるかプーリング層のプーリング演算であるか等の演算の種類を示す情報である。

演算部２４は、命令に従ってレジスタ２５に実行をセットすることにより、セットした内容に従ってｅｘｅｃを行い、処理が終了すると、命令設定記憶部２３から次の命令を読み出して同様の処理を繰り返す。こうして、各レイヤの一連のＣＮＮ演算が行われる。

プロセッサ性能測定装置１０は、プロセッサ性能測定装置１０の各部を制御する制御部１１を有している。制御部１１は、ＣＰＵやＦＰＧＡ等を用いたプロセッサによって構成されていてもよく、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。また、プロセッサ性能測定装置１０内のレイヤ情報推定部１２、性能測定部１３及び性能情報集計・記録部１４についても、ＣＰＵ等を具備して図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。

本実施の形態においては、プロセッサ２０の性能を測定するために、プロセッサ性能測定装置１０は、レイヤ情報推定部１２を備える。レイヤ情報推定部１２は、ＣＮＮ演算の実行開始時において、メモリ３０から制御部２１に読み出されるネットワーク設定情報を取得する。また、レイヤ情報推定部１２は、ＣＮＮ演算の実行時においてレジスタ２５を監視し、レジスタ２５に記憶されているレジスタの値を取得する。レイヤ情報推定部１２は、取得したネットワーク設定情報及びレジスタ値を記憶する図示しないメモリを有している。

レイヤ情報推定部１２は、取得した情報に基づいて、現在演算部２４において実行されているｅｘｅｃがいずれのレイヤのＣＮＮ演算に対応するかを推定して、当該レイヤを示すレイヤＩＤの情報を対応するｅｘｅｃに関連付けて記録すると共に出力する。

例えば、レイヤ情報推定部１２は、オペレーションの種類が切換ることによって、実行されたｅｘｅｃに対応するレイヤが前回実行されたｅｘｅｃに対応するレイヤから変化したと判定してもよい。しかし、ＣＮＮ演算では、畳み込み演算が繰り返し実行されることがあり、前後するｅｘｅｃにおいて取得したオペレーションの種類が変化しない場合でも、前後のｅｘｅｃに対応するレイヤは変化していることもある。また、例えば、タイリングが採用された場合には、同一種類のオペレーションが行われる同一レイヤの演算であって、異なるｅｘｅｃにて処理されることがある。

そこで、レイヤ情報推定部１２は、オペレーションの種類だけでなく、画像データを記憶する領域３１のメモリアクセス範囲、重みとバイアスを記憶する領域３２のメモリアクセス範囲によって、実行されたｅｘｅｃに対応するレイヤを推定してもよい。

例えば、同一レイヤのＣＮＮ演算のためのｅｘｅｃでは、共通の重みとバイアスが採用されると考えることができる。レイヤ情報推定部１２は、Ｗｅｉｇｈｔａｄｄｒｅｓｓ及びＷｅｉｇｈｔｓｈａｐｅによって、各ｅｘｅｃに用いられた重みとバイアスを判定することで、２つの異なるｅｘｅｃにそれぞれ対応する２つレイヤが相互に同一のレイヤであるか否かを判定してもよい。

レイヤ情報推定部１２は、読み出す画像の領域(以下、ｉｎｐｕｔ領域という）についてはＩｎｐｕｔａｄｄｒｅｓｓ及びＩｎｐｕｔｓｈａｐｅによって判定し、書き込む画像の領域(以下、ｏｕｔｐｕｔ領域という）についてはＯｕｔｐｕｔａｄｄｒｅｓｓ及びＯｕｔｐｕｔｓｈａｐｅによって判定してもよい。

例えば、レイヤ情報推定部１２は、オペレーションの種類が変化しておらずで且つＣＮＮ演算に用いられる重みとバイアス（以下、演算パラメータともいう）も変化していないと判定した場合には、実行中のｅｘｅｃに対応するレイヤは前回実行されたｅｘｅｃに対応するレイヤから変化していないと判定してもよい。

また、例えば、レイヤ情報推定部１２は、前後のｅｘｅｃについて、オペレーションの種類に変化があるか又は演算パラメータに変化があると判定した場合には、後のｅｘｅｃについての演算パラメータと同一でｉｎｐｕｔ領域及びｏｕｔｐｕｔ領域(以下、これらを特徴マップ領域ともいう）が一部重複又は隣接したｅｘｅｃが存在する場合には、後ｅｘｅｃは、当該検出したｅｘｅｃに対応するレイヤと同一のレイヤに対応するものと判定してもよい。なお、特徴マップ領域の特徴マップが画像として認識できる場合には、特徴マップ領域を単に画像領域ともいう。

レイヤ情報推定部１２は、推定して得たレイヤＩＤを、当該レイヤに対応するｅｘｅｃの開始タイミングの情報を付して、あるいは、当該ｅｘｅｃの開始タイミングで性能測定部１３に出力する。即ち、レイヤ情報推定部１２は、ｅｘｅｃが実行開始されるタイミングが性能測定部１３において把握可能なように、当該ｅｘｅｃに対応するレイヤＩＤを性能測定部１３に出力する。

性能測定部１３は、プロセッサ２０の性能を測定する。例えば、性能測定部１３の測定対象の性能としては、処理時間、消費電力、必要なバス帯域等が考えられる。例えば、性能測定部１３は、プロセッサ２０の処理時間の性能を測定する場合には、レイヤ情報推定部１２の出力から、プロセッサ２０において実行中のｅｘｅｃの実行期間を図示しないタイマにより計測する。また、性能測定部１３は、プロセッサ２０の消費電力の性能を測定する場合には、レイヤ情報推定部１２の出力から、プロセッサ２０において実行中のｅｘｅｃの実行期間中の消費電力を図示しない電力測定器により計測する。また、性能測定部１３は、演算部２４が必要とするバス幅についての性能を測定する場合には、レイヤ情報推定部１２の出力から、プロセッサ２０において実行中のｅｘｅｃの実行期間中に使用されるバス帯域幅を制御部２１等の情報を基に計測する。性能測定部１３は、計測結果をレイヤＩＤの情報と共に性能情報集計・記録部１４に出力する。

性能情報集計・記録部１４は、性能測定部１３からレイヤＩＤ毎の計測結果が与えられ、レイヤ毎に計測結果を集計するようになっている。性能情報集計・記録部１４は、図示しない記録媒体を備えており、集計結果を記録媒体に記録するようになっている。

次に、このように構成された実施の形態の動作について図２から図５を参照して説明する。図２はレイヤ推定処理を示すフローチャートである。図３はタイリングを説明するための説明図である。図４は図３の例におけるＣＮＮ演算及び性能測定の処理を示す説明図である。図５はＣＮＮ演算の他の処理の例を示す説明図である。

性能測定対象であるプロセッサ２０の制御部２１は、ＣＮＮ演算の開始時にメモリ３０からネットワーク設定情報を読み出す。プロセッサ性能測定装置１０のレイヤ情報推定部１２は、図２のステップＳ１において、ＣＮＮ演算の開始時にネットワーク設定情報を収集する。なお、ネットワーク設定情報にはレイヤＩＤのリストの情報が含まれる。制御部２１は、ネットワーク設定情報に従って、ＣＮＮ演算に必要な命令（インストラクション）を生成して命令設定記憶部２３に与える。

いま、ＣＮＮ演算においてタイリングが採用されるものとする。図３の例では、入力画像Ｐｉを４分割し、分割された各入力画像Ｐｉ０，Ｐｉ１，Ｐｉ２，Ｐｉ３に対して、各レイヤでのＣＮＮ演算が行われるようになっている。なお、各入力画像Ｐｉ０〜Ｐｉ３は、畳み込み演算に必要な画像データを確保するために画像サイズが異なっている。図３の例は、２つのレイヤＬ１，Ｌ２における処理を、各画像について連続的に行うことを示している。

即ち、図３の例では、画像Ｐｉ０に対するレイヤＬ１での演算Ｌ１−０の演算結果に対して、レイヤＬ２での演算Ｌ２−０の演算を行い、レイヤＬ２の演算結果である出力Ｐｏ０を得るようになっている。次に、画像Ｐｉ１について、レイヤＬ１，Ｌ２でそれぞれ演算Ｌ１−１，Ｌ２−１を行い演算結果Ｐｏ１を得る。次に、画像Ｐｉ２について、レイヤＬ１，Ｌ２でそれぞれ演算Ｌ１−２，Ｌ２−２を行い演算結果Ｐｏ２を得る。最後に、画像Ｐｉ３について、レイヤＬ１，Ｌ２でそれぞれ演算Ｌ１−３，Ｌ２−３を行い演算結果Ｐｏ３を得る。これらの演算結果Ｐｏ０〜Ｐｏ３によって、演算結果Ｐｏを得るようになっている。

制御部２１は、ネットワーク設定情報に基づいて、このようなＣＮＮ演算を可能にする命令を生成して命令設定記憶部２３に与える。演算部２４は、命令設定記憶部２３から命令を読み出して、レジスタ２５に、各レイヤのＣＮＮ演算を実行するための命令に対応した情報をセットする。なお、レジスタ２５には、オペレーションの種類、Ｉｎｐｕｔａｄｄｒｅｓｓ、Ｉｎｐｕｔｓｈａｐｅ、ＷｅｉｇｈｔａｄｄｒｅｓｓＷｅｉｇｈｔｓｈａｐｅ、Ｏｕｔｐｕｔａｄｄｒｅｓｓ、Ｏｕｔｐｕｔｓｈａｐｅ等の情報がセットされる。演算部２４は、レジスタ２５に実行がセットされると、レジスタ２５にセットした値を参照しながらＣＮＮ演算を実行する。

図４はこのような処理を示しており、制御部２１は、ネットワーク設定情報に基づいて、入力画像に対してレイヤＬ１の処理及びレイヤＬ２の処理を加えて出力画像を得る一連のＣＮＮ演算についての命令を作成する。この命令に応じた情報がレジスタ２５に格納され、演算部２４はレジスタ２５の情報に応じて順次ｅｘｅｃを実行する。なお、図４ではｅｘｃｅは実行順に、実行順を示す括弧付きの数字を付して示している。図４は図３の例に対応しており、ｅｘｅｃ（１），ｅｘｅｃ（２），…は、それぞれレイヤＬ１，Ｌ２，Ｌ１，Ｌ２，…に対応する。

演算部２４は、最初のｅｘｅｃ（１）において、図３の画像Ｐｉ０の画像データを読み出して、演算Ｌ１−０を行う。プロセッサ性能測定装置１０のレイヤ情報推定部１２は、プロセッサ２０のレジスタ２５を監視しており、レジスタ２５に情報がセットされると、レジスタ２５からオペレーションの種類、Ｉｎｐｕｔａｄｄｒｅｓｓ、Ｉｎｐｕｔｓｈａｐｅ、ＷｅｉｇｈｔａｄｄｒｅｓｓＷｅｉｇｈｔｓｈａｐｅ、Ｏｕｔｐｕｔａｄｄｒｅｓｓ、Ｏｕｔｐｕｔｓｈａｐｅ等の情報を読み出す（ステップＳ２）。レイヤ情報推定部１２は、ステップＳ３においてレジスタ値が更新されているか否かを判定しており、レジスタ２５が新しい情報が記憶される毎にステップＳ４以下の処理を行う。なお、図２では図示を省略したが、最初のｅｘｅｃ（１）の実行時には、ステップＳ３から処理をステップＳ７に移行して、レイヤ情報推定部１２は、レイヤＩＤのリストの情報により、推定結果として最初のレイヤＬ１のレイヤＩＤを記憶すると共に、ｅｘｅｃ（１）に対応するレジスタ値を記憶する。

レイヤ情報推定部１２は、推定結果のレイヤＩＤを性能測定部１３に出力する（ステップＳ８）。性能測定部１３は、現在のｅｘｅｃが実行されている期間における性能を測定する。例えば、処理時間の性能を測定する場合には、性能測定部１３は、タイマの出力を用いて、現在のｅｘｅｃの実行時間を測定する。なお、性能測定部１３は、１つの性能に限らず、複数種類の性能について、各ｅｘｅｃが実行されている期間における性能を測定してもよい。レイヤ情報推定部１２は、各ｅｘｅｃについての測定終了後に測定結果をレイヤＩＤの情報と共に性能情報集計・記録部１４に出力する。

演算部２４は、最初の演算Ｌ１−０に対応するｅｘｅｃ（１）の実行が終了すると、命令設定記憶部２３から次の命令を読み出して、命令に対応した情報をレジスタ２５にセットする。演算部２４は、レジスタ２５に実行がセットされると、レジスタ２５にセットした値を参照しながらＣＮＮ演算を実行する。即ち、演算部２４は、２番目のｅｘｅｃ（２）において、レイヤＬ１の演算結果に対してレイヤＬ２の演算Ｌ２−０を行う。

プロセッサ性能測定装置１０のレイヤ情報推定部１２は、ステップＳ２においてレジスタ値を読み出し、ステップＳ３から処理をステップＳ４に移行する。レイヤ情報推定部１２は、ステップＳ４においてオペレーションの種類の情報に基づいてオペレーションの種類に変化があったか否かを判定し、ステップＳ５においてＷｅｉｇｈｔａｄｄｒｅｓｓ及びＷｅｉｇｈｔｓｈａｐｅの情報に基づいて演算パラメータに変化があったか否かを判定する。

この場合には、ｅｘｅｃ（２）はレイヤＬ２の演算であり、少なくともＷｅｉｇｈｔａｄｄｒｅｓｓ及びＷｅｉｇｈｔｓｈａｐｅの情報は変化しており、レイヤ情報推定部１２は、ステップＳ５において演算パラメータに変化があったものと判定して処理をステップＳ１０に移行する。なお、この場合には、ステップＳ４において、オペレーションの種類が変化していることもあり、いずれの場合でも、ステップＳ１０の処理が行われる。

レイヤ情報推定部１２は、ステップＳ１０において、前回まで行われたｅｘｅｃについて、演算パラメータが同一で、且つ、一部重複又は隣接した特徴マップ領域（画像領域）に対するｅｘｅｃが存在したか否かを判定する。この場合には、前回のｅｘｅｃ（１）の場合から演算パラメータが変化しているので、レイヤ情報推定部１２は、処理をステップＳ１２に移行して、ｅｘｅｃ（２）は新しいレイヤに対応するものであると判定する。レイヤ情報推定部１２は、レイヤＩＤのリストから、ｅｘｅｃ（２）に対応するレイヤはレイヤＬ２であるものと推定して、推定結果のレイヤＩＤ及びｅｘｅｃ（２）についてのレジスタ値を記憶する。

レイヤ情報推定部１２は、推定結果のレイヤＩＤを性能測定部１３に出力する（ステップＳ８）。性能測定部１３は、レイヤ情報推定部１２の出力によって、前回のｅｘｅｃについての測定から現在のｅｘｅｃについての測定に切換え、前回のｅｘｅｃについての測定結果をレイヤＩＤと共に性能情報集計・記録部１４に出力する。性能情報集計・記録部１４は、レイヤＩＤ毎に性能測定部１３の測定結果を集計して、レイヤ毎の性能の測定結果を記録媒体に記録する。

以後、性能測定部１３及び性能情報集計・記録部１４については同様に動作し、実行されるｅｘｅｃが切換る毎に、実行されている期間における性能が測定され、レイヤ毎に性能が集計されて記録される。

演算部２４は、演算Ｌ２−０に対応するｅｘｅｃ（２）の実行が終了すると、命令設定記憶部２３から次の命令を読み出して、命令に対応した情報をレジスタ２５にセットする。演算部２４は、レジスタ２５に実行がセットされると、レジスタ２５にセットした値を参照しながらＣＮＮ演算を実行する。即ち、演算部２４は、３番目のｅｘｅｃ（３）において、入力画像Ｐｉ１に対してレイヤＬ１の演算Ｌ１−１を行う。

プロセッサ性能測定装置１０のレイヤ情報推定部１２は、ステップＳ２においてレジスタ値を読み出し、ステップＳ４，Ｓ５において、オペレーションの種類に変化があったか否か、演算パラメータに変化があったか否かを判定する。この場合には、ｅｘｅｃ（３）はレイヤＬ１の演算であり、前回のｅｘｅｃ（２）の実行時から少なくともＷｅｉｇｈｔａｄｄｒｅｓｓ及びＷｅｉｇｈｔｓｈａｐｅの情報は変化しており、レイヤ情報推定部１２は、ステップＳ５において演算パラメータに変化があったものと判定して処理をステップＳ１０に移行する。

レイヤ情報推定部１２は、ステップＳ１０において、前回まで行われたｅｘｅｃについて、演算パラメータが同一で、且つ、一部重複又は隣接した画像領域に対するｅｘｅｃが存在したか否かを判定する。この場合には、演算パラメータはｅｘｅｃ（１）と同じであり、また、画像Ｐｉ１は、画像Ｐｉ０と画像領域が一部重複又は隣接しているので、レイヤ情報推定部１２は、ステップＳ７において、記憶された情報を照合してｅｘｅｃ（１）を検出する。レイヤ情報推定部１２は、ステップＳ１１において、ｅｘｅｃ（３）に対応するレイヤは、ｅｘｅｃ（１）に対応するレイヤと同じレイヤであるものと推定する。レイヤ情報推定部１２は、推定結果のレイヤＩＤ及びｅｘｅｃ（３）についてのレジスタ値を記憶すると共にレイヤＩＤを性能測定部１３に出力する。

演算部２４は、演算Ｌ１−１に対応するｅｘｅｃ（３）の実行が終了すると、命令設定記憶部２３から次の命令を読み出して、命令に対応した情報をレジスタ２５にセットする。演算部２４は、レジスタ２５に実行がセットされると、４番目のｅｘｅｃ（４）において、レイヤＬ１の演算結果に対してレイヤＬ２の演算Ｌ２−１を行う。

プロセッサ性能測定装置１０のレイヤ情報推定部１２は、ステップＳ２においてレジスタ値を読み出し、ステップＳ４，Ｓ５において、オペレーションの種類に変化があったか否か、演算パラメータに変化があったか否かを判定する。この場合には、レイヤ情報推定部１２は、ステップＳ５において演算パラメータに変化があったものと判定して処理をステップＳ１０に移行する。レイヤ情報推定部１２は、ステップＳ１０において、前回まで行われたｅｘｅｃについて、演算パラメータが同一で、且つ、一部重複又は隣接した画像領域に対するｅｘｅｃが存在したか否かを判定する。この場合には、演算パラメータはｅｘｅｃ（２）と同じであり、また、画像Ｐｏ１は、画像Ｐｏ０と画像領域が一部重複又は隣接しているので、レイヤ情報推定部１２は、ステップＳ７において記憶された情報により、ｅｘｅｃ（２）を検出する。レイヤ情報推定部１２は、ステップＳ１１において、ｅｘｅｃ（４）に対応するレイヤは、ｅｘｅｃ（２）に対応するレイヤと同じレイヤであるものと推定する。レイヤ情報推定部１２は、推定結果のレイヤＩＤ及びｅｘｅｃ（４）についてのレジスタ値を記憶すると共にレイヤＩＤを性能測定部１３に出力する。

以後、同様の動作が行われ、レイヤ情報推定部１２において、順次実行される各ｅｘｅｃに対応するレイヤが推定され、性能測定部１３において、各ｅｘｅｃの性能が測定され、性能情報集計・記録部１４において、レイヤＩＤ毎の性能の測定結果が集計されて記録される。こうして、全てのｅｘｅｃの終了時点において、性能情報集計・記録部１４には、レイヤ毎の性能の集計結果が記録される。

次に、図５を参照してＣＮＮ演算の他の例について説明する。図５はレイヤＬ１，Ｌ２，Ｌ３が全て畳み込み演算（ＣＯＮＶ）である場合の例であり、各レイヤの演算は畳み込み演算に対応するｅｘｅｃにより実行される。図５の例では、レイヤＬ１の畳み込み演算は、演算ＣＯＮＶ（１−０）と演算ＣＯＮＶ（１−１）とに分けてそれぞれｅｘｅｃ（１），ｅｘｅｃ（２）で実行される。また、レイヤＬ２の畳み込み演算は、演算ＣＯＮＶ（２−０）と演算ＣＯＮＶ（２−１）とに分けてそれぞれｅｘｅｃ（３），ｅｘｅｃ（５）で実行され、レイヤＬ３の畳み込み演算は、演算ＣＯＮＶ（３−０）と演算ＣＯＮＶ（３−１）とに分けてそれぞれｅｘｅｃ（４），ｅｘｅｃ（６）で実行される。また、レイヤＬ２，Ｌ３の演算の順序は、演算ＣＯＮＶ（２−０）、演算ＣＯＮＶ（３−０）、演算ＣＯＮＶ（２−１）、演算ＣＯＮＶ（３−１）の順である。

図５の例においても、上記説明と同様に、レイヤＩＤの推定処理、各ｅｘｅｃの性能測定、レイヤＩＤ毎の性能の測定結果の集計・記録処理が行われので、レイヤＩＤの推定処理についてのみ説明する。レイヤＩＤの推定処理は図２のフローに従う。

最初のｅｘｅｃ（１）の実行により、レイヤ情報推定部１２は、レイヤＩＤのリストから、ｅｘｅｃ（１）に対応するレイヤはレイヤＬ１と判定する。次のｅｘｅｃ（２）では、レイヤ情報推定部１２は、オペレーションの種類に変化はなく、演算パラメータにも変化がないものと判定して（ステップＳ４，Ｓ５）、ステップＳ６において、ｅｘｅｃ（２）に対応するレイヤは、レイヤＬ１であると推定する。

次に、演算部２４は３番目のｅｘｅｃ（３）において、演算ＣＯＮＶ（２−０）を実行する。レイヤ情報推定部１２は、オペレーションの種類に変化はないが、演算パラメータが変化しているものと判定して（ステップＳ５）、処理をステップＳ１０の判定の後ステップＳ１２に移行する。レイヤ情報推定部１２は、ステップＳ１２において、ｅｘｅｃ（３）に対応するレイヤは、レイヤＬ２であると推定する。

次に、演算部２４はｅｘｅｃ（４）において、演算ＣＯＮＶ（３−０）を実行する。レイヤ情報推定部１２は、オペレーションの種類に変化はないが、演算パラメータが変化しているものと判定して（ステップＳ５）、処理をステップＳ１０の判定の後ステップＳ１２に移行する。レイヤ情報推定部１２は、ステップＳ１２において、ｅｘｅｃ（４）に対応するレイヤは、レイヤＬ３であると推定する。

次に、演算部２４はｅｘｅｃ（５）において、演算ＣＯＮＶ（２−１）を実行する。レイヤ情報推定部１２は、オペレーションの種類に変化はないが、演算パラメータが変化しているものと判定して（ステップＳ５）、処理をステップＳ１０に移行する。レイヤ情報推定部１２は、ステップＳ１０において、前回まで行われたｅｘｅｃについて、演算パラメータが同一で、且つ、一部重複又は隣接した画像領域に対するｅｘｅｃが存在したか否かを判定する。この場合には、演算パラメータはｅｘｅｃ（３）と同じであり、また、ｅｘｅｃ（５）における入力画像又は出力画像の画像領域はｅｘｅｃ（３）における入力画像又は出力画像の画像領域と一部重複又は隣接しているので、レイヤ情報推定部１２は、記憶された情報により、ｅｘｅｃ（３）を検出する。レイヤ情報推定部１２は、ステップＳ１１において、ｅｘｅｃ（５）に対応するレイヤは、ｅｘｅｃ（３）に対応するレイヤと同じレイヤＬ２であるものと推定する。

次に、演算部２４はｅｘｅｃ（６）において、演算ＣＯＮＶ（３−１）を実行する。レイヤ情報推定部１２は、オペレーションの種類に変化はないが、演算パラメータが変化しているものと判定して（ステップＳ５）、処理をステップＳ１０に移行する。レイヤ情報推定部１２は、ステップＳ１０において、前回まで行われたｅｘｅｃについて、演算パラメータが同一で、且つ、一部重複又は隣接した画像領域に対するｅｘｅｃが存在したか否かを判定する。この場合には、演算パラメータはｅｘｅｃ（４）と同じであり、また、ｅｘｅｃ（６）における入力画像又は出力画像の画像領域はｅｘｅｃ（４）における入力画像又は出力画像の画像領域と一部重複又は隣接しているので、レイヤ情報推定部１２は、記憶された情報により、ｅｘｅｃ（４）を検出する。レイヤ情報推定部１２は、ステップＳ１１において、ｅｘｅｃ（６）に対応するレイヤは、ｅｘｅｃ（４）に対応するレイヤと同じレイヤＬ３であるものと推定する。

他の作用は、上記説明と同様である。

このように本実施の形態においては、プロセッサを構成する演算部の命令実行に際して、処理の内容や入出力データのアドレス等の情報を用いることで実行単位である命令実行を識別し、当該命令実行に対応する所定の処理単位を判定することで、所定の処理単位毎の性能を測定することを可能にする。例えば、本実施の形態をＣＮＮ演算を行うプロセッサに適用した場合には、ＣＮＮ演算の命令に用いられるオペレーションの種類、Ｉｎｐｕｔａｄｄｒｅｓｓ、Ｉｎｐｕｔｓｈａｐｅ、ＷｅｉｇｈｔａｄｄｒｅｓｓＷｅｉｇｈｔｓｈａｐｅ、Ｏｕｔｐｕｔａｄｄｒｅｓｓ、Ｏｕｔｐｕｔｓｈａｐｅ等の情報を取得することで、各命令実行がいずれのレイヤに対応したものかを判定することができ、レイヤ毎の性能を測定することが可能となる。レイヤ毎の性能の測定のために、命令実行毎に測定用のコードを埋め込む必要は無く、また、命令実行を識別する識別情報を付加する必要もなく、さらに、性能測定した値は命令実行単位ではなくレイヤ毎に記録すればよいので、必要なメモリ容量を増大させることなくレイヤ毎の性能の測定が可能である。

（第２の実施の形態）
図６は第２の実施の形態を示すブロック図である。図６において図１と同一の構成要素には同一符号を付して説明を省略する。

本実施の形態は、プロセッサ２０において、ローカルメモリ２６を有する演算部２４を採用すると共に、プロセッサ性能測定装置１０のレイヤ情報推定部１２において、アドレス指定部１５を備えた点が第１の実施の形態と異なる。

プロセッサ２０の制御部２１は、ＣＮＮ演算に際して、メモリ（以下、グローバルメモリともいう）３０に格納されているデータの一部を、演算部２４のローカルメモリ２６に転送して記憶させながら、演算部２４にＣＮＮ演算を実行させるように命令（インストラクション）を発生する。演算部２４は、命令設定記憶部２３に記憶された命令に基づいてレジスタ２５に情報をセットする。レジスタ２５にセットされる情報としては、ローカルメモリ２６からデータをロードして格納するためのＬＯＡＤ及びＳＴＯＲＥ命令及びそのアドレス及びシェープの情報が含まれる。例えば、レジスタ２５には、グローバルメモリ３０のアドレス（ｇｌｏｂａｌａｄｄｒｅｓｓ）とローカルメモリ２６のアドレス（ｌｏｃａｌａｄｄｒｅｓｓ）とが含まれる。

演算部２４は、レジスタ２５にＬＯＡＤ及びＳＴＯＲＥがセットされると、グローバルメモリ３０にｇｌｏｂａｌａｄｄｒｅｓｓを指定してデータを読み出し、ローカルメモリ２６にｌｏａｃａｌａｄｄｒｅｓｓを指定してデータを格納するようになっている。以後、演算部２４は、ローカルメモリ２６に記憶されたデータを用いて、ＣＮＮ演算を実行する。

レイヤ情報推定部１２は、レジスタ２５に記憶されたレジスタ値を読み出して、現在実行中のｅｘｅｃに対応するレイヤを推定する。この場合には、レイヤ情報推定部１２は、レジスタ２５からｇｌｏｂａｌａｄｄｒｅｓｓ及びｌｏｃａｌａｄｄｒｅｓｓの両方を読み出すようになっている。レイヤ情報推定部１２のアドレス指定部１５は、レイヤＩＤの推定のために、演算部２４が処理に用いたｌｏｃａｌａｄｄｒｅｓｓをｇｌｏｂａｌａｄｄｒｅｓｓに変換する。レイヤ情報推定部１２は、第１の実施の形態と同様に、ｇｌｏｂａｌａｄｄｒｅｓｓを用いて、レイヤの推定を行う。

次に、このように構成された実施の形態の動作について図７の説明図を参照して説明する。図７は図５と同様のＣＮＮ演算の例を示している。

本実施の形態においても、性能測定部１３の性能測定及び性能情報集計・記録部１４の集計・記録は、第１の実施の形態と同様である。本実施の形態においては、レイヤ情報推定部１２におけるレイヤ推定に際して、演算部２４がＣＮＮ演算に用いたｌｏｃａｌａｄｄｒｅｓｓに代えてｇｌｏｂａｌａｄｄｒｅｓｓを用いて推定を行う点が第１の実施の形態と異なるのみであり、この点を除き、図２と同様のフローが採用される。

レイヤ情報推定部１２は、図２のステップＳ２において、レジスタ値を読み込んで図示しないメモリに記憶させる。この場合には、ＬＯＡＤコマンドによって読み込まれたｇｌｏｂａｌａｄｄｒｅｓｓ及びｌｏｃａｌａｄｄｒｅｓｓについても読み込まれる。アドレス指定部１５は、ｇｌｏｂａｌａｄｄｒｅｓｓ及びｌｏｃａｌａｄｄｒｅｓｓを用いて、ｌｏｃａｌａｄｄｒｅｓｓをｇｌｏｂａｌａｄｄｒｅｓｓに変換する。レイヤ情報推定部１２は、図２のステップＳ４，Ｓ５，Ｓ１０の判定に際して、ｇｌｏｂａｌａｄｄｒｅｓｓを用いる。

ｅｘｅｃ（１）の実行時には、レイヤ情報推定部１２は、ｅｘｅｃ（１）に対応するレイヤは、レイヤＬ１であると推定する。

ｅｘｅｃ（２）の実行時には、レイヤ情報推定部１２は、オペレーションの種類が変化しておらず、Ｗｅｉｇｈｔａｄｄｒｅｓｓのｇｌｏｂａｌａｄｄｒｅｓｓも変化がなく演算パラメータは変化していないことから、ｅｘｅｃ（２）はｅｘｅｃ（１）の実行時と同じレイヤに対応すると判定する。更に、この場合には、ｉｎｐｕｔ領域又はｏｕｔｐｕｔ領域のｇｌｏｂａｌａｄｄｒｅｓｓもｅｘｅｃ（１）の実行時と一部重複しているか又は隣接している。従って、レイヤ情報推定部１２は、ステップＳ６において、ｅｘｅｃ（２）に対応するレイヤは、ｅｘｅｃ（１）に対応するレイヤと同一のレイヤＬ１であると推定する。

ｅｘｅｃ（３）の実行時には、Ｗｅｉｇｈｔａｄｄｒｅｓｓのｇｌｏｂａｌａｄｄｒｅｓｓが変化しており演算パラメータは変化していると判定する。この場合には、レイヤ情報推定部１２は、ｅｘｅｃ（３）に用いた演算パラメータと同一で、ｉｎｐｕｔ領域又はｏｕｔｐｕｔ領域のｇｌｏｂａｌａｄｄｒｅｓｓにより、特徴マップ領域（画像領域）が一部重複又は隣接したｅｘｅｃが存在しないことを判定する。この結果、レイヤ情報推定部１２は、新たなレイヤＬ３がｅｘｅｃ（３）に対応するレイヤであると推定する。

ｅｘｅｃ（４）の実行時には、レイヤ情報推定部１２は、ｇｌｏｂａｌａｄｄｒｅｓｓを用いて演算パラメータが変化していると判定する。この場合にも、ｇｌｏｂａｌａｄｄｒｅｓｓの比較により、ｅｘｅｃ（４）に用いた演算パラメータと同一で、画像領域が一部重複又は隣接したｅｘｅｃが存在しないことを判定する。この結果、レイヤ情報推定部１２は、新たなレイヤＬ４がｅｘｅｃ（４）に対応するレイヤであると推定する。

ｅｘｅｃ（５）の実行時には、ｇｌｏｂａｌａｄｄｒｅｓｓの変化により、演算パラメータは変化していると判定する。この場合には、ｇｌｏｂａｌａｄｄｒｅｓｓの比較により、ｅｘｅｃ（４）に用いた演算パラメータと同一で、画像領域が一部重複又は隣接したｅｘｅｃは、ｅｘｅｃ（３）であることを検出する。この結果、レイヤ情報推定部１２は、ｅｘｅｃ（４）に対応するレイヤはｅｘｅｃ（３）に対応するレイヤＬ２であると推定する。

また、ｅｘｅｃ（６）の実行時には、ｇｌｏｂａｌａｄｄｒｅｓｓの変化により、演算パラメータは変化していると判定する。この場合には、ｇｌｏｂａｌａｄｄｒｅｓｓの比較により、ｅｘｅｃ（５）に用いた演算パラメータと同一で、画像領域が一部重複又は隣接したｅｘｅｃは、ｅｘｅｃ（４）であることを検出する。この結果、レイヤ情報推定部１２は、ｅｘｅｃ（６）に対応するレイヤはｅｘｅｃ（４）に対応するレイヤＬ３であると推定する。

こうして、図７に示す各ｅｘｅｃに対応するレイヤを推定することができる。各ｅｘｅｃについて、性能を測定し、測定したｅｘｅｃの性能をレイヤＩＤ毎に集計して記録する点は、第１の実施の形態と同様である。

このように本実施の形態においても、第１の実施の形態と同様の効果を得ることができる。本実施の形態においては、プロセッサにおける演算において、ローカルメモリのアドレスを用いた場合でも、ローカルアドレスをグローバルアドレスに変換することで、各ｅｘｅｃがいずれのレイヤに対応するかを把握することが可能となる。

（第３の実施の形態）
図８は第３の実施の形態を示すブロック図である。図８において図１と同一の構成要素には同一符号を付して説明を省略する。本実施の形態はＣＮＮ演算以外の演算を行う機能を有するプロセッサの性能測定に適用したものである。図８の例は所定の機能としてアフィン（Ａｆｆｉｎｅ）変換を行うプロセッサに適用した例を示している。

制御対象であるプロセッサ５０は、アフィン変換演算部５２を備える。アフィン変換演算部５２は、アフィン変換専用のハードウェアアクセラレータチップ等により構成してもよく、一部をハードウェアで構成したプログラム可能なアクセラレータチップを採用してもよく、また、ＣＰＵ、ＦＰＧＡ、ＧＰＵ（Graphic Processing Unit）等を採用して、プログラムによりアフィン変換演算の一部又は全部を実行するものであってもよい。

メモリ６０は、例えばＤＲＡＭ等の所定の記録媒体により構成され、画像データを記憶する領域６１、アフィン変換の設定情報を記憶する領域６２を有する。領域６２には、アフィン変換を指定する変換テーブルも格納される。なお、これらの領域６１，６２は、相互に別の記録媒体に設けられるものであってもよい。

制御部２１は、領域６１に記憶される画像データのアドレス、即ち、アフィン変換演算部５２が読み込む入力画像データの入力アドレス（Ｉｎｐｕｔａｄｄｒｅｓｓ）及びアフィン変換演算部５２が出力する出力画像データの出力アドレス（Ｏｕｔｐｕｔａｄｄｒｅｓｓ）を管理する。同様に、制御部２１は、領域６１に記憶される変換テーブルのアドレス（Ｔａｂｌｅａｄｄｒｅｓｓ）を管理する。メモリ６０は、制御部２１によって書き込み及び読み出しが制御されるようになっている。

制御部２１は、領域６２から読み出した設定情報に基づいて、アフィン変換のための命令（インストラクション）を発生する。この命令は、アフィン変換の処理内容、Ｉｎｐｕｔａｄｄｒｅｓｓ、Ｏｕｔｐｕｔａｄｄｒｅｓｓ及びＴａｂｌｅａｄｄｒｅｓｓを含む。制御部２１は、発生した命令をアフィン変換演算部５２の出力画像座標計算モジュール５３に出力する。

アフィン変換演算部５２は、出力画像座標計算モジュール５３、入力画像座標計算モジュール５４、画像値補間演算モジュール５５及びメモリバスＩ／Ｆ５６を有している。出力画像座標計算モジュール５３は、制御部２１からの命令に従って、出力画像の所定範囲の座標を計算して計算結果を入力画像座標計算モジュール５４に出力する。

入力画像座標計算モジュール５４には、制御部２１からＴａｂｌｅａｄｄｒｅｓｓが与えられており、このＴａｂｌｅａｄｄｒｅｓｓをメモリバスＩ／Ｆ５６に与えてメモリ６０にアクセスし、変換テーブルを読み出す。入力画像座標計算モジュール５４は、変換テーブルを参照することで、出力画像座標に対応する入力画像座標を計算して画像値補間演算モジュール５５に出力する。

画像値補間演算モジュール５５には、制御部２１からＩｎｐｕｔａｄｄｒｅｓｓ及びＯｕｔｐｕｔａｄｄｒｅｓｓが与えられる。画像値補間演算モジュール５５は、ＩｎｐｕｔａｄｄｒｅｓｓをメモリバスＩ／Ｆ５６に与えてメモリ６０にアクセスし、画像データを読み出す。画像値補間演算モジュール５５は、入力画像座標計算モジュール５４からの入力画像座標を基に入力画像をアフィン変換する。変換後の画像の画素位置は、一般に整数画素位置とはならない。入力画像座標計算モジュール５４は、変換後の画像について、整数画素位置の画素値を用いて線形補間を行い、変換画像データを得る。なお、画像値補間演算モジュール５５は、線形補間以外にもLanczos, Spline補間などを採用してもよい。画像値補間演算モジュール５５は、ＯｕｔｐｕｔａｄｄｒｅｓｓをメモリバスＩ／Ｆ５６に与えてメモリ６０にアクセスし、変換画像データを出力画像データとしてメモリ６０の領域６１に書き込む。

図８の例では、アフィン変換を指示する制御部２１からの命令に対して、出力画像座標計算モジュール５３によるオペレーション、入力画像座標計算モジュール５４によるオペレーション、画像値補間演算モジュール５５によるオペレーションの少なくとも３つのオペレーションに分割されて処理が実行される。しかしながら、制御部２１においても、アフィン変換全体の性能の測定は可能であるが、個々のオペレーションの性能を求めることはできない。

そこで、本実施の形態においては、所定の処理単位としてオペレーションを想定し、プロセッサ性能測定装置４０は、上記各実施の形態と同様の手法によって、個々のオペレーションの性能を測定する。

プロセッサ性能測定装置４０は、レイヤ情報推定部１２に代えてオペレーション情報推定部４２を採用した点が図１のプロセッサ性能測定装置１０と異なる。オペレーション情報推定部４２は、アフィン変換の開始時において、制御部２１からの命令に含まれる処理内容、Ｉｎｐｕｔａｄｄｒｅｓｓ、Ｏｕｔｐｕｔａｄｄｒｅｓｓ及びＴａｂｌｅａｄｄｒｅｓｓの情報を取得して、図示しないメモリに格納する。また、オペレーション情報推定部４２は、メモリバスＩ／Ｆ５６からメモリ６０へのメモリアクセス時に指定されるアドレスの情報を取得する。

オペレーション情報推定部４２は、記憶されている処理内容、Ｉｎｐｕｔａｄｄｒｅｓｓ、Ｏｕｔｐｕｔａｄｄｒｅｓｓ及びＴａｂｌｅａｄｄｒｅｓｓの情報と、アフィン演算時に、メモリバスＩ／Ｆ５６から発生するアドレスの情報とに基づいて、現在のオペレーションを推定する。オペレーション情報推定部４２は、推定結果を推定に用いた情報と関連付けて記憶すると共に、推定結果をオペレーションに付したＩＤ（以下、オペレーションＩＤという）と共に性能測定部１３に出力する。この場合には、上記各実施の形態と同様に、オペレーション情報推定部４２は、各オペレーションの実行期間を把握可能なように、推定結果を出力する。

性能測定部１３は、オペレーションの実行期間における性能を測定し、測定結果をオペレーションＩＤと共に性能情報集計・記録部１４に出力する。性能情報集計・記録部１４は、性能測定部１３からの測定結果をオペレーション毎に集計して記録する。

次に、このように構成された実施の形態について図９を参照して説明する。図９はアフィン変換処理時の性能測定を説明するための説明図である。

プロセッサ５０の制御部２１は、メモリ６０からアフィン変換に関する設定情報を読み出して命令を発生する。制御部２１は発生した命令をアフィン変換演算部５２に与える。プロセッサ性能測定装置４０のオペレーション情報推定部４２は、制御部２１が発生した命令に含まれる処理内容、Ｉｎｐｕｔａｄｄｒｅｓｓ、Ｏｕｔｐｕｔａｄｄｒｅｓｓ及びＴａｂｌｅａｄｄｒｅｓｓの情報を取得してメモリに格納する。以後、アフィン変換演算部５２は、命令に従って、アフィン変換処理を実行する。

図９はこのような処理を示しており、制御部２１からの命令に従って、アフィン変換演算部５２は、順次オペレーション（ｏｐ（１），ｏｐ（２），ｏｐ（３））を実行する。オペレーション情報推定部４２は、命令中に含まれる情報を取得すると共に、アフィン変換演算部５２によるメモリアクセスのアドレスを取得して、各オペレーションの性能を測定する。

即ち、オペレーション情報推定部４２は、命令がアフィン変換演算部５２に供給されることによって、アフィン変換演算部５２において、最初のオペレーション（以下、ｏｐ（１）という）が開始されたものと判定して、ｏｐ（１）のオペレーションＩＤを性能測定部１３に出力する。これにより、性能測定部１３は、ｏｐ（１）についての性能の測定を開始する。

出力画像座標計算モジュール５３は、制御部２１からの命令を受信すると、出力画像座標を計算し、計算結果を入力画像座標計算モジュール５４に出力する。入力画像座標計算モジュール５４は、メモリバスＩ／Ｆ５６にＴａｂｌｅａｄｄｒｅｓｓを指定してメモリ６０にアクセスする。メモリバスＩ／Ｆ５６は、メモリ６０のＴａｂｌｅａｄｄｒｅｓｓにより指定されたアドレスから変換テーブルを読み出して入力画像座標計算モジュール５４に与える。

オペレーション情報推定部４２は、メモリバスＩ／Ｆ５６のアクセスを監視しており、メモリバスＩ／Ｆ５６がメモリ６０にアクセスしたときのアドレスＴａｂｌｅａｄｄｒｅｓｓを取得する。オペレーション情報推定部４２は、メモリに記憶したアドレスとの比較によって、現在入力画像座標計算モジュール５４による２番目のオペレーション（ｏｐ（２））が開始されたものと判定して、当該オペレーションを示すオペレーションＩＤを性能測定部１３に出力する。これにより、性能測定部１３は、ｏｐ（１）の性能測定からｏｐ（２）の性能測定に切換える。性能測定部１３は、ｏｐ（１）についての性能の測定結果をオペレーションＩＤと共に性能情報集計・記録部１４に出力する。性能情報集計・記録部１４は、オペレーションＩＤ毎に性能の測定結果を集計する。

入力画像座標計算モジュール５４は、変換テーブルを用いて出力画像座標を入力画像座標に変換し、変換結果の入力画像座標を画像値補間演算モジュール５５に出力する。画像値補間演算モジュール５５は、入力画像座標が与えられると、メモリバスＩ／Ｆ５６にＩｎｐｕｔａｄｄｒｅｓｓを指定してメモリ６０にアクセスする。メモリバスＩ／Ｆ５６は、メモリ６０のＩｎｐｕｔａｄｄｒｅｓｓにより指定されたアドレスから画像データを読み出して画像値補間演算モジュール５５に与える。

オペレーション情報推定部４２は、メモリバスＩ／Ｆ５６がアクセスしたときのアドレスＩｎｐｕｔａｄｄｒｅｓｓを取得する。オペレーション情報推定部４２は、メモリに記憶したアドレスとの比較によって、現在画像値補間演算モジュール５５による３番目のオペレーション（ｏｐ（３））が開始されたものと判定して、当該オペレーションを示すオペレーションＩＤを性能測定部１３に出力する。これにより、性能測定部１３は、ｏｐ（２）の性能測定からｏｐ（３）の性能測定に切換える。性能測定部１３は、ｏｐ（２）についての性能の測定結果をオペレーションＩＤと共に性能情報集計・記録部１４に出力する。性能情報集計・記録部１４は、オペレーションＩＤ毎に性能の測定結果を集計する。

画像値補間演算モジュール５５は、入力画像座標を用いて入力画像をアフィン変換し、整数画素位置の画素値を用いて線形補間を行い、変換画像データを得る。画像値補間演算モジュール５５は、メモリバスＩ／Ｆ５６にＯｕｔｐｕｔａｄｄｒｅｓｓを指定してメモリ６０にアクセスする。メモリバスＩ／Ｆ５６は、メモリ６０のＯｕｔｐｕｔａｄｄｒｅｓｓにより指定されたアドレスに変換画像データを出力画像データとして書き込む。

オペレーション情報推定部４２は、メモリバスＩ／Ｆ５６がメモリ６０にアクセスしたときのアドレスＯｕｔｐｕｔａｄｄｒｅｓｓを取得する。オペレーション情報推定部４２は、メモリに記憶したアドレスとの比較によって、現在画像値補間演算モジュール５５による３番目のオペレーション（ｏｐ（３））が終了したものと判定して、判定結果を性能測定部１３に出力する。これにより、性能測定部１３は、ｏｐ（３）の性能測定を終了し、ｏｐ（３）についての性能の測定結果をオペレーションＩＤと共に性能情報集計・記録部１４に出力する。性能情報集計・記録部１４は、オペレーションＩＤ毎に性能の測定結果を集計する。

このように本実施の形態においても、上記各実施の形態と同様の効果を得ることができる。

なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

また、ここで説明した技術のうち、主にフローチャートで説明した制御や機能は、多くがプログラムにより設定可能であり、そのプログラムをコンピュータが読み取り実行することで上述した制御や機能を実現することができる。そのプログラムは、コンピュータプログラム製品として、フレキシブルディスク、ＣＤ−ＲＯＭ等、不揮発性メモリ等の可搬媒体や、ハードディスク、揮発性メモリ等の記憶媒体に、その全体あるいは一部を記録又は記憶することができ、製品出荷時又は可搬媒体或いは通信回線を介して流通又は提供可能である。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールしたりすることで、容易に本実施の形態のプロセッサ性能測定装置を実現することができる。

１０…プロセッサ性能測定装置、１１…制御部、１２…レイヤ情報推定部、１３…性能測定部、１４…性能情報集計・記録部、１５…アドレス指定部、２０…プロセッサ、２１…制御部、２２…演算処理部、２３…命令設定記憶部、２４…演算部、２５…レジスタ、２６…ローカルメモリ、３０…グローバルメモリ、３０…メモリ、３１〜３３…領域。

Claims

１つ以上の処理単位および前記処理単位の実行に必要な１つ以上の実行単位によって所定の機能を実現するプロセッサにおいて、
前記処理単位の実行又は前記実行単位の実行に必要なメモリアクセスが発生することを検出して、前記処理単位又は実行単位の切換りを推定する第１の推定と、前記メモリアクセスのアクセス先アドレスに基づいて、実行中の前記処理単位が前記１つ以上の処理単位のうちのいずれの処理単位であるか、又は実行中の前記実行単位が前記１つ以上の処理単位のうちのいずれの処理単位に対応するかを推定する第２の推定とを行う推定部と、
前記第１の推定の推定結果により前記処理単位又は前記実行単位における性能を測定する測定部と、
前記測定部の測定結果を前記第２の推定の推定結果に基づいて前記処理単位毎に集計する集計部と、
を具備するプロセッサ性能測定装置。
前記プロセッサは、ニューラルネットワークにより前記所定の機能を達成するものであって、
前記処理単位は、ニューラルネットワークを構成するレイヤであり、
前記実行単位は、前記プロセッサの命令実行である
請求項１に記載のプロセッサ性能測定装置。
前記プロセッサは、前記所定の機能を実現するための命令に基づく命令実行のための情報をレジスタに格納し、
前記推定部は、前記レジスタへの情報の書き込みを検出して、前記第１の推定を行う
請求項２に記載のプロセッサ性能測定装置。
前記プロセッサは、前記所定の機能を実現するための命令に基づく命令実行のための情報をレジスタに格納し、
前記推定部は、前記レジスタに書き込まれた入出力アドレスとそのシェープ及びウェイトアドレスとそのシェープの少なくとも１つに基づいて前記第２の推定を行う
請求項３に記載のプロセッサ性能測定装置。
前記プロセッサは、前記所定の機能としてアフィン変換を実現するものであって、
前記処理単位は、前記アフィン変換を実現するための１つ以上の演算モジュールである
請求項１に記載のプロセッサ性能測定装置。
前記推定部は、前記プロセッサによる前記メモリアクセスを検出して、前記第１の推定を行う
請求項５に記載のプロセッサ性能測定装置。
前記推定部は、前記アクセス先アドレスとして入出力アドレス及びアフィン変換テーブルアドレスの少なくとも１つに基づいて前記第２の推定を行う
請求項６に記載のプロセッサ性能測定装置。
前記プロセッサは、グローバルメモリに記憶されているデータをローカルメモリに転送しながら前記所定の機能を実現するものであって、
前記推定部は、前記グローバルメモリのアドレスと前記ローカルメモリのアドレスとのアドレス変換を行った後、前記第２の推定を行う
請求項１に記載のプロセッサ性能測定装置。