JP2023079640A

JP2023079640A - 演算処理装置および演算処理方法

Info

Publication number: JP2023079640A
Application number: JP2021193200A
Authority: JP
Inventors: 勇貴上窪; Yuki Kamikubo; 正和田ノ元; Masakazu Tanomoto
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-06-08
Also published as: US20230169009A1

Abstract

【課題】メモリアクセス命令とアトミック命令との競合の判定の精度を向上し、演算処理装置の処理性能の低下を抑制する。【解決手段】複数のスレッドを実行可能な演算処理装置は、複数のウェイを有するキャッシュと、キャッシュヒット判定部と、複数のスレッドのいずれかが実行するアトミック命令の対象データを保持する記憶領域を識別するウェイ番号およびインデックスアドレスを保持する保持部と、保持部に保持されたウェイ番号およびインデックスアドレスのペアが、複数のスレッドの別のいずれかが実行するメモリアクセス命令の対象データを保持する記憶領域を識別するウェイ番号およびインデックスアドレスのペアと一致する場合、命令の競合を判定する競合判定部と、競合判定部により競合が判定された場合、メモリアクセス命令の対象データのキャッシュへの入出力を抑止するアクセス制御部と、を有する。【選択図】図１

Description

本発明は、演算処理装置および演算処理方法に関する。

マルチスレッドで演算を実行可能な演算処理装置は、スレッド間でのデータの競合を避ける制御が実行される。例えば、複数のウェイを含むキャッシュを有する演算処理装置において、スレッド毎に保持されるウェイ番号とキャッシュのライン番号とを比較することで、スレッドの処理の排他制御を行う手法が知られている（例えば、特許文献１参照）。

スレッドの処理の排他制御は、例えば、ＣＡＳ（Compare And Swap）等のアトミック命令が使用される（例えば、特許文献２参照）。共有バスを介して相互に接続される複数のプロセッサを含むマルチプロセッサシステムにおいても、プロセッサがそれぞれ実行するスレッドの排他制御が実行される（例えば、特許文献３参照）。

特開２００６－１５５２０４号公報特開２０１５－３８６８７号公報国際公開第２０１２／０９８８１２号

複数のスレッドを実行可能な演算処理装置は、スレッドのいずれかでアトミック命令を実行する場合、他のスレッドで実行する、アトミック命令と競合するメモリアクセス命令の実行をアトミック命令の完了まで抑止する。例えば、アトミック命令と競合しないメモリアクセス命令に対して、アトミック命令との競合が判定される場合、本来待たなくてもよいメモリアクセス命令が、アトミック命令の完了まで待たされる。この結果、メモリアクセス命令の実行効率が低下し、演算処理装置の処理性能が低下する。

１つの側面では、本発明は、メモリアクセス命令とアトミック命令との競合の判定の精度を向上し、演算処理装置の処理性能の低下を抑制することを目的とする。

一つの観点によれば、演算処理装置は、複数のスレッドを実行可能な演算処理装置であって、インデックスアドレスにより識別される複数の記憶領域を各々含む複数のウェイを有するキャッシュと、キャッシュヒットを判定するキャッシュヒット判定部と、前記複数のスレッドのいずれかが実行するアトミック命令の対象データを保持する前記記憶領域を識別するウェイ番号およびインデックスアドレスを保持する保持部と、前記保持部に保持されたウェイ番号およびインデックスアドレスのペアが、前記複数のスレッドの別のいずれかが実行するメモリアクセス命令の対象データを保持する前記記憶領域を識別するウェイ番号およびインデックスアドレスのペアと一致する場合、命令の競合を判定する競合判定部と、前記競合判定部により前記競合が判定された場合、前記メモリアクセス命令の対象データの前記キャッシュへの入出力を抑止するアクセス制御部と、を有する。

メモリアクセス命令とアトミック命令との競合の判定の精度を向上し、演算処理装置の処理性能の低下を抑制することができる。

一実施形態における演算処理装置の一例を示すブロック図である。別の実施形態における演算処理装置の一例を示すブロック図である。図２の演算処理装置が実行するアトミック命令の処理の一例を示すフロー図である。図３のステップＳ２０のロード処理の一例を示すフロー図である。図３のステップＳ７０のストア処理の一例を示すフロー図である。図５の処理の続きを示すフロー図である。図６の処理の続きを示すフロー図である。図２の演算処理装置により実行されるアトミック命令とロード命令との処理の一例を示す説明図である。図２の演算処理装置により実行されるアトミック命令とストア命令との処理の一例を示す説明図である。図２の演算処理装置により実行されるアトミック命令とストア命令との処理の別の例を示す説明図である。図２の演算処理装置により実行されるアトミック命令とストア命令との処理のさらなる別の例を示す説明図である。図２の演算処理装置のロック判定回路３２の一例を示す回路図である。図１の演算処理装置のロック判定回路３４の一例を示す回路図である。他の演算処理装置の一例を示すブロック図である。図１４の演算処理装置が実行するアトミック命令の処理の一例を示すフロー図である。図１５のステップＳ２０Ａのロード処理の一例を示すフロー図である。図１５のステップＳ７０Ａのストア処理の一例を示すフロー図である。図１７の処理の続きを示すフロー図である。図１４の演算処理装置により実行されるアトミック命令とロード命令との処理の一例を示す説明図である。図１４の演算処理装置により実行されるアトミック命令とストア命令との処理の一例を示す説明図である。図１４の演算処理装置により実行されるアトミック命令とストア命令との処理の別の例を示す説明図である。図１４の演算処理装置により実行されるアトミック命令とストア命令との処理のさらなる別の例を示す説明図である。

以下、図面を参照して、実施形態が説明される。以下では、信号等の情報が伝達される信号線には、信号名と同じ符号を使用する。また、図中に単線で示す信号線が、複数ビットの場合もある。

図１は、一実施形態における演算処理装置の一例を示す。図１に示す演算処理装置１００は、例えば、マルチスレッドで演算を実行可能なＣＰＵ（Central Processing Unit）等のプロセッサである。マルチスレッドでは、一つのプロセスを複数のスレッド（処理単位）に分けて処理が並列に実行される。演算処理装置１００は、アクセス制御部１、キャッシュヒット判定部２、キャッシュ３、保持部４および競合判定部５を有する。なお、演算処理装置１００は、図２に示すストアバッファＳＴＢおよびライトバッファＷＢを有してもよい。

アクセス制御部１は、図示しない命令発行部が発行するメモリアクセス命令またはアトミック命令等に基づいて、アクセスアドレスを含む命令情報を出力する。例えば、アクセス制御部１は、アトミック命令を受信した場合、後述するロード処理、コンペア処理およびストア処理のフローを順次実行する。

キャッシュヒット判定部２は、ＴＡＧアレイＴＡＲＹおよびコンパレータＣＭＰ０、ＣＭＰ１を有する。例えば、ＴＡＧアレイＴＡＲＹは、複数のウェイＷＡＹ（ＷＡＹ０、ＷＡＹ１）を有する。各ウェイＷＡＹは、複数のインデックスアドレスＩＤＸの値に対応して複数のタグアドレスＴＡＧを保持する複数のエントリを有する。以下では、インデックスアドレスＩＤＸは、インデックスＩＤＸとも称され、タグアドレスＴＡＧは、タグＴＡＧとも称される。

インデックスＩＤＸは、アクセスアドレスに含まれる所定数のビットにより表される。タグＴＡＧは、アクセスアドレスに含まれる、インデックスＩＤＸとは別の所定数のビットにより表される。例えば、インデックスＩＤＸが８ビットの場合、各ウェイＷＡＹは、２５６個のエントリにタグＴＡＧを格納可能である。

タグアレイＴＡＲＹは、アクセスアドレスに含まれるインデックスＩＤＸに対応するエントリからタグＴＡＧをウェイＷＡＹ０、ＷＡＹ１毎に読み出し、コンパレータＣＭＰ０、ＣＭＰ１に出力する。各コンパレータＣＭＰ０、ＣＭＰ１は、対応するウェイＷＡＹから出力されるタグＴＡＧをアクセスアドレスに含まれるタグＴＡＧと比較する。コンパレータＣＭＰ０、ＣＭＰ１のいずれかは、タグＴＡＧが一致する場合、アクセスアドレスに対応するデータがキャッシュ３に保持されていると判定し（キャッシュヒット）、ヒット信号ＨＩＴ（ＨＩＴ０、ＨＩＴ１）を出力する。

キャッシュ３は、例えば、セットアソシアティブ方式の１次キャッシュであり、データアレイＤＡＲＹを有する。データアレイＤＡＲＹは、データＤＴを保持する複数のウェイＷＡＹ（ＷＡＹ０、ＷＡＹ１）を有する。データアレイＤＡＲＹの各ウェイＷＡＹは、複数のインデックスＩＤＸの値に対応して、データを保持する複数のエントリを有する。換言すれば、キャッシュ３は、インデックスＩＤＸ毎に複数のウェイＷＡＹ０、ＷＡＹ１を有する。例えば、データＤＴは、２次キャッシュまたはメインメモリ等の下位のメモリに対する入出力の単位であり、キャッシュラインとも称される。

保持部４は、アトミック命令のロード処理によりデータが格納されたキャッシュ３のウェイＷＡＹと、アトミック命令のアクセスアドレスに含まれるインデックスＩＤＸとを保持する。例えば、保持部４には、アトミック命令のロード処理でのアクセス対象のアクセスアドレスがキャッシュヒットしたことに基づいて、アクセスアドレスに含まれるインデックスＩＤＸが保持される。また、保持部４には、アトミック命令のアクセス対象のアクセスアドレスに含まれるタグＴＡＧを保持しているタグアレイＴＡＲＹのウェイＷＡＹの番号が保持される。以下では、ウェイＷＡＹの番号は、ウェイ番号ＷＡＹとも称される。

アトミック命令において、ロード処理に続くコンペア処理およびストア処理が完了した場合、例えば、保持部４に保持されたウェイＷＡＹおよびインデックスＩＤＸは無効にされる。保持部４に保持された情報は、フラグの値により無効化されてもよく、保持部４に無効値を格納することで無効化されてもよい。保持部４に有効なウェイＷＡＹおよびインデックスＩＤＸが保持される期間は、アトミック命令のロック期間に対応する。なお、保持部４には、並列に実行可能な複数のスレッドのそれぞれに対応して、ウェイＷＡＹおよびインデックスＩＤＸを保持する複数の領域を有してもよい。

競合判定部５は、アクセスアドレスに対応するアクセス対象のデータＤＴが格納されたキャッシュ３のウェイＷＡＹと、アクセスアドレスに含まれるインデックスＩＤＸとのペアと、保持部４に保持されたウェイＷＡＹおよびインデックスＩＤＸのペアとを比較する。競合判定部５は、ウェイＷＡＹおよびインデックスＩＤＸのペアが互いに一致する場合、競合を示す論理値の競合信号ＣＯＮＦをアクセス制御部１に出力する。競合判定部５は、ウェイＷＡＹおよびインデックスＩＤＸのペアが一致しない場合、競合を示さない論理値の競合信号ＣＯＮＦをアクセス制御部１に出力する。ウェイＷＡＹの比較は、タグＴＡＧの比較と等価である。

アクセスアドレスは、例えば、インデックスアドレスＩＤＸ、タグアドレスＴＡＧおよびオフセットアドレスで構成される。オフセットアドレスは、下位のメモリに対するデータの入出力単位であるキャッシュライン内のデータＤＴのバイト位置を示す。このため、競合判定部５は、インデックスアドレスＩＤＸおよびウェイＷＡＹのペアが一致する場合、ロック中のアトミック命令と、アトミック命令と並列に実行されるメモリアクセス命令との競合（データの競合）を判定できる。

これに対して、例えば、ウェイＷＡＹを比較することなく、インデックスアドレスＩＤＸのみの比較により競合が判定される場合、タグアドレスＴＡＧが一致していないにもかかわらずアトミック命令との競合が発生していると判定される場合がある。誤った競合の判定により、メモリアクセス命令の実行が保留された場合、無駄な待ち時間が発生し、演算処理装置１００の処理性能は低下する。

アクセス制御部１は、メモリアクセス命令のアクセスアドレスがキャッシュヒット判定部２によりキャッシュヒットした場合、競合信号ＣＯＮＦに応じて次のように動作する。アクセス制御部１は、競合信号ＣＯＮＦが競合を示さない場合、キャッシュヒットしたキャッシュ３のウェイＷＡＹにおいて、インデックスＩＤＸにより示されるエントリにデータＤＴを入出力する。例えば、ロード命令では、データアレイＤＡＲＹのエントリからデータＤＴが読み出され、ストア命令では、データアレイＤＡＲＹのエントリにデータＤＴが格納される。アクセス制御部１は、競合信号ＣＯＮＦが競合を示す場合、キャッシュ３がキャッシュヒットした場合でも、キャッシュ３に対するデータＤＴの入出力を抑止する。

これにより、この実施形態では、アトミック命令によりロック中のアクセスアドレスに対応してキャッシュ３が保持しているデータＤＴのアクセスを抑止することができる。したがって、アトミック命令の実行中に、アトミック処理の対象データの参照および更新を抑止することができる。この際、競合判定部５は、アクセス対象のデータの格納位置を示すアドレス（ＩＤＸ、ＴＡＧ）の全てのビットの一致または不一致を判定するため、アトミック命令と競合するか否かを正しく判定することができる。換言すれば、メモリアクセス命令とアトミック命令との競合の判定の精度を向上することができる。したがって、アトミック命令の実行中に、アトミック処理の対象データの参照および更新を抑止し、アトミック処理の対象データでないデータの参照および更新を実施することができる。この結果、競合の誤った判定により、メモリアクセス命令の実行が保留されることを抑制することができ、演算処理装置１００の処理性能の低下を抑制することができる。

図２は、別の実施形態における演算処理装置の一例を示す。上述した実施形態と同様の要素については、詳細な説明は省略する。図２に示す演算処理装置１０２は、図１に示した演算処理装置１００と同様に、マルチスレッドで演算を実行可能なＣＰＵ等のプロセッサである。特に限定されないが、例えば、演算処理装置１０２は、最大４個のスレッドを並列に実行可能である。

演算処理装置１０２は、命令発行部１０、ストア制御部２０、ロック制御部３０、フェッチポート４０、Ｌ１キャッシュ５０（１次キャッシュ）を有する。ロック制御部３０は、４個のスレッドが実行するアトミック命令の各々に対応する４個のレジスタＲＥＧ（ＲＥＧ０、ＲＥＧ１、ＲＥＧ２、ＲＥＧ３）およびロック判定回路３２、３４を有する。また、演算処理装置１０２は、セレクタＳＥＬ、ＴＬＢ（Translation Lookaside Buffer）、タグＬ１ＴＡＧ、ストアバッファＳＴＢ、ライトバッファＷＢを有する。図２において、縦長の矩形は、フリップフロップＦＦを示す。例えば、Ｌ１キャッシュ５０には、２ウェイセットアソシアティブ方式が採用される。

命令発行部１０、ストア制御部２０およびフェッチポート４０は、Ｌ１キャッシュ５０に対するデータの入出力を制御するアクセス制御部の一例である。タグＬ１ＴＡＧは、Ｌ１キャッシュ５０のキャッシュヒット／キャッシュミスを判定するキャッシュヒット判定部の一例である。レジスタＲＥＧは、後述するアトミック命令の対象データを保持するＬ１キャッシュ５０の記憶領域を識別するウェイ番号ＷＡＹおよびインデックスアドレスＩＤＸを保持する保持部の一例である。ロック判定回路３２、３４は、競合判定部の一例である。また、ロック判定回路３２は、フラグリセット部の一例である。

命令発行部１０は、例えば、図示しない命令バッファから受信する命令をデコードし、デコードした命令を発行する。命令発行部１０が受信する命令として、各種演算命令、メモリアクセス命令およびアトミック命令等がある。この実施形態では、命令発行部１０がメモリアクセス命令およびアトミック命令を受信する例が説明される。このため、図２では演算命令の実行に関係する回路ブロックの記載は省略される。

メモリアクセス命令は、ロード命令またはストア命令である。命令発行部１０は、アトミック命令をデコードした場合、ロード命令、比較命令およびストア命令を順に発行する。アトミック命令については、図３で説明される。

セレクタＳＥＬは、命令発行部１０がデコードした命令、フェッチポート４０から出力される保留された命令または後述するストア命令の状態ＳＴ１の開始指示のいずれかを調停により選択し、選択した命令に含まれるアドレスをＴＬＢに出力する。ＴＬＢは、命令発行部１０から出力される仮想アドレスを物理アドレスに変換し、変換した物理アドレスをタグＬ１ＴＡＧに出力する。以下では、物理アドレスは、単にアドレスとも称される。

タグＬ１ＴＡＧは、ＴＬＢから出力されるアドレスに基づいて、Ｌ１キャッシュ５０のキャッシュヒットまたはキャッシュミスを判定する。タグＬ１ＴＡＧは、キャッシュヒットを判定した場合、ロック制御部３０にインデックスアドレスＩＤＸおよびウェイ番号ＷＡＹを通知する。

タグＬ１ＴＡＧは、キャッシュミスを判定した場合、アクセス対象のデータの転送要求を下位のメモリに発行する。また、タグＬ１ＴＡＧは、ロード命令のキャッシュミスを判定した場合、ロード命令を実行するための情報をフェッチポート４０に転送する。これにより、ロード命令の実行は、下位のメモリからデータが転送されるまで保留される。例えば、下位のメモリは、２次キャッシュまたはメインメモリ等である。タグＬ１ＴＡＧからの転送要求に基づいて下位のメモリから転送されたデータは、Ｌ１キャッシュ５０に格納される。フェッチポート４０は、ロック制御部３０から転送される保留された命令を保持し、保持した命令をセレクタＳＥＬに再発行する。

ストア制御部２０は、４個のスレッドのそれぞれでアトミック命令がロック中（実行中）であることを示す４個のロックフラグＩＮＴＬＫ（ＩＮＴＬＫ０、ＩＮＴＬＫ１、ＩＮＴＬＫ２、ＩＮＴＬＫ３）を有する。ストア制御部２０は、ストア命令に含まれるアドレス等の情報を命令発行部１０から受信して保持する。ストア制御部２０は、キャッシュヒットしたストア命令の対象データが格納されているウェイ番号ＷＡＹをタグＬ１ＴＡＧから受信して保持する。そして、ストア制御部２０は、ロック制御部３０からの情報に基づいてストアバッファＳＴＢおよびライトバッファＷＢの動作を制御する。

ストアバッファＳＴＢは、ストア命令をデコードした命令発行部１０から受信するストアデータＳＴＤ（他の情報も含む）とＬＩＤフラグとを保持するＦＩＦＯ（First-In First-Out）形式の複数のエントリを有する。ストアバッファＳＴＢは、第１バッファの一例である。ストアバッファＳＴＢに保持されるストアデータＳＴＤは、第１データの一例である。ストアバッファＳＴＢに保持されるＬＩＤフラグは、第１フラグの一例である。ストアバッファＳＴＢは、ストア制御部２０からの指示ＷＢＧＯに基づいて、エントリに保持しているストアデータＳＴＤおよびＬＩＤフラグをライトバッファＷＢに転送する。

ライトバッファＷＢは、ストアバッファＳＴＢから転送されるストアデータＳＴＤとＬＩＤフラグとを保持するＦＩＦＯ形式の複数のエントリを有する。ライトバッファＷＢは、ストアバッファＳＴＢから転送されるストアデータＳＴＤおよびＬＩＤフラグをエントリに保持する。

ライトバッファＷＢは、第２バッファの一例である。ライトバッファＷＢに保持されるストアデータＳＴＤは、第２データの一例である。ライトバッファＷＢに保持されるＬＩＤフラグは、第２フラグの一例である。また、ライトバッファＷＢは、ストア制御部２０による制御に基づいて、エントリに保持しているストアデータＳＴＤをＬ１キャッシュ５０に書き込む。

Ｌ１キャッシュ５０は、図１に示すキャッシュ３と同様のデータアレイＤＡＲＹを有する。Ｌ１キャッシュ５０は、命令がキャシュヒットし、かつ、ロック制御部３０によりアトミック命令との競合がないことが判定された場合にアクセスされる。Ｌ１キャッシュ５０は、ロード命令では図示しないデータアレイＤＡＲＹからデータを読み出し、読み出したデータをデータＬＤＤとして命令発行部１０に出力する。Ｌ１キャッシュ５０は、ストア命令または下位のメモリからデータが転送された場合、データアレイＤＡＲＹにデータを書き込む。

ロック制御部３０は、アトミック命令がキャッシュヒットしたときのインデックスＩＤＸおよびタグＬ１ＴＡＧから出力されるウェイ番号ＷＡＹを、アトミック命令を実行中のスレッドに対応するレジスタＲＥＧに格納する。ここで、各スレッドは、アトミック命令とロード命令またはストア命令とを同時に実行しないため、ロード命令またはストア命令を実行するスレッドに対応するレジスタＲＥＧには、インデックスＩＤＸおよびウェイ番号ＷＡＹは保持されない。

ロック制御部３０は、後述するストア命令の状態ＳＴ０において、ストア命令がキャッシュヒットした場合、ストアバッファＳＴＢのＬＩＤフラグ（ＳＴＢ．ＬＩＤ）をセットする指示ＳＴＢ．ＬＩＤｓｅｔをストア制御部２０に出力する。ストア制御部２０は、指示ＳＴＢ．ＬＩＤｓｅｔに基づいて、ストアバッファＳＴＢにおいてストア対象のデータとともにエントリに保持されたＬＩＤフラグを"１"にセットする。ロック制御部３０は、状態ＳＴ０において、ストア命令がキャッシュミスした場合、ストアバッファＳＴＢのＬＩＤフラグをリセットする指示ＳＴＢ．ＬＩＤｒｓｔをストア制御部２０に出力する。ストア制御部２０は、指示ＳＴＢ．ＬＩＤｒｓｔに基づいて、ストアバッファＳＴＢにおいてストア対象のデータとともにエントリに保持されたＬＩＤフラグを"０"にリセットする。

ロック判定回路３２は、アトミック命令を実行するスレッドに対応するレジスタＲＥＧにインデックスＩＤＸおよびウェイ番号ＷＡＹが格納された場合、スレッドに対応するロックフラグＩＮＴＬＫをセットする指示ＩＮＴＬＫｓｅｔをストア制御部２０に出力する。ストア制御部２０は、指示ＩＮＴＬＫｓｅｔに基づいて、対応するロックフラグＩＮＴＬＫをセットする。

ロック判定回路３２は、セット中のロックフラグＩＮＴＬＫに対応するレジスタＲＥＧに有効なインデックスＩＤＸおよびウェイ番号ＷＡＹが保持されていると判断する。ロック判定回路３２は、リセット中のロックフラグＩＮＴＬＫに対応するレジスタＲＥＧに無効なインデックスＩＤＸおよびウェイ番号ＷＡＹが保持されていると判断する。

ロック判定回路３２は、アトミック命令の完了に基づいて、対応するスレッドのロックフラグＩＮＴＬＫをリセットする指示ＩＮＴＬＫｒｓｔをストア制御部２０に出力する。ストア制御部２０は、指示ＩＮＴＬＫｒｓｔに基づいて、対応するロックフラグＩＮＴＬＫをリセットする。これにより、ロック判定回路３２は、スレッド毎にアトミック命令がロックしているか否かを、ロックフラグＩＮＴＬＫにより判定することができる。

ロック判定回路３２は、ロード命令がキャッシュヒットしたときのインデックスＩＤＸおよびタグＬ１ＴＡＧから出力されるウェイ番号ＷＡＹのペアを受信する。ロック判定回路３２は、受信したインデックスＩＤＸおよびウェイ番号ＷＡＹのペアを、有効なレジスタＲＥＧに保持されたインデックスＩＤＸおよびウェイ番号ＷＡＹのペアと比較し、一致または不一致を判定する。

ロック判定回路３２は、一致（競合）を判定した場合、ロード命令の実行を抑止するため、ロード命令を実行するための情報をフェッチポート４０に転送する。これにより、アトミック命令との競合が判定されたロード命令の実行は保留される。ロック判定回路３２は、不一致（競合しない）を判定した場合、ロード命令を実行するために、図示しない経路を介してＬ１キャッシュ５０に読み出しアクセス要求を出力する。ロック判定回路３２は、Ｌ１キャッシュ５０に読み出しアクセス要求を出力した場合、ＳＴＶ（Status Valid）信号を命令発行部１０に出力し、ロード命令をコミットさせる。

ロック判定回路３２は、アトミック命令に含まれるインデックスＩＤＸおよびウェイ番号ＷＡＹがレジスタＲＥＧに格納された場合、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）をリセットする指示ＷＢ．ＬＩＤｒｓｔをストア制御部２０に出力する。ストア制御部２０は、指示ＷＢ．ＬＩＤｒｓｔに基づいて、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）を"０"にリセットする。

また、ロック判定回路３２は、ストア命令がキャッシュヒットしたときのインデックスＩＤＸおよびタグＬ１ＴＡＧから出力されるウェイ番号ＷＡＹのペアを受信する。ロック判定回路３２は、受信したインデックスＩＤＸおよびウェイ番号ＷＡＹのペアを、有効なレジスタＲＥＧに保持されたインデックスＩＤＸおよびウェイ番号ＷＡＹのペアと比較し、一致または不一致を判定する。

ロック判定回路３２は、有効なレジスタＲＥＧのいずれかとの一致（競合）を判定した場合、ストア命令の実行を抑止するため、ストア命令を実行するための情報をフェッチポート４０に転送する。これにより、アトミック命令との競合が判定されたストア命令の実行は保留される。ロック判定回路３２は、全ての有効なレジスタとの不一致を判定した場合、ストア命令の実行を継続するために、ＳＴＶ信号を命令発行部１０に出力し、ストア命令をコミットさせる。

命令発行部１０は、ＳＴＶ信号に基づいてストア命令の状態ＳＴ０をコミットし、コミット通知をストア制御部２０に出力する。コミット通知を受信したストア制御部２０は、ストアバッファＳＴＢに保持されたストアデータＳＴＤおよびＬＩＤフラグをライトバッファＷＢに転送する（ＷＢＧＯ）。

ロック判定回路３２は、後述するストア命令の状態ＳＴ１において、ストア命令がキャッシュヒット状態の場合、ストア命令に対応してストア制御部２０が保持するインデックスアドレスＩＤＸおよびウェイ番号ＷＡＹを受信する（ＩＤＸ，ＷＡＹ（ＳＴ１））。ロック判定回路３２は、受信したインデックスＩＤＸおよびウェイ番号ＷＡＹのペアを、有効なレジスタＲＥＧに保持されたインデックスＩＤＸおよびウェイ番号ＷＡＹのペアと比較し、一致または不一致を判定する。

ロック判定回路３２は、有効なレジスタＲＥＧのいずれかとの一致（競合）を判定した場合、ライトバッファＷＢのエントリのＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを抑止する指示ＷＢ．ＬＩＤｅｎ１をストア制御部２０に出力する。ロック判定回路３２は、全ての有効なレジスタとの不一致を判定した場合、ライトバッファＷＢのエントリのＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを許可する指示ＷＢ．ＬＩＤｅｎ１をストア制御部２０に出力する。ストア制御部２０は、指示ＷＢ．ＬＩＤｅｎ１に基づいて、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）をセットを許可し、または、セットを抑止する。

ロック判定回路３４は、ストア命令の状態ＳＴ０の完了後、状態ＳＴ１に遷移する前にストア命令に対応してストア制御部２０が保持するインデックスＩＤＸおよびウェイ番号ＷＡＹのペアを受信する（ＩＤＸ，ＷＡＹ（ＷＢＧＯ））。符号ＷＢＧＯは、ロック判定回路３４に出力するインデックスＩＤＸおよびウェイ番号ＷＡＹが、ストアバッファＳＴＢからライトバッファＷＢに転送されるストアデータＳＴＤ等に対応することを示す。ロック判定回路３４は、ストア制御部２０から受信したインデックスＩＤＸおよびウェイ番号ＷＡＹのペアと、有効なレジスタＲＥＧに保持されたインデックスＩＤＸおよびウェイ番号ＷＡＹのペアとを比較し、一致または不一致を判定する。

ロック判定回路３４は、有効なレジスタＲＥＧのいずれかとの一致（競合）を判定した場合、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを抑止する指示ＷＢ．ＬＩＤｅｎ２をストア制御部２０に出力する。ロック判定回路３４は、全ての有効なレジスタとの不一致を判定した場合、ライトバッファＷＢに転送されるＬＩＤフラグによるライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを許可する指示ＷＢ．ＬＩＤｅｎ２をストア制御部２０に出力する。ストア制御部２０は、指示ＷＢ．ＬＩＤｅｎ２に基づいて、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）をセットし、または、セットを抑止する。

図３は、図２の演算処理装置１０２が実行するアトミック命令の処理の一例を示す。図３に示す動作フローは、命令発行部１０がアトミック命令をデコードしたことに基づいて開始される。なお、図３から図１１は、演算処理装置１０２による演算処理方法の一例を示す。

まず、ステップＳ１０において、命令発行部１０は、アトミック命令を発行する。次に、ステップＳ２０において、演算処理装置１０２は、アトミック命令の最初のフローであるロード処理を実行する。ロード処理の例は、図４に示される。

次に、ステップＳ３０において、ロック制御部３０は、タグＬ１ＴＡＧから出力されるインデックスＩＤＸおよびウェイ番号ＷＡＹを、アトミック命令を実行するスレッドに対応するレジスタＲＥＧに格納する。次に、ステップＳ４０において、演算処理装置１０２は、アトミック命令を実行するスレッドに対応するロックフラグＩＮＴＬＫをセットすることで、アトミック命令の対象データをロック状態に設定する。

次に、ステップＳ５０において、ストア制御部２０は、アトミック命令を実行中のスレッド以外の他のスレッドのストアデータＳＴＤを保持したライトバッファＷＢのエントリのＬＩＤフラグをリセットする。

次に、ステップＳ６０において、演算処理装置１０２は、アトミック命令の２番目のフローである比較処理を実行する。演算処理装置１０２は、比較処理において、ロード処理で読み出した対象データの値と、アトミック命令の開始前に予め読み出した対象データの値とを比較する。演算処理装置１０２は、比較結果が一致を示す場合、ステップＳ７０を実行する。図示を省略するが、演算処理装置１０２は、比較結果が不一致を示す場合、他のスレッドにより対象データが書き換えられた可能性があるため、図３の処理を終了する。

ステップＳ７０において、演算処理装置１０２は、アトミック命令の最後のフローであるストア処理を実行する。ストア処理の例は、図５から図７に示される。次に、ステップＳ８０において、演算処理装置１０２は、アトミック命令を実行するスレッドに対応するロックフラグＩＮＴＬＫをリセットすることで、アトミック命令の対象データのロック状態を解除し、図３に示す動作を終了する。

図４は、図３のステップＳ２０のロード処理の一例を示す。なお、通常のロード命令も図４と同様に実行される。

まず、ステップＳ２０２において、演算処理装置１０２は、命令発行部１０からロード命令を発行する。次に、ステップＳ２０４において、演算処理装置１０２は、ＴＬＢにより変換された物理アドレスを使用してタグＬ１ＴＡＧにＬ１キャッシュ５０のキャッシュヒットを判定させる。演算処理装置１０２は、キャッシュヒットを判定した場合、ステップＳ２０６を実行し、キャッシュミスを判定した場合、ステップＳ２１２を実行する。

ステップＳ２０６において、演算処理装置１０２は、ロック判定回路３２にインデックスＩＤＸおよびウェイ番号ＷＡＹのペアの一致を判定させる。例えば、ロック判定回路３２は、セット中のロックフラグＩＮＴＬＫに対応する有効なレジスタＲＥＧからインデックスＩＤＸおよびウェイ番号ＷＡＹのペアを読み出す。ロック判定回路３２は、ロード命令に含まれるインデックスＩＤＸと、ロード対象のデータを保持するウェイＷＡＹの番号とのペアが、有効なレジスタＲＥＧから読み出したインデックスＩＤＸおよびウェイ番号ＷＡＹのペアと一致するか否かを判定する。

ロック判定回路３２により一致が判定された場合、ロード対象のデータの記憶領域はロックされているため、演算処理装置１０２は、ステップＳ２２０を実行する。ロック判定回路３２により不一致が判定された場合、ロード対象のデータの記憶領域はロックされていないため、演算処理装置１０２は、ステップＳ２０８を実行する。

ステップＳ２２０において、演算処理装置１０２は、フェッチポート４０にロード命令を保留し、フェッチポート４０にロード命令を再発行させ、動作をステップＳ２０４に戻す。ステップＳ２０８において、演算処理装置１０２は、Ｌ１キャッシュ５０からロード対象のデータを読み出す。次に、ステップＳ２１０において、演算処理装置１０２は、タグＬ１ＴＡＧにＳＴＶ信号を出力させ、Ｌ１キャッシュ５０から読み出されたデータＬＤＤを命令発行部１０に出力し、図４に示すロード処理を終了する。

一方、キャッシュミスした場合、ステップＳ２１２において、演算処理装置１０２は、フェッチポート４０にロード命令を保留し、フェッチポート４０にロード命令を再発行させる。次に、ステップＳ２１４において、演算処理装置１０２は、下位のメモリにロード命令の対象データを読み出しを要求する。次に、ステップＳ２１６において、演算処理装置１０２は、下位のメモリからロード命令の対象データを受信する。次に、ステップＳ２１８において、演算処理装置１０２は、下位のメモリから受信したデータをＬ１キャッシュ５０に格納し、ロード命令の対象データをＬ１キャッシュ５０から取り出すためにステップＳ２０４を再び実行する。

図５から図７は、図３のステップＳ７０のストア処理の一例を示す。なお、通常のストア命令も図５から図７と同様に実行される。図５に示すステップＳ７０２からステップＳ７１６は、ストア命令の状態ＳＴ０の処理の例を示す。図７のステップＳ７３０からステップＳ７４２は、ストア命令の状態ＳＴ１の処理の例を示す。図６のステップＳ７２８は、ストア命令の状態ＳＴ２の処理の例を示す。

まず、ステップＳ７０２において、演算処理装置１０２は、命令発行部１０からストア命令を発行する。次に、ステップＳ７０４において、演算処理装置１０２は、命令発行部１０からストア制御部２０に、ストア命令の情報を出力させ、命令発行部１０からストアバッファＳＴＢにストアデータＳＴＤ等の情報を格納させる。

次に、ステップＳ７０６において、演算処理装置１０２は、ＴＬＢにより変換された物理アドレスを使用してタグＬ１ＴＡＧにＬ１キャッシュ５０のキャッシュヒットを判定させる。演算処理装置１０２は、キャッシュヒットを判定した場合、ステップＳ７０８を実行し、キャッシュミスを判定した場合、ステップＳ７１０を実行する。

ステップＳ７０８において、演算処理装置１０２は、ストアバッファＳＴＢのＬＩＤフラグを"１"にセットし、ステップＳ７１２を実行する。ステップＳ７１０において、演算処理装置１０２は、ストアバッファＳＴＢのＬＩＤフラグを"０"にリセットし、ステップＳ７１６を実行する。"１"のＬＩＤフラグは、ストア命令の対象領域のデータをＬ１キャッシュ５０が保持していることを示す。"０"のＬＩＤフラグは、ストア命令の対象領域のデータをＬ１キャッシュ５０が保持していないことを示す。

ステップＳ７１２において、演算処理装置１０２は、ロック判定回路３２にインデックスＩＤＸおよびウェイ番号ＷＡＹのペアの一致を判定させる。例えば、ロック判定回路３２は、セット中のロックフラグＩＮＴＬＫに対応する有効なレジスタＲＥＧからインデックスＩＤＸおよびウェイ番号ＷＡＹのペアを読み出す。ロック判定回路３２は、ストア命令に含まれるインデックスＩＤＸとストア対象のデータを保持するウェイＷＡＹの番号とのペアが、有効なレジスタＲＥＧから読み出したインデックスＩＤＸおよびウェイ番号ＷＡＹのペアと一致するか否かを判定する。

演算処理装置１０２は、一致が判定された場合、ストア対象のデータの記憶領域は、競合するアトミック命令によりロックされているため、ステップＳ７１４を実行する。演算処理装置１０２は、不一致が判定された場合、ストア対象のデータの記憶領域はロックされていないため、後述する状態ＳＴ１または状態ＳＴ２を実行するためにステップＳ７１６を実行する。

このように、ストア命令の状態ＳＴ０においてキャッシュヒットしている場合、インデックスＩＤＸおよびウェイ番号ＷＡＹのペアの比較により、アトミック命令との競合を正しく判定することができる。そして、アトミック命令との競合が解消するまでストアバッファＳＴＢからライトバッファＷＢへのデータＳＴＤおよびＬＩＤフラグの転送を抑止することができる。

ステップＳ７１４において、演算処理装置１０２は、フェッチポート４０にストア命令を保留し、フェッチポート４０にストア命令を再発行させ、動作をステップＳ７０６に戻す。ステップＳ７１６において、演算処理装置１０２は、タグＬ１ＴＡＧにＳＴＶ信号を出力させ、命令発行部１０にストア命令の状態ＳＴ０をコミットさせ、図６のステップＳ７１８を実行する。

図６のステップＳ７１８において、演算処理装置１０２は、ストア制御部２０を制御して、ストアバッファＳＴＢに保持されたＬＩＤフラグを含む情報をライトバッファＷＢに移動させる。

次に、ステップＳ７２０において、演算処理装置１０２は、ロック判定回路３４にインデックスＩＤＸおよびウェイ番号ＷＡＹのペアの一致を判定させる。ロック判定回路３４は、セット中のロックフラグＩＮＴＬＫに対応する有効なレジスタＲＥＧからインデックスＩＤＸおよびウェイ番号ＷＡＹのペアを読み出す。ロック判定回路３４は、ストア命令に含まれるインデックスＩＤＸおよびタグＬ１ＴＡＧから出力されるウェイ番号ＷＡＹのペアが、有効なレジスタＲＥＧから読み出したインデックスＩＤＸおよびウェイ番号ＷＡＹのペアと一致するか否かを判定する。

演算処理装置１０２は、一致が判定された場合、ステップＳ７２２を実行し、不一致が判定された場合、ステップＳ７２４を実行する。ステップＳ７２２において、演算処理装置１０２は、"１"のＬＩＤフラグ（ＳＴＢ．ＬＩＤ）がＷＢＧＯ転送される場合のＬＩＤフラグ（ＷＢ．ＬＩＤ）の"１"へのセットをストア制御部２０に抑止させる。演算処理装置１０２は、ステップＳ７２２の後、ステップＳ７２６を実行する。

ステップＳ７２４において、演算処理装置１０２は、"１"のＬＩＤフラグ（ＳＴＢ．ＬＩＤ）がＷＢＧＯ転送される場合のＬＩＤフラグ（ＷＢ．ＬＩＤ）の"１"へのセットをストア制御部２０に許可させる。演算処理装置１０２は、ステップＳ７２４の後、ステップＳ７２６を実行する。

ステップＳ７２６において、演算処理装置１０２は、ストア制御部２０にライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）を取得させる。そして、演算処理装置１０２は、ＬＩＤフラグ（ＷＢ．ＬＩＤ）が"１"にセットされている場合、ステップＳ７２８を実行し、ＬＩＤフラグ（ＷＢ．ＬＩＤ）が"０"にリセットされている場合、図７のＳ７３０を実行する。

ストアバッファＳＴＢからライトバッファＷＢへのデータＳＴＤの転送時にアトミック命令との競合が判定された場合、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）がセット状態の場合にも、ＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットが抑止される。これにより、図７で説明する状態ＳＴ１を経由せずに状態ＳＴ０から状態ＳＴ２に遷移することを抑止することができる。換言すれば、状態ＳＴ１の処理を利用して、アトミック命令との競合を判定することができる。

ステップＳ７２８において、演算処理装置１０２は、ストア制御部２０を制御して、ライトバッファＷＢに保持されたデータをＬ１キャッシュ５０に格納させる。ストアバッファＳＴＢからライトバッファＷＢへのデータＳＴＤおよびＬＩＤフラグの転送後、アトミック命令との競合がなく、キャッシュヒット状態である場合、演算処理装置１０２は、ステップＳ７２８を実行することができる。すなわち、状態ＳＴ１の処理を実行することなく、状態２においてストアデータＳＴＤをＬ１キャッシュ５０に格納することができる。

図７のステップＳ７３０において、演算処理装置１０２は、タグＬ１ＴＡＧにＬ１キャッシュ５０のキャッシュヒットを判定させる。演算処理装置１０２は、キャッシュヒットを判定した場合、ステップＳ７３８を実行し、キャッシュミスを判定した場合、ステップＳ７３２を実行する。

ステップＳ７３２において、演算処理装置１０２は、下位のメモリにストア命令の対象領域に記憶されたデータの読み出しを要求する。次に、ステップＳ７３４において、演算処理装置１０２は、下位のメモリからデータを受信する。次に、ステップＳ７３６において、演算処理装置１０２は、下位のメモリから受信したデータをＬ１キャッシュ５０に格納し、ストア命令の対象データをＬ１キャッシュ５０に格納するためにステップＳ７３０を再び実行する。

ステップＳ７３８において、演算処理装置１０２は、ロック判定回路３２にインデックスＩＤＸおよびウェイ番号ＷＡＹのペアの一致を判定させる。ロック判定回路３２は、セット中のロックフラグＩＮＴＬＫに対応する有効なレジスタＲＥＧからインデックスＩＤＸおよびウェイ番号ＷＡＹのペアを読み出す。ロック判定回路３２は、ストア命令に含まれるインデックスＩＤＸおよびタグＬ１ＴＡＧから出力されるウェイ番号ＷＡＹのペアが、有効なレジスタＲＥＧから読み出したインデックスＩＤＸおよびウェイ番号ＷＡＹのペアと一致するか否かを判定する。

演算処理装置１０２は、一致が判定された場合、ストア対象のデータの記憶領域はロックされているため、ステップＳ７４０を実行する。演算処理装置１０２は、不一致が判定された場合、ストア対象のデータの記憶領域はロックされていないため、ステップＳ７４２を実行する。

ステップＳ７４０において、演算処理装置１０２は、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）の"１"へのセットをストア制御部２０に抑止させる。演算処理装置１０２は、ステップＳ７４０の後、図６のステップＳ７２６を実行する。ステップＳ７４２において、演算処理装置１０２は、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）の"１"へのセットをストア制御部２０に許可させる。演算処理装置１０２は、ステップＳ７４２の後、図６のステップＳ７２６を実行する。

ストアバッファＳＴＢからライトバッファＷＢへのデータＳＴＤおよびＬＩＤフラグの転送後、状態ＳＴ１では、キャッシュミス状態の場合はキャッシュヒットまで待ち、ロック判定回路３２によりアトミック命令との競合が判定される。そして、アトミック命令との競合がない場合、ＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットが許可され、キャッシュヒット状態の場合、ＬＩＤフラグ（ＷＢ．ＬＩＤ）がセットされる。これにより、図６においてストア命令の状態を状態ＳＴ２に遷移することができ、ライトバッファＷＢに保持されたストアデータＳＴＤをＬ１キャッシュ５０に格納することができる。すなわち、キャッシュヒットし、アトミック命令との競合がない場合のみ、ストアデータＳＴＤをＬ１キャッシュ５０に格納することができ、演算処理装置１０２のストア動作を正常に実行することができる。

図８は、図２の演算処理装置１０２により実行されるアトミック命令とロード命令との処理の一例を示す。図８に示す例では、スレッド０のアトミック命令（インデックスＩＤＸ＝Ａ、ウェイ番号ＷＡＹ＝０）と、スレッド１のロード命令（インデックスＩＤＸ＝Ａ、ウェイ番号ＷＡＹ＝１）とが並列に実行される。

図３に示したように、アトミック命令では、ロード処理、コンペア処理およびストア処理が順次実行される。対象スレッド０のアトミック命令では、ロード処理の完了に基づいて、ロック制御部３０のレジスタＲＥＧ０にインデックスＩＤＸ＝Ａとウェイ番号ＷＡＹ＝０が設定され、ストア制御部２０のロックフラグＩＮＴＬＫ０が"１"にセットされる。ロックフラグＩＮＴＬＫ０は、ストア処理の完了時に"０"にリセットされる。

スレッド１のロード命令（キャッシュヒット）は、ウェイ番号ＷＡＹがアトミック命令のウェイ番号ＷＡＹと異なるため、ロック判定回路３２は、競合を検出しない（不一致を判定）。このため、ロード命令は、フェッチポートに保留されることなく、アトミック命令のロックフラグＩＮＴＬＫ０のリセットを待たずに完了する。

図９は、図２の演算処理装置１０２により実行されるアトミック命令とストア命令との処理の一例を示す。図９に示す例では、スレッド０のアトミック命令（インデックスＩＤＸ＝Ａ、ウェイ番号ＷＡＹ＝０）と、スレッド１のストア命令（インデックスＩＤＸ＝Ｂ、ウェイ番号ＷＡＹ＝２）とが並列に実行される。アトミック命令の動作は、図８と同様である。

スレッド１のストア命令は、状態ＳＴ０においてキャッシュミスし、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）は、"０"にリセットされる。状態ＳＴ０の処理は、アトミック命令のロック前のため、通常通りに実施されて完了される。状態ＳＴ１の処理中にアトミック命令がロックされる。状態ＳＴ１において、ストア命令の対象領域のデータが下位のメモリからＬ１キャッシュ５０に転送され、Ｌ１キャッシュ５０がキャッシュヒットする。

ロック判定回路３２は、ロック判定の不一致を検出し、ＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを許可する。ストア制御部２０は、状態ＳＴ１でキャッシュヒットしたため、ロック判定回路３２からの許可に基づいてＬＩＤフラグ（ＷＢ．ＬＩＤ）を"１"にセットする。アトミック命令との競合がないため、状態ＳＴ２において、アトミック命令のロックフラグＩＮＴＬＫ０のリセットを待たずに、ストアデータＳＴＤがＬ１キャッシュ５０に格納される。そして、ストア命令の処理が完了する。

図１０は、図２の演算処理装置１０２により実行されるアトミック命令とストア命令との処理の別の例を示す。図１０に示す例では、スレッド０のアトミック命令（インデックスＩＤＸ＝Ａ、ウェイ番号ＷＡＹ＝０）と、スレッド１のストア命令（インデックスＩＤＸ＝Ｃ、ウェイ番号ＷＡＹ＝３）とが並列に実行される。アトミック命令の動作は、図８と同様である。

スレッド１のストア命令は、状態ＳＴ０においてキャッシュヒットし、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）は、"１"にセットされる。状態ＳＴ０から状態ＳＴ１への遷移に伴い、ストアデータＳＴＤのライトバッファＷＢへの転送とともに、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）が"１"にセットされる。この状態で、アトミック命令のロード処理の完了するため、アトミック命令によりＬＩＤフラグ（ＷＢ．ＬＩＤ）が"０"にリセットされる。

これにより、図６のステップＳ７２６の判定により、ストア命令の状態は、状態ＳＴ２に移行されず、状態ＳＴ１に移行される。したがって、セット状態のＬＩＤフラグ（ＳＴＢ．ＬＩＤ）がストアバッファＳＴＢからライトバッファＷＢに転送される場合にも、状態ＳＴ２の実行前に状態ＳＴ１に遷移させることができる。この結果、状態ＳＴ１の処理を利用して、アトミック命令との競合を判定することができる。

この後、図９と同様に、ロック判定回路３２は、ロック判定の不一致を検出し、キャッシュヒットによりＬＩＤフラグ（ＷＢ．ＬＩＤ）を"１"にセットする。アトミック命令との競合がないため、状態ＳＴ２において、アトミック命令のロックフラグＩＮＴＬＫ０のリセットを待たずに、ストアデータＳＴＤがＬ１キャッシュ５０に格納される。そして、ストア命令の処理が完了する。

図１１は、図２の演算処理装置１０２により実行されるアトミック命令とストア命令との処理のさらなる別の例を示す。図１１に示す例では、スレッド０のアトミック命令（インデックスＩＤＸ＝Ａ、ウェイ番号ＷＡＹ＝０）と、スレッド１のストア命令（インデックスＩＤＸ＝Ｄ、ウェイ番号ＷＡＹ＝４）とが並列に実行される。アトミック命令の動作は、図８と同様である。

図１１では、ストア命令がアトミック命令のロック中に実行される。状態ＳＴ０において、スレッド１のストア命令は、キャッシュヒットし、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）は、"１"にセットされる。このため、状態ＳＴ０から状態ＳＴ１への遷移において、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）の"１"がＬＩＤフラグ（ＷＢ．ＬＩＤ）に移動される。したがって、ストア命令の状態は、状態ＳＴ１をスキップして状態ＳＴ２に遷移する。アトミック命令との競合がないため、状態ＳＴ２において、アトミック命令のロックフラグＩＮＴＬＫ０のリセットを待たずに、ストアデータＳＴＤがＬ１キャッシュ５０に格納される。そして、ストア命令の処理が完了する。

図１２は、図２の演算処理装置１０２のロック判定回路３２の一例を示す。ロック判定回路３２は、スレッド毎（レジスタＲＥＧ毎）に、タグＬ１ＴＡＧからのウェイ番号ＷＡＹとレジスタＲＥＧのウェイ番号ＷＡＹとを比較する比較器ＣＭＰ３とを有する。ロック判定回路３２は、スレッド毎に、タグＬ１ＴＡＧからのインデックスＩＤＸとレジスタＲＥＧのインデックスＩＤＸとを比較する比較器ＣＭＰ４を有する。

また、ロック判定回路３２は、スレッド毎に、アンド回路ＡＮＤおよびオア回路ＯＲを有する。各アンド回路ＡＮＤは、比較器ＣＭＰ３、ＣＭＰ４の比較結果がともに一致し、対応するロックフラグＩＮＴＬＫが"１"にセットされている場合、競合信号ＣＮＦ（ＣＮＦ０、ＣＮＦ１、ＣＮＦ２またはＣＮＦ３）を"１"に設定する。各アンド回路ＡＮＤは、比較器ＣＭＰ３、ＣＭＰ４の比較結果のいずれかが不一致の場合または対応するロックフラグＩＮＴＬＫが"０"にリセットされている場合、対応する競合信号ＣＮＦを"０"に設定する。

各競合信号ＣＮＦの"１"は、対応するスレッドのメモリアクセス命令の対象領域がアトミック命令によりロックされていることを示す。各競合信号ＣＮＦの"０"は、対応するスレッドのメモリアクセス命令の対象領域がアトミック命令によりロックされていないことを示す。

各オア回路ＯＲは、他のスレッドに対応する３個の競合信号ＣＮＦの少なくともいずれかが"１"の場合、当該スレッドの命令を保留させる指示と、当該スレッドのＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを抑止する指示ＷＢ．ＬＩＤｅｎ１とを発行する。当該スレッドの命令を保留させる指示は、フェッチポート４０に発行され、ＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを抑止する指示ＷＢ．ＬＩＤｅｎ１は、ストア制御部２０に発行される。

各オア回路ＯＲは、他のスレッドに対応する３個の競合信号ＣＮＦが全て"０"の場合、当該スレッドの命令を保留させる指示を発行せず、当該スレッドのＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを許可する指示ＷＢ．ＬＩＤｅｎ１を発行する。

例えば、スレッド０でアトミック命令が実行され、スレッド１のロード命令と競合する場合、競合信号ＣＯＮＦ０が"１"になり、競合信号ＣＯＮＦ１－ＣＯＮＦ３が"０"になる。スレッド０に対応するオア回路ＯＲの出力は、競合信号ＣＯＮＦ１－ＣＯＮＦ３の"０"により"０"になる。

スレッド１－３に対応するオア回路ＯＲの出力は、競合信号ＣＯＮＦ０の"１"により"１"になる。この例では、ロード命令は、スレッド１で実行されているため、スレッド１に対応するオア回路ＯＲから出力される命令の保留指示１が有効になり、スレッド１のロード命令を保留することができる。

図１３は、図１の演算処理装置１０２のロック判定回路３４の一例を示す。図１２のロック判定回路３２と同様の要素については、詳細な説明は省略する。ロック判定回路３４は、各比較器ＣＭＰ３、ＣＭＰ４が受信する信号と、各アンド回路ＡＮＤおよび各オア回路ＯＲが出力する信号が異なることを除き、図１２のロック判定回路と同様の論理である。

各比較器ＣＭＰ３は、ストア制御部２０からのウェイ番号ＷＡＹ（ＷＢＧＯ）とレジスタＲＥＧからのウェイ番号ＷＡＹとを比較する。各比較器ＣＭＰ４は、ストア制御部２０からのインデックスＩＤＸ（ＷＢＧＯ）とレジスタＲＥＧからのインデックスＩＤＸとを比較する。

各アンド回路ＡＮＤは、競合信号ＷＢＣＮＦ（ＷＢＣＮＦ０、ＷＢＣＮＦ１、ＷＢＣＮＦ２またはＷＢＣＮＦ３）を出力する。各アンド回路ＡＮＤは、比較器ＣＭＰ３、ＣＭＰ４の比較結果がともに一致し、対応するロックフラグＩＮＴＬＫが"１"にセットされている場合、対応する競合信号ＷＢＣＮＦを"１"に設定する。

各オア回路ＯＲは、他のスレッドに対応する３個の競合信号ＷＢＣＮＦの少なくともいずれかが"１"の場合、当該スレッドのＷＢＧＯ時にＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを抑止する指示ＷＢ．ＬＩＤｅｎ２を発行する。ＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを抑止する指示ＷＢ．ＬＩＤｅｎ２は、ストア制御部２０に発行される。各オア回路ＯＲは、他のスレッドに対応する３個の競合信号ＣＮＦが全て"０"の場合、当該スレッドのＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを許可する指示ＷＢ．ＬＩＤｅｎ２を発行する。

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、ロック判定回路３２、３４は、アトミック命令とメモリアクセス命令において、Ｌ１キャッシュ５０でのデータの格納位置を識別するインデックスアドレスＩＤＸおよびウェイ番号ＷＡＹの一致を判定する。これにより、メモリアクセス命令とアトミック命令との競合の判定の精度を向上することができる。したがって、アトミック命令の実行中に、アトミック処理の対象データの参照および更新を抑止し、アトミック処理の対象データでないデータの参照および更新を実施することができる。この結果、誤った競合の判定により、メモリアクセス命令の実行が保留されることを抑制することができ、演算処理装置１０２の処理性能の低下を抑制することができる。

さらに、この実施形態では、ストア命令の状態ＳＴ０においてキャッシュヒットしている場合、インデックスＩＤＸおよびウェイ番号ＷＡＹのペアの比較により、アトミック命令との競合を正しく判定することができる。そして、アトミック命令との競合が解消するまでストアバッファＳＴＢからライトバッファＷＢへのデータＳＴＤおよびＬＩＤフラグの転送を抑止することができる。これにより、アトミック命令との競合の有無に応じて、ＷＢＧＯ転送を制御することができる。

ストアバッファＳＴＢからライトバッファＷＢへのデータＳＴＤおよびＬＩＤフラグの転送後、状態ＳＴ１において、ＬＩＤフラグ（ＷＢ．ＬＩＤ）がキャッシュミスを示す場合、キャッシュヒットまで待った後、アトミック命令との競合が判定される。そして、アトミック命令との競合がない場合、ＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットを許可することで、状態ＳＴ２に遷移することができ、ライトバッファＷＢに保持されたストアデータＳＴＤをＬ１キャッシュ５０に格納することができる。すなわち、キャッシュヒットし、アトミック命令との競合がない場合のみ、ストアデータＳＴＤをＬ１キャッシュ５０に格納することができ、演算処理装置１０２のストア動作を正常に実行することができる。

ストアバッファＳＴＢからライトバッファＷＢへのデータＳＴＤの転送時にアトミック命令との競合が判定された場合、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）がセット状態の場合にも、ＬＩＤフラグ（ＷＢ．ＬＩＤ）のセットが抑止される。これにより、状態ＳＴ１を経由せずに状態ＳＴ０から状態ＳＴ２に遷移することを抑止することができる。換言すれば、状態ＳＴ１の処理を利用して、アトミック命令との競合を判定することができる。

ＬＩＤフラグ（ＷＢ．ＬＩＤ）は、アトミック命令の実行時にリセットされる。これにより、セット状態のＬＩＤフラグ（ＳＴＢ．ＬＩＤ）をストアバッファＳＴＢからライトバッファＷＢに転送する場合にも、状態ＳＴ１を経由せずに状態ＳＴ０から状態ＳＴ２に遷移することを抑止することができる。この結果、上述と同様に、状態ＳＴ１の処理を利用して、アトミック命令との競合を判定することができる。

状態ＳＴ０から状態ＳＴ１に遷移する前に、アトミック命令との競合がなく、キャッシュヒット状態である場合、状態ＳＴ１の処理を実行することなく、状態ＳＴ０から状態２に遷移し、ストアデータＳＴＤをＬ１キャッシュ５０に格納することができる。

図１４は、他の演算処理装置の一例を示す。図２と同様の要素については、同じ符号を付し、詳細な説明は省略する。図１４に示す演算処理装置１０４は、図２の演算処理装置１０２のロック制御部３０およびストア制御部２０の代わりにロック制御部３０Ａおよびストア制御部２０Ａを有する。演算処理装置１０４のその他の構成は、演算処理装置１０２の構成と同様である。

ロック制御部３０Ａは、４個のスレッドの各々に対応するレジスタＲＥＧ（ＲＥＧ０、ＲＥＧ１、ＲＥＧ２、ＲＥＧ３）およびロック判定回路３２Ａを有する。各レジスタＲＥＧは、アトミック命令がキャッシュヒットしたときにタグＬ１ＴＡＧから出力されるインデックスＩＤＸが格納される。各レジスタＲＥＧは、図２のレジスタＲＥＧと異なり、ウェイ番号ＷＡＹは格納されない。

ロック制御部３０Ａは、ストア命令の状態ＳＴ０において、ストア命令がキャッシュヒットした場合、ストアバッファＳＴＢのＬＩＤフラグ（ＳＴＢ．ＬＩＤ）をセットする指示ＳＴＢ．ＬＩＤｓｅｔをストア制御部２０Ａに出力する。ストア制御部２０Ａは、指示ＳＴＢ．ＬＩＤｓｅｔに基づいて、ストアバッファＳＴＢにおいてストア対象のデータとともにエントリに保持されたＬＩＤフラグをセットする。ロック制御部３０Ａは、ストア命令がキャッシュミスした場合、ストアバッファＳＴＢのＬＩＤフラグをリセットする指示ＳＴＢ．ＬＩＤｒｓｔをストア制御部２０Ａに出力する。ストア制御部２０Ａは、指示ＳＴＢ．ＬＩＤｒｓｔに基づいて、ストアバッファＳＴＢにおいてストア対象のデータとともにエントリに保持されたＬＩＤフラグをリセットする。

ロック制御部３０Ａは、後述するストア命令の状態ＳＴ１において、ストア命令がキャッシュヒットした場合、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）をセットする指示ＷＢ．ＬＩＤｓｅｔをストア制御部２０Ａに出力する。ストア制御部２０Ａは、指示ＷＢ．ＬＩＤｓｅｔに基づいて、ライトバッファＷＢにおいてストア対象のデータとともにエントリに保持されたＬＩＤフラグをセットする。

ロック判定回路３２Ａは、タグＬ１ＴＡＧからのインデックスＩＤＸと、各レジスタＲＥＧからのインデックスＩＤＸと、ストア制御部２０ＡからのロックフラグＩＮＴＬＫとを受信する。ロック判定回路３２Ａは、アトミック命令を実行するスレッドに対応するレジスタＲＥＧにインデックスＩＤＸが格納された場合、スレッドに対応するロックフラグＩＮＴＬＫをセットする指示ＩＮＴＬＫｓｅｔをストア制御部２０Ａに出力する。ストア制御部２０Ａは、指示に基づいて、対応するロックフラグＩＮＴＬＫをセットする。

ロック判定回路３２Ａは、セット中のロックフラグＩＮＴＬＫに対応するレジスタＲＥＧに有効なインデックスＩＤＸが保持されていると判断する。ロック判定回路３２Ａは、リセット中のロックフラグＩＮＴＬＫに対応するレジスタＲＥＧに無効なインデックスＩＤＸが保持されていると判断する。ロック判定回路３２Ａは、アトミック命令の完了に基づいて、対応するスレッドのロックフラグＩＮＴＬＫをリセットする指示ＩＮＴＬＫｒｓｔをストア制御部２０Ａに出力する。ストア制御部２０Ａは、指示ＩＮＴＬＫｒｓｔに基づいて、対応するロックフラグＩＮＴＬＫをリセットする。

ロック判定回路３２Ａは、ロード命令がキャッシュヒットしたときにタグＬ１ＴＡＧから出力されるインデックスＩＤＸを受信する。ロック判定回路３２Ａは、受信したインデックスＩＤＸを、有効なレジスタＲＥＧに保持されたインデックスＩＤＸと比較し、一致または不一致を判定する。ロック判定回路３２Ａは、一致（競合）を判定した場合、ロード命令の実行を抑止するため、ロード命令を実行するための情報をフェッチポート４０に転送する。ロック判定回路３２Ａは、不一致（競合しない）を判定した場合、ロード命令を実行するために、図示しない経路を介してＬ１キャッシュ５０にアクセス要求を出力する。ロック判定回路３２Ａは、Ｌ１キャッシュ５０にアクセス要求を出力した場合、ＳＴＶ信号を命令発行部１０に出力し、ロード命令をコミットさせる。

ロック判定回路３２Ａは、ストア命令の状態ＳＴ０において、ストア命令がキャッシュヒットしたときにタグＬ１ＴＡＧから出力されるインデックスＩＤＸを受信する。ロック判定回路３２Ａは、受信したインデックスＩＤＸを、有効なレジスタＲＥＧに保持されたインデックスＩＤＸと比較し、一致または不一致を判定する。ロック判定回路３２Ａは、有効なレジスタＲＥＧのいずれかとの一致（競合）を判定した場合、ストア命令の実行を抑止するため、ストア命令を実行するための情報をフェッチポート４０に転送する。ロック判定回路３２Ａは、全ての有効なレジスタとの不一致を判定した場合、ストア命令の実行を継続するために、ＳＴＶ信号を命令発行部１０に出力し、ストア命令をコミットさせる。

ストア制御部２０Ａは、図２のストア制御部２０と同様に、４個のスレッドのそれぞれでアトミック命令がロック中（実行中）であることを示す４個のロックフラグＩＮＴＬＫ（ＩＮＴＬＫ０－ＩＮＴＬＫ３）を有する。ストア制御部２０Ａは、ロード命令またはストア命令に含まれるアドレス等の情報を命令発行部１０から受信して保持する。ストア制御部２０Ａは、キャッシュヒットしたロード命令またはストア命令の対象データが格納されているウェイ番号ＷＡＹをタグＬ１ＴＡＧから受信して保持する。そして、ストア制御部２０Ａは、ロック制御部３０Ａからの情報に基づいてストアバッファＳＴＢおよびライトバッファＷＢの動作を制御する。

図１５は、図１４の演算処理装置１０４が実行するアトミック命令の処理の一例を示す。図３と同様の処理については、詳細な説明は省略する。図１５に示す動作フローは、命令発行部１０がアトミック命令をデコードしたことに基づいて開始される。

図１５では、図３のステップＳ２０、Ｓ３０、Ｓ７０の代わりにステップＳ２０Ａ、Ｓ３０Ａ、Ｓ７０Ａが実行され、図３のステップＳ５０は実行されない。ステップＳ１０、Ｓ４０、Ｓ６０、Ｓ８０の動作は、図３のステップＳ１０、Ｓ６０、Ｓ８０の動作と同様である。ステップＳ２０Ａのロード処理の例は、図１６に示される。ステップＳ７０Ａのストア処理の例は、図１７および図１８に示される。

ステップＳ３０Ａでは、ロック制御部３０Ａは、タグＬ１ＴＡＧから出力されるインデックスＩＤＸを、アトミック命令を実行するスレッドに対応するレジスタＲＥＧに格納する。

図１６は、図１５のステップＳ２０Ａのロード処理の一例を示す。図４と同様の動作については、同じステップ番号を付し、詳細な説明は省略する。図１６は、図４のステップＳ２０６の代わりにステップＳ２０６Ａが実行されることを除き、図４のロード処理と同様である。

ステップＳ２０６Ａにおいて、演算処理装置１０４は、ロック判定回路３２ＡにインデックスＩＤＸの一致を判定させる。ロック判定回路３２Ａは、セット中のロックフラグＩＮＴＬＫに対応する有効なレジスタＲＥＧからインデックスＩＤＸを読み出す。ロック判定回路３２Ａは、ロード命令に含まれるインデックスＩＤＸが、有効なレジスタＲＥＧから読み出したインデックスＩＤＸと一致するか否かを判定する。このように、ロック判定回路３２Ａは、ロード命令においてウェイ番号ＷＡＹを比較せず、インデックスＩＤＸのみに基づいて、アトミック命令との競合を判定する。

演算処理装置１０４は、一致が判定された場合、ロード対象のデータの記憶領域はロックされているため、ステップＳ２２０を実行する。演算処理装置１０４は、不一致が判定された場合、ロード対象のデータの記憶領域はロックされていないため、ステップＳ２０８を実行する。

図１７および図１８は、図１５のステップＳ７０Ａのストア処理の一例を示す。図５から図７と同様の動作については、同じステップ番号を付し、詳細な説明は省略する。図１７は、図５のステップＳ７１２の代わりにステップＳ７１２Ａが実行されることを除き、図５のロード処理と同様である。図１８は、図６のステップＳ７２０、Ｓ７２４、Ｓ７２２および図７のステップＳ７３８、Ｓ７４０、Ｓ７４２が削除され、ステップＳ７３８Ａが追加されることを除き、図６および図７のストア処理と同様である。

図１７のステップＳ７１２Ａにおいて、演算処理装置１０４は、ロック判定回路３２ＡにインデックスＩＤＸの一致を判定させる。ロック判定回路３２Ａは、セット中のロックフラグＩＮＴＬＫに対応する有効なレジスタＲＥＧからインデックスＩＤＸを読み出す。ロック判定回路３２Ａは、ストア命令に含まれるインデックスＩＤＸが、有効なレジスタＲＥＧから読み出したインデックスＩＤＸと一致するか否かを判定する。このように、ロック判定回路３２Ａは、ストア命令においてウェイ番号ＷＡＹを比較せず、インデックスＩＤＸのみに基づいて、アトミック命令との競合を判定する。

演算処理装置１０４は、一致が判定された場合、ストア対象のデータの記憶領域はロックされているため、ステップＳ７１４を実行する。演算処理装置１０４は、不一致が判定された場合、ストア対象のデータの記憶領域はロックされていないため、ステップＳ７１６を実行する。

図１８では、ステップＳ７１８の後、ステップＳ７２６が実行され、ステップＳ７３０でキャッシュヒットが判定された場合、ステップＳ７３８Ａが実行される。ステップＳ７３８Ａにおいて、演算処理装置１０４は、ストア制御部２０Ａに、ライトバッファＷＢのＬＩＤフラグ（ＷＢ．ＬＩＤ）を"１"にセットさせる。演算処理装置１０４は、ステップＳ７３８Ａの後、ステップＳ７２６に戻る。

図１９は、図１４の演算処理装置１０４により実行されるアトミック命令とロード命令との処理の一例を示す。図８と同様の動作については、詳細な説明は省略する。アトミック命令の動作は、図８と同様である。

スレッド１のロード命令は、アトミック命令に対して、インデックスＩＤＸが一致し、ウェイ番号ＷＡＹが異なる。アトミック命令のウェイ番号ＷＡＹと異なるため、ロック判定回路３２Ａは、ロード命令とアトミック命令との競合を検出する（一致を判定）。実際には、ウェイ番号ＷＡＹが異なる場合、アトミック命令との競合は発生しない。

しかしながら、図１４のロック判定回路３２Ａは、ロード命令とアトミック命令との競合を判定し、ロード命令をフェッチポートに保留する。ロード命令は、アトミック命令の完了後に実行される。したがって、競合が発生していないにもかかわらず、ロード命令が保留され、演算処理装置１０４の処理性能は低下する。

図２０は、図１４の演算処理装置１０４により実行されるアトミック命令とストア命令との処理の一例を示す。図９と同様の動作については、詳細な説明は省略する。アトミック命令の動作は、図１９と同様である。また、スレッド１のストア命令の状態ＳＴ１までの動作は、図９と同様である。

スレッド１のストア命令の状態ＳＴ０では、キャッシュミスするため、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）は、"０"にリセットされる。ストア命令は、アトミック命令に対してインデックスＩＤＸが異なる。このため、ロック判定回路３２Ａは、状態ＳＴ０において、ストア命令とアトミック命令とが競合していないことを検出し（不一致を判定）し、ストア命令の状態を状態ＳＴ１に遷移する。

状態ＳＴ１において、ストア制御部２０Ａは、ストア命令のキャッシュヒットに基づいてＬＩＤフラグ（ＷＢ．ＬＩＤ）を、"１"にセットし、ストア命令の状態は、状態ＳＴ２に遷移する。しかしながらアトミック命令がロック中のため、ストア命令の状態ＳＴ２の処理は、アトミック命令のロックが解除されるまで保留される。競合が発生していないにもかかわらず、ロード命令が保留されるため、演算処理装置１０４の処理性能は低下する。

図２１は、図１４の演算処理装置１０４により実行されるアトミック命令とストア命令との処理の別の例を示す。図１０と同様の動作については、詳細な説明は省略する。アトミック命令の動作は、図１９と同様である。また、スレッド１のストア命令の状態ＳＴ０の動作は、図１０と同様である。

スレッド１のストア命令は、状態ＳＴ０においてキャッシュヒットし、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）は、"１"にセットされる。ストア命令は、アトミック命令に対してインデックスＩＤＸが異なる。このため、ロック判定回路３２Ａは、状態ＳＴ０において、ストア命令とアトミック命令とが競合していないことを検出する（不一致を判定）。

状態ＳＴ０の終了時、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）＝"１"がＬＩＤフラグ（ＷＢ．ＬＩＤ）に移動される。このため、ストア命令の状態は、状態ＳＴ１を介することなく状態ＳＴ２に遷移する。状態ＳＴ０から状態ＳＴ２に遷移されたとき、アトミック命令はロック中のため、ストア命令の状態ＳＴ２の処理は、アトミック命令のロックが解除されるまで保留される。競合が発生していないにもかかわらず、ロード命令が保留されるため、演算処理装置１０４の処理性能は低下する。

図２２は、図１４の演算処理装置１０４により実行されるアトミック命令とストア命令との処理のさらなる別の例を示す。図１１と同様の動作については、詳細な説明は省略する。アトミック命令の動作は、図１９と同様である。また、スレッド１のストア命令の状態ＳＴ０の動作は、図１１と同様である。

図２２の動作は、アトミック命令がストア命令の開始前からロックしていることを除き、図２１の動作と同様である。ストア命令は、アトミック命令に対してインデックスＩＤＸが異なるため、ロック判定回路３２Ａは、ストア命令とアトミック命令とが競合していないことを検出する。

状態ＳＴ０の終了時、ＬＩＤフラグ（ＳＴＢ．ＬＩＤ）＝"１"がＬＩＤフラグ（ＷＢ．ＬＩＤ）に移動されるため、ストア命令の状態は、状態ＳＴ１を介することなく状態ＳＴ２に遷移する。そして、ストア命令の状態ＳＴ２の処理は、アトミック命令のロックが解除されるまで保留される。競合が発生していないにもかかわらず、ロード命令が保留されるため、演算処理装置１０４の処理性能は低下する。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１アクセス制御部
２キャッシュヒット判定部
３キャッシュ
４保持部
５競合判定部
２０、２０Ａストア制御部
３０、３０Ａロック制御部
３２、３２Ａロック判定回路
３４ロック判定回路
４０フェッチポート
５０Ｌ１キャッシュ
１００、１０２、１０４演算処理装置
ＡＮＤアンド回路
ＣＭＰ比較器
ＣＯＮＦ競合信号
ＤＡＲＹデータアレイ
ＤＴデータ
ＦＦフリップフロップ
ＨＩＴヒット信号
ＩＤＸインデックスアドレス
ＩＮＴＬＫロックフラグ
ＬＤＤロードデータ
ＬＩＤＬＩＤフラグ
Ｌ１ＴＡＧタグ
ＯＲオア回路
ＲＥＧレジスタ
ＳＥＬセレクタ
ＳＴＢストアバッファ
ＳＴＤストアデータ
ＴＡＧタグアドレス
ＴＡＲＹタグアレイ
ＷＡＹウェイ
ＷＢライトバッファ
ＷＢＣＯＮＦ競合信号

Claims

複数のスレッドを実行可能な演算処理装置であって、
インデックスアドレスにより識別される複数の記憶領域を各々含む複数のウェイを有するキャッシュと、
キャッシュヒットを判定するキャッシュヒット判定部と、
前記複数のスレッドのいずれかが実行するアトミック命令の対象データを保持する前記記憶領域を識別するウェイ番号およびインデックスアドレスを保持する保持部と、
前記保持部に保持されたウェイ番号およびインデックスアドレスのペアが、前記複数のスレッドの別のいずれかが実行するメモリアクセス命令の対象データを保持する前記記憶領域を識別するウェイ番号およびインデックスアドレスのペアと一致する場合、命令の競合を判定する競合判定部と、
前記競合判定部により前記競合が判定された場合、前記メモリアクセス命令の対象データの前記キャッシュへの入出力を抑止するアクセス制御部と、
を有する演算処理装置。
ストア命令のストア対象の第１データと、前記ストア命令のキャッシュヒット時にセットされる第１フラグとを保持する第１バッファと、
前記第１バッファから転送される第１データおよび第１フラグを第２データおよび第２フラグとして保持する第２バッファと、を有し、
前記アクセス制御部は、
前記第１バッファおよび前記第２バッファを制御し、
前記第１データとセットされた前記第１フラグとが前記第１バッファに保持され、前記競合判定部により前記競合が判定された場合、前記競合が解消するまで前記第１データおよび前記第１フラグの前記第２バッファへの転送を抑止する
請求項１に記載の演算処理装置。
前記アクセス制御部は、
前記第１データが前記第１バッファに保持され、前記競合判定部により前記競合が判定されない場合、前記第１データおよび前記第１フラグを前記第２データおよび前記第２フラグとして前記第２バッファに転送し、
前記第２フラグがリセット状態の場合、キャッシュヒットするまで前記キャッシュヒット判定部による判定を繰り返し、
キャッシュヒットが判定された場合で、前記競合判定部による前記競合が判定されない場合、前記第２フラグをセットし、前記第２データを前記キャッシュに格納する
請求項２に記載の演算処理装置。
前記アクセス制御部は、
前記第１バッファから前記第２バッファへの前記第１データおよび前記第１フラグの転送時に、前記競合判定部により前記競合が判定された場合、前記第１フラグがセットされている場合にも、キャッシュヒットするまで前記第２フラグのセットを抑止する
請求項２に記載の演算処理装置。
アトミック命令の実行時に前記第２フラグをリセットするフラグリセット部を有する
請求項３または請求項４に記載の演算処理装置。
前記アクセス制御部は、前記第１バッファから前記第２バッファにデータが転送された後、前記競合判定部により前記競合が判定されず、前記第２バッファが保持する前記第２フラグがセット状態の場合、前記第２データを前記キャッシュに格納する
請求項３ないし請求項５のいずれか１項に記載の演算処理装置。
インデックスアドレスにより識別される複数の記憶領域を各々含む複数のウェイを有するキャッシュを有し、複数のスレッドを実行可能な演算処理装置の演算処理方法であって、
前記演算処理装置が有するキャッシュヒット判定部が、キャッシュヒットを判定し、
前記演算処理装置が有する競合判定部が、保持部に保持された、前記複数のスレッドのいずれかが実行するアトミック命令の対象データを保持する前記記憶領域を識別するウェイ番号およびインデックスアドレスのペアが、前記複数のスレッドの別のいずれかが実行するメモリアクセス命令のアクセス対象のデータを保持する前記記憶領域を識別するウェイ番号およびインデックスアドレスのペアと一致する場合、命令の競合を判定し、
前記演算処理装置が有するアクセス制御部が、前記競合判定部により前記競合が判定された場合、前記メモリアクセス命令の対象データの前記キャッシュへの入出力を抑止する
演算処理方法。