JP2022538371A

JP2022538371A - スレッド粒度を提供するマルチスレッドプロセッサ

Info

Publication number: JP2022538371A
Application number: JP2022516175A
Authority: JP
Inventors: レディカラムスッバ; サラシームラリパーサ; マテラベンカット; シバプラサドプラガムベンカタ
Original assignee: レッドパインシグナルズインコーポレイティド
Priority date: 2019-09-11
Filing date: 2020-09-11
Publication date: 2022-09-01
Anticipated expiration: 2040-09-11
Also published as: US11288072B2; US20210072995A1; KR20220054687A; WO2021051022A1; CN114730261A; DE112020004311T5; JP7194315B2; DE112020004311B4; US20220171629A1; KR102478409B1; US11775306B2; CN114730261B

Abstract

マルチスレッドプロセッサは、現在実行中のスレッドを示すスレッド＿ＩＤ値のシーケンスを出力する正規スレッドマップレジスタを有する。スレッドマップレジスタは、各スレッドに割り当てられる正規シーケンスのサイクル数に粒度を提供するようにプログラム可能である。本発明の一例では、スレッドマップレジスタは、メモリ待ち時間を克服し、スレッドストールを回避するために、連続的又は非連続的に繰り返されるスレッド識別子を有する。本発明の別の例では、割り込み処理の待ち時間を低減するために、各スレッドに別々の割り込みタスクを配置する。【選択図】図１

Description

本発明は、マルチスレッドプロセッサに関する。より詳細には、本発明は、中央処理装置（ＣＰＵ）の処理能力の可変割合が各スレッドに動的に割り当てられるように、粒度が高く動的なスレッド割り当て特性を有するマルチスレッドプロセッサに関する。

マルチスレッドプロセッサは、各々が独自の個別のスレッドで動作する複数のプロセスをシステムが実行する場合に利用される。従来技術のマルチスレッドプロセッサの例及び使用例は、米国特許第７７６１６８８号明細書、第７６５７６８３号明細書、及び、第８３９６０６３号明細書に記載される。例示的に専用の２スレッドプロセッサを使用して無線通信を行うよう動作する典型的なアプリケーションプログラムでは、プロセッサは、第１のスレッド上の優先度の高いプログラムの命令の実行と第２のスレッド上の優先度の低いプログラムの命令の実行との間で実行サイクルを交互に行い、交互に実行することで各スレッドにＣＰＵ処理能力の５０％が割り当てられる。加えて、第１のスレッドが外部周辺機器にアクセスし、データが戻るのを待たなければならないときなどのスレッドストール中に、第２のスレッドは第１のスレッドのストールの影響を受けずに実行を継続し得るという点で、各スレッドへのＣＰＵ帯域幅の割り当てが保護される。

問題が生じるのは、マルチスレッドプロセッサが帯域幅を不均等に割り当てる必要がある場合、又は、割り当てを動的に変更する必要がある場合である。プロセッサ実行サイクル群を構成する各インターバル中に、インターバル中の各々のスレッドがＣＰＵサイクルの固定割合を受け取るように、各タスクにスレッド使用率の動的割り当てを提供することが望ましい。後続インターバルで、追加のスレッドが追加若しくは削除されてもよく、又は、各スレッドへのＣＰＵサイクルの割り当て割合が変更されてもよい。また、幾つかのスレッドにＣＰＵ能力を不均等に割り当て、この割り当てが動的に実行されることが望ましい。

また、マルチスレッドプロセッサでは、割り込みの適時処理も問題となる。割り込み処理において、直前の特定の割り込み処理が完了できるように新しい割り込みは無効化される。次に受信された割り込みは、直前の割り込み処理が完了し、割り込みのマスクが解除されるまで認識されない。直前の割り込み処理のタスクが未完了の間に到着した新たな割り込みを適時に認識する割り込み処理の提供が望まれる。

本発明の第１の目的は、一連のカスケード接続されたステージを有するマルチスレッドスーパースカラプロセッサである。各カスケード接続されたステージは演算結果を後続ステージに提供し、カスケード接続されたステージの第１のステージは、スレッド識別子及び関連するプログラムカウンタで参照されるプログラムメモリアドレスから命令を受け取り、スレッド識別子はスレッド識別子のシーケンスを含むスレッドマップレジスタによって提供される。各スレッド識別子は、プログラムカウンタ及びレジスタファイルの何れが特定のプロセッサステージで使用されるかを示し、スレッド識別子及びスレッド毎のプログラムカウンタを使用して選択された特定の命令は、命令フェッチステージ、命令デコードステージ、デコード／実行ステージ、実行ステージ、ロード／ストアステージ、及びライトバックステージを備えるパイプラインステージのシーケンスに提供され、デコード／実行ステージはスレッド識別子により選択されたレジスタファイルに結合される（coupled）。

本発明の第２の目的は、各割り込みプロセスが特定のスレッドに関連付けられた複数の割り込みプロセスを処理するよう動作可能なマルチスレッドスーパースカラプロセッサである。

本発明の第３の目的は、実行するスレッドのシーケンスを動的に識別するように再プログラム可能なスレッドマップレジスタを有するマルチスレッドスーパースカラプロセッサである。各スレッドはプログラムカウンタレジスタ及びレジスタファイルと関連付けられ、プログラムカウンタレジスタ及びレジスタファイルは、プリフェッチステージ、命令フェッチステージ、命令デコードステージ、デコード／実行ステージ、実行ステージ、ロードストアステージ、及び任意でライトバックステージからなる連続したステージのうち少なくとも１つに結合される。

本発明の第４の目的は、第１のプロトコルプロセスから第２のプロトコルプロセスへのスレッド帯域幅の動的割り当てであり、各プロトコルプロセスは別々のインタフェースを介して到着するパケットを処理し、各スレッドに粒度の高いサイクル割り当て制御を行うマルチスレッドプロセッサの異なるスレッドによって処理される。

本発明の第５の目的は、Ｂｌｕｅｔｏｏｔｈ（登録商標）及びＷＬＡＮなどの互いに無関係な通信プロトコルの同時処理を行う通信インタフェースであって、Ｂｌｕｅｔｏｏｔｈインタフェースは、Ｂｌｕｅｔｏｏｔｈプロトコルの非アクティブ間隙によって隔てられた規則的間隔の間アクティブであり、Ｂｌｕｅｔｏｏｔｈプロトコルの非アクティブ間隙はＷＬＡＮ通信に用いられる。通信プロトコルはマルチスレッドプロセッサ上で動作し、Ｂｌｕｅｔｏｏｔｈのアクティブ間隔中はより多数のスレッドサイクルをＢｌｕｅｔｏｏｔｈプロトコルに動的に割り当て、ＷＬＡＮのアクティブ間隔中はより多数のスレッドサイクルをＷＬＡＮプロトコルに動的に割り当てる。

本発明の一例では、スーパースカラプロセッサは、プリフェッチステージ、フェッチステージ、デコードステージ、デコード／実行ステージ、実行ステージ、ロード／ストアステージ、及び、任意でライトバックステージを順に有する。プリフェッチステージは、スレッドマップレジスタの指示の下、スレッド毎のプログラムカウンタが提供する命令を受け取る。スレッドマップレジスタは、識別されたスレッドを選択するため、スレッド毎のプログラムカウンタにインデックスする正規（canonical）連続（succession）のスレッド識別子を提供する。選択されたプログラムカウンタは命令メモリから命令を受け取るようプリフェッチステージに指示する。デコード／実行ステージはレジスタファイルに結合され、スレッド固有のレジスタセットがアドレス指定されるように、その時点でデコード／実行ステージが実行中のスレッドに関連付けられたレジスタファイルが選択される。

スレッドマップレジスタは実行中の特定のスレッドを識別する。スレッドマップレジスタは、スレッド毎のプログラムカウンタの制限数及びスレッド毎のレジスタファイルの制限数に応じて、任意の数の異なるスレッドを参照し得る。例えば、スレッドマップレジスタは、１０のエントリを含み、スレッド毎のプログラムカウンタ及びスレッド毎のレジスタファイルの数は４であってもよい。この場合、スレッド＿０が１サイクルを受け取り、スレッド＿１が４サイクルを受け取り、スレッド＿２が３サイクルを受け取り、スレッド＿３が２サイクルを受け取り得るように、４つのスレッドの各々の粒度は１０％に指定されてもよい。スレッドレジスタは、正規に実行される［０，１，１，１，１，２，２，２，３，３］の何れかを指定し得るがこれに限られない。スレッドレジスタは、スレッド番号又はスレッドの割り当てを変更するために更新されてもよく、例えば、スレッドレジスタに新しい値［０，０，０，０，１，２，２，２，３，３］を書き込むことによって、スレッド＿０を拡張し、スレッド＿１を縮小することが可能である。

本発明の別の例では、スーパースカラマルチスレッドプロセッサにおいて、各スレッドがそれぞれ独自の割り込みレジスタを有するように、スレッド毎に割り込みマスクが提供される。本発明のこの例では、スレッド＿０への割り込みがスレッド＿０によってマスクされ、スレッド＿１、スレッド＿２．．．スレッド＿ｎなどの他のスレッドはそれぞれのスレッドに指示された割り込みを別々に処理する能力を有するように、各スレッドはそれぞれ独自の割り込み処理を有する。この例のアーキテクチャでは、各スレッドは異なるプロトコルタイプを処理することができ、例えば、無線プロトコルであるＷＬＡＮ、Ｂｌｕｅｔｏｏｔｈ、及び、Ｚｉｇｂｅｅ（登録商標）のそれぞれのパケット処理は、共通のパケットバッファインタフェースを有するマルチプロトコルベースバンドプロセッサのプロセッサインタフェースに結合されたパケットバッファで処理することができる。この例では、マルチスレッドプロセッサは、割り込み処理を使用してそれぞれ適時に完了されなければならない確認応答要求及び再送要求を処理し、個別の割り込みの各プロトコルタイプは個別のスレッドに専用であり、スレッドレジスタは必要に応じて書き換えられてより多数のスレッドサイクルを適宜割り当てることができる。

図１は、スレッド毎のプログラムカウンタ及びスレッド毎のレジスタファイルを有するマルチスレッドスーパースカラプロセッサのブロック図を示す。図１Ａは、スレッド毎のプログラムカウンタの編成のブロック図を示す。図１Ｂは、スレッドマップレジスタの一例のブロック図を示す。図２Ａは、スレッドが連続マッピングされた所与のスレッド割り当てのスレッドマップレジスタの一例であるスレッドマップレジスタを示す。図２Ｂは、図２Ａのスレッドが非連続マッピングされたスレッドマップレジスタを示す。図３は、図１のマルチスレッドプロセッサのスレッド毎の割り込みコントローラ及び処理を示す。図４は、別々のＣＰＵを使用するＢｌｕｅｔｏｏｔｈプロセッサ及びＷＬＡＮプロセッサのブロック図を示す。図５は、マルチスレッドプロセッサを使用するＢｌｕｅｔｏｏｔｈプロセッサ及びＷＬＡＮプロセッサのブロック図を示す。図５Ａは、マルチスレッドプロセッサに対するプログラムコード及び関連するタスクの割り当て例を示す。図５Ｂは、パケットバッファに対するＲＡＭの割り当て例を示す。

図１は、プレフェッチステージ１０２、フェッチステージ１０４、デコードステージ１０６、デコード／実行ステージ１０８、実行ステージ１１０、ロード／ストアステージ１１２、及び、任意のライトバックステージ１１４からなる順次ステージを有するスーパースカラプロセッサ１００に関する本発明の一例を示す。プリフェッチステージ１０２に送られる命令は、個別のクロックサイクルで、次のステージに必要な任意のコンテキスト及び中間結果を受け継ぎながら後続の各ステージによって順次実行される。本発明の一例では、スレッドマップレジスタ１０３は、スレッド毎のプログラムカウンタ１０５に送るためのスレッド識別子（スレッド＿ＩＤ）の正規シーケンスを提供し、スレッド毎のプログラムカウンタ１０５は、関連する現在のプログラムカウンタ１０５のアドレスをプリフェッチステージ１０２に提供する。プリフェッチステージ１０２は命令メモリ１１６から関連する命令を取得し、それを次のクロックサイクルでフェッチステージ１０４に送る。デコード／実行ステージ１０８は、デコード／実行ステージ１０８からの読み出し要求に応答するスレッド毎のレジスタファイル１１８、又は、ステージ１１４からのライトバック動作に結合され、各々はスレッド固有であり、したがって、読み出される又はレジスタファイル１１８に書き込まれるデータは、それを要求する又は提供するスレッド＿ＩＤに対応する。

図１Ａは、スレッド＿０用のＰＣ＿Ｔ０、スレッド＿１用のＰＣ＿Ｔ１、スレッド＿ｎ用のＰＣ＿Ｔｎといったスレッド毎のプログラムカウンタ１０５を示す。各スレッドに１つのプログラムカウンタが使用される。

図１Ｂはスレッドマップレジスタ１０３を示し、正規で実行されるスレッド識別子Ｔ０１３０～Ｔｎ１３２のシーケンスを含む。スレッドの数（各スレッドは、特定のステージのＣＰＵサイクルで実行される個別のプロセスである）は、レジスタファイル１１８の数及びプログラムカウンタ１０５の数によって制限されるｍであり、一方、スレッドマップレジスタ１０３は、ＣＰＵ帯域幅をスレッドに均等に割り当てるためにｍ個のスレッドをサポートしてもよく、又は、スレッド制御を高粒度にするためにｎ＞ｍであるｎ個のタイムスロットを提供してもよい。例えば、１６個のエントリを有するスレッドマップは４つのスレッドをサポートしてもよく、各スレッドは利用可能なＣＰＵ処理能力の１／１６の粒度を有し、残りのスレッドへのＣＰＵ処理能力の割り当てに応じて、利用可能なＣＰＵ処理能力の０／１６～１６／１６の任意の粒度をサポートする。

図２Ａは、正規サイクル長２０４に亘って１６個のエントリを有する例示的なスレッドマップレジスタ１０３を示し、スレッドマップレジスタは１６エントリの終端で正規に繰り返し得る。図２Ａの本例は４つのスレッド及び順次マッピングについて示し、例えば、スレッドが外部リソースからの結果の受信に遅延があり順次サイクルを実行することができない場合などのスレッドストールのない用途に適し得る。ｎ＝１６のスレッドマップレジスタ位置について、スレッドマップレジスタは、各タスクにプロセッサアプリケーションの１／１６の解像度を提供し、プロセッサはスレッドマップレジスタの位置毎に１つのスレッドで使用され得るが、この場合、各スレッドに固定された時間割り当てを提供する。好ましい使用法では、スレッド識別子の数ｍは、スレッドマップレジスタの位置の数ｎよりも少なく、これによって、タスクに対する特定のスレッドの割り当ては、粒度ｐ／ｎを有し得る。ここで、ｎは典型的には固定であり、ｐは特定のスレッドに割り当てられるサイクル数としてプログラム可能で、各スレッドに演算資源をより多く又はより少なく割り当てるために０からｎまで変化することが可能である。本発明の別の例では、スレッドマップレジスタの長さｎは、タスクサイクル管理においてより大きな粒度を提供するように、又は、より多数のスレッドをサポートするようにプログラム可能であってもよい。

図２Ａは、１６位置のスレッドマップレジスタ２０２においてスレッド０、１、２、及び、３（それぞれＴ０、Ｔ１、Ｔ２、Ｔ３）の４スレッドを有するスレッドマップレジスタの例を示し、それぞれのスレッドに対してプロセッサ能力の１２．５％、２５％、５０％、及び、１２．５％が割り当てられる。特定のスレッドが外部リソースの応答を待たなければならないスレッドストールと言う問題が発生する。図２Ａの例では、デコード／実行ステージ１０８は、図示されていない外部共有メモリ又はメディアアクセスコントローラ（ＭＡＣ）を読み取ることを必要とし、外部リソースの読み取りの遅延に４クロックサイクルを必要とし得る。図２Ａに示されるスレッド割り当てで、外部リソースにアクセスするスレッドがＴ０及びＴ３である場合、或いは、デバイスへの読み書きの遅延の影響を受ける場合、Ｔ０は動作２０８でスレッドストール状態になり、Ｔ３はサイクル２１０でスレッドストール２１４状態になる。図２Ａに示されるスレッド識別子の編成では、スレッドストールの度に、本来利用可能なＣＰＵサイクルが失われることになる。

図２Ｂは、図２Ａと同じ時間配分を用いるが、図２Ａに示されたのと同じスレッドストールの場合についてスレッドシーケンス２２０を並べ替えた代替マッピングを示す。Ｔ０を位置０及び７に、Ｔ３を位置１及び８に配置換えしたことが、図２Ｂの編成に反映されている。スレッドストール２１２が４クロックサイクルであるのに対し、Ｔ０スレッドは、６クロックサイクル２２４より長いスレッドストールに対してのみストールするので、図２Ａの配置では１つのみであるが、図２Ｂの編成では両方のＴ０の発生が実行されることになる。同様に、図２Ａで２つ目のＴ３サイクルを保留させるＴ３ストールは、スレッドストールが継続時間２２６を持たない限り、図２Ｂでは発生しない。

図３は、本発明の別の態様であり、無線信号処理の一例である。プロセススレッド３０８は図１のマルチスレッドプロセッサ上で異なるスレッドとして実行可能であり、マルチスレッドプロセッサはマルチスレッドＣＰＵ１００の一部であるインタフェース３１０を有し、各インタフェースは特定のＭＡＣに関連付けられる。無線信号は、アンテナ３０１で受信及び送信される。３０２によって受信時にベースバンドに変換され、又は、送信時にＲＦに変調され、マルチプロトコルベースバンドプロセッサ３０４に提供される。マルチプロトコルＭＡＣの特定のインタフェースにパケットが到着すると、特定のスレッドに対する割り込みが割り込みコントローラ３０６に送信され得る。各割り込みはマルチプロトコルプロセッサで動作する関連プロセス３０８によってマスク可能である。各プロセスは、関連する割り込みマスク（ＩＭ０、ＩＭ１、ＩＭ２、ＩＭ３と示される）を制御することができ、割り込みマスクは割り込みコントローラ３０６に提供されて、関連プロセスに対する直前の割り込みが完了するまで関連プロセスに新しい割り込みが処理されないように割り込みをマスクする。

本発明の割り込みのマルチタスク処理には、従来技術にはない特有の利点がある。従来技術では、スレッド０上の割り込みサービスルーチンが、複数のパケットインタフェースのパケット確認応答を処理し得る。このタスクでは、パケットの受信後、受信バッファを調べてシーケンス内のパケット欠損を検出し、プロセスは受信したパケットに確認応答するか、欠損したパケットについて送信者に再送要求を行う。パケットの確認応答と再送信には重要なタイミングのウィンドウがあるため、パケット受信後に確認応答又は再送信の要求を適時に行うことが重要である。パケット受信後３０ｕｓ以内に再送要求を行う必要があり、第１の再送信タスク０が完了に５ｕｓを要し、第２の再送信タスク１が処理と完了に１０ｕｓを要し、第３の再送信タスク３が処理と完了に５ｕｓを要し、１つのプロセスが１つのスレッド上で３つのタスクを処理する場合を考えてみる。この例では、３つのタスクが共通のスレッドで処理され、従来技術と同様に共通の割り込みマスクが使用される。パケットを受信するとスレッド０上のタスク０を処理するプロセスは、他のパケット確認応答によって現在の確認応答の処理が遅くならないよう割り込みをマスクし、これには５ｕｓを必要とする。タスク０の処理中にスレッド０のタスク１に関連する２つ目の割り込みが到着した場合、スレッド０はまだタスク０でビジー状態のため、到着後少なくとも５ｕｓまでタスク１は処理されない。また、異なるインタフェースにパケットが集中し、タスク１（１０ｕｓを要する）がタスク０（５ｕｓを要する）の完了を待っている間に、５ｕｓを要する３つ目のタスク３が到着する可能性もある。タスク０が完了すると割り込みマスクが除去され、タスク１が割り込みを発生させて検出され、割り込みマスクが再びアサートされ、タスク１の処理が完了する。その後、割り込みマスクが解除されタスク２の割り込みがアサートされ、検出される。その後、割り込みマスクが再びアサートされ、タスク２は要求の到着後早くとも１５ｕｓも後に開始し、必要な再送要求ウィンドウが経過した２０ｕｓ後に要求完了となる。タスク２の完了後に割り込みマスクが解除されるが、タスク２からの再送要求をリモート局が適時に受信できず、再送信プロトコルに失敗した。従来技術では、先のタスク１及び２の処理後にタスク２の待ち時間が遅れるという問題に対する解決策として、より高速なプロセッサを使用している。さらに、マルチコアプロセッサがＭＡＣインタフェースを読み出している間、スレッドロックが発生し得るが、これは先に図２Ｂで示したようにスレッド識別子を並べ替えることで回避できる可能性がある。この場合、確認応答と再送信のタスクにスレッドサイクルの細かい割り当てが必要になり得るが、３つのタスクをそれぞれ細かい時間割り当ての別々のスレッドに分散させることでインタフェースの読み取り／書き込みの待ち時間を克服し、各スレッドを別々の割り込み及び割り込みマスクに関連付けることによって、割り込みマスクの待ち時間の遅延も克服することができる。

各タスクが単一スレッド上で実行され、各タスクが５０ＭＩＰＳを必要とする従来技術では、割り込みを順次処理する際の待ち時間と遅延のため、３つのタスクを正常に処理するには３００ＭＩＰＳの処理能力が必要となるが、図３の新規の方法では約１５０ＭＩＰＳのみを必要とし、これにより、ＭＩＰＳ要求を２倍節約でき、結果として消費電力要件も低減する。

図１のマルチプロトコルプロセッサの別の例では、各々の無線プロトコルは別々のスレッドによって処理されてもよい。例えば、ＷＬＡＮ、Ｂｌｕｅｔｏｏｔｈ、及び、Ｚｉｇｂｅｅを扱うプロセスをそれぞれ独自のスレッド上の別のプロセスで動作させ、それぞれの再送信プロセスをプロトコル毎に別のプロセスで、それぞれ独自のスレッド上で動作させて処理してもよい。

本発明の別の例では、スレッドマップレジスタは、分離されたスレッド管理プロセスによって検出されたプロセス要求に従って対話形式で変更されてもよい。各ステージからのコンテキストは図１の後続ステージに転送されるので、プリフェッチステージ１０２が確定的なスレッド＿ＩＤ及び関連するスレッド毎のプログラムカウンタ１０５を受け取るためのクロック同期要件に従う限り、スレッドマップレジスタへの変更はいつでも行うことができる。

図４は、通信システムとデータを交換するためのインタフェース４８０を備えた、無線ローカルエリアネットワーク（ＷＬＡＮ）とＢｌｕｅｔｏｏｔｈ（ＢＴ）を組み合わせた送受信器の例を示す。各プロトコルで必要なＷＬＡＮとＢＴの処理動作は特化され、各プロトコルで応答の適時性が求められるため、インタフェースの種類ごとにＣＰＵが必要になる。各インタフェースに対してＣＰＵが短い待ち時間の処理を要求するため、ＷＬＡＮ及びＢＴの処理は、図４に示されるようなシステムアーキテクチャで行われる。

図４は、アナログフロントエンドとＭＡＣ４０１を備えるＷＬＡＮプロセッサがＷＬＡＮＣＰＵ４２４に結合され、アナログフロントエンドとＭＡＣ４５０を備えるＢＴプロセスがＢＴＣＰＵ４８２に結合されている様子を示す。各ＷＬＡＮＣＰＵ４２４及びＢＴＣＰＵ４８２は、それぞれのＷＬＡＮプロセッサ４０１及びＢＴプロセッサ４５０に関連するソフトウェアプログラムによる即時処理を必要とする割り込み及びイベントのバーストに適時に対応することができる。

ＷＬＡＮプロセッサ４０１において、アンテナ４０２は、受信信号を低雑音増幅器４０６につなげ、送信信号を電力増幅器４１４からつなげるために、送受信スイッチ４０４に結合される。入力信号は、クロックソース４１８を使用してベースバンドに混合され４０８、ローパスフィルタされ４１０、アナログベースバンド信号はデジタル化され、受信シンボルをデータストリームに復調するＡＤＣ及びベースバンド複合プロセッサ４１２で処理されて、シリアルデータインターフェース（ＳＤＩ）やＣＰＵ４２４などのインタフェースを介してメディアアクセスコントローラ（ＭＡＣ）４２２によってレイヤ２パケットに形成される。ＣＰＵ４２４は、受信したパケットや送信するパケット、ＣＰＵ４２４が実行するプログラムコード、及び、システムがパワーダウンしているときにその他の非永続的な情報を記憶するための関連するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４２８を有する。読み取り専用メモリ（ＲＯＭ）又はフラッシュメモリ４２６は、通常、電源投入シーケンス中にフラッシュメモリ／ＲＯＭからＲＡＭにダウンロードされるプログラム命令を記憶するために使用される。ＭＡＣ４２２は、シリアルデータインターフェース（ＳＤＩ）などのインタフェース４２３を介して送信するためのデータを受信し、受信したデータパケットをシーケンス番号とともにＣＰＵ４２４に提供し、これによって、ＣＰＵ４２４が欠損データを検出し、再送信を管理し、任意のＷＬＡＮ認証プロトコルを設定し、カプセル化及びカプセル解除、チャネル管理、パケット集約、並びに、接続管理及び認証などの任意の必要なパケット毎の処理を実行できるようにする。

図４Ｂは、アナログフロント及びＢＴＭＡＣを備える例示的なＢｌｕｅｔｏｏｔｈプロセッサ４５０を示し、アンテナ４５２、送受信スイッチ４５４、低雑音増幅器４５６、ミキサ４５８、バンドパスフィルタ４６０、及び、アナログ／デジタル変換器及びベースバンドプロセッサ４６２と共に同様な動作をする。アナログ／デジタル変換器及びベースバンドプロセッサ４６２は、ＡＤＣ／ベースバンドプロセッサ４１２がＷＬＡＮの８０２．１１パケットに対して行うようにベースバンドのＢｌｕｅｔｏｏｔｈ周波数ホッピングパターンをデータストリームに変換する動作を行う。Ｂｌｕｅｔｏｏｔｈ送信チェーンは、ベースバンドプロセッサ及びＤＡＣ４７０、変調クロック源４６８を用いてベースバンド周波数ホッピングストリームをＲＦキャリア周波数に変調するミキサ４６６、及び、変調されたＢｌｕｅｔｏｏｔｈ周波数ホッピングストリームを送受信スイッチ４５４につなげる電力増幅器４６４を含む。ＢＴＣＰＵは、ペアリングを含む各種接続管理を処理する。

ＷＬＡＮＭＡＣ４２２は、ＳＰＩ（ＳｅｒｉａｌＰｅｒｉｐｈｅｒａｌＩｎｔｅｒｆａｃｅ）などのデジタルインタフェース４２３を介してＷＬＡＮＣＰＵ４２４に結合され、ＢＴＭＡＣ４８０はデジタルインタフェース４８１を介してＢＴＣＰＵ４８２に結合される。これにより、図４のアーキテクチャでは、ＷＬＡＮ及びＢｌｕｔｏｏｔｈの各プロセスがそれぞれ動作するＣＰＵ処理能力を個別に確保し、各インタフェースからの結合又はパケット要求の処理に短い待ち時間を実現する。

図５は、図４の代替アーキテクチャを示し、ＷＬＡＮのＲＦフロントエンド／ＭＡＣ５０４（図４の処理４０１に相当）及びＢＴのＲＦフロントエンド／ＭＡＣ５０８（図４の処理４５０に相当）は、それぞれデジタルインタフェース５１８及び５２０を介してマルチスレッドＣＰＵ５１０に結合され、マルチスレッドＣＰＵ５１０はＲＯＭ／フラッシュメモリ５１２及びＲＡＭ５１４に結合されている。任意で、スレッドマップレジスタ５１６が存在し、Ｂｌｕｅｔｏｏｔｈプロセス又はＷＬＡＮプロセスのいずれかにＣＰＵサイクルの割り当てを提供する。本発明の一例では、スレッドマップレジスタのプロセス＿ＩＤエントリの数は固定であり、各スレッド＿ＩＤに関連する特定のプロセスにより多い又は少ない数のプロセスサイクルを提供するため、より多い又は少ない数のスレッド＿ＩＤ値がスレッドマップレジスタにあってもよい。上述したような一度に１命令ずつ受け取るパイプライン型のマルチスレッドプロセッサでは、マルチスレッドプロセッサは次のスレッド＿ＩＤを発行するスレッドマップレジスタで決定されたスレッドに対して各命令を受信し、スレッドプロセスの割り当て制御の粒度は命令毎に異なる。スレッドマップレジスタはスレッド＿ＩＤを繰り返し正規に発行するので、スレッドへのプロセスの割り当ては、スレッドマップレジスタがサポートし得る値の数の逆数に相当する非常に細かい粒度となる。本発明の一例では、スレッド管理プロセスが一意のスレッド＿ＩＤを有するプロセスの一つとして動作してもよく、スレッド管理プロセスは、他のスレッドの活動を調べ、活動レベルに応じて対応するスレッド＿ＩＤのエントリ数を増減し、スレッドマップレジスタにスレッド＿ＩＤ値を割り当てたり、スレッドマップレジスタからスレッド＿ＩＤ値を解除したりする。通信プロセッサに関連する通信プロセスの活動レベルは、例えば、関連する通信プロセッサが送信又は受信し、スレッドが処理するパケットの数によって決定されてもよく、スレッドマップレジスタにその特定のスレッドのスレッド＿ＩＤ値がより多く又は少なく存在することを示すために閾値を設定してもよい。スレッド管理プロセスによってスレッドマップレジスタに動的に配置された、より多くの又はより少ないエントリを有する一意のスレッド＿ＩＤを持つプロセススレッドの例は、リンク層プロセス、ネットワーク層プロセス、又は、アプリケーション層プロセスを含み、各リンク層、ネットワーク層、又は、アプリケーション層のプロセスは、固有の閾値メトリックを有する複数のプロセスを含み得る。これらのプロセスはそれぞれ、４０１、４５０、５０４、又は５０８といった特定の通信プロセッサと関連付けられる。閾値メトリック（パケットデータレート、未処理の残りのパケット数、スレッドロードメトリック、又は、スレッドプロセスタスク完了の割合など）が閾値を超える間、スレッドマップレジスタにおけるスレッド＿ＩＤの割り当てを増加させてもよい。

図５Ａは、メモリ（ＲＯＭ／フラッシュメモリ５１２又はＲＡＭ５１４のいずれか）の存在する様々なスレッドへの割り当てを示す。１つのスレッドは、図４のＷＬＡＮＣＰＵ４２４によって実行されるタスクに対応するＷＬＡＮコードであってもよく、もう一つのスレッドは、図４のＢＴＣＰＵ４８２によって実行されるタスクに対応するＢＴコードであってもよい。スレッドマップレジスタを管理するために追加のスレッドを割り当て、追加のスレッドによって上述したスレッドマップレジスタ１０３への様々なタスクの帯域の割り当てを制御してもよく、追加のタスクによってパケットバッファのメモリ管理及び他の優先度が低く実行頻度の低い機能を実行してもよい。スレッドマップ管理タスクは、ＢＴ及びＷＬＡＮインタフェースの使用率を定期的に調査し、需要に応じて各タスクへのＣＰＵサイクルの割り当てを変更してもよい。本発明の一態様では、ＢｌｕｅｔｏｏｔｈとＷＬＡＮの動作を排他的に行い、ＣＰＵスレッドのインタフェースに対する割り当て（図５ＡのＢＴタスク及びＷＬＡＮタスク）は１つのインタフェース又はもう一つのインタフェースに特化される。

本発明の別の例では、様々なスレッドが、特定の通信プロトコルの異なる部分を処理し得る。例えば、１つのスレッドがレイヤ２及びその他の動作を処理し、もう１つのスレッドがレイヤ３及び特定のプロトコルの応用側面を処理してもよい。ＷＬＡＮプロトコルのいずれかに関する本発明の一態様では、１つのスレッドが、下位ＭＡＣ機能と総称されることがある基本的な通信態様を処理することができる。ＷＬＡＮとＢｌｕｅｔｏｏｔｈの下位ＭＡＣ機能には、パケット送信、パケット受信、クリアチャネル評価（ＣＣＡ）、フレーム間間隔、レート制御、送信要求と送信クリア（ＲＴＳ／ＣＴＳ）の交換、ＷＬＡＮ及びＢｌｕｅｔｏｏｔｈの無線パケット確認応答ＤＡＴＡ／ＡＣＫ、又は、Ｂｌｕｅｔｏｏｔｈに特有のチャネルホッピングが含まれる。上位ＭＡＣ機能は、下位ＭＡＣ機能で実行されない他のＩＳＯ（国際標準化機構）レイヤ２機能をデータリンク層で実行する。本明細書における上位ＭＡＣ機能とは、ＷＬＡＮサプリカント（無線ネットワークアクセスポイントへの参加又はログインに関連するプロトコル）、ＷＬＡＮパケットの再送信及び確認応答、標準ＷＰＡ又はＷＰＡ２（ＷｉｒｅｌｅｓｓＰｒｏｔｅｃｔｅｄＡｃｃｅｓｓ）に規定されるようなセキュリティ機能、のいずれかを総称したものである。ＩＳＯレイヤ３（ネットワーク層）の機能は、分離されたスレッドで実行されてもよい。レイヤ３機能には、ＩＰパケット形成、ＴＣＰ再送信と確認応答、ＳＳＬ暗号化と接続管理、及び、特定のアプリケーション層プロセス用のパケットカプセル化などのアプリケーション層の動作が含まれる。Ｂｌｕｅｔｏｏｔｈに関する本発明の別の例では、スレッドの１つをＢｌｕｅｔｏｏｔｈコントローラ、スタック、再試行、及び、確認応答の処理に割り当て、他のスレッドをアプリケーション層のタスクの処理に割り当ててもよい。このように、特定のプロトコルの２つのタスクは分離されて別々のスレッドに提供され、１つのスレッドからもう１つのスレッドへのデータ通信にはＳＲＡＭなどの共通インタフェースを使用してもよい。

アプリケーションによっては、ＷＬＡＮ通信とＢｌｕｅｔｏｏｔｈ通信が併存し、同時に動作してもよい。この構成例では、ＷＬＡＮパケット処理中はＷＬＡＮ通信処理に、Ｂｌｕｅｔｏｏｔｈパケット処理中はＢＴスレッドサイクルに、ＣＰＵスレッドサイクルを動的に割り当てることが可能である。特定の通信プロセッサ４０１、４５０、５０４、又は５０８に関連付けられた複数のプロセスは、一意のスレッド＿ＩＤ値で作成され、各スレッド＿ＩＤは各関連プロセスの処理帯域幅を提供するためにスレッドマップレジスタ５１６に置かれ、関連する通信プロセッサが有効でないとき、これらのプロセスは終了されスレッド＿ＩＤがスレッドマップレジスタ５１６から削除されてもよい。同時通信は、一定のスロット間隔でパケットを送信するＢｌｕｅｔｏｏｔｈ通信の定期通信間隔を利用して行うことができ、ＢＴ通信にチャネルが使用されていない大きな時間間隔によって時間的に区切ることも可能である。これらの間隔の間、ＢＴの通信ウィンドウに干渉しないように、ＷＬＡＮパケットの送信及び確認応答が行われてもよい。スレッドマップレジスタ１０３は、Ｂｌｕｅｔｏｏｔｈパケット間隔の間はＢＴに、そしてＷＬＡＮパケット間隔の間はＷＬＡＮに、ＣＰＵ能力のより大きな割合を提供するように動的に変更することができ、それによって図４のアーキテクチャよりも電力消費を低減する。

図４及び図５に示した例は、ＷＬＡＮとＢｌｕｅｔｏｏｔｈという特定の異種通信プロトコルのものであるが、これらは説明の目的のためであることが理解されたい。異種通信プロトコルは、全く異なるパケット処理を必要とする一式の通信プロトコルである。例としては、Ｂｌｕｅｔｏｏｔｈ、ＷＬＡＮ、Ｚｉｇｂｅｅ、ＮｅａｒＦｉｅｌｄ通信の何れかであり、その他は通信プロトコル分野の当業者には既知である。

Claims

複数のスレッド上で動作するマルチスレッドプロセッサであって、各スレッドはスレッド＿ＩＤによって識別され、前記マルチスレッドプロセッサは、
プログラム可能なエントリのシーケンスを有するスレッドマップレジスタであって、各エントリはスレッド＿ＩＤを示し、前記スレッドマップレジスタへの各要求に応答して後続のエントリのスレッド＿ＩＤを提供する前記スレッドマップレジスタと、
各処理ステージが演算入力を受け取り、演算結果及びコンテキストを生成して、前記演算結果及びコンテキストを後続ステージに転送する複数の順次処理ステージと、を備え、
前記順次処理ステージの少なくとも１つは、命令メモリから命令を受け取るプリフェッチステージであり、前記プリフェッチステージは前記スレッドマップレジスタへ要求し現在のスレッド＿ＩＤを受け取り、前記プリフェッチステージは前記現在のスレッド＿ＩＤに関連付けられたプログラムカウンタを選択し、前記プリフェッチステージは前記選択されたプログラムカウンタに関連付けられた命令を取得し、
前記順次処理ステージの少なくとも１つはレジスタファイルを修正するように動作するデコード／実行ステージであり、前記デコード／実行ステージは複数の前記レジスタファイルに結合され、各レジスタファイルは特定のスレッド＿ＩＤに関連付けられる、マルチスレッドプロセッサ。
前記複数の順次処理ステージは、前記プリフェッチステージ、フェッチステージ、デコードステージ、前記デコード－実行ステージ、命令実行ステージ、ロードストアステージ、及び、前記デコード－実行ステージに結合されたライトバックステージの順に備える、請求項１に記載のマルチスレッドプロセッサ。
前記ロードストアステージ及び前記命令実行ステージは、前記デコード－実行ステージに結果を送る、請求項２に記載のマルチスレッドプロセッサ。
前記スレッドマップレジスタの複数のエントリは一意なスレッド＿ＩＤ値の数よりも多い、請求項１に記載のマルチスレッドプロセッサ。
前記順次処理ステージのうちの少なくとも１つは、外部メモリに結合されたロードストアである、請求項１に記載のマルチスレッドプロセッサ。
前記外部メモリはストール状態になることがあり、前記外部メモリへの操作に関連するスレッド＿ＩＤ値は前記スレッドマップレジスタ中で非連続的位置に配置される、請求項１に記載のマルチスレッドプロセッサ。
少なくとも２つのスレッド＿ＩＤ値が、各スレッド＿ＩＤ値に対して固有の割り込み入力と関連付けられ、前記割り込み入力の各々は、前記関連付けられたスレッド＿ＩＤ値のみの実行を変化させ、その他のスレッド＿ＩＤ値の実行は変化させない、請求項１に記載のマルチスレッドプロセッサ。
スレッド＿ＩＤ値のシーケンスとしてアサートされる値の正規線形配列を有するスレッドマップレジスタと、
前記スレッドマップレジスタに結合され、前記アサートされたスレッド＿ＩＤ値に基づいて特定のプログラムカウンタを選択するように動作するプログラムカウンタアレイと、を備えるマルチスレッドプロセッサであって、
前記選択されたプログラムカウンタの命令は、スレッド＿ＩＤに関連付けられたプログラムカウンタに従って命令メモリから命令を取得するように動作するプリフェッチステージ、命令フェッチステージ、命令デコードステージ、命令デコード－実行ステージ、命令実行ステージ、ロードストアステージ、及び、ライトバックステージを連続的に有するパイプラインステージに送られ、
前記ライトバックステージ、前記ロードストアステージ、及び前記実行ステージはそれぞれ結果をデコード－実行ステージに送り返し、
前記デコード－実行ステージは複数のレジスタファイルに結合され、各レジスタファイルは前記命令デコードステージによって提供される入力値に関連付けられた特定のスレッド＿ＩＤに関連付けられる、マルチスレッドプロセッサ。
外部インタフェースが前記ロードストアステージに結合され、前記外部インタフェースは、ストール間隔を有する少なくとも１つのスレッドに関連付けられ、前記スレッドに関連付けられた前記スレッドマップレジスタ内のスレッド＿ＩＤ値のシーケンスは、前記スレッドストール間隔よりも大きいサイクル数だけ互いに分離したスレッドストール間隔を有する、請求項８に記載のマルチスレッドプロセッサ。
前記スレッドマップレジスタ中の前記スレッド＿ＩＤ値のシーケンスの少なくとも１つの前記スレッド＿ＩＤ値が、前記スレッド＿ＩＤ値のシーケンスにおいて互いに隣接して配置されていない、請求項８に記載のマルチスレッドプロセッサ。
スレッドマップレジスタの値の前記線形配列の前記正規サイクルの間に、より多くの又はより少ない数の特定のスレッド＿ＩＤ値を割り当てるように前記スレッドマップレジスタが動的に変更される、請求項８に記載のマルチスレッドプロセッサ。
各スレッド＿ＩＤは特定の割り込み入力に関連付けられ、前記特定の割り込み入力がアサートされると、前記特定の割り込み入力はスレッド割り込みルーチンに関連する命令を前記割り込みルーチンが完了するまで実行させる、請求項８に記載のマルチスレッドプロセッサ。
アサートされた前記特定の割り込み入力に関連する前記スレッドがスレッド割り込みルーチンを実行する間、割り込み入力がアサートされていないスレッドに関連する命令は実行を継続する、請求項１２に記載のマルチスレッドプロセッサ。
前記ロードストアステージは外部インタフェースに結合される、請求項８に記載のマルチスレッドプロセッサ。
前記外部インタフェースは、ＳＰＩインタフェース、ＰＣＩインタフェース、若しくは、読み込む又は書き込むアドレス及び日付の配信を含むインタフェースのうちの少なくとも１つである、請求項１２に記載のマルチスレッドプロセッサ。
スレッド割り当てに粒度を提供するマルチスレッドプロセッサであって、前記マルチスレッドプロセッサは複数の独立したスレッドの命令を実行するように動作し、前記マルチスレッドプロセッサは、
プログラム可能なスレッド＿ＩＤ値のシーケンスを有するスレッドマップレジスタであって、複数の独立したスレッドの各々が特定のスレッド＿ＩＤに関連付けられ、前記スレッドマップレジスタはプログラム可能な順序でスレッド＿ＩＤ値を出力するようにプログラム可能であり、各特定のスレッド＿ＩＤは前記スレッド＿ＩＤ値のシーケンス内の一つ以上の位置に関連付けられる前記スレッドマップレジスタと、
各プログラムカウンタが前記独立したスレッドのうちの特定の１つ及び関連するスレッド＿ＩＤに関連付けられる、複数のプログラムカウンタと、
前記スレッドマップレジスタの前記スレッド＿ＩＤ値のシーケンスから現在のスレッド＿ＩＤ値を受け取るように動作するプリフェッチステージであって、前記現在のスレッド＿ＩＤ値に関連付けられた前記プログラムカウンタを使用して命令メモリからの命令を要求する前記プリフェッチステージと、
前記プリフェッチステージによって要求された前記命令に対して演算を行う一連のパイプラインステージと、を備えるマルチスレッドプロセッサ。
前記一連のパイプラインステージは、前記命令を受け取るフェッチステージを備え、前記フェッチステージは、デコードステージ、デコード－実行ステージ、ロードストアステージ、及び、前記デコード－実行ステージに結合されたライトバックステージに順に結合し、前記パイプラインステージの各々が結果及びスレッド＿ＩＤを後続ステージに送る、請求項１６に記載のマルチスレッドプロセッサ。
前記デコード－実行ステージは複数のレジスタファイルを含み、各レジスタファイルは前記デコード－実行ステージが受け取ったスレッド＿ＩＤに従って選択される、請求項１６に記載のマルチスレッドプロセッサ。