JP3529828B2

JP3529828B2 - ポピュレーション・カウントの計算装置

Info

Publication number: JP3529828B2
Application number: JP04319794A
Authority: JP
Inventors: デイル・シー・モーリス
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1993-02-19
Filing date: 1994-02-17
Publication date: 2004-05-24
Anticipated expiration: 2019-05-24
Also published as: KR100289513B1; DE4403917A1; US5717616A; DE4403917C2; KR940020501A; JPH06250823A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータに関する
ものであり、とりわけ、コンピュータ・プロセッサがポ
ピュレーション・カウントを計算するためのポピュレー
ション・カウントの計算装置に関するものである。

【０００２】

【従来の技術】ポピュレーション・カウントは、ビット
・ストリングにおける「１」の数のカウントを表してい
る。例えば、ビット・パターン「０１０１１００１」の
ポピュレーション・カウントは、「４」である。ストリ
ングのポピュレーション・カウントは、多くのアルゴリ
ズム・タイプに、とりわけ、暗号解析に有効である。

【０００３】先行技術によるコンピュータの中には、特
殊な命令を実行して、ポピュレーション・カウントの計
算を加速するものもある。一般に、これらの命令は、３
２ビット・サイズのプロセッサ・レジスタから単一のオ
ペランドを取り出して、オペランドにポピュレーション
・カウントの計算を施し、結果をレジスタに戻す。レジ
スタに納めるサイズより大きい２進ストリングのポピュ
レーション・カウントが、必要とされる場合、ポピュレ
ーション・カウントは、レジスタ・サイズによって決ま
る数の部分に分けて実施される。通常の「加算」命令を
利用して、各部分からの結果を合計すると、最終的なポ
ピュレーション・カウントが得られる。

【０００４】速度及び効率のため、ポピュレーション・
カウント命令を実行すると、単一ＣＰＵサイクルが実行
されるようになっている。しかし、ポピュレーション・
カウント機能は、計算が複雑であるため、極めて高性能
で、クロック周波数の高いＣＰＵの場合、単一サイクル
のポピュレーション・カウント命令を実行するのは問題
がある。現在の趨勢として、コンピュータのデータ幅が
広くなるにつれて、速度問題が一層深刻になっている。
３２ビットから離れて、６４ビットに向かうのが、今日
の産業界の趨勢である。これは、今や、ポピュレーショ
ン・カウント命令は、従来の２倍の数のビットについて
ポピュレーション・カウントを計算しなければならない
ということを表しており、このため、実行により多くの
時間を要することになる。ポピュレーション・カウント
機能の時間遅延は、オペランドにおけるビット数の対数
にほぼ比例している。従って、１６ビットのポピュレー
ション・カウントには、４時間単位を要し、３２ビット
のポピュレーション・カウントには、５時間単位を要
し、６４ビットのポピュレーション・カウントには、６
時間単位を要することになる。

【０００５】図１０には、６４ビットのレジスタを備え
たコンピュータにおけるポピュレーション・カウント命
令を実行する先行技術が示されている。レジスタ１０１
には、ポピュレーション・カウントが所望されるオペラ
ンドが納められている。オペランドのビットは、ビット
対に分割され、各ビット対は、１ビット全加算器１０３
〜１０９によって加算される。４つの１ビット全加算器
だけしか示されていないが、３２の１ビット全加算器を
用いて、オペランド・ビットの加算が行われることにな
る。１ビット全加算器の出力は、対をなすように分割さ
れ、各対をなす２ビット結果は、２ビット加算器１１１
〜１１７によって加算される。やはり、示されている２
ビット加算器は、４つであるが、１６の２ビット加算器
が用いられることになる。同様に、２ビット加算器から
の出力は、対をなし、８つの３ビット加算器１１９〜１
３３によって加算される。４つの４ビット加算器１３５
〜１４１を用いて、８つの３ビット結果が合計され、２
つの５ビット全加算器１４３及び１４５を用いて、４つ
の５ビット結果が合計される。最後に、６ビット全加算
器１４７を用いて、２つの６ビット結果を合計すること
によって、結果１５１の最後の７ビット１４９に納めら
れる最終ポピュレーション・カウントが得られる。一般
に、この結果は、コンピュータのレジスタに記憶され
る。

【０００６】

【発明が解決しようとする課題】ポピュレーション・カ
ウントを計算する先行技術の問題は、全「加算」プロセ
スを実行するのに必要な時間である。図１０に示す例の
場合、ポピュレーション・カウントを実行するには、６
レベルの全加算器が必要とされた。全加算器が用いられ
るので、各レベルの加算器からの桁上げビットが、伝搬
して、最終結果が得られるのに十分な時間を見越してお
かなければならない。例えば、２つの２進ビット・スト
リーム「１１」及び「０１」を加算する２ビット加算器
の場合、最下位ビットの加算による桁上げによって、次
に下位の位置に繰り上がり、最終的に、桁上げによっ
て、最上位ビット位置につき、正確な答「１００」が得
られるまでの時間を容認しなければならない。後続の３
ビット加算器は、２ビットの結果が安定化し、３ビット
加算器によって発生する桁上げが伝搬するのに十分な時
間が終了するまで、正確な答を発生することができな
い。このプロセスは、後続の各レベル毎に継続され、可
能性のある全ての「桁上げ」を考慮した累積遅延は、か
なりのものになる。

【０００７】単一ＣＰＵサイクルにおけるポピュレーシ
ョン・カウントを可能にするため、大量の電力を消費す
る超高速論理回路の利用を必要とする桁上げ遅延は、最
小限に抑えなければならない。また、ＣＰＵ内部の遅延
時間を最小限に抑えるため、ポピュレーション・カウン
ト回路要素は、プロセッサのコアに接近して配置しなけ
ればならないので、ＣＰＵ設計者の融通性に制限を加え
ることになる。

【０００８】多数のビットについてポピュレーション・
カウントの計算を行う先行技術は、オペランド・ストリ
ングにおける各ビット・ブロック（本例の場合６４ビッ
ト）に３ＣＰＵサイクルを必要とする。１つのサイクル
が、メモリ・ロード命令に用いられ、第２のサイクル
が、ポピュレーション・カウント命令の実行に用いら
れ、第３のサイクルが、前もって計算されたポピュレー
ション・カウントの小計に現在のポピュレーション・カ
ウントを加算する加算命令である。３サイクル／ワード
は、大ビット・ストリングに対するポピュレーション・
カウントの計算コストを表している。

【０００９】従って、産業界に必要なことは、ＣＰＵの
設計において便利なように実現することができ、多数の
ビットに対するポピュレーション・カウントの計算を先
行技術に比べてより速く行えるようにする新しい技術で
ある。

【００１０】

【課題を解決するための手段】本発明は、先行技術によ
る設計に比べて、所要時間が短く、設計に融通性を持た
せることができる、ビット・ストリングに対するポピュ
レーション・カウントの計算を行うための、新規で、斬
新な装置を提供する。

【００１１】１サイクルで全レジスタ・オペランドのポ
ピュレーション・カウントを計算するポピュレーション
・カウント命令を実行する代わりに、本発明では、オペ
ランドを複数部分に分割するポピュレーション・カウン
ト命令を実施する。こうして、ＣＰＵは、複数のより小
さいポピュレーション・カウントを計算し、複数ポピュ
レーション・カウントは、全ストリングの処理が済むま
で、単数ポピュレーション・カウントに換算されない。
ストリングの終端において、ポピュレーション・カウン
トの中間合計が、単一カウントに換算される。単一カウ
ントを得るのに必要な時間は、全ストリングに対して分
割償却され、大きいビット・ストリングの場合、先行技
術の合計時間よりも短くなる。

【００１２】ポピュレーション・カウントが少なくなれ
ば、全オペランド・ポピュレーション・カウントに比べ
て実行に要する時間が短くなるので、ＣＰＵクロック速
度を高めることが可能になり、ＣＰＵチップのレイアウ
トにおいて、チップ設計者により大きい融通性が与えら
れる。本発明の第１の実施例の場合、桁上げ節約加算器
を利用して、ポピュレーション・カウントと第２の合計
オペランドが組み合わせられる。桁上げ節約加算器は、
桁上げを伝搬しないので、先行技術の設計で用いられる
全加算器よりもはるかに高速であり、このアプローチに
よって、１ＣＰＵサイクルで、ポピュレーション・カウ
ント及び合計操作が可能になる。

【００１３】第２の実施例の場合、ポピュレーション・
カウントは、２つのレジスタに記憶されているオペラン
ドについて計算される。オペランドの各半分が、複数の
部分に分割され、各部分毎に、ポピュレーション・カウ
ントが計算される。複数のポピュレーション・カウント
は、全ストリングの処理が済むまで、単一数のポピュレ
ーション・カウントに換算されない。従って、単一カウ
ントを得るのに必要な時間は、ストリング全体で分割償
却されるので、大きいビット・ストリングの場合、必要
とする合計時間が短くなる。

【００１４】

【実施例】図１は、ポピュレーション・カウント命令時
に生じるデータ・フローを表した、本発明のブロック図
である。一般に、ポピュレーション・カウントが所望さ
れるビット・ストリングは、そのサイズがコンピュータ
のデータ幅によって決まるビット・ブロックとしてメモ
リに記憶される。ビット・ブロックは、メモリから読み
取られ、ＣＰＵレジスタ２０１に記憶される。ポピュレ
ーション・カウント及び累算論理ブロック２０３は、Ｃ
ＰＵレジスタ２０１のオペランドに関してポピュレーシ
ョン・カウントの計算を行い、そのカウントに、累算レ
ジスタ２０５に記憶された値を加算する。加算結果は、
累算レジスタ２０５に記憶され、前の値に重ね書きされ
る。ポピュレーション・カウント及び累算機能は、１Ｃ
ＰＵサイクル内において実行される。ポピュレーション
・カウント及び累算機能を単一ＣＰＵサイクル内で実行
するため、桁上げ節約加算器が用いられる。桁上げ節約
加算器は、２つの２進数を加算するが、桁上げを伝搬し
ない。代わりに、桁上げは、２進値の独立した部分とし
て記憶される。例えば、２つの２進ストリング「１１」
と「０１」が全加算器で加算されると、結果は、「１０
０」の２進ストリングが得られる。同じ２進ストリング
が桁上げ節約加算器で加算されると、結果は、「０１」
（桁上げ部分）と「１０」（合計部分）または桁上げ節
約フォーマットで「０１１０」になる。桁上げ節約フォ
ーマットから真の２進フォーマットに変換するため、
「０１」が、位置１つ分だけ左にシフトされ、「１０」
に加算される。例えば、次の式１のようになる：

【００１５】

【００１６】図２には、ポピュレーション・カウント命
令の実施の詳細を明らかにする本発明の好適な実施例が
示されている。最初の４つのステージは、図１０に関連
して解説した最初の４つのステージと、機能及び動作が
同様である。ＣＰＵレジスタ３０１には、６４ビット・
オペランドが記憶される。ＣＰＵレジスタ３０１内のビ
ットは、対をなし、３０３〜３０７で表示の３２の１ビ
ット全加算器によって加算される。３０９〜３１５で表
示の１６の２ビット加算器によって、１ビット加算器か
らの対をなす出力が合計される。次に、８つの３ビット
加算器３１７〜３３１によって、２ビット加算器からの
対をなす出力が加算される。４つの４ビット全加算器３
３３〜３３９によって、３ビット加算器からの対をなす
出力が加算される。４ビット加算器３３３からの出力に
よって、桁上げ節約加算器３４１に対する２つの入力の
一方が得られる。同様に、４ビット全加算器３３５〜３
３９からの出力によって、桁上げ節約加算器３４３〜３
４７に対する２つの入力の一方が得られる。各桁上げ節
約加算器３４１〜３４７は、１６ビットを加算するが、
４ビット全加算器３３３〜３３９は、５ビット長の最大
出力を発生するので、１１の最上位ビットが、固定され
て、ゼロになる。

【００１７】桁上げ節約加算器３４１〜３４７に対する
第２の入力が、累算レジスタ３４９によって得られる。
累算レジスタは、幅が６４ビットであり、４つの１６ビ
ットの累算レジスタ・ブロツク３５１〜３５７として取
り扱われ、各累算レジスタ・ブロックの値が、桁上げ節
約フォーマットで記憶される。累算レジスタ・ブロッの
最上位の８ビットは、それだけで、桁上げ情報を表し、
最下位の８ビットは、合計情報を表している。４ビット
全加算器３３３からの５ビットと累算レジスタ・ブロッ
ク３５１からの１６ビットの加算による、桁上げ節約加
算器３４１の出力は、累算レジスタ・ブロック３５１の
累算レジスタ３４９に桁上げ節約フォーマットで記憶さ
れる。このプロセスによって、累算レジスタ３５１にお
いて、累算レジスタ・ブロック３５１からの前の部分ポ
ピュレーション・カウントとＣＰＵレジスタ３０１にお
けるオペランドの最上位の１６ビットの部分ポピュレー
ション・カウントを自動的に合計することが可能にな
る。他の桁上げ節約加算器３４３〜３４７も、同様に、
動作し、ポピュレーション・カウント命令が実行される
毎に、４つの更新された部分ポピュレーション・カウン
トである結果は、累算レジスタ３４９に記憶されること
になる。

【００１８】実際には、累算レジスタ３４９は、第１の
ポピュレーション・カウント命令が実行される以前に、
クリアされることになる。各ポピュレーション・カウン
ト命令は、その後、桁上げ節約フォーマットで、４つの
新しい部分ポピュレーション・カウントを累算レジスタ
に追加する。一つ以上の部分ポピュレーション・カウン
トのオーバフローが発生し得るようになる前に、ポピュ
レーション・カウント命令を実行できる回数は、累算レ
ジスタのサイズ並びに桁上げ及び合計に割り当てられる
ビット数によって決まる。サイズが、それぞれ、２ⁿビ
ットのフィールドについて部分ポピュレーション・カウ
ントを計算するシステムの場合、及び、桁上げ節約フォ
ーマットが、「ｍ」の桁上げビットと、「ｍ」の合計ビ
ットから構成される場合、最大繰り返し数は、下記の式
２によって得られる：

【００１９】ｉ_max＝２^(m-n)＋ｍ−ｎ−１ …（２）

【００２０】従って、例えば、上述の好適な実施例の場
合、ポピュレーション・カウントは、ＣＰＵレジスタ３
０１からの１６ビット・フィールドについて計算される
ので、ｎ＝４（２⁴＝１６）になる。上述の桁上げ節約
フォーマットは、８つの桁上げビットと８つの合計ビッ
トであり、従って、ｍ＝８になる。従って、オーバフロ
ーの危険を伴わずに、ポピュレーション・カウント命令
を実行することが可能な回数は次の式３のようになる。

【００２１】ｉ_max＝２^(8-4)＋８−４−１＝１９ …（３）

【００２２】１９回繰り返した後、累算レジスタにおけ
る４つの桁上げ節約値は、さらに、換算する必要があ
る。多くの必要な換算を実行する技術が存在するが、望
ましい技術については、後述する。しかし、他の技術
も、同様にうまく機能する可能性があり、特殊なＣＰＵ
命令を実行して、換算を実行することも可能である。

【００２３】図３には、累算レジスタにおける４つの部
分ポピュレーション・カウントを４つの２進値に換算す
る場合のステップ１が示されている。桁上げを除去し
て、合計を残すため、累算レジスタ３４９の値には、累
算レジスタ３４９における桁上げ位置に対応する位置が
全てゼロ（「００」ベース１６）で、他の全ての位置が
１（「ＦＦ」ベース１６）のマスクとの「アンド」演算
が施される。「アンド」命令の結果として、結果レジス
タ４０１における桁上げ情報がゼロに置換され、一方、
合計情報は、影響されないが、累算レジスタ３４９の合
計情報を反映する。

【００２４】図４には、換算プロセスのステップ２が示
されている。この場合、累算レジスタ３４９の内容は、
レジスタ５０１に記憶されるが、７ビット分だけ右にシ
フトされる。従って、レジスタ５０１の最上位の７ビッ
ト（ビット５６〜６３）は、ゼロになり、レジスタ５０
１のビット位置０は、レジスタ３４９のビット位置７に
相当することになる。このステップは、桁上げ情報をオ
フセットさせて、後続のステップで必要とされる合計情
報とのアライメントをとる働きをする。

【００２５】図５は、セクション・ライン５に沿って描
かれた図４の詳細図である。７ビット分だけ右へシフト
される前の、累算レジスタ３４９におけるオペランドの
最下位の２０ビット（ビット１９〜０）が示されてい
る。シフトが済むと、レジスタ５０１に結果が保持され
るが、レジスタ５０１の最下位ビット（ビット１９〜
０）には、累算レジスタ３４９のビット２６〜７に納め
られたデータが保持されることになる。

【００２６】図６には、換算プロセスのステップ３が示
されている。レジスタ５０１の内容には、レジスタ６０
２に記憶されたマスクとの「アンド」演算が施されて、
合計情報が除去される。マスクは、レジスタ５０１から
の情報を保存すべきビット位置に「１」を有しており、
他の全てのビット位置にゼロを有している。レジスタ６
０３は、「アンド」命令の結果、及び、ゼロに置換され
た桁上げ情報を除く全ての情報を保持している。

【００２７】図７には、換算プロセスのステップ４が示
されている。レジスタ６０３の内容は、結果レジスタ４
０１の内容に「加算」され、結果は、それぞれ、長さが
９ビットで、通常の２進フォーマットによる、４つの部
分ポピュレーション・カウント７０３〜７０９である。
これらの部分ポピュレーション・カウント７０３〜７０
９は、長いビット・ストリングの部分ポピュレーション
・カウント時に、必要に応じて記憶され、累算される。
最終的には、部分ポピュレーション・カウントを記憶す
る１６ビットの累算レジスタ・ブロックがオーバフロー
する可能性があり、さらに換算を施すことが必要にな
る。上述の実施例の場合、オーバフローが可能になる前
に発生可能な繰り返し数は、２１５である。この数は、
次の式４のようにして導出される。

【００２８】Ｎ＝２^2m／（最大換算結果）＝２^2m／２ⁿ［２^(m-n)＋ｍ−ｎ−１］ …（４）であり、結果は最も近い整数にまで丸められる。従っ
て、上記例の場合は次の式５のようになる。

【００２９】Ｎ＝２^2*8／３０４＝２１５ …（５）

【００３０】ポイントによっては、部分ポピュレーショ
ン・カウントを単一２進数結果に換算するために、全換
算を実行しなければならない場合もある。この最終慣算
は、当業者には既知のシフティング（ｓｈｉｆｔｉｎ
ｇ）及びマスキングによって実行される。もちろん、各
種換算は、ポピュレーション・カウント・プロセスにお
けるオーバヘッドに相当する。しかし、換算は、必要に
なるまで遅延させられるので、オーバヘッドは、多数の
繰り返しに対して分割償却され、大きいビット・ストリ
ングのポピュレーション・カウントに必要なオーバヘッ
ドが有効に短縮される。ビット・ストリング６４０ビッ
トを超えると、この新規で、斬新な技術は、所定のテク
ノロジ及び設計規則に関して、先行技術よりも高速にな
る。

【００３１】上述の好適な実施例は、完全に換算される
ポピュレーション・カウント及び累算は、一般的には事
実であるが、単一ＣＰＵサイクル内において実行できな
いという仮定に立つものである。各ＣＰＵの設計には、
異なる制限があるので、最も効率の良いポピュレーショ
ン・カウントの実行は、各ＣＰＵの設計毎に異なる可能
性があり、解説の実施例とは異なることになる可能性が
ある。しかし、所定のＣＰＵ設計の場合、最も効率の良
いポピュレーション・カウント及び累算設計によって、
ポピュレーション・カウントの換算が最大になり、単一
ＣＰＵサイクル内において累算機能を実行するのに十分
な時間も認められる。従って、解説の実施例は、４つの
ポピュレーション・カウントの計算を行ったが、累算機
能が実施される前に、４つの出力を二つの出力に換算す
るＣＰＵのサイクル時間及び特定のテクノロジが認めら
れれば、４ビット全加算器３３３〜３３９の出力は、よ
り効率が良くなったであろう。これは、１つ以上の部分
カウントのオーバフローが発生し得るようになる前に、
もっと多くの回数にわたって、ポピュレーション・カウ
ント命令を実行することができるためである。

【００３２】本発明の第２の好適な実施例が、図８に示
されている。この図例の場合、４つのポピュレーション
・カウントが、２つのレジスタに記憶されたオペランド
について計算される。第１のレジスタ８０１に記憶され
たオペランドの部分は、２つの部分８０３及び８０５に
分割される。分割したポピュレーション・カウントが、
ポピュレーション・カウント回路８０７によって両方の
部分（８０３及び８０５）について計算され、結果は、
一般的にはレジスタである記憶場所８０９に記憶され
る。結果は、それぞれ、記憶場所８０９内の独立した場
所８１１及び８１３に記憶される。ポピュレーション・
カウント回路８０７が実行する機能（Ｆｎ）は、オペラ
ンドにおける「１」の数のカウントである。もちろん、
ポピュレーション・カウント回路は、「１」カウントす
る代わりに、「０」をカウントすることも可能である。

【００３３】同様に、第２のレジスタ８１５に記憶され
たオペランドの部分は、２つの部分８１７及び８１９に
分割される。ポピュレーション・カウントが、ポピュレ
ーション・カウント回路８０７によって両方の部分につ
いて計算され、結果は、それぞれ、記憶場所８０９内の
独立した場所８２１及び８２３に記憶される。

【００３４】記憶場所８０９の独立した場所８１１、８
１３、８２１、８２３に記憶された四つのポピュレーシ
ョン・カウントは、新たな繰り返し毎に、４つのポピュ
レーション・カウントを計算して、累算しなければなら
ない。しかし、このポピュレーション・カウントの計算
プロセスには、長さが１２８ビットのオペランドを利用
することによって、大きいストリングに関するポピュレ
ーション・カウントの計算に必要な繰り返し数が、先行
技術によって必要とされた繰り返し数から減少するとい
う利点がある。

【００３５】図９は、図８に関連した解説の本発明のよ
り詳細な例示である。第１のレジスタ８０１に記憶され
たオペランドの６４ビットが、全加算器ツリー９０１に
入力される。この全加算器ツリーは、図２に関連した解
説の１ビット〜４ビット全加算器３０３〜３３９と同じ
である。前述のように、この全加算器によって、この６
４ビットについて、それぞれ、サイズが５ビットの、４
つのポピュレーション・カウントが得られる。５ビット
のポピュレーション・カウントのうちの二つのポピュレ
ーション・カウント９０３及び９０５が、桁上げ節約加
算器９０７に入力され、桁上げ節約加算器９０７の出力
が、記憶場所８０９内の場所８１１に記憶される。加算
器ツリー９０１からの他の２つの５ビット・ポピュレー
ション・カウント９０９及び９１１が、第２の桁上げ節
約加算器９１３に入力され、桁上げ節約加算器９１３の
出力が、記憶場所８０９内の場所８１３に記憶される。

【００３６】同様に、第２のレジスタ８１５からのオペ
ランドの６４ビットは、全加算器ツリー９１５によって
加算され、５ビットのポピュレーション・カウント９１
７、９１９、９２１、及び、９２３が得られる。４つの
ポピュレーション・カウントが、２つの桁上げ節約加算
器９２５及び９２７に入力され、桁上げ節約加算器から
の出力が、それぞれ、記憶場所８０９内の場所８２１及
び８２３に記憶される。このプロセスの最終結果が、桁
上げ節約フォーマットで記憶場所８０９に記憶される４
つのポピュレーション・カウントである。

【００３７】４つの桁上げ節約加算器９０７、９１３、
９２５及び９２７は、４つの全加算器を用いた場合に必
要になる時間を節約するために用いられる。また、４つ
の５ビット・ポピュレーション・カウントを生じる全加
算器ツリーが示されているが、特定のＣＰＵ設計の制限
によって、このプロセスの修正が命じられる場合もあ
る。例えば、追加時間が許されるなら、全加算器ツリー
に追加全加算器ステージを追加して、全加算器ツリーか
ら二つのポピュレーション・カウントが得られるように
することも可能である。この場合、２つの桁上げ節約加
算器だけしか必要とされない。逆に、４レベル全加算器
ツリーにとって十分な時間があれば、各４レベル全加算
器ツリーが８つのポピュレーション・カウントを生じる
３レベル全加算器ツリーが実施される。この場合、８つ
の桁上げ節約加算器が、必要になり、記憶場所８０９
は、桁上げ節約フォーマットで八つのポピュレーション
・カウントを保持することになる。

【００３８】先行技術では、ポピュレーション・カウン
トを原子命令として取り扱った、すなわち、命令の出力
は、各隣接ビットが隣のビットに対して２ⁿだけ大きい
かまたは小さい値を表すように位置重み付けを施した典
型的な２進数であったが、本発明では、命令を部分に分
割する。本発明によれば、ポピュレーション・カウント
命令の出力は、結果におけるビットが、必ずしも隣接ビ
ットに対して２ⁿだけ大きいかまたは小さい値を表すと
は限らない、複数のポピュレーション・カウントであ
る。この独特な新規の技術によって、大きいビット・ス
トリングのポピュレーション・カウントを、先行技術を
用いた場合に可能な速度よりも速く計算することが可能
になる。

【００３９】当業者であれば、本書に開示の本発明に関
する本明細または実施を検討することによって本発明の
他の実施例についても明らかになるであろう。明細書及
び例は、単なる例示とみなされることを意図したもので
あり、本発明の範囲は、特許請求の範囲によって規定さ
れる。

【００４０】以上本発明の各実施例について詳述した
が、以下、本発明の各実施例について要約する。（１）．ポピュレーション・カウントが決定されるべ
きビット・ストリングを記憶するオペランド記憶レジス
タと、それぞれ出力を備え、それぞれが前記オペランド
記憶レジスタからの特有ビット・グループを加算する複
数の全加算器と、それぞれ出力を備え、それぞれが合計
レジスタからの特有のビット・グループを前記複数の全
加算器出力のうち特有の出力に加算する複数の桁上げ節
約加算器とを有し、結果レジスタが、ポピュレーション
・カウント、オペランド記憶レジスタからのビットの部
分集合、及び合計レジスタからのビット・グループの合
計を桁上げ節約フォーマットで納めるために、各桁上げ
節約加算器出力が、それぞれ前記結果レジスタに特有の
ビット数で記憶されることを特徴とするポピュレーショ
ン・カウントの計算装置である。

【００４１】（２）．前記複数の全加算器は、第１レ
ベルの全加算器がオペランド・レジスタと第２レベルの
全加算器からのビットを加算し、第２レベルにおける各
前記全加算器がそれぞれ前記第１レベルの全加算器から
の各出力が第２レベルの全加算器における前記加算器の
うちの１つのみによって加算されるように第１レベルの
全加算器のうちの２つからの前記出力を加算する前項
（１）に記載のポピュレーション・カウントの計算装置
である。

【００４２】（３）．前記第１レベルの全加算器の数
が、オペランド・レジスタのビット数の半分であり、前
記第２レベルの全加算器における全加算器の数が、オペ
ランド・レジスタの数の１／４である前項（２）に記載
のポピュレーション・カウントの計算装置である。

【００４３】（４）．各桁上げ節約加算器が、すべて
他の桁上げ節約加算器と同数のビットを加算する前項
（１）に記載のポピュレーション・カウントの計算装置
である。

【００４４】（５）．単一のレジスタは、合計レジス
タ及び結果レジスタである前項（１）に記載のポピュレ
ーション・カウントの計算装置である。

【００４５】（６）．第１記憶場所に記憶された第１
ストリング・ビットのポピュレーション・カウントを計
算し、第２記憶場所に記憶された第２ストリング・ビッ
トとともに計算されたポピュレーション・カウントを累
算するための装置であって、ビット「１」又は「０」の
ような数を表す第１結果が発生されるように第１記憶場
所に記憶された第１ストリング・ビットからのビットと
ともに加算する加算器と、第１結果及び桁上げ節約フォ
ーマットで第１結果と第２ストリング・ビットの合計を
表す第２結果が発生されるように第２記憶場所に記憶さ
れた第２ストリング・ビットとともに加算する桁上げ節
約加算器と、第２結果が記憶される第２結果記憶場所と
を有する装置である。

【００４６】（７）．単一の記憶場所は、第２記憶場
所及び第２結果記憶場所である前項（６）に記載の装置
である。

【００４７】（８）．第１ストリング・ビットのポピ
ュレーション・カウントを計算し、第２ストリング・ビ
ットとともに計算されたポピュレーション・カウントを
累算するための装置であって、ポピュレーション・カウ
ントが発生されるべきストリング・ビットを記憶するオ
ペランド記憶レジスタと、前記第１ストリング・ビット
からの各ビットが全加算器の前記第１レベルで１つの加
算器のみにより加算され、各加算器が出力を発生するよ
うに第１ストリング・ビットからの２つのビットととも
に加算する第１レベルの全加算器と、前記第１レベルの
全加算器の各出力が前記第２レベルの全加算器で１つの
加算器のみにより加算され、前記第２レベルの加算器の
での各加算器が出力を発生するように前記第１レベルの
全加算器の２つの出力を加算する第２レベルの全加算器
と、前記第２レベルの全加算器の各出力が前記第３レベ
ルの全加算器で１つの加算器のみにより加算され、前記
第３レベルの加算器での各加算器が出力を発生するよう
に前記第２レベルの全加算器の２つの出力を加算する第
３レベルの全加算器と、前記第３レベルの全加算器の各
出力が前記第４レベルの全加算器で１つの加算器のみに
より加算され、前記第４レベルの加算器での各加算器が
出力を発生するように前記第３レベルの全加算器の２つ
の出力を加算する第４レベルの全加算器と、第４レベル
の全加算器の各出力が１つの桁上げ節約加算器のみによ
って加算されるように、第４レベルの全加算器の出力を
第２ストリング・ビットでのビットの１／４に加算し、
前記第２ストリング・ビットにおけるビットの各１／４
が１つの桁上げ節約加算器のみによって加算され、各桁
上げ節約加算器が桁上げ節約フォーマットで合計を発生
するあるレベルの桁上げ節約加算器とを有し、各合計が
桁上げ節約フォーマットで記憶場所に記憶される装置で
ある。

【００４８】（９）．前記第２ストリング・ビットが
前記合計と同じ場所に記憶される前項（８）に記載の装
置である。

【００４９】（１０) ．第１ストリング・ビットを記
憶する第１記憶場所と、第２ストリング・ビットを記憶
する第２記憶場所と、ビット「１」又は「０」のような
数を表す第１結果が発生されるように第１ストリング・
ビットからのビットとともに加算する第１全加算器と、
ビット「１」又は「０」のような数を表す第２結果が発
生されかつ前記第１加算器が「１」と「０」を加算する
場合及び前記第１加算器が「０」を加算する場合には前
記第１加算器と同じ形式のビット「１」を加算するよう
に前記第２ストリング・ビットからのビットをともに加
算する第２加算器と、それによって前記第１及び第２ス
トリング・ビットに対するポピュレーション・カウント
を表す複数の結果を収納するために、第１結果と第２結
果を記憶する第３記憶場所と、を有するポピュレーショ
ン・カウントの計算装置である。

【００５０】

【発明の効果】以上のように、本発明によれば、オペラ
ンド記憶レジスタからのポピュレーション・カウンタを
求めるビット・ストリングから特有のビット・グループ
の加算を複数の全加算器で実行し、桁上げ情報と全加算
器の合計情報とを合計レジスタに記憶し、合計レジスタ
からの特有のビット・グループと全加算器の特有の出力
とを桁上げ節約加算器で加算し、ポピュレーション・カ
ウント、オペランド記憶レジスタからの部分集合、合計
レジスタからのビット・グループとの合計が合計レジス
タにおいて桁上げ節約フォーマットで納めるようにした
ので、計算処理時間を短縮することができるとともに、
設計の融通性を大きくすることができる。

【図面の簡単な説明】

【図１】本発明によるポピュレーション・カウント命令
のブロック図である。

【図２】本発明の好適な実施例を示す図である。

【図３】桁上げ節約フォーマットから２進フォーマット
に部分ポピュレーション・カウントを換算するステップ
１を示す図である。

【図４】換算方法のステップ２を示す図である。

【図５】セクション・ライン５に沿って描かれた図４の
詳細図である。

【図６】換算方法のステップ３を示す図である。

【図７】換算方法のステップ４を示す図である。

【図８】本発明の第２の好適な実施例を示す図である。

【図９】図８に示す実施例の詳細なブロック図である。

【図10】６４ビットのポピュレーション・カウントを計
算する先行技術の方法を示す図である。

【符号の説明】

２０１、３０１ＣＰＵレジスタ２０３ポピュレーション・カウント及び累算論理ブロ
ック２０５、３４９累算レジスタ３０３、３０５、３０７１ビット全加算器３０９、３１１、３１３、３１５２ビット加算器３１７、３１９、３２１、３２３、３２５、３２７、３
２９、３３１３ビット加算器３３３、３３５、３３７、３３９４ビット全加算器３４１、３４３、３４５、３４７、９２５、９２７桁
上げ節約加算器５０１、６０２、６０３、８０１レジスタ８０７ポピュレーション・カウント回路８０９記憶場所８１５レジスタ９０１全加算器ツリー９０７、９１３桁上げ節約加算器９１５全加算器ツリー

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 7/50

Claims

(57)【特許請求の範囲】

【請求項１】ビット・ストリングを記憶するオペランド
記憶レジスタと、それぞれが出力を有する複数の全加算器であって、それ
ぞれが、前記オペランド記憶レジスタに記憶されたビッ
ト・ストリングの異なるビットグループのビットを加算
して、該異なるビットグループのポピュレーション・カ
ウントを算出する複数の全加算器と、それぞれが出力を有する複数の桁上げ節約加算器であっ
て、それぞれが、累算レジスタに記憶されたポピュレー
ション・カウントと、前記複数の全加算器のうちの１つ
から出力されたポピュレーション・カウントとを加算す
る、複数の桁上げ節約加算器と、前記複数の桁上げ節約加算器の出力のそれぞれを、所定
のビット数で記憶する結果レジスタと、を備え、前記オペランド記憶レジスタから前記複数の全加算器に
入力された各ビット・グループのポピュレーション・カ
ウントと、前記累算レジスタから前記複数の桁上げ節約
加算器のそれぞれに入力されたポピュレーション・カウ
ントとの合計が、桁上げ節約フォーマットで前記結果レ
ジスタに記憶されるようにする、ポピュレーション・カウントを計算する装置。
【請求項２】前記複数の全加算器は階層順に編成されて
おり、第１のレベルの全加算器は、前記オペランド記憶レジス
タからのビットを加算し、第２のレベルの全加算器は前記第１のレベルの全加算器
に接続され、該第２のレベルの全加算器のそれぞれは、
前記第１のレベルの全加算器のうちの２つの全加算器か
らの出力を加算し、前記第１のレベルの全加算器からのそれぞれの出力が、
前記第２のレベルの全加算器のうちの１つの加算器によ
ってのみ加算されるようにする、請求項１に記載のポピ
ュレーション・カウントの計算装置。
【請求項３】前記第１のレベルの全加算器の数が、前記
オペランド記憶レジスタのビット数の半分であり、前記
第２のレベルの全加算器の数が、前記オペランド記憶レ
ジスタのビット数の４分の１である、請求項２に記載の
装置。
【請求項４】それぞれの桁上げ節約加算器が、他の桁上
げ節約加算器と同じビット数を加算する請求項１に記載
の装置。
【請求項５】１つのレジスタが、前記累算レジスタおよ
び前記結果レジスタの両方を兼ねる請求項１に記載の装
置。
【請求項６】第１の記憶場所に記憶された第１のビット
・ストリングのポピュレーション・カウントを計算し、
該計算されたポピュレーション・カウントと、第２の記
憶場所に記憶された第２のビット・ストリングとを累算
する装置であって、前記第１の記憶場所に記憶された第１のビット・ストリ
ングからのビットを加算して、「１」または「０」のよ
うなビットの数を表す第１の結果を生成する加算器と、前記第１の結果と、前記第２の記憶場所に記憶された第
２のビット・ストリングを加算して、前記第１の結果お
よび第２のビット・ストリングの合計を桁上げ節約フォ
ーマットで表す第２の結果を生成する桁上げ節約加算器
と、前記第２の結果を記憶する第２の結果記憶場所と、前記第２の記憶場所および第２の結果記憶場所の両方を
兼ねた１つの記憶場所と、を備えるポピュレーション・カウントの計算装置。
【請求項７】第１のビット・ストリングのポピュレーシ
ョン・カウントを計算し、該計算されたポピュレーショ
ン・カウントと第２のビット・ストリングを累算する装
置であって、ポピュレーション・カウントが生成されるべきビット・
ストリングを記憶するオペランド記憶レジスタと、それぞれが、前記第１のビット・ストリングからの２つ
のビットを加算して出力を生成する第１のレベルの全加
算器であって、該第１のビット・ストリングからのそれ
ぞれのビットが、第１のレベルの全加算器のうちの１つ
の加算器によってのみ加算されるようにする第１のレベ
ルの全加算器と、それぞれが、前記第１のレベルの全加算器からの２つの
出力を加算して出力を生成する第２のレベルの全加算器
であって、該第１のレベルの全加算器からのそれぞれの
出力が、第２のレベルの全加算器のうちの１つの加算器
によってのみ加算されるようにする第２のレベルの全加
算器と、それぞれが、前記第２のレベルの全加算器からの２つの
出力を加算して出力を生成する第３のレベルの全加算器
であって、該第２のレベルの全加算器からのそれぞれの
出力が、第３のレベルの全加算器のうちの１つの加算器
によってのみ加算されるようにする第３のレベルの全加
算器と、それぞれが、前記第３のレベルの全加算器からの２つの
出力を加算して出力を生成する第４のレベルの全加算器
であって、該第３のレベルの全加算器からのそれぞれの
出力が、第４のレベルの全加算器のうちの１つの加算器
によってのみ加算されるようにする第４のレベルの全加
算器と、それぞれが、前記第４のレベルの全加算器からの出力を
加算するあるレベルの桁上げ節約加算器と、を備え、前記第４のレベルの全加算器からのそれぞれの出力は、
１つの前記桁上げ節約加算器によって、前記第２のビッ
ト・ストリングの４分の１のビットに加算され、該第２
のビット・ストリングのそれぞれの４分の１のビット
が、１つの前記桁上げ節約加算器によって加算されるよ
うにし、それぞれの桁上げ節約加算器は、桁上げ節約フォーマッ
トで合計を生成し、前記合計のそれぞれが、前記桁上げ節約フォーマットで
記憶場所に記憶されるポピュレーション・カウントの計
算装置。
【請求項８】前記第２のビット・ストリングが、前記合
計と同じ場所に記憶される請求項７に記載のポピュレー
ション・カウントの計算装置。