JP2022050519A

JP2022050519A - プロセッサ、システム及び方法

Info

Publication number: JP2022050519A
Application number: JP2022000310A
Authority: JP
Inventors: ジュリア，マイケル，エー．; A Julier Michael; グレイ，ジェフリー，ディー．; Jeffrey D Gray; チェヌパティー，スリニヴァス; Chennupaty Srinivas; マーケス，ショーン，ピー．; Sean P Mirkes; セコニ，マーク，ピー．; P Seconi Mark
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2006-09-22
Filing date: 2022-01-04
Publication date: 2022-03-30
Also published as: US9448802B2; US8819394B2; CN104657113A; WO2008036945A1; US20080077773A1; US9772847B2; US20130212361A1; US20220107809A1; DE102007063894B3; US9804848B2; JP2022105560A; US10261795B2; US20190324752A1; US20110246751A1; US20150106593A1; US9069547B2; CN105607890A; US10929131B2; JP7052171B2; US9772846B2

Abstract

【課題】プロセッサ、システム及び方法を提供する。【解決手段】プロセッサは、デコーダと複数のＳＩＭＤレジスタとに結合した実行ユニットであって、ＳＩＭＤ比較命令を実行して、第２ソースオペランドの第１データ要素を、第１レジスタの対応ビットが１である第１ソースオペランドの第１の複数のデータ要素と比較し、結果をデスティネーションレジスタに格納する。結果の一部は、第１データ要素の、第１レジスタの対応ビットが１である第１ソースオペランドの第１の複数のデータ要素との比較の結果である。結果は、第１レジスタの対応ビットが０である第１ソースオペランドのデータ要素の比較の結果は格納しない。【選択図】図４

Description

本願開示は、論理的及び数学的演算を行う、処理装置並びに関連するソフトウェア及び
ソフトウェア列の分野に関する。

計算機システムは、我々の社会でますます普及している。計算機の処理能力により、広
範な職業で働く人々の効率と生産性が向上している。計算機を買って所有する費用は落ち
続けている。従って、より多くの消費者が、より新しく、より速い計算機を活用できるよ
うになっている。更に、多くの人は、ノート型の計算機を、その自由度ゆえに、楽しんで
利用している。可搬型計算機により、利用者は、職場を離れても旅行中でも、簡単にデー
タを持ち運ぶことができ、仕事もできる。このような場面は、営業職や管理職にとって、
また学生にとってすらも、ありふれた光景である。

処理装置の技術が進むにつれ、より新しいソフトウェアも開発が進んでいる。このソフ
トウェアは、進んだ処理装置を持つ計算機で走る。利用者は概して、自分の計算機に、よ
り高い性能を期待し要求する。このことは、使うソフトウェアの種類には無関係である。
このような性能に関する問題が起こりうるのは、処理装置の内部で実際に実行される命令
及び演算の種類からである。ある種類の演算は、完了するのに、他の演算よりも時間がか
かる。その理由は、演算が複雑であるせいか、演算に必要な回路の型のせいか、その両方
のせいである。このことが、ある種の複雑な演算を処理装置の内部で実行する方法を、最
適化する動機である。

通信の応用が、１０年以上に渡って、超小型処理装置の進歩を駆り立ててきた。実際、
計算と通信の間の境界線は、ますますぼやけてきている。この理由は、部分的には、通信
の応用で文字列を使うからである。文字列の応用は、一般消費者向け市場で広まっている
。また、文字列の応用は、多数の装置で広まっている。装置とは例えば携帯電話から個人
用計算機までである。このような装置は、文字列情報を、一層より高速に処理することを
求めている。文字列を通信する装置は、計算し通信する装置に進化し続けている。計算し
通信する装置は、次のような形の応用を行う。即ち、マイクロソフト（登録商標）インス
タントメッセンジャー（商標）、電子メールの応用（例えばマイクロソフト（登録商標）
アウトルック（商標））、及び携帯電話メールの応用である。その結果、将来における、
個人の計算及び通信の体験は、文字列を扱う能力について、更により豊かになると期待さ
れる。

従って、計算又は通信する装置同士の間で交換される文字列情報を、処理すること又は
構文解析することは、現在の計算装置及び通信装置にとって、一段と重要性を増している
。とりわけ、通信又は計算する装置が文字情報の列を解釈することは、文字列データに対
して行う最も重要な演算のうちの、いくつかを含む。このような演算では、計算量が嵩む
にしても、データの並列度は高い水準であってもよい。この並列度を利用して、様々なデ
ータ格納装置を使う効率的な実装を行える。格納装置とは、例えば、単一命令複数データ
（ＳＩＭＤ）型のレジスタである。数多くの現在の計算機アーキテクチャはまた、次のこ
とを要求する。即ち、複数の演算、複数の命令、又は複数の下位命令（よく「マイクロ命
令」又は「μｏｐ」という。）を使って、様々な論理的及び数学的演算を、多数の演算対
象に対して行う。このことにより、処理速度を上げ、その論理的及び数学的演算を行うの
に必要なクロック周期の数を減らす。

例えば、多数の命令から成る命令列が、次のことを行うために必要であってもよい。即
ち、文字列の中の特定の語を解釈するのに必要な１つ以上の演算である。この演算は、処
理装置、システム、又は計算機プログラムの内部の様々なデータ型が表現する、２つ以上
の文字列語を比べることを含む。しかし、このような従来の技術では、多数の処理周期が
必要になることがあり、処理装置又はシステムは、結果を得るために、不要な電力を消費
してしまうことがある。更に、いくつかの従来技術では、演算の対象としてもよいデータ
型として、限られたものしか使えないことがある。

本発明の一態様によると、命令を記憶した機械読み取り可能媒体が提供される。前記命
令は、機械により実行されると、前記機械に第１のパック化オペランドの各データ要素を
、第２のパック化オペランドの各データ要素と比較する段階と、前記比較の第１の結果を
記憶する段階を含む方法を実行させる。

計算機システムの区画図である。計算機システムは、処理装置を含む。処理装置は、実行部を含む。実行部は、命令を実行する。命令は、文字列比較演算を行う。この命令は、本願発明の１つの実施例による。本願発明の別の実施例による、別の例の計算機システムの区画図である。本願発明の更に別の実施例による、更に別の例の計算機システムの区画図である。１つの実施例による処理装置のマイクロアーキテクチャの区画図である。この実施例は、論理回路を含む。この論理回路は、本願発明による文字列比較演算を１つ以上行う。本願発明の１つの実施例による、マルチメディアレジスタにおける種々のパック化データ型の表現を示す。別の実施例による、パック化データ型を示す。本願発明の１つの実施例による、マルチメディアレジスタにおける種々の符号付き及び符号無しのパック化データ型の表現を示す。演算の符号化（即ち命令符号）の形式の１つの実施例を示す。演算の符号化（即ち命令符号）の別な形式を示す。演算の符号化の更に別な形式を示す。論理回路の区画図である。この論理回路は、本願発明の１つの実施例により、少なくとも１つの文字列比較演算を、１つ以上の単精度パック化データ演算対象に対して行う。配列の区画図である。この配列を使って、１つの実施例による少なくとも１つの文字列比較演算を行ってもよい。本発明の１つの実施例で行ってもよい演算を示す。

本願発明を実施例を使って説明する。本願発明は、実施例及び添付の図面によっては、
限定されない。

以下の記載が記述するのは、技法の実施例である。この技法は、処理装置、計算機シス
テム、又はソフトウェアプログラムの内部で、文字列の要素同士の間を比べる演算を行う
。以下の記載では、多数の個別の詳細を記述する。詳細とは例えば処理装置の型、マイク
ロアーキテクチャの事情、事象、実施可能な機構、等である。詳細を記載する目的は、本
願発明のより深い理解を与えるためである。しかし、当業者は次の点に注意。即ち、本発
明を、そのような個別の詳細を抜きに実施してもよい。加えて、いくつかの周知の構造、
回路などは、詳細を示していない。これは、本願発明を不要に複雑に示すのを避けるため
である。

以下の実施例を、処理装置を参照して記述する。しかし、他の実施例を、他の型の集積
回路や論理部品に応用できる。本願発明と同じ技術及び教示を、他の型の回路又は半導体
部品に容易に応用できる。他の型の回路又は半導体部品も、より高いパイプライン効率及
び改善した性能から、利益を受けることができる。本願発明の教示は、データの演算を行
う、いかなる処理装置又は機械にも、応用できる。なお、本願発明は、２５６ビット、１
２８ビット、６４ビット、３２ビット、又は１６ビットのデータの演算を行う処理装置又
は機械に限定されない。本願発明を、パック化データを演算する必要がある、いかなる処
理装置及び機械にも、応用できる。

以下の記載では、説明のために、多数の個別の詳細を記述する。詳細を記載する目的は
、本願発明の徹底的な理解を与えるためである。しかし、当業者は次の点を理解すること
になる。即ち、これらの個別の詳細は、本願発明を実施するために必要ではない。場合に
より、周知の電気的な構造及び回路については、特に詳しくは記載していない。これは、
本願発明を不要に複雑に示すのを避けるためである。加えて、以下の記載は、例を示す。
添付の図面は、様々な例を示す。これらの例を示すのは、説明のためである。しかし、こ
れらの例を、本願発明を限定する意味で解釈してはならない。これらの例は、本願発明の
例を示すことを、意図しているだけである。これらの例は、本願発明の全ての可能な実装
を網羅する一覧を示すことを、意図していない。

以下の例では、命令の取り扱い及び分散を、実行部及び論理回路の文脈で記述する。し
かし、本願発明の他の実施例を、ソフトウェアによっても実現できる。１つの実施例では
、本願発明の方法を、機械が実行可能な命令に実施する。この命令を使って、次のことを
行える。即ち、汎用処理装置又は専用処理装置をこの命令によってプログラムし、本願発
明の工程を実行させる。本願発明を、計算機プログラム又はソフトウェアとして提供して
もよい。この計算機プログラム又はソフトウェアは、機械可読媒体又は計算機可読媒体を
含んでもよい。機械可読媒体又は計算機可読媒体は、命令を内部に格納して持つ。この命
令を使って、計算機（又は他の電子装置）をプログラムしてもよい。このプログラムによ
り、本願発明による処理を行う。代わりに、本願発明の工程を、特定のハードウェア部品
によって実行してもよい。特定のハードウェア部品は、本願発明の工程を実行するための
、配線を固定した論理回路を含む。又は、本願発明の工程を、プログラムされた計算機部
品と専用ハードウェア部品との、いかなる組み合わせによっても実行してもよい。このよ
うなソフトウェアを、システムの記憶装置の内部に格納できる。同様に、命令を分散でき
る。この分散を、網により行う。又は、この分散を、他の計算機可読媒体を使って行う。

従って、機械可読媒体は、機械（例えば計算機）が読める形式で情報を格納又は伝達す
るための、いかなる機構を含んでもよい。機械可読媒体は、次のものを含むが、これらに
限定されない：フロッピー（登録商標）ディスケット；光学ディスク；コンパクトディス
ク；ＣＤ－ＲＯＭ；光磁気ディスク；ＲＯＭ；ＲＡＭ；ＥＰＲＯＭ；ＥＥＰＲＯＭ；磁気
カード若しくは光学カード；フラッシュ記憶装置；インターネット上の伝送；電気的、光
学的、音響的、若しくは他の形態の伝搬する信号（例えば搬送波、赤外線信号、デジタル
信号、等）；又は、同様のもの。従って、計算機可読媒体は、機械（例えば計算機）が読
める形式で、電子的な命令又は情報を、格納又は伝達するのに適した、いかなる型の媒体
及び機械可読媒体をも含む。更に、本願発明を、計算機プログラムとしてダウンロードし
てもよい。即ち、プログラムを、遠隔の計算機（例えばサーバー）から転送して、要求す
る計算機（例えばクライアント）に取り込んでもよい。プログラムの転送を、次の信号に
よって行ってもよい。即ち、電気的、光学的、音響的、又は他の形態のデータ信号。これ
らの信号を、搬送波又は他の伝搬媒体に実施する。これらの信号は、通信接続（例えばモ
デム接続、網接続等）を経由する。

設計は、様々な段階を踏んでもよい。即ち、設計は、創案からシミュレーションを経て
製造に至る。設計を表現するデータは、その設計を多数の方法で表現してもよい。まず、
シミュレーションで便利なのは、次の方法である。即ち、ハードウェアを、ハードウェア
記述言語又は別の機能記述言語を使って表現してもよい。加えて、論理の及び／又はトラ
ンジスターのゲート水準の回路モデルを、設計の過程の何らかの段階で作ってもよい。更
に、ほとんどの設計者は、何らかの段階で、ハードウェアモデルにおける、種々の素子の
物理的な配置を表現する水準のデータに辿り着く。従来の半導体の製造技術を使う場合に
は、このハードウェアモデルを表現するデータは、半導体マスクの様々な層に種々の特徴
が有るか無いかを指定するデータであってもよい。このマスクを使って集積回路を作る。
設計におけるいかなる表現でも、そのデータをいかなる形態の機械可読媒体に格納しても
よい。機械可読媒体とは、次のものでもよい。即ち、そのような情報を伝送するために、
変調した若しくは他の方法で生成した、光学的若しくは電気的な波、記憶装置、又は磁気
若しくは光学的な格納器（例えば円盤）。これらの媒体のいかなるものも、設計又はソフ
トウェア情報を「担う」又は「示す」のでもよい。符号又は設計を示す又は担う電気的な
搬送波を伝送する場合に、その電気信号の複写、蓄積、又は再送を行うと、新しい複写が
できる。従って、通信設備者又は網提供者は、本願発明の技術を実施する物（即ち搬送波
）の複写を作ってもよい。

近年の処理装置では、多数の異なる実行部を使って、様々な命令を処理し実行する。全
ての命令が平等に作られている訳では無い。即ち、ある命令は他の命令よりも早く完了す
る。別の命令は、完了するのに莫大なクロックサイクルを費やすことがある。命令の実行
速度が速ければ速いほど、処理装置の全体的な性能はより良いことになる。従って、有利
なのは、なるべく多くの命令を、なるべく速く実行することである。しかし、いくつかの
命令は、他の命令よりも遥かに複雑である。従って、実行時間と処理装置の資源を、他の
命令よりも多く必要とする。そのような命令の例としては、浮動小数点命令、記憶装置か
らの読み込み／記憶装置への書き出し操作、データの移動命令等がある。

ますます多くの計算機システムを、インターネット、文章作成、及びマルチメディアの
アプリケーションで使うようになったので、時が経つにつれ、処理装置に、それらを支援
する機能が追加されてきた。例えば、単一命令複数データ（ＳＩＭＤ）型の整数及び浮動
小数点命令、並びに、ストリーミングＳＩＭＤ拡張（ＳＳＥ）のような命令は、特定のプ
ログラムの仕事を実行するのに必要な命令の総数を減らす。このことにより、消費電力を
減らすこともできる。このような命令がソフトウェアの性能を高速化できるのは、複数の
データ要素に並列に演算を行うことによる。その結果、広範な応用で性能を上げられる。
応用は、映像の処理、発話の処理、及び画像や写真の処理を含む。ＳＩＭＤ命令の実装は
、超小型処理装置や類似の論理回路で行われている。このような実装は、通常、多数の問
題を孕んでいる。更に、ＳＩＭＤ演算は複雑なので、大抵は追加の回路が必要になる。追
加の回路により、データを正しく処理して演算する。

現在、少なくとも２つのパック化演算対象のデータ要素の各々を比べるＳＩＭＤ命令は
存在しない。本発明の１つの実施例で行うようなＳＩＭＤパック化比較命令が無いと、応
用プログラムで同じ結果を得るために、多数の命令及びデータレジスタが必要になること
がある。応用プログラムは、例えば文字列についての、解釈、圧縮及び復元、処理、並び
に演算を行う。本願で開示する実施例では、「文字列」の比較と「列」の比較を、相互に
交換可能なように参照する。しかし、本発明の実施例を、情報のいかなる列（例えば、文
字の列、数値の列、又は他のデータの列）にも適用してよい。

従って、本願発明の実施例による、少なくとも１つの文字列比較命令は、プログラムの
オーバーヘッド及び必要な資源を減らせる。本願発明の実施例は、文字列を構文解析する
演算を、ＳＩＭＤ関連のハードウェアを利用する算法として実装する方法を提供する。現
在、ＳＩＭＤレジスタにあるデータについて、文字列を構文解析する演算を行うことは、
やや困難で手間がかかる。算法によっては、算術演算を実行する肝心の命令の数よりも、
算術演算のためにデータを配置する命令に、より多くの数を必要とするほどである。本願
発明の実施例による文字列比較演算の実施例を実装することにより、文字列を処理するた
めに必要な命令の数を大幅に減らせる。

本願発明の実施例は、文字列を比べる１つ以上の演算を実装するための命令を含む。文
字列を比べる演算は、一般に、データの２つの列からのデータ要素を比較することに関す
る。この比較により、どのデータ要素が合致するかを判断する。別の変形例を、汎用の文
字列比較算法について作ってもよい。この算法も後で開示する。一般化した意味では、文
字列比較演算の１つの実施例を、２つのパック化演算対象中にある個々のデータ要素に適
用する。２つのパック化演算対象は、データの２つの列を示す。この文字列比較演算の実
施例を、次のように汎用的に示せる：
ＤＥＳＴ１＜－ＳＲＣ１ｃｍｐＳＲＣ２；
１つのパック化したＳＩＭＤデータ演算対象について、この汎用演算を、各演算対象の各
データ要素の位置に適用できる。

上記の動作において、「ＤＥＳＴ」と「ＳＲＣ」は、対応するデータや動作の送信先と
送信元を表す一般的な用語である。実施形態では、レジスタ、またはメモリ、または図示
したものとは異なる名称や機能を有するその他の記憶領域により実施できる。例えば、一
実施形態では、ＤＥＳＴ１は一時的記憶レジスタやその他の記憶領域であり、ＳＲＣ１と
ＳＲＣ２は送信先の第１と第２の記憶レジスタまたはその他の記憶領域である。他の実施
形態では、ＳＲＣ及びＤＥＳＴ記憶領域は同一記憶領域内（例えば、ＳＩＭＤレジスタ）
の異なるデータ記憶要素に対応する。

さらに、一実施形態では、ストリング比較動作により、あるソースレジスタの各要素が
他のソースレジスタの各要素と等しいかどうかのインジケータを生成し、そのインジケー
タをＤＥＳＴ１等のレジスタに記憶する。一実施形態では、インジケータはインデックス
値である。他の実施形態では、インジケータはマスク値である。他の実施形態では、イン
ジケータはその他のデータ構造やポインタを表す。

図１Ａはコンピュータシステムの一例を示すブロック図である。このコンピュータシス
テムはプロセッサを有する。このプロセッサは、本発明の一実施形態によるストリング比
較動作の命令を実行する実行ユニットを含む。システム１００は、ここに説明する実施形
態のような、本発明により、データを処理するアルゴリズムを実行する論理回路を含む実
行ユニットを利用する、プロセッサ１０２等のコンポーネントを含む。システム１００は
、カリフォルニア州サンタクララ市のインテルコーポレイションから入手可能なＰＥＮＴ
ＩＵＭ（登録商標）ＩＩＩ、ＰＥＮＴＩＵＭ（登録商標）４、Ｘｅｏｎ（商標）、Ｉｔａ
ｎｉｕｍ（登録商標）、ＸＳｃａｌｅ（登録商標）、ＳｔｒｏｎｇＡＲＭ（登録商標）に
基づくプロセッシングシステムを表す。しかし、（他のマイクロプロセッサを有するＰＣ
、エンジニアリングワークステーション、セットトップボックス等を含む）他のシステム
を使うことも可能である。一実施形態では、サンプルシステム１００は、ワシントン州レ
ドモンド市のマイクロソフトコーポレーションのウィンドウズ（登録商標）オペレーティ
ングシステムの一バージョンを実行するが、他のオペレーティングシステム（ユニックス
、リナックス（登録商標）等）、組み込みソフトウェア、及び／またはグラフィカルユー
ザインターフェイス等を用いても良い。このように、本発明の実施形態は、ハードウェア
回路とソフトウェアの特定の組み合わせには限定されない。

実施形態はコンピュータシステムには限定されない。本発明の別の実施形態は、その他
のデバイス、例えばハンドヘルドデバイスや組み込みアプリケーション等で利用すること
もできる。ハンドヘルドデバイスの例としては、セルラ電話、インターネットプロトコル
デバイス、デジタルカメラ、パーソナルデジタルアシスタント（ＰＤＡ）、ハンドヘルド
ＰＣなどがある。組み込みアプリケーションには、マイクロコントローラ、デジタルシグ
ナルプロセッサ（ＤＳＰ）、システムオンチップ、ネットワークコンピュータ（ＮｅｔＰ
Ｃ）、セットトップボックス、ネットワークハブ、ワイドエリアネットワーク（ＷＡＮ）
スイッチ、その他のオペランドにストリング比較演算を実行するシステムがある。さらに
、複数のデータ（several data）に対して同時に命令を実行してマルチメディアアプリ
ケーションの効率を向上させるアーキテクチャを組み込んだ。データのタイプとボリュー
ムが大きくなるにつれ、コンピュータやそのプロセッサはより効率的な方法でデータを操
作するように高機能化（enhanced）されねばならない。

図１Ａは、コンピュータシステム１００のブロック図であり、プロセッサ１０２を有す
る。プロセッサ１０２は、１つまたは複数のオペランド（operands）のデータ要素を比較
するアルゴリズムを実行する１つまたは複数の実行ユニット１０８を含む。一実施形態を
シングルプロセッサデスクトップまたはサーバシステムについて説明するが、別の実施形
態をマルチプロセッサシステムで利用することができる。システム１００はハブアーキテ
クチャの一例である。コンピュータシステム１００は、データ信号を処理するプロセッサ
１０２を含む。プロセッサ１０２は、ＣＩＳＣ（complex instruction set computer
）マイクロプロセッサ、ＲＩＳＣ（reduced instruction set computing）マイクロプ
ロセッサ、ＶＬＩＷ（very long instruction word）マイクロプロセッサ、複数の命
令セットの組み合わせを実装したプロセッサ、その他のデジタルシグナルプロセッサ等の
任意のプロセッサである。プロセッサ１０２は、プロセッサバス１１０と結合し、プロセ
ッサバス１１０により、プロセッサ１０２とシステム１００の他のコンポーネントとの間
でデータ信号を送信できる。システム１００の要素は、本技術分野の当業者に周知である
従来の機能を実行する。

一実施形態では、プロセッサ１０２はレベル１（L１）内部キャッシュメモリ１０４を
含む。アーキテクチャによって、プロセッサ１０２は単一内部キャッシュを有しても、複
数内部キャッシュレベルを有していてもよい。あるいは、他の実施形態では、キャッシュ
メモリはプロセッサ１０２の外部にあってもよい。他の実施形態では、具体的な実施形態
及び必要性に応じて内部キャッシュと外部キャッシュを組み合わせてもよい。レジスタフ
ァイル１０６は、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、命令ポイン
タレジスタを含む様々なレジスタに相異なるタイプのデータを格納できる。

プロセッサ１０２には、実行ユニット１０８もあり、整数及び浮動小数点の演算を実行
する論理回路を含む。プロセッサ１０２は、マクロ命令のマイクロコードを格納するマイ
クロコード（μコード）ROMも含む。この実施形態では、実行ユニット１０８はパック化
命令セット１０９を処理する論理回路を含む。一実施形態では、パック化命令セット１０
９は、複数のオペランドの要素を比較するパック化ストリング比較命令（packed string
comparison instruction）を含む。汎用プロセッサ１０２の命令セットにパック化命
令セット１０９を含めることにより、その命令を実行する関連回路とともに、多くのマル
チメディアアプリケーションで利用する演算を汎用プロセッサ１０２においてパック化デ
ータを用いて実行することができる。このように、プロセッサのデータバスの幅を最大限
に用いてパック化データ（packed data）に演算を行ことにより、多くのマルチメディア
アプリケーションを高速化し、より効率的に実行することができる。これにより、プロセ
ッサのデータバスを介してデータを小さい単位で転送して、一度に一データ要素に演算を
実行する必要が無くなる。
マイクロコントローラ、組み込みプロセッサ、グラフィックスデバイス、DSP、その他
のタイプの論理回路において、実行ユニット１０８の別の実施形態を利用することもでき
る。システム１００は、メモリ１２０を含む。メモリ１２０は、ＤＲＡＭ（dynamic ran
dom access memory）デバイス、ＳＲＡＭ（static random access memory）デバイ
ス、フラッシュメモリデバイス、その他のメモリデバイスである。メモリ１２０は、プロ
セッサ１０２により実行できる、データ信号で表された命令及び／またはデータを格納で
きる。システム論理チップ１１６はプロセッサバス１１０とメモリ１２０に結合している
。例示した実施形態では、システム論理チップ１１６はメモリコントローラハブ（ＭＣＨ
）である。プロセッサ１０２は、プロセッサバス１１０を介してＭＣＨ１１６と通信でき
る。ＭＣＨ１１６は、命令とデータの格納、グラフィックスコマンド、データ、及びテク
スチャの格納のために、メモリ１２０への広帯域幅メモリパス１１８を提供する。ＭＣＨ
１１６は、プロセッサ１０２、メモリ１２０、及びシステム１００のその他のコンポーネ
ントの間でデータ信号を方向付け（direct）、プロセッサバス１１０、メモリ１２０、及
びシステムＩ／Ｏ１２２間のデータ信号をブリッジする。実施形態によっては、システム
論理チップ１１６は、グラフィックスコントローラ１１２に結合するためのグラフィック
スポートを提供する。ＭＣＨ１１６は、メモリインターフェイス１１８を通してメモリ１
２０に結合している。グラフィックスカード１１２は、ＡＧＰ（Accelerated Graphics
Port）インターコネクト１１４によりＭＣＨ１１６に結合されている。

システム１００は、独自のハブインターフェイスバス１２２を用いて、ＭＣＨ１１６を
Ｉ／Ｏコントローラハブ（ＩＣＨ）１３０に結合する。ＩＣＨ１３０は、ローカルＩ／Ｏ
バスを介してＩ／Ｏデバイスに直接接続する。ローカルＩ／Ｏバスは、メモリ１２０、チ
ップセット、及びプロセッサ１０２に周辺機器を接続する高速Ｉ／Ｏバスである。例とし
ては、オーディオコントローラ、ファームウェアハブ（フラッシュＢＩＯＳ）１２８、ワ
イヤレストランシーバ１２６、データストレージ１２４、ユーザ入力及びキーボードイン
ターフェイスを含むレガシーＩ／Ｏコントローラ、ＵＳＢ（Universal Serial Bus）等
のシリアル拡張ポート、及びネットワークコントローラ１３４がある。データストレージ
デバイス１２４は、ハードディスクドライブ、フロッピー（登録商標）ディスクドライブ
、ＣＤ－ＲＯＭデバイス、フラッシュメモリデバイス、その他の大容量ストレージデバイ
スである。

システムの他の実施形態の場合、ストリング比較命令を含むアルゴリズムを実行する実
行ユニットをシステムオンチップ（system on a chip）で利用できる。システムオン
チップの一実施形態は、プロセッサ及びメモリである。かかるシステムのメモリはフラッ
シュメモリである。フラッシュメモリはプロセッサ及びその他のシステムコンポーネント
と同じダイ（die）にあってもよい。また、他の論理ブロック、例えばメモリコントロー
ラまたはグラフィックスコントローラ等がシステムオンチップ上にあってもよい。

図１Ｂは、本発明の一実施形態の原理を化体するデータ処理システム１４０を示す。当
業者には言うまでもなく、本発明の範囲から逸脱することなく、ここに説明する実施形態
を別の処理システムで利用することもできる。

コンピュータシステム１４０は、ストリング比較演算を含むＳＩＭＤ演算を実行できる
プロセッシングコア１５９を有する。一実施形態では、プロセッシングコア１５９は、任
意タイプのアーキテクチャの処理ユニットを表し、ＣＩＳＣ、ＲＩＳＣ、ＶＬＩＷなど各
タイプのアーキテクチャを含むが、これらには限定されない。プロセッシングコア１５９
は、１つまたは複数のプロセステクノロジーでの生産に適しており、機械読み取り可能媒
体で十分に詳しく表せるので、生産が容易になる。

プロセッシングコア１５９は、実行ユニット１４２、一組のレジスタファイル１４５、
及びデコーダ１４４を有する。プロセッシングコア１５９は、この他の回路（図示せず）
も含むが、この回路は本発明を理解するためには必要ない。実行ユニット１４２は、プロ
セッシングコア１５９が受け取った命令を実行するために使用する。実行ユニット１４２
は、一般的なプロセッサ命令を認識するのに加え、パック化命令セット１４３の命令を認
識して、パック化データフォーマットに演算を実行する。パック化命令セット１４３は、
ストリング比較演算をサポートする命令を含み、他のパック化命令を含んでも良い。実行
ユニット１４２は内部バスによりレジスタファイル１４５に結合している。レジスタファ
イル１４５は、データを含む情報を格納する、プロセッシングコア１５９上の記憶領域を
表す。上記の通り、パック化データを記憶するのに用いる記憶領域は必須ではない。実行
ユニット１４２はデコーダ１４４に結合している。デコーダ１４４は、プロセッシングコ
ア１５９が受け取った命令を制御信号及び／またはマイクロコードエントリーポイント（
microcode entry points）にデコードするために用いられる。実行ユニット１４２は、
これらの制御信号及び／またはマイクロコードエントリーポイントに応じて適切な演算を
実行する。

プロセッシングコア１５９は、他の様々なシステムデバイスと通信するためにバス１４
１と結合されている。システムデバイスには、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）コン
トロール１４６、スタティックＲＡＭ（ＳＲＡＭ）コントロール１４７、バーストフラッ
シュメモリインターフェイス１４８、ＰＣＭＣＩＡ／コンパクトフラッシュ（登録商標）
（ＣＦ）カードコントロール１４９、液晶ディスプレイ（ＬＣＤ）コントロール１５０、
ＤＭＡコントローラ１５１、代替バスマスターインターフェイス１５２が含まれるが、こ
れらには限定されない。一実施形態では、データプロセッシングシステム１４０は、Ｉ／
Ｏバス１５３を介して様々なＩ／Ｏデバイスと通信するためのＩ／Ｏブリッジ１５４も有
する。Ｉ／Ｏデバイスには、例えばＵＡＲＴ１５５、ＵＳＢ１５６、ブルートゥース（登
録商標）ワイヤレスＵＡＲＴ１５７、及びＩ／Ｏ拡張インターフェイス１５８が含まれる
が、これらには限定されない。

データプロセッシングシステム１４０の一実施形態は、ストリング比較演算を含むＳＩ
ＭＤ演算を実行できる、モバイル、ネットワーク及び／またはワイヤレス通信およびプロ
セッシングコア１５９である。プロセッシングコア１５９は、様々なオーディオ、ビデオ
、画像化、及び通信アルゴリズムでプログラムすることができる。これらのアルゴリズム
には、例えば、ウォルシュ・アダマール変換、高速フーリエ変換、離散余弦変換（ＤＣＴ
）、これらのそれぞれの逆変換；色空間変換等の圧縮・解凍方法、ビデオエンコード動き
予測、またはビデオデコード動き補償；パルスコード変調（ＰＣＭ）等の変復調（ＭＯＤ
ＥＭ）機能等が含まれる。

図１Ｃは、ＳＩＭＤストリング比較演算を実行できるデータ処理システムのさらに別の
実施形態を示す。別の一実施形態によるデータプロセッシングシステム１６０は、メイン
プロセッサ１６６、ＳＩＭＤコ・プロセッサ１６１、キャッシュメモリ１６７、及び入出
力システム１６８を含む。入出力システム１６８は、任意的に、ワイヤレスインターフェ
イス１６９に結合している。ＳＩＭＤコ・プロセッサ１６１は、ストリング比較演算を含
むＳＩＭＤ演算を実行できる。プロセッシングコア１７０は、１つまたは複数のプロセス
テクノロジーでの生産に適しており、機械読み取り可能媒体で十分に詳しく表せるので、
プロセッシングコア１７０を含むデータプロセッシングシステム１６０の全部または一部
の生産が容易になる。

一実施形態では、ＳＩＭＤコ・プロセッサ１６１は、実行ユニット１６２と一組のレジ
スタファイル１６４を有する。メインプロセッサ１６５の一実施形態は、実行ユニット１
６２が実行するＳＩＭＤストリング比較命令を含む命令セット１６３の命令を認識するデ
コーダ１６５を有する。別の実施形態では、ＳＩＭＤコ・プロセッサ１６１は、デコーダ
１６５Ｂの少なくとも一部を有し、命令セット１６３の命令をデコードする。プロセッシ
ングコア１７０は、この他の回路（図示せず）も含むが、この回路は本発明の実施形態を
理解するためには必要ない。

動作中、メインプロセッサ１６６は、キャッシュメモリ１６７や入出力システム１６８
とのインターラクションを含む、一般的なタイプのデータ処理演算を制御するデータ処理
命令ストリーム（stream of data processing instructions）を実行する。ＳＩＭＤ
コ・プロセッサ命令はデータ処理命令ストリームの中に組み込まれている。メインプロセ
ッサ１６６のデコーダ１６５は、ＳＩＭＤコ・プロセッサ命令を、付随するＳＩＭＤコ・
プロセッサ１６１が実行すべきタイプであるとして認識する。従って、メインプロセッサ
１６６は、これらのＳＩＭＤコ・プロセッサ命令（または、ＳＩＭＤコ・プロセッサ命令
を表す制御信号）をコ・プロセッサバス１６６上に発行し、付随するＳＩＭＤコ・プロセ
ッサはコ・プロセッサバス１６６からコ・プロセッサ命令を受け取る。この場合、ＳＩＭ
Ｄコ・プロセッサ１６１は、それに宛てられたＳＩＭＤコ・プロセッサ命令を受け取り、
実行する。

ＳＩＭＤコ・プロセッサ命令が処理するデータは、ワイヤレスインターフェイス１６９
を介して受け取ってもよい。一例として、音声通信をデジタル信号の形式で受信して、Ｓ
ＩＭＤコ・プロセッサ命令で処理して、その音声通信を表すデジタルオーディオサンプル
を再生する。他の一例として、圧縮オーディオ及び／またはビデオをデジタルビットスト
リームの形式で受信して、ＳＩＭＤコ・プロセッサ命令で処理して、そのデジタルオーデ
ィオサンプル及び／またはモーションビデオフレームを再生してもよい。プロセッシング
コア１７０の一実施形態では、メインプロセッサ１６６とＳＩＭＤコ・プロセッサ１６１
は単一のプロセッシングコア１７０に集積されている。プロセッシングコア１７０は、実
行ユニット１６２、一組のレジスタファイル１６４、及びデコーダ１６５を有し、ＳＩＭ
Ｄストリング比較命令を含む命令セット１６３の命令を認識する。

図２は、プロセッサ２００のマイクロアーキテクチャを示すブロック図である。プロセ
ッサ２００は、本発明の一実施形態によるストリング比較命令を実行する論理回路を含む
。ストリング比較命令の一実施形態では、第１のオペランドの各データ要素を第２のオペ
ランドの各データ要素と比較して、各比較結果が一致したかを示すインジケータを格納す
る。実施形態では、サイズがバイト、ワード、ダブルワード、クアッドワード（quadword
）等であり、データタイプが整数や浮動小数点であるデータ要素に、ストリング比較命令
を演算することができる。一実施形態では、インオーダー（in-order）フロントエンド２
０１がプロセッサ２００の一部となっており、実行するマクロ命令をフェッチして、後で
プロセッサパイプラインで使用するように準備する。フロントエンド２０１は複数のユニ
ットを含む。一実施形態では、命令プリフェッチャ２２６は、メモリからマクロ命令をフ
ェッチして、命令デコーダ２２８に供給（feed）する。命令デコーダ２２８は、マクロ命
令を、機械が実行可能なマイクロ命令またはマイクロ演算（micro opやμopsとも呼ぶ）
と呼ばれるプリミティブ（primitives）にデコードする。一実施形態では、トレースキャ
ッシュ２３０は、デコードされたマイクロ演算を取って、プログラムオーダーシーケンス
（program ordered sequences）またはトレース（traces）を組立、実行のためにマイ
クロ演算キュー２３４に入れる。トレースキャッシュ２３０が複雑なマクロ命令を見つけ
る（encounter）と、マイクロコードＲＯＭ２３２がその演算を完了するのに必要なマイ
クロ演算を供給する。

多数のマクロ命令は単一のマイクロ演算に変換されるが、他のマクロ命令はその演算を
完全に完了するのに複数の（several）マイクロ演算を必要とする。一実施形態では、１
つのマクロ命令を完了するのに５つ以上のマイクロ演算が必要であれば、デコーダ２２８
はマイクロコードＲＯＭ２３２にアクセスしてマクロ命令を実行する。一実施形態では、
パック化ストリング比較命令を少数のマイクロ演算にデコードして、命令デコーダ２２８
で処理する。他の実施形態では、演算を行うのに多数のマイクロ演算が必要な場合、パッ
ク化ストリング比較アルゴリズムをマイクロコードＲＯＭ２３２内に格納することもでき
る。トレースキャッシュ２３０は、マイクロコードＲＯＭ２３２のストリング比較アルゴ
リズムのマイクロコードシーケンスを読むための、正しいマイクロ命令ポインタを決定す
るエントリーポイントのプログラマブルロジックアレイ（ＰＬＡ）である。マイクロコー
ドＲＯＭ２３２がカレントの（current）マクロ命令のマイクロ演算のシーケンス決定（s
equencing）を終了すると、マシンのフロントエンド２０１は、トレースキャッシュ２３
０からマイクロ演算のフェッチを再開する。

一部のＳＩＭＤその他のマルチメディアタイプの命令は複雑な命令であると考えられる
。浮動小数点関係の命令もほとんどが複雑な命令である。そこで、命令デコーダ２２８は
複雑なマクロ命令が来ると（encounter）、マイクロコードＲＯＭ２３２の適切な場所に
アクセスして、そのマクロ命令のマイクロコードシーケンスを読み出す。そのマクロ命令
を実行するのに必要な様々なマイクロ演算を、アウトオブオーダー（out-of-order）実行
エンジン２０３に送り、適切な整数実行ユニット及び浮動小数点実行ユニットで実行する
。

アウトオブオーダー実行エンジン２０３は、マイクロ命令の実行準備をするところであ
る。アウトオブオーダー実行論理回路は、多数のバッファを有し、マイクロ命令がパイプ
ラインを下り、実行スケジューリングがなされるにつれ、実行を最適化するように、マイ
クロ命令のフローをスムースにして並べ替える。アロケータロジックは、各マイクロ演算
を実行するために必要なマシンバッファとリソースをアロケートする。レジスタリネーミ
ングロジックは、ロジックレジスタをレジスタファイルのエントリーにリネーム（rename
）する。アロケータは、命令スケジューラであるメモリスケジューラ、高速スケジューラ
２０２、低速・一般浮動小数点スケジューラ２０４、及び単純浮動小数点スケジューラ２
０６の前にある、メモリ演算用と非メモリ演算用の２つのマイクロ演算キューの一方の各
マイクロ演算にエントリーをアロケートする。マイクロ演算スケジューラ２０２、２０４
、２０６は、マイクロ演算が依存する入力レジスタオペランドソースの準備状況（readin
ess）と、マイクロ演算がその演算を完了するのに必要とする実行リソースの利用可能性
とに基づき、マイクロ演算がいつ実行できるか決定する。本実施形態の高速スケジューラ
２０２は、メインクロックサイクルの半分ごとにスケジューリングをできるが、他のスケ
ジューラはメインプロセッサクロックサイクルごとにしかスケジューリングができない。
複数のスケジューラはディスパッチポートをアービトレーションしてマイクロ演算の実行
をスケジューリングする。

レジスタファイル２０８、２１０はスケジューラ２０２、２０４、２０６と、実行ブロ
ック２１１の実行ユニット２１２、２１４、２１６、２１８、２２０、２２２、２２４と
の間にある。整数演算と浮動小数点演算にはそれぞれ別のレジスタファイル２０８、２１
０がある。他の実施形態では、整数レジスタ及び浮動小数点レジスタは同一レジスタファ
イルにあってもよい。本実施形態の各レジスタファイル２０８、２１０は、ちょうど完了
した結果であってまだレジスタファイルに書き込まれていないものを、新しいディペンデ
ント（dependent）なマイクロ演算にバイパスまたは転送するバイパスネットワークを含
む。整数レジスタファイル２０８と浮動小数点レジスタファイル２１０は、互いにデータ
をやりとりすることができる。一実施形態では、整数レジスタファイル２０８は、下位３
２ビット用と上位３２ビット用である２つの別々のレジスタファイルに分離されている。
一実施形態の浮動小数点レジスタファイル２１０は、１２８ビット幅のエントリーを有す
る。浮動小数点命令は、一般的には６４ビットから１２８ビットの幅のオペランドを有す
るからである。

実行ブロック２１１は、実行ユニット２１２，２１４，２１６，２１８，２２０，２２
２，２２４を含み、これらにより命令が実際に実行される。このセクションにはレジスタ
ファイル２０８，２１０が含まれる。レジスタファイル２０８，２１０は、マイクロ命令
の実行に必要な整数及び浮動小数点データオペランドの値が記憶される。本実施形態のプ
ロセッサ２００は、複数の実行ユニット、すなわちアドレス生成ユニット（AGU）２１２
、AGU２１４、高速ALU２１６、高速ALU２１８、低速ALU２２０、浮動小数点ＡＬＵ２２２
、浮動小数点moveユニット２２４により構成されている。本実施形態では、浮動小数点実
行ブロック２２２、２２４は、浮動小数点演算、ＭＭＸ演算、ＳＩＭＤ演算、及びＳＳＥ
演算を実行する。本実施形態の浮動小数点ＡＬＵ２２２は、６４ビット対６４ビットの浮
動小数点割り算器を含み、割り算、平方根、剰余のマイクロ演算を実行する。本発明の実
施形態では、浮動小数点値が関わる動作は浮動小数点ハードウェアで行われる。例えば、
整数形式と浮動小数点形式の間の変換には浮動小数点レジスタファイルが関与する。同様
に、浮動小数点割り算演算は浮動小数点割り算器で行われる。一方、非浮動小数点型や整
数型は整数ハードウェアリソースで処理される。単純かつ頻度が高いＡＬＵ演算は高速Ａ
ＬＵ実行ユニット２１６、２１８に行く。本実施形態の高速ＡＬＵ２１６，２１８は、有
効レイテンシーがクロックサイクルの半分である高速演算を実行できる。一実施形態では
、ほとんどの複雑な整数演算は低速ALU２２０に行く。低速ALU２２０が、乗算、シフト、
フラグロジック、ブランチ処理等のレイテンシーが長いタイプの演算用の整数実行ハード
ウェアを含むからである。メモリロード・ストア命令は、ＡＧＵ２１２，２１４で実行さ
れる。この実施形態は、整数ＡＬＵ２１６，２１８，２２０は、６４ビットデータオペラ
ンドに整数演算を実行するものとして説明した。別の実施形態では、ＡＬＵ２１６，２１
８，２２０は、１６，３２，１２８，２５６等の様々なデータビットをサポートするよう
に実施することもできる。同様に、浮動小数点ユニット２２２，２２４は、様々な幅のビ
ットを有するある範囲のオペランドをサポートするように実施することもできる。一実施
形態では、浮動小数点ユニット２２２、２２４は、ＳＩＭＤ命令やマルチメディア命令と
ともに、１２８ビット幅のパック化データオペランドに演算をすることができる。

本実施形態では、マイクロ演算スケジューラ２０２，２０４，２０６は、親のロード（
load）の実行が終わる前に、ディペンデント演算（dependent operations）をディスパ
ッチする。マイクロ演算はプロセッサ２００においてスペキュレーティブ（speculativel
y）にスケジューリングされるので、プロセッサ２００はメモリミスを処理するロジック
も含む。データキャッシュにおいてデータロードがミスすると、パイプライン中には、デ
ータが一時的に正しくないディペンデント演算がある。正しくないデータを使う命令をリ
プレイメカニズムが追跡し、再実行する。ディペンデント演算のみをリプレイする必要が
あり、インディペンデント演算は完了することができる。プロセッサの一実施形態のスケ
ジューラとリプレイメカニズムは、ストリング比較演算の命令シーケンスを捉えるように
設計されている。

「レジスタ」という用語は、オペランドを特定するマクロ命令の一部として使われる、
オンボードプロセッサの記憶場所を言う。換言すると、ここでレジスタとは、プロセッサ
の外側から（プログラマーの視点から）見えるレジスタである。しかし、一実施形態のレ
ジスタは、特定タイプの回路を意味していると限定すべきではない。むしろ、実施形態の
レジスタは、データを記憶して供給し、本明細書に記載する機能を実行できるだけでよい
。ここで説明したレジスタは、専用の物理的レジスタ、レジスタリネーミングを利用した
動的割当ての物理的レジスタ、専用の物理的レジスタ及び動的割当の物理的レジスタの組
み合わせなど、任意数の異なる技術を用いて、プロセッサ内の回路により実施することが
できる。一実施形態では、整数レジスタは３２ビットの整数データを記憶する。一実施形
態のレジスタファイルは、パック化データ用に８個のマルチメディアＳＩＭＤレジスタも
含む。以下の説明では、レジスタは、カリフォルニア州サンタクララ市のインテルコーポ
レイションのＭＭＸテクノロジーで実現された、マイクロプロセッサの６４ビット幅ＭＭ
Ｘ（登録商標）レジスタ（場合によっては「ｍｍ」レジスタとも呼ぶ）などの、パック化
データを保持するように設計されたデータレジスタであるものとする。これらのＭＭＸレ
ジスタは、整数形式と浮動小数点形式とがあるが、ＳＩＭＤ命令やＳＳＥ命令をともなう
パック化データ要素に利用できる。同様に、ＳＳＥ２，ＳＳＥ３，ＳＳＥ４またはそれ以
降（総称的に「ＳＳＥｘ」と呼ぶ）のテクノロジーに関する１２８ビット幅のＸＭＭレジ
スタも、このようなパック化データオペランドを保持するために用いることができる。本
実施形態では、パック化データや整数データを記憶する際、レジスタは２つのデータタイ
プを区別する必要はない。

以下の図の実施例では、複数のデータオペランドを説明する。図３Ａは、本発明の一実
施形態によるマルチメディアレジスタにおける様々なパック化データタイプを表した図で
ある。図３Ａは、１２８ビット幅オペランドの、パック化バイト３１０、パック化ワード
３２０、及びパック化ダブルワード３３０を示している。本実施例のパック化バイトフォ
ーマット３１０は、１２８ビットの長さで、１６個のパック化バイトデータ要素を含む。
ここでは、１バイトは８ビットのデータであると定義する。各バイトデータ要素の情報は
、バイト０がビット７からビット０まで、バイト１がビット１５からビット８まで、バイ
ト２がビット２３からビット１６まで、そして最終的にバイト１５がビット１２７からビ
ット１２０までに記憶される。このように、レジスタのすべてのビットが利用される。こ
のような記憶構成をとることにより、プロセッサの記憶効率が高まる。また、１６個のデ
ータ要素にアクセスするので、１つの演算を１６個のデータ要素に並行に演算することが
できる。

一般的に、データ要素は、単一のレジスタや記憶場所（memory location）に格納され
る個別のデータ（individual piece of data）であり、他のデータ要素と同じ長さの
ものである。ＳＳＥｘテクノロジーに関連するパック化データシーケンスでは、ＸＭＭレ
ジスタに格納されるデータ要素数は、１２８ビットを個々のデータ要素のビット長で割っ
た数である。ＭＭＸ及びＳＳＥテクノロジーに関連するパック化データシーケンスでは、
ＭＭＸレジスタに格納されるデータ要素数は、６４ビットを個々のデータ要素のビット長
で割った数である。図３Ａに示したデータタイプは１２８ビット長であるが、本発明の実
施形態は、６４ビット幅でもその他のサイズのオペランドでも動作可能である。本実施例
のパック化ワードフォーマット３２０は、１２８ビットの長さで、８個のパック化ワード
データ要素を含む。各パック化ワードは１６ビットの情報を含む。図３Ａのパック化ダブ
ルワードフォーマット３３０は、１２８ビットの長さで、４個のパック化ダブルワードデ
ータ要素を含む。各パック化ダブルワードデータ要素は３２ビットの情報を含む。パック
化クアドワード（quadword）は、１２８ビットの長さであり、２つのパック化クアドワー
ドデータ要素を含む。

図３Ｂは、別のレジスタ内データ記憶フォーマットを示す図である。各パック化データ
は独立した２つ以上のデータ要素を含んでいても良い。パック化ハーフ３４１、パック化
シングル３４２、及びパック化ダブル３４３である３つのパック化データフォーマットを
示した。パック化ハーフ３４１、パック化シングル３４２、及びパック化ダブル３４３の
一実施形態は、固定小数点データ要素である。別の実施形態では、パック化ハーフ３４１
、パック化シングル３４２、及びパック化ダブル３４３は、浮動小数点データ要素を含ん
でいてもよい。パック化ハーフ３４１の別の一実施形態は、８個の１６ビットデータ要素
を含む１２８ビット長データである。パック化シングル３４２の一実施形態は、１２８ビ
ットの長さであり、４個の３２ビットデータ要素を含む。パック化ダブル３４３の一実施
形態は、１２８ビットの長さであり、２つの６４ビットデータ要素を含む。言うまでもな
く、かかるパック化データフォーマットは、例えば、９６ビット、１６０ビット、１９２
ビット、２２４ビット、２５６ビット、またはそれ以上のレジスタ長に拡張することがで
きる。

図３Ｃは、本発明の一実施形態によるマルチメディアレジスタにおける様々な符号付き
及び符号無しのパック化データタイプを表した図である。符号無しパック化バイト表現３
４４は、ＳＩＭＤレジスタにおける符号無しパック化バイトの記憶を示す。各バイトデー
タ要素の情報は、バイト０がビット７からビット０まで、バイト１がビット１５からビッ
ト８まで、バイト２がビット２３からビット１６まで、そして最終的にバイト１５がビッ
ト１２７からビット１２０までに格納される。このように、レジスタのすべてのビットが
利用される。このような記憶構成をとることにより、プロセッサの記憶効率が高まる。ま
た、１６個のデータ要素にアクセスするので、１つの演算を１６個のデータ要素に並行に
演算することができる。符号付きパック化バイト表現３４５は、符号付きパック化バイト
の記憶を示す。各バイトデータ要素の８番目のビットは符号インジケータである。符号無
しパック化ワード表現３４６は、ワード７からワード０までがどのようにＳＩＭＤレジス
タに記憶されるかを示している。符号付きパック化ワード表現３４７は、符号無しパック
化ワードレジスタ内表現３４６と同様である。各ワードデータ要素の１６番目のビットは
符号インジケータである。符号無しパック化ダブルワードデータ表現３４８は、ダブルワ
ードデータ要素がどのように格納されるか示している。符号付きパック化ダブルワード表
現３４９は、符号無しパック化ダブルワードレジスタ内表現３４８と同様である。必要な
符号ビットは、各ダブルワードデータ要素の３２番目のビットである。一実施形態では、
オペランドは定数でもよく、それが付随する命令によって変化しない。

図３Ｄは、オペレーションエンコーディング（opcode）フォーマット３６０の一実施形
態を示す。これは、３２ビット以上であり、レジスタ・メモリオペランドのアドレッシン
グモードは、「IA-32 Intel Architecture Software Developer's Manual Volume
2: Instruction Set Reference」に記載されたopcodeフォーマットのタイプに対応
している。このマニュアルは、ワールドワイドウェブintel.com/design/litcentrで、カ
リフォルニア州サンタクララ市のインテルコーポレイションから入手できる。一実施形態
では、ストリング比較演算は１つまたは複数のフィールド３６１及び３６２でエンコード
される。２つまでのソースオペランド識別子３６４と３６５を含め、一命令につき２つま
でのオペランドの場所が特定される。ストリング比較命令の一実施形態では、デスティネ
ーションオペランド識別子３６６はソースオペランド識別子３６４と同じであり、他の実
施形態では異なる。別の実施形態では、デスティネーションオペランド識別子３６６はソ
ースオペランド識別子３６５と同じであり、他の実施形態では異なる。ストリング比較命
令の一実施形態では、ソースオペランド識別子３６４と３６５により特定されるソースオ
ペランドの一方は、ストリング比較命令の結果により上書きされる。一方、他の実施形態
では、識別子３６４はソースレジスタ要素に対応し、識別子３６５はデスティネーション
レジスタ要素に対応する。ストリング比較命令の一実施形態では、オペランド識別子３６
４と３６５は、３２ビットまたは６４ビットのソース及びデスティネーションオペランド
を特定するために用いられる。

図３Ｅは、４０ビットまたはそれ以上の、別のオペレーションエンコーディング（opco
de）フォーマット３７０を示す。opcodeフォーマット３７０は、opcodeフォーマット３６
０に対応し、任意的なプレフィックスバイト３７８を含む。ストリング比較演算のタイプ
は、１つまたは複数のフィールド３７８、３７１及び３７２でエンコードされる。１つの
命令につき２つまでのオペランドの場所がソースオペランド識別子３７４と３７５、及び
プレフィックスバイト３７８により特定される。ストリング比較命令の一実施形態では、
プレフィックスバイト３７８は、３２ビット、６４ビット、または１２８ビットのソース
及びデスティネーションオペランドを特定するために用いられる。ストリング比較命令の
一実施形態では、デスティネーションオペランド識別子３７６はソースオペランド識別子
３７４と同じであり、他の実施形態では異なる。別の実施形態では、デスティネーション
オペランド識別子３７６はソースオペランド識別子３７５と同じであり、他の実施形態で
は異なる。一実施形態では、ストリング比較演算は、オペランド識別子３７４と３７５に
より特定されるオペランドの各要素を、オペランド識別子３７４と３７５により特定され
る他のオペランドの各要素と比較、その各要素をストリング比較演算の結果により上書き
する。一方、他の実施形態では、識別子３７４と３７５により特定されるオペランドのス
トリング比較は、他のレジスタの他のデータ要素に書き込まれる。opcodeフォーマット３
６０と３７０では、ＭＯＤフィールド３６３と３７３、及び任意的なスケール・インデッ
クス・ベース及びディスプレースメントバイトにより部分的に規定される、レジスタから
レジスタ、メモリからレジスタ、メモリによるレジスタ、レジスタによるレジスタ、イミ
ーディエイト（immediate）によるレジスタ、レジスタからメモリへのアドレッシングが
可能である。

次に図３Ｆを参照して、別の実施形態では、６４ビット単一命令複数データ（ＳＩＭＤ
）算術演算は、コ・プロセッサデータ処理（ＣＤＰ）命令により実行される。オペレーシ
ョンエンコーディング（opcode）フォーマット３８０は、ＣＤＰopcodeフィールド３８２
と３８９を有するかかるＣＤＰ命令を示す。ストリング比較演算の別の実施形態では、Ｃ
ＤＰ命令のタイプは、１つまたは複数のフィールド３８３、３８４、３８７及び３８８で
エンコードされる。２つまでのソースオペランド識別子３８５と３９０と、１つのデステ
ィネーションオペランド識別子３８６とを含め、一命令につき３つまでのオペランドの場
所を特定できる。コ・プロセッサの一実施形態は、８、１６、３２及び６４ビット値で動
作できる。一実施形態では、ストリング比較演算は整数データ要素に実行される。実施形
態では、ストリング比較命令は、条件フィールド３８１を用いて、条件付きで実行しても
よい。ストリング比較命令によっては、ソースデータサイズはフィールド３８３によりエ
ンコードできる。ストリング比較命令の実施形態では、ＳＩＭＤフィールドでゼロ（Ｚ）
、ネガティブ（Ｎ）、キャリー（Ｃ）、オーバーフロー（Ｖ）の検出をできる。命令によ
っては飽和のタイプをフィールド３８４でエンコードしてもよい。

一実施形態では、ストリング比較演算の結果が非ゼロであることを示すために、フィー
ルドまたは「フラグ」を用いてもよい。実施形態によっては、ソース要素が無効であるこ
とを示すフラグや、ストリング比較演算の結果のＬＳＢまたはＭＳＢを示すフラグなどの
他のフィールドを使ってもよい。

図４は、本発明による、パック化データオペランドにストリング比較演算を実行するロ
ジックの一実施形態を示すブロック図である。本発明の実施形態は、上記のような様々な
タイプのオペランドで機能するように実施できる。一実施形態では、本発明によるストリ
ング比較演算は、特定のデータタイプに作用する命令セットとして実施する。例えば、整
数と浮動小数点を含む３２ビットデータタイプの比較を実行するパック化ストリング比較
命令を提供する。同様に、整数と浮動小数点を含む６４ビットデータタイプの比較を実行
するパック化ストリング比較命令を提供する。以下の説明と実施例により、データ要素が
何を表しているかに関わらずデータ要素を比較する比較命令の動作を説明する。説明を簡
単にするため、一部の実施例は、データ要素がテキストの言葉である１つまたは複数のス
トリング比較命令の実行を示す。

一実施形態では、ストリング比較命令は、第１のデータオペランドDATA A ４１０の
各要素を、第２のデータオペランドDATA B ４２０の各要素と比較し、各比較の結果をR
ESULTANT ４４０レジスタに格納する。以下の説明では、DATA A、DATA B、及びRESULT
ANTはレジスタであるものとする。しかし、そのようには限定されず、レジスタ、レジス
タファイル、及びメモリの記憶場所を含む。一実施形態では、テキストストリング比較命
令（例えば、「PCMPxSTRy」）は１つのマイクロ演算にデコードされる。別の実施形態で
は、各命令は、データオペランドにテキストストリング比較演算を行う様々な数のマイク
ロ演算にデコードできる。この実施例では、オペランド４１０、４２０は、ワード幅のデ
ータ要素を有するソースレジスタ・メモリに格納された１２８ビット幅の情報である。一
実施形態では、オペランド４１０、４２０は、１２８ビットＳＳＥｘＸＭＭレジスタ等
の１２８ビット長ＳＩＭＤレジスタに保持される。一実施形態では、ＲＥＳＵＬＴＡＮＴ
４４０はＸＭＭデータレジスタでもある。他の実施形態では、ＲＥＳＵＬＴＡＮＴ４４０
は、拡張レジスタ（例えば、「ＥＡＸ」）などの他のタイプのレジスタであってもよく、
メモリの記憶場所であってもよい。実施形態によっては、オペランドとレジスタは３２、
６４、２５６ビットなどの長さであっても良く、バイト、ダブルワード、またはクアドワ
ードサイズのデータ要素を有していてもよい。この実施例のデータ要素はワードサイズで
あるが、同じコンセプトをバイトやダブルワードサイズの要素に拡張することができる。
一実施形態では、データオペランドが６４ビット幅であれば、ＸＭＭレジスタの替わりに
ＭＭＸレジスタを用いる。

一実施形態では、第１のオペランド４１０は、Ａ７，Ａ６，Ａ５，Ａ４，Ａ３，Ａ２，
Ａ１及びＡ０の８つのデータ要素により構成されている。第１と第２のオペランドの要素
間の各比較は、結果４４０中のデータ要素の位置に対応してもよい。一実施形態では、第
２のオペランド４２０は、Ｂ７，Ｂ６，Ｂ５，Ｂ４，Ｂ３，Ｂ２，Ｂ１及びＢ０の８つの
データセグメントにより構成されている。ここでデータセグメントとは、長さが等しく、
１データワード（１６ビット）より構成される。しかし、データ要素とデータ要素位置は
ワード以外の粒度（granularities）を有していてもよい。各データ要素がバイト（８ビ
ット）、ダブルワード（３２ビット）、またはクアドワード（６４ビット）であるとき、
１２８ビットオペランドは１６バイト幅、４ダブルワード幅、または２クアドワード幅の
データ要素をそれぞれ有する。本発明の実施形態は特定の長さのデータオペランドやデー
タセグメントに限定されず、各実施形態に適切なサイズを利用できる。

オペランド４１０，４２０は、レジスタ、メモリの記憶場所、レジスタファイル、また
はこれらの組み合わせ（mix）のどれにあってもよい。データオペランド４１０、４２０
は、テキストストリング比較命令とともに、プロセッサの実行ユニットのストリング比較
ロジック４３０に送られる。一実施形態では、命令が実行ユニットに到着する時までに、
その命令はプロセッサパイプラインで早めにデコードされる。このように、ストリング比
較命令はマイクロ命令（μop）またはその他のデコードされたフォーマットの形式であり
得る。一実施形態では、２つのデータオペランド４１０，４２０をストリング比較ロジッ
ク４３０が受け取る。一実施形態では、テキストストリング比較ロジックは、２つのデー
タオペランドの要素が等しいかどうかの表示を生成する。一実施形態では、各オペランド
の有効要素のみを比較する。有効要素は、各オペランドの各要素について他のレジスタま
たはメモリの記憶場所により示される。一実施形態では、オペランド４１０の各要素をオ
ペランド４２０の各要素と比較する。この比較により、オペランド４１０の要素数にオペ
ランド４２０の要素数をかけた数に等しい比較結果ができる。例えば、各オペランド４１
０と４２０が３２ビット値である場合、結果レジスタ４４０は、ストリング比較ロジック
４３０で実行されたテキスト比較演算の３２×３２までの結果インジケータを記憶する。
一実施形態では、第１と第２のオペランドからのデータ要素は単精度（例えば、３２ビッ
ト）であり、他の実施形態では、第１と第２のオペランドのデータ要素は倍精度（例えば
、６４ビット）である。他の実施形態では、第１と第２のオペランドは、８、１６、３２
ビットを含む任意サイズの整数要素を含み得る。

一実施形態では、すべてのデータ位置のデータ要素は並行に処理される。他の実施形態
では、データ要素位置の一部は同時に処理できる。一実施形態では、RESULTANT４４０は
、オペランド４１０と４２０に格納された各データ要素間の比較の複数の結果により構成
される。具体的には、一実施形態では、結果（RESULTANT）はオペランド４１０または４
２０の一方のデータ要素数の２乗だけの比較結果を記憶してもよい。

一実施形態では、RESULTANTは、オペランド４１０と４２０の有効なデータ要素の間の
比較のみの比較結果を記憶する。一実施形態では、各オペランドのデータ要素は、明示的
または黙示的に有効であると示され得る。例えば、一実施形態では、各オペランドデータ
要素は、有効レジスタなどの他の記憶領域内に記憶される、有効ビットなどの有効性イン
ジケータに対応する。一実施形態では、両方のオペランドの各要素の有効性ビットは、同
じ有効レジスタに記憶される。しかし、他の実施形態では、１つのオペランドの有効性ビ
ットは、第１の有効レジスタに記憶され、他のオペランドの有効性ビットは第２の有効レ
ジスタに記憶される。有効な要素間でのみ比較を行うように、オペランドデータ要素を比
較する前に、またはそれと共に、（例えば、対応する有効ビットをチェックすることによ
り）両方のデータ要素が有効であるか判断してもよい。

一実施形態では、各オペランドの有効データ要素は、オペランドの一方または両方に記
憶されたヌルまたは「ゼロ」フィールドの使用により黙示的に示され得る。例えば、一実
施形態では、ヌルバイト（または他のサイズ）を要素に記憶して、ヌルバイトより重要な
（significant）データ要素はすべて無効であり、一方、ヌルバイトより重要でないデー
タ要素はすべて有効であるので、他のオペランドの対応する有効なデータ要素と比較すべ
きことを示してもよい。さらに、一実施形態では、（上記の通り）１つのオペランドの有
効データ要素を明示的に示し、一方、他のオペランドの有効データ要素をヌルフィールド
を用いて黙示的に示しても良い。一実施形態では、有効データ要素は、１つ以上のソース
オペランド内の有効なデータ要素またはサブエレメント（sub-elements）の数に対応する
カウントにより示される。

各オペランドの有効データ要素を示す方法にかかわらず、少なくとも１つの実施形態で
は、有効であると示された各オペランドのデータ要素を比較する。有効データ要素のみの
比較は、様々な実施形態で複数の方法で実行できる。詳細かつ理解可能な説明をする目的
では、２つのテキストストリングオペランド間で有効なデータ要素のみを比較する方法は
、以下によりもっともよく概念的に説明できる。しかし、以下の説明は、テキストストリ
ングオペランドの有効データ要素のみの比較を以下に概念的に説明または実施するかの一
例に過ぎない。他の実施形態では、他の概念的説明や方法を用いて、有効なデータ要素を
いかに比較するかを示す。

一実施形態では、オペランドの有効なデータ要素数が（例えば、有効性レジスタの有効
ビットや、最下位から始めて有効なバイト・ワードの数をカウントすることにより）明示
的に示されているか、（例えば、オペランド内のヌルキャラクタにより）黙示的に示され
ているかにかかわらず、各オペランドの有効データ要素のみを互いに比較する。一実施形
態では、有効性インジケータの集計と比較するデータ要素を、図５を参照して概念的に説
明する。

図５を参照して、一実施形態では、アレイ５０１と５０５は、第１のオペランドと第２
のオペランドの各要素がそれぞれ有効であるかどうかを示すエントリーを含む。例えば、
上記の例では、アレイ５０１は、第１のオペランドが対応する有効データ要素を含む各ア
レイ要素には「１」を含む。同様に、アレイ５０５は、第２のオペランドが対応する有効
データ要素を含む各アレイ要素に「１」を含む。一実施形態では、アレイ５０１と５０５
は、２つのオペランドにある各有効要素に対して、アレイ要素０から始まり１を含む。例
えば、一実施形態では、第１のオペランドが４つの有効要素を含む場合、アレイ５０１は
最初の４つのアレイ要素にのみ１を含み、アレイ５０１の他のアレイ要素はすべてゼロで
ある。

一実施形態では、アレイ５０１と５０５はサイズが１６要素であり、２つの１２８ビッ
トオペランドの１６個のデータ要素を表し、各々はサイズが８ビット（１バイト）である
。他の実施形態では、オペランドのデータ要素のサイズが１６ビットであり、アレイ５０
１と５０５は８要素のみを含む。他の実施形態では、アレイ５０１と５０５は、対応する
オペランドのサイズに応じて大きくても小さくてもよい。

一実施形態では、第１のオペランドの各データ要素を第２のオペランドの各データ要素
と比較し、その結果をｉ×ｊアレイ５１０で表す。例えば、テキストストリングを表す第
１のオペランドの第１のデータ要素を、例えば、他のテキストストリングを表す他のオペ
ランドの各データ要素と比較し、アレイ５１０の第１の行内の各アレイ要素に記憶された
「１」は、第１のオペランドの第１のデータ要素と第２のオペランドの各データ要素の間
の一致に対応する。これは、アレイ５１０が完了するまで、第１のオペランドの各データ
要素に対して繰り返される。

一実施形態では、ｉ×ｊエントリーの第２のアレイ５１５が生成され、有効なオペラン
ドのデータ要素のみが等しいかどうかの表示を記憶する。例えば、一実施形態では、アレ
イ５１０の最初の行５１１の各エントリーを対応する有効なアレイ要素５０６及び有効な
アレイ要素５０２と論理的にＡＮＤを取って、その結果をアレイ５１５の対応する要素５
１６に配置する。ＡＮＤ演算は、アレイ５１０の各要素と、有効なアレイ５０１及び５０
５の対応する要素との間で実行し、その結果をアレイ５２０の対応する要素に配置しても
よい。

一実施形態では、結果アレイ５２０は、一オペランドのデータ要素のうち他のオペラン
ドのデータ要素と関係するものがあるか示す。例えば、結果アレイ５２０は、アレイ５１
５の要素のペアをＡＮＤ演算し、ＡＮＤのすべての結果をＯＲ演算することにより、他の
オペランドのデータ要素により決まる範囲内にデータ要素があるか示すビットを記憶する
ことができる。

図５は、少なくとも２つのパック化オペランドのデータ要素間の比較に関する様々なイ
ンジケータを記憶する結果アレイ５２０も示す。例えば、結果アレイ５２０は、アレイ５
１５の対応する要素をＯＲ演算することにより、２つのオペランド間に等しいデータ要素
はあるかどうかを示すビットを記憶する。アレイ５１５のアレイ要素のどれかが、例えば
、オペランドの有効なデータ要素間に一致するものがあることを示す「１」を含む場合、
これは結果アレイ５２０に反映される。結果アレイ５２０の要素をＯＲ演算して、オペラ
ンドの有効なデータ要素が等しいか判断することもできる。

一実施形態では、アレイ内の隣接する「１」を検出することにより、結果アレイ５２０
内の、２つのオペランドのデータ要素間の有効な一致の連続を検出する。一実施形態では
、これは、連続する結果アレイ要素を一度にＡＮＤ演算し、「０」を検出するまで一ＡＮ
Ｄ演算の結果と次の結果とをＡＮＤ演算することにより、実現できる。他の実施形態では
、他の論理を用いて２つのパック化演算のデータ要素の有効な一致の範囲を検出してもよ
い。

一実施形態では、結果アレイ５２０は、対応する結果アレイエントリーに「１」を返す
ことにより、両方のオペランドの各データ要素が一致するか示すこともできる。すべての
エントリーが等しいか判断するため、結果アレイエントリーにＸＯＲ演算を実行してもよ
い。他の実施形態では、他の論理を用いて２つのオペランドの有効データ要素が等しいか
判断してもよい。

一実施形態では、データ要素のストリングがデータ要素の他のストリング内のどこかに
あることを、テストストリングを他のストリングの同じサイズの部分と比較して、テスト
ストリングと他のストリングのその部分との一致を結果アレイに示すことにより、検出で
きる。例えば、一実施形態では、第１のオペランドの３つのデータ要素に対応する３つの
キャラクタのテストストリングを、第２のストリングの３つのデータ要素の第１のセット
と比較する。一致を検出したら、その一致を結果アレイに反映させる。これは、一致に対
応する３つの結果エントリーのグループに「１」を格納することにより行う。テストスト
リングを他のオペランドの次の３つのデータ要素と比較する。または、比較されるにつれ
てテストストリングが他のオペランドに沿って「スライド」するように、前のオペランド
のデータ要素の２つと新しい第３のデータ要素を、テストストリングと比較してもよい。

一実施形態では、アプリケーションに応じて、結果アレイのエントリーを反転、または
否定してもよい。他の実施形態では、結果エントリーの一部のみを、例えば２つのオペラ
ンドのデータ要素間の有効な一致に対応するものだけを否定（negate）する。他の実施形
態では、他の演算を結果アレイ５２０の結果エントリーに実行してもよい。例えば、実施
形態によっては、結果アレイ５２０はマスク値として表される。他の実施形態では、結果
アレイはインデックス値で表され、レジスタなどの記憶場所に記憶される。インデックス
は、一実施形態では結果アレイのＭＳＢのグループにより表され、他の実施形態ではアレ
イのＬＳＢで表される。一実施形態では、インデックスは、設定されているＬＳＢまたは
ＭＳＢへのオフセット値により表される。マスクは、一実施形態ではゼロ拡張であり、他
の実施形態ではバイト／ワードマスク、またはその他の粒度（granularity）である。

様々な実施形態では、ＳＩＭＤオペランドの各要素の比較する際の上記の各相違は、個
々の命令として実行される。他の実施形態では、上記の相違は、命令に付随するフィール
ド（immediate fields）などの単一の命令の属性を変えることにより実行され得る。図
６は、１つまたは複数の命令により実行される、２つまたはそれ以上のＳＩＭＤオペラン
ドの各データ要素を比較する様々な動作を示す図である。一実施形態では、図６の動作に
より比較されるオペランドはテキストストリングである。他の実施形態では、オペランド
はその他のデータ情報やデータである。

図６を参照して、動作６１０において、第１のＳＩＭＤオペランド６０１と第２のＳＩ
ＭＤオペランド６０５の各要素を互いに比較する。一実施形態では、一方のオペランドは
ＸＭＭレジスタなどのレジスタに記憶され、他方のオペランドは他のＸＭＭレジスタまた
はメモリに記憶されている。一実施形態では、比較のタイプは、図６に示した動作を実行
する命令に対応するイミーディエイトフィールド（immediate field）により制御される
。例えば、一実施形態では、２ビットのイミーディエイトフィールド（例えば、ＩＭＭ８
［１：０］）を用いて、比較するデータ要素が符号付きバイトか、符号付きワードか、符
号無しバイトか、符号無しワードか示す。一実施形態では、比較結果によりｉ×ｊアレイ
（例えば、ＢｏｏｌＲｅｓ［ｉ，ｊ］）、またはｉ×ｊアレイの一部ができる。

動作６１３において、並行して、オペランド６０１と６０５がそれぞれ表すストリング
の終わりを見つけて、オペランド６０１と６０５の各要素の有効性を判断する。一実施形
態では、レジスタまたはメモリの記憶場所内の対応する１つまたは複数のビットを設定す
ることにより、オペランド６０１と６０５の各要素の有効性を明示的に示す。一実施形態
では、その１つまたは複数のビットは、オペランド６０１と６０５のＬＳＢの位置から始
まる連続した有効データ要素（例えば、バイト）の数に対応する。例えば、オペランドの
サイズにもよるが、ＥＡＸレジスタやＲＡＸレジスタなどのレジスタを用いて、第１のオ
ペランドの各データ要素の有効性を示すビットを記憶する。同様に、オペランドのサイズ
によっては、ＥＤＸレジスタやＲＤＸレジスタなどのレジスタを用いて、第２のオペラン
ドの各データ要素の有効性を示すビットを記憶する。他の実施形態では、オペランド６０
１と６０５の各要素の有効性を、本開示ですでに説明した手段により、黙示的に示しても
良い。

一実施形態では、動作６１５において、比較と有効性に関する情報を集約機能（aggreg
ation function）により結合して、２つのオペランドの要素の比較結果を生成する。一
実施形態では、集約機能を、２つのオペランドの要素の比較を実行する命令に付随するイ
ミーディエイトフィールドにより決定する。例えば、一実施形態では、２つのオペランド
のデータ要素が等しいか、２つのオペランドのデータ要素の範囲が等しいか、２つのオペ
ランドの各データ要素が等しいか、オペランドの少なくともデータ要素の一部の並びが同
じか、比較により示すかどうか、イミーディエイトフィールド（immediate field）が示
す。

動作６２０において、一実施形態では、（例えば、ＩｎｔＲｅｓ１に記憶された）集約
機能の結果をネゲートする。一実施形態では、イミーディエイトフィールドのビット（例
えば、ＩＭＭ８［６：５］）により、集約機能の結果に実行するネゲート機能のタイプを
制御する。例えば、イミーディエイトフィールドは、集約結果をまったくネゲート（nega
te）しない、集約機能の結果をすべてネゲートする、オペランドの有効要素に対応する集
約結果のみをネゲートすることを示してもよい。一実施形態では、ネゲート演算の結果を
アレイ（例えば、ＩｎｔＲｅｓ２アレイ）に記憶する。

一実施形態では、それぞれ動作６２５と６３０において、ネゲート演算により生成され
る結果のアレイをインデックス値またはマスク値に変換する。ネゲート演算結果をインデ
ックスに変換する場合、イミーディエイトフィールドのビット（例えば、ＩＭＭ８［６］
）により、比較結果のＭＳＢまたはＬＳＢをインデックスにエンコードするかどうか、そ
の結果をレジスタ（例えば、ＥＣＸまたはＲＣＸ）に記憶するかどうか制御する。一実施
形態では、ネゲート演算の結果をマスク値で表す場合、イミーディエイトフィールドのビ
ット（例えば、ＩＭＭ８［６］）を用いて、マスクをゼロ延長（zero-extended）拡張す
るか、バイト（またはワード）に拡張するか制御する。

このように、ストリング比較演算の実行方法を開示する。実施形態の例を説明し、添付
した図面に示したが、言うまでもなく、かかる実施形態は本発明の単なる例示であって制
約するものではなく、本開示を研究すれば当業者には様々な修正に想到するので、本発明
は図示し説明した具体的な構成に限定はされない。本技術分野等では、成長が速く進歩が
容易には予見できないので、本発明の原理や添付したクレームの範囲から逸脱することな
く技術的な進歩を可能とすることにより容易になるので、開示の実施形態を構成と詳細に
おいて容易に修正できる。

なお、上記の実施形態について次の付記を記載する。
（付記１）命令を記憶した機械読み取り可能媒体であって、前記命令は、機械により実
行されると、前記機械に
第１のパック化オペランドの各データ要素を、第２のパック化オペランドの各データ要
素と比較する段階と、
前記比較の第１の結果を記憶する段階と
を含む方法を実行させる媒体。
（付記２）前記第１のオペランドの有効データ要素のみを、前記第２のオペランドの有
効データ要素のみと比較する、付記１に記載の機械読み取り可能媒体。
（付記３）前記第１の結果は前記データ要素のいずれかが等しいかどうか示す、付記１
に記載の機械読み取り可能媒体。
（付記４）前記第１の結果は前記第１のオペランドに示された一範囲のデータ要素が、
前記第２のオペランドに示された一範囲のデータ要素と等しいかどうか示す、付記１に記
載の機械読み取り可能媒体。
（付記５）前記第１の結果は前記第１のオペランドの各データ要素が、前記第２のオペ
ランドの各データ要素と等しいかどうか示す、付記１に記載の機械読み取り可能媒体。
（付記６）前記第１の結果は前記第１のオペランドのデータ要素の一部の順序が、前記
第２のオペランドのデータ要素の一部の順序と等しいかどうか示す、付記１に記載の機械
読み取り可能媒体。
（付記７）前記第１の結果の一部をネゲートする、付記１に記載の機械読み取り可能媒
体。
（付記８）前記第１の結果は、マスク値またはインデックス値のいずれかにより表され
る、付記１に記載の機械読み取り可能媒体。
（付記９）第１のオペランドの有効データ要素のみを、第２のオペランドの有効データ
要素のみと比較する比較ロジックと、
前記比較ロジックを制御する第１の制御信号とを有する装置。
（付記１０）前記第１と第２のオペランドのデータ要素の有効性を明示的に示す、付記
９に記載の装置。
（付記１１）前記第１と第２のオペランドのデータ要素の有効性を黙示的に示す、付記
９に記載の装置。
（付記１２）前記第１の制御信号は、前記比較ロジックが符号付きまたは符号無しの値
を比較するかどうか示す符号制御信号を含む、付記９に記載の装置。
（付記１３）前記第１の制御信号は、どれかが等しい、範囲が等しい、それぞれ等しい
、不連続サブストリング、及び順序が等しいよりなるリストから選択した集約機能を前記
比較ロジックが実行するかどうか示す集約機能信号を含む、付記１２に記載の装置。
（付記１４）前記第１の制御信号は、ネゲート信号を含み、前記比較ロジックに前記比
較の結果の少なくとも一部をネゲートさせる、付記１３に記載の装置。
（付記１５）前記第１の制御信号は、前記比較ロジックが前記比較の結果のＭＳＢまた
はＬＳＢのインデックスを生成するかどうか示すインデックス信号を含む、付記１４に記
載の装置。
（付記１６）前記第１の制御信号は、前記比較ロジックが前記比較の結果としてゼロ延
長マスクまたは拡張マスクを生成するかどうかを示すマスク信号を含む、付記１５に記載
の装置。
（付記１７）前記第１の制御信号は、複数のビットを記憶する制御フィールドである、
付記１６に記載の装置。
（付記１８）単一命令複数データ（ＳＩＭＤ）比較命令を記憶する第１のメモリと、
前記ＳＩＭＤ比較命令を実行して、前記ＳＩＭＤ比較命令で示された第１と第２のオペ
ランドのデータ要素を比較するプロセッサを有する、システム。
（付記１９）前記第１のオペランドを、第１のレジスタのアドレスにより前記命令内に
示す、付記１８に記載のシステム。
（付記２０）前記第２のオペランドを、メモリアドレスまたは第２のレジスタにより前
記命令内に示す、付記１９に記載のシステム。
（付記２１）前記命令は前記プロセッサに対する制御信号を示すイミーディエイトフィ
ールドを含む、付記２０に記載のシステム。
（付記２２）イミーディエイトフィールドは、前記オペランドが符号付きバイト、符号
無しバイト、符号付きワード、または符号無しワードを含むかどうかを示す、付記２１に
記載のシステム。
（付記２３）前記イミーディエイトフィールドは集約機能を前記プロセッサが実行する
ことを示す、付記２２に記載のシステム。
（付記２４）前記イミーディエイトフィールドは、マスクまたはインデックスを前記命
令の実行に応じて生成するかどうかを示す、付記２３に記載のシステム。
（付記２５）前記命令は、前記第１及び第２のオペランドの明示的に有効なデータ要素
のみを比較させる、付記１８に記載のシステム。
（付記２６）前記命令は、前記第１及び第２のオペランドの黙示的に有効なデータ要素
のみを比較させる、付記１８に記載のシステム。
（付記２７）第１のテキストストリングに対応する第１のパック化オペランドを記憶す
る第１の記憶領域と、
第２のテキストストリングに対応する第２のパック化オペランドを記憶する第２の記憶
領域と、
前記第１のパック化オペランドのすべての有効データ要素を、前記第２のパック化オペ
ランドのすべての有効データ要素と比較する比較ロジックと、
前記比較ロジックが実行した前記比較の結果アレイを記憶する第３の記憶領域と
を有するプロセッサ。
（付記２８）前記比較ロジックは値の２次元のアレイを生成し、前記アレイのエントリ
ーは前記第１のパック化オペランドの有効なデータ要素と前記第２のパック化オペランド
の有効なデータ要素との間の比較に対応する、付記２７に記載のプロセッサ。
（付記２９）前記比較ロジックは、前記値の２次元のアレイに、いずれかが等しい、範
囲が等しい、各々が等しい、非連続的サブストリング、及び順序が等しいよりなる集約機
能の１つを実行する、付記２８に記載のプロセッサ。
（付記３０）前記結果アレイは、マスク値またはインデックス値のいずれかにより表さ
れる、付記２９に記載のプロセッサ。

Claims

プロセッサであって、
レベル１（Ｌ１）キャッシュを含む複数レベルのキャッシュと、
複数のＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ，ＭｕｌｔｉｐｌｅＤａ
ｔａ）レジスタであって、第１ソースオペランドを格納する第１ソースＳＩＭＤと第２ソ
ースオペランドを格納する第２ソースＳＩＭＤとを含み、前記第１ソースオペランドは複
数のデータ要素を含み、前記第２ソースオペランドは複数のデータ要素を含む、複数のＳ
ＩＭＤレジスタと、
各ビットが前記第１ソースオペランドの異なるデータ要素に対応する複数のビットを格
納する第１レジスタと、
ＳＩＭＤ比較命令を含む命令をデコードするデコーダであって、前記ＳＩＭＤ比較命令
は前記第１ソースＳＩＭＤレジスタを特定する第１フィールドと前記第２ソースＳＩＭＤ
レジスタを特定する第２フィールドとを有する、デコーダと、
前記デコーダと前記複数のＳＩＭＤレジスタとに結合した実行ユニットであって、前記
ＳＩＭＤ比較命令を実行して：
前記第２ソースオペランドの第１データ要素を、前記第１レジスタの対応ビットが１で
ある前記第１ソースオペランドの第１の複数のデータ要素と比較し、
結果をデスティネーションレジスタに格納し、前記結果の一部は、前記第１データ要素
の、前記第１レジスタの対応ビットが１である前記第１ソースオペランドの前記第１の複
数のデータ要素との比較の結果であり、前記結果は、前記第１レジスタの対応ビットが０
である前記第１ソースオペランドのデータ要素の比較の結果は格納しない、実行ユニット
とを有する、プロセッサ。
前記ＳＩＭＤ比較命令は異なる複数のタイプの比較を特定する複数のフィールドを有す
る、請求項１に記載のプロセッサ。
前記実行ユニットは前記ＳＩＭＤ比較命令を実行して、前記結果に基づく表示をするフ
ラグを用いる、請求項１に記載のプロセッサ。
前記第１ソースオペランドのデータ要素は整数であり、符号付き整数または符号無し整
数である、請求項１に記載のプロセッサ。
前記第１ソースオペランドのデータ要素は８ビット、１６ビット、及び３２ビットのう
ちのいずれかである、請求項１に記載のプロセッサ。
前記実行ユニットは前記ＳＩＭＤ比較命令を実行して、前記第２ソースオペランドの各
データ要素を、前記第１ソースオペランドの８つまでのデータ要素と比較する、
請求項１に記載のプロセッサ。
前記結果はマスク値を含む、請求項１に記載のプロセッサ。
前記プロセッサはＲＩＳＣ（ｒｅｄｕｃｅｄｉｎｓｔｒｕｃｔｉｏｎｓｅｔｃｏ
ｍｐｕｔｉｎｇ）プロセッサである、請求項１に記載のプロセッサ。
前記プロセッサはアウトオブオーダー（ｏｕｔ－ｏｆ－ｏｒｄｅｒ）実行エンジンを有
する、請求項１に記載のプロセッサ。
レベル１（Ｌ１）キャッシュを含む複数レベルのキャッシュにデータを格納することと
、
複数のＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ，ＭｕｌｔｉｐｌｅＤａ
ｔａ）レジスタにデータを格納することであって、第１ソースオペランドを格納する第１
ソースＳＩＭＤと第２ソースオペランドを格納する第２ソースＳＩＭＤとを含み、前記第
１ソースオペランドは複数のデータ要素を含み、前記第２ソースオペランドは複数のデー
タ要素を含む、格納することと、
各ビットが前記第１ソースオペランドの異なるデータ要素に対応する複数のビットを格
納する第１レジスタに複数のビットを格納することと、
ＳＩＭＤ比較命令を含む命令をデコードすることであって、前記ＳＩＭＤ比較命令は前
記第１ソースＳＩＭＤレジスタを特定する第１フィールドと前記第２ソースＳＩＭＤレジ
スタを特定する第２フィールドとを有する、デコードすることと、
前記ＳＩＭＤ比較命令を実行することであって：
前記第２ソースオペランドの第１データ要素を、前記第１レジスタの対応ビットが
１である前記第１ソースオペランドの第１の複数のデータ要素と比較することと、
結果をデスティネーションレジスタに格納することであって、前記結果の一部は、
前記第１データ要素の、前記第１レジスタの対応ビットが１である前記第１ソースオペラ
ンドの前記第１の複数のデータ要素との比較の結果であり、前記結果は、前記第１レジス
タの対応ビットが０である前記第１ソースオペランドのデータ要素の比較の結果は格納し
ない、格納することとを含む、方法。
前記ＳＩＭＤ比較命令をデコードすることは、可能性のある異なる複数のタイプの比較
のうちの１つを特定する複数のフィールドをデコードすることを含み、前記ＳＩＭＤ比較
命令を実行することは、前記結果に基づく表示をするフラグを用いることを含む、
請求項１０に記載の方法。
前記ＳＩＭＤ比較命令を実行することは、前記第２ソースオペランドの各データ要素を
、前記第１ソースオペランドの８つまでのデータ要素と比較することを含む、
請求項１１に記載の方法。
システムであって、
メモリコントローラと、
前記メモリコントローラに結合したプロセッサとを有し、前記プロセッサは：
レベル１（Ｌ１）キャッシュを含む複数レベルのキャッシュと、
複数のＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ，ＭｕｌｔｉｐｌｅＤａ
ｔａ）レジスタであって、第１ソースオペランドを格納する第１ソースＳＩＭＤと第２ソ
ースオペランドを格納する第２ソースＳＩＭＤとを含み、前記第１ソースオペランドは複
数のデータ要素を含み、前記第２ソースオペランドは複数のデータ要素を含む、複数のＳ
ＩＭＤレジスタと、
各ビットが前記第１ソースオペランドの異なるデータ要素に対応する複数のビットを格
納する第１レジスタと、
ＳＩＭＤ比較命令を含む命令をデコードするデコーダであって、前記ＳＩＭＤ比較命令
は前記第１ソースＳＩＭＤレジスタを特定する第１フィールドと前記第２ソースＳＩＭＤ
レジスタを特定する第２フィールドとを有する、デコーダと、
前記デコーダと前記複数のＳＩＭＤレジスタとに結合した実行ユニットであって、前記
ＳＩＭＤ比較命令を実行して：
前記第２ソースオペランドの第１データ要素を、前記第１レジスタの対応ビットが１で
ある前記第１ソースオペランドの第１の複数のデータ要素と比較し、
結果をデスティネーションレジスタに格納し、前記結果の一部は、前記第１データ要素
の、前記第１レジスタの対応ビットが１である前記第１ソースオペランドの前記第１の複
数のデータ要素との比較の結果であり、前記結果は、前記第１レジスタの対応ビットが０
である前記第１ソースオペランドのデータ要素の比較の結果は格納しない、実行ユニット
とを有する、
システム。
システムであって、
システムメモリと、
前記システムメモリに結合したプロセッサとを有し、前記プロセッサは：
レベル１（Ｌ１）キャッシュを含む複数レベルのキャッシュと、
複数のＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ，ＭｕｌｔｉｐｌｅＤａ
ｔａ）レジスタであって、第１ソースオペランドを格納する第１ソースＳＩＭＤと第２ソ
ースオペランドを格納する第２ソースＳＩＭＤとを含み、前記第１ソースオペランドは複
数のデータ要素を含み、前記第２ソースオペランドは複数のデータ要素を含む、複数のＳ
ＩＭＤレジスタと、
各ビットが前記第１ソースオペランドの異なるデータ要素に対応する複数のビットを格
納する第１レジスタと、
ＳＩＭＤ比較命令を含む命令をデコードするデコーダであって、前記ＳＩＭＤ比較命令
は前記第１ソースＳＩＭＤレジスタを特定する第１フィールドと前記第２ソースＳＩＭＤ
レジスタを特定する第２フィールドとを有する、デコーダと、
前記デコーダと前記複数のＳＩＭＤレジスタとに結合した実行ユニットであって、前記
ＳＩＭＤ比較命令を実行して：
前記第２ソースオペランドの第１データ要素を、前記第１レジスタの対応ビットが１で
ある前記第１ソースオペランドの第１の複数のデータ要素と比較し、
結果をデスティネーションレジスタに格納し、前記結果の一部は、前記第１データ要素
の、前記第１レジスタの対応ビットが１である前記第１ソースオペランドの前記第１の複
数のデータ要素との比較の結果であり、前記結果は、前記第１レジスタの対応ビットが０
である前記第１ソースオペランドのデータ要素の比較の結果は格納しない、実行ユニット
とを有する、
システム。
前記ＳＩＭＤ比較命令は異なる複数のタイプの比較を特定する複数のフィールドを有す
る、請求項１３または１４に記載のシステム。
前記実行ユニットは前記ＳＩＭＤ比較命令を実行して、前記結果に基づく表示をするフ
ラグを用いる、請求項１３または１４に記載のシステム。
前記第１ソースオペランドのデータ要素は整数であり、符号付き整数または符号無し整
数である、請求項１３または１４に記載のシステム。
前記第１ソースオペランドのデータ要素は８ビット、１６ビット、及び３２ビットのう
ちのいずれかである、請求項１３または１４に記載のシステム。
前記実行ユニットは前記ＳＩＭＤ比較命令を実行して、前記第２ソースオペランドの各
データ要素を、前記第１ソースオペランドの８つまでのデータ要素と比較する、
請求項１３または１４に記載のシステム。
前記結果はマスク値を含む、請求項１３または１４に記載のシステム。
前記プロセッサはＲＩＳＣ（ｒｅｄｕｃｅｄｉｎｓｔｒｕｃｔｉｏｎｓｅｔｃｏ
ｍｐｕｔｉｎｇ）プロセッサであり、前記プロセッサはアウトオブオーダー（ｏｕｔ－ｏ
ｆ－ｏｒｄｅｒ）実行エンジンを有する、
請求項１３または１４に記載のシステム。
前記プロセッサに結合した入出力コントローラをさらに有する、
請求項１３に記載のシステム。
前記プロセッサに結合したオーディオコントローラをさらに有する、
請求項１３に記載のシステム。
前記プロセッサに結合するネットワークコントローラとのインターフェースをさらに有
する、請求項１３に記載のシステム。
前記プロセッサに結合するフラッシュＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／Ｏｕｔｐｕ
ｔＳｙｓｔｅｍ）とのインターフェースをさらに有する、
請求項１３に記載のシステム。
前記プロセッサに結合するシリアル拡張ポートに対するインターフェースをさらに有す
る、請求項１３に記載のシステム。
前記プロセッサに結合する大規模記憶装置に対するインターフェースをさらに有する、
請求項１３に記載のシステム。
前記プロセッサはアウトオブオーダー（ｏｕｔ－ｏｆ－ｏｒｄｅｒ）実行エンジンを有
する、請求項１４に記載のシステム。
前記システムメモリはＤＲＡＭ（ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅ
ｍｏｒｙ）とフラッシュメモリとのうち少なくとも１つを有する、
請求項１４に記載のシステム。
前記プロセッサに結合したネットワークコントローラをさらに有する、
請求項１４に記載のシステム。
前記プロセッサに結合した大規模記憶装置をさらに有する、
請求項１４に記載のシステム。
前記プロセッサに結合したディスクドライブをさらに有する、
請求項１４に記載のシステム。
前記プロセッサに結合した入出力装置をさらに有する、
請求項１４に記載のシステム。
メモリコントローラでデータにアクセスすることと、
レベル１（Ｌ１）キャッシュを含む複数レベルのキャッシュにデータを格納することと
、
複数のＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ，ＭｕｌｔｉｐｌｅＤａ
ｔａ）レジスタにデータを格納することであって、第１ソースオペランドを格納する第１
ソースＳＩＭＤと第２ソースオペランドを格納する第２ソースＳＩＭＤとを含み、前記第
１ソースオペランドは複数のデータ要素を含み、前記第２ソースオペランドは複数のデー
タ要素を含む、格納することと、
各ビットが前記第１ソースオペランドの異なるデータ要素に対応する複数のビットを格
納する第１レジスタに複数のビットを格納することと、
ＳＩＭＤ比較命令を含む命令をデコードすることであって、前記ＳＩＭＤ比較命令は前
記第１ソースＳＩＭＤレジスタを特定する第１フィールドと前記第２ソースＳＩＭＤレジ
スタを特定する第２フィールドとを有する、デコードすることと、
前記ＳＩＭＤ比較命令を実行することであって：
前記第２ソースオペランドの第１データ要素を、前記第１レジスタの対応ビットが
１である前記第１ソースオペランドの第１の複数のデータ要素と比較することと、
結果をデスティネーションレジスタに格納することであって、前記結果の一部は、
前記第１データ要素の、前記第１レジスタの対応ビットが１である前記第１ソースオペラ
ンドの前記第１の複数のデータ要素との比較の結果であり、前記結果は、前記第１レジス
タの対応ビットが０である前記第１ソースオペランドのデータ要素の比較の結果は格納し
ない、格納することとを含む、方法。
システムメモリにアクセスすることと、
レベル１（Ｌ１）キャッシュを含む複数レベルのキャッシュにデータを格納することと
、
複数のＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ，ＭｕｌｔｉｐｌｅＤａ
ｔａ）レジスタにデータを格納することであって、第１ソースオペランドを格納する第１
ソースＳＩＭＤと第２ソースオペランドを格納する第２ソースＳＩＭＤとを含み、前記第
１ソースオペランドは複数のデータ要素を含み、前記第２ソースオペランドは複数のデー
タ要素を含む、格納することと、
各ビットが前記第１ソースオペランドの異なるデータ要素に対応する複数のビットを格
納する第１レジスタに複数のビットを格納することと、
ＳＩＭＤ比較命令を含む命令をデコードすることであって、前記ＳＩＭＤ比較命令は前
記第１ソースＳＩＭＤレジスタを特定する第１フィールドと前記第２ソースＳＩＭＤレジ
スタを特定する第２フィールドとを有する、デコードすることと、
前記ＳＩＭＤ比較命令を実行することであって：
前記第２ソースオペランドの第１データ要素を、前記第１レジスタの対応ビットが
１である前記第１ソースオペランドの第１の複数のデータ要素と比較することと、
結果をデスティネーションレジスタに格納することであって、前記結果の一部は、
前記第１データ要素の、前記第１レジスタの対応ビットが１である前記第１ソースオペラ
ンドの前記第１の複数のデータ要素との比較の結果であり、前記結果は、前記第１レジス
タの対応ビットが０である前記第１ソースオペランドのデータ要素の比較の結果は格納し
ない、格納することとを含む、方法。
前記ＳＩＭＤ比較命令をデコードすることは、可能性のある異なる複数のタイプの比較
のうちの１つを特定する複数のフィールドをデコードすることを含み、前記ＳＩＭＤ比較
命令を実行することは、前記結果に基づく表示をするフラグを用いることを含む、
請求項３４または３５に記載の方法。
前記第１ソースオペランドのデータ要素は整数であり、符号付き整数または符号無し整
数であり、
前記第１ソースオペランドのデータ要素は８ビット、１６ビット、及び３２ビットのう
ちのいずれかであり、
前記ＳＩＭＤ比較命令を実行することは、前記第２ソースオペランドの各データ要素を
、前記第１ソースオペランドの８つまでのデータ要素と比較することを含み、
前記結果はマスク値を含む、
請求項３４に記載の方法。
ネットワークコントローラへのインターフェースにデータを提供することと、
大規模記憶装置へのインターフェースにデータを提供することとをさらに含む、
請求項３４に記載の方法。
ネットワークコントローラからデータを受信することをさらに含む、
請求項３５に記載の方法。
シリアル拡張ポートからデータを受信することをさらに含む、
請求項３５に記載の方法。