JP6219445B2

JP6219445B2 - 中央処理ユニット及び画像処理ユニットの同期機構

Info

Publication number: JP6219445B2
Application number: JP2016090769A
Authority: JP
Inventors: ギンスブルグ，ボリス; ナタンゾン，エスフィルシュ; オサドチー，イリヤ; ザック，ヨアヴ
Original assignee: インテルコーポレイション
Priority date: 2011-07-29
Filing date: 2016-04-28
Publication date: 2017-10-25
Anticipated expiration: 2032-06-29
Also published as: JP2014522038A; CN106648552B; US9633407B2; EP3211525B1; CN103718156B; CN103718156A; CN106648552A; US20130027410A1; EP3211525A1; EP2737396A4; US9892481B2; JP5933000B2; EP2737396A2; US20170018051A1; WO2013019350A2; WO2013019350A3; JP2016173836A

Description

本発明は概して汎用処理装置及び画像処理装置を持つ電子計算機に関する。

汎用処理ユニット上又は中央処理ユニット（CPU）上で作動しているユーザーアプリケーションによって使用される記憶装置（memory）及び画像処理ユニット（GPU）によって使用される記憶装置は、典型的に別個のものとされる。画像処理ユニットドライバーは、画像処理ユニット上での処理のために使用者スペースからドライバ記憶装置へデータをコピーする。共有仮想記憶装置モデルにおいて、データは画像処理ユニットへコピーされず、代わりに、それは画像処理ユニットと中央処理ユニットの間で共有される。

一般に、マルチスレッドアプリケーションにおいて、共有されたデータはミューテックス（相互排除、mutexes）と呼ばれるロックによって保護される。共有データにアクセスする必要があるそれぞれのスレッドは、他のスレッドがそのミューテックスにアクセスすることを阻止するため、第一にそれぞれの対応するミューテックスをロックしなければならない。このロックは、ロック上での“スピニング”を通じて行うことができるが、この技術は消費電力及び性能の点から効率的ではない。

中央処理ユニットを最適化するため、オペレーティングシステムは、ミューテックスが取得可能となるまでスレッドが休眠状態になることを許可するシステムコールを与え、次にミューテックスがロック解除されたときに他のスレッドに通知する。しかし、この機構は、中央処理装置のコア上で作動するスレッドにのみ機能する。

図１は本発明の一つの実施形態の模式図である。図２は本発明の一つの実施形態によるスレッド及びメモリのモデルの拡大である。図３は本発明の一つの実施形態によるページフォールト対処のためのフローチャートである。図４は一つの実施形態のシステム図である。

一つの実施形態において、画像処理装置上で作動しているそれぞれのスレッド群のために、中央処理装置上で作動する補助的なシャドウスレッドが生み出されてもよい。画像処理ユニット上で作動しているスレッドがミューテックスをロックする必要があるとき、そのスレッドが他のタスクから解放されるまで待機する必要があるならば、画像処理ユニットは中央処理ユニット上のシャドウスレッドへの要求を送信する。中央処理ユニット上のシャドウスレッドは、オペレーティングシステムへ呼び出された対応するシステムを発する。オペレーティングシステムがシャドウスレッドにロックを与えた場合に、シャドウスレッドは画像処理ユニット上のスレッドに通知を送信する。

本出願において「画像処理ユニット」の語句が用いられているが、画像処理ユニットは単独の集積回路でもよく、また、そうでなくともよいことが理解されるべきである。本発明は画像処理ユニット及び中央処理ユニットが一つの集積回路に統合されている状況に適用可能である。本明細書において使用される、処理装置又は処理ユニットは処理装置（processor）、制御装置（controller）又は副処理装置（coprocessor）であってもよい。

図１を参照すると、ホスト／中央処理ユニット１６は、処理装置を基礎とするシステム１０内の画像処理ユニット１８と通信する。ホスト／中央処理ユニット１６は、ハードウェア組込み型のデバイス又は携帯型のデバイスを含む、如何なる処理装置を基礎とするシステムの一部であってもよい。いくつかの例に言及するならば、携帯型のデバイスの例は携帯電話、ラップトップコンピュータ、タブレットコンピュータ、及び携帯型インターネットデバイスを含む。ホスト／中央処理ユニット１６は、シャドウスレッド２２に制御情報を与えるユーザーアプリケーション２０を含む。シャドウスレッド２２は、次いで同期信号と制御信号の同期を画像処理ユニットドライバー２６と通信する。シャドウスレッド２２はまた、ホストオペレーティングシステム２４と通信する。

図１に示されるように、ユーザーレベル１２はシャドウスレッド２２及びユーザーアプリケーション２０を含む。一方、カーネルレベル１４はホストオペレーティングシステム２４、及び画像処理ユニットドライバー２６を含む。画像処理ユニットドライバー２６は、中央処理ユニット１６内にあるが、画像処理ユニットのドライバである。

画像処理ユニット１８は、ユーザーレベル１２において、gスレッド（gthread）２８を有する。gスレッド２８は、オペレーティングシステム（pOS）３０に制御メッセージ及び同期メッセージを送信し、オペレーティングシステム３０からメッセージを受信する。gスレッドは画像処理ユニット上で作動するユーザーコードであり、中央処理ユニット上で作動している親スレッドと仮想記憶装置を共有する。オペレーティングシステム３０は、画像処理ユニット上で作動する比較的小さなオペレーティングシステムでよく、画像処理ユニットのエクセプション（例外）に関与している。オペレーティングシステム３０は、一つの例として、ホストオペレーティングシステム２４よりも小さい。

ユーザーアプリケーション２０は、中央処理ユニット１６上で作動するあらゆるユーザープロセスである。ユーザーアプリケーション２０は画像処理ユニット１８上にスレッドを発生させる。

拡張スレッドライブラリ（eXtended Threaded Library）又はXTLは画像処理ユニット上のユーザースレッドを作り出し、管理するための拡張機能である。このライブラリは、それぞれのgスレッドのためのシャドウスレッドを作り出し、かつ、同期のためのライブラリ機能を持つ。

ユーザーアプリケーションは、従来のマルチスレッドモデルの拡張機能（例えば、「xthread_create（thread, attr, gpu_worker,arg）」）を使用して画像処理ユニットに計算を負荷させる（offload）。

画像処理ユニット上で作り出されたgスレッド又はワーカースレッドは、親スレッドと仮想記憶装置を共有する。それは、全ての標準的なプロセス間の同期機構、例えばミューテックス（Mutex）及びセマフォ（semaphore）における通常のスレッドと同じ様に振る舞う。同時に、新たなシャドウスレッドがホスト／中央処理ユニット１６上に作り出される。このシャドウスレッドは、例外処理ユニットのためのプロキシとして、及び中央処理ユニット上のスレッドと画像処理ユニット上のスレッドの同期ためのプロキシとして働く。

いくつかの実施形態において、親スレッド、ホストシャドウスレッド及び画像処理ユニットのワーカースレッドは、図２に示されるように仮想記憶装置を共有する。ホスト／中央処理ユニット１６は、シャドウスレッド２２のために「xthread_create()」を作り出す親スレッド３２を有する。シャドウスレッド２２は、処理アドレス空間３６内の専用アドレス空間であるシャドウスタックに接続する。親スレッド３２もまた、記憶装置記述子３４、及び処理アドレス空間３６内の専用アドレス空間であるメイン（主）スタックに接続する。記憶装置記述子３４もまた、gスレッドワーカー２８と交信してもよい。gスレッドワーカー２８は、処理アドレス空間３６内のgスレッドコードにも、共有されたデータセクション及び専用のgスレッドスタックにも接続することができる。上段に記載された要素は処理モデル３８に対応し、下段に記載された要素は記憶装置モデルに対応する。

図３を参照して、同期アルゴリズムはハードウェア、ソフトウェア及び／又はファームウェア内に実装されてもよい。ソフトウェアの実施形態において、アルゴリズムは、一時的でない、コンピュータが読み込み可能な媒体例えば光学的、半導体又は磁気的記憶装置に保存された、コンピュータで実行可能な命令として実装されてもよい。図３において、ホストオペレーティングシステム２４、シャドウスレッド２２、中央処理ユニット１６のドライバ２６、及びオペレーティングシステム３０及び画像処理ユニット１８のリング３５７が複数の平行かつ鉛直な流路（flow paths）として示されている。それらの間の相互作用は、概して水平な矢印によって指し示されている。

続いて図３において、カラム５７のブロック６０に指し示されているように、一つの実施形態において、リング３で、gスレッド２８は短い時間区分のスピニングによってユーザースペースからミューテックスを取得することを試みる。ひし形６１で決定されるようにミューテックスが正常に取得された場合、ブロック６２に示されるようにプログラムは継続する。ミューテックスが既に他のスレッドによってロックされたためにミューテックスが取得されなかった場合、オペレーティングシステム３０への信号（“SYSCALL”）が「取得（ACQUIRE）」操作コードと共に生成される。

オペレーティングシステム３０において、信号（SYSCALL）は受信される。オペレーティングシステム３０は、パスホストコマンド（PassHostCommand）と呼ばれるメッセージをドライバに送信する。ブロック５０に示されるように、パスホストコマンドは「SYSCALL」の操作コード及び「アドレス＋オペレーション」のデータ（a data address plus operation）を有している。次いで、ブロック５４に示されるように、オペレーティングシステム３０は信号を発しているスレッドを休眠（スリープ）状態に置く。ブロック５６に示されるように、その信号を発しているスレッドはその後アイドル状態となる。

中央処理ユニット１６内のドライバ２６は、転送コマンドを使用してそのメッセージをXスレッド２２に転送する。Xスレッド２２において、転送コマンドは受信される。ブロック４４に示されるように、Xスレッドはドライバからのこのメッセージを待機している。ブロック４６に示されるように、次いでXスレッドはミューテックスのロックを行い、またホストオペレーティングシステム２４への信号（SYSCALL）を含んでもよい。ブロック４２に示されるように、ホストオペレーティングシステム２４はミューテックスが取得されるまで待機する（すなわち、コンテキストスイッチが存在する）。ミューテックスが取得された後に、Xスレッドは再開実行コマンドをドライバ２６に送信し、それからブロック４８に示されるように、ドライバからの次のメッセージを受けるまで待機する。

ドライバ２６は再開実行コマンドを受信し、そしてパスGpuコマンド（PassGpuCommand）を画像処理ユニット内のオペレーティングシステム３０へ送信する。ブロック５２に示されるように、パスGpuコマンドはデータを持たず、再開実行の操作コードを含んでもよい。

オペレーティングシステム３０は、ブロック５８に示されるように、スレッドをウェイクアップし、再開をSYSCALからgスレッド２８へ送信する。結果として、ブロック６２に示されるように、gスレッド２８は稼働を続ける。シャドウスレッドはまた、ミューテックスを解放するために使用されてもよい。

図４に示されるコンピュータシステム１３０は、ハードドライブ１３４、及び母線（bus）１０４によってチップセットコアロジック１１０に接続された取り外し可能な媒体１３６を有してもよい。キーボード及びマウス１２０、又はその他の従来の構成要素は、母線１０８を介してチップセットコアロジックに接続されてもよい。一つの実施形態において、コアロジックは、母線１０５を介して画像処理装置１１２に接続してもよく、また、中央処理装置１００に接続してもよい。画像処理装置１１２はまた、母線１０６によってフレームバッファー１１４に接続されてもよい。フレームバッファー１１４は、母線１０７によって表示画面１１８に接続されてもよい。一つの実施形態において、画像処理装置１１２は、単一命令複数データ（SIMD）アーキテクチャーを使用するマルチスレッド、マルチコアの並列プロセッサーであってもよい。

ソフトウェアへの実装の場合、関連するコードが、あらゆる適切な半導体、磁気的、又は光学的な記憶装置に保存されてもよい。その適切な記憶装置は、主記憶装置１３２（１３９に指し示されている）又はあらゆる画像処理装置に適用可能な記憶装置を含む。従って、一つの実施形態において、図３のシークエンスを行うためのコードは、一時的でない機器又はコンピュータが読み込み可能な媒体、例えば記憶装置１３２、及び／又は画像処理装置１１２、及び／又は中央処理装置１００に保存されてもよい。また、一つの実施形態において、コードは、処理装置１００、及び／又は画像処理装置１１２によって実行されてもよい。

図３はフローチャートである。いくつかの実施形態において、このフローチャートに記述されたシークエンスはハードウェア、ソフトウェア、又はファームウェアに実装することができる。ソフトウェアの実施形態において、コンピュータが読み込み可能な一時的でない媒体、例えば半導体記憶装置、磁気的記憶装置、又は光学的記憶装置が、命令を保存するために使用することができ、また、図３のシークエンスを実施するために処理装置によって実行されることができる。

本明細書において記述された画像処理技術は、様々なハードウェアアーキテクチャーにおいて実施されてもよい。例えば、画像機能性は一つのチップセットに統合されてもよい。代替的に、別個の画像処理装置が使用されてもよい。更に他の実施形態として、画像機能はマルチコア処理装置を含む汎用処理装置によって実施されてもよい。

本明細書を通じて、「一つの実施形態」又は「ある実施形態」についての参照は、実施形態との関係において記述された特定の特徴、構造又は特性が、少なくとも一つの本発明の範囲内の実施方法に含まれることを意味する。従って、「一つの実施形態」又は「ある実施形態」の語句の出現は必ずしも同一の実施形態を参照するものではない。さらに、特定の特徴、構造又は特性は、例示された特定の実施形態以外の他の適切な形式において設けることができ。全てのそのような形式は本発明の特許請求範囲の範囲内でありうる。

本発明は限られた数の実施形態に関して記述されたが、当業者はそれから多くの改良及び変更を理解することであろう。添付の特許請求の範囲が、本発明の本来の精神及び範囲に含まれるような全ての改良及び変更を包含することが意図されている。

Claims

処理装置であって、
ライブラリの第１のスレッドを実行するホスト中央処理ユニット（ＣＰＵ）と、
前記ホストＣＰＵに接続されるグラフィクス処理ユニット（ＧＰＵ）と、
を有し、
前記ホストＣＰＵと前記ＧＰＵとは、共有されたバーチャルアドレススペースへのアクセスを共有し、前記第１のスレッドは、前記共有されたバーチャルアドレススペースへのアクセスを同期させ、
前記第１のスレッドは、前記ホストＣＰＵ上で実行する第２のスレッドと前記ＧＰＵ上で実行する第３のスレッドとの間のアクセスを同期させ、
前記第１のスレッドは、取得処理及び解放処理を介しアクセスを同期させる処理装置。
前記第３のスレッドは、前記取得処理を介し前記共有されたバーチャルアドレススペースにおけるデータにアクセスし、前記第２のスレッドが前記データを解放するまで前記データへのアクセスを待機する、請求項１記載の処理装置。
前記第３のスレッドは、前記解放処理を介し前記アクセス後に前記データを解放し、前記解放は、前記第２のスレッドが前記データにアクセスすることを可能にする、請求項２記載の処理装置。
前記ＧＰＵは、前記ホストＣＰＵから信号メッセージが受信されると、前記第３のスレッドをウェイクする、請求項１乃至３何れか一項記載の処理装置。
前記第１のスレッドは、前記ホストＣＰＵと前記ＧＰＵとの間で前記信号メッセージを可能にする、請求項４記載の処理装置。
前記第１のスレッドは、前記第３のスレッドと前記第１のスレッドとの間でアクセスを同期させる、請求項１記載の処理装置。
前記ホストＣＰＵと前記ＧＰＵとは、１つの集積回路内に統合される、請求項１記載の処理装置。
前記ホストＣＰＵは、複数の処理コアを含む、請求項７記載の処理装置。
前記ＧＰＵは、マルチスレッドマルチコアパラレルプロセッサである、請求項８記載の処理装置。
ヘテロジーニアス処理システムであって、
ホストＣＰＵと前記ホストＣＰＵに接続されるＧＰＵとを有する複数のヘテロジーニアスプロセッサと、
前記ホストＣＰＵと前記ＧＰＵとによって共有されるメモリであって、共有されたバーチャルアドレススペースを有するメモリと、
前記ホストＣＰＵ上で実行する第１のスレッドであって、前記ホストＣＰＵ上の第２のスレッドと前記ＧＰＵ上の第３のスレッドとによるメモリアクセスを同期させる第１のスレッドであって、取得処理及び解放処理を介しアクセスを同期させる第１のスレッドと、
を有するシステム。
前記ＧＰＵ上の前記第３のスレッドは、前記共有されたバーチャルアドレススペースにおけるデータへのアクセスを取得することを要求し、前記データが前記第１のスレッドによって解放されるまで前記データへのアクセスを取得することを待機する、請求項１０記載のシステム。
前記ホストＣＰＵから信号メッセージが受信されると、前記ＧＰＵは、前記第３のスレッドをウェイクし、前記信号メッセージは、前記第３のスレッドが前記データへのアクセスを取得することを可能にする、請求項１１記載のシステム。
前記第１のスレッドは、前記第３のスレッドと前記第１のスレッドとの間でアクセスを同期させる、請求項１０記載のシステム。
前記複数のヘテロジーニアスプロセッサは、１つの集積回路内に統合される、請求項１０記載のシステム。
前記ＧＰＵに関連するドライバを更に有し、
前記ドライバは、前記第１のスレッドと前記第３のスレッドとの間で同期メッセージを転送するため前記ホストＣＰＵ上で実行する、請求項１０記載のシステム。
前記ホストＣＰＵは、複数の処理コアを含み、前記ＧＰＵは、マルチスレッドマルチコアパラレルプロセッサである、請求項１０乃至１５何れか一項記載のシステム。
データ処理システムであって、
ホストＣＰＵと前記ホストＣＰＵに接続されるＧＰＵとを有する複数のヘテロジーニアスプロセッサであって、１つの集積回路内に統合される複数のヘテロジーニアスプロセッサと、
前記ＧＰＵからの出力を表示するディスプレイ装置と、
前記ホストＣＰＵと前記ＧＰＵとによって共有されるメモリであって、共有されたバーチャルアドレススペースを有するメモリと、
前記ホストＣＰＵ上で実行する第１のスレッドであって、前記ホストＣＰＵ上の第２のスレッドと前記ＧＰＵ上の第３のスレッドとによるメモリアクセスを同期させる第１のスレッドと、
を有し、
前記第１のスレッドは、取得処理及び解放処理を介しアクセスを同期させるシステム。
前記ＧＰＵ上の第３のスレッドは、前記共有されたバーチャルアドレススペースにおけるデータへのアクセスを取得することを要求し、前記データが前記第１のスレッドによって解放されるまで前記データへのアクセスを取得することを待機し、
前記ＧＰＵは、前記ホストＣＰＵから信号メッセージが受信されると、前記第３のスレッドをウェイクし、
前記信号メッセージは、前記第３のスレッドが前記データへのアクセスを取得することを可能にし、
前記第１のスレッドは、前記第３のスレッドと前記第１のスレッドとの間でアクセスを同期させる、請求項１７記載のシステム。
前記ＧＰＵに関連するドライバを更に有し、
前記ドライバは、前記第１のスレッドと前記第３のスレッドとの間で同期メッセージを転送するため前記ホストＣＰＵ上で実行する、請求項１７記載のシステム。
前記ホストＣＰＵは、複数の処理コアを含み、前記ＧＰＵは、マルチスレッドマルチコアパラレルプロセッサである、請求項１７乃至１９何れか一項記載のシステム。