JP7061294B2

JP7061294B2 - コプロセッサ処理の高速化の方法とプログラム

Info

Publication number: JP7061294B2
Application number: JP2020126673A
Authority: JP
Inventors: 浩平海外
Original assignee: 浩平海外
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2022-04-28
Anticipated expiration: 2040-07-27
Also published as: JP2022023618A

Description

本願発明は、GPU（Graphical Processing Unit）等のコプロセッサの処理高速化のための方法、プログラム、および、コンピューター装置、より詳細にはデータがランダムに更新される場合の高速化のための方法と方法、プログラム、および、コンピューター装置に関する。

GPU等のコプロセッサが提供する並列処理機能により、コンピューター・システムを高速化する手法は公知である（たとえば、特許文献１）。一般的に、GPUが備える並列処理ユニットはホスト・システムとは別のデバイス・メモリを持ち、処理すべきデータを事前にデバイス・メモリ上にロードしておく必要がある。デバイス・メモリ上のデータ形式は、GPUの並列処理ユニットで実行されるデバイス・プログラムが任意に定義することができるが、表形式のように、均一なデータ構造を持ち数万個から数億個の要素を含む構造化データを共通の形式で管理することが広く行なわれている。このような並列処理用データ構造を一般にデータストアと呼ぶ。

データストア上に、たとえばモバイル機器、自動車、情報家電等のデバイスが備えるセンサーから収集したデータを保持する場合、これら外部デバイスの状態変化に応じてデータストアの内容を更新する必要がある。このようなワークロードはIoT（Internet of Things）やM2M（Machine-to-Machine）と呼ばれる応用分野では一般的に見られるものだが、通常、数秒単位の一定時間内で見たときに更新が必要なデータ要素は全体のごく一部であるため、データストアを書き換えるために、その内容全体を再度GPUへロードすることは効率が悪い。一般に、コプロセッサとホスト・システム間を接続するI/Oバスの帯域幅は、コンピューター・システム性能のボトルネックとなることが多い貴重なリソースであるため、この点が特に問題となる。

この課題に対応するために、デバイス・メモリを固定サイズのページに分割し、更新があったページだけをオンデマンドで書き換える技術が知られている（たとえば、特許文献２、特許文献３、非特許文献１）。この技術では、ホスト・メモリとデバイス・メモリ双方の論理アドレス空間を確保し、並列処理ユニットによるデバイス・メモリのページに対する実際のアクセス時まで、デバイス・メモリに対する物理メモリのページの割り当てを遅延させる。並列処理ユニットまたはホスト・プロセッサによる最初のアクセスの時に、ページ・フォールト機構によりゼロ・ページが割り当てられる。次回以降のアクセスでは、デバイス・メモリ側に割り当て済みページがあり、ホスト側で当該領域にメモリアクセスがあった場合、あるいは、ホスト側に割り当て済みページがありGPU側で当該領域にメモリアクセスがあった場合、実行中のプログラムを一時停止して、4キロバイトや64キロバイトといった大きさのページフレームをPCI-EなどのI/Oバスを介して転送し、物理ページを割り当てた上でプログラムの実行を再開する。

これはデータストア上で更新されるデータが連続的であれば効率的であるが、IoTやM2M等の応用分野では外部機器やセンサー等から送出されるデータの到着はランダムであることが多く、したがって、データストア上で散逸した不連続な領域が更新されることを考慮する必要がある。たとえば、データストア上の6ヵ所を更新する場合、個々のデータ長は十分に小さく（たとえば、100バイト）とも、それらが離れた位置の更新であれば、ページサイズ（たとえば、4キロバイト）×6回分のデータ転送が必要となり、効率がきわめて悪化していた（600バイトのデータの更新のために24キロバイトのデータ転送を行なわなければならなかった）。また、仮に1つのデータ項目の更新であってもページ全体を転送しなければならないことから、貴重なリソースであるI/Oバスの帯域幅を過剰に消費してしまうと言う課題があった。

公表特許公報再表２０１７／０８５９８５特許公開公報特開２００８－０３３９２８特許公開公報特開２０１９－７１１２２

CUDA Programming Guide - K. Unified Memory Programming (https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#um-data-migration)

データストア上の不連続な領域が更新される場合でも効率的な処理が行なえるコプロセッサのメモリ管理機能を提供する。

本願発明は、第１のプロセッサと第２のプロセッサとＩ／Ｏバスとを備え、前記第１のプロセッサは、第１のメモリにアクセス可能であり、前記第２のプロセッサは、並列処理手段を備え、第２のメモリにアクセス可能であり、前記第２のメモリは、前記並列処理手段が並列処理を行なうための並列処理用データ構造を保存する、コンピューター上で実行されるメモリ管理方法であって、前記第１のプロセッサが、前記第１のメモリ上の第１の更新ログにデータを追加するステップと、前記第１のプロセッサが、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記第２のメモリ上の第２の更新ログに反映するステップと、前記第２のプロセッサが、前記第２の更新ログ上に反映されたデータを前記並列処理用データ構造に反映するステップとを含むメモリ管理方法を提供することで上記課題を解決する。

また、本願発明は、前記第１のメモリに保存されたプログラムが、所定の時間間隔ごとに、前記第１のプロセッサに、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記第２のメモリ上の第２の更新ログに反映するステップを実行させる、段落０００９に記載の方法を提供することで上記課題を解決する。

また、本願発明は、前記第１のメモリは不揮発性メモリである、段落０００９、または、段落００１０に記載の方法を提供することで上記課題を解決する。

また、本願発明は、前記第１のメモリに保存された前記更新ログはインデックスを含む、段落０００９、段落００１０、または、段落００１１に記載の方法を提供することで上記課題を解決する。

また、本願発明は、前記第２のメモリに保存された前記更新ログはインデックスを含む、段落０００９、段落００１０、段落００１１、または、段落００１２に記載の方法を提供することで上記課題を解決する。

また、本願発明は、第１のプロセッサと第２のプロセッサとＩ／Ｏバスとを備え、前記第１のプロセッサは、第１のメモリにアクセス可能であり、前記第２のプロセッサは、並列処理手段を備え、第２のメモリにアクセス可能であり、前記第２のメモリは、前記並列処理手段が並列処理を行なうための並列処理用データ構造を保存する、コンピューター上で実行されるメモリ管理プログラムであって、前記第１のプロセッサに、前記第１のメモリ上の第１の更新ログにデータを追加させる命令群と、前記第１のプロセッサに、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記第２のメモリ上の第２の更新ログに反映させる命令群と、前記第２のプロセッサに、前記第２の更新ログ上に反映されたデータを前記並列処理用データ構造に反映させる命令群とを含むメモリ管理プログラムを提供することで上記課題を解決する。

また、本願発明は、所定の時間間隔ごとに、前記第１のプロセッサに、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記第２のメモリ上の第２の更新ログに反映させる命令群を含む段落００１４に記載のメモリ管理プログラムを提供することで上記課題を解決する。

また、本願発明は、前記第１のメモリは不揮発性メモリである、段落００１４、または、段落００１５に記載のプログラムを提供することで上記課題を解決する。

また、本願発明は、前記第１のメモリに保存された前記更新ログはインデックスを含む、段落００１４、段落００１５、または、段落００１６に記載のプログラムを提供することで上記課題を解決する。

また、本願発明は、前記第２のメモリに保存された前記更新ログはインデックスを含む、段落００１４、段落００１５、段落００１６、または、段落００１７に記載の方法を提供することで上記課題を解決する。

また、本願発明は、第１のプロセッサと第２のプロセッサとＩ／Ｏバスとを備え、前記第１のプロセッサは、第１のメモリにアクセス可能であり、前記第２のプロセッサは、並列処理手段を備え、第２のメモリにアクセス可能であり、前記第２のメモリは、前記並列処理手段が並列処理を行なうための並列処理用データ構造を保存し、前記第１のプロセッサが、前記第１のメモリ上の第１の更新ログにデータを追加し、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記第２のメモリ上の第２の更新ログに反映し、前記第２のプロセッサが、前記第２の更新ログ上に反映されたデータを前記並列処理用データ構造に反映するコンピューター装置を提供することで上記課題を解決する。

また、本願発明は、前記第１のプロセッサが、所定の時間間隔ごとに、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記第２のメモリ上の第２の更新ログに反映する、段落００１９に記載のコンピューター装置を提供することで上記課題を解決する。

また、本願発明は、前記第１のメモリは不揮発性メモリである、段落００１９、または、段落００２０に記載のコンピューター装置を提供することで上記課題を解決する。

また、本願発明は、前記第１のメモリに保存された前記更新ログはインデックスを含む、段落００１９、段落００２０、または、段落００２１に記載のコンピューター装置を提供することで上記課題を解決する。

また、本願発明は、前記第２のメモリに保存された前記更新ログはインデックスを含む、段落００１９、段落００２０、段落００２１、または、段落００２２に記載のコンピューター装置を提供することで上記課題を解決する。

データストア上の不連続な領域が更新される場合でも効率的な処理が行なえるコプロセッサのメモリ管理機能が提供される。

本願発明に係る方法が実施されるコンピューター・システムの構成の例である。本願発明に係る方法の第１の実施例の構成を示す全体的概念図である。本願発明に係る方法で使用されるデータ形式の例を示す概念図である。本願発明に係る方法の第２の実施例の構成を示す全体的概念図である。本願発明に係る方法の第３の実施例の構成を示す全体的概念図である。本願発明に係る方法の第４の実施例の構成を示す全体的概念図である。本願発明に係る方法の第５の実施例の構成を示す全体的概念図である。

以下に図を参照しながら本願発明の実施例について説明する。

図１に、本願発明に係る方法およびプログラムが実行されるコンピューター・システム（100）の構成例を示す。ホスト・システム（110）はCPU（Central Processing Unit）（111）とホスト・メモリ（112）を備える。加えて、ホスト・システムは外部とデータをやり取りするためにネットワーク受信部（113）を介して、センサー等の外部デバイスと接続されている。GPU等のコプロセッサ（以下、「GPU」と総称する）（120）は、並列処理ユニット（121）とデバイス・メモリ（122）とを備える。ホスト・システム（110）とGPU（120）との間は、PCI-E等のI/Oバス（130）で接続されている。ホスト・メモリ（112）とデバイス・メモリ（122）との間は、DMA（Direct Memory Access）によるデータ転送が可能になっていることが好ましい。本コンピューター・システム（100）上で実行されるプログラムはホスト・プログラム（図示せず）とデバイス・プログラム（図示せず）に分割され、実行される。ホスト・プログラムは、ホスト・メモリ（112）上に格納され、CPU（111）により実行される。デバイス・プログラムは、デバイス・メモリ（122）に格納され、並列処理ユニット（121）により実行される。デバイス・プログラムは並列処理ユニット（121）が提供する並列処理により高速化が可能な設計であることが望ましい。

図２に本願発明の第１の実施例の全体構成を示す。並列処理ユニット（121）による並列処理の対象となるデータであるデータストア（210）は、デバイス・メモリ（122）に格納されている。外部デバイスが生成したデータは、ネットワーク受信部（113）を介してログ受信プログラム（221）に渡され、ログ受信プログラム（221）はこれをホスト・メモリ（112）上のホスト側更新ログ（222）に書き込む。ログ受信プログラム（221）は独立したプログラムであっても、ホスト・プログラムの一部であってもよい。この処理は、ホスト・メモリ（112）上のデータの更新（追記）のみであるため、処理はきわめて短時間で終わる。その後、別の常駐プログラム（223）が（たとえば、1秒間隔など）定期的にホスト側更新ログ（222）をチェックし、1件以上の要素の追加を発見した場合には、ホスト側更新ログ（222）の内容をI/Oバス（130）を介してGPU（120）のデバイス・メモリ（122）上の更新ログ（211）へ転送し、次いでデータストア更新プログラム（212）を実行する。データストア更新プログラム（212）は、GPU（120）の並列処理ユニット（121）（典型的には数100コアから数1000コアを備える）で並列に実行されるため、更新ログ（211）に記録された要素数が多い場合でもデータ更新の遅延は起こりにくい（I/Oバス（130）を通じたデータ転送以上にボトルネックとなることはない）。

図３に本願発明に係るデータストア（210）と更新ログ（211）のデータ形式の例を示す。データストア（210）のデータ形式は、GPU（120）の並列処理ユニット（121）の仕様およびデバイス・プログラムのロジックにより自由に決定してよいが、典型的な並列処理では、多数の行の共通の列を並列処理することが多いことから、各行に属するデータ要素を列ごとにまとめた列指向のデータ形式となる。各列の先頭データを示すポインターをヘッダー情報として格納してもよい。このようなデータ形式であるがゆえに、従来技術では、データ更新が不連続に行なわれる場合には効率が悪かった。なお、データストア（210）の項目の更新や削除を効率的に行なうために、各レコードに行属性を設け、無効フラグを設定できるようにし、デバイス・プログラムが無効フラグのあるレコードを読み飛ばすようなロジックを採用してよい。こうすることで、更新ログ（211）の差分適用による更新処理を削除（無効フラグの設定）と末尾への行追加により実現でき、効率化できる可能性がある。

更新ログ（211）も更新すべき行を識別する情報と対象となる更新情報を効率的に格納できる任意のデータ形式を使用してよいが、図３に示すようにデータストア（210）上の位置を示す行ID（あるいは行をユニークに識別する主キー）と更新すべき値が記録された、行指向のデータ形式を使用することが望ましい。また、ホスト側更新ログ（222）には更新ログ（211）と同一のデータ形式を使用してもよいが、異なったデータ形式を使用してもよい。更新ログ（211）上では、行を識別する情報と更新情報をメモリ上の隣接した位置に保持することができるため、更新すべき差分データが10要素であろうとも、100万要素であろうとも、その差分自体を記録するために必要な分量のデータだけをI/Oバス（130）を介して転送すればよく、更新と直接関係ないデータ転送のオーバーヘッドがないため、コンピューター・ハードウェアにおける貴重な資源であるI/Oバス（130）の帯域幅を効率的に使用できる。また、この手法により、外部デバイスから受け取った更新データの書き込みは、GPU（120）との間のデータ転送の完了を待つことなく、ホスト側更新ログ（222）への書き込みをもって完了とすることができ、応答時間の短縮という技術的優位性も得られる。加えて、I/Oバス（130）を通じて、ホスト・システム（110）とGPU（120）との間で転送しなければならないデータ量を削減することができることから、データ転送の待ち時間を短縮することもできる。

図４に本願発明に係る方法の第２の実施例の構成を表す全体的概念図を示す。本実施例では、ホスト・プログラム（410）自身が、並列計算のために呼び出すデバイス・プログラムの実行前に、更新ログの転送とデータストア更新プログラム（212）の起動を行なう。この場合でも、第１の実施例と同様に、常駐プログラム（223）が、更新ログ（211）の更新、旧データの削除によるスペース開放、バックアップ、ガーベジ・コレクション等のために、データストア更新プログラム（212）を一定間隔ごとに起動することが好ましい。アプリケーションのロジックを実装したホスト・プログラム（410）自身が更新ログの適用処理を起動できることで、常に最新の外部デバイスの状態を反映したデータに対して、デバイス・プログラムを実行することができるようになる。第２の実施例に係る方法と第１の実施例に係る方法とを組み合わせて、ホスト・プログラム（410）上のアプリケーション・ロジックと常駐プログラム（223）によるタイマー制御の両方が、更新ログの転送、データストア更新プログラム（212）の起動、または、その両方を行なうようにしてもよい。こうするとことで、常駐プログラム（223）が定期的にホスト側更新ログ（222）をGPU（120）に転送する間にデータストアが更新されていたとしても、デバイス・プログラムが最新のデータに対して分析処理を行なえるようになる。また、デバイス・プログラム実行開始時点のスナップショットに対して分析処理を行なうことができるため、プログラム実行中にデータストア（210）が更新されていた場合でも、整合性の取れた処理を行なうことができる。

図５に本願発明に係る方法の第３の実施例の構成を表す全体的概念図を示す。本実施例では、ホスト側の更新ログ領域を不揮発メモリ（510）上に確保する。ログ受信プログラム（221）は、外部デバイスから受け取った更新データを更新ログ領域に書き込むと共に、CPUキャッシュのフラッシュを行なう。これにより、デバイス・メモリ（122）上のデータストア（210）を更新するだけでなく、その更新履歴を時系列で保持することができるようになる。更新ログはデータストアの更新・追記・削除の履歴を全て保持しているため、これらの情報を不揮発メモリ（510）に保存しておくことで、システム障害時に備えたリアルタイムのバックアップを保持するのと同一の効果を得られる。

図６に本願発明に係る方法の第４の実施例の構成を表す全体的概念図を示す。本実施例では、データストアの主キーをデータストア上の物理位置を示す行IDに変換するためのインデックス（610）が追加されている。データベース設計上の制約により、外部デバイスの生成する更新データからは、データストア上の物理位置は必ずしも自明でないこともある。その場合、たとえば、デバイスIDなどの主キーを用いてインデックス（610）を検索し、行IDを得ることができる。また、インデックス（610）を参照することで、当該デバイスのデータが既にデータストア上に存在するため更新処理が必要であるのか、それとも、新規にデータを追加する挿入の処理であるのかを、データストア更新プログラムの実行を待たずに判別することができ、処理の効率化が可能となる。

図７に本願発明に係る方法の第５の実施例の構成を表す全体的概念図を示す。本実施例では、上記第４の実施例におけるインデックス（610）に相当するインデックス（710）を、デバイス・メモリ（122）上に配置し、データストア更新プログラム（212）がインデックス（710）を参照して主キーから行IDへの変換を行なう。データストア更新プログラム（212）は、並列処理ユニット（121）によって、ホスト・システム（110）のCPU（111）よりもはるかに高い並列度で実行されるため、インデックス（71-0）の探索に要する処理時間を短縮することができる。

（本願発明による技術的に顕著な効果）
本願発明により、GPU等の並列処理性能に優れたコプロセッサを備えたコンピューター・システムにおいて、今後ますますの普及が予測されるIoT/M2Mの分野で典型的な、データの不連続な領域の更新が頻繁に発生するタイプのワークロードに対しても、コプロセッサとホスト・システムを接続するI/Oバスのボトルネックを発生させることなく、コプロセッサの並列処理能力を最大限に活用することができるようになるという技術的に顕著な効果が得られる。ページングに依存する従来技術においては、データの更新領域が連続である場合には適切であっても、不連続である場合には、きわめて効率が悪かった。

Claims

第１のプロセッサと第２のプロセッサとＩ／Ｏバスとを備え、
前記第１のプロセッサは、ホスト・メモリにアクセス可能であり、
前記第２のプロセッサは、並列処理手段を備え、デバイス・メモリにアクセス可能であり、前記デバイス・メモリは、前記並列処理手段が並列処理を行なうための並列処理用データ構造を保存する、
コンピューター上で実行されるメモリ管理方法であって、
前記第１のプロセッサが、前記ホスト・メモリ上の第１の更新ログにデータを追加するステップと、
前記第１のプロセッサが、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記デバイス・メモリ上の第２の更新ログに反映するステップと、
前記第２のプロセッサが、前記第２の更新ログ上に反映されたデータを前記並列処理用データ構造に反映するステップとを含み、
前記並列処理用データ構造は、列指向のデータ形式であり、
前記第２の更新ログは、行指向のデータ形式である、
メモリ管理方法。
前記ホスト・メモリに保存されたプログラムが、所定の時間間隔ごとに、前記第１のプロセッサに、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記デバイス・メモリ上の前記第２の更新ログに反映するステップを実行させる、請求項１に記載の方法。
前記ホスト・メモリは不揮発性メモリ領域を含み、前記第１の更新ログは前記不揮発性メモリ領域に保存される、請求項１、または、請求項２に記載の方法。
前記ホスト・メモリに保存された前記第１の更新ログはインデックスを含む、請求項１、請求項２、または、請求項３に記載の方法。
前記デバイス・メモリに保存された前記第２の更新ログはインデックスを含む、請求項１、請求項２、請求項３、または、請求項４に記載の方法。
第１のプロセッサと第２のプロセッサとＩ／Ｏバスとを備え、
前記第１のプロセッサは、ホスト・メモリにアクセス可能であり、
前記第２のプロセッサは、並列処理手段を備え、デバイス・メモリにアクセス可能であり、
前記デバイス・メモリは、前記並列処理手段が並列処理を行なうための並列処理用データ構造を保存する、
コンピューター上で実行されるメモリ管理プログラムであって、
前記第１のプロセッサに、前記ホスト・メモリ上の第１の更新ログにデータを追加させる命令群と、
前記第１のプロセッサに、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記デバイス・メモリ上の第２の更新ログに反映させる命令群と、
前記第２のプロセッサに、前記第２の更新ログ上に反映されたデータを前記並列処理用データ構造に反映させる命令群とを含み、
前記並列処理用データ構造は、列指向のデータ形式であり、
前記第２の更新ログは、行指向のデータ形式である、
メモリ管理プログラム。
所定の時間間隔ごとに、前記第１のプロセッサに、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記デバイス・メモリの前記第２の更新ログに反映させる命令群を含む請求項６に記載のプログラム。
前記ホスト・メモリは不揮発性メモリ領域を含み、前記第１の更新ログは前記不揮発性メモリ領域に保存される、請求項６、または、請求項７に記載のプログラム。
前記ホスト・メモリに保存された前記第１の更新ログはインデックスを含む、請求項６、請求項７、または、請求項８に記載のプログラム。
前記デバイス・メモリに保存された前記第２の更新ログはインデックスを含む、請求項６、請求項７、請求項８、または、請求項９に記載のプログラム。
第１のプロセッサと第２のプロセッサとＩ／Ｏバスとを備え、
前記第１のプロセッサは、ホスト・メモリにアクセス可能であり、
前記第２のプロセッサは、並列処理手段を備え、デバイス・メモリにアクセス可能であり、
前記デバイス・メモリは、前記並列処理手段が並列処理を行なうための並列処理用データ構造を保存し、
前記第１のプロセッサが、前記ホスト・メモリ上の第１の更新ログにデータを追加し、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記デバイス・メモリ上の第２の更新ログに反映し、
前記第２のプロセッサが、前記第２の更新ログ上に反映されたデータを前記並列処理用データ構造に反映し、
前記並列処理用データ構造は、列指向のデータ形式であり、
前記第２の更新ログは、行指向のデータ形式である、
コンピューター装置。
前記第１のプロセッサが、所定の時間間隔ごとに、前記第１の更新ログ上に追加されたデータを前記Ｉ／Ｏバスを介して前記デバイス・メモリ上の前記第２の更新ログに反映する、請求項１１に記載のコンピューター装置。
前記ホスト・メモリは不揮発性メモリ領域を含み、前記第１の更新ログは前記不揮発性メモリ領域に保存される、請求項１１、または、請求項１２に記載のコンピューター装置。
前記ホスト・メモリに保存された前記第１の更新ログはインデックスを含む、請求項１１、請求項１２、または、請求項１３に記載のコンピューター装置。
前記デバイス・メモリに保存された前記第２の更新ログはインデックスを含む、請求項１１、請求項１２、請求項１３、または、請求項１４に記載のコンピューター装置。