JP2021192187A

JP2021192187A - 出現頻度算出プログラム、グラフィックスプロセッシングユニット、情報処理装置、及び出現頻度算出方法

Info

Publication number: JP2021192187A
Application number: JP2020098766A
Authority: JP
Inventors: 巧本田; Takumi Honda
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-12-16
Also published as: US11488280B2; US20210383499A1

Abstract

【課題】出現頻度算出において、アトミック処理の実行回数を抑制する【解決手段】情報処理装置が有するＧＰＵ（グラフィックスプロセッシングユニット）に実行させるプログラムであって、複数のスレッドで構成されるスレッドグループを１以上構築する構築処理と、前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得する取得処理と、前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する加算処理と、を実行する。【選択図】図１３

Description

本発明は、出現頻度算出プログラム、グラフィックスプロセッシングユニット、情報処理装置、及び出現頻度算出方法に関する。

グラフィックスプロセッシングユニット（Graphics Processing Unit：GPU）は、画像処理やデータ圧縮処理を行うためのアクセレータあるいはプロセッサである。ＧＰＵは、例えば、多数の演算器や関数を有する。

ＧＰＵは、例えば、画像処理において、入力データの値を一定区間ごとに区切り、各区間内における各データの出現頻度を算出し、ヒストグラムを生成する場合がある。ヒストグラムは、入力データの特性を示し、例えば、画像の平坦化や、コントラスト強調などに用いられる。

ＧＰＵに関する技術としては、以下の先行技術文献に記載されている。

特表2016−527650号公報特開2019−212171号公報特開2014−106715号公報

しかし、ＧＰＵは、出現頻度の算出において、複数のアトミック処理を実行する。アトミック処理とは、例えば、同一メモリへの同時アクセスなどを防止するため、他スレッドの割り込みを許容しない非可分な処理である。ＧＰＵは、アトミック処理を実行するとき、アトミックな処理を実行するスレッド以外のスレッドを待ち状態とする。すなわち、アトミック処理を実行することで、複数のスレッドに待ち時間が発生し、処理に遅延が発生する。

そこで、一開示は、出現頻度算出において、アトミック処理の実行回数を抑制する出現頻度算出プログラム、グラフィックスプロセッシングユニット、情報処理装置、及び出現頻度算出方法を提供する。

情報処理装置が有するＧＰＵ（グラフィックスプロセッシングユニット）に実行させるプログラムであって、複数のスレッドで構成されるスレッドグループを１以上構築する構築処理と、前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得する取得処理と、前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する加算処理と、を実行する。

一開示は、出現頻度算出において、アトミック処理の実行回数を抑制する。

図１は、情報処理システム１０の構成例を示す図である。図２は、情報処理装置１００の構成例を表す図である。図３は、入力データ及び出現頻度の例を示す図である。図４は、出現頻度算出処理の例を示す図である。図５は、第１方式出現頻度算出処理の処理フローチャートの例を示す図である。図６は、処理Ｓ１００−１及び処理Ｓ１００−２の例を示す図である。図７は、処理Ｓ１００−４の例を示す図である。図８は、第２方式出現頻度算出処理の処理フローチャートの例を示す図である。図９は、処理Ｓ２００−１及び処理Ｓ２００−２の例を示す図である。図１０は、処理Ｓ２００−３の例を示す図である。図１１は、処理Ｓ２００−４の例を示す図である。図１２は、処理Ｓ２００−５の例を示す図である。図１３は、処理Ｓ２００−６の例を示す図である。図１４は、データ処理Ｓ３００の処理フローチャートの例を示す図である。図１５は、方式判定処理Ｓ４００の処理フローチャートの例を示す図である。図１６は、方式判定処理Ｓ４００の処理フローチャートの例を示す図である。

［第１の実施の形態］
第１の実施の形態について説明する。

＜情報処理システム１０の構成例＞
図１は、情報処理システム１０の構成例を示す図である。情報処理システム１０は、情報処理装置１００及び入力データ２００を有する。情報処理システム１０は、入力データ２００を情報処理装置１００に入力し、情報処理装置１００が入力データ２００を処理し、情報処理装置１００が処理結果を出力するシステムである。

入力データ２００が画像データである場合について、以下に説明する。情報処理装置１００は、例えば、ユーザやアプリケーションプログラムから、入力データ２００を入力される（Ｓ１０）。

情報処理装置１００は、入力データ２００に含まれる値それぞれの、出現頻度を算出し、ヒストグラムを生成する。出現頻度は、入力データ中の各値（数値）が出現する回数（個数）を示す。情報処理装置１００は、生成したヒストグラムに基づき、画像の平坦化や、コントラスト強調などを行う。また、情報処理装置１００は、画像解析処理として、データのコーデック（複合化）などを行う。

情報処理装置１００は、入力データ２００を出力用のフォーマット（例えば画像）に変換すると、例えば、情報処理装置１００が有するディスプレイなどの表示部に、変換した画像を出力し（Ｓ１１）、表示させる。

＜情報処理装置１００の構成例＞
図２は、情報処理装置１００の構成例を表す図である。情報処理装置１００は、ＣＰＵ（Central Processing Unit）１１０、ストレージ１２０、メモリ１３０、及びＧＰＵ１４０を有する。

ストレージ１２０は、プログラムやデータを記憶する、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの補助記憶装置である。ストレージ１２０は、データ処理プログラム１２１を記憶する。また、ストレージ１２０は、ＧＰＵ１４０が実行する第１方式出現頻度算出プログラム１４１１、第２方式出現頻度算出プログラム１４１２、第１関数プログラム１４１３、第２関数プログラム１４１４、第３関数プログラム１４１５を記憶する。

メモリ１３０は、ストレージ１２０に記憶されているプログラムをロードする領域である。また、メモリ１３０は、プログラムがデータを記憶する領域としても使用されてもよい。

ＣＰＵ１１０は、ストレージ１２０に記憶されているプログラムを、メモリ１３０にロードし、ロードしたプログラムを実行し、各部を構築し、各処理を実現するプロセッサである。

ＣＰＵ１１０は、データ処理プログラム１２１を実行することで、判定部を構築し、データ処理を行う。データ処理は、入力データに対して、データ解析処理やデータ画像化処理などを実行し、処理結果を出力する処理である。ＣＰＵ１１０は、データ処理において、一部の処理をＧＰＵ１４０に実行させる。また、ＣＰＵ１１０は、データ処理においてＧＰＵ１４０に入力データの出現頻度算出処理を実行させる場合、出現頻度算出処理の方式を決定する方式判定処理を行う。

ＣＰＵ１１０は、データ処理プログラム１２１が有する方式判定モジュール１２１１を実行することで、判定部を構築し、方式判定処理を行う。方式判定処理は、ＧＰＵ１４０に実行させる出現頻度算出処理の方式を決定する処理である。

ＧＰＵ１４０は、ローカルメモリ１４２を有し、例えば、ストレージ１２０に記憶されているプログラムを、ローカルメモリ１４２にロードし、ロードしたプログラムを実行し、各部を構築し、各処理を実現するプロセッサまたはアクセレータである。

ローカルメモリ１４２は、ストレージ１２０が記憶するプログラムをロードする領域である。また、ローカルメモリ１４２は、ＧＰＵ１４０（プログラム）が、データを記憶する領域として使用される。

ＧＰＵ１４０は、第１方式出現頻度算出プログラム１４１１を実行することで、構築部、取得部、及び加算部を構築し、第１方式出現頻度算出処理を行う。第１方式出現頻度算出処理は、入力データを複数のデータ群に分割し、分割したデータ群ごとに出現頻度を算出し、各データ群の算出頻度を加算することで、入力データ全体の出現頻度を算出する処理である。

ＧＰＵ１４０は、第２方式出現頻度算出プログラム１４１２を実行することで、構築部、取得部、及び加算部を構築し、第２方式出現頻度算出処理を行う。第２方式出現頻度算出処理は、入力データを複数のデータ群に分割し、分割したデータ群ごとに出現頻度を算出し、各データ群の算出頻度を加算することで、入力データ全体の出現頻度を算出する処理である。なお、第２方式出現頻度算出処理におけるアトミック処理の実行回数は、第１方式出現頻度算出処理におけるアトミック処理の実行回数以下である。第１及び第２方式出現頻度算出処理の詳細については、後述する。

ＧＰＵ１４０は、第１関数プログラム１４１３を実行することで、加算部を構築し、第１関数処理を行う。第１関数処理は、第１関数を実行する処理である。第１関数処理は、第２方式出現頻度算出処理において、実行される。

ＧＰＵ１４０は、第２関数プログラム１４１４を実行することで、加算部を構築し、第２関数処理を行う。第２関数処理は、第２関数を実行する処理である。第２関数処理は、第２方式出現頻度算出処理において、実行される。

ＧＰＵ１４０は、第３関数プログラム１４１５を実行することで、加算部を構築し、第３関数処理を行う。第３関数処理は、第３関数を実行する処理である。第３関数処理は、第２方式出現頻度算出処理において、実行される。

なお、図２において、データ処理プログラム１２１は、ストレージ１２０に記憶され、ＣＰＵ１１０によって実行されるが、ＧＰＵ１４０によって実行されても良い。

また、ストレージ１２０に記憶されるプログラムで実行される処理は、例えば、演算器や回路などのハードウェアで実現されても良い。第１関数処理、第２関数処理、及び第３関数処理は、例えば、それぞれ専用の演算器で実現されても良い。

＜出現頻度算出処理＞
情報処理装置１００は、データ処理において、出現頻度を算出する出現頻度算出処理を行う場合がある。

図３は、入力データ及び出現頻度の例を示す図である。入力データは、「０」、「１」、「２」、及び「３」の４種類の数値（要素）で構成される。出現頻度は、各値が入力データ中に出現する数（存在する個数）を示す。出現頻度は、「０」が２５個、「１」が２２個、「２」が１２個、「３」が５個である。情報処理装置１００は、算出された出現頻度に基づき、ヒストグラムを生成し、画像処理を行う。以下、図３の例を使用し、第１方式出現頻度算出処理、及び第２方式出現頻度算出処理について説明する。

図４は、出現頻度算出処理の例を示す図である。第１方式及び第２方式出現頻度算出処理において、ＧＰＵ１４０は、複数のスレッドグループそれぞれに入力データを対応づける。なお、ＧＰＵ１４０は、第１方式又は第２方式出現頻度算出処理を行う前処理としてスレッドを構築してもよいし、常時スレッドを構築しておいてもよい。図４において、スレッドグループは、スレッドグループＧ１及びＧ２の２グループである。各スレッドグループは、それぞれスレッドＴ１〜Ｔ４、及びスレッドＴ５〜Ｔ８の４スレッドで構成される。スレッドグループＧ１は、入力データの上位（左側）４列、スレッドグループＧ２は、入力データの下位（右側）４列の、最終行までの出現頻度を算出する。

スレッドグループＧ１は、最上位行の上位４列のデータ（例えば「０３１２」）を取得する。そして、スレッドＴ１は最上位列のデータを、スレッドＴ２は上位２列目のデータを、スレッドＴ３は上位３列目のデータを、スレッドＴ４は上位４列目のデータを、それぞれ担当データとし、それぞれ担当データに対して処理を行う。例えば、スレッドＴ１の担当データは「０」、スレッドＴ２の担当データは「３」、スレッドＴ３の担当データは「１」、スレッドＴ４の担当データは「２」となる。

スレッドグループＧ１は、スレッドＴ１〜Ｔ４により、列ごとにデータを処理する（出現頻度を算出又は加算する）。そして、スレッドグループＧ１は、自グループの担当するデータの出現頻度（ローカル出現頻度と呼ぶ場合がある）を、行単位でＧＰＵ１４０が有するローカルメモリ１４２上のローカル出現頻度の記憶領域に記憶（加算）する。そして、スレッドグループＧ１は、最終行まで出現頻度を算出する。スレッドグループＧ２も同様の処理を行う。なお、以降、各スレッドグループが担当するデータの出現頻度を、ローカル出現頻度と呼ぶ場合がある。

スレッドグループＧ１及びＧ２は、自グループが担当するデータのローカル出現頻度の算出が完了する（自グループが担当するデータが終了する）と、メモリ１３０上の出現頻度領域に、それぞれのローカル出現頻度を加算する。

＜第１方式出現頻度算出処理＞
図５は、第１方式出現頻度算出処理の処理フローチャートの例を示す図である。ＧＰＵ１４０は、例えば、ＣＰＵ１１０の指示により、第１方式出現頻度算出処理Ｓ１００を実行する。なお、第１方式出現頻度算出処理Ｓ１００の処理フローチャートは、例えば、各スレッドグループが実行する処理の処理フローチャートである。また、図５において、点線で囲まれている処理は、スレッドグループ内の各スレッドが実行する処理である。

スレッドグループは、自スレッドグループが担当する次のデータ群を取得する（Ｓ１００−１）。次のデータ群とは、例えば、担当するデータの列の次行のデータを示す。スレッドグループは、第１方式出現頻度算出処理Ｓ１００の処理Ｓ１００−１において、先頭行から順に担当データ群を取得する。

各スレッドは、自スレッドが担当するデータの数値を認識し、自スレッドグループのローカル出現頻度の記憶領域の担当数値の領域に、１を加算する（Ｓ１００−２）。各スレッド全てが、処理Ｓ１００−２を実行する。

図６は、処理Ｓ１００−１及び処理Ｓ１００−２の例を示す図である。図６（Ａ）は、１行目のデータ群、図６（Ｂ）は２行目のデータ群に対する処理の例を示す図である。なお、図６において、ローカル出現頻度の記憶領域は、左から「０」「１」「２」「３」に、それぞれ対応するもとする。また、以降は、スレッドグループＧ１の処理について説明する。

図６（Ａ）に示すように、スレッドグループＧ１は、最初のデータ群「０３１２」を取得する。スレッドＴ１は、自スレッドの担当するデータの数値が「０」であることを認識し、ローカル出現頻度の記憶領域の数値「０」に対応する箇所（スレッドグループＧ１のローカル出現頻度の記憶領域の最上位（最も左））に、１を加算する。

同様に、スレッドＴ２が「３」、スレッドＴ３が「１」、スレッドＴ４が「２」について、それぞれの対応箇所に１を加算する。これにより、１行目のデータ群に対する処理が終了する。

次に、図６（Ｂ）に示すように、スレッドグループＧ１は、２行目のデータ「０２２３」を取得する。スレッドＴ１は、自スレッドの担当するデータの数値が「０」であることを認識し、ローカル出現頻度の記憶領域の数値「０」に対応する箇所に１を加算し、２とする。

同様に、スレッドＴ２が「２」、スレッドＴ３が「２」、スレッドＴ４が「３」について、それぞれの対応箇所に１を加算する。この結果、ローカル出現頻度は、「０」が２、「１」が１、「２」が３、「３」が２と記憶される。

図５の処理フローチャートに戻り、スレッドグループは、自スレッドグループの担当のデータ群が最後か否かを確認する（Ｓ１００−３）。データ群が最後である場合（これ以上データがない場合）（Ｓ１００−３のＹｅｓ）、スレッドグループは、自スレッドグループのローカル出現頻度を、全体の出現頻度（メモリ１３０の出現頻度領域）に加算し、処理を終了する（Ｓ１００−４）。

図７は、処理Ｓ１００−４の例を示す図である。スレッドグループＧ１及びＧ２は、それぞれ自スレッドグループの担当データのローカル出現頻度を、図６に示した処理を繰り返すことで算出する。そして、スレッドグループＧ１及びＧ２は、ローカル出現頻度を、メモリ１３０上の出現頻度の記憶領域に加算する。これにより、入力データの出現頻度（合計出現頻度と呼ぶ場合がある）が算出される。

図５の処理フローチャートに戻り、一方、スレッドグループは、自スレッドグループの担当のデータ群が最後でない場合（Ｓ１００−３のＮｏ）、担当データがなくなるまで、処理Ｓ１００−１から処理Ｓ１００−３を繰り返す。

なお、図６（Ａ）（Ｂ）における各スレッドがローカル出現頻度を加算する処理、及び図７における各スレッドグループがメモリ１３０の出現頻度にローカル出現頻度を加算する処理は、アトミック処理である。例えば、図６（Ｂ）において、スレッドＴ２とスレッドＴ３は、同じ領域に１を加算するため、少なくとも一方のスレッドに、書き込み待ち時間が発生する。

また、スレッドグループが処理を実行する場合、スレッドグループ内のいずれかのスレッドが実行してもよいし、図示しない別のスレッドをスレッドグループの処理を実行するスレッドとして起動し、当該スレッドが実行しても良い。

＜第２方式出現頻度算出処理＞
図８は、第２方式出現頻度算出処理の処理フローチャートの例を示す図である。ＧＰＵ１４０は、例えば、ＣＰＵ１１０の指示により、第２方式出現頻度算出処理Ｓ２００を実行する。なお、第２方式出現頻度算出処理Ｓ２００の処理フローチャートは、例えば、各スレッドグループが実行する処理の処理フローチャートである。また、図８において、点線で囲まれている処理は、各スレッドが行う処理である。

スレッドグループは、自スレッドグループが担当する次のデータ群を取得する（Ｓ２００−１）。

各スレッドは、第１関数を実行し、自スレッドの担当データと同一数値のビットが１（ＯＮ）となるビット列を生成する（Ｓ２００−２）。

図９は、処理Ｓ２００−１及び処理Ｓ２００−２の例を示す図である。第１関数は、例えば、比較関数のｍａｔｃｈ関数を使用する。ｍａｔｃｈ関数は、例えば、データ列と指標値を入力すると、データ列内の指標値の存在位置を１にしたビット列を出力する関数である。図９では、スレッドグループＧ１の２行目のデータ群に対する処理を例として説明する。

図９に示すように、スレッドグループＧ１は、２行目のデータ群「０２２３」を取得する。スレッドＴ１は、第１関数を実行し、自スレッドの担当データの「０」が同一データ群内の存在位置を示すビット列を生成する。スレッドＴ１の担当データの「０」は、「０２２３」の一番左の位置にのみ存在するので、生成されるビット列は「１０００」となる。

スレッドＴ２〜Ｔ４もスレッドＴ１と同様の処理を行う。スレッドＴ２及びスレッドＴ３の担当データの「２」は、「０２２３」の左から２番目及び３番目の位置に存在するので、生成されるビット列は「０１１０」となる。スレッドＴ４の担当データの「３」は、「０２２３」の一番右の位置に存在するので、生成されるビット列は「０００１」となる。

図８の処理フローチャートに戻り、各スレッドは、第２関数を実行し、ビット列で最初に１（ＯＮ）が出現するビット位置を取得する（Ｓ２００−３）。

図１０は、処理Ｓ２００−３の例を示す図である。スレッドＴ１〜Ｔ４は、自スレッドが生成したビット列に対して、第２関数を実行し、ビット列で最初に１が出現するビット位置を取得する。第２関数は、例えば、ｆｆｓ（ｆｆｓｌｌ）関数である。ｆｆｓ関数は、例えば、データ列を入力すると、入力されたデータ列内の最初（または最後）に１が出現する位置を出力する関数である。なお、ビット位置は、左から１〜４となる。

スレッドＴ１は、一番左（第１ビット）が１であるため、ビット位置「１」を取得する。同様に、スレッドＴ２は、ビット位置「２」を取得し、スレッドＴ３は、ビット位置「２」を取得し、スレッドＴ４は、ビット位置「４」を取得する。

図８の処理フローチャートに戻り、各スレッドは、第２関数の実行結果より、担当データの数値が、データ群内で最初の出現か否かを確認する（Ｓ２００−４）。すなわち、自スレッドが、ローカル出現頻度の加算処理を行う代表スレッドか否かを判定する。

図１１は、処理Ｓ２００−４の例を示す図である。各スレッドは、担当データの数値がデータ群内で最初の出現か否かを確認する。スレッドは、例えば、スレッド郡内での識別番号を有する。例えば、スレッドＴ１の識別番号は１、スレッドＴ２の識別番号は２、スレッドＴ３の識別番号は３、スレッドＴ４の識別番号は４である。識別番号は、例えば、自スレッドが担当するデータの位置（データ群内の左からの番号）に対応する識別子である。各スレッドは、自スレッドの識別番号と処理２００−３で取得したビット位置が一致する場合、担当データの数値がデータ群内で最初の出現であると判定する。スレッドＴ１は、識別番号と取得したビット位置が「１」であり一致する。スレッドＴ２は、識別番号と取得したビット位置が「２」であり一致する。スレッドＴ４は、識別番号と取得したビット位置が「４」であり一致する。スレッドＴ１、Ｔ２、及びＴ４は、自スレッドが代表スレッドであると判定する。

一方で、スレッドＴ３は、識別番号は「３」であるが、取得したビット位置は「２」であり、一致しない。すなわち、スレッドＴ３は、当該データ群に対する処理において、代表スレッドとはならない。

図８の処理フローチャートに戻り、各スレッドは、担当データの数値がデータ群内での最初の出現である（自スレッドが代表スレッドである）場合（Ｓ２００−４のＹｅｓ）、第３関数を実行し、自スレッドの担当データの数値が、データ群内で重複する数（重複数）を取得する（Ｓ２００−５）。

図１２は、処理Ｓ２００−５の例を示す図である。第３関数は、例えば、ｐｏｐｃ（ｐｏｐｃｌｌ）関数である。ｐｏｐｃ関数は、例えば、データ列を入力すると、データ列内の１（ＯＮ）の数を出力する関数である。

代表スレッドであるスレッドＴ１、スレッドＴ２、及びスレッドＴ４は、処理Ｓ２００−５を実行する。一方で、処理Ｓ２００−４で一致しなかった（不一致であった）スレッドＴ３は、処理Ｓ２００−５を実行しない。

スレッドＴ１は、第３関数を実行し、ビット列内の１の数（重複数）を算出する。スレッドＴ１は、重複数「１」を算出する。同様に、スレッドＴ２は重複数「２」を、スレッドＴ４は重複数「１」を算出する。

図８の処理フローチャートに戻り、各スレッド（代表スレッド）は、自スレッドグループのローカル出現頻度の記憶領域の担当データの数値に対応する領域に、重複数を加算する（Ｓ２００−６）。

一方、各スレッドは、担当データの数値がデータ群内での最初の出現でない場合（Ｓ２００−４のＮｏ）、処理Ｓ２００−５及び処理Ｓ２００−６を実行しない。

図１３は、処理Ｓ２００−６の例を示す図である。処理Ｓ２００−４で一致したスレッドであるスレッドＴ１、スレッドＴ２、及びスレッドＴ４は、処理Ｓ２００−６を実行する。一方で、処理Ｓ２００−４で一致しなかった（不一致であった）スレッドＴ３は、処理Ｓ２００−６を実行しない。

スレッドＴ１は、ローカル出現頻度の記憶領域の「０」に対応する箇所に、処理Ｓ２００−５で算出した重複数「１」を加算する。同様に、スレッドＴ４は、ローカル出現頻度の記憶領域の「３」に対応する箇所に、処理Ｓ２００−５で算出した重複数「１」を加算する。

一方、スレッドＴ２は、ローカル出現頻度の記憶領域の「２」に対応する箇所に、処理Ｓ２００−５で算出した重複数「２」を加算する。

図８の処理フローチャートに戻り、スレッドグループは、自スレッドグループの担当のデータ群が最後か否かを確認する（Ｓ２００−７）。データ群が最後である場合（Ｓ２００−７のＹｅｓ）、スレッドグループは、自スレッドグループのローカル出現頻度を、全体の出現頻度（メモリ１３０の出現頻度領域）に加算し、処理を終了する（Ｓ２００−８）。処理Ｓ２００−８は、例えば、第１方式出現頻度算出処理Ｓ１００における処理Ｓ１００−４（図７）と同様である。

一方、スレッドグループは、自スレッドグループの担当のデータ群が最後でない場合（Ｓ２００−７のＮｏ）、担当データがなくなるまで、処理Ｓ２００−１からＳ２００−６を繰り返す。

なお、図１３における各スレッドがローカル出現頻度を加算する処理、及び図７における各スレッドグループがメモリ１３０の出現頻度にローカル出現頻度を加算する処理が、アトミック処理である。

第２方式出現頻度算出処理において、情報処理装置１００は、同一データ群に同一値のデータが重複する場合、代表スレッドのみがローカル出現頻度の加算処理を行うため、ローカル出現頻度を加算するアトミック処理の回数を抑制できる。

また、第２関数は、ｃｌｚ（ｃｌｚｌｌ）関数を使用しても良い。ｃｌｚ関数は、例えば、データ列を入力すると、データ列の先頭（もしくは最後尾）から、連続して存在する０の数を出力する。この出力数の次の位置に１が出現することがわかるため、ｆｆｓ関数と同様の出力を得ることができる。

＜方式判定処理＞
情報処理装置１００は、第１方式または第２方式出現頻度算出処理を用いて、入力データを処理する。情報処理装置１００は、データ処理Ｓ３００において、入力データに応じて、第１方式または第２方式出現頻度算出処理を選択する。

情報処理装置１００は、処理を高速化させるため、例えば、アトミック処理を行う回数が少ない第２方式出現頻度算出処理を選択する。なお、例えば、重複する数値がない入力データで第１方式及び第２方式出現頻度算出処理を行った時、第２方式出現頻度算出方式のほうが出現頻度の算出が早い場合、情報処理装置１００は、常に第２方式出現頻度算出方式を選択しても良い。

図１４は、データ処理Ｓ３００の処理フローチャートの例を示す図である。情報処理装置１００は、データ処理Ｓ３００において、データが入力されるのを待ち受ける（Ｓ３００−１のＮｏ）。

情報処理装置１００は、データが入力されると（Ｓ３００−１のＹｅｓ）、方式判定処理を行う（Ｓ４００）。方式判定処理Ｓ４００は、入力データに応じて方式を選択する処理である。

情報処理装置１００は、選択した方式が第１方式である場合（Ｓ３００−２の第１方式）、第１方式出現頻度算出処理Ｓ１００を実行し、再度入力データ待ち（Ｓ３００−１）に移行する。

一方、情報処理装置１００は、選択した方式が第２方式である場合（Ｓ３００−２の第２方式）、第２方式出現頻度算出処理Ｓ２００を実行し、再度入力データ待ち（Ｓ３００−１）に移行する。

＜１．データ種別による方式判定＞
図１５は、方式判定処理Ｓ４００の処理フローチャートの例を示す図である。情報処理装置１００は、入力データの種別を取得する（Ｓ４００−１）。情報処理装置１００は、データ種別が画像または動画である場合（Ｓ４００−２のＹｅｓ）、第２方式出現頻度算出処理を行うと判定し（Ｓ４００−３）、処理を終了する。

一方、情報処理装置１００は、データ種別が画像または動画でない場合（Ｓ４００−２のＮｏ）、第１方式出現頻度算出処理を行うと判定し（Ｓ４００−４）、処理を終了する。

画像や動画データは、一般的に、隣接するピクセルは同一色である、すなわち、同一値のデータであることが多い。言い換えると、画像や動画データは、同一値のデータを多く含むことが想定できるため、第２方式出現頻度算出処理を実行することで、アトミック処理の回数を抑制することができ、処理の高速化が可能となる。

＜２．要素数による方式判定＞
図１６は、方式判定処理Ｓ４００の処理フローチャートの例を示す図である。情報処理装置１００は、入力データのデータ数及び要素数（データの値の種類の数）を取得する（Ｓ４００−１）。情報処理装置１００は、データ数を要素数で除算する（Ｓ４００−２）。

情報処理装置１００は、除算結果が閾値以上である場合（Ｓ４００−３のＹｅｓ）、第２方式出現頻度算出処理を行うと判定し（Ｓ４００−４）、処理を終了する。

一方、情報処理装置１００は、除算結果が閾値以上でない場合（Ｓ４００−３のＮｏ）、第１方式出現頻度算出処理を行うと判定し（Ｓ４００−５）、処理を終了する。

除算結果は、各数値の重複数の平均値を示す。よって、除算結果が大きいほど、入力データ内に重複する数値が多い（重複する可能性が高い）ことを示す。そのため、情報処理装置１００は、除算結果が閾値より大きい時、第２方式出現頻度算出処理のほうが処理の高速化が可能と判定し、第２方式出現頻度算出処理を選択する。

［その他の実施の形態］
例えば、方式判定処理Ｓ４００は、ＣＰＵ１１０が実行しても良いし、ＧＰＵ１４０が実行しても良い。

以下、まとめると付記のようになる。

（付記１）
情報処理装置が有するＧＰＵ（グラフィックスプロセッシングユニット）実行させるプログラムであって、
複数のスレッドで構成されるスレッドグループを１以上構築する構築処理と、
前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得する取得処理と、
前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、
前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、
前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する加算処理と、を実行する
出現頻度算出プログラム。

（付記２）
前記第１記憶領域は、数値ごとの出現頻度をスレッドグループごとに記憶するローカル出現頻度記憶領域に含まれ、
前記ローカル出現頻度記憶領域は、前記ＧＰＵが有するメモリ内に存在する
付記１記載の出現頻度算出プログラム。

（付記３）
前記取得処理及び前記加算処理を、前記入力データの全てについて実行し、
前記スレッドグループは、自スレッドグループの前記ローカル出現頻度記憶領域に記憶した出現頻度を、全スレッドグループの出現頻度の合計を記憶する合計出現頻度記憶領域に加算する合計加算処理を実行する
付記２記載の出現頻度算出プログラム。

（付記４）
前記合計出現頻度記憶領域は、前記ＧＰＵが有するメモリ以外のメモリであって、前記情報処理装置が有するメモリ内に存在する
付記３記載の出現頻度算出プログラム。

（付記５）
前記加算処理の前記第１の数値が重複するか否かの判定において、前記データ群における対象数値の存在する位置を１とするビット列を生成する第１関数を使用する
付記１記載の出現頻度算出プログラム。

（付記６）
前記第１関数は、ｍａｔｃｈ関数を含む
付記５記載の出現頻度算出プログラム。

（付記７）
前記加算処理の前記代表スレッドか否かの判定において、前記ビット列内で１が最初又は最後に出現する位置を返す第２関数を使用する
付記５記載の出現頻度算出プログラム。

（付記８）
前記第２関数は、ｆｆｓ関数を含む
付記７記載の出現頻度算出プログラム。

（付記９）
前記加算処理の前記重複数の算出において、前記ビット列内の１の数を返す第３関数を使用する
付記７記載の出現頻度算出プログラム。

（付記１０）
前記第３関数は、ｐｏｐｃ関数を含む
付記９記載の出現頻度算出プログラム。

（付記１１）
さらに、前記加算処理に加え、前記第１の数値の前記データ群における重複の有無に関わらず、前記スレッドが前記第１記憶領域に１を加算する第２加算処理と、を有し、
前記入力データに応じて前記加算処理または前記第２加算処理のいずれか一方を選択する選択処理を、実行する
付記１記載の出現頻度算出プログラム。

（付記１２）
前記入力データが画像データである場合、前記加算処理を実行する
付記１１記載の出現頻度算出プログラム。

（付記１３）
前記画像データの画像は、静止画及び動画を含む
付記１２記載の出現頻度算出プログラム。

（付記１４）
前記入力データ内の各数値の平均重複数が閾値以上に多い場合、前記加算処理を実行する
付記１１記載の出現頻度算出プログラム。

（付記１５）
前記平均重複数は、前記入力データのデータ数を前記入力データの要素数で除算することで算出する
付記１４記載の出現頻度算出プログラム。

（付記１６）
前記ＧＰＵ以外の前記情報処理装置が有するプロセッサに前記選択処理を実行させる
付記１１記載の出現頻度算出プログラム。

（付記１７）
複数のスレッドで構成されるスレッドグループを１以上構築する構築処理と、
前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得する取得処理と、
前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、
前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、
前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する加算処理と、を実行する
情報処理装置が有するＧＰＵ（グラフィックスプロセッシングユニット）。

（付記１８）
複数のスレッドで構成されるスレッドグループを１以上構築する構築処理と、
前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得する取得処理と、
前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、
前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、
前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する加算処理とを、自装置が有するＧＰＵ（グラフィックスプロセッシングユニット）に実行させる
情報処理装置。

（付記１９）
複数のスレッドで構成されるスレッドグループを１以上構築する構築し、
前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得し、
前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、
前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、
前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する
出現頻度算出方法。

１０：情報処理システム
１００：情報処理装置
１１０：ＣＰＵ
１２０：ストレージ
１２１：データ処理プログラム
１２１１：方式判定モジュール
１３０：メモリ
１１０：ＧＰＵ
１４１１：第１方式出現頻度算出プログラム
１４１２：第２方式出現頻度算出プログラム
１４１３：第１関数プログラム
１４１４：第２関数プログラム
１４１５：第３関数プログラム
１４２：ローカルメモリ
２００：入力データ

Claims

情報処理装置が有するＧＰＵ（グラフィックスプロセッシングユニット）に実行させるプログラムであって、
複数のスレッドで構成されるスレッドグループを１以上構築する構築処理と、
前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得する取得処理と、
前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、
前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、
前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する加算処理と、を実行する
出現頻度算出プログラム。
前記第１記憶領域は、数値ごとの出現頻度をスレッドグループごとに記憶するローカル出現頻度記憶領域に含まれ、
前記取得処理及び前記加算処理を、前記入力データの全てについて実行し、
前記スレッドグループは、自スレッドグループの前記ローカル出現頻度記憶領域に記憶した出現頻度を、全スレッドグループの出現頻度の合計を記憶する合計出現頻度記憶領域に加算する合計加算処理を実行する
請求項１記載の出現頻度算出プログラム。
前記加算処理の前記第１の数値が重複するか否かの判定において、前記データ群における対象数値の存在する位置を１とするビット列を生成する第１関数を使用する
請求項１記載の出現頻度算出プログラム。
前記加算処理の前記代表スレッドか否かの判定において、前記ビット列内で１が最初又は最後に出現する位置を返す第２関数を使用する
請求項３記載の出現頻度算出プログラム。
前記加算処理の前記重複数の算出において、前記ビット列内の１の数を返す第３関数を使用する
請求項４記載の出現頻度算出プログラム。
さらに、前記加算処理に加え、前記第１の数値の前記データ群における重複の有無に関わらず、前記スレッドが前記第１記憶領域に１を加算する第２加算処理と、を有し、
前記入力データに応じて前記加算処理または前記第２加算処理のいずれか一方を選択する選択処理を、実行する
請求項１記載の出現頻度算出プログラム。
前記入力データ内の各数値の平均重複数が閾値以上に多い場合、前記加算処理を実行する
請求項６記載の出現頻度算出プログラム。
複数のスレッドで構成されるスレッドグループを１以上構築する構築処理と、
前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得する取得処理と、
前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、
前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、
前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する加算処理と、を実行する
情報処理装置が有するＧＰＵ（グラフィックスプロセッシングユニット）。
複数のスレッドで構成されるスレッドグループを１以上構築する構築処理と、
前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得する取得処理と、
前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、
前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、
前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する加算処理とを、自装置が有するＧＰＵ（グラフィックスプロセッシングユニット）に実行させる
情報処理装置。
複数のスレッドで構成されるスレッドグループを１以上構築する構築し、
前記スレッドグループは、構成するスレッドと同一数のデータを含むデータ群を入力データから取得し、
前記スレッドグループの複数のスレッドそれぞれは、前記データ群のうち１つのデータを担当し、
前記スレッドは、自スレッドが担当するデータの第１の数値が前記データ群において重複しない場合、前記第１の数値の出現頻度を記憶する第１記憶領域に１を加算し、
前記第１の数値が前記データ群において重複する場合、自スレッドが前記第１の数値のデータを担当するスレッド群に１つ存在する代表スレッドであるとき、前記第１記憶領域に前記重複する数を示す重複数を加算する
出現頻度算出方法。