JP6154491B2 - 計算機及びグラフデータ生成方法 - Google Patents

計算機及びグラフデータ生成方法 Download PDF

Info

Publication number
JP6154491B2
JP6154491B2 JP2015559717A JP2015559717A JP6154491B2 JP 6154491 B2 JP6154491 B2 JP 6154491B2 JP 2015559717 A JP2015559717 A JP 2015559717A JP 2015559717 A JP2015559717 A JP 2015559717A JP 6154491 B2 JP6154491 B2 JP 6154491B2
Authority
JP
Japan
Prior art keywords
graph
correlation matrix
data
graph data
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015559717A
Other languages
English (en)
Other versions
JPWO2015114830A1 (ja
Inventor
篤志 宮本
篤志 宮本
泰幸 工藤
泰幸 工藤
純一 宮越
純一 宮越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2015114830A1 publication Critical patent/JPWO2015114830A1/ja
Application granted granted Critical
Publication of JP6154491B2 publication Critical patent/JP6154491B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Description

本発明は、グラフデータを用いたビックデータ解析における計算機及びグラフデータ生成方法に関する。
Webやセンサ等から得られた大量のデータ(ビックデータ)を使用して、有用な知見(情報)を抽出するビックデータ解析が注目されている。ビックデータ解析では、統計学、パターン認識、及び人工知能等のデータ解析の技法を大量のデータに網羅的に適用することによって、データの中に潜む項目間の相関関係及びパターンを、知識として抽出する。データの中に隠れた潜在的な情報を「採掘(mining)」することから、ビックデータ解析はデータマイニングとも呼ばれる。ビックデータ解析の技法としては、例えば、統計学における相関分析、回帰分析、及び主成分分析、並びに、パターン認識、人工知能における機械学習、及びクラスタリング等がある。
ビックデータ解析において有用な知識を得るためには、膨大なデータの解析する必要がある。しかし、データ量の増加及びデータ解析方法の高度化に伴って、処理時間及びメモリ使用量の増加等がハードウェアリソースに対して過度な負担がかかることが課題となっている。特に、社会インフラ分野では、限られたハードウェアリソースを用いて、限られた時間内に効率的に結果を出力することが求められる。
例えば、統計的なデータ解析手法として基本的な相関分析及び主成分分析では、ビックデータから指標(特徴量、項目)を生成し、指標間の相関関係を導出する。このとき、指標の数がmである相関関係はm列m行の相関行列として与えられ、相関分析及び主成分分析は、相関行列の演算によって実行される。しかし、行列演算は全ての要素について演算処理を実行するために、全ての要素のデータを蓄積しなければならない。そのため、ビックデータを扱うシステムでは、計算量、及びメモリ使用量の観点から非常に効率が悪くなる。その結果、大量の指標から構成されるビックデータ(相関行列)の蓄積及び演算処理は、ハードウェアリソースに対して大きな負担となる。
ビックデータを圧縮して処理を効率化する方法としては、米国特許出願公開第2001/0011958号明細書(特許文献1)に記載の技術がある。特許文献1には、データの蓄積と通信コストの低減を目的に、ビックデータを多変量のデータ解析手法を用いて変換し、圧縮・再構成する技術が開示されている。特許文献1に開示されている方法は、サンプル数n、指標数mとして、n列m項目のオリジナルデータからm列m行の相関行列を得るステップと、相関行列の固有値と固有ベクトルを求めるステップと、固有値と固有ベクトルから因子負荷量の行列を求めるステップと、l列p行のランダム行列を生成するステップと、ランダム行列と因子負荷量の行列の乗算によってl列m行の中間データ行列を得るステップと、中間データ行列をスケールすることでl列m行の再構成されたデータ行列を得るステップと、を有する。データの再構成を可能とすることによって、通信及びデータの蓄積のコストを削減することができることが記載されている。
米国特許出願公開第2001/0011958号明細書
特許文献1に記載の方法は、データの蓄積及び通信のコストを低減するために、オリジナルデータのサンプル数nを圧縮することを主な課題としており、分析処理時におけるハードウェアリソースの制約までは十分に考慮されていない。また、特許文献1記載の方法では、相関分析又は主成分分析を行う場合、圧縮されたデータ列を再構築し、元のフォーマットに変換してから相関行列の演算を行い、その後に分析処理を実行する必要がある。そのため、特許文献1の方法では、指標数mはサンプル数nに対して十分に小さいことが前提とされている。
指標数mの増大に伴って、m列m行の相関行列がメモリに格納できないほど大きい場合、相関分析又は主成分分析などのデータ解析を行えなくなるという課題がある。社会インフラシステムの分析などにおいては、説明指標が100万規模になることも想定されるため、指標数の増加に伴う分析処理の効率化が必要不可欠となる。
本発明は、上述のような課題を解決するためになされたもので、大量の指標から構成される相関行列の分析処理において、データ量を圧縮することによって処理量を削減し、効率化することを目的とする。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、プロセッサ、及び前記プロセッサに接続されるメモリを備え、複数の指標の間の相関関係を示す値を要素とする相関行列データを用いた処理を実行する計算機であって、前記計算機は、記憶装置から取得される前記相関行列データから、一つの指標に対応する頂点、相関関係のある二つの前記頂点を接続するエッジ、及び前記要素の値であるエッジの重みから構成されるグラフデータを生成するグラフ処理部を備え、前記グラフ処理部は、前記相関行列データを用いた処理に対する制約条件に基づいて、圧縮された前記グラフデータを生成するための制御因子を算出する制御因子算出部と、前記制御因子を用いて、前記相関行列データから前記グラフデータを生成するグラフデータ生成部と、を含み、前記制御因子算出部は、前記相関行列データを用いた処理の完了時間である目標処理時間を前記制約条件として取得し、前記目標処理時間内に処理を完了するために、前記グラフデータに含めることが可能な最大エッジ数を算出し、前記最大エッジ数に基づいて、前記相関行列データから前記グラフデータに変換する要素を抽出するための閾値を算出し、前記閾値を前記制御因子として前記グラフデータ生成部に出力し、前記グラフデータ生成部は、前記閾値に基づいて、前記相関行列データから一つ以上の要素を抽出し、抽出された前記一つ以上の要素を識別するための前記指標の組合せ及び当該要素の値から、前記頂点、前記エッジ及び前記エッジの重みの情報を生成することによって前記グラフデータを生成することを特徴とする。
本発明によれば、制約条件に従って、大量の指標から構成される相関行列データを圧縮されたグラフデータに変換することができる。これによって、データ量を削減し、相関分析又は主成分分析等の高速なグラフ処理が可能となる。
上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
本発明の実施例1のグラフ処理装置の構成例を示すブロック図である。 本発明の実施例1のグラフ処理装置が適用されるシステム構成の一例を示すブロック図である。 本発明の実施例1における業務データの一例を示す説明図である。 本発明の実施例1における相関行列データの一例を示す説明図である。 本発明の実施例1のグラフ処理装置が実行する処理の概要を説明するフローチャートである。 本発明の実施例1のエッジ情報量算出処理の一例を説明するフローチャートである。 本発明の実施例1の相関値の頻度分布表の一例を示す説明図である。 本発明の実施例1のエッジ情報量の一例を示す説明図である。 本発明の実施例1の制御因子算出処理の一例を説明するフローチャートである。 本発明の実施例1の推定処理時間関数f(E)の一例を示す説明図である。 本発明の実施例1の制御因子の決定時に用いられる推定用エッジ情報量の一例を示す説明図である。 本発明の実施例1のグラフデータ生成処理の一例を説明するフローチャートである。 本発明の実施例1のグラフデータ生成処理に用いられる頂点リストの一例を示す説明図である。 本発明の実施例1のグラフデータ生成処理に用いられるエッジリストの一例を示す説明図である。 本発明の実施例1のグラフデータ生成処理における制御因子を用いた相関値の切り捨ての概念を示す説明図である。 本発明の実施例1のグラフデータ生成処理の実行後の頂点リスト及びエッジリストを示す説明図である。 本発明の実施例1のグラフデータ生成処理の実行後の頂点リスト及びエッジリストを示す説明図である。 本発明の実施例1のグラフデータに基づいて表示されるグラフの一例を示す説明図である。 本発明の実施例2のグラフ処理装置の構成例を示すブロック図である。 本発明の実施例2の制御因子算出処理の一例を説明するフローチャートである。 本発明の実施例2の推定メモリ使用量関数g(E,B)の一例を示す説明図である。 本発明の実施例2の推定メモリ使用量関数g(E,B)の一例を示す説明図である。 本発明の実施例2の相関値の表現ビット数の丸めの一例を示す説明図である。
以下、添付図面を参照して本発明の実施例について説明する。添付図面では、機能的に同じ要素は同じ番号で表示されている。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
まず、本発明の概要について説明する。
業務データに対する相関分析等の分析処理の実行時には、業務データから指標(特徴量、項目等)間の相関関係を示す相関行列データが生成される。指標の数がm個の場合、相関行列データはm行m列の行列データとなる。相関行列データは行列の要素を識別する指標の組合せ、及び要素の値から構成されるデータである。
ビックデータ解析では指標の数が多いため、相関行列データのサイズも大きい。そのため、メモリに相関行列データを格納することができない。そのため、業務データの解析処理の実行時には、相関行列データを取得するためにストレージ装置等に頻繁にアクセスする必要がある。したがって、ストレージ装置へのアクセスに伴う処理遅延が発生する。
また、m行m列の相関行列データは(m×m)個の要素を持ち、解析処理では、全ての要素のデータを処理する必要がある。指標間の相関がないことを示す値「0」の場合であっても、「0」という値を保持する必要がある。そのため、指標の数が増大すると、処理コスト及びデータ量が増大する。
(1)グラフデータへの変換
前述した課題を解決するために、本発明のグラフ処理装置100(図1参照)は、相関行列データをグラフデータに変換する。ここで、グラフデータは、指標を表す頂点、相関のある二つの頂点を接続するエッジ、及び要素の値を表すエッジの重みから構成されるデータ構造のデータであり、頂点間の接続関係をグラフとして把握することができる。エッジの重みが当該エッジで接続される二つの指標の間の相関関係の強さを表す。
相関関係が存在しない頂点との間にはエッジが存在しないため、グラフデータでは、相関関係がないことを示すデータを保持する必要がない。また、いずれの頂点とも接続されない場合はデータとして保持する必要がない。一方、相関行列データでは、二つの指標の間に相関関係がない場合であっても「0」を値とする要素としてデータを保持する必要がある。そのため、グラフデータは、相関行列データよりデータ量が少ない。
したがって、相関行列データをグラフデータに変換することによって、データ量を削減することができる。本発明では、グラフ処理装置100は、単に、相関行列データをグラフデータに変換するのではなく、グラフ処理の制約条件に基づいて圧縮されたグラフデータに変換する点に特徴がある。具体的には、以下の2つの処理を含むことに特徴がある。
(2)グラフデータに含めるエッジ数の調整
相関行列データをそのままグラフデータに変換しても、十分にデータ量を削減することができない可能性がある。そのため、本発明のグラフ処理装置100(図1参照)は、解析処理の処理完了時間である目標処理時間に応じて、グラフデータに含まれるエッジ数を調整する。
具体的には、グラフ処理装置100は、目標処理時間に基づいて、相関値を切り捨てるための閾値を決定する。さらに、グラフ処理装置100は、各要素の値の大きさ(絶対値)が閾値以下の要素の値を「0」に設定し、その上で、グラフデータに変換する。前述したように、「0」は二つの指標間に相関関係がないことを示し、また、相関関係がない場合にはエッジも存在しない。そのため、グラフデータに含まれるエッジ数を削減することができる。
(3)エッジの重みの表現ビット数の丸め
本発明のグラフ処理装置100は、メモリ容量に応じて、エッジの重みの表現ビット数を丸める。これによって、グラフデータを、メモリに格納可能なデータサイズに更に圧縮する。
以上のような処理を実行することによって、処理に必要なデータ量を削減することができる。すなわち、全てのグラフデータをメモリに格納することができるため、処理の高速化が可能となり、また、データ量の削減によって処理コストを抑制することができる。
図1は、本発明の実施例1のグラフ処理装置100の構成例を示すブロック図である。図2は、本発明の実施例1のグラフ処理装置100が適用されるシステム構成の一例を示すブロック図である。
図2に示すシステムは、グラフ処理装置100、基地局200、ユーザ端末210、及びセンサ群220から構成される。
グラフ処理装置100、基地局200及びセンサ群220に含まれる複数のセンサ221は、ネットワーク240を介して互いに接続される。ネットワーク240は、例えば、WAN、LAN等が考えられるが、本発明はネットワーク240の種別に限定されない。
ユーザ端末210は、基地局200を介して無線通信を介して、グラフ処理装置100等と接続される。なお、ユーザ端末210と基地局200との間は有線通信を介して接続されてよいし、ユーザ端末210が直接ネットワーク240と接続されてもよい。
グラフ処理装置100は、センサ群220に含まれる各センサ221から業務データ130を取得し、取得された業務データ130をストレージ装置104に格納する。また、グラフ処理装置100は、ユーザ端末210の指示に従って、グラフ処理を実行する。
ユーザ端末210は、例えばパーソナルコンピュータ又はタブレット端末等の装置である。ユーザ端末210は、プロセッサ(図示省略)、メモリ(図示省略)、ネットワークインタフェース(図示省略)、及び入出力装置(図示省略)を備える。入出力装置には、ディスプレイ、キーボード、マウス、及びタッチパネル等が含まれる。
ユーザ端末210は、グラフ処理装置100を操作するためのユーザインタフェース211を提供する。ユーザインタフェース211は、グラフ処理装置100に目標処理時間を入力し、また、グラフ処理装置100から出力されたグラフデータ及びグラフ処理の結果等を受け付ける。
グラフ処理装置100は、ハードウェア構成としてプロセッサ101、メモリ102、ネットワークインタフェース103、及びストレージ装置104を備える。
プロセッサ101は、メモリ102に格納されるプログラムを実行する。プロセッサ101がプログラムを実行することによって、グラフ処理装置100が有する各種機能部を実現できる。以下の説明では、機能部を主体に処理の説明をするときには、当該機能部を実現するプログラムがプロセッサ101によって実行されていることを示す。
メモリ102は、プロセッサ101によって実行されるプログラム及び当該プログラムの実行時に用いられる情報を格納する。メモリ102は、DRAM等が考えられる。メモリ102に格納されるプログラム及び情報については後述する。ネットワークインタフェース103は、WAN、LAN等のネットワークを介して外部の装置と接続するためのインタフェースである。
ストレージ装置104は、各種情報を格納する。ストレージ装置104は、HDD又はSSD等が考えられる。本実施例では、ストレージ装置104に業務データ130が格納される。なお、業務データ130における各種データの相関関係を示す相関行列データが格納されてもよい。
ここで、図3及び図4を用いて業務データ130及び相関行列データ400の一例について説明する。
図3は、本発明の実施例1における業務データ130の一例を示す説明図である。図4は、本発明の実施例1における相関行列データ400の一例を示す説明図である。
図3には、店舗における業務データ130を示す。業務データ130には、顧客毎の購入金額、購入点数、滞在時間、立ち止り時間などの情報が格納される。「購入金額」、「購入点数」、「滞在時間」、及び「立ち止り時間」を指標と呼ぶ。
相関行列データ400は、指標間の相関関係を要素とする行列データである。例えば、本実施例の行列データには、指標1「購入金額」と指標2「購入点数」との間の相関関係を示す情報が要素として含まれる。ここで、指標1と指標2との間の相関関係は、相関値として与えられる。例えば、下式(1)を用いて相関値が算出される。
Figure 0006154491
ここで、S1は指標1の標準偏差、S2は指標2の標準偏差、S12は指標1と指標2との間の共分散を表す。
相関値は、「−1」以上「1」以下であり、相関値が「1」に近いほど「正の相関」が強いことを表し、相関値が「−1」に近いほど「負の相関」が強いことを表す。また、「0」に近いほど指標間に相関がないことを表す。
すなわち、相関行列データ400は、全ての指標の組合せに対する相関値を要素とする行列形式のデータ構造であり、指標間の関係性を示すデータである。以下の説明では、業務データ130から算出された相関行列データ400が、予め、ストレージ装置104に格納されるものとする。
図1の説明に戻る。次に、メモリ102に格納されるプログラム及び情報について説明する。
メモリ102には、グラフ処理部110を実現するプログラムを格納する。グラフ処理部110は、相関行列データ400をグラフデータに変換し、すなわち、相関行列データ400からグラフデータを生成する。また、グラフ処理部110は、グラフデータを用いて任意のグラフ処理を実行する。グラフ処理部110は、複数のプログラムモジュールから構成される。具体的には、グラフ処理部110は、エッジ情報量算出部111、制御因子算出部112、グラフデータ生成部113、グラフ処理部114、グラフデータ格納部115を含む。
エッジ情報量算出部111は、ストレージ装置104から相関行列データ400の要素を読み出し、相関値とエッジ数との間の関係を示すエッジ情報量を算出する。また、エッジ情報量算出部111は、算出されたエッジ情報量を制御因子算出部112に出力する。ここで、エッジ情報量は、相関行列データ400をグラフデータに変換する場合に含めることが可能なエッジの数を推定するための情報である。エッジ情報量算出部111が実行する処理の詳細は、図6を用いて後述する。
制御因子算出部112は、相関行列データ400をグラフデータに変換する場合に、データの圧縮に用いられる制御因子を算出する。本実施例では、制御因子算出部112は、エッジ情報量及び目標処理時間に基づいてグラフデータに含めるエッジ数を調整するための閾値を制御因子として算出する。また、制御因子算出部112は、算出された制御因子をグラフデータ生成部113に出力する。制御因子算出部112が実行する処理の詳細は、図8を用いて後述する。
グラフデータ生成部113は、算出された制御因子を用いて相関行列データ400からグラフデータを生成する。グラフデータ生成部113は、グラフデータ格納部115に生成されたグラフデータを格納し、また、ユーザ端末210に生成されたグラフデータを送信する。グラフデータ生成部113が実行する処理の詳細は、図11を用いて後述する。
グラフ処理部114は、グラフデータを用いて任意のグラフ処理を実行する。グラフ処理としては、例えば、行列演算の固有値計算に利用可能なPageRank処理、中心性計算処理等が考えられる。本発明は、グラフ処理の処理内容に限定されず、汎用的に用いられる様々なグラフアルゴリズムを適用することができる。グラフ処理部114は、ユーザ端末210にグラフ処理の結果を送信する。
次に、本実施例のグラフ処理装置100が実行する処理について説明する。図5は、本発明の実施例1のグラフ処理装置100が実行する処理の概要を説明するフローチャートである。
グラフ処理装置100は、ユーザ端末210から処理の開始指示を受信した場合、又は周期的に、以下で説明する処理を実行する。
グラフ処理装置100は、ストレージ装置104に格納される業務データ130から相関行列データ400を生成する(ステップS501)。具体的には、グラフ処理部110が相関行列データ400を生成する。なお、ストレージ装置104に相関行列データ400が格納されている場合には、ステップS501の処理は省略することができる。
グラフ処理装置100は、エッジ情報量算出処理を実行する(ステップS502)。具体的には、エッジ情報量算出部111が、相関行列データ400を解析し、解析結果に基づいてエッジ情報量を算出する。エッジ情報量算出部111が実行するエッジ情報量算出処理の詳細は、図6を用いて後述する。
グラフ処理装置100は、ユーザ端末210から目標処理時間を取得する(ステップS503)。具体的には、グラフ処理部110が、ユーザ端末210に対して目標処理時間の入力を要求する。このとき、ユーザインタフェース211は、当該要求を受け付けると、ディスプレイ等に目標処理時間を入力するための操作画面を表示し、当該操作画面を用いて入力された目標処理時間をグラフ処理装置100に送信する。グラフ処理装置100は、ユーザ端末210から受信した目標処理時間を制御因子算出部112に入力する。
グラフ処理装置100は、エッジ情報量及び目標処理時間を用いて制御因子算出処理を実行する(ステップS504)。具体的には、制御因子算出部112が、エッジ情報量及び目標処理時間を用いて、圧縮されたグラフデータの生成に用いる制御因子を算出する。制御因子算出部112が実行する制御因子算出処理の詳細は、図8を用いて後述する。
グラフ処理装置100は、制御因子を用いてグラフデータ生成処理を実行する(ステップS505)。具体的には、グラフデータ生成部113が、算出された制御因子を用いて、相関行列データ400からグラフデータを生成する。グラフデータ生成部113が実行するグラフデータ生成処理の詳細は、図11を用いて後述する。
グラフ処理装置100は、生成されたグラフデータを用いてグラフ処理を実行する(ステップS506)。具体的には、グラフ処理部114が、生成されたグラフデータを用いて所定のグラフ処理を実行し、グラフ処理の結果をユーザ端末210に送信する。
図6は、本発明の実施例1のエッジ情報量算出処理の一例を説明するフローチャートである。図7Aは、本発明の実施例1の相関値の頻度分布表700の一例を示す説明図である。図7Bは、本発明の実施例1のエッジ情報量の一例を示す説明図である。
エッジ情報量算出部111は、相関行列データ400における相関値の頻度分布表(ヒストグラム)700を生成する(ステップS601)。
ここで、相関値の頻度分布表700は、相関値を所定の値の範囲毎にカウントした度数分布を表す柱状グラフであり、図7Aに示すようなグラフとなる。図7Aでは、値の範囲は「0.01」である。なお、相関値の頻度分布表700における値の範囲は予め設定されているものとする。ただし、外部からの入力に基づいて、値の範囲を変更することができる。
エッジ情報量算出部111は、相関行列データ400の要素のループ処理を開始する(ステップS602)。まず、エッジ情報量算出部111は、相関行列データ400から要素を一つ選択し、選択された要素の値(相関値)を読み出す。
エッジ情報量算出部111は、読み出された要素の値の絶対値、すなわち、相関値の絶対値を算出する(ステップS603)。エッジ情報量算出部111は、算出された相関値の絶対値に基づいて、相関値の頻度分布表700を更新する(ステップS604)。具体的には、エッジ情報量算出部111は、相関値の絶対値が含まれる値の範囲の度数を1加算する。なお、エッジ情報量算出部111は、相関値の頻度分布表700の更新後、読み出された要素の値を削除する。
エッジ情報量算出部111は、相関行列データ400の全ての要素について処理が完了したか否かを判定する(ステップS605)。相関行列データ400の全ての要素について処理が完了していないと判定された場合、エッジ情報量算出部111は、ステップS602に戻り、同様の処理を実行する。一方、相関行列データ400の全ての要素について処理が完了したと判定された場合、エッジ情報量算出部111は、ステップS606に進む。
相関行列データ400の要素のループ処理が完了すると、相関値の頻度分布表700は図7Aに示すような状態になる。
エッジ情報量算出部111は、相関値の頻度分布表700に基づいてエッジ情報量を算出し(ステップS606)、制御因子算出部112に算出されたエッジ情報量を出力する(ステップS607)。その後、エッジ情報量算出部111は処理を終了する。具体的には、以下のような処理が実行される。
エッジ情報量算出部111は、相関値の絶対値「k」までの度数の合計値、すなわち、度数の累積頻度を算出する。横軸を相関値の絶対値、縦軸を度数の累積頻度として、算出された度数の累積頻度をプロットする。エッジ情報量算出部111は、プロット結果から相関値の絶対値と累積頻度との間の関係を示す関数E(k)をエッジ情報量として算出する。本実施例では、エッジ情報量E(k)は、図7Bに示すようなグラフ701として与えられる。
累積頻度は、相関値の頻度分布表700における相関値の絶対値が「k」までの度数の合計値を表す。例えば、E(0.3)は相関値の絶対値が「0」から「0.3」までの度数の合計値である。したがって、E(1)は相関行列データ400の全要素の数と一致する。
図8は、本発明の実施例1の制御因子算出処理の一例を説明するフローチャートである。図9は、本発明の実施例1の推定処理時間関数f(E)の一例を示す説明図である。図10は、本発明の実施例1の制御因子の決定時に用いられる推定用エッジ情報量の一例を示す説明図である。
制御因子算出部112は、エッジ情報量が入力されると処理を開始する。制御因子算出部112は、エッジ情報量E(k)を変数とする推定処理時間関数f(E)を求める(ステップS801)。
制御因子算出部112は、グラフ解析処理のアルゴリズムに基づいて推定処理時間関数f(E)を算出することができる。例えば、グラフ分析処理において、主成分分析に用いる固有値問題を解く場合、アルゴリズムの収束計算の繰り返し回数をa、単位エッジ当たりの処理時間をb、変数Eとして場合、下式(2)で与えられる。
Figure 0006154491
図9には、式(2)によって求められた推定処理時間関数f(E)を示す。なお、エッジ情報量E(k)は推定処理時間関数f(E)の定義域として与えられる。
次に、制御因子算出部112は、ユーザ端末210から目標処理時間を取得する(ステップS802)。例えば、制御因子算出部112は、ユーザ端末210に対して、目標処理時間の入力を要求する。ユーザ端末210は、ユーザインタフェース211を介して当該要求を受け付けると、ディスプレイに目標処理時間を入力するための操作画面等を表示する。以下の説明では取得された目標処理時間がTであるものとする。
制御因子算出部112は、目標処理時間及び推定処理時間関数f(E)を用いて、目標処理時間内にグラフ処理が完了可能な最大エッジ数EMAXを算出する(ステップS803)。
本実施例では、制御因子算出部112は式(2)から最大エッジ数Eを算出できる。具体的には下式(3)のように最大エッジ数EMAXが算出される。図9の点線は、式(3)を用いて算出される最大エッジ数EMAXを示す。
Figure 0006154491
制御因子算出部112は、エッジ情報量E(k)及び最大エッジ数EMAXを用いて相関値の閾値を算出する(ステップS804)。具体的には、以下のような処理が実行される。
制御因子算出部112は、まず、エッジ情報量E(k)を用いて推定用エッジ情報量E'(k)を求める。本実施例では、下式(4)に示すように推定用エッジ情報量E'(k)が求められる。推定用エッジ情報量E'(k)は、図10に示すようなグラフ1000として与えられる。
Figure 0006154491
制御因子算出部112は、推定用エッジ情報量E'(k)及び最大エッジ数EMAXを用いて相関値の閾値を算出する。具体的には、制御因子算出部112は、式(4)の左辺をEMAXとし、下式(5)のように変更することによって相関値の絶対値kを算出する。算出された相関値の絶対値kが相関値の閾値となる。図10の点線は、式(5)を用いて算出された相関値の閾値を示す。相関値の閾値は、後述するように、グラフデータ生成処理において相関値の切り捨ての閾値(制御因子)として用いられる。
Figure 0006154491
制御因子算出部112は、グラフデータ生成部113に、算出された相関値の閾値を制御因子として出力し(ステップS805)、処理を終了する。
図11は、本発明の実施例1のグラフデータ生成処理の一例を説明するフローチャートである。図12Aは、本発明の実施例1のグラフデータ生成処理に用いられる頂点リスト1200の一例を示す説明図である。図12Bは、本発明の実施例1のグラフデータ生成処理に用いられるエッジリスト1210の一例を示す説明図である。図13は、本発明の実施例1のグラフデータ生成処理における制御因子を用いた相関値の切り捨ての概念を示す説明図である。図14A及び図14Bは、本発明の実施例1のグラフデータ生成処理の実行後の頂点リスト1200及びエッジリスト1210を示す説明図である。図15は、本発明の実施例1のグラフデータに基づいて表示されるグラフの一例を示す説明図である。
まず、頂点リスト1200及びエッジリスト1210について説明する。
頂点リスト1200は、グラフデータにおける頂点(指標)、及び頂点を接続するエッジの情報を管理するための情報である。図12Aに示す頂点リスト1200は、頂点ID1201、指標ID1202、及び接続エッジ情報1203を含む。
頂点ID1201は、頂点を一意に識別するための識別情報を格納する。一つの頂点に対して一つの頂点IDが付与される。指標ID1202は、頂点に対応する指標の識別情報である。グラフデータでは、一つの指標が一つの頂点として管理される。接続エッジ情報1203は、頂点ID1201に対応する頂点に接続されるエッジの情報である。
エッジリスト1210は、グラフデータにおけるエッジ(辺)を管理するための情報である。図12Bに示すエッジリスト1210はエッジID1211、接続頂点A1212、接続頂点B1213、及び重み1214を含む。
エッジID1211は、エッジを一意に識別するための識別情報を格納する。一つのエッジに対して一つのエッジIDが付与される。接続頂点A1212及び接続頂点B1213は、エッジによって接続される二つの頂点の識別情報を格納する。重み1214は、エッジの重み、すなわち、相関値を格納する。
グラフデータ生成部113は、制御因子が入力されると処理を開始する。グラフデータ生成部113は、まず、頂点リスト1200及びエッジリスト1210を初期化する(ステップS1101)。
具体的には、グラフデータ生成部113は、相関行列データ400の全ての指標の数だけ頂点リスト1200にエントリを生成し、生成されたエントリの指標ID1202に指標の識別情報を設定する。グラフデータ生成部113は、各指標に頂点IDを付与し、各エントリの頂点ID1201に付与された頂点IDを設定する。この時点では、接続エッジ情報1203は空の状態である。また、グラフデータ生成部113は、空のエッジリスト1210を生成する。
グラフデータ生成部113は、相関行列データ400の要素のループ処理を開始する(ステップS1102)。まず、グラフデータ生成部113は、相関行列データ400から要素を一つ読み出す。なお、グラフデータ生成部113が要素を一つずつ読み出すと、頻繁にI/Oが発生するため、例えば、相関行列データ400の行単位に要素を読み出し、読み出された要素をメモリ102に一時的に保持してもよい。
グラフデータ生成部113は、読み出された要素の相関値の絶対値が相関値の閾値(制御因子)より小さいか否かを判定する(ステップS1103)。読み出された要素の相関値の絶対値が相関値の閾値(制御因子)より小さいと判定された場合、グラフデータ生成部113は、ステップS1105に進む。
読み出された要素の相関値の絶対値が相関値の閾値(制御因子)以上であると判定された場合、グラフデータ生成部113は、頂点リスト1200及びエッジリスト1210を更新する(ステップS1104)。具体的には、以下のような処理が実行される。
グラフデータ生成部113は、エッジリスト1210にエントリを追加し、追加されたエントリのエッジID1211にエッジの識別情報を設定する。また、グラフデータ生成部113は、追加されたエントリの接続頂点A1212及び接続頂点B1213に、読み出された要素に対応する二つの指標を設定する。さらに、グラフデータ生成部113は、追加されたエントリの重み1214に読み出された要素の相関値を設定する。
グラフデータ生成部113は、頂点リスト1200を参照し、指標ID1202が接続頂点A1212に設定された指標の識別情報と一致するエントリを検索する。グラフデータ生成部113は、検索されたエントリの接続エッジ情報1203に、エッジID1211に設定されたエッジの識別情報を設定する。グラフデータ生成部113は、同様に、指標ID1202が接続頂点B1213に設定された指標の識別情報と一致するエントリを検索し、当該エントリの接続エッジ情報1203にエッジの識別情報を設定する。
なお、接続エッジ情報1203に、追加予定のエッジの識別情報と同一のエッジの識別情報が格納されている場合、グラフデータ生成部113は、追加予定のエッジの識別情報を設定しない。これは追加する必要がないためである。
以上がステップS1104の処理の説明である。
グラフデータ生成部113は、相関行列データ400の全ての要素について処理が完了したか否かを判定する(ステップS1105)。相関行列データ400の全ての要素について処理が完了していないと判定された場合、グラフデータ生成部113は、ステップS1102に戻り、同様の処理を実行する。一方、相関行列データ400の全ての要素について処理が完了したと判定された場合、グラフデータ生成部113は、ステップS1106に進む。
相関行列データ400の要素のループ処理は、図13に示すように、相関値の絶対値が相関値の閾値(制御因子)より小さい要素の値を「0」に設定して、その後グラフデータを生成する処理に対応する。
グラフデータ生成部113は、頂点リスト1200を参照し、いずれのエッジにも接続されていない頂点のエントリを当該頂点リスト1200から削除する(ステップS1106)。具体的には、グラフデータ生成部113は、接続エッジ情報1203にエッジの識別情報が一つも格納されていないエントリを検索し、当該エントリを頂点リスト1200から削除する。
以上の処理が終了すると、頂点リスト1200及びエッジリスト1210は、図14A及び図14Bに示すような状態になる。
グラフデータ生成部113は、頂点リスト1200及びエッジリスト1210をグラフデータとして出力し(ステップS1107)、処理を終了する。本実施例では、グラフデータ生成部113は、頂点リスト1200及びエッジリスト1210をグラフデータ格納部115に出力し、また、ユーザ端末210に送信する。ユーザ端末210は、受信したグラフデータに基づいて図15に示すようなグラフを表示することができる。
本実施例では、グラフデータは、頂点リスト1200及びエッジリスト1210から構成されるものとするが、本発明はリスト表現に限定されず、そのほかのグラフ表現方法を用いてもよい。
ここで、図4、図14A、図14B、及び図15を用いて相関行列データ400とグラフデータとのデータ量について説明する。
図4に示すように、5行5列の相関行列データ400では、25個の指標の組合せのそれぞれについて相関値を保持する必要がある。一方、グラフデータでは、5個の頂点の情報と、エッジの重みを含む10個のエッジの情報とを保持すればよい。したがって、グラフ処理装置100は、相関行列データ400をグラフデータに変換することによって、データ量を圧縮することができる。
実施例1によれば、グラフ処理装置100は、単に相関行列データ400をグラフデータに変換するだけではなく、目標処理時間内に処理が完了できるように制御因子を用いてグラフデータに含まれるエッジの数を調整し、その後、グラフデータを生成する。これによって、生成されたグラフデータは更に圧縮されたデータとなるため、メモリ102にデータを配置することができ、当該メモリ102上のグラフデータを用いて高速なグラフ解析処理が可能となる。すなわち、相関行列データをグラフデータとして圧縮し、大量の指標の相関分析又は主成分分析等のビックデータ解析において、データ量を削減し、かつ、高速な処理を実現できる。
(変形例)
実施例1では、相関値の絶対値が相関値の閾値より小さい要素の値を「0」とすることによってエッジとして保持するデータ量を削減したが、本発明はこれに限定されない。例えば、グラフデータ生成部113は、相関値の絶対値が相関値の閾値より大きい要素のみを抽出し、抽出された要素からグラフデータを生成してもよい。
次に実施例2について説明する。実施例2では、目標処理時間だけではなく、ユーザによって指定されたメモリ制限量をも考慮して、さらに、圧縮されたグラフデータを生成する。具体的には、制御因子算出部112が、グラフデータに含めるエッジ数を調整するため閾値、及びエッジの重みの表現ビット数を制御因子として算出する。これによって、グラフ処理装置100は、エッジ数の削減し、さらに、エッジの重みの表現ビット数を丸めることによって、さらに、データ量を圧縮する。以下実施例1との差異を中心に実施例2について説明する。なお、実施例1と同一の構成には同一の符号を付し、詳細な説明は省略する。
図16は、本発明の実施例2のグラフ処理装置100の構成例を示すブロック図である。なお、グラフ処理装置100が適用されるシステム構成例は実施例1と同一であるため説明を省略する。
図16に示すように、ユーザ端末210は、目標処理時間に加え、メモリ制限量を入力する点が実施例1と異なる。制御因子算出部112は、目標処理時間及びメモリ制限量に基づいて、相関値の閾値及びエッジの重みに対する丸めビット数を算出する。その他の構成は実施例1と同一である。
相関行列データ400のデータ形式は、実施例と同一であるため説明を省略する。グラフ処理装置100が実行する処理の概要も実施例1と同一であるため説明を省略する。また、エッジ情報量算出処理も実施例1と同一であるため説明を省略する。実施例2では、制御因子算出処理及びグラフデータ生成処理の一部の内容が異なる。
図17は、本発明の実施例2の制御因子算出処理の一例を説明するフローチャートである。図18A及び図18Bは、本発明の実施例2の推定メモリ使用量関数g(E,B)の一例を示す説明図である。図19は、本発明の実施例2の相関値の表現ビット数の丸めの一例を示す説明図である。
実施例2の制御因子算出処理では、制御因子算出部112は、推定処理時間関数f(E)を求めた後、相関値の表現ビット数毎に、エッジ情報量に対する推定メモリ使用量関数g(E,B)を求める(ステップS1701)。ここで、Eはエッジ数、Bは表現ビット数を表す。
推定メモリ使用量関数g(E,B)はエッジの重みを何ビットで表現するかによって複数存在する。例えば、1ビットで重みを表現した場合の一つのエッジ当たりのメモリ使用量をx、エッジ数をE、エッジのビット数yとして場合、推定メモリ使用量関数g(E,B)は、下式(6)ように求められる。
Figure 0006154491
図18A及び図18Bには、式(6)によって求められた推定メモリ使用量関数g(E,B)を示す。なお、エッジ情報量E(k)は推定メモリ使用量関数g(E,B)の定義域として与えられる。
ステップS1701の後、制御因子算出部112は、ユーザ端末210から目標処理時間及びメモリ制限量を取得する(ステップS1702)。メモリ制限量の取得方法は、目標処理時間と同様の方法を用いればよい。以下の説明では取得された目標処理時間がT、メモリ制限量がGであるものとする。
制御因子算出部112は、最大エッジ数EMAXを算出した後(ステップS803)、最大エッジ数、メモリ制限量、及び推定メモリ使用量関数g(E,B)に基づいて、エッジの重みの表現ビット数を決定する(ステップS1703)。具体的には、以下のような処理が実行される。
制御因子算出部112は、各推定メモリ使用量関数g(E,B)に最大エッジ数EMAXを代入し、推定メモリ使用量を算出する。制御因子算出部112は、算出された推定メモリ使用量が下式(7)を満たすものを抽出する。
Figure 0006154491
制御因子算出部112は、式(7)を満たす推定メモリ使用量の中から最も大きいビット数を特定し、特定されたビット数をエッジの重みの表現ビット数に決定する。
例えば、図18Aに示す例ではエッジの重みの表現ビット数は3ビットと決定され、図18Bに示す例ではエッジの重みの表現ビット数は2ビットと決定される。
制御因子算出部112は、相関値の閾値を算出した後(ステップS804)、グラフデータ生成部113に、当該相関値の閾値及び表現ビット数を制御因子として出力し(ステップS1704)、処理を終了する。
実施例2のグラフ生成処理の流れは、実施例1のグラフ生成処理(図11参照)と同一である。ただし、ステップS1104の処理が一部異なる。
具体的には、グラフデータ生成部113は、エッジリスト1210に追加されたエントリの重み1214に相関値を設定する場合、制御因子として入力された表現ビット数に基づいて相関値を丸めて、丸められた相関値を重み1214に設定する。
例えば、丸める前の相関値の表現ビット数が4ビットであり、これを3ビットに丸める場合、最上位ビットは符号ビットとする。例えば、「0」の場合「正」の相関値に対応し、「1」の場合「負」の相関値に対応するようにすればよい。また、相関値の絶対値の大きさに応じて図19に示すような符号化を与えればよい。なお、符号は図19に示す以外の符号化であってもよい。
その他の処理は実施例1と同一である。
実施例2によれば、メモリ制限量に従って、エッジの重みの表現ビット数を丸めることによって、グラフデータを更に圧縮することができる。すなわち、システムにおいて使用可能なメモリ容量の制約のもと、目標処理時間内に処理可能なデータ量のグラフデータを生成することができる。これによって、相関行列データ400から生成されたグラフデータを全てメモリ102上に配置し、メモリ102上に配置されたデータを用いて高速なグラフ処理が可能となる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

Claims (10)

  1. プロセッサ、及び前記プロセッサに接続されるメモリを備え、複数の指標の間の相関関係を示す値を要素とする相関行列データを用いた処理を実行する計算機であって、
    前記計算機は、記憶装置から取得される前記相関行列データから、一つの指標に対応する頂点、相関関係のある二つの前記頂点を接続するエッジ、及び前記要素の値であるエッジの重みから構成されるグラフデータを生成するグラフ処理部を備え、
    前記グラフ処理部は、
    前記相関行列データを用いた処理に対する制約条件に基づいて、圧縮された前記グラフデータを生成するための制御因子を算出する制御因子算出部と、
    前記制御因子を用いて、前記相関行列データから前記グラフデータを生成するグラフデータ生成部と、を含み、
    前記制御因子算出部は、
    前記相関行列データを用いた処理の完了時間である目標処理時間を前記制約条件として取得し、
    前記目標処理時間内に処理を完了するために、前記グラフデータに含めることが可能な最大エッジ数を算出し、
    前記最大エッジ数に基づいて、前記相関行列データから前記グラフデータに変換する要素を抽出するための閾値を算出し、
    前記閾値を前記制御因子として前記グラフデータ生成部に出力し、
    前記グラフデータ生成部は、
    前記閾値に基づいて、前記相関行列データから一つ以上の要素を抽出し、
    抽出された前記一つ以上の要素を識別するための前記指標の組合せ及び当該要素の値から、前記頂点、前記エッジ及び前記エッジの重みの情報を生成することによって前記グラフデータを生成することを特徴とする計算機。
  2. 請求項1に記載の計算機であって、
    前記グラフデータ生成部は、
    前記相関行列データの要素の値の大きさが前記閾値より小さい前記要素の値を零に設定し、
    前記相関行列データから前記要素の値が零でない前記要素を抽出することを特徴とする計算機。
  3. 請求項1に記載の計算機であって、
    前記グラフデータ生成部は、
    前記相関行列データから、前記要素の値の大きさが前記閾値より大きい前記要素を抽出することを特徴とする計算機。
  4. 請求項2又は請求項3に記載の計算機であって、
    前記グラフ処理部は、前記相関行列データの要素の値を解析することによって前記相関行列データの要素の値の度数分布を生成するエッジ情報量算出部を含み、
    前記制御因子算出部は、
    前記エッジの数と、前記相関行列データを用いた処理の完了時間との関係を示す関数を算出し、
    前記関数及び前記目標処理時間に基づいて前記最大エッジ数を算出し、
    前記度数分布及び前期最大エッジ数に基づいて前記閾値を算出することを特徴とする計算機。
  5. 請求項4に記載の計算機であって、
    前記制御因子算出部は、
    さらに、前記メモリの使用制限量を前記制約条件として取得し、
    前記メモリの使用制限量に基づいて、前記グラフデータの大きさが前記メモリの使用制限量より小さくなるように前記エッジの重みの表現ビット数を決定し、
    前記閾値及び前記エッジの重みの表現ビット数を前記制御因子として出力し、
    前記グラフデータ生成部は、前記エッジの重みを、前記決定された表現ビット数に丸めることを特徴とする計算機。
  6. プロセッサ、及び前記プロセッサに接続されるメモリを備え、複数の指標の間の相関関係を示す値を要素とする相関行列データを用いた処理を実行する計算機におけるグラフデータ生成方法であって、
    前記計算機は、記憶装置から取得される前記相関行列データから、一つの指標に対応する頂点、相関関係のある二つの前記頂点を接続するエッジ、及び前記要素の値であるエッジの重みから構成されるグラフデータを生成するグラフ処理部を備え、
    前記グラフ処理部は、
    前記相関行列データを用いた処理に対する制約条件に基づいて、圧縮された前記グラフデータを生成するための制御因子を算出する制御因子算出部と、
    前記制御因子を用いて、前記相関行列データから前記グラフデータを生成するグラフデータ生成部と、を含み、
    前記グラフデータ生成方法は、
    前記制御因子算出部が、前記相関行列データを用いた処理の完了時間である目標処理時間を前記制約条件として取得する第1のステップと、
    前記制御因子算出部が、前記目標処理時間内に処理を完了するために、前記グラフデータに含めることが可能な最大エッジ数を算出する第2のステップと、
    前記制御因子算出部が、前記最大エッジ数に基づいて、前記相関行列データから前記グラフデータに変換する要素を抽出するための閾値を算出する第3のステップと、
    前記制御因子算出部が、前記閾値を前記制御因子として前記グラフデータ生成部に出力する第4のステップと、
    前記グラフデータ生成部が、前記閾値に基づいて、前記相関行列データから一つ以上の要素を抽出する第5のステップと、
    前記グラフデータ生成部が、抽出された前記一つ以上の要素を識別するための前記指標の組合せ及び当該要素の値から、前記頂点、前記エッジ及び前記エッジの重みの情報を生成することによって前記グラフデータを生成する第6のステップと、を含むことを特徴とするグラフデータ生成方法。
  7. 請求項6に記載のグラフデータ生成方法であって、
    前記第5のステップは、
    前記相関行列データの要素の値の大きさが前記閾値より小さい前記要素の値を零に設定するステップと、
    前記相関行列データから前記要素の値が零でない前記要素を抽出するステップと、を含むことを特徴とするグラフデータ生成方法。
  8. 請求項6に記載のグラフデータ生成方法であって、
    前記第5のステップは、前記相関行列データから、前記要素の値の大きさが前記閾値より大きい前記要素を抽出するステップを含むことを特徴とするグラフデータ生成方法。
  9. 請求項7又は請求項8に記載のグラフデータ生成方法であって、
    前記グラフ処理部は、前記相関行列データの要素の値を解析することによって前記相関行列データの要素の値の度数分布を生成するエッジ情報量算出部を含み、
    前記第1のステップは、前記エッジの数と、前記相関行列データを用いた処理の完了時間との関係を示す関数を算出するステップを含み、
    前記第2のステップは、前記関数及び前記目標処理時間に基づいて前記最大エッジ数を算出するステップを含み、
    前記第3のステップは、前記度数分布及び前期最大エッジ数に基づいて前記閾値を算出するステップを含むことを特徴とするグラフデータ生成方法。
  10. 請求項9に記載のグラフデータ生成方法であって、
    前記第1のステップでは、さらに、前記メモリの使用制限量を前記制約条件として取得し、
    前記第2のステップは、前記メモリの使用制限量に基づいて、前記グラフデータの大きさが前記メモリの使用制限量より小さくなるように前記エッジの重みの表現ビット数を決定するステップを含み、
    前記第4のステップでは、前記閾値及び前記エッジの重みの表現ビット数を前記制御因子として出力し、
    前記第6のステップは、前記エッジの重みを、前記決定された表現ビット数に丸めるステップを含むことを特徴とするグラフデータ生成方法。
JP2015559717A 2014-02-03 2014-02-03 計算機及びグラフデータ生成方法 Expired - Fee Related JP6154491B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052441 WO2015114830A1 (ja) 2014-02-03 2014-02-03 計算機及びグラフデータ生成方法

Publications (2)

Publication Number Publication Date
JPWO2015114830A1 JPWO2015114830A1 (ja) 2017-03-23
JP6154491B2 true JP6154491B2 (ja) 2017-06-28

Family

ID=53756440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015559717A Expired - Fee Related JP6154491B2 (ja) 2014-02-03 2014-02-03 計算機及びグラフデータ生成方法

Country Status (3)

Country Link
US (1) US9846679B2 (ja)
JP (1) JP6154491B2 (ja)
WO (1) WO2015114830A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7335158B2 (ja) 2019-12-26 2023-08-29 株式会社三井ハイテック 加工装置及び加工方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10120956B2 (en) * 2014-08-29 2018-11-06 GraphSQL, Inc. Methods and systems for distributed computation of graph data
JP6546704B2 (ja) * 2017-02-16 2019-07-17 株式会社日立製作所 データ処理方法、分散型データ処理システム及び記憶媒体
US11120082B2 (en) 2018-04-18 2021-09-14 Oracle International Corporation Efficient, in-memory, relational representation for heterogeneous graphs

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7337090B1 (en) * 1994-05-25 2008-02-26 Emc Corporation Apparatus and method for event correlation and problem reporting
KR100316720B1 (ko) 2000-01-20 2001-12-20 윤종용 통계적 기법을 이용하여 데이터를 압축 및 재현하는 방법
US7451124B2 (en) * 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
JP2007087125A (ja) * 2005-09-22 2007-04-05 Wakayama Univ 生命情報の可視化方法、可視化プログラム及び記憶媒体
JP2007207101A (ja) * 2006-02-03 2007-08-16 Infocom Corp グラフ生成方法、グラフ生成プログラム並びにデータマイニングシステム
JP5854274B2 (ja) * 2012-03-28 2016-02-09 ソニー株式会社 情報処理装置および方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7335158B2 (ja) 2019-12-26 2023-08-29 株式会社三井ハイテック 加工装置及び加工方法

Also Published As

Publication number Publication date
WO2015114830A1 (ja) 2015-08-06
JPWO2015114830A1 (ja) 2017-03-23
US9846679B2 (en) 2017-12-19
US20160321213A1 (en) 2016-11-03

Similar Documents

Publication Publication Date Title
JP6232522B2 (ja) 計算機及びグラフデータ生成方法
CN111652380A (zh) 针对机器学习算法进行算法参数调优的方法及系统
US9361343B2 (en) Method for parallel mining of temporal relations in large event file
CN105339924A (zh) 作为服务的有效数据压缩和分析
KR102125119B1 (ko) 데이터 핸들링 방법 및 장치
JP6111543B2 (ja) 類似サブ時系列の抽出方法及び装置
JP6154491B2 (ja) 計算機及びグラフデータ生成方法
WO2014109388A1 (ja) テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
JP7000766B2 (ja) 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置
US20150331833A1 (en) Price-and-branch algorithm for mixed integer linear programming
US20110238606A1 (en) Kernel regression system, method, and program
KR102002573B1 (ko) 빠른 직교 투영
US20190171775A1 (en) System and methods for faster processor comparisons of visual graph features
WO2016147260A1 (ja) 画像検索装置、及び画像を検索する方法
CN111198939B (zh) 语句相似度的分析方法、装置及计算机设备
JP7145059B2 (ja) モデルの予測根拠提示システム及びモデルの予測根拠提示方法
CN106844550B (zh) 一种虚拟化平台操作推荐方法及装置
CN106104427A (zh) 输入的感知内容的重新格式化
CN106599122B (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
US20100205075A1 (en) Large-scale item affinity determination using a map reduce platform
JP2014215685A (ja) レコメンドサーバおよびレコメンドコンテンツ決定方法
JPWO2021033338A5 (ja)
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
JP2014115911A (ja) 情報推薦装置、情報推薦方法、及び情報推薦プログラム
JP5515117B2 (ja) データ処理装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170601

R150 Certificate of patent or registration of utility model

Ref document number: 6154491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees