JP5534885B2 - 分散データ処理最適化装置および分散データ処理最適化方法 - Google Patents

分散データ処理最適化装置および分散データ処理最適化方法 Download PDF

Info

Publication number
JP5534885B2
JP5534885B2 JP2010065619A JP2010065619A JP5534885B2 JP 5534885 B2 JP5534885 B2 JP 5534885B2 JP 2010065619 A JP2010065619 A JP 2010065619A JP 2010065619 A JP2010065619 A JP 2010065619A JP 5534885 B2 JP5534885 B2 JP 5534885B2
Authority
JP
Japan
Prior art keywords
processing
data
processing system
distributed data
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010065619A
Other languages
English (en)
Other versions
JP2011198189A (ja
Inventor
一嘉 西
正隆 山田
誠一郎 田中
純一 山本
美千代 池上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010065619A priority Critical patent/JP5534885B2/ja
Publication of JP2011198189A publication Critical patent/JP2011198189A/ja
Application granted granted Critical
Publication of JP5534885B2 publication Critical patent/JP5534885B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、処理すべき大規模なデータを分散して処理する分散データ処理を実行する分散データ処理最適化装置および分散データ処理最適化方法に関する。
近年、例えばApache Hadoopに代表されるように、分散データ処理(分散処理)への関心およびニーズが高まっている。分散データ処理においては、処理すべき大規模なデータが複数のデータ処理部において分散して処理される。
この分散データ処理によれば、処理すべき大規模なデータの処理が複数のデータ処理部で実行されるため、1つのデータ処理部のみで当該処理が実行される場合と比較して、高速な処理が可能となる。
分散データ処理に関連する技術として、大量のデータを多面的に分析するデータマイニングなどのデータ分析処理を複数の処理装置を並列に動作させて実行する場合に、分析対象データの転送量、転送回数を少なく抑え、かつ、各々の処理装置において必要となる主記憶の量を少なく抑えることができる技術(以下、先行技術と表記)が開示されている(例えば、特許文献1を参照)。この先行技術によれば、大量データ分析方法に適するように設計されたデータ格納方法を特に必要としないので、一般のデータベースシステムに格納されたデータを分析対象とすることができる。
ところで、分散データ処理を実行するシステム(装置)において、上記した複数のデータ処理部を有する処理システムが複数備えられている場合がある。この場合、複数の処理システムは、例えば互いに異なる環境(分散環境)で動作する。換言すれば、このような複数の処理システムの各々が動作する分散環境について、色々な区分けが存在する。この分散環境の区分けとしては、例えば外部にはデータを出すことができないプライベート環境および外部にデータを出すことができるパブリック環境のような区分けが存在する。また、例えば高度な数値計算用の環境および画像処理用の環境のような区分けが存在する。
このような区分けが存在する分散環境における処理(つまり、当該分散環境で動作する処理システムにおける処理)において、当該処理システムが請け負うべきデータがどのようなデータであるかという情報(区分けの情報)が予め用意されていない場合には、処理の対象となるデータ(以下、処理対象データと表記)が適切な処理システムで処理されない場合がある。
ここで、上記したように例えばプライベート環境で動作する処理システム(以下、第1の処理システムと表記)およびパブリック環境で動作する処理システム(以下、第2の処理システムと表記)が存在する場合において、処理対象データが外部に出すことができないデータである場合を想定する。この場合において、第1および第2の処理システムがどのような分散環境で動作するかという情報(区分けの情報)が予め用意されていない場合には、処理対象データが第1の処理システムで処理されるべきであることを判定(決定)することはできない。
また、区分けの情報が予め用意されている場合であっても、処理対象データが処理されるべき分散環境(つまり、当該処理対象データがどの処理システムで処理されるべきか)を決定する処理(区分けの処理)が重い場合には、当該処理に長時間を要する場合がある。
そこで、処理対象データが処理されるべき分散環境を分析して決定する処理(以下、処理対象データの分析処理と表記)を高速にするために、当該処理対象データの分析処理を分散して処理(つまり、分散データ処理)することが考えられる。この場合、処理対象データの分析処理が分散データ処理され、その後、当該処理対象データの分析処理において決定された分散環境で動作する処理システムにおいて当該処理対象データが分散データ処理される。
特開2001−167098号公報
しかしながら、処理対象データの分析処理を分散データ処理すると、上記したように当該処理対象データの分析処理および当該処理対象データ自体の処理(以下、処理対象データの本処理と表記)の両方が分散データ処理されることになる。
この場合、分散データ処理において必要となる前処理(例えば、分散環境における負荷確認またはデータ処理部に対する処理の依頼等)および後処理(例えば、処理結果データの収集等)が、処理対象データの分析処理および処理対象データの本処理における分散データ処理毎に必要となるため、より高速な処理が必要であるような場合においてはこれらの前処理および後処理が足かせとなる場合がある。
そこで、本発明の目的は、異なる環境で動作する複数の処理システムが存在する場合であっても高速に適切な処理システムにおいて分散データ処理することが可能な分散データ処理最適化装置および分散データ処理最適化方法を提供することにある。
本発明の第1の態様によれば、処理すべきデータを分散して処理する分散データ処理の基本単位とされるデータを外部から入力する入力手段と、前記分散データ処理するための第1および第2の処理システムであって、互いに異なる環境で動作する第1および第2の処理システムとを具備し、前記第1の処理システムは、前記入力されたデータを分析する分析手段と、前記分析手段による分析結果に基づいて、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定する判定手段と、前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定された場合、当該データを分散データ処理する分散データ処理手段とを含み、前記第2の処理システムは、前記入力されたデータを前記第1の処理システムにおいて処理すべきでないと判定された場合、当該データを分散データ処理することを特徴とする分散データ処理最適化装置が提供される。
本発明の第2の態様によれば、処理すべきデータを分散して処理する分散データ処理の基本単位とされるデータを入力する入力手段と、前記分散データ処理するための第1の処理システムおよび複数の第2の処理システムであって、互いに異なる環境で動作する第1の処理システムおよび複数の第2の処理システムと、前記複数の第2の処理システムの各々を示す処理システム情報に対応づけて当該第2の処理システムが動作する環境を示す環境情報を格納する格納手段とを具備し、前記第1の処理システムは、前記入力されたデータを分析する分析手段と、前記分析手段による分析結果に基づいて、前記入力されたデータが処理されるべき環境を判別する判別手段と、前記判別手段による判別結果に基づいて、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定する判定手段と、前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定された場合、当該データを分散データ処理する分散データ処理手段とを含み、前記複数の第2の処理システムのうち、前記判別された環境を示す環境情報に対応づけて前記格納手段に格納されている処理システム情報によって示される第2の処理システムは、前記入力されたデータを前記第1の処理システムにおいて処理すべきでないと判定された場合、当該データを分散データ処理することを特徴とする分散データ処理最適化装置が提供される。
本発明は、異なる環境で動作する複数の処理システムが存在する場合であっても高速に適切な処理システムにおいて分散データ処理することを可能とする。
本発明の第1の実施形態に係る分散データ処理最適化装置の主として機能構成を示すブロック図。 図1に示す接続処理部10に含まれる処理システム情報DB13のデータ構造の一例を示す図。 本実施形態に係る分散データ処理最適化装置の処理手順を示すフローチャート。 本発明の第2の実施形態に係る分散データ処理最適化装置の主として機能構成を示すブロック図。 図4に示す接続処理部50に含まれる処理システム情報DB51のデータ構造の一例を示す図。 本実施形態に係る分散データ処理最適化装置の処理手順を示すフローチャート。
以下、図面を参照して、本発明の各実施形態について説明する。
[第1の実施形態]
まず、図1を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る分散データ処理最適化装置の主として機能構成を示すブロック図である。
本実施形態に係る分散データ処理最適化装置においては、後述するように、処理すべき大規模なデータを分散して処理する分散データ処理が実行される。
図1に示すように、分散データ処理最適化装置は、接続処理部10および上記した分散データ処理するための複数の処理システムを備える。図1に示す分散データ処理最適化装置においては、複数の処理システムとして第1の処理システム20および第2の処理システム30が備えられている。
ここで、本実施形態に係る分散データ処理最適化装置に備えられる第1の処理システム20および第2の処理システム30は、互いに異なる環境(分散環境)で動作するものとする。具体的には、第1の処理システム20は例えば外部にはデータを出すことができないプライベート環境で動作し、第2の処理システム30は例えば外部にデータを出すことができるパブリック環境で動作するものとする。なお、プライベート環境は、例えばクラウドコンピューティングにおけるプライベートクラウド上の環境であり、パブリック環境は、例えばパブリッククラウド上の環境である。
本実施形態においては、分散データ処理最適化装置に備えられる処理システムの各々(第1の処理システム20および第2の処理システム30)が動作する環境のうち処理されるべき適切な環境が不明なデータが分散データ処理される場合を想定している。
接続処理部10は、分散データ処理最適化装置において実行される分散データ処理の基本単位とされるデータの各々を外部から順次入力し、第1の処理システム20または第2の処理システム30において当該データが分散データ処理された結果を外部に出力する機能を有する。
接続処理部10は、内部番号付与部11、データ送出部12、処理システム情報データベース(DB)13、判定情報処理部14および結果データ収集部15を含む。
内部番号付与部11は、接続処理部10によって入力されたデータ(以下、入力データと表記)毎に、分散データ処理最適化装置において使用する番号(以下、内部番号と表記)を付与する。入力データ毎に付与される内部番号は、当該入力データ毎に発番され、当該入力データを一意に識別可能な番号である。
データ送出部12は、内部番号付与部11によって内部番号が付与された入力データを第1の処理システム20に送信(送出)する。このとき、データ送出部12は、内部番号付与部11によって内部番号が付与された入力データの複製(レプリカ)を、当該データ送出部12の内部に保存する。なお、入力データの複製は、当該入力データに付与された内部番号とともに保存される。
また、データ送出部12は、内部に保存された入力データの複製を第2の処理システム30に送信する機能を有する。
処理システム情報DB13は、第1の処理システム20および第2の処理システム30に関する情報が格納されるデータベースである。処理システム情報DB13には、第1の処理システム20を示す処理システム情報に対応づけて当該第1の処理システム20に割り当てられているIP(Internet Protocol)アドレスが格納されている。同様に、処理システム情報DB13には、第2の処理システム30を示す処理システム情報に対応づけて当該第2の処理システム30に割り当てられているIPアドレスが格納されている。
判定情報処理部14は、後述する第1の処理システム20から送信された情報に基づいて、例えば第2の処理システム30に割り当てられているIPアドレスを処理システム情報DB13から取得する。また、判定情報処理部14は、処理システム情報DB13から取得されたIPアドレスを、データ送出部12に渡す(通知する)。このIPアドレスは、データ送出部12が入力データ(の複製)を第2の処理システム30に送信する際に用いられる。
結果データ収集部15は、第1の処理システム20および第2の処理システム30において入力データが分散データ処理された結果(以下、処理結果データと表記)を収集する。また、結果データ収集部15は、収集された処理結果データを分散データ処理最適化装置の外部に出力する。
第1の処理システム20は、分散データ処理制御部21および分散データ処理部22を含む。なお、図1においては省略されているが、分散データ処理部22は、複数存在する。つまり、処理すべき大規模なデータは、複数の分散データ処理部22において分散して処理(つまり、分散データ処理)される。
分散データ処理制御部21は、接続処理部10に含まれるデータ送出部12によって送信された入力データを受信する。分散データ処理制御部21は、複数の分散データ処理部22の各々の負荷状況を勘案し、受信された入力データに対する処理(分散データ処理)を分散データ処理部22に依頼する。
分散データ処理部22は、データ読み込み部23、データ分析部24および本処理部25を含む。
データ読み込み部23は、分散データ処理制御部21によって分散データ処理が依頼された入力データを読み込む。
データ分析部24は、データ読み込み部23によって読み込まれた入力データを分析する。また、データ分析部24は、判定部241および処理呼び出し部242を含む。
判定部241は、データ分析部24による分析結果に基づいて、データ読み込み部23によって読み込まれた入力データを第1の処理システム20において処理すべきか否か(の区分け)を判定する。
判定部241は、入力データを第1の処理システム20において処理すべきと判定された場合、当該入力データを処理呼び出し部242に渡す。
判定部241は、入力データを第1の処理システム20において処理すべきでないと判定された場合、当該判定結果および当該入力データに付与されている内部番号(の情報)を接続処理部10に含まれる判定情報処理部14に送信する。
処理呼び出し部242は、判定部241から渡された入力データを用いて、本処理部25を呼び出す。
本処理部25は、入力データに対する分散データ処理を実行する。また、本処理部25は、入力データが分散データ処理された結果(処理結果データ)を、分散データ処理制御部21を介して接続処理部10に含まれる結果データ収集部15に送信する。
第2の処理システム30は、分散データ処理制御部31および分散データ処理部32を含む。なお、図1においては省略されているが、分散データ処理部32は、上記した第1の処理システム20に含まれる分散データ処理部22と同様に複数存在する。
分散データ処理制御部31は、上記した第1の処理システム20に含まれる分散データ処理制御部21と同様の機能を有する機能部である。
分散データ処理部32は、データ読み込み部33および本処理部34を含む。データ読み込み部33は、上記した第1の処理システム20の分散データ処理部22に含まれるデータ読み込み部23と同様の機能を有する機能部である。また、本処理部34は、上記した第1の処理システム20に含まれる分散データ処理部22に含まれる本処理部25と同様の機能を有する機能部である。
図2は、図1に示す接続処理部10に含まれる処理システム情報DB13のデータ構造の一例を示す。処理システム情報DB13には、処理システム(第1の処理システム20および第2の処理システム30)毎に、当該処理システムに関する情報が格納される。
図2に示すように、処理ステム情報DB13には、処理システムID、処理システム名およびIPアドレスが対応づけて格納されている。
処理システムIDは、処理システムを識別するための識別子である。処理システム名は、処理システムIDによって識別される処理システムの名称である。IPアドレスは、処理システムIDによって識別される処理システムに割り当てられているIPアドレスである。
図2に示す例では、処理システム情報DB13には、処理システムID「K001」、処理システム名「第1の処理システム」およびIPアドレス「172.26.xxx.xxx」が対応づけて格納されている。これによれば、処理システムID「K001」によって識別される処理システム(ここでは、第1の処理システム20)の処理システム名は「第1の処理システム」であり、当該第1の処理システム20に割り当てられているIPアドレスが「172.26.xxx.xxx」であることが示されている。
また、処理システム情報DB13には、処理システムID「K002」、処理システム名「第2の処理システム」およびIPアドレス「172.26.yyy.yyy」が対応づけて格納されている。これによれば、処理システムID「K002」によって識別される処理システム(ここでは、第2の処理システム30)の処理システム名は「第2の処理システム」であり、当該第2の処理システム30に割り当てられているIPアドレスが「172.26.yyy.yyy」であることが示されている。
次に、図3のフローチャートを参照して、本実施形態に係る分散データ処理最適化装置の処理手順について説明する。
まず、接続処理部10は、処理すべき大規模なデータを分散して処理する分散データ処理の基本単位とされるデータを分散データ処理最適化装置の外部から入力する(ステップS1)。接続処理部10によって入力されるデータには、例えば文字列が含まれる。
ここでは、接続処理部10は、例えばグループ会社内で書かれたPDFファイル形式の調査報告書(データ)を入力するものとする。なお、分散データ処理最適化装置においては、接続処理部10によって入力されたデータに対する分散データ処理として例えば調査報告書の文書分類処理が行われるものとする。以下、接続処理部10によって入力されたデータを入力データとする。
次に、接続処理部10に含まれる内部番号付与部11は、接続処理部10によってデータが入力されると、ユニークな内部番号を発番する。内部番号付与部11は、内部番号として例えばD00001を発番する。内部番号付与部11は、入力データに対して発番された内部番号を付与する(ステップS2)。なお、内部番号付与部11によって内部番号が付与された入力データは、データ送出部12に渡される。
データ送出部12は、内部番号が付与された入力データを内部番号付与部11から受け取ると、当該入力データの複製(レプリカ)を当該データ送出部12の内部に保存する(ステップS3)。このとき、データ送出部12は、入力データに付与された内部番号に対応づけて当該入力データの複製を保存する。
また、データ送出部12は、内部番号が付与された入力データを第1の処理システム20に対して送信する。このとき、データ送出部12は、例えば第1の処理システム20を識別するための処理システムIDに対応づけて処理システム情報DB13に格納されているIPアドレス(つまり、第1の処理システム20に割り当てられているIPアドレス)を用いて入力データを送信する。
第1の処理システム20に含まれる分散データ処理制御部21は、データ送出部12によって送信された入力データ(内部番号が付与された入力データ)を受信する。分散データ処理制御部21は、第1の処理システム20に含まれる分散データ処理部(つまり、当該分散データ処理制御部21が管轄している分散データ処理部)22の各々の負荷状況を確認し、受信された入力データを処理するのに適切な分散データ処理部22に対して当該入力データの処理(分散データ処理)を手配する(ステップS4)。つまり、分散データ処理制御部21は、受信された入力データの処理を適切な分散データ処理部22に割り当てる処理を実行する。
分散データ処理制御部21によって入力データの処理が手配された分散データ処理部22に含まれるデータ読み込み部23は、当該入力データを読み込む(ステップS5)。ここでは、入力データはPDFファイル形式の調査報告書であるため、データ読み込み部23は、例えば当該入力データ(PDFデータ)のテキストデータ化を実行する。
次に、データ分析部24は、データ読み込み部23によって読み込まれた入力データを分析することによって、当該入力データのチェックを行う(ステップS6)。この場合、データ分析部24は、データ読み込み部23によってテキストデータ化された入力データを解析(文字列解析)する。これによって、データ分析部24は、入力データに含まれる文字列を抽出する。
データ分析部24に含まれる判定部241は、データ分析部24による分析結果(解析結果)に基づいて、入力データを第1の処理システム20において処理すべきであるか否か(つまり、入力データを自ら処理すべきか否か)を判定する(ステップS7)。換言すれば、このステップS7の処理において、入力データが第1の処理システム20が動作する環境(ここでは、プライベート環境)において処理されるべきか、または、第2の処理システム30が動作する環境(ここでは、パブリック環境)において処理されるべきかの区分けが決定される。
具体的には、判定部241は、データ分析部24によって抽出された文字列(入力データに含まれる文字列)の中に、例えば「社外秘」のような予め定められた(登録された)文字列が存在するか(含まれるか)否かを判定する。換言すれば、判定部241は、テキストデータ化された入力データから「社外秘」の文字列がデータ分析部24によって抽出(検索)されたか否かを判定する。
データ分析部24によって抽出された文字列の中に予め定められた文字列「社外秘」が存在する(含まれる)場合には、判定部241は、入力データは外部に出すことができないとして、当該入力データを第1の処理システム20(が動作するプライベート環境)において処理すべきであると判定する。一方、データ分析部24によって抽出された文字列の中に予め定められた文字列「社外秘」が存在しない(含まれない)場合には、判定部241は、入力データは外部に出すことができるとして、当該入力データを第1の処理システム20において処理すべきでない(つまり、第2の処理システム30が動作するパブリック環境において処理すべきである)と判定する。
入力データを第1の処理システム20において処理すべきでない、つまり、入力データを自ら処理すべきでないと判定された場合(ステップS7のNO)、判定部241は、当該入力データに付与されている内部番号および当該判定結果(ステップS7における判定結果)を接続処理部10に含まれる判定情報処理部14に対して送信する(ステップS8)。
具体的には、判定部241は、入力データに付与されている内部番号として例えば「INTERNAL_ID=D00001」を送信する。また、判定部241は、判定結果として、入力データを第1の処理システム20において処理すべきでない旨を意味する例えばキーバリュー形式の「非該当環境=第1の処理システム20が動作するプライベート環境」という情報を生成し、送信する。
また、判定部241は、分散データ処理制御部21において、分散データ処理部22に対して処理を依頼した入力データと当該入力データに対する分散データ処理の結果(データ)との数を合わせるために、当該入力データに対する分散データ処理の結果としての空データ(nullデータ)を分散データ処理制御部21に返す(ステップS9)。
次に、接続処理部10に含まれる判定情報処理部14は、判定部241によって送信された内部番号および判定結果を受信する。この場合、判定情報処理部14は、例えば「INTERNAL_ID=D00001(内部番号) 非該当環境=第1の処理システム20が動作するプライベート環境(判定結果)」という情報を受信する。
判定情報処理部14は、内部番号および判定結果が受信されると、第1の処理システム20でない処理システム(つまり、第2の処理システム30)に入力データを送信するための指示処理を開始する。
この場合、判定情報処理部14は、第2の処理システム30に割り当てられているIPアドレスを入力データの送り先情報として処理システム情報DB13から取得する(ステップS10)。この場合、判定情報処理部14は、第2の処理システム30を識別するための処理システムID「K002」(および当該第2の処理システム30の処理システム名「第2の処理システム」)に対応づけて処理システム情報DB13に格納されているIPアドレス「172.26.yyy.yyy」を取得する。
なお、判定情報処理部14は、受信された内部番号および判定結果と取得されたIPアドレスとをデータ送出部12に渡す。この場合、判定情報処理部14は、例えば「INTERNAL_ID=D00001(内部番号) 非該当環境=第1の処理システム20が動作するプライベート環境(判定結果) 実行予定環境=第2の処理システム30が動作するパブリック環境、172.26.yyy.yyy(IPアドレス)」という情報(データ)をデータ送出部12に渡す。
データ送出部12は、判定情報処理部14から渡された内部番号に対応づけて当該データ送出部12の内部に保存されている入力データ(の複製)を第2の処理システム30に対して送信する(ステップS11)。この場合、データ送出部12は、判定情報処理部14から渡されたIPアドレス(第2の処理システム30に割り当てられているIPアドレス)を用いて入力データを送信する。
第2の処理システム30に含まれる分散データ処理制御部31は、データ送出部12によって送信された入力データを受信する。分散データ処理制御部31は、第2の処理システム30に含まれる分散データ処理部(つまり、当該分散データ処理制御部31が管轄している分散データ処理部)32の各々の負荷状況を確認し、受信された入力データを処理するのに適切な分散データ処理部32に対して当該入力データの処理(分散データ処理)を手配する。つまり、分散データ処理制御部31は、上記した第1の処理システム20に含まれる分散データ処理制御部21と同様に、受信された入力データの処理を適切な分散データ処理部32に割り当てる処理を実行する。
分散データ処理制御部31によって入力データの処理が手配された分散データ処理部32に含まれるデータ読み込み部33は、当該入力データを読み込む(ステップS12)。
次に、本処理部34は、データ読み込み部33によって読み込まれた入力データに対する分散データ処理を実行する(ステップS13)。ここでは、本処理部34は、入力データに対する分散データ処理として調査報告書の文書分類処理を実行する。
本処理部34は、入力データが分散データ処理された結果(処理結果データ)を、分散データ処理制御部31を介して接続処理部10に対して送信する。
接続処理部10に含まれる結果データ収集部15は、本処理部34によって送信された処理結果データを収集する(ステップS14)。
また、結果データ収集部15は、収集された処理結果データを外部に出力する(ステップS15)。
一方、上記したステップS7において、入力データを第1の処理システム20において処理すべきである、つまり、入力データを自ら処理すべきであると判定された場合、データ分析部24に含まれる処理呼び出し部242は、本処理部25を呼び出す。
処理呼び出し部242によって呼び出された本処理部25は、データ読み込み部23によって読み込まれた入力データに対する分散データ処理を実行する(ステップS16)。
本処理部25は、入力データが分散データ処理された結果(処理結果データ)を、分散データ処理制御部21を介して接続処理部10に対して送信する。
接続処理部10に含まれる結果データ収集部15は、本処理部25によって送信された処理結果データを収集する(ステップS17)。ステップS17の処理が実行されると、上記したステップS15の処理が実行される。
なお、上述した図3に示す処理は、接続処理部10において順次入力されるデータ毎、つまり、分散データ処理最適化装置において実行される分散データ処理の基本単位とされるデータ毎に実行される。
上記したように本実施形態においては、外部から入力されたデータ(入力データ)が第1の処理システム20において分析され、当該分析結果に基づいて当該入力データを第1の処理システム20において処理すべきであるか否かが判定される。本実施形態においては、入力データを第1の処理システム20において処理すべきであると判定された場合には当該入力データは当該第1の処理システム20において分散データ処理され、一方、入力データを第1の処理システム20において処理すべきでないと判定された場合には当該入力データは当該第1の処理システム20ではない処理システム(ここでは、第2の処理システム30)において分散データ処理される。
よって、本実施形態においては、例えば第1の処理システム20に含まれる同一の分散データ処理部22内において入力データが処理されるべき環境(の区分け)の判定処理および当該入力データの分散データ処理(本処理)が実行されることにより、異なる環境で動作する複数の処理システム(第1の処理システム20および第2の処理システム30)が存在する場合であっても高速に適切な処理システムにおいて入力データを分散データ処理することが可能となる。
また、本実施形態においては、例えば入力データが処理されるべき環境の判定処理(データ分析処理)を単に分散データ処理化した場合と比較して、当該分散データ処理における前処理および後処理の回数を低減することができるため、処理されるべき環境が不明(未知)の入力データであっても高速に処理することが可能となる。具体的には、本実施形態によれば、データ分析処理を分散データ処理化して分析結果を得た後に、データの本処理を分散データ処理化して処理結果を得る場合に比べても、例えば、プライベート環境およびパブリック環境の2つの分散環境で行われる場合では、3回の分散データ処理に関する前処理および後処理が2回で済む。
また、本実施形態においては、入力データが処理されるべき環境の判定処理が重い処理である場合には、より処理に必要な時間を短縮することができる。
なお、本実施形態においては、分散データ処理最適化装置に互いに異なる環境で動作する第1の処理システム20および第2の処理システム30の2つの処理システムが備えられ、第1の処理システム20で分散データ処理されない入力データは全て第2の処理システム30で分散データ処理されるものとして説明したが、分散データ処理最適化装置に3つ以上の処理システムが備えられる構成であっても構わない。
分散データ処理最適化装置に例えば3つの処理システム(例えば、第1〜第3の処理システム)が備えられている場合には、本実施形態における第1の処理システム20の分散データ処理部22に含まれるデータ分析部24に相当する機能部が第1および第2の処理システムに含まれる。この場合において、第1の処理システムのデータ分析部(に含まれる判定部)において入力データが当該第1の処理システムにおいて処理すべきでないと判定された場合には、第2の処理システムのデータ分析部(に含まれる判定部)において入力データが第2の処理システムにおいて処理すべきであるか否かが判定される。つまり、第2の処理システムのデータ分析部において入力データが第2の処理システムにおいて処理すべきであると判定された場合には当該入力データは第2の処理システムにおいて分散データ処理され、一方、第2の処理システムのデータ分析部において入力データが第2の処理システムにおいて処理すべきでないと判定された場合には当該入力データは第3の処理システムにおいて分散データ処理されることになる。
なお、分散データ処理最適化装置に4つ以上の処理システムが備えられる場合についても同様である。
また、本実施形態においては、接続処理部10によって入力されたデータ(入力データ)が分散データ処理の基本単位とされるデータであるものとして説明したが、例えば当該入力データが分散データ処理の基本単位に分割されていないデータであっても構わない。この場合、例えば第1の処理システム内の分散データ処理制御部21において入力データが分散データ処理の基本単位に分割され、当該分割されたデータに対して内部番号が付与される。この内部番号は、分散データ処理制御部21内に用意された内部番号付与部11に相当する機能部で付与されてもよいし、接続処理部10内の内部番号付与部11で付与されても構わない。また、内部番号が付与されたデータのコピーは、データ送出部12に送られる。なお、データ送出部12に相当する機能部が第1の処理システム20および第2の処理システム30内にあって、接続情報処理部14の判定情報処理部14に問い合わせる構成であっても構わない。
[第2の実施形態]
次に、図4を参照して、本発明の第2の実施形態について説明する。図4は、本実施形態に係る分散データ処理最適化装置の主として機能構成を示すブロック図である。なお、前述した図1と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図1と異なる部分について主に述べる。
図4に示すように、本実施形態に係る分散データ処理最適化装置は、接続処理部50および分散データ処理するための複数の処理システムを備える。なお、図4に示す分散データ処理最適化装置においては、複数の処理システムとして第1の処理システム60、第2の処理システム30および第3の処理システム70が備えられている。
ここで、本実施形態に係る分散データ処理最適化装置に備えられる第1の処理システム60、第2の処理システム30および第3の処理システム70は、前述した第1の実施形態と同様に、互いに異なる環境(分散環境)で動作するものとする。具体的には、第1の処理システム60は、例えば画像処理に強い環境で動作するものとする。第2の処理システム30は、例えば文書処理に強い環境で動作するものとする。また、第3の処理システム70は、例えば数値計算処理に強い環境で動作するものとする。
接続処理部50は、前述した第1の実施形態における処理システム情報DB13および判定情報処理部14に代えて、処理システム情報DB51および判定情報処理部52を含む。
処理システム情報DB51は、第1の処理システム60、第2の処理システム30および第3の処理システム70に関する情報が格納されるデータベースである。処理システム情報DB51には、各処理システム(つまり、第1の処理システム60、第2の処理システム30および第3の処理システム70)毎に、当該処理システムを示す処理システム情報、当該処理システムに割り当てられているIPアドレスおよび当該処理システムが動作する環境を示す環境情報が対応づけて格納されている。
判定情報処理部52は、後述する第1の処理システム60から送信された情報に基づいて、処理システム情報DB51から入力データ(接続処理部50によって入力された分散データ処理の基本単位とされるデータ)を送信すべき処理システムに割り当てられているIPアドレスを取得する。判定情報処理部52は、処理システム情報DB51から取得されたIPアドレスをデータ送出部12に渡す(通知する)。
第1の処理システム60は、分散データ処理部61を含む。なお、図4においては省略されているが、分散データ処理部61は、前述した第1の実施形態における分散データ処理部22と同様に複数存在する。
分散データ処理部61は、入力データを分散データ処理する機能を有する。分散データ処理部61は、データ分析部62を含む。
データ分析部62は、前述した第1の実施形態におけるデータ分析部24と同様に、データ読み込み部23によって読み込まれた入力データを分析する機能を有する。データ分析部62は、判定部621を含む。
判定部621は、データ分析部24による分析結果に基づいて、データ読み込み部23によって読み込まれた入力データが処理されるべき環境を判別する。
判定部621は、判別結果(判別された入力データが処理されるべき環境)に基づいて、データ読み込み部23によって読み込まれた入力データを第1の処理システム60において処理すべきか否かを判定する。つまり、判定部621は、入力データを第1の処理システム60が動作する環境(画像処理に強い環境)において処理すべきか否かを判定する。
判定部621は、入力データを第1の処理システム60において処理すべきでないと判定された場合、当該入力データを第1の処理システム60において処理すべきでない旨の判定結果、当該入力データに付与されている内部番号および当該入力データが処理されるべき環境を示す判別結果(の情報)を接続処理部50に含まれる判定情報処理部52に送信する。
第2の処理システム30については、前述した第1の実施形態において説明した通りであるため、その詳しい説明を省略する。
第3の処理システム70は、分散データ処理制御部71および分散データ処理部72を含む。なお、図4においては省略されているが、分散データ処理部72は、上記した第1の処理システム60に含まれる分散データ処理部61と同様に複数存在する。
分散データ処理制御部71は、前述した第1の実施形態において説明した分散データ処理制御部21(前述した図1に示す第1の処理システム20に含まれる分散データ処理制御部21)と同様の機能を有する機能部である。
分散データ処理部72は、データ読み込み部73および本処理部74を含む。データ読み込み部73は、前述した第1の実施形態において説明したデータ読み込み部23(前述した図1に示す第1の処理システム20の分散データ処理部22に含まれるデータ読み込み部23)と同様の機能を有する機能部である。また、本処理部74は、前述した第1の実施形態において説明した本処理部25(前述した図1に示す第1の処理システム20の分散データ処理部22に含まれる本処理部25)と同様の機能を有する機能部である。
図5は、図4に示す接続処理部50に含まれる処理システム情報DB51のデータ構造の一例を示す。処理システム情報DB51には、処理システム(第1の処理システム60、第2の処理システム30および第3の処理システム70)毎に、当該処理システムに関する情報が格納される。
図5に示すように、処理システム情報DB51には、処理システムID、処理システム名、IPアドレスおよび環境情報が対応づけて格納されている。環境情報は、処理システムIDによって識別される処理システムが動作する環境を示す。
図5に示す例では、処理システム情報DB51には、処理システムID「K001」、処理システム名「第1の処理システム」、IPアドレス「172.26.xxx.xxx」および環境情報「画像処理」が対応づけて格納されている。これによれば、処理システムID「K001」によって識別される処理システム(ここでは、第1の処理システム60)は、環境情報「画像処理」によって示される環境、つまり、画像処理に強い環境で動作することが示されている。
また、処理システム情報DB51には、処理システムID「K002」、処理システム名「第2の処理システム」、IPアドレス「172.26.yyy.yyy」および環境情報「文書処理」が対応づけて格納されている。これによれば、処理システムID「K002」によって識別される処理システム(ここでは、第2の処理システム30)は、環境情報「文書処理」によって示される環境、つまり、文書処理に強い環境で動作することが示されている。
更に、処理システム情報DB51には、処理システムID「K003」、処理システム名「第3の処理システム」、IPアドレス「172.26.zzz.zzz」および環境情報「数値計算処理」が対応づけて格納されている。これによれば、処理システムID「K003」によって識別される処理システム(ここでは、第3の処理システム70)は、環境情報「数値計算処理」によって示される環境、つまり、数値計算処理に強い環境で動作することが示されている。
次に、図6のフローチャートを参照して、本実施形態に係る分散データ処理最適化装置の処理手順について説明する。
まず、前述した図3に示すステップS1〜ステップS5に示す処理に相当するステップS21〜ステップS25に示す処理が実行される。なお、ステップS21においては、接続処理部50は、例えば電力会社グループにおける数値計算が必要な各地電力データシートを入力するものとする。つまり、分散データ処理最適化装置においては、接続処理部50によって入力されたデータに対する分散データ処理として電力会社グループにおける数値計算が必要な各地電力データシートの処理が行われるものとする。以下、接続処理部50によって入力されたデータを入力データとする。
次に、第1の処理システム60の分散データ処理部61に含まれるデータ分析部62は、データ読み込み部23によって読み込まれた入力データを分析することによって、当該入力データのチェックを行う(ステップS26)。この場合、データ分析部62は、データ読み込み部23によって読み込まれた入力データを解析することによって、例えば当該入力データに含まれる文字列等を抽出する。データ分析部62は、例えば積分計算または大量の掛け算等の高度な数値計算の文字情報(文字列)が入力データに含まれている場合には、当該数値計算の文字情報を抽出する。また、データ分析部62は、例えば画像情報が入力データに含まれている場合には、当該画像情報を抽出する。
データ分析部62に含まれる判定部621は、データ分析部24による分析結果(解析結果)に基づいて、入力データが処理されるべき環境を判別する(ステップS27)。換言すれば、判定部621は、入力データの適合分野を判別する。
例えば画像情報が入力データから抽出された場合には、判定部621は、当該入力データが処理されるべき環境は画像処理に強い環境であると判別する。
また、例えば積分計算または大量の掛け算等の高度な数値計算の文字情報(文字列)が入力データから抽出(検索)された場合には、判定部621は、当該入力データが処理されるべき環境は数値計算処理に強い環境であると判別する。具体的には、データ分析部24による分析結果(文字情報の抽出結果)において高度な数値計算の文字列の出現頻度が予め定められた値(閾値)以上である場合には、判定部621は、入力データが処理されるべき環境は数値計算処理に強い環境であると判別する。
また、例えば数値計算以外の文字情報が入力データから抽出された場合(数値計算以外の文字情報の出現頻度が閾値以上である場合)には、判定部621は、当該入力データが処理されるべき環境は文書処理に強い環境であると判別する。
上記したように、入力データが例えば電力会社グループにおける数値計算が必要な各地電力データシートであり、当該入力データから数値計算の文字情報が抽出された場合には、当該入力データが処理されるべき環境は数値計算処理に強い環境であると判別される。
判定部621は、ステップS27における判別結果(入力データが処理されるべき環境を示す判別結果)に基づいて、当該入力データを第1の処理システム60において処理すべきであるか否か(つまり、入力データを自ら処理すべきか否か)を判定する(ステップS28)。以下、ステップS27における判別結果を単に判別結果と称する。
ここで、第1の処理システム60においては、例えば当該第1の処理システム60が動作する環境(ここでは、画像処理に強い環境)を示す環境情報が予め保持されている。判定部621は、例えば判別結果(によって示される入力データが処理されるべき環境)と第1の処理システム60において予め保持されている環境情報によって示される環境(つまり、第1の処理システム60が動作する環境)とを比較する。
判定部621は、比較された結果、判別結果と第1の処理システム60において予め保持されている環境情報によって示される環境とが一致する(つまり、判別された入力データが処理されるべき環境が第1の処理システム60が動作する環境である)場合には、入力データを第1の処理システム60において処理すべきであると判定する。一方、判定部621は、比較された結果、判別結果と第1の処理システム60において予め保持されている環境情報によって示される環境とが一致しない場合には、入力データを第1の処理システム60において処理すべきでないと判定する。
入力データを第1の処理システム60において処理すべきでない、つまり、入力データを自ら処理すべきでないと判定された場合(ステップS28のNO)、判定部621は、当該入力データに付与されている内部番号、判別結果および当該ステップS28における判定結果(の情報)を接続処理部50に含まれる判定情報処理部52に送信する(ステップS29)。以下、ステップS28における判定結果を単に判定結果と称する。
具体的には、判定部621は、入力データに付与されている内部番号として例えば「INTERNAL_ID=D00001」を送信する。また、判定部621は、判別結果(によって示される入力データが処理されるべき環境)として例えばキーバリュー形式の「環境(分野)=数値計算(処理)」という情報を生成し、送信する。更に、判定部621は、判定結果として、入力データを第1の処理システム60において処理すべきでない旨を意味する例えばキーバリュー形式の「非該当環境=第1の処理システム60が動作する環境(画像処理に強い環境)」という情報を生成し、送信する。
また、判定部621は、前述した図3に示すステップS9の処理と同様に、入力データに対する分散データ処理の結果としての空データ(nullデータ)を分散データ処理制御部21に返す(ステップS30)。
次に、接続処理部50に含まれる判定情報処理部52は、判定部621によって送信された内部番号、判別結果および判定結果を受信する。この場合、判定情報処理部52は、例えば「INTERNAL_ID=D00001(内部番号) 環境=数値計算(判別結果) 非該当環境=第1の処理システム60が動作する環境(判定結果)」という情報を受信する。
判定情報処理部52は、内部番号、判別結果および判定結果が受信されると、第1の処理システム60でない処理システム(つまり、第2の処理システム30または第3の処理システム70)に入力データを送信するための指示処理を開始する。
この場合、判定情報処理部52は、受信された判別結果(ここでは、「環境=数値計算」)および処理システム情報DB51に格納されている環境情報に基づいて、入力データを処理すべき処理システムを特定する(ステップS31)。判定情報処理部52は、受信された判別結果によって示される環境(入力データが処理されるべき環境)を示す環境情報に対応づけて処理システム情報DB51に格納されている処理システムID(および処理システム名)を特定する。換言すれば、判定情報処理部52は、受信された判別結果によって示される環境を示す環境情報に対応づけて処理システム情報DB51に格納されている処理システムIDによって識別される処理システムを、入力データを処理すべき処理システムとして特定する。
ここでは、入力データが処理されるべき環境は数値計算に強い環境であるため、上述した図5に示す処理システム情報DB51の例によれば、判定情報処理部52は、当該数値計算に強い環境を示す環境情報「数値計算処理」に対応づけて処理システム情報DB51に格納されている処理システムID「K003」によって識別される処理システム(つまり、第3の処理システム70)を、入力データを処理すべき処理システムとして特定する。
判定情報処理部52は、特定された処理システム(ここでは、第3の処理システム70)に割り当てられているIPアドレスを処理システム情報DB51から取得する(ステップS32)。具体的には、判定情報処理部52は、特定された第3の処理システム70を識別するための処理システムID(および当該第3の処理システム70の処理システム名)に対応づけて処理システム情報DB51に格納されているIPアドレス「172.26.zzz.zzz」を取得する。
なお、判定情報処理部52は、受信された内部番号、判別結果および判定結果と取得されたIPアドレスとをデータ送出部12に渡す。この場合、判定情報処理部52は、例えば「INTERNAL_ID=D00001(内部番号) 環境=数値計算(判別結果) 非該当環境=第1の処理システム60が動作する画像処理に強い環境(判定結果) 実行予定環境=第3の処理システム70が動作する環境、172.26.zzz.zzz(IPアドレス)」という情報(データ)をデータ送出部12に渡す。
次に、前述した図3に示すステップS11〜ステップS15の処理に相当するステップS33〜ステップS37の処理が実行される。
一方、上記したステップS7において、入力データを第1の処理システム60において処理すべきである、つまり、入力データを自ら処理すべきであると判定された場合、データ分析部62に含まれる処理呼び出し部242は、本処理部25を呼び出す。
以下、前述した図3に示すステップS16およびステップS17の処理に相当するステップS38およびステップS39の処理が実行される。ステップS39の処理が実行されると、ステップS37の処理が実行される。
なお、上述した図6に示す処理は、接続処理部50において順次入力されるデータ毎、つまり、分散データ処理最適化装置において実行される分散データ処理の基本単位とされるデータ毎に実行される。
上記したように本実施形態においては、外部から入力されたデータ(入力データ)が第1の処理システム60において分析され、当該分析結果に基づいて当該入力データが処理されるべき環境が判別される。本実施形態においては、判別された環境に基づいて入力データを第1の処理システム60において処理すべきであるか否かが判定される。本実施形態においては、入力データを第1の処理システム60において処理すべきであると判定された場合には当該入力データは当該第1の処理システム60において分散データ処理され、一方、入力データを第1の処理システム60において処理すべきでないと判定された場合には当該入力データは上記判別された環境で動作する処理システム(例えば、第3の処理システム70)において分散データ処理される。
よって、本実施形態においては、例えば複数の処理システムの各々が動作する互いに得意な処理が異なる環境(例えば、画像処理に強い環境、文書処理に強い環境および数値処理に強い環境等)が混合しているような場合であっても、入力データの分析結果に基づいて当該入力データの適合分野(つまり、当該入力データを処理すべき環境)を特定することができるため、前述した第1の実施形態と比較してより高速にデータ処理を実行することが可能となる。
なお、本実施形態においては、分散データ処理最適化装置に互いに異なる環境で動作する第1の処理システム60、第2の処理システム30および第3の処理システム70が備えられるものとして説明したが、分散データ処理最適化装置には、4つ以上の処理システムが備えられていても構わない。
また、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
10,50…接続処理部(入力手段)、11…内部番号付与部、12…データ送出部、13,51…処理システム情報DB(格納手段)、14,52…判定情報処理部、15…結果データ収集部、20,60…第1の処理システム、21…分散データ処理制御部、22,61…分散データ処理部、23…データ読み込み部、24,62…データ分析部、25…本処理部、30…第2の処理システム、31…分散データ処理制御部、32…分散データ処理部、33…データ読み込み部、34…本処理部、70…第3の処理システム、71…分散データ処理制御部、72…分散データ処理部、73…データ読み込み部、74…本処理部、241,621…判定部、242…処理呼び出し部。

Claims (6)

  1. 処理すべきデータを分散して処理する分散データ処理の基本単位とされるデータを外部から入力する入力手段と、
    前記分散データ処理するための第1および第2の処理システムであって、互いに異なる環境で動作する第1および第2の処理システムと、
    前記第1の処理システム又は前記第2の処理システムにおいて前記分散データ処理された結果を示す処理結果データを収集する収集手段と、
    前記収集された処理結果データを前記外部に出力する出力手段と
    を具備し、
    前記第1の処理システムは、
    第1の分散データ処理制御手段及び複数の第1分散データ処理部を備え、
    前記第1の分散データ処理制御手段は、
    前記入力されたデータを受信する第1受信手段と、
    前記複数の第1分散データ処理部の各々の負荷状況に基づいて、当該受信されたデータの処理を、前記複数の第1分散データ処理部のうちのいずれかの第1分散データ処理部に依頼する第1依頼手段と
    を含み、
    前記複数の第1分散データ処理部の各々は、
    前記依頼により、前記入力されたデータを分析する分析手段と、
    前記分析手段による分析結果に基づいて、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定する判定手段と、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定された場合、当該データを分散データ処理する分散データ処理手段と
    を含み、
    前記第2の処理システムは、
    第2の分散データ処理制御手段及び複数の第2分散データ処理部を備え、
    前記第2の分散データ処理制御手段は、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきでないと判定された場合、前記入力されたデータを受信する第2受信手段と、
    前記複数の第2分散データ処理部の各々の負荷状況に基づいて、前記第2受信手段により受信されたデータの処理を、前記複数の第2分散データ処理部のうちのいずれかの第2分散データ処理部に依頼する第2依頼手段と
    を含み、
    前記いずれかの第2分散データ処理部は、前記第2依頼手段からの依頼により、前記第2受信手段により受信されたデータを分散データ処理し、
    前記入力手段は、文字列を含むデータを入力し、
    前記分析手段は、前記入力されたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記判定手段は、前記抽出された文字列の中に、予め定められた文字列が含まれているかを判定することによって、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定し、
    前記複数の第1分散データ処理部の各々は、データ読み込み部を含み、
    前記入力手段は、前記文字列を含む画像のデータを入力し、
    前記データ読み込み部は、前記第1依頼手段からの依頼により、前記入力されたデータをテキストデータ化して読み込み、
    前記分析手段は、前記読み込まれたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記第1の処理システムが動作する環境は、外部にデータを出すことができないプライベート環境であり、
    前記第2の処理システムが動作する環境は、外部にデータを出すことができるパブリック環境である
    ことを特徴とする分散データ処理最適化装置。
  2. 処理すべきデータを分散して処理する分散データ処理の基本単位とされるデータを外部から入力する入力手段と、
    前記分散データ処理するための第1の処理システムおよび複数の第2の処理システムであって、互いに異なる環境で動作する第1の処理システムおよび複数の第2の処理システムと、
    前記複数の第2の処理システムの各々を示す処理システム情報に対応づけて当該第2の処理システムが動作する環境を示す環境情報を格納する格納手段と、
    前記第1の処理システム又は前記複数の第2の処理システムのうちのいずれかの第2の処理システムにおいて前記分散データ処理された結果を示す処理結果データを収集する収集手段と、
    前記収集された処理結果データを前記外部に出力する出力手段と
    を具備し、
    前記第1の処理システムは、
    第1の分散データ処理制御手段及び複数の第1分散データ処理部を備え、
    前記第1の分散データ処理制御手段は、
    前記入力されたデータを受信する第1受信手段と、
    前記複数の第1分散データ処理部の各々の負荷状況に基づいて、当該受信されたデータの処理を、前記複数の第1分散データ処理部のうちのいずれかの第1分散データ処理部に依頼する第1依頼手段と
    を含み、
    前記複数の第1分散データ処理部の各々は、
    前記依頼により、前記入力されたデータを分析する分析手段と、
    前記分析手段による分析結果に基づいて、前記入力されたデータが処理されるべき環境を判別する判別手段と、
    前記判別手段による判別結果に基づいて、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定する判定手段と、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定された場合、当該データを分散データ処理する分散データ処理手段と
    を含み、
    前記複数の第2の処理システムのうち、前記判別された環境を示す環境情報に対応づけて前記格納手段に格納されている処理システム情報によって示される第2の処理システムは、第2の分散データ処理制御手段及び複数の第2分散データ処理部を備え、
    前記第2の分散データ処理制御手段は、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきでないと判定された場合、前記入力されたデータを受信する第2受信手段と、
    前記複数の第2分散データ処理部の各々の負荷状況に基づいて、前記第2受信手段により受信されたデータの処理を、前記複数の第2分散データ処理部のうちのいずれかの第2分散データ処理部に依頼する第2依頼手段と
    を含み、
    前記いずれかの第2分散データ処理部は、前記第2依頼手段からの依頼により、前記第2受信手段により受信されたデータを分散データ処理し、
    前記入力手段は、文字列を含むデータを入力し、
    前記分析手段は、前記入力されたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記判別手段は、前記抽出された文字列に基づいて前記入力されたデータが処理されるべき環境を判別し、
    前記判定手段は、前記判別手段によって判別された環境が前記第1の処理システムが動作する環境である場合には、前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定し、
    前記複数の第1分散データ処理部の各々は、データ読み込み部を含み、
    前記入力手段は、前記文字列を含む画像のデータを入力し、
    前記データ読み込み部は、前記第1依頼手段からの依頼により、前記入力されたデータをテキストデータ化して読み込み、
    前記分析手段は、前記読み込まれたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記判別手段は、前記抽出された文字列が積分計算又は掛け算を含む数値計算の文字情報であり、当該文字列の出現頻度が閾値以上である場合に、前記入力されたデータが処理されるべき環境を数値計算処理に強い環境であると判別し、
    前記第1の処理システムが動作する環境は、外部にデータを出すことができないプライベート環境であり、
    前記第2の処理システムが動作する環境は、外部にデータを出すことができるパブリック環境である
    ことを特徴とする分散データ処理最適化装置。
  3. 処理すべきデータを分散して処理する分散データ処理の基本単位とされるデータを外部から入力する入力手段と、
    前記分散データ処理するための第1の処理システムおよび複数の第2の処理システムであって、互いに異なる環境で動作する第1の処理システムおよび複数の第2の処理システムと、
    前記複数の第2の処理システムの各々を示す処理システム情報に対応づけて当該第2の処理システムが動作する環境を示す環境情報を格納する格納手段と、
    前記第1の処理システム又は前記複数の第2の処理システムのうちのいずれかの第2の処理システムにおいて前記分散データ処理された結果を示す処理結果データを収集する収集手段と、
    前記収集された処理結果データを前記外部に出力する出力手段と
    を具備し、
    前記第1の処理システムは、
    第1の分散データ処理制御手段及び複数の第1分散データ処理部を備え、
    前記第1の分散データ処理制御手段は、
    前記入力されたデータを受信する第1受信手段と、
    前記複数の第1分散データ処理部の各々の負荷状況に基づいて、当該受信されたデータの処理を、前記複数の第1分散データ処理部のうちのいずれかの第1分散データ処理部に依頼する第1依頼手段と
    を含み、
    前記複数の第1分散データ処理部の各々は、
    前記依頼により、前記入力されたデータを分析する分析手段と、
    前記分析手段による分析結果に基づいて、前記入力されたデータが処理されるべき環境を判別する判別手段と、
    前記判別手段による判別結果に基づいて、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定する判定手段と、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定された場合、当該データを分散データ処理する分散データ処理手段と
    を含み、
    前記複数の第2の処理システムのうち、前記判別された環境を示す環境情報に対応づけて前記格納手段に格納されている処理システム情報によって示される第2の処理システムは、第2の分散データ処理制御手段及び複数の第2分散データ処理部を備え、
    前記第2の分散データ処理制御手段は、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきでないと判定された場合、前記入力されたデータを受信する第2受信手段と、
    前記複数の第2分散データ処理部の各々の負荷状況に基づいて、前記第2受信手段により受信されたデータの処理を、前記複数の第2分散データ処理部のうちのいずれかの第2分散データ処理部に依頼する第2依頼手段と
    を含み、
    前記いずれかの第2分散データ処理部は、前記第2依頼手段からの依頼により、前記第2受信手段により受信されたデータを分散データ処理し、
    前記入力手段は、文字列を含むデータを入力し、
    前記分析手段は、前記入力されたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記判別手段は、前記抽出された文字列に基づいて前記入力されたデータが処理されるべき環境を判別し、
    前記判定手段は、前記判別手段によって判別された環境が前記第1の処理システムが動作する環境である場合には、前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定し、
    前記複数の第1分散データ処理部の各々は、データ読み込み部を含み、
    前記入力手段は、前記文字列を含む画像のデータを入力し、
    前記データ読み込み部は、前記第1依頼手段からの依頼により、前記入力されたデータをテキストデータ化して読み込み、
    前記分析手段は、前記読み込まれたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記判別手段は、前記抽出された文字列が数値計算以外の文字情報であり、当該文字列の出現頻度が閾値以上である場合に、前記入力されたデータが処理されるべき環境を文書処理に強い環境であると判別し、
    前記第1の処理システムが動作する環境は、外部にデータを出すことができないプライベート環境であり、
    前記第2の処理システムが動作する環境は、外部にデータを出すことができるパブリック環境である
    ことを特徴とする分散データ処理最適化装置。
  4. 処理すべきデータを分散して処理する分散データ処理の基本単位とされるデータを外部から入力する入力手段と、
    前記分散データ処理するための第1の処理システムおよび複数の第2の処理システムであって、互いに異なる環境で動作する第1の処理システムおよび複数の第2の処理システムと、
    前記複数の第2の処理システムの各々を示す処理システム情報に対応づけて当該第2の処理システムが動作する環境を示す環境情報を格納する格納手段と、
    前記第1の処理システム又は前記複数の第2の処理システムのうちのいずれかの第2の処理システムにおいて前記分散データ処理された結果を示す処理結果データを収集する収集手段と、
    前記収集された処理結果データを前記外部に出力する出力手段と
    を具備し、
    前記第1の処理システムは、
    第1の分散データ処理制御手段及び複数の第1分散データ処理部を備え、
    前記第1の分散データ処理制御手段は、
    前記入力されたデータを受信する第1受信手段と、
    前記複数の第1分散データ処理部の各々の負荷状況に基づいて、当該受信されたデータの処理を、前記複数の第1分散データ処理部のうちのいずれかの第1分散データ処理部に依頼する第1依頼手段と
    を含み、
    前記複数の第1分散データ処理部の各々は、
    前記依頼により、前記入力されたデータを分析する分析手段と、
    前記分析手段による分析結果に基づいて、前記入力されたデータが処理されるべき環境を判別する判別手段と、
    前記判別手段による判別結果に基づいて、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定する判定手段と、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定された場合、当該データを分散データ処理する分散データ処理手段と
    を含み、
    前記複数の第2の処理システムのうち、前記判別された環境を示す環境情報に対応づけて前記格納手段に格納されている処理システム情報によって示される第2の処理システムは、第2の分散データ処理制御手段及び複数の第2分散データ処理部を備え、
    前記第2の分散データ処理制御手段は、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきでないと判定された場合、前記入力されたデータを受信する第2受信手段と、
    前記複数の第2分散データ処理部の各々の負荷状況に基づいて、前記第2受信手段により受信されたデータの処理を、前記複数の第2分散データ処理部のうちのいずれかの第2分散データ処理部に依頼する第2依頼手段と
    を含み、
    前記いずれかの第2分散データ処理部は、前記第2依頼手段からの依頼により、前記第2受信手段により受信されたデータを分散データ処理し、
    前記入力手段は、画像情報を含むデータを入力し、
    前記分析手段は、前記入力されたデータを解析することによって、当該データに含まれる画像情報を抽出し、
    前記判別手段は、前記抽出された画像情報に基づいて前記入力されたデータが処理されるべき環境を画像処理に強い環境であると判別し、
    前記判定手段は、前記判別手段によって判別された環境が前記第1の処理システムが動作する環境である場合には、前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定し、
    前記第1の処理システムが動作する環境は、外部にデータを出すことができないプライベート環境であり、
    前記第2の処理システムが動作する環境は、外部にデータを出すことができるパブリック環境である
    ことを特徴とする分散データ処理最適化装置。
  5. 入力手段と、互いに異なる環境で動作する第1および第2の処理システムと、前記第1の処理システム又は前記第2の処理システムにおいて前記分散データ処理された結果を示す処理結果データを収集する収集手段と、前記収集された処理結果データを前記外部に出力する出力手段とを備える分散データ処理最適化装置であり、前記第1の処理システムが第1の分散データ処理制御手段及び複数の第1分散データ処理部を備え、前記複数の第1分散データ処理部の各々がデータ読み込み部を含み、前記第2の処理システムが第2の分散データ処理制御手段及び複数の第2分散データ処理部を備える前記分散データ処理最適化装置が実行する分散データ処理最適化方法であって、
    前記入力手段が、処理すべきデータを分散して処理する分散データ処理の基本単位とされるデータを外部から入力するステップと、
    前記第1の分散データ処理制御手段が、前記入力されたデータを受信する第1受信ステップと、
    前記第1の分散データ処理制御手段が、前記複数の第1分散データ処理部の各々の負荷状況に基づいて、当該受信されたデータの処理を、前記複数の第1分散データ処理部のうちのいずれかの第1分散データ処理部に依頼する第1依頼ステップと、
    前記依頼された第1分散データ処理部が、前記入力されたデータを分析するステップと、
    前記依頼された第1分散データ処理部が、前記分析結果に基づいて、前記入力されたデータを当該第1の処理システムにおいて処理すべきかを判定するステップと、
    前記入力されたデータを当該第1の処理システムにおいて処理すべきと判定された場合、前記依頼された第1分散データ処理部が、当該データを分散データ処理するステップと、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきでないと判定された場合、前記第2の分散データ処理制御手段が、前記入力されたデータを受信する第2受信ステップと、
    前記第2の分散データ処理制御手段が、前記複数の第2分散データ処理部の各々の負荷状況に基づいて、当該第2受信ステップにより受信されたデータの処理を、前記複数の第2分散データ処理部のうちのいずれかの第2分散データ処理部に依頼する第2依頼ステップと、
    前記第2依頼ステップにより依頼された第2分散データ処理部が、前記第2受信ステップにより受信されたデータを分散データ処理するステップと
    前記収集手段が、前記第1の処理システム又は前記第2の処理システムにおいて前記分散データ処理された結果を示す処理結果データを収集するステップと、
    前記出力手段が、前記収集された処理結果データを前記外部に出力するステップと
    を具備し、
    前記入力するステップは、文字列を含むデータを入力し、
    前記分析するステップは、前記入力されたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記判定するステップは、前記抽出された文字列の中に、予め定められた文字列が含まれているかを判定することによって、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定し、
    前記入力するステップは、前記文字列を含む画像のデータを入力し、
    前記データ読み込み部は、前記第1依頼ステップからの依頼により、前記入力されたデータをテキストデータ化して読み込み、
    前記分析するステップは、前記読み込まれたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記第1の処理システムが動作する環境は、外部にデータを出すことができないプライベート環境であり、
    前記第2の処理システムが動作する環境は、外部にデータを出すことができるパブリック環境である
    ことを特徴とする分散データ処理最適化方法。
  6. 入力手段と、互いに異なる環境で動作する第1の処理システムおよび複数の第2の処理システムであり、前記第1の処理システムが第1の分散データ処理制御手段及び複数の第1分散データ処理部を備え、前記複数の第1分散データ処理部の各々がデータ読み込み部を含み、前記複数の第2の処理システムの各々が第2の分散データ処理制御手段及び複数の第2分散データ処理部を備える、前記第1の処理システムおよび複数の第2の処理システムと、前記複数の第2の処理システムの各々を示す処理システム情報に対応づけて当該第2の処理システムが動作する環境を示す環境情報を格納する格納手段と、前記第1の処理システム又は前記複数の第2の処理システムのうちのいずれかの第2の処理システムにおいて前記分散データ処理された結果を示す処理結果データを収集する収集手段と、前記収集された処理結果データを前記外部に出力する出力手段とを備える分散データ処理最適化装置が実行する分散データ処理最適化方法であって、
    前記入力手段が、処理すべきデータを分散して処理する分散データ処理の基本単位とされるデータを外部から入力するステップと、
    前記第1の分散データ処理制御手段が、前記入力されたデータを受信する第1受信ステップと、
    前記第1の分散データ処理制御手段が、前記複数の第1分散データ処理部の各々の負荷状況に基づいて、当該受信されたデータの処理を、前記複数の第1分散データ処理部のうちのいずれかの第1分散データ処理部に依頼する第1依頼ステップと、
    前記依頼された第1分散データ処理部が、前記入力されたデータを分析するステップと、
    前記依頼された第1分散データ処理部が、前記分析結果に基づいて、前記入力されたデータが処理されるべき環境を判別するステップと、
    前記依頼された第1分散データ処理部が、前記判別結果に基づいて、前記入力されたデータを前記第1の処理システムにおいて処理すべきかを判定するステップと、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定された場合、前記依頼された第1分散データ処理部が、当該データを分散データ処理するステップと、
    前記入力されたデータを前記第1の処理システムにおいて処理すべきでないと判定された場合、前記複数の第2の処理システムのうちの前記判別された環境を示す環境情報に対応づけて前記格納手段に格納されている処理システム情報によって示される第2の処理システム内の前記第2の分散データ処理制御手段が、前記入力されたデータを受信する第2受信ステップと、
    当該第2の分散データ処理制御手段が、当該第2の処理システム内の前記複数の第2分散データ処理部の各々の負荷状況に基づいて、当該第2受信ステップにより受信されたデータの処理を、当該複数の第2分散データ処理部のうちのいずれかの第2分散データ処理部に依頼する第2依頼ステップと、
    前記第2依頼ステップにより依頼された第2分散データ処理部が、前記第2受信ステップにより受信されたデータを分散データ処理するステップと
    前記収集手段が、前記第1の処理システム又は前記複数の第2の処理システムのうちのいずれかの第2の処理システムにおいて前記分散データ処理された結果を示す処理結果データを収集するステップと、
    前記出力手段が、前記収集された処理結果データを前記外部に出力するステップと
    を具備し、
    前記入力するステップが、文字列を含むデータを入力した場合には、
    前記分析するステップは、前記入力されたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記判別するステップは、前記抽出された文字列に基づいて前記入力されたデータが処理されるべき環境を判別し、
    前記判定するステップは、前記判別するステップによって判別された環境が前記第1の処理システムが動作する環境である場合には、前記入力されたデータを前記第1の処理システムにおいて処理すべきと判定し、
    前記入力するステップが、前記文字列を含む画像のデータを入力した場合には、
    前記データ読み込み部が、前記第1依頼ステップからの依頼により、前記入力されたデータをテキストデータ化して読み込み、
    前記分析するステップは、前記読み込まれたデータを解析することによって、当該データに含まれる文字列を抽出し、
    前記判別するステップは、前記抽出された文字列が数値計算以外の文字情報であり、当該文字列の出現頻度が閾値以上である場合に、前記入力されたデータが処理されるべき環境を文書処理に強い環境であると判別し、
    前記第1の処理システムが動作する環境は、外部にデータを出すことができないプライベート環境であり、
    前記第2の処理システムが動作する環境は、外部にデータを出すことができるパブリック環境である
    ことを特徴とする分散データ処理最適化方法。
JP2010065619A 2010-03-23 2010-03-23 分散データ処理最適化装置および分散データ処理最適化方法 Active JP5534885B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010065619A JP5534885B2 (ja) 2010-03-23 2010-03-23 分散データ処理最適化装置および分散データ処理最適化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010065619A JP5534885B2 (ja) 2010-03-23 2010-03-23 分散データ処理最適化装置および分散データ処理最適化方法

Publications (2)

Publication Number Publication Date
JP2011198189A JP2011198189A (ja) 2011-10-06
JP5534885B2 true JP5534885B2 (ja) 2014-07-02

Family

ID=44876269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010065619A Active JP5534885B2 (ja) 2010-03-23 2010-03-23 分散データ処理最適化装置および分散データ処理最適化方法

Country Status (1)

Country Link
JP (1) JP5534885B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6772794B2 (ja) 2016-11-30 2020-10-21 富士通株式会社 分散データ管理装置、分散データ管理プログラム及び分散データ管理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03265966A (ja) * 1990-03-15 1991-11-27 Nec Corp データ解析装置
JP4815459B2 (ja) * 2008-03-06 2011-11-16 株式会社日立製作所 負荷分散制御サーバ、負荷分散制御方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2011198189A (ja) 2011-10-06

Similar Documents

Publication Publication Date Title
KR102044046B1 (ko) 텔레메트리 파일 해시 및 충돌 검출 기법
KR101355273B1 (ko) 컴퓨팅 시스템 및 그 실행 제어 방법과, 그 실행 제어 프로그램을 기록한 기록 매체
CN108287894B (zh) 数据处理方法、装置、计算设备及存储介质
CN103701817B (zh) 一种配置文件的生成方法及装置
CN111488594A (zh) 一种基于云服务器的权限检查方法、装置、存储介质及终端
US10009220B2 (en) In-vehicle information system and information processing method thereof
JP5534885B2 (ja) 分散データ処理最適化装置および分散データ処理最適化方法
CN104050207B (zh) 信息处理装置和文件管理系统
JP2021140430A (ja) データベースマイグレーション方法、データベースマイグレーションシステム、及びデータベースマイグレーションプログラム
US20140365543A1 (en) Document management server, document management method, and non-transitory storage medium storing program
JP2007323143A (ja) 業務管理システム、情報システム及び業務管理方法
JP2010250548A (ja) ログ出力装置
KR101855479B1 (ko) 빅 데이터 기반 지식 콘텐츠 추천 방법 및 시스템
JP5194936B2 (ja) ファイル変換装置、ファイル変換方法及びプログラム
JP7108566B2 (ja) デジタルエビデンス管理方法およびデジタルエビデンス管理システム
KR20110070767A (ko) 네트워크 기반 원격 포렌식 시스템
Hegarty et al. Forensic analysis of distributed data in a service oriented computing platform
JP7127440B2 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
KR101996151B1 (ko) 워크플로우 시스템에서의 테이블 네이밍 장치 및 방법
JP5929334B2 (ja) ソフトウェア変換装置、ソフトウェア変換システム、ソフトウェア変換方法、及び、ソフトウェア変換プログラム
JP2009070206A (ja) データ検索システムおよびデータ検索方法ならびにデータ検索装置,検索実行者端末およびプログラム
JP7127439B2 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP6282970B2 (ja) データ収集方法、データ収集装置、及びプログラム
KR102028496B1 (ko) 스트림 분석 장치 및 방법
CN116467711A (zh) 一种孵化器企业的数据管理和分析方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120321

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130930

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140226

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140422

R150 Certificate of patent or registration of utility model

Ref document number: 5534885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350