JP2018521391A

JP2018521391A - ビッグデータの計算方法及びシステム、プログラムならびに記録媒体

Info

Publication number: JP2018521391A
Application number: JP2017560572A
Authority: JP
Inventors: リュウ，ヨン; ルー，シャオフゥイ
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-05-18
Filing date: 2016-01-25
Publication date: 2018-08-02
Anticipated expiration: 2036-01-25
Also published as: CN106294381A; EP3299968A1; US20180165333A1; EP3299968A4; WO2016184159A1; JP6694447B2

Abstract

本発明は、ビッグデータの計算方法及びシステムを提供し、前記方法は、ビッグデータを計算する指示情報を取得するステップ（Ｓ１０２）と、指示情報に基づいてビッグデータ中の一部のデータを計算し、計算結果を出力するステップ（Ｓ１０４）と、を含む。前記方法及びシステムによれば、従来技術のビッグデータシステムアーキテクチャにおいてタスクの計算を全部完了してこそ結果を提供できることに起因する問題を解決し、さらに、制約条件内で最も大きい可能性で意思決定を協力する効果を達成する。
【選択図】図１

Description

本発明は、通信分野に関し、特にビッグデータの計算方法及びシステムに関する。

Ｇｏｏｇｌｅを始め、ビッグデータ技術が世界を風靡しており、Ｈａｄｏｏｐに基づく様々なアプリケーションも百花斉放な局面を呈している。ビッグデータアプリケーションの影響が日に日に拡大されている。機関の推計によると、世界中のデータ総量は隔年倍になる速度で増加されている。つまり、過去２年間で生成されたデータ総量は過去全てのデータ量の合計に相当する。このような背景下で、企業戦略から産業エコシステムまで、学術研究から生産実践まで、都市管理から国家管理まで、いずれも本質的な変化が発生される。

ビッグデータとは、サイズが従来のデータツールの取得、記憶、管理及び分析能力を超えるデータセットであり、必ずしも特定のＴＢ値を超えるデータセットがビッグデータであるわけではない。インターナショナルデータコーポレーション（ＩＤＣ）は、大容量なデータ規模（Ｖｏｌｕｍｅ）、迅速なデータ転送及び動的データ体系（Ｖｅｌｏｃｉｔｙ）、多様なデータタイプ（Ｖａｒｉｅｔｙ）及び巨大なデータ価値（Ｖａｌｕｅ）の４つの特徴からビッグデータを定義している。

大規模データの記憶・計算をサポートする必要があるので、ビッグデータの処理は、通常クラスタに基づく分散記憶及び並列コンピューティングアーキテクチャ及びハードウェアプラットフォームを使用する必要がある。上記の問題に対して、オープンソースコミュニティ及び国内外のメーカーは、対応する試みと努力を行っている。ビッグデータ照会分析の典型的なシステムは、ＨａｄｏｏｐでのＨＢａｓｅ及びＨｉｖｅ、Ｆａｃｅｂｏｏｋにより開発されたＣａｓｓａｎｄｒａ、Ｇｏｏｇｌｅ会社のＤｒｅｍｅｌ、Ｃｌｏｕｄｅｒａ会社のＩｍｐａｌａであり、その以外に、より高い性能のデータ照会分析を実現するために、ＵＣＢｅｒｋｅｌｅｙＡＭＰＬａｂのメモリに基づいてエンジンＳｐａｒｋを計算するデータ倉庫Ｓｈａｒｋのようなメモリに基づく分散データ記憶管理及び照会システムも多く出現された。それ以外に、ＥＭＣのＧｒｅｅｎＰｌｕｍ、ＨＰのＶｅｒｔｉｃａのようなＭＰＰ（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｐｒｏｃｅｓｓｉｎｇ）データベースもある。ビッグデータのバッチ処理に最適な計算モードはＭａｐＲｅｄｕｃｅである。ＭａｐＲｅｄｕｃｅは単入力、二段階（Ｍａｐ及びＲｅｄｕｃｅ）のデータ処理プロセスである。ＭａｐＲｅｄｕｃｅは、簡単で使い勝手がよい特性を有しているために、現在ビッグデータ処理において最も成功し、最も広く受け入れられる主流な並列計算モードになっている。オープンソースコミュニティの努力下で、Ｈａｄｏｏｐシステムは、現在成熟したビッグデータ処理プラットフォームに発展され、多くのデータ処理ツール及び環境を含む完全なエコシステムに発展されている。Ｓｐａｒｋもバッチ処理システムであり、性能の面ではＨａｄｏｏｐＭａｐＲｅｄｕｃｅよりあまりに大きい向上があるが、その使い勝手及び安定性は、現在まだＨａｄｏｏｐＭａｐＲｅｄｕｃｅに及ばない。

しかし、これらのフレーム、アプリケーション、アルゴリズムは、いずれも最終結果を計算して意思決定者が意思決定（Ｄｅｃｉｓｉｏｎ）できるようにさせ、したがって、不完全計算結果のような非常に有用な段階性結果を無視した。現在、これらのフレームのやり方は、いずれも計算タスクの提出前に、タスクの全ての方面を厳密に定義しなければならず、一旦タスクが提出された後は、タスクは元々の設定の規則に従って動作し、タスクが全部完了されてこそ価値のある結果を与えることができる。大量（ＴＢ、ＰＢ、ＥＢレベル……）及び長時間演算（十数時間乃至数十時間）の背景下で、段階性演算された結果は、意思決定者が分析して意思決定できるようにさせることができる。１０Ｔ、２０Ｔ、３０Ｔ……又は１ｈ、２ｈ、３ｈ……（次元は定義可能である）で演算して得られる結果は、最終的、正確な結果に向かっており、この過程の結果は、意思決定者が分析して意思決定できるようにさせることができる。

法的調査、行方不明者の探し、ひき逃げ、特性商品のフィルタリング等のような大規模データ分析類タスクは、制限時間内で問題を解決する必要があり、通常のビッグデータシステムアーキテクチャにおいては、いずれもタスクの計算を全部完了してこそ結果を提供することができる。したがって、チャンスを逃す虞がある。金融調査、石油探査の方面のような他の商業におけるタスクは、データ量があまりに多く、金融業務、石油業務のような方面では、全面的な分析を行う十分な時間がないので、段階性、ひいてはサンプル統計性の結果であっても、これらの商業意思決定において重要な役割を果たすことができる。

ビッグデータシステムアーキテクチャにおいてタスクの計算を全部完了してこそ結果を提供できることに起因する問題に対して、従来技術には、有効な解決策がまだ提案されていない。

本発明は、少なくとも従来技術のビッグデータシステムアーキテクチャにおいてタスクの計算を全部完了してこそ結果を提供できることに起因する問題を解決するために、ビッグデータの計算方法及びシステムを提供する。

本発明の実施例の一態様によれば、ビッグデータの計算方法が提供され、上記方法は、ビッグデータを計算する指示情報を取得するステップと、上記指示情報に基づいて上記ビッグデータ中の一部のデータを計算し、計算結果を出力するステップとを含む。

選択的に、上記指示情報は、上記計算結果が指定タイプである情報と、所定期間内で上記データを計算する情報と、上記ビッグデータ中の指定データを計算する情報と、予め設定されたデータフィルタリング条件と、のうちの少なくとも１つの情報を含む。

選択的に、上記指示情報に基づいて上記ビッグデータ中の一部のデータを計算し、計算結果を出力するステップは、上記計算結果が指定タイプである場合に、上記ビッグデータの計算を終了するステップ、及び／又は、現在の時間が上記所定期間を超えた後の時間である場合に、上記ビッグデータの計算を終了するステップ、及び／又は、上記指定データの計算が完了した後に、上記ビッグデータの計算を終了するステップを含む。

選択的に、上記データフィルタリング条件は、上記ビッグデータ中の各データ又は各種のデータの優先度を含む。

選択的に、上記指示情報に基づいて上記ビッグデータ中の一部のデータを計算するステップは、上記指示情報に基づいて上記指示情報にマッチングする第１のケースを検索し、アルゴリズムライブラリにおける上記第１のケースに対応する第１の指定アルゴリズムを呼び出して上記ビッグデータを計算するステップ、又は、上記指示情報に基づいて第２のケースを検索し、上記第２のケース及びアルゴリズムライブラリ中の第２の指定アルゴリズムに基づいて総合意思決定して、第３の指定アルゴリズムを得て、上記第３の指定アルゴリズムに従って上記ビッグデータを計算するステップを含む。

選択的に、アルゴリズムライブラリにおける上記第１のケースに対応する第１の指定アルゴリズムを呼び出して上記ビッグデータを計算する前に、上記方法は、上記指示情報にマッチングする上記第１のケースが複数ある場合に、優先度の最も高いケースを選択して上記指示情報にマッチングする第１のケースとするステップを含む。

選択的に、上記方法は、上記計算結果が所定要求を満していない場合に、上記ビッグデータにおける上記一部のデータ以外の残りのデータを計算するステップをさらに含む。

選択的に、ビッグデータを計算する指示情報を取得する方式は、システムの既に定義されたコンテンツから上記指示情報を取得する方式と、入力した上記指示情報を受信する方式と、既存指示情報を修正して上記指示情報を取得する方式と、のうちの少なくとも１つの方式を含む。

本発明の実施例の別の態様によれば、ビッグデータの計算システムがさらに提供され、上記システムは、ビッグデータを計算する指示情報を受信するインタラクティブユニットと、分散ノードに実装されて上記インタラクティブユニットと接続され、上記指示情報を受信して、上記指示情報に基づいて上記ビッグデータ中の一部のデータを計算し、計算結果を出力するコア制御ユニットとを備える。

選択的に、上記コア制御ユニットは、さらに、上記計算結果が指定タイプである場合に、上記ビッグデータの計算を終了し、及び／又は、現在の時間が上記所定期間を超えた後の時間である場合に、上記ビッグデータの計算を終了し、及び／又は、上記指定データの計算が完了した後に、上記ビッグデータの計算を終了するように構成される。

選択的に、上記システムは、過去ケースライブラリ及びアルゴリズムライブラリ、又は、過去ケースライブラリ、アルゴリズムライブラリ及び実行方案ユニットをさらに含み、上記コア制御ユニットは、上記指示情報に基づいて上記過去ケースライブラリから上記指示情報にマッチングする第１のケースを検索し、上記アルゴリズムライブラリにおける上記第１のケースに対応する第１の指定アルゴリズムを呼び出して上記ビッグデータを計算し、又は、上記コア制御ユニットは、第３の指定アルゴリズムに従って上記ビッグデータを計算し、ここで、上記第３の指定アルゴリズムは、上記実行方案ユニットが上記コア制御ユニットから受信した上記指示情報に基づいて、上記過去ケースライブラリから呼び出した第２のケース及び上記アルゴリズムライブラリから呼び出した第２の指定アルゴリズムに基づいて総合意思決定して得られたものである。

選択的に、上記コア制御ユニットは、さらに、上記指示情報にマッチングする上記第１のケースが複数ある場合に、優先度の最も高いケースを選択して上記指示情報にマッチングする第１のケースとするように構成される。

選択的に、上記コア制御ユニットは、さらに、上記計算結果が所定要求を満していない場合に、上記ビッグデータにおける上記一部のデータ以外の残りのデータを計算するように構成される。

選択的に、上記インタラクティブユニットは、さらに、システムの既に定義されたコンテンツから上記指示情報を取得する方式と、入力した上記指示情報を受信する方式と、既存指示情報を修正して上記指示情報を取得する方式と、のうちの少なくとも１つの方式によって上記指示情報を取得するように構成される。

本発明の実施例によれば、ビッグデータを計算する指示情報を取得し、指示情報に基づいてビッグデータ中の一部のデータを計算し、計算結果を出力することで、従来技術のビッグデータシステムアーキテクチャにおいてタスクの計算を全部完了してこそ結果を提供できることに起因する問題を解決し、さらに、制約条件内で最も大きい可能性で意思決定を協力する効果を達成する。

ここの図面は、本発明に対する更なる理解を提供して、本発明の一部を構成し、本発明の例示的な実施例及びその説明は、本発明を解釈するだけで、本発明を限定するものではない。
本発明の実施例に係るビッグデータの計算方法のフローチャートである。本発明の実施例に係るビッグデータの計算システムの構成を示すブロック図である。本発明の実施例に係るビッグデータの計算システムの構成を示すブロック図の一である。本発明の実施例に係る単一フローのタスク実行のフローチャートである。本発明の実施例に係るビッグデータ不完全計算のフレームユニット図である。本発明の実施例に係る動作スケジューリングフローチャートである。本発明の実施例に係る検索排除の例を示す図である。本発明の実施例に係る範囲正確の例を示す図である。本発明の実施例に係る分類計算の例を示す図である。本発明の実施例に係るまず易後が難しい計算の例を示す図である。

以下、図面を参照しながら実施例を併せて本発明を詳細に説明する。なお、矛盾しない前提で、本発明の実施例及び実施例における特徴を互いに組み合わせてもよい。

本実施例によれば、ビッグデータの計算方法が提供され、図１は、本発明の実施例に係るビッグデータの計算方法のフローチャートであり、図１に示すように、このフローは、下記のステップを含む。

ステップＳ１０２：ビッグデータを計算する指示情報を取得する。

ステップＳ１０４：指示情報に基づいてビッグデータ中の一部のデータを計算し、計算結果を出力する。

上記のステップによれば、タスクを全部計算せずに、指示情報に基づいてビッグデータ中の一部のデータを計算し、タスクの計算を全部完了してこそ計算結果を提供できる従来技術に対して、上記のステップによれば、従来技術のビッグデータシステムアーキテクチャにおいてタスクの計算を全部完了してこそ結果を提供できることに起因する問題を解決し、さらに、制約条件内で最も大きい可能性で意思決定を協力する効果を達成する。

上記の指示情報は、複数の情報を含むことができ、以下、これについて例を挙げて説明する。選択可能な一実施例では、指示情報は、計算結果が指定タイプである情報と、所定期間内でデータを計算する情報と、ビッグデータ中の指定データを計算する情報と、予め設定されたデータフィルタリング条件と、のうちの１つ又は複数の情報であってもよい。ここで、ビッグデータを計算するときに、出力された計算結果が指定タイプである場合にビッグデータの計算を停止し、ビッグデータを計算するときに、ビッグデータを計算する時間を規定し、所定の時間内でビッグデータを計算して計算結果を出力し、ビッグデータを計算するときに、ビッグデータに含まれる指定データのみを計算して計算結果を出力することを規定する。つまり、計算結果が指定タイプである場合に、このビッグデータの計算を終了し、現在の時間が所定期間を超えた後の時間である場合に、ビッグデータの計算を終了し、指定データの計算が完了した後に、ビッグデータの計算を終了する。したがって、指示情報がビッグデータの計算を制限するように設定することで、ビッグデータの不完全な計算をする効果を実現した。

選択可能な一実施例では、上記のデータフィルタリング条件は、ビッグデータ中の各データ又は各種のデータの優先度であってもよい。例えば、各データ又は各種のデータの優先度は、各データ又は各種のデータの重要度又は取得難易度であってもよい。

上記のステップＳ１０４によれば、指示情報に基づいてビッグデータ中の一部のデータを計算し、選択可能な一実施例では、指示情報に基づいて指示情報にマッチングする第１のケースを検索し、アルゴリズムライブラリにおけるこの第１のケースに対応する第１の指定アルゴリズムを呼び出してこのビッグデータを計算してもよく、この指示情報に基づいて第２のケースを検索し、この第２のケース及びアルゴリズムライブラリ中の第２の指定アルゴリズムに基づいて総合意思決定して、第３の指定アルゴリズムを得て、第３の指定アルゴリズムに従ってビッグデータを計算してもよい。履歴方案の再利用によって、方案及びアルゴリズムにおける開発コストを低減させる。以下、予め記憶されたケース及びアルゴリズムライブラリ中の第２の指定アルゴリズムに基づいて総合意思決定することについて例を挙げて説明する。例えば、ユーザが一般的に定義できる入力は、結果コンテンツ、計算次元、フィルタリング条件である。方案ライブラリ履歴ケース（容疑者を探す）：ターゲット方位、時間、男性、４０歳以上、身長１７０〜１８０。すると、再実行の時にユーザがターゲット方位、時間、女性、２０歳未満、身長１５０〜１６０を入力した場合、方案ライブラリが入力と履歴ライブラリとを比較して、上記の履歴方案が部分的に再利用できることを発見し、まず方案を取得し、方案の設定において異なる部分を修正して新たな方案を生成し、それからコアシステムに渡して実行される。

アルゴリズムライブラリにおけるこの第１のケースに対応する第１の指定アルゴリズムを呼び出してビッグデータを計算する前に、選択可能な一実施例では、指示情報にマッチングするケースが複数ある場合に、優先度の最も高いケースを選択してこの指示情報にマッチングする第１のケースとする。ここで、ケースの優先度は、意思決定者の評価記録により生成される。

選択可能な一実施例では、計算結果が所定要求を満たしていない場合に、ビッグデータにおける既に計算した上記一部のデータ以外の残りのデータを計算する。

上記のステップＳ１０２によれば、ビッグデータを計算する指示情報を取得し、選択可能な一実施例では、指示情報を取得する方式は、システムの既に定義されたコンテンツから指示情報を取得する方式と、入力した指示情報を受信する方式、又は、既存指示情報を修正してこの指示情報を取得する方式を含んでもよい。

図２は、本発明の実施例に係るビッグデータの計算システムの構成を示すブロック図であり、図２に示すように、上記システムは、ビッグデータを計算する指示情報を受信するインタラクティブユニット２２と、分散ノードに実装されてこのインタラクティブユニットと接続され、指示情報を受信して、指示情報に基づいてこのビッグデータ中の一部のデータを計算し、計算結果を出力するコア制御ユニット２４とを備える。

選択的に、指示情報は、計算結果が指定タイプである情報と、所定期間内でこのデータを計算する情報と、ビッグデータ中の指定データを計算する情報と、予め設定されたデータフィルタリング条件と、のうちの少なくとも１つの情報を含む。

選択的に、コア制御ユニット２４は、さらに、計算結果が指定タイプである場合に、ビッグデータの計算を終了し、及び／又は、現在の時間が所定期間を超えた後の時間である場合に、ビッグデータの計算を終了し、及び／又は、指定データの計算が完了した後に、ビッグデータの計算を終了するように構成される。

選択的に、データフィルタリング条件は、ビッグデータ中の各データ又は各種のデータの優先度を含む。

図３は、本発明の実施例に係るビッグデータの計算システムの構成を示すブロック図の一であり、図３に示すように、上記システムは、過去ケースライブラリ３２及びアルゴリズムライブラリ３４、又は、過去ケースライブラリ３２、アルゴリズムライブラリ３４及び実行方案ユニット３６をさらに含み、コア制御ユニット２４は、指示情報に基づいて過去ケースライブラリ３２から指示情報にマッチングする第１のケースを検索し、アルゴリズムライブラリ３４における第１のケースに対応する第１の指定アルゴリズムを呼び出してビッグデータを計算し、又は、コア制御ユニット２２は、第３の指定アルゴリズムに従ってビッグデータを計算し、ここで、第３の指定アルゴリズムは、実行方案ユニット３６がコア制御ユニット２４から受信した指示情報に基づいて、過去ケースライブラリ３２から呼び出した第２のケース及びアルゴリズムライブラリ３４から呼び出した第２の指定アルゴリズムに基づいて総合意思決定して得られたものである。

選択的に、コア制御ユニット２４は、さらに、この指示情報にマッチングするこの第１のケースが複数ある場合に、優先度の最も高いケースを選択してこの指示情報にマッチングする第１のケースとするように構成される。

選択的に、コア制御ユニット２４は、さらに、計算結果が所定要求を満たしていない場合に、ビッグデータにおけるこの一部のデータ以外の残りのデータを計算するように構成される。

選択的に、インタラクティブユニット２２は、さらに、システムの既に定義されたコンテンツからこの指示情報を取得する方式と、入力したこの指示情報を受信する方式と、既存指示情報を修正してこの指示情報を取得する方式と、のうちの少なくとも１つの方式によってこの指示情報を取得するように構成される。なお、上記のインタラクティブユニット２２、コア制御ユニット２４、過去ケースライブラリ３２、アルゴリズムライブラリ３４及び実行方案ユニット３６は、ソフトウェア又はハードウェアにより実現することができ、後者の場合、インタラクティブユニット２２、コア制御ユニット２４、過去ケースライブラリ３２、アルゴリズムライブラリ３４及び実行方案ユニット３６がいずれも同一のプロセッサーに位置するか、又は、インタラクティブユニット２２、コア制御ユニット２４、過去ケースライブラリ３２、アルゴリズムライブラリ３４及び実行方案ユニット３６がそれぞれ第１のプロセッサー及び第２のプロセッサー等に位置することによって実現することができるが、これらに限定されない。

以下、従来技術に存在する上記の問題に対して、具体的な選択可能な実施例を併せて説明し、下記の選択可能な実施例は、上記の選択可能な実施例及びその選択可能な実施形態を併せている。

一定の制限状況（次元は、時間、データ規模、精度、経済的コストを含む）で必要とされる意思決定に対して、ビッグデータや分散計算手段によって計算を行って、意思決定者が分析して使用されるように、異なる段階的なデータのサポートを提供する。

この選択可能な実施例の技術手段は下記のとおりである。
コアフロー：
１．意思決定ターゲットを定義し、フレームシステムを入力する。
２．フレームシステムが可能な段階ターゲットを自動的に分析し、アルゴリズムを適用させる。
３．システム内部でターゲットに基づいて計算方案を設定し、アルゴリズムの実行を開始する。
４．システムが計算終了設定条件をトリガし、結果を与える。

以下、技術手段について説明する。

３−１．意思決定ターゲットを定義する
（協力を必要とする）意思決定者がＵＩシステム（フレームインタラクティブユニット）を介して入力する。入力されるコンテンツは、最終ターゲット結果を計算するパターン、計算終了トリガ条件、フィルタリングのために使用される既知の条件を含む。上記の３項のコンテンツはＵＩを介して選択することができ、システムの既に定義されたコンテンツを選択してもよいし、新たなコンテンツを手動で追加してもよく、又は、固有のコンテンツを修正してもよい。

ここで、計算終了トリガ条件は、計算次元とも称され、システムはこの次元に基づいて段階ターゲットをポジショニングする。次元が時間である場合に、システムは限定時間内で計算を完了する。次元がデータ量である場合に、システムは限定のデータ量を計算した場合に計算を完了する。他の次元は二次開発の方案に応じて人工追加できる。

トリガ条件が１つのシーケンスである場合に、コアフローのステップ２〜４は、シーケンスのトリガ条件の実行が完了されるまで、シーケンスに従ってループで実行する。

３−２．フレームシステムに入力する
フレームインタラクティブユニットがユーザ（意思決定者）の入力したコンテンツをフレームコア制御ユニットに提出する。

３−３．フレームシステムが段階ターゲットを自動的に分析する
この動作の内部フローは、ユーザの入力したコンテンツと「過去ケース集積及び外部成功ケースインポートライブラリ」とを比較することによって最も近いターゲットを確定する。

３項のコンテンツを比較して、完全にマッチングするケースを発見した場合に、システムはケースの方案に従って実行する。３項のコンテンツを比較して最初の２項がマッチングし、第３項がマッチングしない場合は、計算時にまずフィルタリングアルゴリズムを除去し、結果がトリガされるときに特別操作を行う。最初の２項において１項のみが対応するケースが発見され、他の１項が対応するケースが完全にない場合には、対応するケースがあるそのコンテンツに基づいて計算する。全てのコンテンツが対応するケースがない場合には、計算を実行せず、エラーの結果をＵＩにフィードバックする。

方案をマッチングするとき、複数の方案がマッチングされる場合は、システムは評価の最も高い方案を最優先でマッチングさせ、他の方案は代替方案と称される。方案の評価は意思決定者の評価記録により生成される。実行されるたびに、この評価はそれに応じて変更される。

３−４．フレームシステムが適用なアルゴリズムを自動的に分析する
適用なアルゴリズムの選択は、ケースの実行に基づいている。ケースにはアルゴリズムの選択が明確されている。ここで、フィルタリング条件のアルゴリズムは独立して区分されて存在している。ユーザが入力した第３項のコンテンツにおいて、対応される項目が優先的に対応するフィルタリング条件アルゴリズムを実行する。

３−５．システム内部でターゲットに基づいて計算方案を設定する
システムが段階ターゲットの確認及びアルゴリズムの選択状況に基づいて計算方案を生成する。これを今回の計算ケースとも称する。ケースが最終的に意思決定者により役立つ以上のレベルに評価される場合には、過去ケースライブラリに記憶される。計算方案を生成するとき、複数のアルゴリズム間の順序が転換できる場合に、システムは性能が最適な実行方案を合理的に選択できる。

３−６．アルゴリズムの実行を開始する
システムが方案をクラスタ全体に自動的に配信して実行する。

３−７．システムが計算終了設定条件をトリガし、結果を与える
システムは、終了条件に到達すると、結果が予想に合うかどうかにかかわらず、すぐに結果をフィードバックする。

実際の応用では、コア機能に基づき、この機能を複数回にわたって応用すれば、さらに意思決定に有利である結果を次第に得ることができる。

３−８．時間次元に対して結果を次第に正確させる。

３−８−１．検索排除
ターゲットはビッグデータ中の１つのターゲット又はあるターゲットであり、計算された落札されていないデータブロックは、計算された無結果領域とマークされる。設定の時点が終了すると、これらの無結果領域を段階結果として意思決定者にフィードバックする。意思決定者が依然として意思決定協力の計算を必要とする場合には、２回目の計算を開始することでき、計算の初めに既に完了した結果を排除することができる。このように、意思決定者がもう計算補助を必要としない、又は、計算結果が完全に計算完了されるまで処理を繰り返す。この方案は、指名手配中の犯人の逮捕、ひき逃げの逮捕、迷子を探す等のようなターゲット捜索に用いられる。

３−９．データ量に対して計算結果を次第に与える。

３−９−１．範囲正確
ターゲットはビッグデータ中の全てのデータの計算統計（例えば、平均値、分散等の統計学結果）である。統計学のサンプリング調査の方法を利用する。データを抽出して計算し、計算されたデータはデータソースから他の位置に転送され、次回の計算のデータソースとして使用されない。２回目の計算及び最後の計算終了条件はいずれも検索排除方法に類似している。

３−９−２．分類計算
ユーザが入力するときのフィルタリング条件に、ビッグデータ中のデータがカテゴリ及びカテゴリの主要と副次を区分できると明記されている場合には、カテゴリに従って、まず重要度の高いデータを計算することができる。結果をフィードバックするときは、計算順序に従って、順次にフィードバックする。

３−９−３．まず易後が難しい計算
データソースの取得条件が一致していない場合には、まず取得しやすいデータを計算する。それはデータのダウンロード及びアルゴリズムの計算が異なるハードウェアを使用し、このようにすると性能の向上に有利であるからである。このようなやり方は、データソースが明確なグループを有する場合に行われる。

図４は、本発明の実施例に係る単一フローのタスク実行のフローチャートであり、図４に示すように、内部アルゴリズムの計算時に行う操作フローである。この３つのステップのフローは、全てのトリガ条件が全部トリガされるまで、コア制御ユニットが他のユニットを自動的に呼び出して実行され、全ての演算の実行が全部完了した後に停止するが、例外は、人間がＵＩを介して直接にタスクを強制停止できる。

図５は、本発明の実施例に係るビッグデータ不完全計算のフレームユニット図であり、以下、図５について説明する。

４−２−１．フレームインタラクティブユニットは、ユーザとコミュニケーションするように構成される。

タスクの開始時に、ユーザがタスク意思決定ターゲットを入力することを支援し、ユーザが選択するためのいくつかの段階ターゲット及び適用なアルゴリズムを提供する。ユーザが実行時間を選択できるように、タスクタイマーを提供する。このユニットはタスクの実行を開始することもでき、タスクを一時停止又は一時終了することもできる。

タスクを実行するときに、即時にフィードバックし、タスクが終了した後に、ユーザが参照して意思決定できるように、いくつかの不完全又は完全な結果を提供する。

４−２−２．フレームコア制御ユニットは、タスクの動作を制御するように構成される。
アルゴリズムの演算を制御する。
結果の出力及び結果のランキングを制御する。
分散クラスタの負荷バランスを制御する。
ユニットは１つの分散されたクラスタである。

４−２−３．タスク実行方案ユニットは、呼び出された過去ケースライブラリデータ及びアルゴリズムライブラリデータを組み合わせて、今回の演算の実行方案を生成するように構成される。

結果によれば、２種類に分けられており、１つは、シーケンスが結果をフィードバックすることであり、もう１つは、次元が終了した後に不完全な結果を返すことである。その他に、段階の定義及びどのような必要な結果をフィードバックするかを設定することができる。

４−２−４．過去ケース集積ライブラリ及び外部成功ケースインポートライブラリ
１次ケースを実行し、ケースの基本情報はケースライブラリに保存されており、意思決定者の評価が付随されている。或いは、外部から他人のケースをインポートすることもできる。このようにすると、過去ケースにより評価の高いケースを再利用できる。また、完全にマッチングしていないケースは実行方案を組み合わせるために使用することができる。

４−２−５．アルゴリズムライブラリ中のアルゴリズムの一部の基本的なアルゴリズムは、フレーム開発者により開発される。他の一部は、具体的な応用需要のある人員により開発されることができる。

図６は、本発明の実施例に係る動作スケジューリングフローチャートであり、図６に示すように、このフローは、下記のステップを含む。

ステップＳ６０２：インタラクティブユニットがタスク情報を受信し、コアユニットが動作するように通知する。

ステップＳ６０４：コアユニットが、タスク情報に関連する過去ケースの照会を過去ケースライブラリに送信する。完全にマッチングしているケースがある場合に、直接にステップＳ６０６を実行してから演算し、ステップＳ６１８を実行する。完全にマッチングしていない場合に、ステップＳ６１０、ステップＳ６１２、ステップＳ６１４、ステップＳ６１６、ステップＳ６１８を実行する。

ステップＳ６０６：アルゴリズムライブラリを呼び出す。

ステップＳ６０８：フィードバックを照会する。

ステップＳ６１０：コアユニットが関連情報（計算終了トリガ条件シーケンスの１つを含む）タスク実行方案ユニットに入力し、ユニットが過去ケースライブラリを呼び出し（ステップＳ６１２）、また、アルゴリズムライブラリを呼び出し（ステップＳ６１４）、それから全ての情報を総合して実行方案に組み合わせる。

ステップＳ６１２：過去ケースを呼び出す。

ステップＳ６１４：アルゴリズムライブラリを呼び出す。

ステップＳ６１６：実行方案ユニットが実行方案をフィードバックし、コアユニットが実行を開始する。

ステップＳ６１８：コアユニットが実行を完了した後に、インタラクティブユニットにフィードバックする。

タスクが多段階複回数タスクである場合、ステップＳ６１８が完了した後に、自動的にステップＳ６０４の操作を開始し、上記の順序（ステップＳ６０２以外）で繰り返しプロセスを行う。

図７は、本発明の実施例に係る検索排除の例を示す図であり、以下、図７に基づいて説明する。

ターゲットの計算は、検索データから１つ又は複数のターゲットを発見することを必要とする。（図７は、ただ１つのターゲットに関する）
（ユーザが入力するコンテンツは単一の明確な結果であり、時間を計算終了トリガ条件とし、フィルタリング条件は実行方案及びアルゴリズムの選択に関しない）

時間を計算終了トリガ条件とし、１回目の計算を完了した後、ターゲットが発見されていない場合に、既に計算されたターゲットのないデータブロックの情報が不完全な結果としてユーザにフィードバックされる。ターゲットが発見された場合には、ターゲットが存在する情報をフィードバックすればよい。

ターゲットが発見された場合に、計算を終了することができ、ターゲットが発見されていない場合には、既に計算を完了したデータソースを排除して次回の計算を行う。

図８は、本発明の実施例に係る範囲正確の例を示す図であり、以下、図８に基づいて説明する。

計算目的は、データソース全体の平均値、和、ある限定カテゴリの平均値、ある限定カテゴリの和等のような統計学において統計可能な結果を統計することである。
（ユーザが入力するコンテンツは単一の統計結果であり、データ量を計算終了トリガ条件とし、フィルタリング条件は実行方案及びアルゴリズムの選択に関しない）

サンプル調査の方法を利用して、全部のデータ中の一部を抽出してデータセット全体の代表として計算する。全部のデータを占めるサンプルの割合が大きいほど、結果が正確であることは明らかである。また、１回計算した後に、既に計算したデータを排除して複数回にわたって計算し続けることもでき、このように、データを繰り返して計算せずに、必要な結果を即時に与えることができるとともに、性能の浪費のない前提下で、結果を次第に正確にさせることができる。

図９は、本発明の実施例に係る分類計算の例を示す図であり、以下、図９に基づいて説明する。

この例の計算目的の結果は限定されない。計算実行方案及びアルゴリズムを確定する際に、計算目的を判断としない。
（ユーザが入力する計算結果パターンは実行方案及びアルゴリズムの選択に関せず、計算終了条件はカテゴリであり、且つ、カテゴリの加入は主要と副次の配列シーケンスに従い、フィルタリング条件は実行方案及びアルゴリズムの選択に関しない）

図１０は、本発明の実施例に係るまず易後が難しい計算の例を示す図であり、以下、図１０に基づいて説明する。

この例の計算目的の結果は限定されない。計算実行方案及びアルゴリズムを確定する際に、計算目的を判断としない。
（ユーザが入力する計算結果パターンは実行方案及びアルゴリズムの選択に関せず、計算終了条件はデータ群であり、フィルタリング条件はデータ群の区分方法に関する）

データ群の区分方法は、典型的に、データの記憶場所、データソース（異なるオペレータ等）、データの記憶フォーマットであってもよい。

図１０の計算プロセスによれば、まず、各グループのデータの１つのセグメント（同じサイズ）を切り出して難易度テスト計算を行う。生成される結果はデータ群の計算順序の整列のために使用され、それから図９のバッチ計算方法を利用して計算することができる。

派生した使用方法：一つのグループのデータの計算が完了する度に、残りのデータがいずれも難易度ランキングを１回行ってもよい。

選択可能な一実施例では、フレームインタラクティブユニットは信頼性の高い機械を必要とするので、２機実装が推奨される。フレームコア制御ユニットは分散実装を実行して、各分散ノードに実装する。内部機構は自動的に１つの管理ノードを選択し、このノードはフル負荷で演算をしない。管理ノードは直接にインタラクティブユニットと通信し、他のノードは、データソースからデータを呼び出す以外には、管理ノード以外の機械と通信しない。タスク実行方案ユニット、アルゴリズムライブラリ、過去ケース集積ライブラリ及び外部成功ケースインポートライブラリは、別々に実装されてもよく、或いは、組み合わせて実装されてもよい。データソースは、ｈａｄｏｏｐのｈｄｆｓ、ｎｆｓ、ｆｔｐ等のような一般的な形式であってもよい。

以上のように、本発明の実施例に提供されたビッグデータ不完全計算システムによれば、意思決定者が重大な意思決定を行う必要がある場合に、往々として時間のようないろいろな制約条件が存在し、本発明の実施例は、これらの制約条件内で最も大きい可能性で意思決定を協力して、意思決定によるリスクを減少させることができる。それとともに、本発明の実施例は、履歴方案の再利用を提供して、方案及びアルゴリズムにおける開発コストを低減させることができる。履歴方案の累積は、システムの計算成功率及び方案マッチング率を不断に向上させることができる。本発明の実施例は、自己学習及び自己進歩可能なアルゴリズムフレームである。

別の実施例では、上記の実施例及び好ましい実施形態に記載の技術手段を実行するためのソフトウェアをさらに提供する。

別の実施例では、上記のソフトウェアが記憶される記録媒体をさらに提供し、この記録媒体は、光ディスク、フレキシブルディスク、ハードディスク、書き込み消去可能なメモリ等を含むがこれらに限定されない。

また、当業者にとっては、上記の本発明の各モジュール又は各ステップが、汎用の計算装置により実現されることができ、それらは単体の計算装置に集中されてもよく、又は複数の計算装置により構成されたネットワークに分散されてもよく、選択的に、それらは計算装置の実行可能なプログラムコードにより実現されることができ、これによって、それらを記憶装置の中に記憶させて計算装置により実行されることができ、また、場合によっては、こちらの手順と異なる手順で示した又は説明されたステップを実行し、又はそれらをそれぞれの集積回路モジュールに製造し、又はそれらのうちの複数のモジュール又はステップを単体の集積回路モジュールに製造して実現されることができることが明らかなことである。このように、本発明はいずれの特定のハードウェア及びソフトウェアの組み合わせに限定されない。

以上は本発明の好ましい実施例にすぎず、本発明を限定するものではなく、当業者にとっては、本発明は様々な変更及び変化を有してもよい。本発明の精神及び原則を逸脱しない範囲内でのいずれの変更、同等の代替、変形等は全て本発明の範囲に含まれる。

本発明の実施例によれば、ビッグデータを計算する指示情報を取得し、指示情報に基づいてビッグデータ中の一部のデータを計算し、計算結果を出力することで、従来技術のビッグデータシステムアーキテクチャにおいてタスクの計算を全部完了してこそ結果を提供できることに起因する問題を解決し、制約条件内で最も大きい可能性で意思決定を協力する効果を達成する。

本発明は、通信分野に関し、特にビッグデータの計算方法及びシステム、プログラムならびに記録媒体に関する。

本発明は、少なくとも従来技術のビッグデータシステムアーキテクチャにおいてタスクの計算を全部完了してこそ結果を提供できることに起因する問題を解決するために、ビッグデータの計算方法及びシステム、プログラムならびに記録媒体を提供する。

選択的に、上記インタラクティブユニットは、さらに、システムの既に定義されたコンテンツから上記指示情報を取得する方式と、入力した上記指示情報を受信する方式と、既存指示情報を修正して上記指示情報を取得する方式と、のうちの少なくとも１つの方式によって上記指示情報を取得するように構成される。
本発明の別の実施例によれば、プログラムが提供され、前記プログラムは、プロセッサに実行されることにより、上記のビッグデータの計算方法を実現することを特徴とする。
本発明の別の実施例によれば、記録媒体が提供され、前記記録媒体には、上記のプログラムが記録されている。

Claims

ビッグデータを計算する指示情報を取得するステップと、
前記指示情報に基づいて前記ビッグデータ中の一部のデータを計算し、計算結果を出力するステップと
を含む
ビッグデータの計算方法。
前記指示情報は、前記計算結果が指定タイプである情報と、所定期間内で前記データを計算する情報と、前記ビッグデータ中の指定データを計算する情報と、予め設定されたデータフィルタリング条件と、のうちの少なくとも１つの情報を含む
請求項１に記載の方法。
前記指示情報に基づいて前記ビッグデータ中の一部のデータを計算し、計算結果を出力するステップは、
前記計算結果が指定タイプである場合に、前記ビッグデータの計算を終了するステップ、及び／又は、
現在の時間が前記所定期間を超えた後の時間である場合に、前記ビッグデータの計算を終了するステップ、及び／又は、
前記指定データの計算が完了した後に、前記ビッグデータの計算を終了するステップを含む
請求項２に記載の方法。
前記データフィルタリング条件は、前記ビッグデータ中の各データ又は各種のデータの優先度を含む
請求項２に記載の方法。
前記指示情報に基づいて前記ビッグデータ中の一部のデータを計算するステップは、
前記指示情報に基づいて前記指示情報にマッチングする第１のケースを検索し、アルゴリズムライブラリにおける前記第１のケースに対応する第１の指定アルゴリズムを呼び出して前記ビッグデータを計算するステップ、又は、
前記指示情報に基づいて第２のケースを検索し、前記第２のケース及びアルゴリズムライブラリ中の第２の指定アルゴリズムに基づいて総合意思決定して、第３の指定アルゴリズムを得て、前記第３の指定アルゴリズムに従って前記ビッグデータを計算するステップを含む
請求項１に記載の方法。
アルゴリズムライブラリにおける前記第１のケースに対応する第１の指定アルゴリズムを呼び出して前記ビッグデータを計算する前に、
前記指示情報にマッチングする前記第１のケースが複数ある場合に、優先度の最も高いケースを選択して前記指示情報にマッチングする第１のケースとするステップを含む
請求項５に記載の方法。
前記計算結果が所定要求を満していない場合に、前記ビッグデータにおける前記一部のデータ以外の残りのデータを計算するステップをさらに含む
請求項１に記載の方法。
ビッグデータを計算する指示情報を取得する方式は、
システムの既に定義されたコンテンツから前記指示情報を取得する方式と、入力した前記指示情報を受信する方式と、既存指示情報を修正して前記指示情報を取得する方式と、のうちの少なくとも１つの方式を含む
請求項１〜７のいずれか１項に記載の方法。
ビッグデータを計算する指示情報を受信するインタラクティブユニットと、
分散ノードに実装されて前記インタラクティブユニットと接続され、前記指示情報を受信して、前記指示情報に基づいて前記ビッグデータ中の一部のデータを計算し、計算結果を出力するコア制御ユニットと
を備える
ビッグデータの計算システム。
前記指示情報は、前記計算結果が指定タイプである情報と、所定期間内で前記データを計算する情報と、前記ビッグデータ中の指定データを計算する情報と、予め設定されたデータフィルタリング条件と、のうちの少なくとも１つの情報を含む
請求項９に記載のシステム。
前記コア制御ユニットは、さらに、前記計算結果が指定タイプである場合に、前記ビッグデータの計算を終了し、及び／又は、現在の時間が前記所定期間を超えた後の時間である場合に、前記ビッグデータの計算を終了し、及び／又は、前記指定データの計算が完了した後に、前記ビッグデータの計算を終了するように構成される
請求項１０に記載のシステム。
前記データフィルタリング条件は、前記ビッグデータ中の各データ又は各種のデータの優先度を含む
請求項１０に記載のシステム。
前記システムは、過去ケースライブラリ及びアルゴリズムライブラリ、又は、過去ケースライブラリ、アルゴリズムライブラリ及び実行方案ユニットをさらに含み、
前記コア制御ユニットは、前記指示情報に基づいて前記過去ケースライブラリから前記指示情報にマッチングする第１のケースを検索し、前記アルゴリズムライブラリにおける前記第１のケースに対応する第１の指定アルゴリズムを呼び出して前記ビッグデータを計算し、又は、
前記コア制御ユニットは、第３の指定アルゴリズムに従って前記ビッグデータを計算し、前記第３の指定アルゴリズムは、前記実行方案ユニットが前記コア制御ユニットから受信した前記指示情報に基づいて、前記過去ケースライブラリから呼び出した第２のケース及び前記アルゴリズムライブラリから呼び出した第２の指定アルゴリズムに基づいて総合意思決定して得られたものである
請求項９に記載のシステム。
前記コア制御ユニットは、さらに、前記指示情報にマッチングする前記第１のケースが複数ある場合に、優先度の最も高いケースを選択して前記指示情報にマッチングする第１のケースとするように構成される
請求項１３に記載のシステム。
前記コア制御ユニットは、さらに、前記計算結果が所定要求を満していない場合に、前記ビッグデータにおける前記一部のデータ以外の残りのデータを計算するように構成される
請求項９に記載のシステム。
前記インタラクティブユニットは、さらに、システムの既に定義されたコンテンツから前記指示情報を取得する方式と、入力した前記指示情報を受信する方式と、既存指示情報を修正して前記指示情報を取得する方式と、のうちの少なくとも１つの方式によって前記指示情報を取得するように構成される
請求項９〜１５のいずれか１項に記載のシステム。