JP5892937B2 - データベース及びデータベースからのデータ評価方法 - Google Patents
データベース及びデータベースからのデータ評価方法 Download PDFInfo
- Publication number
- JP5892937B2 JP5892937B2 JP2012530329A JP2012530329A JP5892937B2 JP 5892937 B2 JP5892937 B2 JP 5892937B2 JP 2012530329 A JP2012530329 A JP 2012530329A JP 2012530329 A JP2012530329 A JP 2012530329A JP 5892937 B2 JP5892937 B2 JP 5892937B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- data
- database
- input
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 107
- 238000011157 data evaluation Methods 0.000 title description 2
- 238000004364 calculation method Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 40
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 239000006185 dispersion Substances 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 43
- 230000036961 partial effect Effects 0.000 description 30
- 230000001186 cumulative effect Effects 0.000 description 25
- 230000002829 reductive effect Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000005259 measurement Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 235000019580 granularity Nutrition 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000005553 drilling Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000009412 basement excavation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000004567 concrete Substances 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004387 environmental modeling Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 239000011150 reinforced concrete Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
- Stored Programmes (AREA)
Description
第2入力値ynと、
変換アルゴリズムによりynから計算される変換値pnと、
zn=zn−1+pnである出力値znとに関連付けられており、
さらに、複数の出力値znを保存するように構成されたデータベースが提供される。
もしくは、第2入力値ynの異なる関数pnの累計値であってもよい。
a)測定データ値の平均値、
b)測定データ値の和、
c)測定データ値の最大値又は最小値、
d)測定データ値の標準偏差
(i)値列を保存し、
(ii)値列の最小値及び/又は最大値を特定し、
(iii)少なくとも第1部分列の値と該第1部分列の値の直後に追随する第2部分列の値を決定するように構成されたデータベースを提供する。このデータベースにおいて、第1部分列と第2部分列の境界は、値列の最小値又は最大値の位置に配置されている。
(i)本発明の第5の態様に係るデータベースを提供する工程と、
(ii)特定のデータ列が、第1、第2部分列まで及ぶものかどうかを判定する工程と、
(iii)特定のデータ列が、第1、第2部分列まで及ぶものである場合に、第1、第2部分列の境界にある値を抽出する工程とを具備する方法を提供する。
(i)第1部分列に追随する値の最小値に対応する極小値を特定し、
(ii)第2部分列の値の直後に追随する値からなる第3部分列(第2、第3部分列の境界は前記極小値の位置に配置される)を決定し、
(iii)n=2である第n部分列に追随する値の最小値に対応する更なる極小値を特定し、
(iv)第(n+1)部分列の値の直後に追随する値からなる第(n+2)部分列(第(n+1)、第(n+2)部分列の境界は更なる極小値の位置に配置される)を決定し、
(v)n=kまでのnのすべての整数値(n=kでは、隣接する部分列の境界を決める極小値はもはや存在しない)に対して工程(iii)と(iv)を繰り返すように構成されている。
本発明は、時間的に変化する予測不能な長さで高速で次々と入ってくるデータストリームを含むアプリケーションにおいて有用である。従来のDBMSの手法は、そのメモリが限られているため、連続的なクエリや処理に加えて、高速の連続的なデータの取り込みが求められる場合には不向きである[M. Kontaki, A. N. Papadopoulos, Y. Manolopoulos, スライディングウィンドウによる時系列ストリーミングにおける適応類似性検索、Data & Knowledge Engineering、第63巻2号(2007年11月)、第478〜502頁]。また、そのようなデータに対して標準的な解析的分析を試みる際に生じる更なる問題としては、1度又は限られた回数でのみ読み込むことができるデータストリームの連続的かつ予測不能な動作のために、ランダム・アクセスを実現することができないということがある[P. Tsai、スライディングウィンドウモデルを使った、データストリームに対するトップK個の頻出閉アイテムセットのマイニング、アプリケーションを有するエキスパートシステム:国際ジャーナル、第37巻10号(2010年10月)、第6968〜6973頁]。これには、複数回データスキャンをする必要のないレンジクエリに対して迅速に回答できるよう改良された解析方法が必要となる。
本発明のメカニズムは、連続するデータ・アプリケーションに必要な以下のクエリタイプを実行可能である。[F. Buccafurri, G. Lax、効率的レンジクエリのための巡回的ツリー状ヒストグラムによるスライディングウィンドウの近似、Data & Knowledge Engineering、第69巻9号(2010年9月)、第979〜997頁]
1.ポイントクエリ:データストリームのk番目のデータポイントを返す。
2.レンジクエリ:集合データを所定時間間隔内に返す。
3.類似クエリ:類似パターンがデータストリーム内に生じるかどうかに関して、真値を返す。[P. Capitani, P. Ciaccia、データストリームに対するタイムワーピング、Data & Knowledge Engineering、第62巻3号(2007年9月)、第438〜458頁]
[金融]
[市場の透明性]
金融市場当局がその参加者に対して公平で透明性のある市場を確保することへの要求が高まっている。取引量が増加するにつれ(市場によっては1日当たり何百ギガバイトにも上る)、すべての参加者へのデータ発信がますます難しくなる。そのようなデータへのフルアクセスを得る経済的余裕があるのは、機関投資家や大口投資家に限られている。このこと自体、膨大なデータを受け取る余裕のない小口投資家からすれば、透明性の大きな問題となっている。取引データのみならず、オーダー動向や従来とは異なる実行情報などの、より精度の高いデータの必要となると、問題は一層深刻となる。本発明は、すべての参加者に正確な集合データを提示可能とするため、カスタマイズ可能なウィンドウサイズのメカニズムにより参加者が所望のデータを選択可能とする。これはいくつかの利点をもたらす。まず、計算は、累積データ保存時に一度しか行われない。その後ユーザは必要なデータ範囲を要求し、開始及び終端データのみを受領するが、これにより要求は満たされる。従って計算量が大幅に抑えられる。特に計算量の上限がデータ生成時に制限されるため、ユーザ数や要求が多くなった場合有効である。また、要求されたデータ範囲の境界のみをユーザに送ることで帯域が大幅に縮小し、データ領域要求に係わらず効果的に通信コストが制限される。第3に、顕著な計算または帯域のオーバーヘッドがなくカスタムデータ範囲を抽出可能なため、大量のリアルタイム分析及び実験を同時進行させることができる。第4に、参加者がデータクエリの全てを、全データを送ることなく実行できるため、当局のデータがより不正に使用、移転されにくくなる。最後に、本発明は、通常高値で売られるティックデータを個別に全て開示することなく、全体的に全ての参加者にとって市場を透明化する手段を提供する。
[ネットワークトラフィックモニタリング]
ネットワーク利用の最適化は、ルーターやスイッチキューの管理に依存する[E. Hernandez-Orallo, J. Vila-Carbo、ヒストグラムに基づくトラフィックモデルを使ったネットワークキューやロスの解析、Computer Communications、第33巻2号(2010年2月)、第190〜201頁]、[S.K.Tanbeer、C.F.Ahmed、B.Jeong、Y.Lee、データストリームに対するスライディングウィンドウに基づく頻出パターンマイニング、Information Sciences、第179巻227号、2009年11月、第3843〜3865頁]。一般的には、ネットワークのモデリングでは、キューの利用に関する情報の決定を目的として、トラフィックを所定のサービスレートで限られたサイズのキューへと入力する。そして、平均値や変動値を連続的に決定する必要がある上記トラフィックをカスタム分布やモデルによりモデリングする。ネットワークサイズの増大に伴い、生成されるデータ量やその結果生じる計算量が増大し、個別のユーザニーズに合わせたレポートを作成することがますます難しくなっている。本発明は、この問題に対し、以下の3つの点で貢献することができる。
1.現時点での一定期間監視レポート(例えば、24時間ごとに更新)をユーザに送る。これは、各ユーザに対し、それぞれ個別の要求に基づいてカスタムレポートを作成するのが困難なためである。本発明は、データの事前計算や保存を可能にし、そのようなデータはその後ユーザがカスタムレポートを作成するのに利用される。これにより、各ユーザにかかるカスタム計算の必要性が削減される。
2.統計的計算は、累計的計算へと容易に変形可能であり、これによって、求められる範囲の終点データアイテムを送ればいいので、ユーザ1人当たりのデータ量や帯域使用を最小限に抑えることができる。
3.全データセットではなく、ユーザ要求に関するデータのみを送ればいいので、プロバイダーに対するデータセキュリティーが向上する。
データサーバー内の情報は、ネットワークを介した攻撃から保護されなければならない[H. Li, S. Lee、効率的なウィンドウスライディング方法を使った、データストリームに対する頻出アイテムセットのマイニング、Expert Systems with Applications、第36巻2号、第1部、2009年3月、第1466〜1477頁]、[W. Wang, X. Guan, X. Zhang、異常な侵入をリアルタイムで検出するための、膨大な監査ストリームの処理、Computer Communications、第31巻1号(2008年1月)、第58〜72ページ]。基本的な2つの手法としては、事前に保存された原型的攻撃との照合により不当な挙動を検出するシグネチャベース検出と、一般ユーザのプロフィールを保存し、許容できない逸脱を攻撃の可能性として特定する異常検出とが挙げられる。シグネチャベースの方法は、所定のシグネチャ一式に対する距離をリアルタイムで記録する本発明の距離測定メカニズムを利用する場合に利用可能である。本発明独自の利点としては、完全なシグネチャに対する距離だけでなく、シグネチャのサブセットに対する距離を求めることも可能である。これにより、時間のかかる距離の再計算を必要とせずに、実験やテストを速やかに行うことが可能となる。また、異常検出には、データサブセットに対する計算が可能という点でも有効である。これは、従来の方法と比較して、更なる計算を必要とせず、帯域コストを大幅に削減しながら、複数の期間の同時測定が可能な自動校正方法に特に適している。
[コンクリート構造体]
高いコンクリート構造体のための質量ダンピングシステムの性能をトラックし、そのダンピングの向上や安全性維持を図るため、監視技術が使用される[J. M. W. Brownjohn, E. P. Carden, C. R. Goddard, G. Oudin、183mの強化コンクリート製煙突のための同調質量ダンパーシステムのリアルタイム性能モニタリング、Journal of Wind Engineering and Industrial Aerodynamics、第8巻3号、2010年3月、第169〜179頁]。加速度計が構造体に接続され、遠隔監視されることで、構造体の変位が臨界閾値を超えているかどうかを判別するためのリアルタイムな情報が得られる。この監視技術を何百や何千といった構造体に対して大規模に使用するには、すべてのユーザが必要な監視タスクを同時に行うことができるよう、本発明のような統一されたデータ管理システムが必要となる。一度計算すれば何度も使える方法では、複数の自動システムにより、様々なサイズのウィンドウとデータの組み合わせを介して、様々な現象を効率的に監視できる。また、累積データ保存構造が必要とするのは低帯域であるため、オーバーヘッド通信コストをほとんど必要とせずに、遠く離れた場所を監視することができる。
作業の安全性基準を維持しながら、掘削処理を最適化し、コストを最小限に抑えることを目的とする。これは、採掘された累積フィート長に基づき、全体の貫通率が最大となるように、作業の間中掘削処理を検査し続けることで実現される。ドリルヘッドの利用を最大限に引き上げるか、ドリルヘッドの損傷によるプロジェクト停止時間や、新しい部品の交換・発注に関連するリードタイムを最小限に抑えるか、という根本的な判断が必要となる。ビット重量や回転速度などの複数の変数を分析し続け、そのようなデータを数学モデルに適用し、掘削プロジェクトの進行を妨げずにビットヘッド利用を最大化することができるよう、可能な限り判断は引き伸ばされる。これは、作業進行にしたがって、異なる地質の層を掘削したり、掘削速度を変更したり、モデルのリアルタイムキャリブレーションを行う場合に重要であり、当初の方針にかかわらず総合的解析を確実に行うことを可能にする。また、最初のデータを用いていくつかの異なるモデルを同時に評価することが可能となる。さらに、必要となるのが低帯域であることは、アナリストを送ることが難しく、また大規模帯域通信チャネルを得るにはあまりにもコストがかかるような、遠く、厳しい環境にて掘削を行う場合に特に重要である。
[地震予知]
早期警戒装置は、様々な振動の異なる伝搬速度に基づいて、大規模な地震が到達する前に、直前警報を発することができる。この応用の特徴としては、値を得るためほぼ瞬間的処理を必要とする大量な連続データを使うという点である。測定センターは、地震到達前の検出時間を延ばすため、近隣センターからの測定値も利用することができる。これは、各測定装置により得られるデータ量が膨大なため、最大のセンター以外の他のセンターにとってはあまりに費用がかかりすぎる。しかしながら、本発明をデータ保存のバックボーンとして利用することで、何百、何千の近隣センターが、本発明の低帯域を活用して、データを共有できる。また、スライディングウィンドウの異なるサイズに対して計算オーバーヘッドが極わずかであることは、様々なサイズの偏差を検出するために、あらゆるレベルの検出が同時に実行可能であることを意味している。このことは、多数の候補となるモデルが同時に機械テストされ応用されうるため、実験において重要である。
現場環境センサーは、監視する環境に物理的に位置し、その時系列データは単一のデータリポジトリに連続的に送信される[D. J. Hill, B. S. Minsker、環境センサーのデータストリームにおける異常検出:データ駆動モデリング手法、Environmental Modeling & Software、第25巻9号、2010年9月、第1014〜1022頁]。過去のパターンから大きく逸脱する異常データの検出及び特定には、自動的なデータ品質の保証と管理が必要である。このような異常検出は、異常データが更なる調査を必要とすることもある現象を示す適応モニタリングの分野においても利用することができる。本発明は、カスタム可能なスライディングウィンドウメカニズムによりデータ保証テストを同時に行うことができる主要なデータ保管場所として利用することができ、それにより品質モニタリングをさらに高度化することができる。また、計算コストを増やさずに、同じメカニズムで複数の異常な現象を同時に検出したり、検出方法に直接変更を加えたりすることができる。他の利点としては、低帯域データ送信メカニズムにより、通信にわずかに投資したのみの他の遠距離のユーザのデータ要求にも応じることが可能となる。
も保存されている。従って、各時間値nは、それと関連付けられた、最も古い時間値からもっと新しい時間値まで記録されたy変数の和を有する。
が保存されている。こうして、時間aから時間bまでの注目する期間にわたる変数y、y´の相関係数を以下の式から求めることができる。
変数yの累計値が保存されている、本発明の第1の態様の第1実施形態に係るデータベースを例にとって考えてみると、データベースの構築コストは、(従来のデータベースの比較例と比べて)以下のように設定されている。
新しいレコードの追加コスト=新しいレコードを過去のすべてのレコードの合計に追加するのにかかる計算コスト+新しい累積レコードの保存にかかる保存コスト
従来のデータベースの場合、新しいレコードの追加コスト=追加の1レコードを保存するのにかかる保存コスト(計算コストなし)
保存コストとは、レコードをネットワークメモリ(ネットワーク帯域の使用も含む)に送信するのにかかるコストのことである。
計算コストとは、所望のフォーマットへと数学的に操作するのにかかるコストのことである。
本実施例では、本発明の第1の態様の第1実施形態に係るデータベースから、データレコード列の平均が求められる。
1.列の始まりと終わりからデータレコードを読み出す工程(読み出しコスト=2回のフェッチ処理)
2.終了レコード値から開始レコード値を減算する工程(計算コスト=1回の減算処理)
3.データサイズによる除算を行う工程(計算コスト=1回の除算処理)
1.注目する列のすべてのデータレコードを読み出す工程(読み出しコスト=n回のフェッチ処理)
2.読み出されたすべてのレコードの総和を求める工程(計算コスト=(n−1)回の加算工程)
3.データサイズによる除算を行う工程(計算コスト=1回の除算処理)
株式の出来高加重平均価格(vwap)は、全取引金額を全取引高で割ることで求められる。取引の金額は、取引高と価格の積である。
1.注目する列の始まりと終わりから金額レコードを読み出す工程(読み出しコスト=2回のフェッチ処理)
2.終了レコードから開始レコードを減算する工程(計算コスト=1回の減算処理)
3.注目する列の始まりと終わりから出来高レコードを読み出す工程(読み出しコスト=2回のフェッチ処理)
4.終了レコードから開始レコードを減算する工程(計算コスト=1回の減算処理)
5.工程2で得られた値を工程4で得られた値で除算する工程(計算コスト=1回の除算処理)
従って、vwapの総計算コストは、4回のフェッチ処理と、2回の減算処理と、1回の除算処理となる。
1.注目する列のすべての金額レコードを読み出す工程
2.工程1で得られたすべてのレコードの総和を求める工程
3.注目する列のすべての出来高データレコードを読み出す工程
4.工程3で得られたすべてのレコードの総和を求める工程
5.工程2で得られた値を工程4で得られた値で除算する工程
従って、比較例としては、従来のデータベースによりvwapを算出するのにかかる総データコストは、2×n回のフェッチ処理(nは注目するデータ列の値数)と、2×(n−1)回の加算処理と、1回の除算処理となる。
第3実施形態では、本発明の第1の態様のデータベースは6つの期間を有し、各期間は1〜5のラベルが付された5つのレコード列で構成されている。このデータベースは、異なる期間から対応するレコード間のユークリッド距離を保存するよう構成されている。ユークリッド距離は、以下の式により累積された形で保存されている。
ここで、rはレコードの数、TAは第1期間、TBは第2期間である。
1.注目する部分列の開始と終了、2つの注目する期間に対応する累積距離値をフェッチする処理
2.部分列の終了における累積値から部分列の開始における累積値を減算する処理
3.2つの累積値間の差の平方根を計算する処理
1.2n個(nは部分列の長さ)のレコードをフェッチする処理
2.n回の減算処理(異なる期間の部分列から対応するレコードを用いて行われる)
3.n回の乗算処理(差の2乗を求めるため)
4.(n−1)回の加算処理
5.1回の平方根処理
通常、本発明の第2の態様に係る方法により行われるデータ要求は、要求されたデータ期間の始点と終点をフェッチする処理から構成されている。待ち時間のためにフェッチ処理に費用がかかる場合(データベースへのアクセス時、ネットワークを介したフェッチング時など)、更なるフェッチ作業に対する待ち時間オーバーヘッドを解消し、キャッシング時の時間局所性を利用するために、データをプリフェッチすることは有益である。
本発明の第3の態様に係る本実施形態では、受け取ったデータはすべて一次データベースに保存される。また、以下の(i)又は(ii)の時刻から遡って測定された所定の時間間隔に対応するレコードを保存する二次データベースも構築される。
(i)データベースの最新更新時刻
(ii)現在時刻
本実施例では、データベースには、金融商品に関連するデータ、例えば、各金融商品の市場指標が保存され、データは市場指標の値によってソートされる。市場指標が更新されると、データ値の順序がバラバラになってしまうため、データベースの再ソートを行う必要がある。
for i= 2 to n
if x[i] < x[i-1]
sort_instruments
return
ここで、iは金融商品、x[i]はその金融商品の市場指標である。
本発明の第1の態様に係るデータベースは、一般に入手可能な生データから完全なオーダーブックを作り上げることで得られる記述金融指標を生成するのに利用されてもよい。
通常、レベルIIIは、マーケットメーカーや専門家だけが入手可能なデータであるが、以下の手法により、より一般的に入手可能なレベルIIデータメッセージを用いて合成することができる。
本処理は、オーダーブックの動きとして、入力メッセージの分類が行われた際に開始され、メッセージを最新inputOB_table(レベルII)に組み込む工程と、最新fullOB_table(レベルIII)と比較する工程と、新tempOB_table(レベルIII)とchange_listを生成する工程とから構成されている。その後tempOB_tableが最新のfullOB_tableとなり、change_listは取引メッセージに利用可能となる。
最新メッセージは、古い価格レベルがオーダーブックから削除されていることを示す。
[状態]
price(fullOB_table, fullOB_pointer) > price(inputOB_table, inputOB_pointer)(ビッド側)
price(fullOB_table, fullOB_pointer) < price(inputOB_table, inputOB_pointer)(アスク側)
又は
inputOB_pointer → end 及びinputOB_pointer < level2_size
[更新]
追加 change_listへ[price(fullOB_table, fullOB_pointer), -vol(fullOB_table, fullOB_pointer)]
増分 fullOB_pointer
最新メッセージは、新しい価格レベルがオーダーブックに追加されていることを示す。
[状態]
price(fullOB_table, fullOB_pointer) < price(inputOB_table, inputOB_pointer)(ビッド側)
price(fullOB_table, fullOB_pointer) > price(inputOB_table, inputOB_pointer)(アスク側)
又は
fullOB_pointer → end(又はempty)
[更新]
追加 tempOB_listへ[price(inputOB_table, inputOB_pointer), vol(inputOB_table, inputOB_pointer)]
追加 change_listへ[price(inputOB_table, inputOB_pointer), vol(inputOB_table, inputOB_pointer)]
増分 inputOB_pointer
最新メッセージは、オーダーブックの現価格レベルに影響を与えない。
[状態]
price(fullOB_table, fullOB_pointer) = price(inputOB_table, inputOB_pointer)
[更新]
追加 tempOB_listへ[price(inputOB_table, inputOB_pointer), vol(inputOB_table, inputOB_pointer)]
追加 change_listへ[price(inputOB_table, inputOB_pointer), Δvol(inputOB_table, inputOB_pointer)]
増分 fullOB_pointer
増分 inputOB_pointer
両ポインタがオーダーブック表の最高価格を指している場合、市場状態を「オープン」に更新。
現在level2_sizeより低い価格レベル
[状態]
inputOB_pointer > level2_size
[更新]
追加 tempOB_listへ[price(fullOB_table, fullOB_pointer), vol(fullOB_table, fullOB_pointer)]
増分 fullOB_pointer
価格レベルは、レベル2サイズの限界を超えた場合に変更される可能性があり、戻ってきたときに完全に正確なものではないこともある。
本処理は、取引として、入力メッセージの分類が行われた際に開始される。本処理では、入力メッセージがinputTR_tableに変換され、最新change_listに対する一致や変更処理が行われる。change_listは、すべての取引やオーダーブックの動向の要約であり、金融指標生成のための主な入力ソースである。
[状態]
vol(inputTR_table) = vol(change_list)
price(inputTR_table) = price(change_list)
又は
市場状態=オープン
[更新]
正常取引として、change_listに(price, vol)をマーク
市場状態がオープンの場合、最高レベルでの最小ビッド/アスク数量を決定し、取引総数がその最小数量に等しくなるまですべての取引に対するループとマークを行う。
[状態]
price(inputTR_table) = price(change_list)
vol(inputTR_table) > vol(change_list)
[更新]
非公開取引として、change_listに(price, vol)をマーク
未分類
[状態]
price(inputTR_table) = price(change_list)
vol(inputTR_table) < vol(change_list)
[更新]
非公開取引として、change_listに(price, vol)をマーク
なお、取引メッセージを受信しないとオーダーブックの動向状態が判別できないため、その動向が取引であるかどうかの判定には遅延が存在する。これは、上記情報の交換処理の方法が直接の原因となっている。
金融指標は、{データ種類、動作、動作種類}の3個の要素から構成されている。表7、表8には、各要素が示すものが簡単に説明されている。なお、オーダーとは、取引済みオーダー(実行済み)や未決オーダー(オーダーブックに待機中)を示してもよい。
カバレッジマッピング技術の例を、表11に示すサンプルデータセットを用いて説明する。表11のサンプルデータセットには、それぞれ位置に割り当てられた10個のレコードが含まれている。位置番号は、データベースの「方向」を定めている。すなわち、位置番号は、データベースの順方向に増加し、その逆方向に減少する。データレコードは、通常、データベースに時系列的に入力される。つまり、第1位置には一番古いレコードが、最大位置番号には最新のレコードが含まれることになる。
現在位置を起点として、対象となる最古値の位置を調べる。つまり、現在のレコード(rc)以下の値を有するレコード(r1)に遭遇するまで、古いレコードに向かってデータベースを遡る。そして、レコード(r1)の位置により、現在位置の範囲値を決定する。範囲値は、(位置(r1)+1)により求められる。検索基準に該当するレコードがない場合、位置(r1)=0、範囲値は1となる。
範囲値がレコード(rc)の位置未満である場合、範囲位置(r1)(ただし、これを含まない位置)から現在位置(rc)(を含む位置)までの過去の全レコードに、現在位置のレコード値を付与する。これは、本作業がデータ列の過去のレコードに対して実行される際に割り当てられたラベルの上書きを意味する場合もある。表13には、10個のレコードすべてに対して操作1、2を順に行った結果得られる、表11のデータベースの修正版を示す。
表14に、データベースに新しいレコードが入力されるたびに行われる一連の段階におけるデータベースの構築を説明する具体例を示す。データベースには、段階1において、位置1に1個のレコードが含まれ、段階nにおいて、n個のレコードが含まれ、n番目のレコードは位置nにある。データベースに新しいレコードが挿入されるたびに、「アルゴリズム工程」の行に示されるように、範囲値及びラベル値が更新される。
表15〜18に、長いデータ列に対する中間記述の生成方法を示す。この表では、最近入力されたレコード値に対して、範囲やラベルが更新されている。段階5、10、15、20に対する(すなわち、5個、10個、15個、20個それぞれのレコード入力後の)データベースのスナップショットを表に示す。各特定の段階で、最新のレコードから遡る注目するデータ列に対して、サンプルクエリが示されている。
データベースの構築及びクエリを行うための実施例9〜11に示す方法及びアルゴリズムは、データベースの部分列の最大値が特定可能なように改良が加えられてもよい。
現在位置を起点として、カバーされている最古値の位置を調べる。つまり、現在のレコード(rc)以上の値を有するレコード(r1)に遭遇するまで、古いレコードに向かってデータベースを遡る。そして、レコード(r1)の位置により、現在位置の範囲値を決定する。範囲値は、(位置(r1)+1)により求められる。検索基準に該当するレコードがない場合、位置(r1)=0、範囲値は1となる。
範囲値がレコード(rc)の位置未満である場合、範囲位置(r1)(ただし、これを含まない位置)から現在位置(rc)までの過去の全レコードに、現在位置のレコード値を付与する。これには、本操作がデータ列の過去のレコードに対して実行される際に割り当てられたラベルの上書きが必要となる場合もある。
表19に、データベースに新しいレコードが入力されるたびに、最大値の決定に用いられるデータベースが一連の段階においてどのように構築されるかを示す。データベースには、段階1において、位置1に1個のレコードが含まれ、段階nにおいて、n個のレコードが含まれ、n番目のレコードは位置nにある。データベースに新しいレコードが挿入されるたびに、「アルゴリズム工程」の行に示されるように、範囲値及びラベル値が更新される。
Claims (11)
- 入力値の組から数量を算出するコンピュータシステムであり、
n=1,2,...iである第1入力値xnの値列を保存するデータベースを含み、
任意の値nに対して、xnは、上記値列においてxn+1とxn−1との間にあり、
xnは、
第2入力値ynと、
変換アルゴリズムによりynから計算される変換値pnと、
zn=zn−1+pnである出力値znとに関連付けられており、
上記データベースは、複数の前記出力値znを更に保存するように構成されており、
任意の値nに対して、xnはさらに別の入力値y´n、及び、pn=yn・y´nと関連付けられている、
コンピュータシステム。 - xnが時間値である、請求項1に記載のコンピュータシステム。
- xnが数値である、請求項1又は2に記載のコンピュータシステム。
- xn+1−xn=xn−xn−1である、請求項3に記載のコンピュータシステム。
- xnが時間値であり、xn−xn−1が0.5秒未満、より好ましくは0.1秒未満、最も好ましくは0.05秒未満である、請求項4に記載のコンピュータシステム。
- i>1000である、請求項1乃至5のいずれか1項に記載のコンピュータシステム。
- 前記第2入力値ynは、金融取引を示す変数である、請求項1乃至6のいずれか1項に記載のコンピュータシステム。
- コンピュータ処理により、n=aからn=bにわたる第1入力値xnの値列の一部に対応する第2入力値ynの組から数量を算出する方法であって、
請求項1に記載のデータベースから、n=aである出力値znと、n=bである出力値znを抽出することを含み、
前記算出される数量は、
前記第1入力値xnの値列の一部に対応する前記第2入力値ynと前記別の入力値y´nとの積の平均、
もしくは、
前記第1入力値xnの値列の一部に対応する前記第2入力値ynと前記別の入力値y´nとの相関係数である、
方法。 - 算出される数量は、
前記第1入力値xnの値列の前記一部に対応する前記第2入力値ynの和、
前記第1入力値xnの値列の前記一部に対応する前記第2入力値ynの平均、
前記第1入力値xnの値列の前記一部に対応する前記第2入力値ynの分散、
前記第1入力値xnの値列の前記一部と、前記第1入力値xnの値列の前記一部に対応する前記第2入力値ynの値列との間の距離、
もしくは、
前記第2入力値ynと、前記第1入力値xnの値列の前記一部に対応する前記第1入力
値xnとの相関係数、
である、請求項8に記載の方法。 - 前記出力値をさらに抽出する工程と同時に実施される、前記データベースから追加値を抽出する工程をさらに含み、前記追加値は後の計算に使用されるキャッシュ内に保存される、請求項8又は9に記載の方法。
- 前記更なる出力値と前記追加値とで出力値znの値列の部分列が形成される、請求項10に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0916921A GB0916921D0 (en) | 2009-09-25 | 2009-09-25 | Database and method for evaluating data therefrom |
GB0916920A GB0916920D0 (en) | 2009-09-25 | 2009-09-25 | Database and method for evaluating data therefrom |
GB0916921.0 | 2009-09-25 | ||
GB0916920.2 | 2009-09-25 | ||
PCT/GB2010/001784 WO2011036448A2 (en) | 2009-09-25 | 2010-09-22 | Database and method for evaluating data therefrom |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015185418A Division JP2016026353A (ja) | 2009-09-25 | 2015-09-18 | データベース及びデータベースからのデータ評価方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013506180A JP2013506180A (ja) | 2013-02-21 |
JP5892937B2 true JP5892937B2 (ja) | 2016-03-23 |
Family
ID=43064387
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012530329A Expired - Fee Related JP5892937B2 (ja) | 2009-09-25 | 2010-09-22 | データベース及びデータベースからのデータ評価方法 |
JP2015185418A Pending JP2016026353A (ja) | 2009-09-25 | 2015-09-18 | データベース及びデータベースからのデータ評価方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015185418A Pending JP2016026353A (ja) | 2009-09-25 | 2015-09-18 | データベース及びデータベースからのデータ評価方法 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP2480991A2 (ja) |
JP (2) | JP5892937B2 (ja) |
CN (2) | CN102648467B (ja) |
SG (1) | SG10201703775XA (ja) |
WO (1) | WO2011036448A2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832258A (zh) * | 2017-11-16 | 2018-03-23 | 上海理工大学 | 一种获取随机可验数的装置及其方法 |
CN108734405A (zh) * | 2018-05-24 | 2018-11-02 | 国信优易数据有限公司 | 一种数据价值评估平台和方法 |
CN108764995A (zh) * | 2018-05-24 | 2018-11-06 | 国信优易数据有限公司 | 一种数据价值确定系统和方法 |
CN109564567B (zh) * | 2018-10-17 | 2023-07-25 | 北京算能科技有限公司 | 数据存储方法、装置、电子设备及计算机可读存储介质 |
CN117112581A (zh) * | 2018-10-26 | 2023-11-24 | 创新先进技术有限公司 | 一种数据状态更新方法、装置、设备及介质 |
CN112465162A (zh) * | 2020-11-17 | 2021-03-09 | 广州文冲船舶修造有限公司 | 一种修船成本获取方法和获取系统 |
CN114817375B (zh) * | 2022-06-24 | 2022-11-01 | 深圳市智联物联科技有限公司 | 工业互联网数据采集管理系统 |
CN117708179B (zh) * | 2024-02-02 | 2024-05-03 | 成都深瑞同华科技有限公司 | 电力综合监控系统测点数据缓存方法、装置、设备及介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5548749A (en) * | 1993-10-29 | 1996-08-20 | Wall Data Incorporated | Semantic orbject modeling system for creating relational database schemas |
EP1057131B1 (en) * | 1998-10-30 | 2002-05-22 | International Business Machines Corporation | Methods and apparatus for performing pattern dictionary formation for use in sequence homology detection |
EP1107157A3 (en) * | 1999-12-01 | 2001-11-28 | International Business Machines Corporation | System and method for performing predictive analysis |
CN1357848A (zh) * | 2000-12-11 | 2002-07-10 | 透明度科技(国际)有限公司 | 互联网的实时信息推出工程 |
US7146603B2 (en) * | 2001-01-05 | 2006-12-05 | Borland Software Corporation | Context programming in object-oriented environments |
US20040225592A1 (en) * | 2003-05-08 | 2004-11-11 | Churquina Eduardo Enrique | Computer Implemented Method and System of Trading Indicators Based on Price and Volume |
CN1734492A (zh) * | 2004-08-02 | 2006-02-15 | 蔡耀光 | 金融商品市场量价时间互动分析系统及方法 |
JP2006163644A (ja) * | 2004-12-03 | 2006-06-22 | Shigeru Suganuma | アップデートの表示方法およびその装置 |
US7542939B2 (en) * | 2005-10-31 | 2009-06-02 | Penson Worldwide, Inc. | Modeling financial instruments using bid and ask prices |
JP4452234B2 (ja) * | 2005-11-25 | 2010-04-21 | 日本電信電話株式会社 | データストリーム処理方法、データストリーム処理プログラム、記憶媒体、および、データストリーム処理装置 |
US8156083B2 (en) * | 2005-12-01 | 2012-04-10 | Oracle International Corporation | Database system that provides for history-enabled tables |
JP2007271239A (ja) * | 2006-03-31 | 2007-10-18 | Osaka Gas Co Ltd | エネルギ消費量分析装置及び分析方法 |
CN101315694A (zh) * | 2007-06-01 | 2008-12-03 | 吴荣斌 | 用成交量加权计算移动平均的方法 |
-
2010
- 2010-09-22 SG SG10201703775XA patent/SG10201703775XA/en unknown
- 2010-09-22 CN CN201080053621.6A patent/CN102648467B/zh active Active
- 2010-09-22 WO PCT/GB2010/001784 patent/WO2011036448A2/en active Application Filing
- 2010-09-22 JP JP2012530329A patent/JP5892937B2/ja not_active Expired - Fee Related
- 2010-09-22 CN CN201811141251.6A patent/CN109145033B/zh active Active
- 2010-09-22 EP EP10760743A patent/EP2480991A2/en not_active Ceased
-
2015
- 2015-09-18 JP JP2015185418A patent/JP2016026353A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
SG10201703775XA (en) | 2017-06-29 |
EP2480991A2 (en) | 2012-08-01 |
CN102648467B (zh) | 2018-10-02 |
CN109145033A (zh) | 2019-01-04 |
JP2016026353A (ja) | 2016-02-12 |
CN109145033B (zh) | 2022-09-13 |
CN102648467A (zh) | 2012-08-22 |
WO2011036448A3 (en) | 2011-05-19 |
JP2013506180A (ja) | 2013-02-21 |
WO2011036448A2 (en) | 2011-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5892937B2 (ja) | データベース及びデータベースからのデータ評価方法 | |
US9639585B2 (en) | Database and method for evaluating data therefrom | |
US9697284B2 (en) | Search prediction using context modeling | |
US7647585B2 (en) | Methods and apparatus to detect patterns in programs | |
US20040133581A1 (en) | Database management system, data structure generating method for database management system, and storage medium therefor | |
CN108509723B (zh) | 基于人工神经网络的LRU Cache预取机制性能收益评估方法 | |
CN105279240A (zh) | 客户端起源信息关联感知的元数据预取方法及系统 | |
US20180012239A1 (en) | Data Pre-Processing and Searching Systems | |
CN101119302A (zh) | 一种挖掘事务数据流上最近时间窗口内频繁模式的方法 | |
WO2012169102A1 (ja) | データベース性能予測装置及びデータベース予測方法 | |
US20170091190A1 (en) | Computer system programmed to identify common subsequences in logs | |
US20220245010A1 (en) | Time-series anomaly detection using an inverted index | |
US20170337249A1 (en) | Database and method for evaluating data therefrom | |
CN117370058A (zh) | 一种业务处理方法、装置、电子设备及计算机可读介质 | |
US20080320018A1 (en) | Cube-based percentile calculation | |
CN111241155A (zh) | 时序数据异常检测方法、装置、设备及存储介质 | |
JPWO2012081165A1 (ja) | データベース管理装置及びデータベース管理方法 | |
CN114912668A (zh) | 基金价格预测系统及应用 | |
US7774759B2 (en) | Methods and apparatus to detect a macroscopic transaction boundary in a program | |
WO2018061136A1 (ja) | 需要予測方法、需要予測システム及びそのプログラム | |
Zhou et al. | Febench: A benchmark for real-time relational data feature extraction | |
CN111949498B (zh) | 应用服务器异常预测方法及系统 | |
Zhang et al. | Mining inter-transaction association rules from multiple time-series data | |
US20230281505A1 (en) | Automatic data quality monitoring using machine learning | |
CN117314388A (zh) | 一种综合能源运维管理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140701 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140929 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20141006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141226 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150918 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20151001 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5892937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |