JP4782490B2 - データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法 - Google Patents
データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法 Download PDFInfo
- Publication number
- JP4782490B2 JP4782490B2 JP2005189592A JP2005189592A JP4782490B2 JP 4782490 B2 JP4782490 B2 JP 4782490B2 JP 2005189592 A JP2005189592 A JP 2005189592A JP 2005189592 A JP2005189592 A JP 2005189592A JP 4782490 B2 JP4782490 B2 JP 4782490B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- item
- item value
- value
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 81
- 230000008569 process Effects 0.000 claims description 54
- 238000010276 construction Methods 0.000 claims description 47
- 230000007704 transition Effects 0.000 claims description 44
- 238000009826 distribution Methods 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 17
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 35
- 230000002776 aggregation Effects 0.000 description 28
- 238000004220 aggregation Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 23
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000007726 management method Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/22—Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
- G06F7/24—Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
データ集合の分割を行う従来の技術として、格納順でデータの均等分割を行う、格納順分割方式がある。この方式では、例えば、データが1000万件あり、それを10個ずつのデータ集合に分割する場合、データの格納順で100万件ずつを同じ分割先に分割する。
図1は、本実施の形態の概略を示す図である。図1には、複数の項目の項目値を含むレコード1a,1b,1c,・・・が複数登録されたデータ集合1を複数のグループに分割するための処理手段が示されている。各処理手段は、以下の機能を有する。
すなわち、成長頻度で示される回数以上出現する接頭項目値によって頻出木5を作成するため、簡略化された頻出木5が構築される。その結果、レコード1a,1b,1c,・・・の量が膨大であっても、少ないメモリ容量で頻出木5を作成可能である。
図3は、データ集計装置の機能を示すブロック図である。データ集計装置100は、項目獲得部110、項目値変換部120、頻出木構築部130、分割先決定部140、データ振り分け部150、および集計部160を有する。
データ振り分け部150は、各レコードに対応する項目値リストに基づいて、頻出木を遷移させ、遷移が停止したノードに対応付けられた分割先にレコードを振り分ける。
図4は、XMLデータの例を示す図である。この例では、全国各地に販売店を有する家電量販店におけるパーソナルコンピュータ(パソコン)関連商品の売上げに関するデータが、XMLデータ20内に登録されている。XMLデータ20には、複数のレコード21,22,・・・が設定されている。各レコード21,22,・・・は、売上情報タグ(<売上情報>、</売上情報>)で囲まれている。
[指定項目#1]売上管理/売上情報/顧客/年齢
[指定項目#2]売上管理/売上情報/顧客/性別
[指定項目#3]売上管理/売上情報/顧客/住所/都道府県
各指定項目には、頻出木を構築する際の判断基準とする際の優先順位がある。この例では、指定項目情報30内の上位に設定された指定項目ほど優先順位が高い。すなわち、優先順位は、[指定項目#1]、[指定項目#2]、[指定項目#3]の順となる。
図6は、項目値リスト生成処理の手順を示すフローチャートである。以下、図6に示す処理をステップ番号に沿って説明する。
[ステップS13]項目獲得部110は、既にXMLデータ20の最後(EOF)に達しており、ステップS12による読み込みに失敗したか否かを判断する。EOFであれば、処理が終了する。ステップS12で新たなデータが読み込まれた場合、処理がステップS14に進められる。
[ステップS16]項目値変換部120は、項目値の変換処理を行う。本実施の形態では、項目値変換部120は、年齢の値の1の桁を0に変更することで、年代毎のデータ集計を行う。
[ステップS18]ステップS14でレコード終了と判断されると、項目獲得部110は、項目値リストに項目値を格納する。この際、各項目値は、対応する指定項目の優先順位(図5に示す指定項目情報30内の上位に設定されている順)に沿った並びで項目値リストに格納される。
ここで、図4に示すXMLデータ20と図5に示す指定項目情報30とに基づいて、項目値リスト作成状況を説明する。
次に、9行目が読み込まれる。すると、項目獲得部110は、「指定項目#1」に合致すると認識し、その値「38」を項目値リストに格納する。
その後、項目獲得部110が11行目以降を順に読み込む。15行目までは指定項目と合致しないため、読み飛ばされる。
[38、男、山口]
ここで、項目値変換部120により、項目値の変換が行われる。この例では、年齢のレンジ化が行われ、年齢「38」が「30」に変更される。これにより、最初のレコード21から生成される項目値リストは、以下のようになる。
[30、男、山口]
レコード毎に生成された項目値リストは、順次、頻出木構築部130に渡される。
[ステップS34]頻出木構築部130は、根ノードのカウント値に1を加算する。
[ステップS36]頻出木構築部130は、現在位置のカウント値が閾値よりも大きいか否かを判断する。カウント値が閾値よりも大きければ、処理がステップS37に進められる。カウント値が閾値未満であれば、処理が終了する。
[ステップS39]頻出木構築部130は、現在位置を、読み込んだ項目値が関連付けられたエッジによる遷移先のノードに移す。
[ステップS41]頻出木構築部130は、全ての項目値を読み込んだか否かを判断する。全ての項目値が読み込まれた場合処理が終了する。まだ読み込まれていない項目値が存在する場合、処理がステップS35に進められる。
ここで、図4に示すXMLデータ20と図5に示す指定項目情報30とに基づいて、頻出木の作成状況を説明する。なお、この例では、ノード生成のための閾値は50であるものとする。
[30、男、東京]
図7に示したフローチャートに従うと、まず、現在位置である根ノード(ノード41)のカウント値に1が加算される。その結果、ノード41のカウント値は「151(項目値リスト数+初期値)」となる。
図10は、完成した頻出木を示す図である。完成した頻出木Tを構成する各ノード41〜70には、ノードIDが振られる。ただし、ノード52〜60については、カウント値が設定されておらず、且つノードIDが振られていない。これは、ノード52〜60に遷移するためのエッジが<都道府県>の項目値の一文字目を示すのみであり、項目値の最後の文字まで遷移した先のノードで、そのノードまで遷移する項目値リストの数をカウントすれば十分だからである。
図11は、分割先決定処理の手順を示すフローチャートである。以下、図11に示す処理をステップ番号に沿って説明する。
[ステップS52]分割先決定部140は、頻度リストを作成する。頻度リストは、頻出木Tの葉ノードのノードIDとカウント値とのペアを格納したものである。
[ステップS54]分割先決定部140は、ステップS52の処理の際に、既に全ての要素が選択済か否か(選択すべき要素が存在するか否か)を判断する。全ての要素が選択済の場合、処理が終了する。要素が選択された場合、処理がステップS55に進められる。
[ステップS56]分割先決定部140は、バケットのカウント値に選んだ要素の頻度(カウント値)を加算する。
このようにして、頻度リスト内の全ての要素を、何れかのバケットに振り分けることができる。すなわち、頻度が大きい要素から順に、その時点でカウント値(格納された要素の頻度の合計)が最小のバケットに対して格納される。
[(3,80),(4,60),(5,20),(6,40),(8,80),(9,60),(10,40),(13,20),(14,30),(17,30),(19,80),(20,20)]
頻度リストにおいて、括弧内の情報が選択対象の要素である。括弧内の左側の数字が、その要素に対応するノードのノードIDである。括弧内の右側の数字が、その要素に対応するノードのカウント値である。
・バケット#1(カウント値=190):[(3,80),(4.60),(14,30),(5,20)]
・バケット#2(カウント値=190):[(8,80),(9,60),(17,30),(13,20)]
・バケット#3(カウント値=180):[(19,80),(6,40),(10,40),(20,20)]
図12は、頻出木の葉ノードと分割先との関係を示す図である。内部模様が斜線のノード49,61,62,63は「バケット#1」、内部模様が網掛けのノード65,66,67,68は「バケット#2」、内部模様が格子のノード43,64,69,70は「バケット#3」に対応付けられている。
[30、男、東京]
この場合、頻出木T上を、レコード22がノード42、ノード46、ノード52と順に遷移し、最後に最左の葉のノード61まで遷移する。ノード61の分割先は「バケット#1」である。従って、レコード22は、「バケット#1」に割り振られる。
[30、男、福岡]
この項目値リストが入力されると、項目値「30」と項目値「男」とにより、レコード23が頻出木T上をノード42、ノード46へと遷移する。しかし、その次の項目値「福岡」に対応する遷移先が存在しない。
なお、データ分割する場合、入力として与えられたXMLデータの形式で分割して格納するのではなく、集計が容易に行える形式で格納することが望ましい。例えば、CSV(Comma Separated Values)形式で、分割データを表現できる。
“30”、“男”、“山口”、“200000”
“30”、“男”、“東京”、“380000”
最後に、集計部160によって集計処理が行われる。集計処理は、複数のバケットに振り分けられたレコードに対して行われる。例えば、図4に示されたXMLデータ20に対し、年代と性別および所在地別の売上金額の合計を集計することができる。
なお、上記の例は、入力がXMLデータの場合であるが、別のデータ形式のデータベースを入力することもできる。例えば、RDBに格納されたデータでも、CSV形式のデータでも、指定された項目の値を抽出できるデータであれば、データ集計装置100はどのような表現形式にも対応することができる。
例えば、既に読み込んだデータ件数や生成されたノード数など、頻出木生成開始からの経過時間に対して単調に増加する属性を定義域として、閾値を定義することができる。この場合、閾値を定義する関数には、定義域と値域が自然数であるような関数が用いられる。
・比例増加の例
データ件数またはノード数をn(nは自然数)とすると、成長頻度関数f(n)として
f(n)=an+b(a>0,b≧0) ・・・(1)
とする。a,bは、予め設定される定数である。これにより、成長頻度はデータ件数や生成ノード数に比例して増加する。
f(n)=c・an+b(a>0,b≧0,c>0) ・・・(2)
とする。a,b,cは、予め設定される定数である。これにより、成長頻度はデータ件数や生成ノード数に対して指数的に増加する。閾値を指数的に増加させる方式は、プログラムが長く動いたときに頻出木の成長を劇的に抑制したい場合に非常に有効である。
また、ノードの深さやノードを表す文字など、個別ノード毎に特有な属性の値を定義域として、閾値を定義することができる。
例えば、ノードの深さをnとして式(1)を用いた場合は、頻出木のノードの深さに比例して成長頻度が大きくなる。また、式(2)を用いた場合は、ノードが深くなるに従って、頻出木の成長は劇的に抑制される。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、データ集計装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
コンピュータを、
分割基準となる複数の指定項目が設定された指定項目情報に基づいて、前記データ集合内の前記レコードから前記指定項目の項目値を獲得し、所定の配列で前記項目値を並べた項目値リストを前記レコード毎に生成する項目値獲得手段、
複数の前記項目値リストを互いに比較し、前記所定の配列の先頭から任意の前記項目値までの前記項目値の並びを示す接頭項目値のうち、成長頻度で示される回数以上出現する前記接頭項目値を検出し、検出された前記接頭項目値で示される前記項目値の並びをノード間の遷移で表す頻出木を構築する頻出木構築手段、
前記頻出木のノードを複数の分割先集合の何れかに割り当てる分割先決定手段、
前記レコードの前記項目値リストに基づいて前記レコードを前記頻出木に沿って遷移させ、最終遷移先のノードに応じて前記レコードを前記分割先集合に振り分けるレコード振り分け手段、
として機能させることを特徴とするデータ集合分割プログラム。
前記項目値獲得手段が獲得した前記項目値のうち、所定の前記指定項目に応じた前記項目値を所定の規則に従って変換する項目値変換手段、
として機能させることを特徴とする付記1記載のデータ集合分割プログラム。
前記分割先集合毎に、振り分けられた前記レコードに設定されているデータの集計を行う集計手段、
として機能させることを特徴とする付記1記載のデータ集合分割プログラム。
分割基準となる複数の指定項目が設定された指定項目情報に基づいて、前記データ集合内の前記レコードから前記指定項目の項目値を獲得し、所定の配列で前記項目値を並べた項目値リストを前記レコード毎に生成する項目値獲得手段と、
複数の前記項目値リストを互いに比較し、前記所定の配列の先頭から任意の前記項目値までの前記項目値の並びを示す接頭項目値のうち、成長頻度で示される回数以上出現する前記接頭項目値を検出し、検出された前記接頭項目値で示される前記項目値の並びをノード間の遷移で表す頻出木を構築する頻出木構築手段と、
前記頻出木のノードを複数の分割先集合の何れかに割り当てる分割先決定手段と、
前記レコードの前記項目値リストに基づいて前記レコードを前記頻出木に沿って遷移させ、最終遷移先のノードに応じて前記レコードを前記分割先集合に振り分けるレコード振り分け手段と、
を有することを特徴とするデータ集合分割装置。
項目値獲得手段が、分割基準となる複数の指定項目が設定された指定項目情報に基づいて、前記データ集合内の前記レコードから前記指定項目の項目値を獲得し、所定の配列で前記項目値を並べた項目値リストを前記レコード毎に生成し、
頻出木構築手段が、複数の前記項目値リストを互いに比較し、前記所定の配列の先頭から任意の前記項目値までの前記項目値の並びを示す接頭項目値のうち、成長頻度で示される回数以上出現する前記接頭項目値を検出し、検出された前記接頭項目値で示される前記項目値の並びをノード間の遷移で表す頻出木を構築し、
分割先決定手段が、前記頻出木のノードを複数の分割先集合の何れかに割り当てる、
レコード振り分け手段が、前記レコードの前記項目値リストに基づいて前記レコードを前記頻出木に沿って遷移させ、最終遷移先のノードに応じて前記レコードを前記分割先集合に振り分ける、
ことを特徴とするデータ集合分割方法。
1a,1b,1c レコード
2 指定項目情報
3 項目値獲得手段
3a,3b,3c 項目値リスト
4 頻出木構築手段
5 頻出木
6 分割先決定手段
6a,6b 分割先集合
7 レコード振り分け手段
Claims (4)
- 複数の項目の項目値を含むレコードが複数登録されたデータ集合を複数のグループに分割するデータ集合分割プログラムにおいて、
コンピュータを、
分割基準となる複数の指定項目が設定された指定項目情報に基づいて、複数の項目の項目値を含む複数のレコードを記憶する記憶手段内の前記複数のレコードそれぞれから前記指定項目の項目値を獲得し、所定の配列で前記項目値を並べた項目値リストをレコード毎に生成する項目値獲得手段、
根ノードに指定項目の項目値に関連付けられた複数のノードが木構造で接続され、各ノードに対して、根ノードから該ノードまでの経路上のノードそれぞれに関連付けられた指定項目の項目値の配列と同じ項目値の配列を有する項目値リストの出現回数を示すカウント値が設定された頻出木を有し、項目値リストを1つずつ選択し、該選択された項目値リストに含まれる指定項目の項目値の配列に沿って、前記頻出木の根ノードから順に各項目値が関連付けられたノードへ対象を遷移させていき、対象となったノードのカウント値をカウントアップし、対象のノードのカウント値が成長頻度を超えており、対象のノードに、該項目値リストの項目値の配列に沿った次の項目値に関連付けられたノードが接続されている場合、該ノードに対象を遷移させ、対象のノードのカウント値が該成長頻度を超えているが、対象のノードに、該項目値リストの項目値の配列に沿った次の項目値に関連付けられたノードが接続されていない場合、対象のノードに該次の項目値に関連付けられたノードを接続して、該ノードに対象を遷移させ、対象のノードのカウント値が該成長頻度を超えていないか、該項目値リストの最後の項目値に対応するノードまで対象を遷移させた場合、該選択された項目値リストに応じた対象の遷移を終了する頻出木構築手段、
前記頻出木のノードのうち、少なくとも、遷移先となるノードを有していない葉ノードを1つずつ選択し、選択した該葉ノードを、複数の分割先集合のうちの既に割り当てられた葉ノードのカウント値の合計が最も少ない分割先集合に割り当てる分割先決定手段、
前記記憶手段内の前記複数のレコードそれぞれについて、レコードの項目値リストに含まれる指定項目の項目値の配列に基づいて前記頻出木の根ノードから順にノードを辿り、最後に辿り着いたノードが割り当てられた分割先集合に、該レコードを振り分けるレコード振り分け手段、
として機能させることを特徴とするデータ集合分割プログラム。 - 前記頻出木構築手段は、前記頻出木の構築処理の進行度合いに従って、前記成長頻度を動的に増加させることを特徴とする請求項1記載のデータ集合分割プログラム。
- 複数の項目の項目値を含むレコードが複数登録されたデータ集合を複数のグループに分割するデータ集合分割装置において、
分割基準となる複数の指定項目が設定された指定項目情報に基づいて、複数の項目の項目値を含む複数のレコードを記憶する記憶手段内の前記複数のレコードそれぞれから前記指定項目の項目値を獲得し、所定の配列で前記項目値を並べた項目値リストをレコード毎に生成する項目値獲得手段と、
根ノードに指定項目の項目値に関連付けられた複数のノードが木構造で接続され、各ノードに対して、根ノードから該ノードまでの経路上のノードそれぞれに関連付けられた指定項目の項目値の配列と同じ項目値の配列を有する項目値リストの出現回数を示すカウント値が設定された頻出木を有し、項目値リストを1つずつ選択し、該選択された項目値リストに含まれる指定項目の項目値の配列に沿って、前記頻出木の根ノードから順に各項目値が関連付けられたノードへ対象を遷移させていき、対象となったノードのカウント値をカウントアップし、対象のノードのカウント値が成長頻度を超えており、対象のノードに、該項目値リストの項目値の配列に沿った次の項目値に関連付けられたノードが接続されている場合、該ノードに対象を遷移させ、対象のノードのカウント値が該成長頻度を超えているが、対象のノードに、該項目値リストの項目値の配列に沿った次の項目値に関連付けられたノードが接続されていない場合、対象のノードに該次の項目値に関連付けられたノードを接続して、該ノードに対象を遷移させ、対象のノードのカウント値が該成長頻度を超えていないか、該項目値リストの最後の項目値に対応するノードまで対象を遷移させた場合、該選択された項目値リストに応じた対象の遷移を終了する頻出木構築手段と、
前記頻出木のノードのうち、少なくとも、遷移先となるノードを有していない葉ノードを1つずつ選択し、選択した該葉ノードを、複数の分割先集合のうちの既に割り当てられた葉ノードのカウント値の合計が最も少ない分割先集合に割り当てる分割先決定手段と、
前記記憶手段内の前記複数のレコードそれぞれについて、レコードの項目値リストに含まれる指定項目の項目値の配列に基づいて前記頻出木の根ノードから順にノードを辿り、最後に辿り着いたノードが割り当てられた分割先集合に、該レコードを振り分けるレコード振り分け手段と、
を有することを特徴とするデータ集合分割装置。 - 複数の項目の項目値を含むレコードが複数登録されたデータ集合を複数のグループに分割するデータ集合分割方法において、
分割基準となる複数の指定項目が設定された指定項目情報に基づいて、複数の項目の項目値を含む複数のレコードを記憶する記憶手段内の前記複数のレコードそれぞれから前記指定項目の項目値を獲得し、所定の配列で前記項目値を並べた項目値リストをレコード毎に生成し、
根ノードに指定項目の項目値に関連付けられた複数のノードが木構造で接続され、各ノードに対して、根ノードから該ノードまでの経路上のノードそれぞれに関連付けられた指定項目の項目値の配列と同じ項目値の配列を有する項目値リストの出現回数を示すカウント値が設定された頻出木を有し、項目値リストを1つずつ選択し、該選択された項目値リストに含まれる指定項目の項目値の配列に沿って、前記頻出木の根ノードから順に各項目値が関連付けられたノードへ対象を遷移させていき、対象となったノードのカウント値をカウントアップし、対象のノードのカウント値が成長頻度を超えており、対象のノードに、該項目値リストの項目値の配列に沿った次の項目値に関連付けられたノードが接続されている場合、該ノードに対象を遷移させ、対象のノードのカウント値が該成長頻度を超えているが、対象のノードに、該項目値リストの項目値の配列に沿った次の項目値に関連付けられたノードが接続されていない場合、対象のノードに該次の項目値に関連付けられたノードを接続して、該ノードに対象を遷移させ、対象のノードのカウント値が該成長頻度を超えていないか、該項目値リストの最後の項目値に対応するノードまで対象を遷移させた場合、該選択された項目値リストに応じた対象の遷移を終了し、
前記頻出木のノードのうち、少なくとも、遷移先となるノードを有していない葉ノードを1つずつ選択し、選択した該葉ノードを、複数の分割先集合のうちの既に割り当てられた葉ノードのカウント値の合計が最も少ない分割先集合に割り当て、
前記記憶手段内の前記複数のレコードそれぞれについて、レコードの項目値リストに含まれる指定項目の項目値の配列に基づいて前記頻出木の根ノードから順にノードを辿り、最後に辿り着いたノードが割り当てられた分割先集合に、該レコードを振り分ける、
ことを特徴とするデータ集合分割方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005189592A JP4782490B2 (ja) | 2005-06-29 | 2005-06-29 | データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法 |
US11/298,511 US7962524B2 (en) | 2005-06-29 | 2005-12-12 | Computer program, device, and method for sorting dataset records into groups according to frequent tree |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005189592A JP4782490B2 (ja) | 2005-06-29 | 2005-06-29 | データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007011548A JP2007011548A (ja) | 2007-01-18 |
JP4782490B2 true JP4782490B2 (ja) | 2011-09-28 |
Family
ID=37590960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005189592A Expired - Fee Related JP4782490B2 (ja) | 2005-06-29 | 2005-06-29 | データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7962524B2 (ja) |
JP (1) | JP4782490B2 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7885932B2 (en) | 2006-11-01 | 2011-02-08 | Ab Initio Technology Llc | Managing storage of individually accessible data units |
AU2014202186B2 (en) * | 2006-11-01 | 2016-03-03 | Ab Initio Technology Llc | Managing storage of individually accessible data units |
US8229902B2 (en) * | 2006-11-01 | 2012-07-24 | Ab Initio Technology Llc | Managing storage of individually accessible data units |
WO2008128177A1 (en) * | 2007-04-13 | 2008-10-23 | The University Of Vermont And State Agricultural College | Relational pattern discovery across multiple databases |
US20090063578A1 (en) * | 2007-08-27 | 2009-03-05 | International Business Machines Corporation | Management of data needed to resolve pointer errors in heirarchical database management systems |
US8739022B2 (en) * | 2007-09-27 | 2014-05-27 | The Research Foundation For The State University Of New York | Parallel approach to XML parsing |
US20090276428A1 (en) * | 2008-04-30 | 2009-11-05 | Byung Bok Ahn | Sorting method and algorithm called high speed sort |
JP5212018B2 (ja) * | 2008-10-28 | 2013-06-19 | 富士通株式会社 | データ集計などのデータ操作に使用するプログラム、装置および方法 |
US8782514B1 (en) * | 2008-12-12 | 2014-07-15 | The Research Foundation For The State University Of New York | Parallel XML parsing using meta-DFAs |
US8140565B2 (en) * | 2009-01-20 | 2012-03-20 | International Business Machines Corporation | Autonomic information management system (IMS) mainframe database pointer error diagnostic data extraction |
JP5502346B2 (ja) * | 2009-03-09 | 2014-05-28 | 富士フイルム株式会社 | 症例画像登録装置、方法およびプログラムならびに症例画像検索装置、方法、プログラムおよびシステム |
JP5278535B2 (ja) * | 2009-03-19 | 2013-09-04 | 富士通株式会社 | データベース検索プログラムを記録するコンピュータ読取可能な記憶媒体、データベース検索装置、および、データベース検索方法 |
JP5410155B2 (ja) * | 2009-05-19 | 2014-02-05 | 株式会社Nttドコモ | データ分割システム及びデータ分割方法 |
JP5165662B2 (ja) * | 2009-10-27 | 2013-03-21 | 株式会社高速屋 | ビット列キー分類・分配装置、分類・分配方法及びプログラム |
US20110154221A1 (en) * | 2009-12-22 | 2011-06-23 | International Business Machines Corporation | Subject suggestion based on e-mail recipients |
CA2791261C (en) * | 2010-03-10 | 2017-12-05 | Ab Initio Technology Llc | Managing storage of individually accessible data units |
US8321476B2 (en) * | 2010-03-29 | 2012-11-27 | Sybase, Inc. | Method and system for determining boundary values dynamically defining key value bounds of two or more disjoint subsets of sort run-based parallel processing of data from databases |
US8832188B1 (en) * | 2010-12-23 | 2014-09-09 | Google Inc. | Determining language of text fragments |
JP5563529B2 (ja) * | 2011-06-27 | 2014-07-30 | 日本電信電話株式会社 | 情報記録装置、情報記録方法およびプログラム |
JP5517263B2 (ja) * | 2011-07-06 | 2014-06-11 | 日本電信電話株式会社 | チャンク生成装置、チャンク読み取り装置、チャンク生成方法及びプログラム |
US20130013605A1 (en) | 2011-07-08 | 2013-01-10 | Stanfill Craig W | Managing Storage of Data for Range-Based Searching |
US8880481B1 (en) * | 2012-03-29 | 2014-11-04 | Pivotal Software, Inc. | Inverse distribution function operations in a parallel relational database |
CN103390044B (zh) * | 2013-07-19 | 2017-02-08 | 百度在线网络技术(北京)有限公司 | 一种连锁类兴趣点数据识别方法及装置 |
US9607036B2 (en) | 2013-08-21 | 2017-03-28 | International Business Machines Corporation | Managing a data set |
JP6642435B2 (ja) * | 2014-08-19 | 2020-02-05 | 日本電気株式会社 | データ処理装置、データ処理方法、及び、プログラム |
US20170255661A1 (en) * | 2014-10-31 | 2017-09-07 | Richard Salisbury | Generating and placing location n-tuples in a non-decreasing location n-tuple sequence |
US9996602B2 (en) * | 2015-01-12 | 2018-06-12 | International Business Machines Corporation | Generating a virtual dynamic representative of a taxonomic group with unique inheritance of attributes |
US10515082B2 (en) * | 2016-09-14 | 2019-12-24 | Salesforce.Com, Inc. | Identifying frequent item sets |
US10956503B2 (en) | 2016-09-20 | 2021-03-23 | Salesforce.Com, Inc. | Suggesting query items based on frequent item sets |
CN108460055B (zh) * | 2017-02-22 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 导出excel数据表的方法、系统、设备和存储介质 |
US11030157B2 (en) * | 2017-05-18 | 2021-06-08 | Nec Corporation | Template based data reduction for commercial data mining |
US11755927B2 (en) * | 2019-08-23 | 2023-09-12 | Bank Of America Corporation | Identifying entitlement rules based on a frequent pattern tree |
CN112015775B (zh) * | 2020-09-27 | 2023-11-21 | 北京百度网讯科技有限公司 | 标签数据处理方法、装置、设备和存储介质 |
US11468041B1 (en) | 2020-12-15 | 2022-10-11 | Cigna Intellectual Property, Inc. | Anomaly detection in relational databases |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3584630B2 (ja) * | 1996-09-20 | 2004-11-04 | 株式会社日立製作所 | データベース処理システムにおける分類集計処理方法 |
JPH11312150A (ja) * | 1998-04-30 | 1999-11-09 | Nippon Telegr & Teleph Corp <Ntt> | 並列処理方法および並列処理システム、ならびに並列処理プログラムを記録した記録媒体 |
JP2001134575A (ja) * | 1999-10-29 | 2001-05-18 | Internatl Business Mach Corp <Ibm> | 頻出パターン検出方法およびシステム |
US6665669B2 (en) * | 2000-01-03 | 2003-12-16 | Db Miner Technology Inc. | Methods and system for mining frequent patterns |
GB2377038A (en) * | 2001-04-10 | 2002-12-31 | I2 Ltd | Method for identifying patterns in sequential event streams |
US20030174179A1 (en) * | 2002-03-12 | 2003-09-18 | Suermondt Henri Jacques | Tool for visualizing data patterns of a hierarchical classification structure |
US20050192960A1 (en) * | 2002-11-01 | 2005-09-01 | Fujitsu Limited | Feature-pattern output apparatus, feature-pattern output method, and computer product |
TWI246000B (en) * | 2003-10-30 | 2005-12-21 | Benq Corp | Apparatus and method for web log data mining and computer readable storage medium |
US7249129B2 (en) * | 2003-12-29 | 2007-07-24 | The Generations Network, Inc. | Correlating genealogy records systems and methods |
JP2006171800A (ja) | 2004-12-10 | 2006-06-29 | Fujitsu Ltd | データ集計装置、その方法、及びプログラム |
-
2005
- 2005-06-29 JP JP2005189592A patent/JP4782490B2/ja not_active Expired - Fee Related
- 2005-12-12 US US11/298,511 patent/US7962524B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20070005598A1 (en) | 2007-01-04 |
US7962524B2 (en) | 2011-06-14 |
JP2007011548A (ja) | 2007-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4782490B2 (ja) | データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法 | |
US10740308B2 (en) | Key_Value data storage system | |
US9519687B2 (en) | Minimizing index maintenance costs for database storage regions using hybrid zone maps and indices | |
JP5798503B2 (ja) | ファイルリスト生成方法及びシステム、ファイルリスト生成装置並びにプログラム | |
JP4740060B2 (ja) | 重複データ検出プログラム、重複データ検出方法および重複データ検出装置 | |
JP5759881B2 (ja) | 情報処理システム | |
JP5759915B2 (ja) | ファイルリスト生成方法及びシステム並びにプログラム、ファイルリスト生成装置 | |
JP5626733B2 (ja) | 個人情報匿名化装置及び方法 | |
US20160125004A1 (en) | Method of index recommendation for nosql database | |
CN110275889B (zh) | 一种适用于机器学习的特征处理方法及装置 | |
JP6642435B2 (ja) | データ処理装置、データ処理方法、及び、プログラム | |
WO2007004430A1 (ja) | データソート処理プログラム、データソート処理方法およびデータソート処理装置 | |
CN111723089B (zh) | 一种基于列式存储格式处理数据的方法和装置 | |
JP7041603B2 (ja) | 計算機システム及び業務フローのパターンの生成方法 | |
JP5712851B2 (ja) | データ分割装置、データ分割方法およびデータ分割プログラム | |
JP5761029B2 (ja) | 辞書作成装置、単語収集方法、及び、プログラム | |
CN112100989A (zh) | 文档编辑方法、文档编辑系统以及计算机存储介质 | |
JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
CN115858463A (zh) | 一种数据管理方法、装置、设备及存储介质 | |
JP2008065716A (ja) | データ管理装置、データ管理方法及びデータ管理プログラム | |
KR101638048B1 (ko) | 맵리듀스를 이용한 sql 질의처리방법 | |
JP3824956B2 (ja) | 識別番号付与装置、識別番号管理方法、識別番号管理プログラム及び同プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2020038610A (ja) | 検索処理プログラム、検索処理方法及び情報処理装置 | |
CN111400320B (zh) | 用于生成信息的方法和装置 | |
US12056723B1 (en) | System, method, and computer program for extracting large customer data volumes at high speed from an external multi-tenant SaaS environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110707 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4782490 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |