JP2013101539A - サンプリング装置、サンプリングプログラム、およびその方法 - Google Patents
サンプリング装置、サンプリングプログラム、およびその方法 Download PDFInfo
- Publication number
- JP2013101539A JP2013101539A JP2011245492A JP2011245492A JP2013101539A JP 2013101539 A JP2013101539 A JP 2013101539A JP 2011245492 A JP2011245492 A JP 2011245492A JP 2011245492 A JP2011245492 A JP 2011245492A JP 2013101539 A JP2013101539 A JP 2013101539A
- Authority
- JP
- Japan
- Prior art keywords
- record
- sampling
- records
- length
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims description 42
- 230000008569 process Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】記憶装置に記録された複数のレコードの中から、ランダムにレコードをサンプリングするサンプリング装置であって、記録位置に対応する乱数を生成する乱数生成手段と、前記複数のレコードから、前記生成した乱数に対応する記録位置にデータを有するレコードを選択するレコード選択手段と、前記選択されたレコードのレコード長を取得するレコード長取得手段と、前記取得されたレコード長に基づいて算出した確率で、前記選択されたレコードをサンプルとして採用するサンプル決定手段と、を有することを特徴とする。
【選択図】図2
Description
グして、データソース中のデータの値の出現頻度を表すヒストグラムを作成し、そのヒストグラムに応じて分散処理の割り当てを決める手法が記載されている。Skewed Joinには
、作成されたヒストグラムがデータソース全体の傾向を代表していれば、取得されるデータのサイズを均等にできるという利点がある。
ず、かつ局所的な傾向がある場合、データソース内のデータの分散を示すヒストグラムを取得するための公平なサンプリングができない、すなわちサンプリング結果の信頼性が低くなるという問題がある。
サンプル決定手段は、前記選択されたレコードのレコード長をSkとし、Smin/Skの式
によって前記確率を算出することを特徴とすることが好ましい。
部の分散処理ノードに実行すべき処理を割り当てることを特徴としてもよい。
第一の実施形態に係るサンプリング装置について、図2を用いて詳細な説明をする。図2は、第一の実施形態に係るサンプリング装置のシステム構成を表す図である。
小となるレコード長を記録した手段である。例えば、レコードの最小値が512バイトである場合、最小レコード長記憶部121は、512バイトという数値を保持する。最小レコード長記憶部121は、装置として必ずしも独立している必要はなく、例えばデータソース120に、サンプリング対象のデータと一緒に記録されていてもよい。レコードが追加される際に、追加されたレコードの長さが最小レコード長を下回る場合は、最小レコード長は最新の値で更新される。
スに存在するレコードを取得する。この処理により、対象のデータソースの中の単一のレコードが特定される。例えば、Smin=1、N=3であった場合、図4(a)の場合はレ
コード4、図4(b)の場合はレコード3が選択される。
ータソースに記録されているレコードのうち最小となるレコード長であり、Skは、選択
されたレコードの長さを表す。
採用確率p=Smin/Sk … 式(1)
サンプリング部111は、式(1)によって計算された採用確率pに従って、選択したレコードをサンプルとして採用するか否かを決定する。例えば、採用確率pが0.1であ
った場合、10%の確率で、選択したレコードを採用し、90%の確率で選択を破棄する。確率の計算は、たとえば0〜1の範囲の実数をとる乱数を新たに生成し、結果が採用確率以下であった場合にのみ選択したレコードを採用する等の方法によって行うことができる。
確率は、Sk/Lとなる。これに、式(1)を乗ずると、
Sk/L×Smin/Sk=Smin/L … 式(2)
となり、全てのレコードのサンプリングされる確率が同一となることが確認できる。
たサンプルデータが有するキーごとに、レコードの件数を加算することで生成される。
第二の実施形態は、第一の実施形態におけるサンプリング装置100を、分散処理フレームワークであるHadoopを利用した分散処理システムに組み込んだ形態である。図6は、第二の実施形態に係るシステム構成図であり、図7は、第二の実施形態に係るシステムの概念図である。なお、第二の実施形態に係るサンプリング装置が収集を行うデータソースおよびレコードの構成は、第一の実施形態で説明したものと同一である。
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうるものである。たとえば、実施形態の説明においては、処理を行うプログラムを補助記憶装置に記録し、CPUによって処理を行う例を挙げたが、処理はFPGAによって行われてもよいし、ハードウェアとして設計され実行されてもよい。
、係数aを乗じた場合、一回の実行でレコードがサンプリングされない確率が上昇するため、採用確率pはSmin/Skとした場合が最も効率がよい。
して扱ってもよい。この場合、各レコードが選択される確率は同一とはならないが、均一の値に近づけることはできる。このように、各レコードがサンプリングされる確率を均一の値に近づけるためには、選択されたレコードが長くなるに従って採用確率を下げることができればよい。
ため、n回のサンプリングに必要なループ数は、(n×Savg)/Sminとなる。この値が全体のレコード件数を超える場合は、データソース全体を読み込んだほうが効率が良くなる。
111 サンプリング部
112 ヒストグラム生成部
120 データソース
121 最小レコード長記憶部
130 タスク割当て部
201a,b,c 分散処理ノード
202a,b,c 分散ファイルノード
Claims (11)
- 記憶装置に記録された複数のレコードの中から、ランダムにレコードをサンプリングするサンプリング装置であって、
記録位置に対応する乱数を生成する乱数生成手段と、
前記複数のレコードから、前記生成した乱数に対応する記録位置にデータを有するレコードを選択するレコード選択手段と、
前記選択されたレコードのレコード長を取得するレコード長取得手段と、
前記取得されたレコード長に基づいて算出した確率で、前記選択されたレコードをサンプルとして採用するサンプル決定手段と、
を有する
ことを特徴とするサンプリング装置。 - 前記サンプル決定手段は、前記取得されたレコードのレコード長と反比例するように前記確率を算出する
ことを特徴とする、請求項1に記載のサンプリング装置。 - 前記複数のレコードのうち、サイズが最小であるレコードのレコード長Sminを取得す
る最小レコード長取得手段をさらに有し、
前記サンプル決定手段は、前記選択されたレコードのレコード長をSkとし、Smin/Skの式によって前記確率を算出する
ことを特徴とする、請求項2に記載のサンプリング装置。 - 前記サンプルとして採用されたレコードから、前記記憶装置に記録されたデータの度数分布を示すヒストグラムを生成するヒストグラム生成手段をさらに有する
ことを特徴とする、請求項3に記載のサンプリング装置。 - 前記記憶装置は、分散ファイルシステムであり、前記ヒストグラムを用いて、外部の分散処理ノードに実行すべき処理を割り当てる
ことを特徴とする、請求項4に記載のサンプリング装置。 - 記憶装置に記録された複数のレコードの中から、ランダムにレコードをサンプリングするサンプリング装置が行うサンプリング方法であって、
記録位置に対応する乱数を発生させるステップと、
前記複数のレコードから、前記生成した乱数に対応する記録位置にデータを有するレコードを選択するステップと、
前記選択されたレコードのレコード長を取得するステップと、
前記取得されたレコード長に基づいて算出した確率で、前記選択されたレコードをサンプルとして採用するステップと、
を含む
ことを特徴とするサンプリング方法。 - 前記取得されたレコードのレコード長と反比例するように前記確率を算出する
ことを特徴とする、請求項6に記載のサンプリング方法。 - 前記複数のレコードのうち、サイズが最小であるレコードのレコード長Sminを取得す
るステップをさらに備え、
前記選択されたレコードのレコード長をSkとし、Smin/Skの式によって前記確率を
算出する
ことを特徴とする、請求項7に記載のサンプリング方法。 - コンピュータに、
記憶装置に記録された複数のレコードの中から、ランダムにレコードをサンプリングさせるプログラムであって、
記録位置に対応する乱数を発生させる処理と、
前記複数のレコードから、前記生成した乱数に対応する記録位置に記録されたレコードを選択する処理と、
前記選択されたレコードのレコード長を取得する処理と、
前記取得されたレコード長に基づいて算出した確率で、前記選択されたレコードをサンプルとして採用する処理と、
を実行させる
ことを特徴とするプログラム。 - 前記コンピュータに、
前記取得されたレコードのレコード長と反比例するように前記確率を算出させる
ことを特徴とする、請求項9に記載のプログラム。 - 前記コンピュータに、
前記複数のレコードのうち、サイズが最小であるレコードのレコード長Sminを取得す
る処理をさらに実行させ、
前記選択されたレコードのレコード長をSkとし、Smin/Skの式によって前記確率を
算出させる
ことを特徴とする、請求項10に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011245492A JP5655764B2 (ja) | 2011-11-09 | 2011-11-09 | サンプリング装置、サンプリングプログラム、およびその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011245492A JP5655764B2 (ja) | 2011-11-09 | 2011-11-09 | サンプリング装置、サンプリングプログラム、およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013101539A true JP2013101539A (ja) | 2013-05-23 |
JP5655764B2 JP5655764B2 (ja) | 2015-01-21 |
Family
ID=48622094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011245492A Active JP5655764B2 (ja) | 2011-11-09 | 2011-11-09 | サンプリング装置、サンプリングプログラム、およびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5655764B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016139361A (ja) * | 2015-01-29 | 2016-08-04 | 株式会社東芝 | サンプリング装置およびサンプリングプログラム |
JP2019113964A (ja) * | 2017-12-21 | 2019-07-11 | 三菱日立パワーシステムズ株式会社 | 単位空間生成装置、プラント診断システム、単位空間生成方法、プラント診断方法、及びプログラム |
CN114169004A (zh) * | 2021-12-10 | 2022-03-11 | 泰康保险集团股份有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003139894A (ja) * | 2001-11-01 | 2003-05-14 | Jgc Corp | 地層処分の安全評価システム、地層処分の安全評価方法、地層処分の安全評価プログラムおよび地層処分の安全評価プログラムを記録した記録媒体 |
JP2003208506A (ja) * | 2002-01-11 | 2003-07-25 | Jcb:Kk | 顧客の評価情報生成方法、及び顧客の評価情報生成装置、並びにそれに利用されるプログラム |
-
2011
- 2011-11-09 JP JP2011245492A patent/JP5655764B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003139894A (ja) * | 2001-11-01 | 2003-05-14 | Jgc Corp | 地層処分の安全評価システム、地層処分の安全評価方法、地層処分の安全評価プログラムおよび地層処分の安全評価プログラムを記録した記録媒体 |
JP2003208506A (ja) * | 2002-01-11 | 2003-07-25 | Jcb:Kk | 顧客の評価情報生成方法、及び顧客の評価情報生成装置、並びにそれに利用されるプログラム |
Non-Patent Citations (8)
Title |
---|
CSND200300435005; 石川 佳治 YOSHIHARU ISHIKAWA: 'データベース最前線' bit Vol.33 No.2 第33巻, 共立出版株式会社 * |
CSND200600788010; 結城 浩: '結城浩のC#で学ぶ アルゴリズムとデータ構造 第8回' C MAGAZINE 第17巻 第12号 第17巻, ソフトバンククリエイティブ株式会社 * |
CSNG201000538077; 仲前 晋太郎 Shintaro NAKAMAE: 'Blogにおける話題分析のためのランダムサンプリング手法の提案 Random Sampling Methods for Topic An' 第2回データ工学と情報マネジメントに関するフォーラム-DEIM 2010-論文集 [online] , 20100228, 電子情報通信学会データ工学研究専門委員会 * |
CSNG201100266009; 成冨 隆斗 Takato NARITOMI: 'Hadoopを用いた大容量パケット解析システムの設計と実装 Design and Implementation of Hadoop-base' 電子情報通信学会技術研究報告 Vol.111 No.8 IEICE Technical Report 第111巻, 社団法人電子情報通信学会 The Institute of Electro * |
JPN6014045644; 仲前 晋太郎 Shintaro NAKAMAE: 'Blogにおける話題分析のためのランダムサンプリング手法の提案 Random Sampling Methods for Topic An' 第2回データ工学と情報マネジメントに関するフォーラム-DEIM 2010-論文集 [online] , 20100228, 電子情報通信学会データ工学研究専門委員会 * |
JPN6014045647; 結城 浩: '結城浩のC#で学ぶ アルゴリズムとデータ構造 第8回' C MAGAZINE 第17巻 第12号 第17巻, ソフトバンククリエイティブ株式会社 * |
JPN6014045649; 石川 佳治 YOSHIHARU ISHIKAWA: 'データベース最前線' bit Vol.33 No.2 第33巻, 共立出版株式会社 * |
JPN6014045650; 成冨 隆斗 Takato NARITOMI: 'Hadoopを用いた大容量パケット解析システムの設計と実装 Design and Implementation of Hadoop-base' 電子情報通信学会技術研究報告 Vol.111 No.8 IEICE Technical Report 第111巻, 社団法人電子情報通信学会 The Institute of Electro * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016139361A (ja) * | 2015-01-29 | 2016-08-04 | 株式会社東芝 | サンプリング装置およびサンプリングプログラム |
JP2019113964A (ja) * | 2017-12-21 | 2019-07-11 | 三菱日立パワーシステムズ株式会社 | 単位空間生成装置、プラント診断システム、単位空間生成方法、プラント診断方法、及びプログラム |
US11327470B2 (en) | 2017-12-21 | 2022-05-10 | Mitsubishi Power, Ltd. | Unit space generating device, plant diagnosing system, unit space generating method, plant diagnosing method, and program |
CN114169004A (zh) * | 2021-12-10 | 2022-03-11 | 泰康保险集团股份有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5655764B2 (ja) | 2015-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9740706B2 (en) | Management of intermediate data spills during the shuffle phase of a map-reduce job | |
JP6697392B2 (ja) | 半構造データスキーマのトランスペアレントディスカバリ | |
US11169978B2 (en) | Distributed pipeline optimization for data preparation | |
US9836514B2 (en) | Cache based key-value store mapping and replication | |
CN108694195B (zh) | 一种分布式数据仓库的管理方法及系统 | |
US8229968B2 (en) | Data caching for distributed execution computing | |
JP6598996B2 (ja) | データ準備のためのシグニチャベースのキャッシュ最適化 | |
CN103353901B (zh) | 基于Hadoop分布式文件系统的表数据的有序管理方法以及系统 | |
US10296614B2 (en) | Bulk data insertion in analytical databases | |
KR101744892B1 (ko) | 시계열 계층 인덱싱을 이용한 데이터 검색 시스템 및 데이터 검색 방법 | |
JP2005122702A5 (ja) | ||
US8775483B2 (en) | In-memory data grid hash scheme optimization | |
CN106155934B (zh) | 一种云环境下基于重复数据的缓存方法 | |
US20190087437A1 (en) | Scheduling database compaction in ip drives | |
CN102314491A (zh) | 多核环境下基于海量日志的类似行为模式用户识别方法 | |
US10678789B2 (en) | Batch data query method and apparatus | |
JP2018530838A (ja) | データ準備のためのキャッシュ最適化 | |
JP5655764B2 (ja) | サンプリング装置、サンプリングプログラム、およびその方法 | |
US20160203032A1 (en) | Series data parallel analysis infrastructure and parallel distributed processing method therefor | |
Yan et al. | Hmfs: efficient support of small files processing over HDFS | |
CN106484818B (zh) | 一种基于Hadoop和HBase的层次聚类方法 | |
Naeem et al. | Optimising hybridjoin to process semi-stream data in near-real-time data warehousing | |
JP5084895B2 (ja) | テキストデータ読出装置、方法及びプログラム | |
US11409755B2 (en) | Asynchronous search of electronic assets via a distributed search engine | |
JP7211255B2 (ja) | 検索処理プログラム、検索処理方法及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20131106 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141110 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5655764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |