JP5687763B2 - 高次元層別サンプリング - Google Patents
高次元層別サンプリング Download PDFInfo
- Publication number
- JP5687763B2 JP5687763B2 JP2013518418A JP2013518418A JP5687763B2 JP 5687763 B2 JP5687763 B2 JP 5687763B2 JP 2013518418 A JP2013518418 A JP 2013518418A JP 2013518418 A JP2013518418 A JP 2013518418A JP 5687763 B2 JP5687763 B2 JP 5687763B2
- Authority
- JP
- Japan
- Prior art keywords
- records
- subgroups
- sampling
- record
- subgroup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005070 sampling Methods 0.000 title claims description 139
- 238000000034 method Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims 1
- 230000010365 information processing Effects 0.000 description 11
- 238000005457 optimization Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000002902 bimodal effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (11)
- 装置であって、前記装置が、
関連するメモリを有するプロセッサを含む処理装置を備え、
前記処理装置が、
所与のレコードについて、前記所与のレコードが複数のサブグループのどれと関連するかを判断し、
前記所与のレコードと関連する前記サブグループのそれぞれについて、前記サブグループのサンプリングレートが指定のサンプリングレート未満であるかどうかをチェックし、
前記サブグループのそれぞれの前記サンプリングレートが前記指定のサンプリングレート未満である場合、前記所与のレコードをサンプルし、そうでない場合は前記所与のレコードはサンプルされず、
複数のさらなるレコードのそれぞれについて、前記判断、チェック、およびサンプルの演算を繰り返す、
ように動作し、
前記サンプル演算の結果として生じるサンプルが処理されて、前記サブグループを含むデータベースを特徴付ける情報を生成し、
前記所与のレコードは、2つ以上の前記サブグループに関連している、装置。 - 前記処理装置が、前記所与のレコードおよび前記複数のさらなるレコードについて前記判断、チェック、およびサンプルの演算を行うように構成されたサンプリングモジュールを有するコントローラを備える、請求項1に記載の装置。
- 前記サブグループが、前記データベースのレコードの重複セットを含む、請求項1に記載の装置。
- 前記処理装置がさらに、前記サブグループのそれぞれについて、そのサブグループと関連するレコード数を示す第1のカウンタ、およびそのサブグループからのレコードがサンプルされた回数を示す第2のカウンタを保持するように動作する、請求項3に記載の装置。
- 前記処理装置がさらに、そのサブグループに保持された前記第1のカウンタの値、およびそのサブグループに保持された前記第2のカウンタの値に応じて各サブグループの前記サンプリングレートを判断するように動作する、請求項4に記載の装置。
- 前記処理装置がさらに、前記所与のレコードがサンプルされるかどうかに基づいて前記所与のレコードと関連する各サブグループについて前記第1および第2のカウンタの少なくとも1つを更新するように動作する、請求項5に記載の装置。
- 請求項1に記載の装置を備える集積回路。
- 所与のレコードについて、前記所与のレコードが複数のサブグループのどれと関連するかを判断するステップと、
前記所与のレコードと関連する前記サブグループのそれぞれについて、前記サブグループのサンプリングレートが指定のサンプリングレート未満であるかどうかをチェックするステップと、
前記サブグループのそれぞれの前記サンプリングレートが前記指定のサンプリングレート未満である場合、前記所与のレコードをサンプルし、そうでない場合は前記所与のレコードはサンプルされないステップと、
複数のさらなるレコードのそれぞれについて、前記判断するステップ、チェックするステップ、およびサンプルするステップを繰り返すステップと、
前記サンプリングのステップの結果として生じるサンプルを処理して、前記サブグループを含むデータベースを特徴付ける情報を生成するステップと、を含み
前記所与のレコードは、2つ以上の前記サブグループに関連している、プロセッサ実行方法。 - 処理装置のプロセッサによって実行されるとき、請求項8に記載の方法の前記ステップを前記装置に行わせる実行可能プログラムコードを組み入れたコンピュータ可読記憶媒体を備える製品。
- 装置であって、前記装置が、
関連するメモリを有するプロセッサを含む処理装置を備え、
前記処理装置が、
複数のレコードのそれぞれのレコードがサンプルされるかどうかを指定するバイナリインジケータの成分を繰り返して更新することによって、レコードの重複するサブグループの中の前記複数のレコードのどれがサンプルされるかを特徴付ける目的関数を最適化し、
前記目的関数を最適化する前記バイナリインジケータの前記更新された成分の値に基づいて前記複数のレコードの特定のレコードをサンプルする、
ように動作し、
前記サンプル演算の結果として生じるサンプルが処理されて、レコードの前記サブグループを含むデータベースを特徴付ける情報を生成し、
前記バイナリインジケータの前記成分のそれぞれは、前記複数のレコードのうちの対応する1つを特徴付け、
前記複数のレコードの少なくとも1つは、2つ以上の前記サブグループに関連している、装置。 - 複数のレコードのそれぞれのレコードがサンプルされるかどうかを指定するバイナリインジケータの成分を繰り返して更新することによって、レコードの重複するサブグループの中の前記複数のレコードのどれがサンプルされるかを特徴付ける目的関数を最適化するステップと、
前記目的関数を最適化する前記バイナリインジケータの前記更新された成分の値に基づいて前記複数のレコードの特定のレコードをサンプルするステップと、
前記サンプリングのステップの結果として生じるサンプルを処理して、前記複数のレコードを含むデータベースを特徴付ける情報を生成するステップとを含み、
前記バイナリインジケータの前記成分のそれぞれは、前記複数のレコードのうちの対応する1つを特徴付け、
前記複数のレコードの少なくとも1つは、2つ以上の前記サブグループに関連している、プロセッサ実行方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/824,849 | 2010-06-28 | ||
US12/824,849 US8639692B2 (en) | 2010-06-28 | 2010-06-28 | High-dimensional stratified sampling |
PCT/US2011/039750 WO2012009071A1 (en) | 2010-06-28 | 2011-06-09 | High-dimensional stratified sampling |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013534674A JP2013534674A (ja) | 2013-09-05 |
JP5687763B2 true JP5687763B2 (ja) | 2015-03-18 |
Family
ID=44627261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013518418A Expired - Fee Related JP5687763B2 (ja) | 2010-06-28 | 2011-06-09 | 高次元層別サンプリング |
Country Status (7)
Country | Link |
---|---|
US (2) | US8639692B2 (ja) |
EP (1) | EP2585948A1 (ja) |
JP (1) | JP5687763B2 (ja) |
KR (1) | KR101442383B1 (ja) |
CN (1) | CN102985923A (ja) |
TW (1) | TWI490715B (ja) |
WO (1) | WO2012009071A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639692B2 (en) | 2010-06-28 | 2014-01-28 | Alcatel Lucent | High-dimensional stratified sampling |
US8861374B2 (en) * | 2012-03-30 | 2014-10-14 | Cisco Technology, Inc. | Methods and apparatus for compensating for time-based sampling by sample packet elimination during export of sampled packets |
US20140172547A1 (en) * | 2012-12-19 | 2014-06-19 | Sas Institute Inc. | Scoring Online Data for Advertising Servers |
US10482477B2 (en) * | 2013-03-15 | 2019-11-19 | Netflix, Inc. | Stratified sampling applied to A/B tests |
CN104123466B (zh) * | 2014-07-24 | 2017-07-07 | 中国软件与技术服务股份有限公司 | 一种基于常态模式的大数据态势分析预警方法及系统 |
CN105589683B (zh) * | 2014-10-22 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 样本抽取方法和装置 |
US20160260013A1 (en) * | 2015-03-06 | 2016-09-08 | Nokia Technologies Oy | Method and apparatus for optimization |
US10042914B2 (en) | 2015-06-10 | 2018-08-07 | International Business Machines Corporation | Database index for constructing large scale data level of details |
US10740774B2 (en) | 2015-07-15 | 2020-08-11 | The Nielsen Company (Us), Llc | Reducing processing requirements to correct for bias in ratings data having interdependencies among demographic statistics |
CN106997420B (zh) * | 2016-01-22 | 2020-03-27 | 北京四维图新科技股份有限公司 | 智能抽样检测地图数据的方法及装置 |
CN106909594B (zh) * | 2016-06-06 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 信息推送方法及装置 |
CN107122395B (zh) * | 2017-03-10 | 2021-02-26 | 博彦科技股份有限公司 | 数据抽样方法和装置 |
CN110399413A (zh) * | 2019-07-04 | 2019-11-01 | 博彦科技股份有限公司 | 数据抽样方法、装置、存储介质和处理器 |
CN110825783B (zh) * | 2019-10-31 | 2024-07-02 | 深圳前海微众银行股份有限公司 | 数据抽样方法、装置、设备及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4472784A (en) * | 1981-12-11 | 1984-09-18 | At&T Bell Laboratories | Ensuring sample independence in random sampling systems |
JP2918966B2 (ja) * | 1990-03-19 | 1999-07-12 | 株式会社日立テレコムテクノロジー | 有線放送呼出方式 |
JPH04268663A (ja) * | 1991-02-25 | 1992-09-24 | Nec Corp | 標本データサンプリング装置 |
US7069264B2 (en) * | 1999-12-08 | 2006-06-27 | Ncr Corp. | Stratified sampling of data in a database system |
US6564221B1 (en) * | 1999-12-08 | 2003-05-13 | Ncr Corporation | Random sampling of rows in a parallel processing database system |
GB0025771D0 (en) * | 2000-10-20 | 2000-12-06 | New Transducers Ltd | Contact sensitive device |
US6937994B1 (en) * | 2000-02-24 | 2005-08-30 | International Business Machines Corporation | System and method for efficiently generating models for targeting products and promotions using classification method by choosing points to be labeled |
US6519604B1 (en) * | 2000-07-19 | 2003-02-11 | Lucent Technologies Inc. | Approximate querying method for databases with multiple grouping attributes |
JP2002183178A (ja) * | 2000-12-18 | 2002-06-28 | Ricoh Co Ltd | データ分析支援装置、その方法および記憶媒体 |
US6889221B1 (en) * | 2001-08-23 | 2005-05-03 | Ncr Corporation | Parallel random sampling |
CN1477554A (zh) * | 2003-07-25 | 2004-02-25 | 中国科学院计算技术研究所 | 一种自适应网络数据采集方法 |
US7490071B2 (en) | 2003-08-29 | 2009-02-10 | Oracle Corporation | Support vector machines processing system |
US7139864B2 (en) * | 2003-12-30 | 2006-11-21 | Sandisk Corporation | Non-volatile memory and method with block management system |
US7310652B1 (en) * | 2005-08-08 | 2007-12-18 | At&T Corp. | Method and apparatus for managing hierarchical collections of data |
US7805443B2 (en) * | 2006-01-20 | 2010-09-28 | Microsoft Corporation | Database configuration analysis |
US8010538B2 (en) * | 2006-05-08 | 2011-08-30 | Black Duck Software, Inc. | Methods and systems for reporting regions of interest in content files |
US7536403B2 (en) | 2006-12-22 | 2009-05-19 | International Business Machines Corporation | Method for maintaining a sample synopsis under arbitrary insertions and deletions |
US8639692B2 (en) | 2010-06-28 | 2014-01-28 | Alcatel Lucent | High-dimensional stratified sampling |
-
2010
- 2010-06-28 US US12/824,849 patent/US8639692B2/en not_active Expired - Fee Related
-
2011
- 2011-06-09 EP EP11726608.0A patent/EP2585948A1/en not_active Withdrawn
- 2011-06-09 WO PCT/US2011/039750 patent/WO2012009071A1/en active Application Filing
- 2011-06-09 CN CN2011800324452A patent/CN102985923A/zh active Pending
- 2011-06-09 JP JP2013518418A patent/JP5687763B2/ja not_active Expired - Fee Related
- 2011-06-09 KR KR1020127034078A patent/KR101442383B1/ko not_active IP Right Cessation
- 2011-06-22 TW TW100121839A patent/TWI490715B/zh not_active IP Right Cessation
-
2013
- 2013-10-15 US US14/053,806 patent/US9047362B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102985923A (zh) | 2013-03-20 |
TW201216100A (en) | 2012-04-16 |
KR101442383B1 (ko) | 2014-09-17 |
JP2013534674A (ja) | 2013-09-05 |
TWI490715B (zh) | 2015-07-01 |
US8639692B2 (en) | 2014-01-28 |
US20110320447A1 (en) | 2011-12-29 |
KR20130029790A (ko) | 2013-03-25 |
WO2012009071A1 (en) | 2012-01-19 |
US20140040268A1 (en) | 2014-02-06 |
US9047362B2 (en) | 2015-06-02 |
EP2585948A1 (en) | 2013-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5687763B2 (ja) | 高次元層別サンプリング | |
US20210365305A1 (en) | Systems and methods for quickly searching datasets by indexing synthetic data generating models | |
US10268745B2 (en) | Inherited dimensions | |
US8150723B2 (en) | Large-scale behavioral targeting for advertising over a network | |
US7353218B2 (en) | Methods and apparatus for clustering evolving data streams through online and offline components | |
US9477974B2 (en) | Method and systems for flexible and scalable databases | |
US8682885B2 (en) | Method and system for combining data objects | |
US12105832B2 (en) | Adaptive differentially private count | |
Cohen | Min-Hash Sketches. | |
US20220261391A1 (en) | Auto unload | |
Tran et al. | Conditioning and aggregating uncertain data streams: Going beyond expectations | |
Lyu et al. | Fine-grained modeling and optimization for intelligent resource management in big data processing | |
Wagner et al. | Fast private kernel density estimation via locality sensitive quantization | |
US11061916B1 (en) | Computing approximate distinct counts for large datasets | |
Xiaoyue et al. | A distributed multiple sample testing for massive data | |
Wang et al. | Skew‐aware online aggregation over joins through guided sampling | |
US10942908B2 (en) | Primary key determination | |
Zhao et al. | Building Hierarchical Spatial Histograms for Exploratory Analysis in Array DBMS | |
Cahsai et al. | Revisiting Exact kNN Query Processing with Probabilistic Data Space Transformations | |
CN116578886A (zh) | 用户聚类方法、装置、计算机设备和存储介质 | |
JP2024068340A (ja) | データ操作プログラム、データ操作システム、およびデータ操作方法 | |
CN117033411A (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN118093544A (zh) | 用于在数据库系统中估计不同值个数的方法 | |
WO2023278935A1 (en) | Artificial intelligence based hotel demand model | |
CN118708608A (zh) | 处理引擎的选择方法、装置、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131219 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140319 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5687763 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |