CN102799682A - 一种海量数据预处理方法及其系统 - Google Patents
一种海量数据预处理方法及其系统 Download PDFInfo
- Publication number
- CN102799682A CN102799682A CN2012102606515A CN201210260651A CN102799682A CN 102799682 A CN102799682 A CN 102799682A CN 2012102606515 A CN2012102606515 A CN 2012102606515A CN 201210260651 A CN201210260651 A CN 201210260651A CN 102799682 A CN102799682 A CN 102799682A
- Authority
- CN
- China
- Prior art keywords
- attributes
- mrow
- data
- correlation
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000007781 pre-processing Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 26
- 238000007621 cluster analysis Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013144 data compression Methods 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000007906 compression Methods 0.000 abstract description 9
- 230000006835 compression Effects 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210260651.5A CN102799682B (zh) | 2012-05-10 | 2012-07-25 | 一种海量数据预处理方法及其系统 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210144439.2 | 2012-05-10 | ||
CN201210144439 | 2012-05-10 | ||
CN201210260651.5A CN102799682B (zh) | 2012-05-10 | 2012-07-25 | 一种海量数据预处理方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102799682A true CN102799682A (zh) | 2012-11-28 |
CN102799682B CN102799682B (zh) | 2015-01-07 |
Family
ID=47198792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210260651.5A Active CN102799682B (zh) | 2012-05-10 | 2012-07-25 | 一种海量数据预处理方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102799682B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605734A (zh) * | 2013-11-19 | 2014-02-26 | 广东电网公司电力科学研究院 | 基于特征向量的数据传输压缩方法及其系统 |
CN103914373A (zh) * | 2012-12-31 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 一种用于确定模块特征信息所对应的优先级的方法和设备 |
CN104318101A (zh) * | 2014-10-23 | 2015-01-28 | 轻工业环境保护研究所 | 一种厌氧数学建模过程缺失数据的预处理方法 |
CN104424331A (zh) * | 2013-09-10 | 2015-03-18 | 深圳市腾讯计算机系统有限公司 | 数据抽样方法及装置 |
WO2016101628A1 (zh) * | 2014-12-23 | 2016-06-30 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN106372412A (zh) * | 2016-08-31 | 2017-02-01 | 北京可视化节能科技股份有限公司 | 联动设备能效分析系统 |
CN106547852A (zh) * | 2016-10-19 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 异常数据检测方法及装置、数据预处理方法及系统 |
WO2018014267A1 (zh) * | 2016-07-20 | 2018-01-25 | 深圳市东信时代信息技术有限公司 | 海量人群特征数据的处理方法及系统 |
CN108628889A (zh) * | 2017-03-21 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 基于时间片的数据抽样方法、系统和装置 |
CN109471862A (zh) * | 2018-11-12 | 2019-03-15 | 北京懿医云科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
CN109491989A (zh) * | 2018-11-12 | 2019-03-19 | 北京懿医云科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
CN110995815A (zh) * | 2019-11-27 | 2020-04-10 | 大连民族大学 | 一种基于Gaia大数据分析系统的信息传输方法 |
CN113349780A (zh) * | 2021-06-07 | 2021-09-07 | 浙江科技学院 | 一种情绪设计对在线学习认知负荷影响的评估方法 |
CN113902785A (zh) * | 2021-09-15 | 2022-01-07 | 珠海视熙科技有限公司 | 一种深度图像的处理方法、系统、装置及计算机存储介质 |
WO2022021849A1 (zh) * | 2020-07-30 | 2022-02-03 | 苏州浪潮智能科技有限公司 | 一种基于icc的数据一致性检验方法及系统 |
CN117092255A (zh) * | 2023-10-19 | 2023-11-21 | 广州恒广复合材料有限公司 | 一种洗护组合物中季铵盐质量检测分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1216841A (zh) * | 1997-10-31 | 1999-05-19 | 国际商业机器公司 | 用于索引和检索的多维数据聚类和降维 |
US6539391B1 (en) * | 1999-08-13 | 2003-03-25 | At&T Corp. | Method and system for squashing a large data set |
CN101464907A (zh) * | 2009-01-09 | 2009-06-24 | 中国科学院计算技术研究所 | 一种文本维度压缩及尺度调整方法以及基于此的分类方法 |
CN102243641A (zh) * | 2011-04-29 | 2011-11-16 | 西安交通大学 | 大规模数据的高效聚类方法 |
-
2012
- 2012-07-25 CN CN201210260651.5A patent/CN102799682B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1216841A (zh) * | 1997-10-31 | 1999-05-19 | 国际商业机器公司 | 用于索引和检索的多维数据聚类和降维 |
US6539391B1 (en) * | 1999-08-13 | 2003-03-25 | At&T Corp. | Method and system for squashing a large data set |
CN101464907A (zh) * | 2009-01-09 | 2009-06-24 | 中国科学院计算技术研究所 | 一种文本维度压缩及尺度调整方法以及基于此的分类方法 |
CN102243641A (zh) * | 2011-04-29 | 2011-11-16 | 西安交通大学 | 大规模数据的高效聚类方法 |
Non-Patent Citations (1)
Title |
---|
夏娇雄: "数据资源聚类预处理及其应用研究", 《中国博士学位论文全文数据库》, no. 4, 15 April 2008 (2008-04-15), pages 5 - 22 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914373A (zh) * | 2012-12-31 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 一种用于确定模块特征信息所对应的优先级的方法和设备 |
CN104424331A (zh) * | 2013-09-10 | 2015-03-18 | 深圳市腾讯计算机系统有限公司 | 数据抽样方法及装置 |
CN103605734B (zh) * | 2013-11-19 | 2017-02-15 | 广东电网公司电力科学研究院 | 基于特征向量的数据传输压缩方法及其系统 |
CN103605734A (zh) * | 2013-11-19 | 2014-02-26 | 广东电网公司电力科学研究院 | 基于特征向量的数据传输压缩方法及其系统 |
CN104318101A (zh) * | 2014-10-23 | 2015-01-28 | 轻工业环境保护研究所 | 一种厌氧数学建模过程缺失数据的预处理方法 |
WO2016101628A1 (zh) * | 2014-12-23 | 2016-06-30 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
US10606862B2 (en) | 2014-12-23 | 2020-03-31 | Huawei Technologies Co., Ltd. | Method and apparatus for data processing in data modeling |
WO2018014267A1 (zh) * | 2016-07-20 | 2018-01-25 | 深圳市东信时代信息技术有限公司 | 海量人群特征数据的处理方法及系统 |
CN106372412B (zh) * | 2016-08-31 | 2019-03-26 | 北京可视化节能科技股份有限公司 | 联动设备能效分析方法 |
CN106372412A (zh) * | 2016-08-31 | 2017-02-01 | 北京可视化节能科技股份有限公司 | 联动设备能效分析系统 |
CN106547852B (zh) * | 2016-10-19 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 异常数据检测方法及装置、数据预处理方法及系统 |
CN106547852A (zh) * | 2016-10-19 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 异常数据检测方法及装置、数据预处理方法及系统 |
CN108628889A (zh) * | 2017-03-21 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 基于时间片的数据抽样方法、系统和装置 |
CN108628889B (zh) * | 2017-03-21 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 基于时间片的数据抽样方法、系统和装置 |
CN109491989B (zh) * | 2018-11-12 | 2021-08-31 | 北京懿医云科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
CN109471862A (zh) * | 2018-11-12 | 2019-03-15 | 北京懿医云科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
CN109491989A (zh) * | 2018-11-12 | 2019-03-19 | 北京懿医云科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
CN110995815A (zh) * | 2019-11-27 | 2020-04-10 | 大连民族大学 | 一种基于Gaia大数据分析系统的信息传输方法 |
CN110995815B (zh) * | 2019-11-27 | 2022-08-05 | 大连民族大学 | 一种基于Gaia大数据分析系统的信息传输方法 |
WO2022021849A1 (zh) * | 2020-07-30 | 2022-02-03 | 苏州浪潮智能科技有限公司 | 一种基于icc的数据一致性检验方法及系统 |
CN113349780A (zh) * | 2021-06-07 | 2021-09-07 | 浙江科技学院 | 一种情绪设计对在线学习认知负荷影响的评估方法 |
CN113902785A (zh) * | 2021-09-15 | 2022-01-07 | 珠海视熙科技有限公司 | 一种深度图像的处理方法、系统、装置及计算机存储介质 |
CN113902785B (zh) * | 2021-09-15 | 2022-04-15 | 珠海视熙科技有限公司 | 一种深度图像的处理方法、系统、装置及计算机存储介质 |
CN117092255A (zh) * | 2023-10-19 | 2023-11-21 | 广州恒广复合材料有限公司 | 一种洗护组合物中季铵盐质量检测分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102799682B (zh) | 2015-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102799682B (zh) | 一种海量数据预处理方法及其系统 | |
CN108292315B (zh) | 储存和检索数据立方体中的数据 | |
Zhang et al. | Sjmr: Parallelizing spatial join with mapreduce on clusters | |
CN105389349B (zh) | 词典更新方法及装置 | |
Zhang et al. | Spatial queries evaluation with mapreduce | |
CN108376143B (zh) | 一种新型的olap预计算系统及生成预计算结果的方法 | |
CN101477542B (zh) | 一种抽样分析方法、系统和设备 | |
CN104182527B (zh) | 基于偏序项集的中英文本词间关联规则挖掘方法及其系统 | |
WO2018080850A2 (en) | Query processing in data analysis | |
CN110389950B (zh) | 一种快速运行的大数据清洗方法 | |
US20060235879A1 (en) | Techniques for specifying and collecting data aggregations | |
CN111881326A (zh) | 一种图数据存储方法、装置、设备及可读存储介质 | |
CN102314491A (zh) | 多核环境下基于海量日志的类似行为模式用户识别方法 | |
Sun et al. | Survey of distributed computing frameworks for supporting big data analysis | |
CN103995828A (zh) | 一种云存储日志数据分析方法 | |
CN106599122B (zh) | 一种基于垂直分解的并行频繁闭序列挖掘方法 | |
Popova et al. | Nosingles: a space-efficient algorithm for influence maximization | |
CN117648495B (zh) | 一种基于云原生向量数据的数据推送方法及系统 | |
Kontonasios et al. | Maximum entropy modelling for assessing results on real-valued data | |
Gong et al. | Automatic mapping of the best-suited dnn pruning schemes for real-time mobile acceleration | |
CN117880765A (zh) | 用于短信数据的智能化管理系统 | |
Rajput et al. | Performance comparison of sequential quick sort and parallel quick sort algorithms | |
Kim et al. | Decomposition-by-normalization (DBN) leveraging approximate functional dependencies for efficient tensor decomposition | |
CN107506476A (zh) | 用户行为数据收集分析系统及分析方法 | |
CN116595302A (zh) | 一种不规则矩阵spmv在gpu上的实现方法、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: STATE ELECTRIC NET CROP. Effective date: 20130715 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20130715 Address after: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15 Applicant after: China Electric Power Research Institute Applicant after: State Grid Corporation of China Address before: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15 Applicant before: China Electric Power Research Institute |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160427 Address after: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15 Patentee after: China Electric Power Research Institute Patentee after: State Grid Smart Grid Institute Patentee after: State Grid Corporation of China Address before: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15 Patentee before: China Electric Power Research Institute Patentee before: State Grid Corporation of China |
|
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15 Patentee after: China Electric Power Research Institute Patentee after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Patentee after: State Grid Corporation of China Address before: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15 Patentee before: China Electric Power Research Institute Patentee before: State Grid Smart Grid Institute Patentee before: State Grid Corporation of China |