CN106446255A - 一种基于云服务器的数据处理方法 - Google Patents

一种基于云服务器的数据处理方法 Download PDF

Info

Publication number
CN106446255A
CN106446255A CN201610901600.4A CN201610901600A CN106446255A CN 106446255 A CN106446255 A CN 106446255A CN 201610901600 A CN201610901600 A CN 201610901600A CN 106446255 A CN106446255 A CN 106446255A
Authority
CN
China
Prior art keywords
data
processing method
cloud server
algorithm
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610901600.4A
Other languages
English (en)
Inventor
李让剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tianda Network Technology Co Ltd
Original Assignee
Anhui Tianda Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tianda Network Technology Co Ltd filed Critical Anhui Tianda Network Technology Co Ltd
Priority to CN201610901600.4A priority Critical patent/CN106446255A/zh
Publication of CN106446255A publication Critical patent/CN106446255A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于云服务器的数据处理方法,其包括以下步骤:初始化数据:将分布在不同网络空间的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;数据选择:从所述初始化处理的数据中将不同格式的数据转化为统一格式;数据预处理:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识;数据挖掘,具体包括以下步骤:确定挖掘目标,选择算法,采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。本发明在数据搜索时的速率提高,且搜索精度得到很大的提高。

Description

一种基于云服务器的数据处理方法
技术领域
本发明涉及到云服务器技术领域,特别是一种基于云服务器的数据处理方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,从与特定的对象相关的海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。
在现有的技术方案中,通常根据与目标对象相关联的一个或多个属性数据来对目标对象进行分类,即基于每个目标对象的某个或某些特定的属性数据的值对目标对象进行分类。
而,现有的技术方案存在如下问题:由于仅仅基于单一或数个属性数据对目标对象进行分类,故分类结果的精确度较低,并且由于需要对每个目标对象的属性数据进行相同的评估操作,故数据挖掘的效率较低。
因此,存在如下需求:提供能够根据目标对象的综合特征来挖掘和分类目标对象的基于云服务器的数据挖掘方法。
发明内容
为解决上述技术问题,本发明提供了一种基于云服务器的数据处理方法,其包括以下步骤:
S1:初始化数据:将分布在不同网络空间的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;
S2:数据选择:从所述初始化处理的数据中将不同格式的数据转化为统一格式;
S3:数据预处理:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;
S4:数据挖掘,具体包括以下步骤:
S41:确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;
S42:选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;
S43:数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。
较佳地,所述不同网络空间包括多个不同的网络云端服务器。
较佳地,所述挖掘算法为k—means聚类算法或者基于层次的聚类分析算法。
较佳地,所述缺省数据的补充内容包括数据扩展名与系统存储路径。
较佳地,所述脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑的数据。
本发明具有以下有益效果:
本发明提供的基于云服务器的数据处理方法通过对不同的存储空间内存储的数据进行处理优化,根据目标数据的特征值通过挖掘算法进行找寻,本发明在数据搜索时的速率提高,且搜索精度得到很大的保障。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
具体实施方式
下面将结合本发明实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于云服务器的数据处理方法,其包括以下步骤:
S1:初始化数据:将分布在不同网络空间的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;
S2:数据选择:从所述初始化处理的数据中将不同格式的数据转化为统一格式;
S3:数据预处理:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;
S4:数据挖掘,具体包括以下步骤:
S41:确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;
S42:选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;
S43:数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。
本实施例中所述不同网络空间包括多个不同的网络云端服务器。
其中所述挖掘算法为k—means聚类算法或者基于层次的聚类分析算法。
所述缺省数据的补充内容包括数据扩展名与系统存储路径。
所述脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑的数据。
本发明提供的基于云服务器的数据处理方法通过对不同的存储空间内存储的数据进行处理优化,根据目标数据的特征值通过挖掘算法进行找寻,本发明在数据搜索时的速率提高,且搜索精度得到很大的保障。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种基于云服务器的数据处理方法,其特征在于,包括以下步骤:
S1:初始化数据:将分布在不同网络空间的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;
S2:数据选择:从所述初始化处理的数据中将不同格式的数据转化为统一格式;
S3:数据预处理:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;
S4:数据挖掘,具体包括以下步骤:
S41:确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;
S42:选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;
S43:数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。
2.如权利要求1所述的基于云服务器的数据处理方法,其特征在于,所述不同网络空间包括多个不同的网络云端服务器。
3.如权利要求1所述的基于云服务器的数据处理方法,其特征在于,所述挖掘算法为k—means聚类算法或者基于层次的聚类分析算法。
4.如权利要求1所述的基于云服务器的的数据处理方法,其特征在于,所述缺省数据的补充内容包括数据扩展名与系统存储路径。
5.如权利要求1所述的基于云服务器的的数据处理方法,其特征在于,所述脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑的数据。
CN201610901600.4A 2016-10-18 2016-10-18 一种基于云服务器的数据处理方法 Pending CN106446255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610901600.4A CN106446255A (zh) 2016-10-18 2016-10-18 一种基于云服务器的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610901600.4A CN106446255A (zh) 2016-10-18 2016-10-18 一种基于云服务器的数据处理方法

Publications (1)

Publication Number Publication Date
CN106446255A true CN106446255A (zh) 2017-02-22

Family

ID=58175092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610901600.4A Pending CN106446255A (zh) 2016-10-18 2016-10-18 一种基于云服务器的数据处理方法

Country Status (1)

Country Link
CN (1) CN106446255A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107018075A (zh) * 2017-04-06 2017-08-04 安徽国防科技职业学院 一种综合数据处理服务器系统
CN108121508A (zh) * 2017-12-15 2018-06-05 华中师范大学 基于教育大数据的多源异构数据采集系统及处理方法
CN108471618A (zh) * 2017-02-23 2018-08-31 大唐移动通信设备有限公司 一种消息处理方法及装置
CN110458626A (zh) * 2019-08-16 2019-11-15 京东数字科技控股有限公司 一种信息数据处理方法和装置
CN111651435A (zh) * 2020-03-16 2020-09-11 杭州电子科技大学 基于容器的数据处理方法、装置、系统以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN104809242A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种基于分布式结构的大数据聚类方法和装置
CN105589896A (zh) * 2014-11-14 2016-05-18 北大方正集团有限公司 数据挖掘方法及装置
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN105589896A (zh) * 2014-11-14 2016-05-18 北大方正集团有限公司 数据挖掘方法及装置
CN104809242A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种基于分布式结构的大数据聚类方法和装置
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108471618A (zh) * 2017-02-23 2018-08-31 大唐移动通信设备有限公司 一种消息处理方法及装置
CN107018075A (zh) * 2017-04-06 2017-08-04 安徽国防科技职业学院 一种综合数据处理服务器系统
CN108121508A (zh) * 2017-12-15 2018-06-05 华中师范大学 基于教育大数据的多源异构数据采集系统及处理方法
CN110458626A (zh) * 2019-08-16 2019-11-15 京东数字科技控股有限公司 一种信息数据处理方法和装置
CN111651435A (zh) * 2020-03-16 2020-09-11 杭州电子科技大学 基于容器的数据处理方法、装置、系统以及存储介质

Similar Documents

Publication Publication Date Title
CN106446255A (zh) 一种基于云服务器的数据处理方法
CN111522986B (zh) 图像检索方法、装置、设备和介质
Bahmani et al. Efficient distributed locality sensitive hashing
CN101043421B (zh) 一种基于内存的ip地址最长匹配快速查找的方法
CN104166651A (zh) 基于对同类数据对象整合的数据搜索的方法和装置
CN105045917B (zh) 一种基于实例的分布式数据恢复方法和装置
Song et al. Solutions for processing k nearest neighbor joins for massive data on mapreduce
CN111247518A (zh) 数据库分片
CN102597973B (zh) 用于改善最长前缀匹配的可扩展性的方法和设备
CN102810116B (zh) 一种基于数据库连接的自动路由和负载均衡的方法及系统
CN102959548B (zh) 数据存储方法、查找方法及装置
CN106462633B (zh) 将相关的稀疏数据高效存储在搜索索引中
US9881045B2 (en) System and method for processing data
CN110888837A (zh) 对象存储小文件归并方法及装置
US8543600B2 (en) Redistribute native XML index key shipping
CN106649844B (zh) 非结构化文本数据增强型分布式大规模数据维度抽取方法
CN103455491B (zh) 对查询词分类的方法及装置
CN107729338B (zh) 数据节点相似度计算方法和装置
CN106484887A (zh) 一种基于互联网的文件处理方法
CN106484890A (zh) 一种基于局域网的数据处理方法
US9471663B1 (en) Classification of media in a media sharing system
CN106503113A (zh) 一种基于局域网的数据处理方法
US9053417B2 (en) Domain level clustering
US10872103B2 (en) Relevance optimized representative content associated with a data storage system
CN104361058A (zh) 一种面向海量数据流的哈希结构复杂事件检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication