CN103336786B - 一种数据处理的方法及装置 - Google Patents

一种数据处理的方法及装置 Download PDF

Info

Publication number
CN103336786B
CN103336786B CN201310221032.XA CN201310221032A CN103336786B CN 103336786 B CN103336786 B CN 103336786B CN 201310221032 A CN201310221032 A CN 201310221032A CN 103336786 B CN103336786 B CN 103336786B
Authority
CN
China
Prior art keywords
data
distance
group
represent
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310221032.XA
Other languages
English (en)
Other versions
CN103336786A (zh
Inventor
杨宜
邹永强
卢柯
陈峥
伍海君
于涛
李璐鑫
吴家旭
崔精兵
辛调琴
邹赞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310221032.XA priority Critical patent/CN103336786B/zh
Publication of CN103336786A publication Critical patent/CN103336786A/zh
Priority to PCT/CN2013/089576 priority patent/WO2014194640A1/en
Priority to US14/296,099 priority patent/US20140365493A1/en
Application granted granted Critical
Publication of CN103336786B publication Critical patent/CN103336786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种数据处理的方法,包括:对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个数据用于建模计算。本发明实施例还提供相应的装置。本发明技术方案由于可以减少用于建模计算的数据量,从而降低了数据处理的时间,提高了数据处理的效率。

Description

一种数据处理的方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据处理的方法及装置。
背景技术
随着互联网的发展,信息成爆炸式增长,需要处理的数据量骤增,现有的处理方法主要分为两种:
一种为:对全部数据进行分析,根据全部数据的分析结果建立经验模型;另一种为:首先对数据进行聚类,然后取聚类以后的结果建立经验模型。
聚类为根据事先定义的度量将一些相似的数据组成群体。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有技术中无论是直接对全部数据进行处理还是使用聚类方法对海量数据进行处理,都需要大量的计算开销,导致数据处理的耗时过长。
发明内容
本发明实施例提供一种数据处理的方法,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。本发明实施例还提供了相应的装置。
本发明第一方面提供一种数据处理的方法,包括:
对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;
从划分后的每一数据组中选择一个数据用于建模计算。
结合第一方面,在第一种可能的实现方式中,所述从划分后的每一数据组中选择一个数据用于建模计算,包括:
按照预置策略,从划分后的每一数据组中选择一个代表数据;
计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
当计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。
结合第一方面,在第二种可能的实现方式中,所述从划分后的每一数据组中选择一个数据用于建模计算,包括:
按照预置策略,从划分后的每一数据组中选择一个代表数据;
计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
当计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正,并从修正后的数据中选择一个数据用于建模计算。
本发明第二方面提供一种数据处理的方法,包括:
对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;
从划分后的每一数据组中选择一个代表数据,计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。
结合第二方面,在第一种可能的实现方式中,所述根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据,包括:
当计算出的所述其他数据与所述代表数据的距离中有至少一个大于所述预置阈值时,确定所述其他数据与所述代表数据的距离大于所述预置阈值的其他数据为错误数据。
结合第二方面或第二方面第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括:
修正所述错误数据。
本发明第三方面提供一种数据处理的装置,包括:
第一计算单元,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
第一分组单元,用于按照所述第一计算单元计算出的指纹信息,将具有相同指纹信息的数据划分到同一数据组;
第一选择单元,用于从所述第一分组单元划分后的每一数据组中选择一个数据用于建模计算。
结合第三方面,在第一种可能的实现方式中,所述第一选择单元包括:
第一选择子单元,用于按照预置策略,从划分后的每一数据组中选择一个代表数据;
第一计算子单元,用于计算所述每一数据组中除所述第一选择子单元选择的代表数据外的其他数据与所述代表数据的距离;
所述第一选择子单元,还用于当所述第一计算子单元计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。
结合第三方面,在第二种可能的实现方式中,所述第一选择单元包括:
第二选择子单元,用于按照预置策略,从划分后的每一数据组中选择一个代表数据;
第二计算子单元,用于计算所述每一数据组中除所述第二选择子单元选择的代表数据外的其他数据与所述代表数据的距离;
修正子单元,用于当所述第二计算子单元计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正;
所述第二选择子单元,还用于从所述修正子单元修正后的数据中选择一个数据用于建模计算。
本发明第四方面提供一种数据处理的装置,包括:
第二计算单元,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
第二分组单元,用于按照所述第二计算单元计算的指纹信息,将具有相同指纹信息的数据划分到同一数据组;
第二选择单元,用于从所述第二分组单元划分后的每一数据组中选择一个代表数据;
所述第二计算单元,还用于计算所述每一数据组中除所述第二选择单元选择的代表数据外的其他数据与所述代表数据的距离;
确定单元,用于根据所述第二计算单元计算的所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。
结合第四方面,在第一种可能的实现方式中,
所述确定单元,用于当计算出的所述其他数据与所述代表数据的距离中有至少一个大于所述预置阈值时,确定所述其他数据与所述代表数据的距离大于所述预置阈值的其他数据为错误数据。
结合第四方面或第四方面第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括:
修正单元,用于修正所述错误数据。
本发明实施例采用对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个数据用于建模计算。与现有技术中使用大量的数据才能建立经验模型相比,本发明实施例提供的方法,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中数据处理的方法的一实施例示意图;
图2是本发明实施例中数据处理的方法的另一实施例示意图;
图3是本发明实施例中数据处理的方法的另一实施例示意图;
图4是本发明实施例中数据处理装置的一实施例示意图;
图5是本发明实施例中数据处理装置的另一实施例示意图;
图6是本发明实施例中数据处理装置的另一实施例示意图;
图7是本发明实施例中数据处理装置的另一实施例示意图;
图8是本发明实施例中数据处理装置的另一实施例示意图;
图9是本发明实施例中数据处理装置的另一实施例示意图;
图10是本发明实施例中数据处理装置的另一实施例示意图。
具体实施方式
本发明实施例提供一种数据处理的方法,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。本发明实施例还提供了相应的装置。以下分别进行详细说明。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,本发明实施例提供的数据处理的方法的一实施例包括:
101、对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息。
指纹信息指用来表征数据特征的信息,常用的指纹计算方法有消息摘要算法第五版(MessageDigestAlgorithmMD5,MD5)、局部敏感哈西(local sensitive hash,LSH)等。
102、按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组。
例如:有data1、data2、data3、data4、data5和data6六个数据,data1、data2、data5和data6的指纹信息相同,那么将data1、data2、data5和data6这四个数据划分到同一数据组。data3和data4的指纹信息相同,那么将data3和data4的这两个数据划分到同一数据组。
103、从划分后的每一数据组中选择一个数据用于建模计算。
建模计算为现有技术,本发明中不做过多赘述,实际上建模的过程就是采用数据建立经验模型,常见的检验模型包括支持向量机、逻辑回归和神经网络模型等。
本发明实施例中可以从每一数据组中任意选择一个数据用于建模计算。
本发明实施例采用对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个数据用于建模计算。与现有技术中使用大量的数据才能建立经验模型相比,本发明实施例提供的方法,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。
可选地,在上述图1对应的实施例的基础上,本发明实施例提供的数据处理的方法的另一实施例中,所述从划分后的每一数据组中选择一个数据用于建模计算,可以包括:
按照预置策略,从划分后的每一数据组中选择一个代表数据;
计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
当计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。
本发明实施例中,预置策略可以为随机选择策略,也可以为中间数据选择策略,也可以为其他策略,对此不做具体限定。
距离计算可以有多种计算公式,包括但不限于欧式距离、汉明距离、马氏距离计算公式,例如:以欧氏距离为例:
数据组中的一个数据data1={0.5,0.3,0,0,2},代表数据data2={0.5,0,0.2,0,0.7}。
则其欧式距离等于:
如果这个数据组中其他数据data3、data4、data5、data6分别与代表数据data2的欧氏距离分别为1.21、1.35、1.47和1.24,预置阈值为1.50,可以确定该数据组中的其他数据与所述代表数据的距离都小于预置阈值,可以直接选择数据data2用于建模计算。
可选地,在上述图1对应的实施例的基础上,本发明实施例提供的数据处理的方法的另一实施例中,所述从划分后的每一数据组中选择一个数据用于建模计算,可以包括:
按照预置策略,从划分后的每一数据组中选择一个代表数据;
计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
当计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正,并从修正后的数据中选择一个数据用于建模计算。
本发明实施例中,预置策略可以为随机选择策略,也可以为中间数据选择策略,也可以为其他策略,对此不做具体限定。
距离计算可以有多种计算公式,包括但不限于欧式距离、汉明距离、马氏距离计算公式,例如:以欧氏距离为例:
数据组中的一个数据data1={0.5,0.3,0,0,2},代表数据data2={0.5,0,0.2,0,0.7}。
则其欧式距离等于:
如果这个数据组中其他数据data3、data4、data5、data6分别与代表数据的欧氏距离分别为1.21、1.35、1.47和1.24,预置阈值为1.30,可以确定该数据组中的其他数据与所述代表数据的距离中1.43、1.35和1.47大于预置阈值,可以修正data1、data4、data5,可以从修正后的数据直接选择数据data1或者其他修正后的数据用于建模计算,实际上,也可以选择未修正的data2、ata4、data5用于建模计算。
参阅图2,本发明实施例提供的数据处理的方法的另一实施例包括:
201、对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息。
指纹信息指用来表征数据特征的信息,常用的指纹计算方法有消息摘要算法第五版(MessageDigestAlgorithmMD5,MD5)、局部敏感哈西(local sensitive hash,LSH)等。
202、按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组。
例如:有data1、data2、data3、data4、data5和data6六个数据,data1、data2、data5和data6的指纹信息相同,那么将data1、data2、data5和data6这四个数据划分到同一数据组。data3和data4的指纹信息相同,那么将data3和data4的这两个数据划分到同一数据组。
203、从划分后的每一数据组中选择一个代表数据,计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离。
距离计算可以有多种计算公式,包括但不限于欧式距离、汉明距离、马氏距离计算公式,例如:以欧氏距离为例:
数据组中的一个数据data1={0.5,0.3,0,0,2},代表数据data2={0.5,0,0.2,0,0.7}。
则其欧式距离等于:
其他数据与代表数据的距离都可以参阅上述方法进行计算。
204、根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。
本发明实施例中,对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个代表数据,计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。与现有技术中逐一遍历所有数据,查找错误数据相比,本发明实施例提供的方法,可以通过距离比较的方式确定错误数据,从而提高了数据处理的效率及准确率。
可选地,在上述图2对应的实施例的基础上,本发明实施例提供的数据处理的方法的另一实施例中,所述根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据,可以包括:
当计算出的所述其他数据与所述代表数据的距离中有至少一个大于所述预置阈值时,确定所述其他数据与所述代表数据的距离大于所述预置阈值的其他数据为错误数据。
本发明实施例中,如果一个数据组中包含data1、data2、data3、data4、data5、data6,选择data2为代表数据,按照上述都是距离公式,计算出data1、data3、data4、data5、data6与data2的距离分别为1.43、1.21、1.35、1.47和1.24,预置阈值为1.30,可以确定该数据组中的其他数据与所述代表数据的距离中1.43、1.35和1.47大于预置阈值,可以确定错误数据为data1、data4、data5
可选地,在上述图2对应的实施例的基础上,本发明实施例提供的数据处理的方法的另一实施例中,所述方法还可以包括:
修正所述错误数据。
本发明实施例中,当确定存在错误数据时,可以修正该错误数据。
为了便于理解,下面以一个应用场景为例,说明本发明实施例中数据处理的过程:
参阅图3,接收到data1、data2、data3、data4、data5、data6六个数据,分别计算这六个数据的指纹信息,得到data1的指纹信息为fingerprint1,data2的指纹信息为fingerprint1、data3的指纹信息为fingerprint2、data4的指纹信息为fingerprint2、data5的指纹信息为fingerprint1,data6的指纹信息为fingerprint1,将指纹信息为fingerprint1的数据分到一个数据组,将指纹信息为fingerprint2的数据分到一个数据组;这样,指纹信息为fingerprint1的数据组包含数据data1、data2、data5、data6,指纹信息为fingerprint2的数据组包含数据data3、data4,可以直接从这两个数据组中分别选择一个数据用于建模计算,也可以对两个数据组中的数据进行距离计算,如:选择指纹信息为fingerprint1的数据组中的data2为代表数据,计算data1、data5、data6分别与data2的距离。
例如:根据欧式距离公式,计算出的距离分别为1.43、1.37、1.46,如果预置阈值为1.5,那么可以直接选择代表数据data2用于建模计算。如果预置阈值为1.4,那么1.43和1.46大于预置阈值1.4,可以对data1、data6进行修正,并从修正后的数据中选择一个数据或多个用于建模计算。如选择data1,当然也可以选择不需要修正的data2用于建模计算。
参阅图4,本发明实施例提供的数据处理的装置的一实施例包括:
第一计算单元301,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
第一分组单元302,用于按照所述第一计算单元301计算出的指纹信息,将具有相同指纹信息的数据划分到同一数据组;
第一选择单元303,用于从所述第一分组单元302划分后的每一数据组中选择一个数据用于建模计算。
本发明实施例中,第一计算单元301对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;第一分组单元302按照所述第一计算单元301计算出的指纹信息,将具有相同指纹信息的数据划分到同一数据组;第一选择单元303从所述第一分组单元302划分后的每一数据组中选择一个数据用于建模计算。与现有技术中使用大量的数据才能建立经验模型相比,本发明实施例提供的装置,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。
在上述图4对应的实施例的基础上,参阅图5,本发明实施例提供的数据处理装置的另一实施例中,所述第一选择单元303包括:
第一选择子单元3031,用于按照预置策略,从划分后的每一数据组中选择一个代表数据;
第一计算子单元3032,用于计算所述每一数据组中除所述第一选择子单元3031选择的代表数据外的其他数据与所述代表数据的距离;
所述第一选择子单元3031,还用于当所述第一计算子单元3032计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。
在上述图4对应的实施例的基础上,参阅图6,本发明实施例提供的数据处理装置的另一实施例中,所述第一选择单元303包括:
第二选择子单元3033,用于按照预置策略,从划分后的每一数据组中选择一个代表数据;
第二计算子单元3034,用于计算所述每一数据组中除所述第二选择子单元3033选择的代表数据外的其他数据与所述代表数据的距离;
修正子单元3035,用于当所述第二计算子单元3034计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正;
所述第二选择子单元3033,还用于从所述修正子单元3035修正后的数据中选择一个或多个数据用于建模计算。
参阅图7,本发明实施例提供的数据处理的装置的另一实施例包括:
第二计算单元311,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
第二分组单元312,用于按照所述第二计算单元计算的指纹信息,将具有相同指纹信息的数据划分到同一数据组;
第二选择单元313,用于从所述第二分组单元划分后的每一数据组中选择一个代表数据;
所述第二计算单元311,还用于计算所述每一数据组中除所述第二选择单元选择的代表数据外的其他数据与所述代表数据的距离;
确定单元314,用于根据所述第二计算单元311计算的所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。
在上述图7对应的实施例的基础上,本发明实施例提供的数据处理的装置的另一实施例中,
所述确定单元314,用于当计算出的所述其他数据与所述代表数据的距离中有至少一个大于所述预置阈值时,确定所述其他数据与所述代表数据的距离大于所述预置阈值的其他数据为错误数据。
在上述图7对应的实施例的基础上,参阅图8,本发明实施例提供的数据处理的装置的另一实施例中,所述装置还包括:
修正单元315,用于修正所述错误数据。
请参考图9,其示出了本发明实施例所涉及的数据处理装置的结构示意图,该数据处理装置可以用于实施上述实施例中提供的数据处理的方法。具体来讲:
参阅图9,数据处理装置30包括第一接收器310、第一发送器320、第一存储器330和第一处理器340,其中,第一接收器310、第一发送器320、第一存储器330和第一处理器340通过总线或者其他方式连接;
第一存储器330包括有一个或一个以上的计算机可读存储介质。所述第一处理器340可以有至少一个。所述数据处理装置30还可以包括第一电源350等部件,本领域技术人员可以理解,图9所示出的数据处理装置并不构成对数据处理装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
第一存储器330可用于存储软件程序以及模块,第一处理器340通过运行存储在第一存储器330的软件程序以及模块,从而执行各种功能应用以及数据处理。第一存储器330可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;此外,第一存储器330可以包括高速随机存取第一存储器,还可以包括非易失性第一存储器,例如至少一个磁盘第一存储器件、闪存器件、或其他易失性固态第一存储器件。相应地,第一存储器330还可以包括第一存储器控制器,以提供第一处理器340和第一接收器310对第一存储器330的访问。
第一处理器340是数据处理装置30的控制中心,利用各种接口和线路连接整个数据处理装置30的各个部分,通过运行或执行存储在第一存储器330内的软件程序和/或模块,以及调用存储在第一存储器330内的数据,执行代理服务器的各种功能和处理数据。可选的,第一处理器340可包括一个或多个处理核心;优选的,第一处理器340可集成应用第一处理器和调制解调第一处理器。
数据处理装置30还包括给各个部件供电的第一电源350(比如电池),优选的,电源可以通过电源管理系统与第一处理器340逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。第一电源350还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
其中,第一处理器340,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个数据用于建模计算。
本发明一些实施例中,第一处理器340,还用于按照预置策略,从划分后的每一数据组中选择一个代表数据;计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;当计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。
本发明一些实施例中,第一处理器340,还用于按照预置策略,从划分后的每一数据组中选择一个代表数据;计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;当计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正,并从修正后的数据中选择一个数据用于建模计算。
作为另一方面,本发明再一实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的第一存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序被一个或者一个以上的第一处理器用来执行一个数据处理方法,所述方法包括:
对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;
从划分后的每一数据组中选择一个数据用于建模计算。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,所述从划分后的每一数据组中选择一个数据用于建模计算,包括:
按照预置策略,从划分后的每一数据组中选择一个代表数据;
计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
当计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第三种可能的实施方式中,所述从划分后的每一数据组中选择一个数据用于建模计算,包括:
按照预置策略,从划分后的每一数据组中选择一个代表数据;
计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
当计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正,并从修正后的数据中选择一个数据用于建模计算。
参阅图10,其示出了本发明实施例所涉及的数据处理装置的结构示意图,该数据处理装置可以用于实施上述实施例中提供的数据处理的方法。具体来讲:
参阅图10,数据处理装置30包括第二接收器360、第二发送器370、第二存储器380和第二处理器390,其中,第二接收器360、第二发送器370、第二存储器380和第二处理器390通过总线或者其他方式连接;
第二存储器380包括有一个或一个以上的计算机可读存储介质。所述第二处理器340可以有至少一个。所述数据处理装置30还可以包括第二电源395等部件,本领与技术人员可以理解,图10所示出的数据处理装置并不构成对数据处理装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
第二存储器380可用于存储软件程序以及模块,第二处理器390通过运行存储在第二存储器380的软件程序以及模块,从而执行各种功能应用以及数据处理。第二存储器380可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;此外,第二存储器380可以包括高速随机存取第二存储器,还可以包括非易失性第二存储器,例如至少一个磁盘第二存储器件、闪存器件、或其他易失性固态第二存储器件。相应地,第二存储器380还可以包括第二存储器控制器,以提供第二处理器390和第二接收器360对第二存储器380的访问。
第二处理器390是数据处理装置30的控制中心,利用各种接口和线路连接整个数据处理装置30的各个部分,通过运行或执行存储在第二存储器380内的软件程序和/或模块,以及调用存储在第二存储器380内的数据,执行代理服务器的各种功能和处理数据。可选的,第二处理器390可包括一个或多个处理核心;优选的,第二处理器390可集成应用第二处理器和调制解调第二处理器。
数据处理装置30还包括给各个部件供电的第二电源395(比如电池),优选的,电源可以通过电源管理系统与第二处理器390逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。第二电源395还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
其中,第二处理器390,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个代表数据,计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。
本发明一些实施例中,第二处理器390,用于当计算出的所述其他数据与所述代表数据的距离中有至少一个大于所述预置阈值时,确定所述其他数据与所述代表数据的距离大于所述预置阈值的其他数据为错误数据。
本发明一些实施例中,第二处理器390,用于修正所述错误数据。
作为另一方面,本发明再一实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的第一存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序被一个或者一个以上的第一处理器用来执行一个数据处理方法,所述方法包括:
对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;
从划分后的每一数据组中选择一个代表数据,计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,所述根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据,包括:
当计算出的所述其他数据与所述代表数据的距离中有至少一个大于所述预置阈值时,确定所述其他数据与所述代表数据的距离大于所述预置阈值的其他数据为错误数据。
在第一种或第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,所述方法还包括:
修正所述错误数据。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例所提供的数据处理的方法以及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种数据处理的方法,其特征在于,包括:
对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;
从划分后的每一数据组中选择一个数据用于建模计算,具体为:
按照预置策略,从划分后的每一数据组中选择一个代表数据;
计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
当计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。
2.根据权利要求1所述的方法,其特征在于,所述从划分后的每一数据组中选择一个数据用于建模计算,还包括:
当计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正,并从修正后的数据中选择一个数据用于建模计算。
3.一种数据处理的方法,其特征在于,包括:
对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;
按照预置策略,从划分后的每一数据组中选择一个代表数据,计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;
根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据;
修正所述错误数据;
从修正后的数据中选择至少一个数据用于建模计算。
4.根据权利要求3所述的方法,其特征在于,所述根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据,包括:
当计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,确定所述其他数据与所述代表数据的距离大于预置阈值的其他数据为错误数据。
5.一种数据处理的装置,其特征在于,包括:
第一计算单元,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
第一分组单元,用于按照所述第一计算单元计算出的指纹信息,将具有相同指纹信息的数据划分到同一数据组;
第一选择单元,用于从所述第一分组单元划分后的每一数据组中选择一个数据用于建模计算,所述第一选择单元包括:
第一选择子单元,用于按照预置策略,从划分后的每一数据组中选择一个代表数据;
第一计算子单元,用于计算所述每一数据组中除所述第一选择子单元选择的代表数据外的其他数据与所述代表数据的距离;
所述第一选择子单元,还用于当所述第一计算子单元计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。
6.根据权利要求5所述的装置,其特征在于,所述第一选择单元还包括:
修正子单元,用于当所述第一计算子单元计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正;
所述第一选择子单元,还用于从所述修正子单元修正后的数据中选择一个数据用于建模计算。
7.一种数据处理的装置,其特征在于,包括:
第二计算单元,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;
第二分组单元,用于按照所述第二计算单元计算的指纹信息,将具有相同指纹信息的数据划分到同一数据组;
第二选择单元,用于从所述第二分组单元划分后的每一数据组中选择一个代表数据;
所述第二计算单元,还用于计算所述每一数据组中除所述第二选择单元选择的代表数据外的其他数据与所述代表数据的距离;
确定单元,用于根据所述第二计算单元计算的所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据;
修正单元,用于修正所述错误数据,从修正后的数据中选择至少一个数据用于建模计算。
8.根据权利要求7所述的装置,其特征在于,
所述确定单元,用于当计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,确定所述其他数据与所述代表数据的距离大于预置阈值的其他数据为错误数据。
CN201310221032.XA 2013-06-05 2013-06-05 一种数据处理的方法及装置 Active CN103336786B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310221032.XA CN103336786B (zh) 2013-06-05 2013-06-05 一种数据处理的方法及装置
PCT/CN2013/089576 WO2014194640A1 (en) 2013-06-05 2013-12-16 Data processing method and device
US14/296,099 US20140365493A1 (en) 2013-06-05 2014-06-04 Data processing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310221032.XA CN103336786B (zh) 2013-06-05 2013-06-05 一种数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN103336786A CN103336786A (zh) 2013-10-02
CN103336786B true CN103336786B (zh) 2017-05-24

Family

ID=49244951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310221032.XA Active CN103336786B (zh) 2013-06-05 2013-06-05 一种数据处理的方法及装置

Country Status (2)

Country Link
CN (1) CN103336786B (zh)
WO (1) WO2014194640A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336786B (zh) * 2013-06-05 2017-05-24 腾讯科技(深圳)有限公司 一种数据处理的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890717A (zh) * 2012-09-29 2013-01-23 北京奇虎科技有限公司 网页类别知识库的建立系统及方法
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049760A1 (en) * 2000-06-16 2002-04-25 Flycode, Inc. Technique for accessing information in a peer-to-peer network
JP2008152619A (ja) * 2006-12-19 2008-07-03 Fuji Xerox Co Ltd データ処理装置およびデータ処理プログラム
US8363961B1 (en) * 2008-10-14 2013-01-29 Adobe Systems Incorporated Clustering techniques for large, high-dimensionality data sets
CN103020288B (zh) * 2012-12-28 2016-03-02 大连理工大学 一种动态数据环境下的数据流分类方法
CN103336786B (zh) * 2013-06-05 2017-05-24 腾讯科技(深圳)有限公司 一种数据处理的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890717A (zh) * 2012-09-29 2013-01-23 北京奇虎科技有限公司 网页类别知识库的建立系统及方法
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于贝叶斯分类器的主题爬虫研究;邹永斌等;《计算机应用研究》;20090930;第26卷(第9期);3418-3420 *

Also Published As

Publication number Publication date
WO2014194640A1 (en) 2014-12-11
CN103336786A (zh) 2013-10-02

Similar Documents

Publication Publication Date Title
WO2018149345A1 (zh) 一种数据处理方法及装置
CN106980623B (zh) 一种数据模型的确定方法及装置
CN108090567A (zh) 电力通信系统故障诊断方法及装置
CN107257374A (zh) 一种区块链上的交易处理方法及系统
CN107784597A (zh) 出行方式识别方法、装置、终端设备及存储介质
CN104866465A (zh) 敏感文本检测方法及装置
WO2015027425A1 (zh) 存储数据的方法和装置
CN103679012A (zh) 一种可移植可执行文件的聚类方法和装置
CN103714004A (zh) Jvm在线内存泄露分析方法及系统
JP2010515996A5 (zh)
CN103856462A (zh) 一种会话的管理方法及系统
CN104796300A (zh) 一种数据包特征提取方法及装置
CN112364102A (zh) 一种基于区块链的大数据交易方法、装置、介质及设备
CN102819611B (zh) 一种复杂网络局部社区挖掘方法
CN103336786B (zh) 一种数据处理的方法及装置
CN109542657A (zh) 系统异常的处理方法及服务器
CN109657317A (zh) 一种cpld管脚分配的方法、系统及设备
CN108845771A (zh) 一种存储系统中配置raid的方法、系统及相关组件
CN108664322A (zh) 数据处理方法及系统
WO2021089057A1 (zh) 电池健康度的获取方法、系统、设备及可读存储介质
CN109377391A (zh) 一种信息追踪方法、存储介质和服务器
CN104461764B (zh) 一种内置crc校验码的fpga配置文件生成方法
CN112782584B (zh) 电池电量的剩余使用额度的预测方法、系统、介质及设备
Liu et al. Edge node data replica management method for distribution Internet of Things
TWI334092B (en) Data clustering method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant