CN103309984A - 数据处理的方法和装置 - Google Patents
数据处理的方法和装置 Download PDFInfo
- Publication number
- CN103309984A CN103309984A CN2013102397001A CN201310239700A CN103309984A CN 103309984 A CN103309984 A CN 103309984A CN 2013102397001 A CN2013102397001 A CN 2013102397001A CN 201310239700 A CN201310239700 A CN 201310239700A CN 103309984 A CN103309984 A CN 103309984A
- Authority
- CN
- China
- Prior art keywords
- samples
- feature
- category
- characteristic
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012163 sequencing technique Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 3
- 235000006629 Prosopis spicigera Nutrition 0.000 description 1
- 240000000037 Prosopis spicigera Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理的方法和装置,属于数据处理技术领域。所述方法包括:根据主键对样本进行排序,所述主键包括特征序号和样本序号,所述主键对应的列值为样本的特征值;以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。所述装置包括:排序模块、第一处理模块和第二处理模块。本发明极大地提高了数据的处理速度,降低了运算开销,通过两次算法模型计算,实现了快速特征选择。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据处理的方法和装置。
背景技术
随着互联网的发展,信息成爆炸式增长,需要处理的数据量也随之骤增。并且这些数据对应的特征维数高,甚至达到上亿级别,直接处理运算开销极大,因此,如何有效地对高维数的数据进行处理是迫切需要解决的问题。
MapReduce是一种分布式编程模型,用于大规模数据集的并行运算,如大于1TB的数据集的并行运算。首先,Map映射函数对杂乱无章的原始数据进行特征提取得到key-value键值对,然后经过MapReduce框架的Shuffle阶段得到归纳好的数据集合,最后由Reduce化简函数对数据集合进行并行处理得到最终结果。其中,Reduce函数每次处理的所有键值对均共享同一个键。
但是,上述处理过程中,MapReduce框架需要归纳处理的键值对数量相当大,运算开销大,耗时长,极大地影响数据处理速度。
发明内容
为了提高数据的处理速度,本发明实施例提供了一种数据处理的方法和装置。所述技术方案如下:
一方面,提供了一种数据处理的方法,包括:
根据主键对样本进行排序,所述主键包括特征序号和样本序号,所述主键对应的列值为样本的特征值;
以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;
使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。
另一方面,提供了一种数据处理的装置,包括:
排序模块,用于根据主键对样本进行排序,所述主键包括特征序号和样本序号,所述主键对应的列值为样本的特征值;
第一处理模块,用于以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;
第二处理模块,用于使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。
本发明提供的技术方案带来的有益效果是:通过根据主键对样本进行排序,以主键和对应的特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取,极大地提高了数据的处理速度,缩短了数据的处理时间,降低了运算开销,通过两次算法模型计算,实现了快速特征选择。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的数据处理的方法流程图;
图2是本发明实施例2提供的数据处理的方法流程图;
图3是本发明实施例2提供的MapReduce模型处理过程示意图;
图4是本发明实施例3提供的数据处理的装置结构图之一;
图5是本发明实施例3提供的数据处理的装置结构图之二;
图6是本发明实施例3提供的数据处理的装置结构图之三。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本实施例提供了一种数据处理的方法,包括:
101:根据主键对样本进行排序,该主键包括特征序号和样本序号,该主键对应的列值为样本的特征值;
102:以该主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;
103:使用第二算法模型对该输出键值对进行计算,得到每个特征对类别的贡献值,根据该贡献值进行特征选取。
本实施例中,所述主键是指存储所述样本的分布式数据库中一个列或者列的组合,该列或列的组合的值能够唯一地标识数据库的表中的一行。主键与对应的列值也可以看成键值对。
本实施例中的样本可以预先存储在数据库中,存储的样本可以按照类别存储,每种类别都有一个或者多个样本。特征是指与样本有关的元素,可以在一定程度上反映样本的特性,特征可以根据需要设置。其中,每个特征都具有一个特征序号,用来标识该特征,每个特征还具有一个特征值,特征值的具体数值可以按照预设的规则统计或计算得到。
本实施例中,所述第一算法模型或者所述第二算法模型具体地可以为MapReduce模型,当然,在其它实施方式下也可以采用其它算法模型,本实施例对此不做具体限定。
本实施例中,所述贡献值是指一个特征对某个类别的代表性,贡献值越高,表明该特征对该类别的代表性越强,贡献值越低,表明该特征对该类别的代表性越弱。因此,通过贡献值可以反映相应的特征是否能够代表一个类别,从而可以依据贡献值来进行特征选取。
结合上述方法,在第一种实施方式下,根据主键对样本进行排序,包括:
当该主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序;或者,
当该主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。
结合上述方法,在第二种实施方式下,使用第一算法模型计算得到每个类别中的每个特征的统计量,包括:
使用第一算法模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计。
结合上述第二种实施方式,在第三种实施方式下,对每个类别的样本进行特征值统计,包括:
对每个类别,计算属于该类别的所有样本的特征值之和;和/或,
对每个类别,计算属于该类别的所有样本的特征值的平方之和。
结合上述第二种实施方式,在第四种实施方式下,对每个类别的样本进行特征出现次数的统计,包括:
在每个类别中,对每个特征记录该特征在该类别的所有样本中特征值不为零的次数,作为该特征在该类别的样本中出现的次数。
结合上述方法,在第五种实施方式下,使用第二算法模型对该输出键值对进行计算,得到每个特征对类别的贡献值,包括:
使用第二算法模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值。
结合上述方法,在第六种实施方式下,根据该贡献值进行特征选取,包括:
按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出该确定的贡献值对应的特征。
本实施例提供的上述方法,通过根据主键对样本进行排序,以主键和对应的特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取,极大地提高了数据的处理速度,缩短了数据的处理时间,降低了运算开销,通过两次算法模型计算,实现了快速特征选择。
实施例2
参见图2,本实施例提供了一种数据处理的方法,包括:
201:根据主键对样本进行排序,该主键包括特征序号和样本序号,该主键对应的列值为样本的特征值;
本实施例中,所述主键是指存储所述样本的分布式数据库中一个列或者列的组合,该列或列的组合的值能够唯一地标识数据库的表中的一行。主键与对应的列值也可以看成键值对。本实施例中的主键为列的组合,包括特征序号和样本序号,该主键对应的列值为样本的特征值。在主键中,特征序号与样本序号的拼接顺序有两种,一种是特征序号与样本序号进行拼接,另一种是样本序号与特征序号进行拼接,本实施例对此不做具体限定。
本实施例中的样本可以预先存储在数据库中,存储的样本可以按照类别存储,每种类别都有一个或者多个样本。特征是指与样本有关的元素,可以在一定程度上反映样本的特性,特征可以根据需要设置。其中,每个特征都具有一个特征序号,用来标识该特征,每个特征还具有一个特征值,特征值的具体数值可以按照预设的规则统计或计算得到。
例如,样本为2本书,分别属于数学、体育两个类别,特征包括:篮球和公式,其中,“篮球”的特征值为该词在样本中出现的次数,对应2本书的特征值分别为:8,0;“公式”的特征值为该词在样本中出现的次数,对应2本书的特征值分别为:0,5。
本步骤中,一种实施方式下,根据主键对样本进行排序,可以包括:
当该主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序。例如,有3个样本,样本序号分别为1,2,3,有3个特征,特征序号分别为1,2,3,按照先特征序号排序后样本序号排序的方法可以得到如表1所示的排序结果。
表1
特征序号1+样本序号1 |
特征序号1+样本序号2 |
特征序号1+样本序号3 |
特征序号2+样本序号1 |
特征序号2+样本序号2 |
特征序号2+样本序号3 |
特征序号3+样本序号1 |
特征序号3+样本序号2 |
特征序号3+样本序号3 |
本步骤中,另一种实施方式下,根据主键对样本进行排序,可以包括:
当该主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。例如,有3个样本,样本序号分别为1,2,3,有3个特征,特征序号分别为1,2,3,按照先样本序号排序后特征序号排序的方法可以得到如表2所示的排序结果。
表2
样本序号1+特征序号1 |
样本序号1+特征序号2 |
样本序号1+特征序号3 |
样本序号2+特征序号1 |
样本序号2+特征序号2 |
样本序号2+特征序号3 |
样本序号3+特征序号1 |
样本序号3+特征序号2 |
样本序号3+特征序号3 |
202:以该主键和特征值为输入键值对,使用第一MapReduce模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计,并将特征序号和统计量作为输出键值对输出;
本实施例是以MapReduce模型作为算法模型进行说明的,当然,采用其它算法模型也能够实现,此处不做过多说明。
本实施例中,第一MapReduce模型使用Map映射函数和Reduce化简函数来进行数据处理。其中,Map映射函数对主键对应的特征值进行计算得到中间值,该中间值包括但不限于:特征值本身、特征值的平方值、特征值是否为零的计数值等等,如特征值为零则计数值为零,特征值不为零则计数值为1,本实施例对此不做具体限定。MapReduce框架将Map函数输出的具有相同特征序号的中间值,归纳为中间值集合输出给Reduce函数。Reduce函数对中间值集合中的中间值进行统计,如特征值的求和、特征值平方值的求和、计数值的求和等等,统计后得到每个特征的统计量,并将特征序号与该统计量作为输出键值对输出。进一步地,Reduce函数还可以将该输出键值对存储到上述数据库中。其中,该输出键值对中特征序号作为键key,统计量作为与该键对应的值value。所述第一MapReduce模型中的Map函数可以为多个,Reduce函数也可以为多个。每个Reduce函数处理的键值对均共享同一个键。
例如,参见图3,为第一MapReduce模型的处理过程示意图。其中,3个样本的9条记录分别输入到2个Map函数中,主键作为输入的键,由特征序号和样本序号拼接组成,且在输入至Map函数前已经对主键进行了排序如图所示。经Map函数计算各个特征值的平方以及特征值是否为零的计数值后,得到的中间值由MapReduce框架按照特征序号归纳为中间集合,对于Mapper1函数输出的键值对归纳后得到“特征序号1”及对应的“中间集合1”,以及“特征序号2”及对应的“中间集合2_1”;对于Mapper2函数输出的键值对归纳后得到“特征序号2”及对应的“中间集合2_2”,以及“特征序号3”及对应的“中间集合3”。其中,“特征序号1”及对应的“中间集合1”输入到Reducer1函数中进行统计量的计算,如将该中间集合1中的所有样本的特征值累加,或者,将该中间集合1中的所有样本的特征值平方累加,或者,将该中间集合中的所有样本的计数值累加等等,得到统计量1,并将特征序号1与对应的统计量1作为输出键值对输出。类似的,Reducer2函数和Reducer3函数也进行统计量的计算,并将特征序号与对应的统计量作为输出键值对输出。
由上述例子可以明显看出,MapReduce框架对Map函数的输出进行归纳处理的过程中,由于作为Map函数的输入的主键已经是排序后的主键,因此,降低了合并整理的中间数据量,减少了合并的次数,提高了数据处理的速度。
步骤202中,对每个类别的样本进行特征值统计,可以包括:
以M个样本,特征维数为N为例进行说明,其中,M个样本属于W个类别,j=1,2,…,W;属于第j个类别的样本i的第f个特征的特征值为f=1,2,…,N。具体地,一个样本只可能属于一个类别,不会同时属于多个类别,一个类别中可以包括多个样本,所述可以用如下公式来计算:
步骤202中,对每个类别的样本进行特征出现次数的统计,可以包括:
在每个类别j中,对每个特征f记录该特征f在该类别j的所有样本中特征值不为零的次数,作为该特征在该类别的样本中出现的次数
本实施例以计算上述三个统计量中的至少一个为例进行说明,在实际应用中,可以任意组合这三个统计量,当然,在其它实施方式中,也可以计算其它的统计量,或者,将其它统计量与上述三个统计量进行任意的组合,本实施例对此不做具体限定。
203:使用第二MapReduce模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值;
其中,所述第一MapReduce模型的输出键值对作为第二MapReduce模型的输入键值对,键为特征序号,值为统计量。
本实施例中,所述贡献值是指一个特征对某个类别的代表性,贡献值越高,表明该特征对该类别的代表性越强,贡献值越低,表明该特征对该类别的代表性越弱。因此,通过贡献值可以反映相应的特征是否能够代表一个类别,从而可以依据贡献值来进行特征选取。
所述第二MapReduce模型计算贡献值rankf的公式可以有多种,包括但不限于:
204:根据得到的贡献值进行特征选取。
具体地,本步骤可以包括:
按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出该确定的贡献值对应的特征。
所述指定个数可以根据需要设置,具体数值本实施例对此不做限定。例如,所述指定个数为T,可以将得到的贡献值按照从大到小的顺序排序,然后选出前面T个贡献值,将该T个贡献值对应的特征选出作为最终结果。
本实施例中,第二MapReduce模型使用Map函数和Reduce函数进行数据处理。其中,Map函数的输入为上述特征序号和对应的统计量,Map函数根据所述统计量进行计算得到每个特征对类别的贡献值,并将特征序号作为key,将贡献值作为value输出。Reduce函数对Map函数输出的所有贡献值进行排序,根据排序的结果在所有特征中选取需要的特征,得到最终结果。所述第二MapReduce模型的Map函数可以使用上述公式(4)来计算贡献值,当然,也可以使用其它公式来计算贡献值,本实施例对此不做具体限定。
本实施例提供的上述方法,通过根据主键对样本进行排序,以主键和对应的特征值为输入键值对,使用第一MapReduce模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;使用第二MapReduce模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取,极大地提高了数据的处理速度,缩短了数据的处理时间,降低了运算开销,通过两次MapReduce模型计算,实现了快速特征选择。
实施例3
参见图4,本实施例提供了一种数据处理的装置,包括:
排序模块401,用于根据主键对样本进行排序,该主键包括特征序号和样本序号,该主键对应的列值为样本的特征值;
第一处理模块402,用于以该主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;
第二处理模块403,用于使用第二算法模型对该输出键值对进行计算,得到每个特征对类别的贡献值,根据该贡献值进行特征选取。
本实施例中,所述主键是指存储所述样本的分布式数据库中一个列或者列的组合,该列或列的组合的值能够唯一地标识数据库的表中的一行。主键与对应的列值也可以看成键值对。本实施例中的主键包括特征序号和样本序号,该主键对应的列值为样本的特征值。
本实施例中,所述第一算法模型或者所述第二算法模型具体地可以为MapReduce模型,当然,在其它实施方式下也可以采用其它算法模型,本实施例对此不做具体限定。
本实施例中的样本可以预先存储在数据库中,存储的样本可以按照类别存储,每种类别都有一个或者多个样本。特征是指与样本有关的元素,可以在一定程度上反映样本的特性,特征可以根据需要设置。其中,每个特征都具有一个特征序号,用来标识该特征,每个特征还具有一个特征值,特征值的具体数值可以按照预设的规则统计或计算得到。
本实施例中,所述贡献值是指一个特征对某个类别的代表性,贡献值越高,表明该特征对该类别的代表性越强,贡献值越低,表明该特征对该类别的代表性越弱。因此,通过贡献值可以反映相应的特征是否能够代表一个类别,从而可以依据贡献值来进行特征选取。
结合上述装置,在第一种实施方式下,排序模块401包括:
第一排序单元,用于当该主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序;或者,
第二排序单元,用于当该主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。
参见图5,结合上述装置,在第二种实施方式下,第一处理模块402包括:
统计单元402a,用于使用第一算法模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计。
结合上述第二种实施方式,在第三种实施方式下,统计单元402a用于:
对每个类别,计算属于该类别的所有样本的特征值之和;和/或,
对每个类别,计算属于该类别的所有样本的特征值的平方之和。
结合上述第二种实施方式,在第四种实施方式下,统计单元402a用于:
在每个类别中,对每个特征记录该特征在该类别的所有样本中特征值不为零的次数,作为该特征在该类别的样本中出现的次数。
参见图6,结合上述装置,在第五种实施方式下,第二处理模块403包括:
计算单元403a,用于使用第二算法模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值。
结合上述装置,在第六种实施方式下,第二处理模块403包括:
选取单元403b,用于按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出该确定的贡献值对应的特征。
本实施例提供的上述装置可以执行上述任一方法实施例中提供的方法,详细过程见方法实施例中的描述,此处不赘述。
本实施例提供的上述装置,通过根据主键对样本进行排序,以主键和对应的特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取,极大地提高了数据的处理速度,缩短了数据的处理时间,降低了运算开销,通过两次算法模型计算,实现了快速特征选择。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种数据处理的方法,其特征在于,所述方法包括:
根据主键对样本进行排序,所述主键包括特征序号和样本序号,所述主键对应的列值为样本的特征值;
以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;
使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。
2.根据权利要求1所述的方法,其特征在于,根据主键对样本进行排序,包括:
当所述主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序;或者,
当所述主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。
3.根据权利要求1所述的方法,其特征在于,使用第一算法模型计算得到每个类别中的每个特征的统计量,包括:
使用第一算法模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计。
4.根据权利要求3所述的方法,其特征在于,对每个类别的样本进行特征值统计,包括:
对每个类别,计算属于该类别的所有样本的特征值之和;和/或,
对每个类别,计算属于该类别的所有样本的特征值的平方之和。
5.根据权利要求3所述的方法,其特征在于,对每个类别的样本进行特征出现次数的统计,包括:
在每个类别中,对每个特征记录所述特征在该类别的所有样本中特征值不为零的次数,作为所述特征在该类别的样本中出现的次数。
6.根据权利要求1所述的方法,其特征在于,使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,包括:
使用第二算法模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值。
7.根据权利要求1所述的方法,其特征在于,根据所述贡献值进行特征选取,包括:
按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出所述确定的贡献值对应的特征。
8.一种数据处理的装置,其特征在于,所述装置包括:
排序模块,用于根据主键对样本进行排序,所述主键包括特征序号和样本序号,所述主键对应的列值为样本的特征值;
第一处理模块,用于以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;
第二处理模块,用于使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。
9.根据权利要求8所述的装置,其特征在于,所述排序模块包括:
第一排序单元,用于当所述主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序;或者,
第二排序单元,用于当所述主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。
10.根据权利要求8所述的装置,其特征在于,所述第一处理模块包括:
统计单元,用于使用第一算法模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计。
11.根据权利要求10所述的装置,其特征在于,所述统计单元用于:
对每个类别,计算属于该类别的所有样本的特征值之和;和/或,
对每个类别,计算属于该类别的所有样本的特征值的平方之和。
12.根据权利要求10所述的装置,其特征在于,所述统计单元用于:
在每个类别中,对每个特征记录所述特征在该类别的所有样本中特征值不为零的次数,作为所述特征在该类别的样本中出现的次数。
13.根据权利要求8所述的装置,其特征在于,所述第二处理模块包括:
计算单元,用于使用第二算法模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值。
14.根据权利要求8所述的装置,其特征在于,所述第二处理模块包括:
选取单元,用于按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出所述确定的贡献值对应的特征。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310239700.1A CN103309984B (zh) | 2013-06-17 | 2013-06-17 | 数据处理的方法和装置 |
PCT/CN2013/090441 WO2014201833A1 (en) | 2013-06-17 | 2013-12-25 | Method and device for processing data |
US14/294,989 US20140372457A1 (en) | 2013-06-17 | 2014-06-03 | Method and device for processing data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310239700.1A CN103309984B (zh) | 2013-06-17 | 2013-06-17 | 数据处理的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103309984A true CN103309984A (zh) | 2013-09-18 |
CN103309984B CN103309984B (zh) | 2016-12-28 |
Family
ID=49135202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310239700.1A Active CN103309984B (zh) | 2013-06-17 | 2013-06-17 | 数据处理的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103309984B (zh) |
WO (1) | WO2014201833A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014201833A1 (en) * | 2013-06-17 | 2014-12-24 | Tencent Technology (Shenzhen) Company Limited | Method and device for processing data |
CN105138527A (zh) * | 2014-05-30 | 2015-12-09 | 华为技术有限公司 | 一种数据分类回归方法及装置 |
CN105224690A (zh) * | 2015-10-30 | 2016-01-06 | 上海达梦数据库有限公司 | 生成并选择对应含参语句的执行计划的方法及系统 |
CN109388371A (zh) * | 2018-09-26 | 2019-02-26 | 中兴飞流信息科技有限公司 | 一种数据的排序方法、系统、协处理装置和主处理装置 |
CN109522197A (zh) * | 2018-11-23 | 2019-03-26 | 浙江每日互动网络科技股份有限公司 | 一种用户app行为的预测方法 |
CN112612786A (zh) * | 2020-11-24 | 2021-04-06 | 北京思特奇信息技术股份有限公司 | 一种大数据量的行列转换方法及系统 |
CN112749235A (zh) * | 2019-10-31 | 2021-05-04 | 北京金山云网络技术有限公司 | 解析分类结果的方法、装置及电子设备 |
CN113822384A (zh) * | 2021-11-23 | 2021-12-21 | 深圳市裕展精密科技有限公司 | 数据分析方法、装置、计算机设备、存储介质及程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054006A (zh) * | 2009-11-10 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
CN102147813A (zh) * | 2011-04-07 | 2011-08-10 | 江苏省电力公司 | 一种电力云环境下基于k最近邻算法的文档自动分类方法 |
WO2012151054A1 (en) * | 2011-05-05 | 2012-11-08 | Alcatel Lucent | Scheduling in mapreduce-like systems for fast completion time |
CN102999588A (zh) * | 2012-11-15 | 2013-03-27 | 广州华多网络科技有限公司 | 一种多媒体应用的推荐方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243664B (zh) * | 2011-08-22 | 2013-04-03 | 西北大学 | 一种复合字段的数据存储及查询方法 |
CN103309984B (zh) * | 2013-06-17 | 2016-12-28 | 腾讯科技(深圳)有限公司 | 数据处理的方法和装置 |
-
2013
- 2013-06-17 CN CN201310239700.1A patent/CN103309984B/zh active Active
- 2013-12-25 WO PCT/CN2013/090441 patent/WO2014201833A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054006A (zh) * | 2009-11-10 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
CN102147813A (zh) * | 2011-04-07 | 2011-08-10 | 江苏省电力公司 | 一种电力云环境下基于k最近邻算法的文档自动分类方法 |
WO2012151054A1 (en) * | 2011-05-05 | 2012-11-08 | Alcatel Lucent | Scheduling in mapreduce-like systems for fast completion time |
CN102999588A (zh) * | 2012-11-15 | 2013-03-27 | 广州华多网络科技有限公司 | 一种多媒体应用的推荐方法和系统 |
Non-Patent Citations (1)
Title |
---|
曹羽中: ""用Hadoop进行分布式并行编程,第2部分"", 《HTTPS://WWW.IBM.COM/DEVELOPERWORKS/CN/OPENSOURCE/OS-CN-HADOOP2/》, 22 May 2008 (2008-05-22) * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014201833A1 (en) * | 2013-06-17 | 2014-12-24 | Tencent Technology (Shenzhen) Company Limited | Method and device for processing data |
CN105138527A (zh) * | 2014-05-30 | 2015-12-09 | 华为技术有限公司 | 一种数据分类回归方法及装置 |
CN105138527B (zh) * | 2014-05-30 | 2019-02-12 | 华为技术有限公司 | 一种数据分类回归方法及装置 |
CN105224690A (zh) * | 2015-10-30 | 2016-01-06 | 上海达梦数据库有限公司 | 生成并选择对应含参语句的执行计划的方法及系统 |
CN105224690B (zh) * | 2015-10-30 | 2019-06-18 | 上海达梦数据库有限公司 | 生成并选择对应含参语句的执行计划的方法及系统 |
CN109388371A (zh) * | 2018-09-26 | 2019-02-26 | 中兴飞流信息科技有限公司 | 一种数据的排序方法、系统、协处理装置和主处理装置 |
CN109522197A (zh) * | 2018-11-23 | 2019-03-26 | 浙江每日互动网络科技股份有限公司 | 一种用户app行为的预测方法 |
CN112749235A (zh) * | 2019-10-31 | 2021-05-04 | 北京金山云网络技术有限公司 | 解析分类结果的方法、装置及电子设备 |
CN112749235B (zh) * | 2019-10-31 | 2024-07-05 | 北京金山云网络技术有限公司 | 解析分类结果的方法、装置及电子设备 |
CN112612786A (zh) * | 2020-11-24 | 2021-04-06 | 北京思特奇信息技术股份有限公司 | 一种大数据量的行列转换方法及系统 |
CN113822384A (zh) * | 2021-11-23 | 2021-12-21 | 深圳市裕展精密科技有限公司 | 数据分析方法、装置、计算机设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2014201833A1 (en) | 2014-12-24 |
CN103309984B (zh) | 2016-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103309984B (zh) | 数据处理的方法和装置 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
CN106997408A (zh) | 电路验证 | |
US11841839B1 (en) | Preprocessing and imputing method for structural data | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN106055613A (zh) | 一种基于混合范数的数据分类训练数据库清洗方法 | |
CN103077228B (zh) | 一种基于集合特征向量的快速聚类方法和装置 | |
CN104636407A (zh) | 参数取值训练及搜索请求处理方法和装置 | |
CN103744889A (zh) | 一种用于对问题进行聚类处理的方法与装置 | |
CN105488212A (zh) | 一种重复数据的数据质量检测方法及装置 | |
CN105989066A (zh) | 一种信息处理方法和装置 | |
CN103309857A (zh) | 一种分类语料确定方法和设备 | |
CN117725437B (zh) | 一种基于机器学习的数据精准匹配分析方法 | |
CN110874366B (zh) | 数据处理、查询方法和装置 | |
CN111784246B (zh) | 物流路径的估测方法 | |
CN110929301B (zh) | 一种基于提升算法的硬件木马检测方法 | |
CN106874286B (zh) | 一种筛选用户特征的方法及装置 | |
CN105786929B (zh) | 一种信息监测方法及装置 | |
CN108959237B (zh) | 一种文本分类方法、装置、介质及设备 | |
US20140372457A1 (en) | Method and device for processing data | |
CN110968690B (zh) | 词语的聚类划分方法和装置、设备以及存储介质 | |
CN106897301A (zh) | 一种搜索质量的评测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |