CN108255880B

CN108255880B - 数据处理方法及装置

Info

Publication number: CN108255880B
Application number: CN201611250174.9A
Authority: CN
Inventors: 刘振华
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2021-08-17
Anticipated expiration: 2036-12-29
Also published as: CN108255880A

Abstract

本申请实施例提供了数据处理方法及装置，将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对；基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度；基于各属性标识ID间的相似度对待处理数据中的各属性标识ID进行分组。与现有技术中基于各属性标识ID相应的所有原始字符串数据，对待处理数据中的各属性标识ID进行分组而言，各属性标识ID间的相似度的维数远远小于各属性标识ID相应的所有原始字符串数据的维数；从而大大减少了输入分类器的数据的数量，从而降低了对分类器存储空间、处理速度以及学习能力的要求。

Description

数据处理方法及装置

技术领域

本申请涉及大数据分析技术领域，更具体的涉及数据处理方法及装置。

背景技术

分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上获得一个分类函数或构造出一个分类模型，即分类器。通过该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个，从而可以进行数据预测。总之，分类器是数据挖掘中对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。分类包括两阶段：学习阶段和分类阶段，学习阶段即构建分类模型阶段，分类阶段即使用模型来预测给定数据的类标号。例如，可以将多条独立的访问记录(cookie)(称为属性标识ID)以及各访问记录相应的IP地址(称为原始字符串数据)输入预先构建的分类器中，从而通过分类器判断出多条独立的访问记录(cookie)是否属于同一访问者等等。

现有技术中在通过分类器进行分类时，通常都会输入大量的数据，以cookie为例，因为电子设备在移动过程中，其连接的网络会发生改变，导致电子设备的IP(InternetProtocol，网络之间互连的协议)随之发生变化，使得输入分类器进行分类的每一cookie的IP地址的维度有可能达到上千万甚至上亿。从而导致对分类器的存储空间、处理速度和学习能力的要求也越来越高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。

一种数据处理方法，其特征在于，包括：

获取待处理数据中各属性标识ID及其相应的原始字符串数据；

将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对；

基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度；

基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组。

优选地，所述获取待处理数据中各属性标识ID及其相应的原始字符串数据之后，基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度之前，所述数据处理方法还包括：

将各属性标识ID及其相应的原始字符串数据对应转换成预设字典格式。

其中，所述基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度包括：

获取每一组属性标识ID对中各个属性标识ID相应的每个所述原始字符串数据出现的频率次数；

将每一组属性标识ID对相应的每个不同的原始字符串数据作为一个维度的坐标轴，得到每一组属性标识ID对所对应的原始字符串数据空间；

将所述每个不同的原始字符串数据出现的频率次数作为每一组属性标识ID对中相应的属性标识ID在相应的原始字符串数据空间的位置坐标；

依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度。

其中，所述依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度包括：

基于每个所述属性标识ID相应的位置坐标获取每一组属性标识ID对中任意两个属性标识ID间的相似度；

若该组属性标识ID对中只包括两个属性标识ID，则将该组属性标识ID对中的两个属性标识ID间的相似度作为该组属性标识ID对中各属性标识ID间的相似度；

若该组属性标识ID对中包括两个以上属性标识ID，则将该组属性标识ID对中任意两个属性标识ID间的相似度的平均值作为该组属性标识ID对中各属性标识ID间的相似度。

其中，通过如下公式计算每一组属性标识ID对中任意两个属性标识ID间的相似度：

其中，n为相应组属性标识ID对的原始字符串数据空间的维度，n为大于等于1的正整数，Ai，Bi分别表示任意两个属性标识ID在相应原始字符串数据空间中对应维度坐标轴上的位置坐标。

其中，所述将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对包括：

获取至少一个目标原始字符串数据；

从所述属性标识ID中筛选出所述至少一个目标原始字符串数据所对应的各属性标识ID；

将所述至少一个目标原始字符串数据所对应的各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对。

一种数据处理装置，包括：

第一获取模块，用于获取待处理数据中各属性标识ID及其相应的原始字符串数据；

确定模块，用于将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对；

第二获取模块，用于基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度；

分组模块，用于基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组。

优选的，还包括：

触发模块，用于在将各属性标识ID及其相应的原始字符串数据对应转换成预设字典格式后，触发所述第二获取模块。

其中，所述第二获取模块包括：

第一获取单元，用于获取每一组属性标识ID对中各个属性标识ID相应的每个所述原始字符串数据出现的频率次数；

第二获取单元，用于将每一组属性标识ID对相应的每个不同的原始字符串数据作为一个维度的坐标轴，得到每一组属性标识ID对所对应的原始字符串数据空间；

第一确定单元，用于将所述每个不同的原始字符串数据出现的频率次数作为每一组属性标识ID对中相应的属性标识ID在相应的原始字符串数据空间的位置坐标；

第二确定单元，用于依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度。

其中，所述第二确定单元包括：

获取子单元，用于基于每个所述属性标识ID相应的位置坐标获取每一组属性标识ID对中任意两个属性标识ID间的相似度；

第一确定子单元，用于若该组属性标识ID对中只包括两个属性标识ID，则将该组属性标识ID对中的两个属性标识ID间的相似度作为该组属性标识ID对中各属性标识ID间的相似度；

第二确定子单元，用于若该组属性标识ID对中包括两个以上属性标识ID，则将该组属性标识ID对中任意两个属性标识ID间的相似度的平均值作为该组属性标识ID对中各属性标识ID间的相似度。

借由上述技术方案，本发明提供的数据处理方法中，在对于各属性标识ID进行分组之前，先对各属性标识ID进行处理，具体过程如下：将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对；基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度；基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组。与现有技术中，基于各属性标识ID相应的所有所述原始字符串数据，对所述待处理数据中的各属性标识ID进行分组而言，各属性标识ID间的相似度的维数远远小于各属性标识ID相应的所有所述原始字符串数据的维数；从而大大减少了输入分类器的数据的数量，从而降低了对分类器存储空间、处理速度以及学习能力的要求。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种数据处理方法的流程示意图；

图2示出了本申请实施例提供的一种数据处理方法中基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度的一种实现方式的方法流程示意图；

图3示出了本申请实施例提供的一种数据处理方法中依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度的一种实现方式的方法流程示意图；

图4示出了本申请实施例提供的一种数据处理方法中将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID的一种实现方式的方法流程示意图；

图5示出了本申请实施例提供的一种数据处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

请参阅图1，为本申请实施例提供的一种数据处理方法的流程示意图，该方法包括：

步骤S101：获取待处理数据中各属性标识ID及其相应的原始字符串数据。

以cookie为例，对步骤S101进行说明，电子设备在移动过程中，其连接的网络会发生改变，导致电子设备的IP地址变化，而电子设备标记cookie则较为稳定，因此本申请实施例中以cookie作为属性标识ID，以IP地址作为原始字符串数据，本申请实施例中的待处理数据可以为各cookie以及各cookie相应的IP地址，具体如表1所示，各个cookie与IP地址的对应关系如下表。

表1 各个cookie与IP地址的对应关系表

Cookie	IP
		2DD1B0AFDD06B7144B1651B0576789CC	192.168.1.1
2DD1B0AFDD06B7144B1651B0576789CC	92.168.2.1
		2DD1B0AFDD06B7144B1651B0576789CC	2.168.1.1
2DD1B0AFDD06B7144B1651B0576789CC	192.168.1.1
		C1AF494CAB76C1CD096782CF2D3C6421	58.30.21.0
C1AF494CAB76C1CD096782CF2D3C6421	2.168.1.1
		……	……

通常情况下，cookie数量均为上亿级别，IP数量通常也是上亿级别(最新数据显示，中国IP总量为3.31亿)，假设实际分析中，表1中的cookie的数量为5000万条，IP总量为1000万条，则相关数据集大小为5000万行*1000万列。现有技术中输入分类器的数据中，每一条cookie对应1000万列频率次数，如表2中频率次数，频率次数是指相应属性标识ID的原始字符串数据(例如IP地址)在表1(即本申请实施例中的待处理数据)中出现的次数，表2中只示出了属性标识ID为2DD1B0AFDD06B7144B1651B0576789CC的部分原始字符串数据的频率次数，例如原始字符串数据192.168.1.1在表1中出现的次数为110次；原始字符串数据92.168.2.1在表1中出现的次数为3次；原始字符串数据2.168.1.1在表1中出现的次数为18次；原始字符串数据58.30.21.0在表1中出现的次数为0次。现有技术中的分类器通过学习5000万行*1000万列，来判断各属性标识ID(该例子中为cookie)是否属于同一用户。

表2 cookie与频率次数对应关系表

步骤S101中提及的属性标识ID相应的原始字符串数据中，优选的，不包括频率次数为0的原始字符串数据；例如属性标识ID为2DD1B0AFDD06B7144B1651B0576789CC相应的原始字符串数据不包括58.30.21.0，因为58.30.21.0对应的频率次数为0。

这是因为若频率次数为0，则该原始字符串数据对后续计算相似度的过程中，没有贡献，且可能还会增加计算相似度的复杂程度。

步骤S102：将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对。

至少两个属性标识ID的个数包括：2、3、4、5，…等等。

步骤S103：基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度。

步骤S104：基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组。

本申请实施例提供的数据处理方法中，在对于各属性标识ID进行分组之前，先对各属性标识ID进行处理，具体过程如下：将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对；基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度；基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组。与现有技术中，基于各属性标识ID相应的所有所述原始字符串数据，对所述待处理数据中的各属性标识ID进行分组而言，各属性标识ID间的相似度的维数远远小于各属性标识ID相应的所有所述原始字符串数据的维数；从而大大减少了输入分类器的数据的数量，从而降低了对分类器存储空间、处理速度以及学习能力的要求。

本申请实施例提供的数据处理方法中获取待处理数据中各属性标识ID及其相应的原始字符串数据之后，基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度之前，所述数据处理方法还包括：将各属性标识ID及其相应的原始字符串数据对应转换成预设字典格式。

可选的，预设字典格式为{属性标识ID：{原始字符串数据}}。仍以表1和表2为例，则属性标识ID为2DD1B0AFDD06B7144B1651B0576789CC的预设字典格式如下：

属性标识ID为C1AF494CAB76C1CD096782CF2D3C6421的预设字典格式如下：

多个属性标识ID的预设字典格式存储在一起时，可以采用如下格式，本申请实施例提供但不限于以下格式：

当然，预设字典格式还可以为{属性标识ID：原始字符串数据}。

请参阅图2，为本申请实施例提供的一种数据处理方法中基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度的一种实现方式的方法流程示意图，该方法包括：

步骤S201：获取每一组属性标识ID对中各个属性标识ID相应的每个所述原始字符串数据出现的频率次数。

此时预设字典格式可以为{属性标识ID：{原始字符串数据：频率次数}}。仍以表1和表2为例，则属性标识ID为2DD1B0AFDD06B7144B1651B0576789CC的预设字典格式如下：

属性标识ID为C1AF494CAB76C1CD096782CF2D3C6421的预设字典格式如下：

步骤S202：将每一组属性标识ID对相应的每个不同的原始字符串数据作为一个维度的坐标轴，得到每一组属性标识ID对所对应的原始字符串数据空间。

每一原始字符串数据空间中包含的各原始数据字符串数据不相同。

假设上述一组属性标识ID对中包含的属性标识ID的个数为2，且该组属性标识ID对所包含的两个属性标识ID分别为：2DD1B0AFDD06B7144B1651B0576789CC以及C1AF494CAB76C1CD096782CF2D3C6421，假设2DD1B0AFDD06B7144B1651B0576789CC包括3个原始字符串数据：192.168.1.1、92.168.2.1、2.168.1.1；C1AF494CAB76C1CD096782CF2D3C6421包括2个原始字符串数据：58.30.21.0、2.168.1.1，则该组属性标识ID对相应的原始字符串数据空间可以为[‘192.168.1.1’,‘92.168.2.1’,‘2.168.1.1’,‘58.30.21.0’]。其中，2DD1B0AFDD06B7144B1651B0576789CC以及C1AF494CAB76C1CD096782CF2D3C6421中均包括2.168.1.1这一原始字符串数据，但是获得原始字符串数据空间时，会对该组属性标识ID对相应的所有属性标识ID进行去重，因此该组属性标识ID对相应的原始字符串空间仅包括一个2.168.1.1，而不是2个。

若另一组属性标识ID对中的两个属性标识ID分别为：3DD1B0AFDD06B7144B1651B0576789CC以及D1AF494CAB76C1CD096782CF2D3C6421，假设3DD1B0AFDD06B7144B1651B0576789CC包括3个原始字符串数据：192.168.1.1、51.29.0.0、59.1.1.1；D1AF494CAB76C1CD096782CF2D3C6421包括3个原始字符串数据：51.29.0.0、59.1.1.1、191.168.2.0，则这一属性标识ID对相应的原始字符串数据空间为[‘192.168.1.1’,‘51.29.0.0’,‘59.1.1.1,‘191.168.2.0’]。

可以看出各组属性标识ID对相应的原始字符串数据空间的维度个数和坐标轴均有可能不同。原始字符串数据空间的维度个数即为其包含的去重后的原始字符串数据的个数。各去重后的原始字符串数据即为原始字符串数据空间的坐标轴。

步骤S203：将所述每个不同的原始字符串数据出现的频率次数作为每一组属性标识ID对中相应的属性标识ID在相应的原始字符串数据空间的位置坐标。

假设2DD1B0AFDD06B7144B1651B0576789CC与C1AF494CAB76C1CD096782CF2D3C6421为一组属性标识ID对，假设其原始字符串数据空间为[‘192.168.1.1’,‘92.168.2.1’,‘2.168.1.1’,‘58.30.21.0’]，由于2DD1B0AFDD06B7144B1651B0576789CC的原始字符串数据192.168.1.1在表1中出现的频率次数为110；原始字符串数据92.168.2.1在表1中出现的频率次数为3；原始字符串数据2.168.1.11在表1中出现的频率次数为18，所以2DD1B0AFDD06B7144B1651B05 76789CC的位置坐标为(110，3,18,0)；类似的C1AF494CAB76C1CD096782CF2D3C6421的位置坐标为(0,0,18,19)。

步骤S204：依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度。

仍以表1和表2为例，假设2DD1B0AFDD06B7144B1651B0576789CC与C1AF494CAB76C1CD096782CF2D3C6421为一组属性标识ID对，且2DD1B0AFDD06B7144B1651B05 76789CC的位置坐标为(110，3,18,0)；类似的C1AF494CAB76C1CD096782CF2D3C6421的位置坐标为(0,0,18,19)即2DD1B0AFDD06B7144B1651B0576789CC与C1AF494CAB76C1CD096782CF2D3C6421分别在3个坐标轴和2个坐标轴上的数据不为零，则该组属性标识ID对的相似度为(3,2)或2/3或3/2等等。

请参阅图3，为本申请实施例提供的一种数据处理方法中依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度的一种实现方式的方法流程示意图，该方法包括：

步骤S301：基于每个所述属性标识ID相应的位置坐标获取每一组属性标识ID对中任意两个属性标识ID间的相似度。

步骤S302：若该组属性标识ID对中只包括两个属性标识ID，则将该组属性标识ID对中的两个属性标识ID间的相似度作为该组属性标识ID对中各属性标识ID间的相似度。

可选的，可以通过如下公式计算每一组属性标识ID对中的两个属性标识ID间的相似度：

其中，n为相应组属性标识ID对的原始字符串数据空间的维度，n为大于等于1的正整数，Ai，Bi分别表示两个属性标识ID在相应原始字符串数据空间中对应维度坐标轴上的位置坐标。

仍以2DD1B0AFDD06B7144B1651B0576789CC与C1AF494CAB76C1CD096782CF2D3C6421为一组属性标识ID对为例，则该组属性标识ID对的相似度经计算为0.111。

步骤S303：若该组属性标识ID对中包括两个以上属性标识ID，则将该组属性标识ID对中任意两个属性标识ID间的相似度的平均值作为该组属性标识ID对中各属性标识ID间的相似度。

假设一组属性标识ID对中包括三个或三个以上属性标识ID时，可以采用如下方法计算相似度，假设上述至少两个属性标识ID的个数为3，且该组属性标识ID对中的3个属性标识ID分别为2DD1B0AFDD06B7144B1651B0576789CC、C1AF494CAB76C1CD096782CF2D3C6421以及3DD1B0AFDD06B7144B1651B0576789CC，则可以依据上述公式分别计算出2DD1B0AFDD06B7144B1651B0576789CC和C1AF494CAB76C1CD096782CF2D3C6421的相似度A；2DD1B0AFDD06B7144B1651B0576789CC和3DD1B0AFDD06B7144B1651B0576789CC的相似度B；C1AF494CAB76C1CD096782CF2D3C6421以及3DD1B0AFDD06B7144B 651B0576789CC的相似度C，然后将相似度A、相似度B以及相似度C的平均值，作为该组属性标识ID对中各属性标识ID间的相似度。

也可以将任意两个属性标识ID合并成一个，例如将2DD1B0AFDD06B7144B1651B0576789CC以及C1AF494CAB76C1CD096782CF2D3C6421作为一个属性标识ID，则这一属性标识ID的预设字典格式的属性信息为：

这样在计算相似度时，仍是计算两个属性标识ID之间的相似度。

综上，可以将上述三个属性标识ID中任意两个属性标识ID合并成一个属性标识ID，然后再计算另一个属性标识ID和合并后的属性标识ID的相似度，可以将此相似度作为该组属性标识ID对中各属性标识ID间的相似度。

或者，将上述三个属性标识ID中任意两个属性标识ID合并成一个属性标识ID，这样可以获得三个合并后的属性标识ID；对于每一合并后的属性标识ID，计算该合并后的属性标识ID，与另一个未合并的属性标识ID的相似度；这样可以获得三个相似度，将这三个相似度的平均值作为该组属性标识ID对中各属性标识ID间的相似度。

可以理解的是，分类器可能只需要学习包含某一个或多个原始字符串数据的属性标识ID的归属问题，如图4，为本申请实施例提供的一种数据处理方法中将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID的一种实现方式的方法流程示意图，该方法包括：

步骤S401：获取至少一个目标原始字符串数据。

步骤S402：从所述属性标识ID中筛选出所述至少一个目标原始字符串数据所对应的各属性标识ID。

步骤S403：将所述至少一个目标原始字符串数据所对应的各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对。

假设分类器需要学习在超市购买牛奶的多个顾客是不是同一顾客，以便为相应顾客推送牛奶促销广告。此时目标原始字符串数据可以为牛奶对应的原始字符串数据。再从各属性标识ID相应的属性信息中，确定出包括牛奶的原始字符串数据的属性标识ID。

还可以理解的是，一般同一顾客购买的牛奶的品牌是一样的，例如顾客A喜欢喝蒙牛的牛奶，顾客B喜欢喝天香的牛奶，此时就可以先获得包含牛奶的原始字符串数据的目的属性标识ID，然后再依据牛奶的品牌对各目的属性标识ID进行分类，最后再将分类后的目的属性标识ID中至少两个属性标识ID，确定为一属性标识ID对。例如牛奶品牌为蒙牛的属性标识ID为6个，牛奶品牌为天香的属性标识ID为7个，则将牛奶品牌为蒙牛的6个属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对；将牛奶品牌为天香的7个属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对。

可以将上述牛奶的品牌作为原始字符串的类别特征。

此时步骤S403还可以包括：依据所述目标原始字符串数据的类别特征，对各目的属性标识ID进行分类；将分类后的各目的属性标识ID中至少两个属性标识ID，确定为一组属性标识ID对。

这样可以减少输入分类器用于计算相似度的每一组属性标识ID对中包含的属性标识ID的个数，提高了每一组属性标识ID对相似度计算的效率。

步骤S403中至少两个属性标识ID可以为2个属性标识ID、3个属性标识ID，…等等。

本申请提供的上述任一数据处理方法实施例可以应用于对淘宝商品浏览数据的处理、阅读新闻内容数据的处理、垃圾邮件数据的处理等等，且没有自然语言处理技术的局限性，自然语言处理技术虽然可以大范围的分析文本数据，如文章情感分析等。但是，对于独立的短文本，如用户搜索引擎搜索词等，仍然存在着较大的局限性。另外，大量文本作为类别标记变量的存在，其文本本身并无实际意义，如商业应用中，由于隐私规则等因素，大量字符串特征在分析前均经过转码处理。如一个人的兴趣可以标记为羽毛球、爬山、健身；转码处理后标记为A、B、C，或是更复杂的哈希码-2915002772571584276，2269249065732640288，283345509073968085，转码后的字符串则是文本处理的方法毫无用处。而本申请实施例提供的数据处理方法则无此限制。

本申请实施例还提供了与上述数据处理方法相对应的数据处理装置，下面对数据处理装置中各个模块和单元进行说明，各个模块和单元的详细介绍可以参见相应数据处理方法实施例中相应步骤的介绍，这里不再赘述。

请参阅图5，为本申请实施例提供的一种数据处理装置的结构示意图，该装置包括：第一获取模块51、确定模块52、第二获取模块53以及分组模块54，其中：

第一获取模块51，用于获取待处理数据中各属性标识ID及其相应的原始字符串数据；

确定模块52，用于将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对；

第二获取模块53，用于基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度；

分组模块54，用于基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组。

可选的，上述数据处理装置实施例还可以包括：

可选的，上述数据处理装置实施例中的第二获取模块包括：

可选的，上述数据处理装置实施例中的第二确定单元包括：

可选的，上述数据处理装置实施例中的确定模块52包括：

第三获取单元，用于获取至少一个目标原始字符串数据；

筛选单元，用于从所述属性标识ID中筛选出所述至少一个目标原始字符串数据所对应的各属性标识ID；

第三确定单元，用于将所述至少一个目标原始字符串数据所对应的各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对。

所述数据处理装置包括处理器和存储器，上述第一获取模块51、确定模块52、第二获取模块53以及分组模块54等均作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序模块。内核可以设置一个或以上，通过调整内核参数来降低输入分类器数据的维度。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种数据处理装置中，在对于各属性标识ID进行分组之前，先对各属性标识ID进行处理，具体过程如下：确定模块52将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对；第二获取模块53基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度；分组模块54基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组。与现有技术中，基于各属性标识ID相应的所有所述原始字符串数据，对所述待处理数据中的各属性标识ID进行分组而言，各属性标识ID间的相似度的维数远远小于各属性标识ID相应的所有所述原始字符串数据的维数；从而大大减少了输入分类器的数据的数量，从而降低了对分类器存储空间、处理速度以及学习能力的要求。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组；

依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度；

获取至少一个目标原始字符串数据；

2.根据权利要求1所述数据处理方法，其特征在于，所述获取待处理数据中各属性标识ID及其相应的原始字符串数据之后，基于每一组属性标识ID对及其相应的所有所述原始字符串数据，获取该组属性标识ID对中包含的各属性标识ID间的相似度之前，所述数据处理方法还包括：

3.根据权利要求1所述数据处理方法，其特征在于，所述依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度包括：

若该组属性标识ID对中只包括两个属性标识ID对，则将该组属性标识ID对中的两个属性标识ID间的相似度作为该组属性标识ID对中各属性标识ID间的相似度；

4.根据权利要求3所述数据处理方法，其特征在于，通过如下公式计算每一组属性标识ID对中任意两个属性标识ID间的相似度：

5.一种数据处理装置，其特征在于，包括：

分组模块，用于基于所述各属性标识ID间的相似度对所述待处理数据中的各属性标识ID进行分组；

其中，所述第二获取模块包括：

第二确定单元，用于依据每一组属性标识ID对中各属性标识ID相应的位置坐标，确定每一组属性标识ID对中各属性标识ID间的相似度；

第三获取单元，用于获取至少一个目标原始字符串数据；

其中，所述用于将各属性标识ID中的至少两个属性标识ID，确定为一组属性标识ID对包括：

6.根据权利要求5所述数据处理装置，其特征在于，还包括：

7.根据权利要求5所述数据处理装置，其特征在于，所述第二确定单元包括：

第一确定子单元，用于若该组属性标识ID对中只包括两个属性标识ID对，则将该组属性标识ID对中的两个属性标识ID间的相似度作为该组属性标识ID对中各属性标识ID间的相似度；