CN109583473A

CN109583473A - 一种特征数据的生成方法及装置

Info

Publication number: CN109583473A
Application number: CN201811294929.4A
Authority: CN
Inventors: 陈露佳; 唐渝洲; 王维强; 赵闻飙
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-04-05

Abstract

本说明书提供一种特征数据的生成方法及装置，将待处理数据进行属性转换，将转换后的数据进行数据拼接，并对获得的拼接数据进行哈希映射，利用哈希映射后的特征值进行特征筛选，筛选出属性特征比较显著的特征数据。能够快速的寻找出具备显著性的属性类特征或属性类衍生特征，该特征具备很强的可解释性，能够供业务专家理解并快速运营至业务中。同时，本说明书实施例采用的Hash方法能够将数据进行快速的转换，实现了一种轻量级的暴力衍生实现方法，使得所有的属性及其枚举都能够在输入特征范围内，保证特征的完备性，提高了特征数据生成的准确性。

Description

一种特征数据的生成方法及装置

技术领域

本说明书属于计算机技术领域，尤其涉及一种特征数据的生成方法及装置。

背景技术

特征数据可以表示原始数据中具有一定物理意义的数据，特征数据可以用于数据分析、模型建设、策略建设等中。目前在一个完整的数据分析、模型建设、策略建设流程中，特征工程的时间占比通常比较大。因此，特征数据的自动生成在数据分析、模型建设、策略建设中是一项比较重要的技术。

现有技术中，特征数据的生成方法通常使用决策树、随机森林的方式，这些方法可能会导致一些属性的枚举无法被选中，使得特征数据生成的准确性不高，或者对于物理空间要求较高，运行效率比较低等，影响数据处理效率。

发明内容

本说明书实施例提供的一种特征数据的生成方法、装置、处理设备及系统是通过包括以下的实施方式实现的：

一方面本说明书实施例提供了一种特征数据的生成方法，包括：

将待处理数据转换成属性类变量；

将不同的所述属性类变量进行拼接，获得拼接数据；

利用哈希函数将所述拼接数据进行哈希映射，确定出所述拼接数据对应的第一特征值；

根据所述拼接数据以及所述拼接数据对应的第一特征值，对所述拼接数据进行筛选，筛选出所述待处理数据的特征数据。

另一方面，本说明书提供了一种特征数据的生成装置，包括：

数据转换模块，用于将待处理数据转换成属性类变量；

数据拼接模块，用于将不同的所述属性类变量进行拼接，获得拼接数据；

哈希映射模块，用于利用哈希函数将所述拼接数据进行哈希映射，确定出所述拼接数据对应的第一特征值；

特征筛选模块，用于根据所述拼接数据以及所述拼接数据对应的第一特征值，对所述拼接数据进行筛选，筛选出所述待处理数据的特征数据。

还一方面，本说明书提供了特征数据生成的处理设备，包括：至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现本说明书实施例中记载的特征数据生成方法。

再一方面，本说明书提供了一种特征数据的生成系统，包括至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现本说明书实施例中记载的特征数据生成方法。

本说明书提供的特征数据生成方法、装置、处理设备、系统，将待处理数据进行属性转换，将转换后的数据进行数据拼接，并对获得的拼接数据进行哈希映射，利用哈希映射后的特征值进行特征筛选，筛选出属性特征比较显著的特征数据。能够快速的寻找出具备显著性的属性类特征或属性类衍生特征，该特征具备很强的可解释性，能够供业务专家理解并快速运营至业务中。同时，本说明书实施例采用的Hash(哈希算法)方法能够将数据进行快速的转换，实现了一种轻量级的暴力衍生实现方法，使得所有的属性及其枚举都能够在输入特征范围内，保证特征的完备性，提高了特征数据生成的准确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书一个实施例中特征数据生成方法的流程示意图；

图2是本说明书一个实施例中对筛选出的特征数据进行再次筛选的流程示意图；

图3是本说明书又一个实施例中特征数据生成方法的流程示意图；

图4是本说明书提供的特征数据生成装置一个实施例的模块结构示意图；

图5是本说明书又一个实施例中特征数据生成装置的模块结构示意图；

图6是应用本申请实施例的特征数据生成服务器的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

随着计算机和互联网技术的发展，数据分析、模型建设、策略建设等逐渐成为业务处理中一项比较关键的技术。在数据分析、模型建设、策略建设的过程中，特征工程是一项重要的工作。特征工程指的是把原始数据转变为数据分析、模型建设、策略建设等所需训练数据的过程，它的目的就是获取更好的训练数据特征。

本说明书实施例中提供了一种特征数据的生成方法，将原始数据进行塑形转换、数据拼接后，利用哈希算法，能够快速的找出具备显著性的属性类特征的数据或属性类衍生特征的数据，该特征数据具备很强的可解释性，能够供业务专家理解并快速运营至业务中。同时，利用哈希算法能够将数据进行快速的转换，实现了一种轻量级的暴力衍生实现方法，使得所有的属性及其枚举都能够在输入特征范围内，保证特征的完备性，提高了特征数据生成的准确性。

本说明书中特征数据生成方法可以应用在客户端或服务器中，客户端可以是智能手机、平板电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)、智能车载设备等电子设备。

具体的，图1是本说明书一个实施例中特征数据生成方法的流程示意图，如图1所示，本说明书一个实施例中提供的特征数据生成方法的整体过程可以包括：

步骤102、将待处理数据转换成属性类变量。

待处理数据可以表示需要进行特征生成的数据，可以包括多条数据，例如：若要分析某网站的浏览人群特征，待处理数据可以包括在预设时间段内浏览该网站的人群的数据(浏览者的用户标识、浏览时间、浏览内容等)，本说明书实施例不作具体限定。属性是指事物在任何条件下具有的性质，如运动是物体的属性，因为一切物体都在运动；质量是物体的属性，因为质量不随形状、温度、状态、位置等改变。属性类变量可以表征待处理数据中包含的一种属性如：身份属性(学生、白领、工人、农民工等)、学历属性(小学、初中、高中、本科、硕士等)、性别属性(男、女)等。本说明书一个实施例可以根据待处理数据具体的属性特征，将待处理数据转换为属性类变量。例如：待处理数据中包括不同消费者的身份数据，可以根据消费者的身份特征，根据消费者的身份数据，确定出消费者身份，将消费者的身份数据转换为对应的学生、白领、农民工等。在进行属性类变量的转换时，可以结合专家经验，分析不同的数据具备的属性，设置不同的转换规则，按照转换规则将待处理数据转换成属性类变量。

本说明书一个实施例中，所述将待处理数据转换成属性类变量，可以包括：

若所述待处理数据为数值型数据，则将所述待处理数据进行离散化，获得所述待处理数据的属性类变量；

若所述待处理数据为字符型数据，则将所述待处理数据进行正则化处理，获得所述待处理数据的属性类变量。

在具体的实施过程中，若待处理数据为数值型数据(即可以使用数字直接表示的数据，如：年龄)，数值型数据通常情况下属于连续型数据，如：年龄可以有0-100岁等，待处理数据中可能包含不同的年龄数据。可以将数值型数据根据数据数值在不同取值时具备的属性，对数值型数据进行离散化，如：将年龄进行分段，按照年龄从小到大，将处于不同年龄段的年龄数据转换为年龄段如：幼年、青年、成年、老年。例如：0-10岁的转换为幼年，11-18岁的转换为青年，19-40岁的转换为成年，40以上的转换为老年。

可以根据数值型数据的属性特征，进行自动化的离散化处理，如：等频离散化或等值离散化。等频离散化可以表示把观察点均匀分为n等份，每份内包含的观察点数相同。例如：客户订阅刊物的时间是一个连续型变量，可以从几天到几年，设某杂志订户共有5万人，等频分段需要先把订户按订阅时间按顺序排列，排列好后可以按5000人一组，把全部订户均匀分为十段。等值离散化也可以称为等距离散化，可以表示将连续型变量的取值范围均匀划成n等份，每份的间距相等。例如，客户订阅刊物的时间是一个连续型变量，可以从几天到几年。采取等距切分可以把1年以下的客户划分成一组，1-2年的客户为一组，2-3年为一组，以此类分，组距都是一年。当然，根据实际使用需要，还可以采用其他的方式将数值型数据进行离散化，如：根据专家经验、先验知识等设置指定的转换规则，进行数据的转换，本说明书实施例不作具体限定。

若待处理数据为字符型数据，如：用户使用的设备标识、浏览的网址等包含字符的数据，则可以对字符型数据进行正则化处理，正则化可以表示对最小化经验误差函数上加约束，这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。例如：将字符型数据中的无效字符(如：逗号等)删除，或按照指定的规则将指定的字符转换为统一设置好的字符等，或者按照指定的规则将字符统一转换成其他的字符或数字等。正则化处理的具体过程可以根据实际需要进行设置，本说明书实施例不作具体限定。

待处理数据可以包括多条数据，可以分别将每一条待处理数据转换为不同的属性类变量，如：上述实施例中的待处理数据包括在预设时间段内浏览该网站的人群的数据具体包括：浏览者的用户标识、浏览时间、浏览内容等，可以分别将浏览者的用户标识、浏览时间、浏览内容等转换为对应的属性类变量。

本说明书实施例根据待处理数据的数据类型，按照预设的规则，进行数据转换，为后续特征的生成奠定了准确的数据基础。

步骤104、将不同的所述属性类变量进行拼接，获得拼接数据。

将待处理数据进行数据转换后，获得了不同的属性类变量，可以将不同的属性类变量进行拼接，拼成一条比较完整的数据，获得拼接数据。例如：若待处理数据中包括不同用户的交易数据，具体包括：用户的性别、年龄、交易商品、用户标识等，可以分别将不同用户的性别、年龄、交易类目、用户标识进行数据转换，获得对应的属性类标量。再按照用户的用户标识将同一个用户的交易数据进行拼接，例如：用户A的性别-女，年龄-60岁，交易商品-洗衣液，用户标识-XXXX，进行数据转换后，年龄转换为属性类变量-老年，交易商品转换为-日用品，则可以根据用户A的用户标识将用户A的数据进行拼接，获得拼接数据“女老年日用品”。

当然，根据实际需要还可以设置拼接规则，将属性类变量按照设置的拼接规则进行拼接，拼接规则可以包括：数据的拼接顺序、拼接时两个数据之间是否需要添加指定的拼接字符、拼接的维度(即将哪几个变量进行拼接)等，本说明书不作具体限定。

步骤106、利用哈希函数将所述拼接数据进行哈希映射，确定出所述拼接数据对应的第一特征值。

获得拼接数据后，可以利用哈希函数，将拼接数据进行哈希映射，映射成对应的数字即第一特征值，可以将第一特征值看作一个高维稀疏向量。哈希映射能够快速的将新的属性枚举进行数据的转换，从而避免one-hot类空间占用较大的转换。one-hot可以表示将属性变量进行0-1转换的一种方法，如：属性为男、女，那么one-hot就变为是否是男，以及是否是女两个0-1字段。哈希映射时使用的哈希函数可以根据实际需要进行选择，例如：可以选择BKDRHash，APHash，DJBHash等字符哈希算法。

步骤108、根据所述拼接数据以及所述拼接数据对应的第一特征值，对所述拼接数据进行筛选，筛选出所述待处理数据的特征数据。

将拼接数据进行哈希映射后，可以根据拼接数据以及拼接数据对应的第一特征值，对拼接数据进行特征筛选，筛选出具有显著性属性的特征数据。特征选择是特征工程的一项比较重要的环节，本说明书实施例中特征数据的筛选方法可以根据实际需要进行选择，例如：皮尔森相关系数法、最大信息系数法、利用线性模型和正则化进行特征筛选的方法等。

本说明书一个实施例中，可以利用使用L1范数正则化对所述拼接数据进行筛选，筛选出特征数据。L1范数正则化是机器学习中重要的手段，在支持向量机学习过程中，实际是一种对于成本函数求解最优的过程。L1范数正则化通过向成本函数中添加L1范数，使得学习得到的结果满足稀疏化，从而方便人们提取特征数据。例如：可以根据拼接数据以及拼接数据对应的第一特征值，构建出目标函数，再利用L1范数正则化对目标函数进行优化，筛选出属性特征比较明显的拼接数据作为特征数据。L1范数正则化可以实现特征数据的准确筛选，当然，根据实际需要还可以选择其他的特征筛选方法，本说明书实施例不作具体限定。

本说明书实施例中提供的特征数据生成方法，将待处理数据进行属性转换，将转换后的数据进行数据拼接，并对获得的拼接数据进行哈希映射，利用哈希映射后的特征值进行特征筛选，筛选出属性特征比较显著的特征数据。能够快速的寻找出具备显著性的属性类特征或属性类衍生特征，该特征具备很强的可解释性，能够供业务专家理解并快速运营至业务中。同时，本说明书实施例采用的Hash方法能够将数据进行快速的转换，实现了一种轻量级的暴力衍生实现方法，使得所有的属性及其枚举都能够在输入特征范围内，保证特征的完备性，提高了特征数据生成的准确性。

在上述实施例的基础上，所述方法还包括：

判断所述特征数据的第一特征值是否唯一，若不唯一，则将所述第一特征值不唯一的特征数据作为待选特征数据；

更新所述哈希函数，利用更新后的哈希函数对所述待选特征数据进行哈希映射，确定出所述待选特征数据对应的第二特征值；

根据所述待选特征数据以及所述待选特征数据对应的第二特征值，对所述待选特征数据进行筛选，获得筛选后特征数据；

将所述筛选后特征数据和所述第一特征值唯一的特征数据作为筛选出的特征数据。

在具体的实施过程中，根据哈希映射后的结果对拼接数据进行特征筛选后，筛选出特征数据，可以根据特征数据对应的哈希映射的结果即第一特征值，判断特征数据是否唯一即第一特征值是否唯一。即判断筛选出的特征数据中是否存在重复的第一特征值，若存在，则将第一特征值相同的特征数据作为待选特征数据，进行再次哈希映射和特征筛选，并且第二次哈希映射的哈希函数与第一次哈希映射使用的哈希函数不同。

本说明书实施例，通过二次哈希映射和特征筛选，提高筛选出的特征数据的唯一性，避免一次哈希映射将不同的属性数据映射至同一个特征值中，以至于无法得知真正有效的属性特征，也避免了仅仅使用一次哈希映射，导致筛选出的特征数据具有一定的偶然性，提高了特征数据筛选的准确性。

在上述实施例的基础上，本说明书一个实施例中，所述方法还包括：

判断所述筛选后特征数据的第二特征值是否唯一，若不唯一，则将所述第二特征值不唯一的筛选后特征数据作为待选特征数据；

更新所述哈希函数，利用更新后的哈希函数对所述待选特征数据进行哈希映射和筛选，直至筛选后特征数据对应的第二特征值唯一，将第二特征值唯一的筛选后特征数据、第一特征值唯一的特征数据作为筛选出的特征数据。

在具体的实施过程中，根据哈希映射后的结果对拼接数据进行特征筛选后，筛选出特征数据，可以根据特征数据对应的哈希映射的结果即第一特征值，判断特征数据是否唯一。即判断筛选出的特征数据中是否存在重复的第一特征值，若存在，则将第一特征值相同的特征数据作为待选特征数据，进行再次哈希映射和特征筛选。并判断再次筛选的特征数据对应的再次哈希映射的特征值是否存在重复，若存在，则重复上述动作，继续进行新的哈希映射和特征筛选，直至筛选出的特征数据唯一。图2是本说明书一个实施例中对筛选出的特征数据进行再次筛选的流程示意图，如图2所示，本说明书一个实施例中特征数据的筛选过程可以包括如下过程：

步骤201、获得特征数据。即利用上述实施例的方法，对待处理数据进行属性转换、数据拼接后，对拼接数据进行哈希映射，基于哈希映射的结果对拼接数据进行特征筛选，获得特征数据。

步骤202、特征数据唯一性验证。即根据步骤201中的哈希映射结果，判断筛选出的特征数据对应的第一特征值是否有相同的，例如：经过步骤201的筛选后，确定拼接数据A和拼接数据B为特征数据，拼接数据A对应的第一特征值为1，拼接数据B对应的第一特征值也是1，则可以认为拼接数据A和拼接数据B对应的第一特征值不唯一。若筛选出的特征数据不唯一，则执行步骤203，若特征数据唯一，即特征数据对应的第一特征值与其他特征数据的第一特征值均不同，则执行步骤206。

步骤203、将不唯一的特征数据作为待选特征数据。即可以将第一特征值重复的特征数据存入再处理变量池中，继续进行数据处理。如上述实施例中，将拼接数据A和拼接数据B加入再处理变量池中，等待后续的处理。

步骤204、更新哈希函数，利用更新后的哈希函数对待选特征数据进行哈希映射。本说明书实施例中，在每一次对不唯一的特征数据进行哈希映射时，使用的哈希函数均与上一次哈希映射使用的哈希函数不同，哈希函数的选择，可以根据实际需要进行，本说明书实施例不作具体限定。利用更新后的哈希函数，可以获得待选特征数据对应的哈希映射值，本说明书实施例中可以将更新后的哈希函数映射出的哈希值作为待选特征数据的第二特征值，还可以将每一次进行哈希映射的特征值进行叠加作为待选特征数据的第二特征值，或者将部分哈希映射的特征值叠加作为第二特征值。例如：特征数据A、B的第一次哈希映射值均为1，即第一特征值为1，则将特征数据A、B均进行第二次哈希映射，第二次哈希映射的使用的哈希函数与第一次哈希映射使用的哈希函数不同。进行第二次哈希映射时，确定出特征数据A的哈希映射值为2，特征数据B的哈希映射值为3，则可以将第二次的哈希映射值与第一次的哈希映射值进行叠加，作为特征数据A、B的特征值即第二特征值，如：特征数据A的第二特征值为12，特征数据B的第二特征值为13。当然，还可以设置叠加规则，如每次哈希映射值之间添加“-”或“.”等连接符号，本说明书实施例不作具体限定。如：特征数据A的第二特征值为1-2，特征数据B的第二特征值为1-3。

其中，第二特征值、第一特征值只是为了区分哈希映射的时间，可以将第一次进行哈希映射获得的特征值作为第一特征值，之后的哈希映射结果均作为第二映射值。

将哈希映射结果进行叠加作为特征数据的特征值，可以避免后续哈希映射的结果与已经筛选出特征值唯一的特征数据重复，确保特征生成结果的准确性。

步骤205、根据更新后的哈希函数获得的第二特征值对待选特征数据进行筛选，并返回步骤201。即筛选出特征数据后，继续判断筛选出的特征数据即筛选后特征数据是否唯一，若不唯一则继续进行哈希映射和特征筛选，直至筛选出的所有特征数据均唯一。

步骤206、将唯一的特征数据作为筛选出的特征数据。可以将每一次筛选后的特征数据中特征值唯一的特征数据进行存储，作为最终筛选出的特征数据。本说明书实施例中筛选出的特征数据可以用于模型构建、策略构建、数据分析等流程中，实现了特征数据的自动生成，节约了模型构建、策略构建、数据分析等流程中特征工程的时间，提升了数据处理效率。

需要说明的是，根据实际使用需要，在进行哈希映射时，可以设置循环次数，当达到循环次数后，即使存在不唯一的特征数据，也不再进行哈希映射，可以直接将不唯一的特征数据删除，或将不唯一的特征数据也作为筛选出的特征数据，用于后续的模型建设、数据分析中等。

本说明书一个实施例中，对于特征数据唯一性的验证方法可以采用如下过程：

在进行哈希映射时，将特征数据以及特征数据对应的特征值保存至映射关系表，根据映射关系表，判断特征值是否有重复的，若有，则重复的特征值对应的特征数据不唯一，否则，特征数据唯一。

例如：将拼接数据进行哈希映射时获得的第一特征值以及拼接数据与第一特征值之间的对应关系保存值映射关系表，特征筛选后，筛选出属性比较显著的拼接数据作为特征数据。根据映射关系表，可以获取到筛选出的特征数据对应的第一特征值，判断第一特征值中是否有重复的，若有，则将第一特征值重复的特征数据作为待选特征数据，进行再次哈希映射和特征筛选。对待选特征数据进行新的哈希映射时，可以将新的哈希映射获得的第二特征值以及第二特征值与待选特征数据之间的关系也进行保存，如：保存至映射关系表。根据新的哈希映射结果，对待选特征数据进行筛选，再根据映射关系表对筛选后的待选特征数据进行唯一性验证，判断筛选后的待选特征数据的第二特征值是否有重复，若有，则重复上述动作，更新哈希函数，继续进行哈希映射，直至筛选出的特征数据均唯一。

本说明书实施例提供的特征数据生成方法，在生成特征数据后，对特征数据进行唯一性验证，将不唯一的特征数据进行再次哈希映射，直至筛选出的特征数据唯一。并且，后一次哈希映射的哈希函数与上一次哈希映射的函数不同，确保筛选出的特征数据的唯一性，避免一次哈希映射将不同的属性数据映射至同一个特征值中，以至于无法得知真正有效的属性特征，也避免了仅仅使用一次或少数次哈希映射，导致筛选出的特征数据具有一定的偶然性，提高了特征数据筛选的准确性。

图3是本说明书又一个实施例中特征数据生成方法的流程示意图，如图3所示，本说明书实施例中特征数据生成的整体流程，可以表示为如下过程：

如图3所示，原始数据即待处理数据，可以对原始数据进行数据处理，如：数值型数据可以采用必要的离散化处理，以形成一个新的属性类变量，比如：原始字段为年龄(0-100)，那么处理后的字段变为年龄段(幼年、青年、成年、老年等)。字段的处理可以根据现有数据进行自动化的离散化处理，比如等频或等值离散化。字符型数据可以进行必要的正则化处理，比如：剔除无效字符如逗号等。

对原始数据进行处理后，可以将进行过数据处理的所有原始字段进行两两、三三或更多维的字段拼接，形成很多新的数据字段。比如：年龄(老年)、性别(女)、交易类目(游戏币)三个字段进行拼接之后就形成了一个新的字段，其内容为“老年女游戏币”。具体的拼接方法可以参考上述实施例的记载，此处不再赘述。

获得拼接数据后，可以将新的字段即拼接数据进行Hash映射至一个数字，将其看成为一个高维向量中的Index(Index函数可以表示返回表或区域中的值或对值的引用)。同时将映射进行字典保存以便后续对属性的枚举进行实际字段含义还原。Hash操作能够快速的将新的属性枚举进行数据的转换，从而避免one-hot类空间占用较大的转换。具体的Hash算法有BKDRHash，APHash，DJBHash等等。

通过哈希映射完成了数据的转换之后，可以通过一些变量删选，将显著变量删选出来。一般通用的变量删选可以包括有L1范数正则化的模型类删选等。当最终选择出的显著变量即特征数据包含有重复时，可以采用上述图2所述的方法继续进行数据处理，避免将不同的属性枚举映射至同一个Index中，以至于无法得知真正的有效属性究竟是哪一个，同时可以避免由于当不同属性映射至同一个index，导致被选出作为显著变量也可能存在一定的偶然性。本说明书实施例，针对这样同index不同属性的变量，可以重新进行Hash映射并重复进行特征的转换与选择，保证属性特征的唯一性以及有效性。即可以将最终选出的特征数据进行唯一性验证，主要通过生成特征数据过程中哈希映射时保存的映射关系的字典进行唯一性检验。将不唯一的属性字段放入到一个再处理变量池中。重复上述实施例的特征生成过程，其中的Hash算法需要与上一次做特征生成时的Hash算法不同，以保证重复index的属性这一次能够被映射至不同的index中。再重新生成的特征数据再进行唯一性验证，如果仍然有重复index的属性类特征，重复上述步骤，直至唯一性满足要求为止。

本说明书实施例，能够实现特征数据的自动生成，能够快速的寻找出具备显著性的属性类特征或属性类衍生特征，该特征具备很强的可解释性，能够供业务专家理解并快速运营至业务中，减少业务专家的时间成本，同时通过机器算法能够找出专家找不到的一些显著特征，同时提升数据处理的效率以及效能。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

基于上述所述的特征数据生成方法，本说明书一个或多个实施例还提供一种特征数据的生成装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

具体地，图4是本说明书提供的特征数据生成装置一个实施例的模块结构示意图，如图4所示，本说明书中提供的特征数据生成装置包括：数据转换模块41、数据拼接模块42、哈希映射模块43、特征筛选模块44，其中：

数据转换模块41，可以用于将待处理数据转换成属性类变量；

数据拼接模块42，可以用于将不同的所述属性类变量进行拼接，获得拼接数据；

哈希映射模块43，可以用于利用哈希函数将所述拼接数据进行哈希映射，确定出所述拼接数据对应的第一特征值；

特征筛选模块44，可以用于根据所述拼接数据以及所述拼接数据对应的第一特征值，对所述拼接数据进行筛选，筛选出所述待处理数据的特征数据。

本说明书实施例提供的特征数据生成装置，将待处理数据进行属性转换，将转换后的数据进行数据拼接，并对获得的拼接数据进行哈希映射，利用哈希映射后的特征值进行特征筛选，筛选出属性特征比较显著的特征数据。能够快速的寻找出具备显著性的属性类特征或属性类衍生特征，该特征具备很强的可解释性，能够供业务专家理解并快速运营至业务中。同时，本说明书实施例采用的Hash方法能够将数据进行快速的转换，实现了一种轻量级的暴力衍生实现方法，使得所有的属性及其枚举都能够在输入特征范围内，保证特征的完备性，提高了特征数据生成的准确性。

图5是本说明书又一个实施例中特征数据生成装置的模块结构示意图，如图5所示，在上述实施例的基础上，所述装置还包括唯一性检验模块51，用于：

在上述实施例的基础上，本说明书一个实施例中，所述唯一性检验模块还用于：

本说明书实施例提供的特征数据生成装置，在生成特征数据后，对特征数据进行唯一性验证，将不唯一的特征数据进行再次哈希映射，直至筛选出的特征数据唯一。并且，后一次哈希映射的哈希函数与上一次哈希映射的函数不同，确保筛选出的特征数据的唯一性，避免一次哈希映射将不同的属性数据映射至同一个特征值中，以至于无法得知真正有效的属性特征，也避免了仅仅使用一次或少数次哈希映射，导致筛选出的特征数据具有一定的偶然性，提高了特征数据筛选的准确性。

在上述实施例的基础上，所述唯一性检验模块具体用于：

将所述拼接数据与所述第一特征值之间的映射关系保存至映射关系表；

根据所述映射关系表，判断所述特征数据对应的第一特征值是否重复，若存在重复的第一特征值，则确定所述特征数据的第一特征值不唯一。

本说明书实施例提供的特征数据生成装置，将特征数据与哈希映射的结果之间的对应关系进行保存，可以实现筛选出的特征数据是否唯一的快速验证，并为后续特征数据的实际含义的还原提供了数据基础。

在上述实施例的基础上，所述唯一性检验模块还用于采用下述方法确定所述第二特征值：

将哈希映射获得的特征值进行叠加，获得所述第二特征值。

本说明书实施例，将哈希映射结果进行叠加作为待选特征数据的特征值，可以避免哈希映射出的结果与已经筛选出的特征数据的特征值重复，确保特征数据的准确唯一性。

在上述实施例的基础上，所述特征筛选模块具体用于：

使用L1范数正则化对所述拼接数据进行筛选，筛选出所述特征数据。

本说明书实施例，利用L1范数正则化可以实现特征数据的准确筛选。

在上述实施例的基础上，所述数据转换模块具体用于：

本说明书实施例，根据不同的数据类型，对数据进行不同的属性处理，能够快速的将原始数据进行属性变量的转换，为后续特征数据的筛选提供了准确的数据基础。

需要说明的，上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书实施例还提供一种特征数据生成的处理设备，包括：至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现上述实施例的特征数据生成方法，如：

将待处理数据转换成属性类变量；

将不同的所述属性类变量进行拼接，获得拼接数据；

所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

需要说明的，上述所述的处理设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书提供的特征数据生成系统可以为单独的特征数据生成系统，也可以应用在多种数据分析处理系统中。所述系统可以包括上述实施例中任意一个特征数据生成装置。所述的系统可以为单独的服务器，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述核对差异数据的检测系统可以包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。

本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图6是应用本申请实施例的特征数据生成服务器的硬件结构框图。如图6所示，服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图6中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存、GPU，或者具有与图6所示不同的配置。

存储器200可用于存储应用软件的软件程序以及模块，如本说明书实施例中的特征数据生成方法对应的程序指令/模块，处理器100通过运行存储在存储器200内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中，传输模块300包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例所描述方案的效果。

本说明书实施例提供的上述特征数据的生成方法或装置可以在计算机中由处理器执行相应的程序指令来实现，如使用windows操作系统的c++语言在PC端实现、linux系统实现，或其他例如使用android、iOS系统程序设计语言在智能终端实现，以及基于量子计算机的处理逻辑实现等。

需要说明的是说明书上述所述的装置、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照对应方法实施例的描述，在此不作一一赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

尽管本说明书实施例内容中提到数据转换、拼接、哈希映射、数据筛选等之类的数据获取、交互、计算、判断等操作和数据描述，但是，本说明书实施例并不局限于必须是符合行业通信标准、标准计算机数据处理和数据存储规则、通信协议和标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书的可选实施方案范围之内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种特征数据的生成方法，包括：

将待处理数据转换成属性类变量；

将不同的所述属性类变量进行拼接，获得拼接数据；

2.如权利要求1所述的方法，所述方法还包括：

3.如权利要求2所述的方法，所述方法还包括：

4.如权利要求2所述的方法，所述判断所述特征数据的第一特征值是否唯一，包括：

5.如权利要求2所述的方法，所述第二特征值的确定方法包括：

将哈希映射获得的特征值进行叠加，获得所述第二特征值。

6.如权利要求1所述的方法，所述对所述拼接数据进行筛选，筛选出所述待处理数据的特征数据，包括：

7.如权利要求1所述的方法，所述将待处理数据转换成属性类变量，包括：

8.一种特征数据的生成装置，包括：

数据转换模块，用于将待处理数据转换成属性类变量；

9.如权利要求8所述的装置，所述装置还包括唯一性检验模块，用于：

10.如权利要求9所述的装置，所述唯一性检验模块还用于：

11.如权利要求9所述的装置，所述唯一性检验模块具体用于：

12.如权利要求9所述的装置，所述唯一性检验模块还用于采用下述方法确定所述第二特征值：

将哈希映射获得的特征值进行叠加，获得所述第二特征值。

13.如权利要求8所述的装置，所述特征筛选模块具体用于：

14.如权利要求8所述的装置，所述数据转换模块具体用于：

15.一种特征数据生成的处理设备，包括：至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-7任一项所述的方法。

16.一种特征数据的生成系统，包括至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-7任一项所述的方法。