CN111967611A

CN111967611A - 特征生成方法和装置、电子设备和存储介质

Info

Publication number: CN111967611A
Application number: CN202010841706.6A
Authority: CN
Inventors: 刘思明; 朱坤广; 李富武; 陈迪
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-20

Abstract

本公开实施例公开了一种特征生成方法和装置、电子设备和存储介质，其中，方法包括：获取用户信息数据库中用户的基础信息和行为信息；采用文本到向量的编码方式，分别对获取的各项所述基础信息进行编码，得到至少一个基础离散特征；分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理，得到多个基础聚合特征；分别基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理，得到至少一个组合特征；将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先设置的至少一类别标签进行对应存储，以用于训练机器学习模型。本公开实施例可以提高特征生成效率和机器学习模型的训练效果。

Description

特征生成方法和装置、电子设备和存储介质

技术领域

本公开涉及计算机技术，尤其是一种特征生成方法和装置、电子设备和存储介质。

背景技术

机器学习是人工智能及模式识别领域的共同研究热点，其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。机器学习不仅在基于知识的系统中得到应用，而且在自然语言理解(NLU)、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究主要分为两类研究方向：第一类是传统机器学习的研究，该类研究主要是研究学习机制，注重探索模拟人的学习机制；第二类是大数据环境下机器学习的研究，该类研究主要是研究如何有效利用信息，注重从巨量数据中获取隐藏的、有效的、可理解的知识。

在目的的大数据时代，人们希望使用机器学习技术从海量数据中挖掘价值，这就需要先利用历史数据训练机器学习模型。训练机器学习模型的主要过程如下：由历史数据获取用于输入机器学习模型的输入特征，由机器学习模型输出相应的输出特征；基于机器学习算法，基于输入特征和输出特征训练机器学习模型。在机器学习模型训练完成后，便可以利用该机器学习模型对输入数据预测输出数据。

在实现本公开的过程中，本公开的发明人通过研究发现，现有技术中，需要通过用户从历史数据中手工筛选训练当前机器学习模型所需要的数据，并对其进行手工处理，来得到输入特征，这就至少存在以下问题：由于需要用户手工从历史数据中逐一进行数据筛选和处理，操作繁琐，处理效率较低，需要花费大量时间，并且，所需处理的数据量庞大极易出错，这就会影响后续机器学习模型的训练效果。

发明内容

本公开实施例提供一种特征生成方法和装置、电子设备和存储介质，以提高特征生成效率和机器学习模型的训练效果。

本公开实施例的一个方面，提供的一种特征生成方法，包括：

获取用户信息数据库中用户的基础信息和行为信息；其中，所述基础信息包括：用于表示用户至少一项属性的信息；所述行为信息包括：用于表示用户线上和/或线下各项行为的信息；

采用文本到向量的编码方式，分别对获取的各项所述基础信息进行编码，得到至少一个基础离散特征；分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理，得到多个基础聚合特征；

分别基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理，得到至少一个组合特征；

将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，以用于训练机器学习模型。

可选地，在基于本公开上述任一实施例的方法中，所述行为信息包括以下任意一项或多项：页面浏览信息，页面停留时长，搜索信息，推荐信息，分享关注信息，业务委托信息，业务带看信息，业务成交信息。

可选地，在基于本公开上述任一实施例的方法中，所述采用文本到向量的编码方式，分别对获取的各项所述基础信息进行编码，包括：

采用独热One-Hot编码方式，分别对获取的各项所述基础信息进行编码。

可选地，在基于本公开上述任一实施例的方法中，所述聚合方式信息包括至少一种聚合方式、各聚合方式针对的行为信息、各聚合方式的聚合周期；

所述分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理，包括：

分别基于所述聚合方式信息中的各聚合方式，按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合。

可选地，在基于本公开上述任一实施例的方法中，所述获取用户信息数据库中用户的行为信息，包括：获取用户信息数据库中用户在至少一业务种类下的行为信息；

所述聚合方式信息还包括：各聚合方式针对的业务种类；

所述按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合，包括：

按照所述聚合方式的聚合周期，对所述聚合方式针对的业务种类下的行为信息中的属性值进行聚合。

可选地，在基于本公开上述任一实施例的方法中，所述至少一种聚合方式包括以下任意一项或多项：累加聚合方式，计数聚合方式；

所述聚合方式为累加聚合方式时，所述按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合，包括：按照所述累加聚合方式的聚合周期对所述累加聚合方式针对的行为信息中的属性值进行累加处理；和/或，

所述聚合方式为计数聚合方式时，所述按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合，包括：按照所述计数聚合方式的聚合周期对所述计数聚合方式针对的行为信息进行计数处理。

可选地，在基于本公开上述任一实施例的方法中，所述计算方式信息包括至少一种计算方式、以及各计算方式针对的基础聚合特征和时间窗口信息。

可选地，在基于本公开上述任一实施例的方法中，所述至少一种计算方式包括以下任意一项或多项：比值计算方式，差值计算方式；

所述计算方式为比值计算方式时，所述比值计算方式针对的基础聚合特征包括两个基础聚合特征，所述时间窗口信息为时间窗口单位；所述基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理，包括：

基于所述比值计算方式，对同一时间窗口下所述比值计算方式针对的两个基础聚合特征中的特征值进行比值计算，得到所述同一时间窗口下的组合特征；或者，

所述计算方式为差值计算方式时，所述差值计算方式针对的基础聚合特征包括一个基础聚合特征，所述时间窗口信息包括第一时间窗口和第二时间窗口；所述基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理，包括：

基于所述差值计算方式，计算所述差值计算方式针对的基础聚合特征中的特征值在所述第一时间窗口和所述第二时间窗口下的差值，得到所述第一时间窗口和所述第二时间窗口下的组合特征。

可选地，在基于本公开上述任一实施例的方法中，所述将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，包括：

将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签，以Libsvm格式存储在数据仓库工具Hive数据库中；和/或，

将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签，以TFRecord格式保存在分布式文件系统HDFS中。

可选地，在基于本公开上述任一实施例的方法中，所述将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储之前，还包括：

基于待训练的机器学习模型确定所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中各特征的重要性；

基于所述各特征的重要性从高到低的顺序，从所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中选取预设数量特征；

所述将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，包括：

将所述预设数量特征与所述至少一类别标签进行对应存储。

本公开实施例的一个方面，提供的一种特征生成装置，包括：

获取模块，用于获取用户信息数据库中用户的基础信息和行为信息；其中，所述基础信息包括：用于表示用户至少一项属性的信息；所述行为信息包括：用于表示用户线上和/或线下各项行为的信息；

编码模块，用于采用文本到向量的编码方式，分别对获取的各项所述基础信息进行编码，得到至少一个基础离散特征；

聚合处理模块，用于分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理，得到多个基础聚合特征；

计算处理模块，用于分别基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理，得到至少一个组合特征；

存储处理模块，用于将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，以用于训练机器学习模型。

可选地，在基于本公开上述任一实施例的装置中，所述行为信息包括以下任意一项或多项：页面浏览信息，页面停留时长，搜索信息，推荐信息，分享关注信息，业务委托信息，业务带看信息，业务成交信息。

可选地，在基于本公开上述任一实施例的装置中，所述编码模块，具体用于：

可选地，在基于本公开上述任一实施例的装置中，所述聚合方式信息包括至少一种聚合方式、各聚合方式针对的行为信息、各聚合方式的聚合周期；

所述聚合处理模块，具体用于：

可选地，在基于本公开上述任一实施例的装置中，所述获取模块，具体用于：获取用户信息数据库中用户的基础信息和在至少一业务种类下的行为信息；

所述聚合方式信息还包括：各聚合方式针对的业务种类；

所述聚合处理模块，具体用于：

可选地，在基于本公开上述任一实施例的装置中，所述至少一种聚合方式包括以下任意一项或多项：累加聚合方式，计数聚合方式；

所述聚合处理模块，具体用于：

在所述聚合方式为累加聚合方式时，按照所述累加聚合方式的聚合周期对所述累加聚合方式针对的行为信息中的属性值进行累加处理；和/或，

在所述聚合方式为计数聚合方式时，按照所述计数聚合方式的聚合周期对所述计数聚合方式针对的行为信息进行计数处理。

可选地，在基于本公开上述任一实施例的装置中，所述计算方式信息包括至少一种计算方式、以及各计算方式针对的基础聚合特征和时间窗口信息。

可选地，在基于本公开上述任一实施例的装置中，所述至少一种计算方式包括以下任意一项或多项：比值计算方式，差值计算方式；

所述计算方式为比值计算方式时，所述比值计算方式针对的基础聚合特征包括两个基础聚合特征，所述时间窗口信息为时间窗口单位；所述计算处理模块，具体用于：基于所述比值计算方式，对同一时间窗口下所述比值计算方式针对的两个基础聚合特征中的特征值进行比值计算，得到所述同一时间窗口下的组合特征；或者，

所述计算方式为差值计算方式时，所述差值计算方式针对的基础聚合特征包括一个基础聚合特征，所述时间窗口信息包括第一时间窗口和第二时间窗口；所述计算处理模块，具体用于：基于所述差值计算方式，计算所述差值计算方式针对的基础聚合特征中的特征值在所述第一时间窗口和所述第二时间窗口下的差值，得到所述第一时间窗口和所述第二时间窗口下的组合特征。

可选地，在基于本公开上述任一实施例的装置中，所述存储处理模块，具体用于：

可选地，在基于本公开上述任一实施例的装置中，还包括：

确定模块，用于基于待训练的机器学习模型确定所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中各特征的重要性；

选取模块，用于基于所述各特征的重要性从高到低的顺序，从所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中选取预设数量特征；

所述存储处理模块，具体用于：将所述预设数量特征与所述至少一类别标签进行对应存储。

本公开实施例的又一个方面，提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的方法。

本公开实施例的再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开上述任一实施例所述的方法。

基于本公开上述实施例提供的特征生成方法和装置、电子设备和存储介质，获取用户信息数据库中用户的基础信息和行为信息后，可以采用文本到向量的编码方式分别对获取的各项基础信息进行编码，得到至少一个基础离散特征，分别基于预先配置的聚合方式信息对相应的行为信息进行聚合处理，得到多个基础聚合特征；然后，分别基于预先配置的计算方式信息对相应的基础聚合特征进行计算处理，得到至少一个组合特征，进而，将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，以用于训练机器学习模型，由此，本公开实施例可以基于用户信息数据库中用户的原始基础信息和行为信息自动生成用于训练机器学习模型的特征，且不易出错，提高了特征生成的效率准确性，从而有助于提高机器学习模型的训练效果，可以有效解决现有用户手工处理存在的特征产出耗时长、出错率高等技术问题。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开特征生成方法一个实施例的流程图。

图2为本公开特征生成方法另一个实施例的流程图。

图3为本公开特征生成装置一个实施例的结构示意图。

图4为本公开特征生成装置另一个实施例的结构示意图。

图5为本公开电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的信息下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种信息。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当信息下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本公开特征生成方法一个实施例的流程图。如图1所示，该实施例的特征生成方法包括：

102，获取用户信息数据库中用户的基础信息和行为信息。

其中，所述基础信息包括：用于表示用户至少一项属性的信息。所述行为信息包括：用于表示用户线上和/或线下各项行为的信息。

在其中一些可能的实现方式中，所述基础信息例如可以包括但不限于：在进行线上行为的应用程序(APP)的用户账号，注册时间，职业，兴趣爱好，年龄，访问时间，登录时间，用户使用的终端设备信息，通过进行线上行为的应用程序的下载渠道(例如华为商城、安卓市场、苹果商城等)，业务发生城市，等等。

在其中一些可能的实现方式中，所述行为信息例如可以包括但不限于以下任意一项或多项：页面浏览信息(例如页面浏览次数)，页面停留时长，搜索信息(例如搜索次数)，推荐信息(例如推荐次数)，分享关注信息(例如分享关注次数)，业务委托信息(例如业务委托次数)，业务带看信息(例如业务带看次数)，业务成交信息(例如业务成交次数)，等等。这些行为信息可以包括具体行为的属性值，例如，页面停留时长具体可以是页面浏览时长：380(分钟)。具体行为的属性值的通常表示为数字形式，机器学习模型可以直接识别、处理。

在其中一些可能的实现方式中，可以利用数据仓库工具(Hive)从用户信息数据库的底层数据中抽取用户的基础信息和行为信息。其中，Hive是基于分布式计算(Hadoop)的一个数据仓库工具，可以用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供结构化查询语言(Structured Query Language，SQL)查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速分布式计算系统(MapReduce)统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。

104，采用文本到向量的编码方式，分别对获取的各项基础信息进行编码，得到至少一个基础离散特征；以及，分别基于预先配置的聚合方式信息对相应的行为信息进行聚合处理，得到多个基础聚合特征。

考虑到有些机器学习模型无法直接处理文本形式的离散特征，本公开实施例中，将采用文本到向量的编码方式分别将获取的各项基础信息编码为机器学习模型可以识别的基础离散特征，以便后续用于机器学习模型的训练。

106，分别基于预先配置的计算方式信息对相应的基础聚合特征进行计算处理，得到至少一个组合特征。

108，将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，以用于训练机器学习模型。

本公开实施例中的类别标签是指，预先基于用户的相应信息标注的、表示是否发生某种情况的参考信息，例如，用户是否购买二手房，是否购买新房，是否租房，是否装修，是否搬家，是否有保洁需求，是否卖房等等。

基于所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征训练机器学习模型时，可以将这些特征输入机器学习模型，由机器学习模型基于输入的特征输出预测信息，基于该预测信息与对应的类别标签之前的差异对机器学习模型进行训练，即调整机器学习模型中参数的参数值，直至满足预设训练完成条件，例如训练次数达到预设次数，和/或，机器学习模型输出的预测信息与对应的类别标签之前的差异小于预设数值。

基于本公开上述实施例提供的特征生成方法，获取用户信息数据库中用户的基础信息和行为信息后，可以采用文本到向量的编码方式分别对获取的各项基础信息进行编码，得到至少一个基础离散特征，分别基于预先配置的聚合方式信息对相应的行为信息进行聚合处理，得到多个基础聚合特征；然后，分别基于预先配置的计算方式信息对相应的基础聚合特征进行计算处理，得到至少一个组合特征，进而，将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，以用于训练机器学习模型，由此，本公开实施例可以基于用户信息数据库中用户的原始基础信息和行为信息自动生成用于训练机器学习模型的特征，且不易出错，提高了特征生成的效率准确性，从而有助于提高机器学习模型的训练效果，可以有效解决现有用户手工处理存在的特征产出耗时长、出错率高等技术问题。

本公开实施例中，可以分别针对多个用户中的每个用户，执行本公开特征生成方法实施例的流程，来得到每个用户的基础离散特征、基础聚合特征和组合特征、以及至少一类别标签，从而得到多个用户的基础离散特征、基础聚合特征和组合特征、以及至少一类别标签，来训练机器学习模型。

在其中一些可能的实现方式中，操作104中，可以采用独热(One-Hot)编码方式，分别对获取的各项基础信息进行编码，得到至少一个基础离散特征。

其中One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位寄存器位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了对应的特征处值为1，其余地方的值均为0。例如，要对[中国，美国，日本]进行One-Hot编码，可以先确定分类变量：中国，美国，日本，共3种类别，相当于有3个样本，每个样本有3个特征，将其转化为二进制向量表示，首先进行特征的整数编码：中国--0，美国--1，日本--2，并将特征按照从小到大排列，得到One-Hot编码如下：[中国，美国，日本]--->[[1,0,0]，[0,1,0]，[0,0,1]]。

在其中一些可能的实现方式中，所述聚合方式信息可以包括至少一种聚合方式、各聚合方式针对的行为信息、各聚合方式的聚合周期。其中的聚合周期是对所述聚合方式针对的行为信息中的属性值进行聚合的周期，可以包括时间单位(例如小时天、周、月等)和具体的周期数值，该聚合周期具体可以根据实际需求设置，例如3天，还可以根据需要更新。相应地，操作104中，可以分别基于所述聚合方式信息中的各聚合方式，按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合，得到多个基础聚合特征。

本公开实施例中，同一种聚合方式可用于处理多种行为信息，具体可以通过预先配置聚合方式信息来确定通过哪种聚合方式对哪些行为信息进行聚合，例如，可以预先配置通过聚合方式A，分别对页面浏览信息、页面停留时长、搜索信息、推荐信息、分享关注信息、业务委托信息、业务带看信息、业务成交信息等进行聚合，其中，可以针对不同的行为信息配置相同或不同的聚合周期。

基于该实施例，可以基于预先配置的聚合方式信息，按照一定的聚合周期、以相应的聚合方式的对针对的行为信息中的属性值进行聚合，从而可以得到相应的行为信息在各聚合周期的情况。

进一步可选地，所述聚合方式信息还可以包括：各聚合方式针对的业务种类。其中的业务种类是指业务的类型，例如二手房业务、新房业务、租房业务、装修业务、搬家保洁业务、卖房业务等等。

在其中一些可能的实现方式中，操作102中，可以获取用户信息数据库中用户在至少一业务种类下的行为信息。相应地，在其中一些可选示例中，按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合时，可以按照所述聚合方式的聚合周期，对所述聚合方式针对的业务种类下的行为信息中的属性值进行聚合。

基于该实施例，可以针对各业务类型，基于预先配置的聚合方式信息，按照一定的聚合周期、以相应的聚合方式的对相应行为信息中的属性值进行聚合，从而可以得到各业务类型下相应行为信息在各聚合周期的情况。

在其中一些可能的实现方式中，所述至少一种聚合方式例如可以包括但不限于以下任意一项或多项：累加(sum)聚合方式，计数(count)聚合方式。

其中，聚合方式为累加聚合方式时，按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合时，可以按照该累加聚合方式的聚合周期对该累加聚合方式针对的行为信息中的属性值进行累加处理。

具体地，可以基于预先配置的聚合方式信息中的累加聚合方式、聚合周期和针对的行为信息，按照聚合周期提取该累加聚合方式针对的行为信息中的属性值(例如浏览次数)，并通过sum算子进行累加，得到一个用户的该行为信息在相应聚合周期的聚合值(即基础聚合特征)；分别针对配置的每一条累加聚合方式、聚合周期和针对的行为信息，执行该操作，便可以得到该用户的各项行为在相应聚合周期的聚合值。

例如，一个用户可能在一天内进行了多次浏览行为，每次的浏览行为分别通过一条页面浏览信息记录，按照聚合周期提取该用户在当前聚合周期内的所有页面浏览信息中的属性值(即浏览次数)，并通过sum算子进行累加，得到该用户在当前聚合周期内的总浏览次数作为相应的基础聚合特征。如果聚合方式信息中还配置了业务类型，例如二手房业务，则，可以按照聚合周期提取该用户在当前聚合周期内二手房业务下的所有页面浏览信息中的属性值(即浏览次数)，并通过sum算子进行累加，得到该用户在当前聚合周期内二手房业务的总浏览次数作为相应的基础聚合特征。

在聚合方式为计数聚合方式时，按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合时，可以按照该计数聚合方式的聚合周期对该计数聚合方式针对的行为信息进行计数处理。

具体地，可以基于预先配置的聚合方式信息中的计数聚合方式、聚合周期中的时间单位(例如天)和针对的行为信息，按照聚合周期提取该计数聚合方式针对的行为信息，并通过count算子进行计数，得到一个用户在该聚合周期内具有该行为信息的计数值作为基础聚合特征，即该用户在该聚合周期内总共有多少个时间单位进行了该行为信息对应的行为；分别针对配置的每一条计数聚合方式、聚合周期和针对的行为信息，执行该操作，便可以得到该用户在相应聚合周期内各项行为的计数值。

例如，一个用户可能经常登录后浏览信息，每次进行浏览行为后便会产生一条页面浏览信息，假设聚合周期为15天，聚合周期中的时间单位为天，该用户每天具有浏览信息时认为当天进行了浏览行为，通过count算子对该聚合周期内进行了浏览行为的天数进行计数，可以得到该用户在当前聚合周期15天内有多少天进行了浏览行为。如果聚合方式信息中还配置了业务类型，例如二手房业务，则，可以按照聚合周期提取该用户在当前聚合周期内二手房业务下的所有页面浏览信息，并通过count算子进行对有页面浏览行为的天数进行计数，得到该用户在当前聚合周期内有多少时间单位进行了该业务类型下的行为信息对应行为，作为相应的基础聚合特征。

基于该实施例，可以根据用于训练机器学习模型所需的特征，确定对用户的哪些信息进行累加聚合处理或计数聚合处理，来得到用户在各聚合周期内各项行为信息(或进一步区分为各项业务类型)下的基础聚合特征，以便得到训练机器学习模型所需的全面特征。

需要说明的是，本公开实施例中，可以预先配置对各项行为信息采用的聚合方式，可以配置对同一项行为信息采用其中一种聚合方式进行聚合处理，也可以配置对同一项行为信息采用任意两种或多种聚合方式分别聚合处理。

在其中一些可能的实现方式中，所述计算方式信息包括至少一种计算方式、以及各计算方式针对的基础聚合特征和时间窗口信息。其中，所述至少一种计算方式例如可以包括但不限于以下任意一项或多项：比值计算方式，差值计算方式等等。

其中，比值计算方式可用于计算两个基础聚合特征在同一个时间窗口单位下的比值；差值计算方式可用于计算同一基础聚合特征在不同时间窗口单位下的差值。

在其中一些可选示例中，所述计算方式为比值计算方式时，比值计算方式针对的基础聚合特征包括两个基础聚合特征，所述时间窗口信息为时间窗口单位。相应地，操作106中，可以基于比值计算方式，对同一时间窗口下该比值计算方式针对的两个基础聚合特征中的特征值进行比值计算，得到同一时间窗口下的组合特征。例如，时间窗口单位为天时，可以基于比值计算方式，对同一天内浏览时长和浏览页面数进行比值计算，得到每个页面的平均浏览时长。

基于该比值计算方式，可以获知每个用户在同一时间单位下的一个新特征的特征值，以便用于结合其他特征了解用户相应的行为偏好和意图。

在另一些可选示例中，所述计算方式为差值计算方式时，差值计算方式针对的基础聚合特征包括一个基础聚合特征，所述时间窗口信息包括第一时间窗口和第二时间窗口。相应地，操作106中，可以基于差值计算方式，计算该差值计算方式针对的基础聚合特征中的特征值在第一时间窗口和第二时间窗口下的差值，得到第一时间窗口和第二时间窗口下的组合特征。例如，时间窗口单位为天时，可以基于差值计算方式，对浏览页面数在两个不同日期下的差值，得到一个用户浏览页面数在不同日期的变化。

基于该差值计算方式，可以获知每个用户在不同时间单位下基础聚合特征中特征值的变化，以便于了解用户意图的变化。

可选地，在上述各任一实施例或可能的实现方式中，可以预先对各项基础离散特征、各项基础聚合特征和各项组合特征分别分配一个特征标识(ID)，以用于唯一标识各项特征，其中的特征标识可以是特征编号、特征名称或者二者的结合等等，本公开实施例对特征标识的具体实现方式不做限制。

基于该实施例对各项特征分配特征标识，通过上述任一实施例或可能的实现方式得到基础离散特征、基础聚合特征和组合特征后，便可以与相应的特征标识一一对应存储到相应的数据库中，以便于后续识别各项特征的含义。

在其中一些可能的实现方式中，操作108中，可以将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签，以支持向量机(Libsvm)格式存储在Hive数据库中，和/或，将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签，以张量流记录(TensorFlow Records，TFRecord)格式保存在分布式文件系统(HDFS)中。

本公开实施例中的机器学习模型可以包括各种可能的模型，例如各种树模型、神经网络模型等，本公开实施例对此不做限制。基于本实施例，将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签以不同的数据格式存储在不同类型的数据库中，可以满足不同类型机器学习模型训练时特征读取速度的需求，从而提升机器学习模型的训练速度和训练效果。例如，将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签，以Libsvm格式存储在Hive数据库中，可以满足各种树模型训练时对特征读取速度的需求；将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签，以TFRecord格式保存在HDFS中时，可以满足各种神经网络模型训练时对特征读取速度的需求。

图2为本公开特征生成方法另一个实施例的流程图。如图2所示，上述各实施例的基础上，该实施例在操作108之前，还可以包括：

202，基于待训练的机器学习模型确定所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中各特征的重要性。

其中，可以针对待训练的机器学习模型，利用各种可能的方式来确定所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中各特征的重要性，例如，机器学习模型为决策树模型时，可以基于各项特征的平均增益、平均值、分裂次数等指标来确定各特征的重要性；对于机器学习模型为神经网络模型时，不同功能的神经网络模型需要的特征不同，可以基于预先配置来确定各神经网络模型需要的特征，由此来确定所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中各特征的重要性。

204，基于各特征的重要性从高到低的顺序，从所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中选取预设数量特征，这样，可以选取出预设数量的、重要性相对较高的特征。

其中，预设数量特征可满足相应机器学习模型的训练需求，具体的预设数量值可以根据具体的机器学习模型的训练需求设定，并可以根据实际需求进行调整。

相应地，操作108中，可以将所述预设数量特征与所述至少一类别标签进行对应存储。

进一步可选地，可以按照各特征的重要性从高到低的顺序，对选取重要性较高的预设数量特征进行顺序存储。

基于本公开实施例，可以生产出训练各种机器学习模型可能需要的特征，因此产出的特征维数较多，占用内存大，对于训练模型来说，其中很多特征对于某些特定的机器学习模型可能是是冗余且无用的，本实施例针对训练不同的机器学习模型确定产出特征中各特征的重要性，按照各特征的重要性从高到低的顺序选取重要性较高的预设数量特征进行存储，以用于训练相应的机器学习模型，从而既可以满足机器学习模型的训练需求，也可以节约存储内存，并提高训练机器学习模型时查询和提取特征的速度，从而提升机器学习模型的训练效率。

另外，在本公开上述各特征生成方法实施例之前，可以通过预先配置一个配置文件，来配置本公开实施例中的各项信息，例如，需要读取的用户的哪些基础信息和行为信息，读取哪些时间段(开始时刻、结束时刻)的信息，聚合方式信息(聚合方式、各聚合方式针对的行为信息、各聚合方式的聚合周期、聚合时间单位、业务类型等)，计算方式信息(计算方式、以及各计算方式针对的基础聚合特征和时间窗口信息等)。该配置文件可以根据需求实时调整，例如修改、或者增加、或者删除其中的某项信息。

其中，用于训练机器学习模型的用户的相关信息(基础信息和行为信息、类别标签)称为训练集数据。另外，在本公开的进一步实施例中，还可以设置测试集数据，其包括另一些用户的相关信息(基础信息和行为信息、类别标签)，用于在机器学习模型训练完成后，用于测试该机器学习模型，其中测试集数据包括的用户和时间段也可以预先配置，并采用上述配置文件中配置的聚合方式信息、计算方式信息，按照上述任一实施例的方式，来进行特征生成并输入机器学习模型得到类别标签，与测试集数据中的类别标签进行比较，来确定机器学习模型的训练效果。

本公开实施例通过预先配置一个配置文件来配置本公开实施例中的各项信息，可以将本公开实施例中的各项操作分别通过一个模块来实现，这样，需要更换或增加用于训练的数据信息时无需对执行各操作的模块进行更改，只需要更新配置文件即可，更新方便，扩展性较好。

本公开实施例提供的任一种特征生成方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种特征生成方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种特征生成方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本公开特征生成装置一个实施例的结构示意图。该实施例的特征生成装置可用于实现本公开上述各方法实施例。如图3所示，该实施例的特征生成装置包括：获取模块，编码模块，聚合处理模块，计算处理模块和存储处理模块。其中：

获取模块，用于获取用户信息数据库中用户的基础信息和行为信息。其中，所述基础信息包括：用于表示用户至少一项属性的信息；所述行为信息包括：用于表示用户线上和/或线下各项行为的信息。

在其中一些可能的实现方式中，所述行为信息例如可以包括但不限于以下任意一项或多项：页面浏览信息，页面停留时长，搜索信息，推荐信息，分享关注信息，业务委托信息，业务带看信息，业务成交信息，等等。

编码模块，用于采用文本到向量的编码方式，分别对获取的各项所述基础信息进行编码，得到至少一个基础离散特征。

聚合处理模块，用于分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理，得到多个基础聚合特征。

计算处理模块，用于分别基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理，得到至少一个组合特征。

基于本公开上述实施例提供的特征生成装置获取用户信息数据库中用户的基础信息和行为信息后，可以采用文本到向量的编码方式分别对获取的各项基础信息进行编码，得到至少一个基础离散特征，分别基于预先配置的聚合方式信息对相应的行为信息进行聚合处理，得到多个基础聚合特征；然后，分别基于预先配置的计算方式信息对相应的基础聚合特征进行计算处理，得到至少一个组合特征，进而，将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，以用于训练机器学习模型，由此，本公开实施例可以基于用户信息数据库中用户的原始基础信息和行为信息自动生成用于训练机器学习模型的特征，且不易出错，提高了特征生成的效率准确性，从而有助于提高机器学习模型的训练效果，可以有效解决现有用户手工处理存在的特征产出耗时长、出错率高等技术问题。

在其中一些可能的实现方式中，编码模块具体用于：采用One-Hot编码方式，分别对获取的各项所述基础信息进行编码。

在其中一些可能的实现方式中，所述聚合方式信息可以包括至少一种聚合方式、各聚合方式针对的行为信息、各聚合方式的聚合周期。相应地，聚合处理模块具体用于：分别基于所述聚合方式信息中的各聚合方式，按照所述聚合方式的聚合周期对所述聚合方式针对的行为信息中的属性值进行聚合。

在其中一些可能的实现方式中，获取模块具体用于：获取用户信息数据库中用户的基础信息和在至少一业务种类下的行为信息。所述聚合方式信息还可以包括但不限于以下任意一项或多项：各聚合方式针对的业务种类。相应地，聚合处理模块具体用于：按照所述聚合方式的聚合周期，对所述聚合方式针对的业务种类下的行为信息中的属性值进行聚合。

在其中一些可能的实现方式中，所述至少一种聚合方式包括以下任意一项或多项：累加聚合方式，计数聚合方式。相应地，聚合处理模块具体用于：在所述聚合方式为累加聚合方式时，按照所述累加聚合方式的聚合周期对所述累加聚合方式针对的行为信息中的属性值进行累加处理；和/或，在所述聚合方式为计数聚合方式时，按照所述计数聚合方式的聚合周期对所述计数聚合方式针对的行为信息进行计数处理。

在其中一些可选示例中，所述计算方式为比值计算方式时，比值计算方式针对的基础聚合特征包括两个基础聚合特征，所述时间窗口信息为时间窗口单位。相应地，计算处理模块具体用于：基于比值计算方式，对同一时间窗口下所述比值计算方式针对的两个基础聚合特征中的特征值进行比值计算，得到同一时间窗口下的组合特征。

在另一些可选示例中，所述计算方式为差值计算方式时，差值计算方式针对的基础聚合特征包括一个基础聚合特征，所述时间窗口信息包括第一时间窗口和第二时间窗口。相应地，计算处理模块具体用于：基于差值计算方式，计算差值计算方式针对的基础聚合特征中的特征值在第一时间窗口和第二时间窗口下的差值，得到第一时间窗口和第二时间窗口下的组合特征。

在其中一些可能的实现方式中，存储处理模块具体用于：将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签，以Libsvm格式存储在Hive数据库中；和/或，将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及所述至少一类别标签，以TFRecord格式保存在HDFS中。

图4为本公开特征生成装置另一个实施例的结构示意图。如图4所示，与图3所示的实施例相比，该实施例的特征生成装置还包括：确定模块和选取模块。

其中：

确定模块，用于基于待训练的机器学习模型确定所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中各特征的重要性。

选取模块，用于基于所述各特征的重要性从高到低的顺序，从所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征中选取预设数量特征，这样，可以选取出预设数量的、重要性相对较高的特征。

相应地，该实施例中，存储处理模块具体用于：将所述预设数量特征与所述至少一类别标签进行对应存储。

图5为本公开电子设备一个应用实施例的结构示意图。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。如图5所示，电子设备包括一个或多个处理器和存储器。

处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现上文所述的本公开的各个实施例的特征生成方法以及/或者其他期望的功能。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置还可以包括例如键盘、鼠标等等。该输出装置可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出装置等等。

当然，为了简化，图5中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用信息，电子设备还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的特征生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的特征生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种特征生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述聚合方式信息包括至少一种聚合方式、各聚合方式针对的行为信息、各聚合方式的聚合周期；

3.根据权利要求2所述的方法，其特征在于，所述获取用户信息数据库中用户的行为信息，包括：获取用户信息数据库中用户在至少一业务种类下的行为信息；

所述聚合方式信息还包括：各聚合方式针对的业务种类；

4.根据权利要求2或3所述的方法，其特征在于，所述至少一种聚合方式包括以下任意一项或多项：累加聚合方式，计数聚合方式；

5.根据权利要求1-4任一所述的方法，其特征在于，所述计算方式信息包括至少一种计算方式、以及各计算方式针对的基础聚合特征和时间窗口信息。

6.根据权利要求5所述的方法，其特征在于，所述至少一种计算方式包括以下任意一项或多项：比值计算方式，差值计算方式；

7.根据权利要求1-6任一所述的方法，其特征在于，所述将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储，包括：

8.一种特征生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-8任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-8任一所述的方法。