CN109325806A

CN109325806A - 一种用户信息的处理方法及装置

Info

Publication number: CN109325806A
Application number: CN201811101233.5A
Authority: CN
Inventors: 周小又
Original assignee: Beijing Xiaodu Information Technology Co Ltd
Current assignee: Beijing Xiaodu Information Technology Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-02-12

Abstract

本发明公开了一种用户信息的处理方法及装置，其中，该方法包括：获取包括在预定时间内用户的订单数据和地理位置信息的用户信息；根据用户信息生成包括训练数据集和预测数据集的特征数据集；对训练数据集进行模型训练以生成预测模型；将预测数据集输入到预测模型以得到用户的下单概率；根据用户的下单概率选择特定商户的潜在用户。通过该方法，可以提高选择商户潜在用户的准确性，进而给商户和用户都带来了较好的体验感。

Description

一种用户信息的处理方法及装置

技术领域

本发明公开涉及数据处理领域，具体涉及一种用户信息的处理方法及装置。

背景技术

在当前的外卖平台上，商户通过潜在用户挖掘技术来发现潜在用户，潜在用户挖掘是一种基于用户平台属性建模来预测用户下单概率的技术。用户平台属性是指根据用户的平台行为(如浏览、点击、下单等)来得到用户口味、消费水平等属性特征。目前的潜在用户挖掘技术通过获取在本商户中下过单的用户作为正样本，未下单用户作为负样本，合并用户的平台属性特征(例如客单价，访问频次等)，建立二分类模型对预测集中未下单用户进行预测，得出未下单用户在本商户下单的可能性，根据下单可能性来选择商户的潜在用户。

然而，目前的潜在用户挖掘技术选择潜在用户的准确性较低，给商户和用户都带来了较差的体验感。

发明内容

有鉴于此,本发明实施例提供一种用户信息的处理方法及装置，以解决现有技术中的潜在用户挖掘技术选择潜在用户的准确性较低，进而给商户和用户都带来较差体验感的问题。

根据本发明实施例的第一方面，提供一种用户信息的处理方法，该方法包括：获取用户信息，用户信息包括在预定时间内用户的订单数据和地理位置信息；根据用户信息生成包括训练数据集和预测数据集的特征数据集；对训练数据集进行模型训练以生成预测模型；将预测数据集输入到预测模型以得到用户的下单概率；根据用户的下单概率选择特定商户的潜在用户。

具体地，根据用户信息生成特征数据集包括：根据订单数据中的对于特定商户的下单信息对用户进行标注；根据用户信息生成对应的各用户的特征数据；根据各用户的特征数据和用户标注生成特征数据集。

具体地，根据用户信息生成对应的各用户的特征数据包括：根据用户信息获取多个数据项；根据数据项的数据类型进行数据项特征提取以获取对应的特征项，其中，数据项的数据类型包括单值离散特征数据和多值离散特征数据；根据各数据项的特征项生成特征数据。

具体地，根据数据项的数据类型进行数据项特征提取以获取对应的特征项包括：响应于数据项的数据类型为单值离散特征数据，执行独热编码操作来进行数据项特征提取以获取对应的特征项；响应于数据项的数据类型为多值离散特征数据，执行文章向量操作来进行数据项特征提取以获取对应的特征项。

具体地，根据各用户的特征数据和用户标注生成特征数据集包括：将用户标注为用户在特定商户下过单的用户的特征数据和用户标注、及预定数量的用户标注为用户在特定商户未下过单的用户的特征数据和用户标注划分为训练数据集；将剩余的用户标注为用户在特定商户未下过单的用户的特征数据和用户标注划分为预测数据集。

优选地，通过如下方式来选择地理位置信息：在预定时间内根据用户出现频率来选择地理位置信息，其中，地理位置信息包括以下至少之一:用户位置经纬度、感兴趣区域信息和兴趣点信息。

优选地，特征数据集中的数据包括：用户标注、特征项对应的特征项编号、特征项对应的特征项值。

优选地，上述方法还包括：当特征项对应的特征项值为零时，省略特征项对应的特征项编号和特征项值。

优选地，通过如下方式省略特征项对应的特征项编号和特征项值：对特征数据集中的数据应用libsvm数据格式。

优选地，对训练数据集进行模型训练以生成预测模型包括：对训练数据集进行二分类模型训练以生成预测模型。

优选地，对训练数据集进行模型训练以生成预测模型包括：基于XGBoost算法对训练数据集进行二分类模型训练以生成预测模型。

优选地，根据用户的下单概率确定商户的潜在用户包括：对用户的下单概率进行排序；根据排序结果选择商户的潜在用户。

根据本发明实施例的第二方面，提供用户信息的处理装置，该装置包括：用户信息获取单元，用于获取用户信息，用户信息包括在预定时间内用户的订单数据和地理位置信息；特征数据集生成单元，用于根据用户信息生成包括训练数据集和预测数据集的特征数据集；预测模型生成单元，用于对训练数据集进行模型训练以生成预测模型；下单概率获得单元，用于将预测数据集输入到预测模型以得到用户的下单概率；潜在用户选择单元，用于根据用户的下单概率选择特定商户的潜在用户。

具体地，特征数据集生成单元包括：标注操作模块，用于根据订单数据中的对于特定商户的下单信息对用户进行标注；特征数据生成模块，用于根据用户信息生成对应的各用户的特征数据；特征数据集生成模块，用于根据各用户的特征数据和用户标注生成特征数据集。

具体地，特征数据生成模块包括：数据项获取子模块，用于根据用户信息获取多个数据项；特征项获取子模块，用于根据数据项的数据类型进行数据项特征提取以获取对应的特征项，其中，数据项的数据类型包括单值离散特征数据和多值离散特征数据；特征数据生成子模块，用于根据各数据项的特征项生成特征数据。

上述特征项获取子模块具体用于：响应于数据项的数据类型为单值离散特征数据，执行独热编码操作来进行数据项特征提取以获取对应的特征项；响应于数据项的数据类型为多值离散特征数据，执行文章向量操作来进行数据项特征提取以获取对应的特征项。

具体地，特征数据集生成模块包括：训练数据集划分子模块，用于将用户标注为用户在特定商户下过单的用户的特征数据和用户标注、及预定数量的用户标注为用户在特定商户未下过单的用户的特征数据和用户标注划分为训练数据集；预测数据集划分子模块，用于将剩余的用户标注为用户在特定商户未下过单的用户的特征数据和用户标注划分为预测数据集。

优选地，用户信息获取单元包括：地理位置信息选择模块，用于在预定时间内根据用户出现频率来选择地理位置信息，其中，地理位置信息包括以下至少之一:用户位置经纬度、感兴趣区域信息和兴趣点信息。

优选地，上述装置还包括：特征项省略单元，用于当特征项对应的特征项值为零时，省略特征项对应的特征项编号和特征项值。

优选地，特征项省略单元通过如下方式省略特征项对应的特征项编号和特征项值：对特征数据集的数据应用libsvm数据格式。

优选地，预测模型生成单元具体用于：对训练数据集进行二分类模型训练以生成预测模型。

优选地，预测模型生成单元具体用于：基于XGBoost算法对训练数据集进行二分类模型训练以生成预测模型。

优选地，潜在用户选择单元包括：排序模块，用于对用户的下单概率进行排序；潜在用户选择模块，用于根据排序结果选择商户的潜在用户。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储计算机程序指令，其中，计算机程序指令在被处理器执行时实现如第一方面的方法。

根据本发明实施例的第四方面，提供一种电子设备，包括存储器和处理器，其中，存储器用于存储一条或多条计算机程序指令，其中，一条或多条计算机程序指令被处理器执行以实现如第一方面的方法。

本发明实施例通过根据获取的用户信息生成特征数据集，对特征数据集中的训练数据集进行模型训练，之后将特征数据集中的预测数据集输入到训练好的模型中，以得到用户下单概率，之后根据下单概率选择潜在用户，由于用户信息中包含了现有技术中没有的用户地理位置信息，因而，相比于现有技术，通过本发明实施例选择的商户潜在用户的准确性较高，进而给商户和用户都带来了较好的体验感。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是根据本发明实施例的用户信息的处理方法的流程图；

图2是根据本发明实施例的商户潜在用户挖掘流程示意图；

图3是根据本发明实施例的用户信息的处理装置的结构框图；

图4是根据本发明实施例的特征数据集生成单元302的结构框图；

图5是根据本发明实施例的潜在用户选择单元305的结构框图；

图6是根据本发明实施例的商户潜在用户挖掘装置示意图；

图7是根据本发明实施例的商户潜在用户挖掘装置应用场景示意图；

图8是根据本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是根据本发明实施例的用户信息的处理方法，如图1所示，该方法包括：

步骤101，获取用户信息，该用户信息包括在预定时间内用户的订单数据和地理位置信息；

步骤102，根据用户信息生成包括训练数据集和预测数据集的特征数据集；

步骤103，对训练数据集进行模型训练以生成预测模型；

步骤104，将预测数据集输入到预测模型以得到用户的下单概率；

步骤105，根据用户的下单概率选择特定商户的潜在用户。

这里的用户地理位置信息可以是用户的经纬度、感兴趣区域(area of interest，aoi)、兴趣点(Point of Interest，poi)等信息，可以通过在预定时间内用户出现的频率来选择。例如，在90天时间内，可以选择用户最常出现的5个aoi信息来作为用户的地理位置信息，或者选择用户最常出现的5个poi信息来作为用户的地理位置信息，再或者选择用户最常出现的10个经纬度信息来作为用户的地理位置信息。

在步骤102中，根据用户信息生成特征数据集具体包括：(1)根据订单数据中的对于特定商户的下单信息对用户进行标注；(2)根据用户信息生成对应的各用户的特征数据；(3)根据各用户的特征数据和用户标注生成特征数据集。对用户进行标注可以是，例如在特定商户下过单则将用户标注为1，未下单则标注为0。

上述(2)根据用户信息生成对应的各用户的特征数据包括：根据用户信息获取多个数据项；根据数据项的数据类型进行数据项特征提取以获取对应的特征项，其中，数据项的数据类型包括单值离散特征数据和多值离散特征数据；根据各数据项的特征项生成特征数据。

根据数据项的数据类型进行数据项特征提取以获取对应的特征项包括：响应于数据项的数据类型为单值离散特征数据，执行独热编码(one-hot编码，又称一位有效编码)操作来进行数据项特征提取以获取对应的特征项；响应于数据项的数据类型为多值离散特征数据，执行文章向量(Doc2Vec,Document to Vector)操作来进行数据项特征提取以获取对应的特征项。

其中，离散特征是指以整数位取值并可以按一定顺序一一列举的特征，单值离散特征数据是指每个特征值只有一个取值，例如A的性别＝[1]，B的性别＝[0]；多值离散特征数据是指每个特征值有一个或者多个取值，例如A的爱好＝[看书]，B的爱好＝[看书，游泳，跑步]。

在现有技术中，对于多值离散特征数据进行的是one-hot操作，执行one-hot操作时，特征之间是相互独立的，没有考虑多个特征之间的联系，例如，川菜跟湖南菜其实是有一定相似的，但是进行one-hot操作之后并不能体现这种相似性。并且，对多值离散特征数据进行one-hot操作之后，特征的维数较大，计算复杂度较高。

而在本发明实施例中，通过对多值离散特征数据进行Doc2Vec操作，可以体现特征与特征之间的联系，并且可以减小计算的复杂度。

在步骤102的(3)中，根据各用户的特征数据和用户标注生成特征数据集包括：将用户标注为用户在特定商户下过单的用户的特征数据和用户标注、及预定数量的用户标注为用户在特定商户未下过单的用户的特征数据和用户标注划分为训练数据集；将剩余的用户标注为用户在特定商户未下过单的用户的特征数据和用户标注划分为预测数据集。这里的预定数量可以根据实际操作来确定。

例如，通过如下方式来划分训练数据集和预测数据集：标注下过单则label为1，未下单label为0，训练数据集是label为1(正样本)的用户及其特征加上随机抽样4倍正样本数量的label为0(负样本)的用户及其特征，预测数据集是剩下的label为0的所有用户及其特征。例如，获取到100个用户，有10个label为1，90个label为0，则训练数据集是label为1的所有用户数据再加上随机抽取的40个label为0的用户数据作为训练数据集，剩下50个label为0的用户数据则属于预测数据集。

优选地，当上述特征项对应的特征项值为零时，省略该特征项对应的特征项编号和特征项值，这样可以使数据更精简。具体而言，可以通过对特征数据集中的数据应用libsvm数据格式来实现该省略流程，由于libsvm格式可以省略稀疏特征，因而可以让数据更精简。

在步骤103中，优选地可以对训练数据集进行二分类模型训练来生成预测模型，具体而言，可以基于XGBoost(Extreme Gradient Boosting)算法对训练数据集进行二分类模型训练来生成预测模型。XGBoost算法是通过将多个弱分类器组合为强分类器来提高精度的算法。通过使用XGBoost算法来训练模型，可以提高预测的准确性。

在步骤105中，可以对用户的下单概率进行排序；然后根据排序结果选择商户的潜在用户。

为了更好地理解本发明实施例，以下结合图2给出一个实例，图2是根据本发明实施例的商户潜在用户挖掘流程示意图，如图2所示，该流程包括：

步骤201，获取订单数据：

获取所有用户在90天内的订单数据，如果用户90天之内在本商户下过单则label(标注)为1，未下单则label为0，输出例如[用户id，label]的数据。

步骤202，获取用户特征：

获取用户的地理位置、菜式口味、平台属性等特征(具体的数据项名称见如下表1)，输出例如[用户id，value1，value2...]的数据，并与上述步骤201中输出的数据以用户id为主键进行合并，得到标注过的用户信息[用户id，value1，value2...，label1]。

步骤203，对标注过的用户信息处理：

根据数据项的数据类型进行数据项特征提取以获取对应的特征项，即，对用户信息中的单值离散特征数据和多值离散特征数据分别进行处理以获取对应的特征项，之后根据各数据项的特征项生成特征数据。

对于单值离散特征数据，先对不连续的数字或者文本进行标签编码(Label-Encoder)，假设有一个特征有n类，标签编码是将标签分配一个0至n-1之间的整数编码，之后再对标签编码过的特征进行one-hot编码，即，将离散型特征的每一种取值都看成一种状态，若这一特征中有N个不相同的取值，那么就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。例如，特征则用标签编码处理过之后特征再用one-hot编码之后

对于多值离散特征数据，将每个用户的多值离散特征看成一个文档(doc)，例如，A用户＝[川菜|辣|水煮肉片],输入Doc2Vec进行词嵌入(Word Embedding)训练，设置调整参数，得到一个20维的向量数据A＝[0.8，0.4，...,0.9]。通过将多值离散特征数据输出的向量长度设置为20，可以减小计算的复杂度。这里的词嵌入是指一种将词学习成一个稠密向量的方法,单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量。

具体地，表1示出了用户信息中的数据项名称，以及根据数据项的数据类型进行的相应处理，如表1所示：

表1

步骤204，划分训练集与预测集：

将上述步骤203处理后的数据根据标注(label)划分成训练集与预测集，生成libsvm格式的数据，libsvm使用的数据文件格式如下：[label][index1]:[value1][index2]:[value2]…，其中label是标签，用于标注样本数据是否下过单；index是特征编号，可以按照升序排列；value是特征值，如果特征值为0，则index与value都会省略。

步骤205，模型训练：

将训练集数据用于模型训练，在模型选择上，XGBoost算法在预测二分类问题上表现出优秀的准确率以及稳健性，因此将XGBoost算法作为建模算法。输入上一步生成的训练集数据，运用5折交叉验证，将参数调整到最优，并保存模型。

步骤206，预测结果：

将预测集数据输入到训练得到的模型中，预测用户在本商户下单概率，之后，按照概率对预测集用户进行降序排列，取排名较前的用户作为最终的潜在用户。

由以上描述可知，本发明实施例通过将用户的地理信息、菜式口味、平台属性作为特征，基于XGBoost的二分类学习模型学习得到用户在本商户的下单可能性，从而可以提高挖掘潜在用户的准确率，同时，通过词嵌入方法处理多值离散特征数据，考虑了特征之间的语义信息，不仅保留了特征与特征之间的关系，而且减少了特征的维度，从而减小了计算复杂度。并且，本发明实施例采样libsvm数据格式生成训练集与预测集数据，省略了稀疏特征的表达，进一步减小了计算复杂度，提高了运行的效率。

图3是根据本发明实施例的用户信息的处理装置的结构框图，如图3所示，该装置包括：用户信息获取单元301、特征数据集生成单元302、预测模型生成单元303、下单概率获得单元304和潜在用户选择单元305，其中：

用户信息获取单元301，用于获取用户信息，其中，用户信息包括在预定时间内用户的订单数据和地理位置信息；

特征数据生成单元302，用于根据用户信息生成包括训练数据集和预测数据集的特征数据；

预测模型生成单元303，用于对训练数据集进行模型训练以生成预测模型；

下单概率获得单元304，用于将预测数据集输入到预测模型以得到用户的下单概率；

潜在用户选择单元305，用于根据用户的下单概率选择商户的潜在用户。

通过特征数据集生成单元302根据用户信息获取单元301获取的用户信息生成特征数据集，预测模型生成单元303对特征数据集中的训练数据集进行模型训练，之后下单概率获得单元304将特征数据中的预测数据集输入到训练好的模型中，以得到用户下单概率，之后潜在用户选择单元305根据下单概率选择潜在用户，由于用户信息中包含了现有技术中没有的用户地理位置信息，因而，相比于现有技术，通过本发明实施例选择的商户潜在用户的准确性较高，进而给商户和用户都带来了较好的体验感。

上述用户信息获取单元301包括：地理位置信息选择模块(图中未示出)，用于在预定时间内根据用户出现频率来选择地理位置信息，其中，地理位置信息包括以下至少之一:用户位置经纬度、感兴趣区域信息和兴趣点信息。

具体地，如图4所示，特征数据集生成单元302包括：标注操作模块3021、特征数据生成模块3022和特征数据集生成模块3023，其中：标注操作模块3021，用于根据订单数据中的对于特定商户的下单信息对用户进行标注；特征数据生成模块3022，用于根据用户信息生成对应的各用户的特征数据；特征数据集生成模块3023，用于根据各用户的特征数据和用户标注生成特征数据集。这里的特征数据集中的数据为libsvm格式数据，libsvm格式省略了稀疏特征，可以让数据更精简。

上述特征数据生成模块3022具体包括：数据项获取子模块30221、特征项获取子模块30222和特征数据生成子模块30223，其中，数据项获取子模块30221，用于根据用户信息获取多个数据项；特征项获取子模块30222，用于根据数据项的数据类型进行数据项特征提取以获取对应的特征项，其中，数据项的数据类型包括单值离散特征数据和多值离散特征数据；特征数据生成子模块30223，用于根据各数据项的特征项生成特征数据。

特征项获取子模块30222具体用于：响应于数据项的数据类型为单值离散特征数据，执行one-hot操作来进行数据项特征提取以获取对应的特征项；响应于数据项的数据类型为多值离散特征数据，执行Doc2Vec操作来进行数据项特征提取以获取对应的特征项。在本发明实施例中，通过对多值离散特征数据进行Doc2Vec操作，可以体现特征与特征之间的联系，并且可以减小计算的复杂度。

特征数据集生成模块3023包括：训练数据集划分子模块30231和预测数据集划分子模块30232，其中，训练数据集划分子模块，用于将用户标注为用户在特定商户下过单的用户的特征数据和用户标注、及预定数量的用户标注为用户在特定商户未下过单的用户的特征数据和用户标注划分为训练数据集；预测数据集划分子模块，用于将剩余的用户标注为用户在特定商户未下过单的用户的特征数据和用户标注划分为预测数据集。

在具体实施过程中，上述装置还可以包括特征项省略单元(图中未示出)，用于当特征项对应的特征项值为零时，省略特征项对应的特征项编号和特征项值，这样可以使数据更精简。优选地，特征项省略单元可以通过对特征数据集的数据应用libsvm数据格式来实施该省略流程，libsvm格式可以省略稀疏特征，因而可以让数据更精简。

在实际操作中，预测模型生成单元303具体用于：对训练数据集进行二分类模型训练以生成预测模型。具体而言，预测模型生成单元303基于XGBoost算法对训练数据集进行二分类模型训练以生成预测模型。

优选地，如图5所示，潜在用户选择单元305包括：排序模块3051和潜在用户选择模块3052，其中：排序模块3051，用于对用户的下单概率进行排序；潜在用户选择模块3052，用于根据排序结果选择商户的潜在用户。

图6是根据本发明实施例的商户潜在用户挖掘装置示意图，如图6所示，该装置包括六个模块，具体为：数据获取模块601、特征提取模块602、特征工程模块603、训练集预测集划分模块604、模型训练模块605和预测模块606，其中：

数据获取模块601收集线上特定商户的90天的订单数据，用于标注每一用户是否在该商户下单；特征提取模块602提取用户属性特征(包括用户地理位置、菜式口味、平台属性等数据)，并与订单数据合并，产生标注数据；特征工程模块603对单值离散特征数据进行one-hot离散化，对多值离散特征数据进行Doc2Vec处理；训练集预测集划分模块604在划分训练集预测集之后，生成libsvm格式数据；模型训练模块605负责接收训练集的样本，并基于XGBoost算法进行二分类模型训练，保存模型训练结果；预测模块606负责利用训练得到的二分类模型预测用户在本商户下单的概率。

图7是根据本发明实施例的商户潜在用户挖掘装置应用场景示意图，如图7所示，对于特定商户，90天内有N位用户的订单数据，数据获取模块601收集线上这些用户的订单数据，标注每一位用户是否在该商户下单；特征提取模块602分别提取N位用户属性特征(包括用户地理位置、菜式口味、平台属性等数据)，并与订单数据合并，产生标注数据；通过特征工程模块603、训练集预测集划分模块604以及模型训练模块605的处理，预测模块606预测N位用户在本商户下单的概率，经过降序排列，商户的潜在用户前三位为用户5、用户7、用户9，其他潜在用户图中未示出，其中，用户M为排序为最后一位的用户。商户可以根据自己意愿选取合适的潜在用户，之后可以给这些潜在用户推送各种活动信息，以增加商户订单，而潜在用户也可以接收到满意的活动信息，如此，给商户和用户都带来了较好的体验感。

上述各单元、各模块和各子模块的具体执行可以参见上述方法实施例中的描述，此处不再赘述。

图8是根据本发明实施例的电子设备的示意图。图8所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器801和存储器802。处理器801和存储器802通过总线803连接。存储器802适于存储处理器801可执行的指令或程序。处理器801可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器801通过执行存储器802所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线803将上述多个组件连接在一起，同时将上述组件连接到显示控制器804和显示装置以及输入/输出(I/O)装置805。输入/输出(I/O)装置805可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置805通过输入/输出(I/O)控制器806与系统相连。

其中，存储器802可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

综上所述，本发明实施例提出的用户信息处理方案，可应用于挖掘商户潜在用户，通过将在本商户中下过单的用户作为正样本，未下单用户作为负样本，将用户的地理位置、菜式口味以及平台属性等作为特征，分别构建训练集和预测集，通过使用XGBoost算法对训练集进行训练，得到二分类模型，再对预测集中的未下单用户进行预测，得出未下单用户在本商户的下单可能性，根据下单可能性进行排序来选择商户的潜在用户。相比于现有技术，本发明实施例通过将用户的地理位置特征处理后加入特征中，可以提高对潜在用户预测的准确率，从具体实验结果上看，挖掘用户的准确率能达到84％，比现有技术提高了4％的准确率，进而给商户和用户都带来了较好的体验感。同时，在处理多值离散特征数据时，本发明实施例应用了Doc2Vec进行词嵌入(Word Embedding)操作，这样可以表达特征与特征之间的联系，而且通过减少特征的维度，可以减小计算的复杂度，节约整个流程的计算时间。以及，通过运用libsvm数据格式生成训练集和预测集数据，省略了稀疏特征的表达，进一步减小了计算复杂度，提高了运行的效率。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实现方式、完全软件实现方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实现方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明实施例公开了A1、一种用户信息的处理方法，其中，所述方法包括：

获取用户信息，所述用户信息包括在预定时间内用户的订单数据和地理位置信息；

根据所述用户信息生成包括训练数据集和预测数据集的特征数据集；

对所述训练数据集进行模型训练以生成预测模型；

将所述预测数据集输入到所述预测模型以得到所述用户的下单概率；以及

根据所述用户的下单概率选择特定商户的潜在用户。

A2、根据A1所述的用户信息的处理方法，其中，根据所述用户信息生成所述特征数据集包括：

根据所述订单数据中的对于所述特定商户的下单信息对所述用户进行标注；

根据所述用户信息生成对应的各用户的特征数据；

根据各用户的特征数据和用户标注生成所述特征数据集。

A3、根据A2所述的用户信息的处理方法，其中，根据所述用户信息生成对应的各用户的特征数据包括：

根据所述用户信息获取多个数据项；

根据所述数据项的数据类型进行数据项特征提取以获取对应的特征项，其中，所述数据项的数据类型包括单值离散特征数据和多值离散特征数据；

根据各数据项的特征项生成所述特征数据。

A4、根据A3所述的用户信息的处理方法，其中，根据所述数据项的数据类型进行数据项特征提取以获取对应的特征项包括：

响应于所述数据项的数据类型为单值离散特征数据，执行独热编码操作来进行数据项特征提取以获取对应的特征项；

响应于所述数据项的数据类型为多值离散特征数据，执行文章向量操作来进行数据项特征提取以获取对应的特征项。

A5、根据A2所述的用户信息的处理方法，其中，根据各用户的特征数据和用户标注生成所述特征数据集包括：

将所述用户标注为用户在所述特定商户下过单的用户的特征数据和用户标注、及预定数量的所述用户标注为用户在所述特定商户未下过单的用户的特征数据和用户标注划分为训练数据集；

将剩余的所述用户标注为用户在所述特定商户未下过单的用户的特征数据和用户标注划分为预测数据集。

A6、根据A1所述的用户信息的处理方法，其中，通过如下方式来选择所述地理位置信息：

在所述预定时间内根据用户出现频率来选择所述地理位置信息，其中，所述地理位置信息包括以下至少之一:用户位置经纬度、感兴趣区域信息和兴趣点信息。

A7、根据A4所述的用户信息的处理方法，其中，所述方法还包括：

当所述特征项对应的特征项值为零时，省略所述特征项对应的特征项编号和特征项值。

A8、根据A7所述的用户信息的处理方法，其中，通过如下方式省略所述特征项对应的特征项编号和特征项值：

对所述特征数据集中的数据应用libsvm数据格式。

A9、根据A1所述的用户信息的处理方法，其中，对所述训练数据集进行模型训练以生成预测模型包括：

对所述训练数据集进行二分类模型训练以生成预测模型。

A10、根据A9所述的用户信息的处理方法，其中，对所述训练数据集进行模型训练以生成预测模型包括：

基于XGBoost算法对所述训练数据集进行二分类模型训练以生成所述预测模型。

A11、根据A1所述的用户信息的处理方法，其中，根据所述用户的下单概率确定商户的潜在用户包括：

对所述用户的下单概率进行排序；

根据排序结果选择所述商户的潜在用户。

本发明实施例还公开了B1、一种用户信息的处理装置，其中，所述装置包括：

用户信息获取单元，用于获取用户信息，所述用户信息包括在预定时间内用户的订单数据和地理位置信息；

特征数据集生成单元，用于根据所述用户信息生成包括训练数据集和预测数据集的特征数据集；

预测模型生成单元，用于对所述训练数据集进行模型训练以生成预测模型；

下单概率获得单元，用于将所述预测数据集输入到所述预测模型以得到所述用户的下单概率；以及

潜在用户选择单元，用于根据所述用户的下单概率选择特定商户的潜在用户。

B2、根据B1所述的用户信息的处理装置，其中，所述特征数据集生成单元包括：

标注操作模块，用于根据所述订单数据中的对于所述特定商户的下单信息对所述用户进行标注；

特征数据生成模块，用于根据所述用户信息生成对应的各用户的特征数据；

特征数据集生成模块，用于根据各用户的特征数据和用户标注生成所述特征数据集。

B3、根据B2所述的用户信息的处理装置，其中，所述特征数据生成模块包括：

数据项获取子模块，用于根据所述用户信息获取多个数据项；

特征项获取子模块，用于根据所述数据项的数据类型进行数据项特征提取以获取对应的特征项，其中，所述数据项的数据类型包括单值离散特征数据和多值离散特征数据；

特征数据生成子模块，用于根据各数据项的特征项生成所述特征数据。

B4、根据B3所述的用户信息的处理装置，其中，所述特征项获取子模块具体用于：

B5、根据B2所述的用户信息的处理装置，其中，所述特征数据集生成模块包括：

训练数据集划分子模块，用于将所述用户标注为用户在所述特定商户下过单的用户的特征数据和用户标注、及预定数量的所述用户标注为用户在所述特定商户未下过单的用户的特征数据和用户标注划分为训练数据集；

预测数据集划分子模块，用于将剩余的所述用户标注为用户在所述特定商户未下过单的用户的特征数据和用户标注划分为预测数据集。

B6、根据B1所述的用户信息的处理装置，其中，所述用户信息获取单元包括：

地理位置信息选择模块，用于在所述预定时间内根据用户出现频率来选择所述地理位置信息，其中，所述地理位置信息包括以下至少之一:用户位置经纬度、感兴趣区域信息和兴趣点信息。

B7、根据B4所述的用户信息的处理装置，其中，所述装置还包括：

特征项省略单元，用于当所述特征项对应的特征项值为零时，省略所述特征项对应的特征项编号和特征项值。

B8、根据B7所述的用户信息的处理装置，其中，所述特征项省略单元通过如下方式省略所述特征项对应的特征项编号和特征项值：

对所述特征数据集的数据应用libsvm数据格式。

B9、根据B1所述的用户信息的处理装置，其中，所述预测模型生成单元具体用于：

对所述训练数据集进行二分类模型训练以生成预测模型。

B10、根据B9所述的用户信息的处理装置，其中，所述预测模型生成单元具体用于：

B11、根据B1所述的用户信息的处理装置，其中，所述潜在用户选择单元包括：

排序模块，用于对所述用户的下单概率进行排序；

潜在用户选择模块，用于根据排序结果选择所述商户的潜在用户。

本发明实施例还公开了C1、一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现A1-A11中任一项所述的方法。

本发明实施例还公开了D1、一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现A1-A11中任一项所述的方法。

Claims

1.一种用户信息的处理方法，其特征在于，所述方法包括：

对所述训练数据集进行模型训练以生成预测模型；

根据所述用户的下单概率选择特定商户的潜在用户。

2.根据权利要求1所述的用户信息的处理方法，其特征在于，根据所述用户信息生成所述特征数据集包括：

根据所述用户信息生成对应的各用户的特征数据；

根据各用户的特征数据和用户标注生成所述特征数据集。

3.根据权利要求2所述的用户信息的处理方法，其特征在于，根据所述用户信息生成对应的各用户的特征数据包括：

根据所述用户信息获取多个数据项；

根据各数据项的特征项生成所述特征数据。

4.根据权利要求3所述的用户信息的处理方法，其特征在于，根据所述数据项的数据类型进行数据项特征提取以获取对应的特征项包括：

5.根据权利要求1所述的用户信息的处理方法，其特征在于，通过如下方式来选择所述地理位置信息：

6.一种用户信息的处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的用户信息的处理装置，其特征在于，所述特征数据集生成单元包括：

8.根据权利要求7所述的用户信息的处理装置，其特征在于，所述特征数据生成模块包括：

9.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-5中任一项所述的方法。