CN110070123A

CN110070123A - 一种目标用户识别装置及服务器

Info

Publication number: CN110070123A
Application number: CN201910301666.3A
Authority: CN
Inventors: 刘岩; 韩丹; 柏小娥; 罗捍兵; 陈友杰; 曲伟海
Original assignee: Beijing Xin Yi Interactive Digital Technology Co Ltd
Current assignee: Beijing Xin Yi Interactive Digital Technology Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-30

Abstract

本申请公开了一种目标用户识别装置及服务器，该装置包括：数据获取模块，用于获取与用户相关的标签数据；学习模块，用于使用所述与用户相关的标签数据进行监督机器学习，得到至少两个监督机器学习模型，该监督机器学习模型用于识别用户是否为目标用户；选择模块，用于在所述至少两个监督机器学习模型中选择至少一个监督机器学习模型；处理模块，用于利用所选择的监督机器学习模型对用户相关的新数据进行处理，以确认该用户是否为目标用户。根据本申请的技术方案，整合了官方网站的数据和其他网站的数据，并将线上数据和线下数据整合，通过机器学习训练模型，并利用得到的模型向目标用户投放广告，提高了目标用户识别的精确度，能够进一步降低转化成本。

Description

一种目标用户识别装置及服务器

技术领域

本申请涉及机器学习领域，尤其涉及一种目标用户识别装置及服务器。

背景技术

随着电子商务的发展，针对用户的在线广告投放是商家获取流量的重要途径之一。一般来说，商家可以通过向曾经访问商家网站或应用的用户投放广告，促使他们进行进一步的购买或其他目标行动，以提高转化率。比如已经将商品放入购物车，但是最终没有结账的用户，或是过去7天到14天注册APP的用户。通过这种有针对性的广告投放，可以利用较低的成本获取更多的客户。

目前，电子商务领域所使用的在线广告投放方案主要依据用户访问网站的数据进行简单的判定，所得到的用户转化率较低，需要精确度更高的目标用户识别方案，以进一步降低转化成本。

发明内容

有鉴于此，本申请提出了一种目标用户识别装置及服务器，以更精确地识别目标用户，降低转化成本，提高目标用户的转化率。

根据本申请的一个方面，提出了一种目标用户识别装置，该装置包括：

数据获取模块，用于获取与用户相关的标签数据；

学习模块，用于使用所述与用户相关的标签数据进行监督机器学习，得到至少两个监督机器学习模型，该监督机器学习模型用于识别用户是否为目标用户；

选择模块，用于在所述至少两个监督机器学习模型中选择至少一个监督机器学习模型；

处理模块，用于利用所选择的监督机器学习模型对用户相关的新数据进行处理，以确认该用户是否为目标用户。

优选地，该装置还包括发送模块，用于根据所述用户相关的新数据向目标用户发送信息。

优选地，该装置还包括确定模块，用于确定与所述目标用户相似的用户；

所述发送模块，还用于根据所述用户相关的新数据向相似用户发送信息。

优选地，所述与用户相关的标签数据包括用户的线上标签数据和用户的线下标签数据。

优选地，所述用户的线上标签数据包括用户的广告标签数据和网站标签数据。

优选地，所述网站标签数据包括第一方Cookie数据，所述广告标签数据包括第三方Cookie数据；

其中，数据获取模块，还用于根据所述第三方Cookie数据与所述第一方Cookie数据将所述网站标签数据和所述广告标签数据关联。

优选地，所述选择模块，还用于根据所述至少两个监督机器学习模型的指标选择至少一个监督机器学习模型，所述指标包括混肴矩阵、正确率、受试者工作特征曲线、查全率、显著性水平、召回率以及提升值中的至少一者。

优选地，所述学习模块，还用于使用所述与用户相关的标签数据中的一部分进行监督机器学习；

所述选择模块，还用于根据所述测试结果以及所述指标选择至少一个监督机器学习模型，其中所述测试结果为所述至少两个监督机器学习模型根据所述与用户相关的标签数据中的另一部分输出的测试结果。

优选地，所述广告标签数据还包括第一方Cookie数据；

数据获取模块，还用于根据网站标签数据包括的第一方Cookie数据以及所述广告标签数据包括的第三方Cookie数据和第一方Cookie数据进行用户数据整合。

本申请实施例提供了一种服务器，该服务器包括所述的目标用户识别装置。

根据本申请的技术方案，整合了官方网站的数据和其他网站的数据，并将线上数据和线下数据整合，通过机器学习训练模型，并利用得到的模型向目标用户投放广告，提高了目标用户识别的精确度，能够进一步降低转化成本。

本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施方式及其说明用于解释本申请。在附图中：

图1为本申请实施例提供的目标用户识别方法；

图2为本申请实施例提供的目标用户识别装置。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施方式及各个实施方式中的特征可以相互组合。

下面将参考附图并结合实施方式来详细说明本申请。

图1示出了本申请提供的目标用户识别方法，该方法包括：

步骤105，获取与用户相关的标签数据；优选地，本申请中所涉及的用户相关的标签数据可以包括线上数据和线下数据；线下数据可以通过客户利用磁盘或者优盘提供，也可以通过数据管理平台进行同步得到；线上数据包括官方网站的Cookie数据以及第三方网站的Cookie数据；本申请中，为了使得用户的数据能够产生关联，需要打通官方网站的数据和第三方网站的数据；随着移动互联网的发展，线上数据和线下数据的分界越来越模糊，例如用户到商家进行消费时产生的数据称为线下数据，例如用户到咖啡馆、快餐店、旅馆，餐馆等等营业场所时，利用手机登录Wi-Fi或者扫描二维码进行消费产生的数据；而线上数据是指用户直接在网上消费产生的数据，例如在京东、淘宝等线上商店消费时产生的数据。

具体而言，官方网站的服务器将针对用户的直接访问官方网站的行为生成Cookie并通过HTTP Header返回到浏览器，浏览器在Cookie Header中包含该已经创建的Cookie，并将第三方网站的Cookie发送至服务器。服务器将用户方位官方网站的数据和该用户访问第三方网站的数据都作为同一个用户的数据。例如，本实施方式通过前端广告环境和后端网站环境的数据交互来实现，可以在后端对应的服务器上设置相应的功能模块来实现，也可以是在现有后端对应服务器所具有的功能模块的基础上做出相应的改进来实现。前端可以是浏览器，浏览器可以具有广告监测工具，该广告监测工具将获取到的前端广告环境下第三方cookie中的用户身份标识列入前端广告环境下的前端用户身份标识。网站监测工具将获取到的后端网站环境下第一方cookie中的用户身份标识列入后端网站环境下的后端用户身份标识；网站监测工具将后端用户身份标识以自定义变量的形式发送至广告监测工具；广告监测工具接收并且存储自定义变量，以获取后端用户身份标识。上述已经创建的Cookie可以为从网站接收的第一方Cookie。网站服务器可以对数据进行整合，将具有相同的第一方Cookie的数据整合为同一个用户的数据。

步骤110，使用与用户相关的标签数据进行监督机器学习，得到至少两个监督机器学习模型，该监督机器学习模型用于识别用户是否为目标用户；具体而言，监督机器学习模型可以有多重，例如选择SVM、决策树、神经网络、逻辑回归等模型，不同的模型的优点和缺点不同，本申请中通过利用标签数据对一个或多个模型进行训练，并对训练后的模型进行评价，选择较优的模型或者最优的模型来处理用户的新数据。SVM模型是一个具有稀疏性和稳健性的分类器，其通过核方法进行非线性分类。决策树模型是一个预测模型，其具有树形结构，每个叶节点可以表示一个输出结果，代表一种类别。神经网络模型包括卷积神经网络模型和循环神经网络模型等，以卷积神经网络为例，其可以包括输入层、隐藏层、激励函数、池化层、全连接层、输出层等，可以用于实现分类。逻辑回归模型是一种广义线性回归模型，常用于二分类。各个模型可以使用SPSS/Knime工具进行创建。

本申请中，可以直接将标签数据对各个模型进行有监督训练，然后对训练得到模型进行评价，也可以将标签数据分为两个部分(优选地，两部分数据的比例为1:1)，一部分标签数据用来训练机器学习模型，另一部分用来测试训练后的模型的性能，并根据测试结果对训练后的模型进行评价。在对训练后的模型进行评价时，可以根据模型的混肴矩阵、正确率、ROC曲线、查全率、模型的显著性水平、召回率、提升值等参数中的一个或多个作为评价的依据。

本申请实施例中，在建立模型时，可以根据历史成交数据为目标，进行有监督机器学习，预测未成交用户未来一段时间内成交的可能性，该可能性如果大于50％，可以将该用户作为目标用户。

步骤115，在至少两个监督机器学习模型中选择至少一个监督机器学习模型；如上所述，可以根据模型的混肴矩阵、正确率、受试者工作特征曲线、查全率、模型的显著性水平、召回率、提升值等参数中的一个或多个作为选择模型的依据，优选地，可以根据正确率作为选择模型的依据，可以选择正确率最高的模型作为最终可以用来处理新数据的模型；

步骤120，利用所选择的监督机器学习模型对用户相关的新数据进行处理，以确认该用户是否为目标用户。在对机器学习模型进行训练完成以后，可以使用该模型处理大量的新数据，该机器学习模型会输出该用户在未来一段时间成交的可能性，如果可能性大于50％，可以将该用户作为目标用户；

此外，本申请实施例中，在确定目标用户以后，可以根据机器学习模型所使用的新数据向该用户发送广告，例如向用户发送与其购物车中相同或类似的物品的广告。此处所谓的新数据是指与标签数据不同的数据。

优选地，本申请实施例中还确定与目标用户相似的用户，并根据用户相关的新数据向相似用户发送信息。具体而言，为了扩大目标用户群体，可以根据已经识别的目标用户的特征，例如性别、年龄、收入、学历、城市、兴趣爱好、家庭成员等，然后根据这些特征在服务其中寻找具有类似特征的用户，得到与目标用户相似的用户，并向该用户发送广告，从而进一步降低转换成本，提高转化率。

可替换地，可以对线上数据和/或线下数据进行清洗和去燥，然后编码和标准化以得到标签数据。在对数据进行标准化时，一般有三种方案：

第一种方案：标准化数据＝(原数据-均值)/标准差；

第二种方案：标准化数据＝(原数据-最小值)/(最大值-最小值)；

第三种方案：小数定标标准化，通过移动数据的小数点位置来进行标准化x'＝x/(10^j)。

本领域技术人员可以根据实际要处理的数据来确定所使用的方案。

为了便于对模型进行训练，需要对自然语言表达的数据进行编码，一例如：男/女、是/否等可编码为0/1，会话时长为0-10秒可以编码为1，会话时长为11-20秒编码为2等等。

相应地，本申请实施例提供了一种目标用户识别装置，如图2所示，该装置包括：数据获取模块，用于获取与用户相关的标签数据；学习模块，用于使用与用户相关的标签数据进行监督机器学习，得到至少两个监督机器学习模型，该监督机器学习模型用于识别用户是否为目标用户；选择模块，用于在至少两个监督机器学习模型中选择至少一个监督机器学习模型；处理模块，用于利用所选择的监督机器学习模型对用户相关的新数据进行处理，以确认该用户是否为目标用户。

此外，该装置还包括发送模块和确定模块，发送模块用于根据用户相关的新数据向目标用户发送信息，确定模块用于确定与目标用户相似的用户。优选地，发送模块还根据用户相关的新数据向相似用户发送信息。选择模块，还用于根据至少两个监督机器学习模型的指标选择至少一个监督机器学习模型，指标包括混肴矩阵、正确率、受试者工作特征曲线、查全率、显著性水平、召回率以及提升值中的至少一者。优选地，学习模块，还用于使用与用户相关的标签数据中的一部分进行监督机器学习；选择模块，还用于根据测试结果以及指标选择至少一个监督机器学习模型，其中测试结果为至少两个监督机器学习模型根据与用户相关的标签数据中的另一部分输出的测试结果。

相应地，本申请提供了一种服务器，该服务器包含上述的目标用户识别装置。该服务器可以为网站的服务器，也可以为专用于用户识别的服务器。

需要说明的是，用户相关的新数据可以是除标签数据之外的数据，例如来自于线上和/或线下的数据，但是用户相关的新数据也可以包含标签数据的一部分或者全部。

以上仅为本申请的较佳实施方式而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标用户识别装置，其特征在于，该装置包括：

数据获取模块，用于获取与用户相关的标签数据；

2.根据权利要求1所述的目标用户识别装置，其特征在于，该装置还包括发送模块，用于根据所述用户相关的新数据向目标用户发送信息。

3.根据权利要求2所述的目标用户识别装置，其特征在于，该装置还包括确定模块，用于确定与所述目标用户相似的用户；

4.根据权利要求1所述的目标用户识别装置，其特征在于，所述与用户相关的标签数据包括用户的线上标签数据和用户的线下标签数据。

5.根据权利要求1所述的目标用户识别装置，其特征在于，所述用户的线上标签数据包括用户的广告标签数据和网站标签数据。

6.根据权利要求5所述的目标用户识别装置，其特征在于，所述网站标签数据包括第一方Cookie数据，所述广告标签数据包括第三方Cookie数据；

7.根据权利要求1-6任意一项所述的目标用户识别装置，其特征在于，所述选择模块，还用于根据所述至少两个监督机器学习模型的指标选择至少一个监督机器学习模型，所述指标包括混肴矩阵、正确率、受试者工作特征曲线、查全率、显著性水平、召回率以及提升值中的至少一者。

8.根据权利要求7所述的目标用户识别装置，其特征在于，所述学习模块，还用于使用所述与用户相关的标签数据中的一部分进行监督机器学习；

9.根据权利要求6所述的目标用户识别装置，其特征在于，所述广告标签数据还包括第一方Cookie数据；

10.一种服务器，其特征在于，该服务器包括根据权利要求1-9任意一项所述的目标用户识别装置。