CN104239351B

CN104239351B - 一种用户行为的机器学习模型的训练方法及装置

Info

Publication number: CN104239351B
Application number: CN201310247161.6A
Authority: CN
Inventors: 何宪; 殷维栋; 孟晓楠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-06-20
Filing date: 2013-06-20
Publication date: 2017-12-19
Anticipated expiration: 2033-06-20
Also published as: CN104239351A

Abstract

本发明公开了一种用户行为的机器学习模型的训练方法及装置，无需特征降维即可解决数据稀疏问题，提高用户行为预测的准确性。该方法包括：收集用户的历史访问数据；将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合，形成多个样本；计算每一样本对应的用户行为统计信息，用户行为统计信息包括用户流量数；当当前样本对应的用户流量数小于流量数第一阈值时，计算当前样本与其他样本的距离；选择距离小于距离阈值的其他样本作为当前样本的邻近样本；将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本；使用新样本训练预先建立的机器学习模型，机器学习模型用于根据特征集在各维度下的特征值预测用户行为。

Description

一种用户行为的机器学习模型的训练方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种用户行为的机器学习模型的训练方法及装置。

背景技术

非搜索广告是区别于搜索引擎中所投放的关键词广告而言的。

在信息推荐方案中，包括基于关键词的信息推荐方式及基于用户访问历史的信息推荐方式。基于关键词的信息推荐方式是根据用户在搜索引擎中输入的关键词来确定向用户推送的信息。基于用户访问历史的信息推荐方式则根据用户的历史访问日志向用户推送用户可能感兴趣的信息。

信息投放平台是为网站主和信息投放者提供信息投放服务的中介平台。信息投放平台可以使信息投放者更简单便捷地选择信息投放方式及信息投放对象。在信息投放平台中，信息投放者提供需要投放的信息内容或数据。

基于用户访问历史的信息推荐方式中，当用户访问某个网站时，信息投放平台收集用户的cookie信息、网站类型、IP地址等多维度信息。信息投放平台根据这些信息为进行页面访问的当前用户确定推送的信息内容。此场景的核心在于用户的历史行为的统计分析，根据用户的历史行为的统计分析挖掘用户的偏好或可能感兴趣的内容。

目前，业界可以基于用户的历史数据建立统计模型，并使用模型预测用户行为偏好。用户的历史数据是包含了在各个维度上的特征集的样本集合，每一个样本（或样本点）记录了特征集，每个样本与用户行为的统计信息（比如页面访问量、点击率等统计信息对应，以键（key）-值对形式表示，如表1所示。特征集和统计值是由需求方平台根据竞价日志记录得到。

表1、特征集与统计值的关系示例

通常，流量（即用户访问数）或点击率可以用来评价用户行为倾向。但是当样本集中特征维数过大或者样本数量不足时，将会导致某些特征集所对应的“流量数”太小，这里称之为数据稀疏。数据稀疏将会直接导致统计信息不足，从而使用户行为预测的准确度降低。

业界处理数据稀疏问题普遍方法是特征降维，即从初始高维特征集中筛选出低维特征集，缩减特征集的个数。通过对样本集进行特征降维，可以在一定程度上增大特征集所对应的“流量数”，增强统计信息，从而使用户行为预测更加有效。虽然这能在一定程度上解决统计信息不足的问题，但是它并不是解决此问题的根本之道。该技术主要存在以下不足之处：

1）用户行为预测的准确性依赖于合理的特征维数。如果特征维数过高，那么样本集将被划分得很稀疏，大多数特征集所对应的“流量数”太小，统计信息不足；如果特征维数过低，大多数特征集所对应的“流量数”过大，统计信息中蕴含了大量噪声。以上两种情况都将降低用户行为预测准确性；

2）采用特征降维虽然达到了增强统计信息的目的，但同时却忽略了被去除的特征对统计值的影响。根据信息论中的观点，事物之间普通存在着信息联系，被去除特征与统计值也应该存在着某种因果联系；

3）特征降维依然不能彻底解决某些特殊特征集所对应的“流量数”过小的问题，因为这是该样本集具有的自然属性。

发明内容

本发明要解决的技术问题是提供一种用户行为的机器学习模型的训练方法及装置，无需特征降维即可解决数据稀疏问题，提高用户行为预测的准确性。

为解决上述技术问题，本发明提供了一种用户行为的机器学习模型的训练方法，包括：

收集用户的历史访问数据；

将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合，形成多个样本；

计算每一样本对应的用户行为统计信息，所述用户行为统计信息包括用户流量数；

当当前样本对应的用户流量数小于流量数第一阈值时，计算当前样本与其他样本的距离，所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定；

选择距离小于距离阈值的其他样本作为当前样本的邻近样本；

将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本；

使用新样本训练预先建立的机器学习模型，所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。

进一步地，所述将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合，形成多个样本，包括：选择一个或多个维度作为基准维度；将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。

进一步地，所述特征集包括用户的特征及用户访问的对象的特征。

进一步地，所述用户的特征包括：用户的IP地址信息、用户行为的时间信息及用户的类型中的一种或多种维度。

进一步地，所述用户访问的对象的特征包括：该对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息中的一种或多种维度。

进一步地，所述计算当前样本与其他样本的距离，包括：采用下式计算当前样本与其他样本的距离：

其中，Distance(key1,key2)表示当前样本与其他样本的距离；W_i为特征集中第i个维度的权重，n为特征集的总维度数，分别为当前样本和其他样本在第i个维度对应的特征的特征值。

进一步地，所述选择距离小于距离阈值的其他样本作为当前样本的邻近样本后，所述方法还包括：过滤邻近样本，一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时，停止过滤。

为解决上述技术问题，本发明还提供了一种用户行为的机器学习模型的训练装置，包括数据收集单元、样本形成单元、统计信息计算单元、距离计算单元、邻近样本选择单元和训练单元，其中：

所述数据收集单元，用于收集用户的历史访问数据；

所述样本形成单元，用于将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合，形成多个样本；

所述统计信息计算单元，用于计算每一样本对应的用户行为统计信息，所述用户行为统计信息包括用户流量数；

所述距离计算单元，用于当当前样本对应的用户流量数小于流量数第一阈值时，计算当前样本与其他样本的距离，所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定；

所述邻近样本选择单元，用于选择距离小于距离阈值的其他样本作为当前样本的邻近样本；

所述训练单元，用于将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本，使用新样本训练预先建立的机器学习模型，所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。

进一步地，所述样本形成单元将用户的历史访问数据按照包含有一个后多个维度的特征集进行分类聚合，形成多个样本，包括：所述样本形成单元选择一个或多个维度作为基准维度，将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。

进一步地，所述距离计算单元计算当前样本与其他样本的距离，包括：所述距离计算单元采用下式计算当前样本与其他样本的距离：

进一步地，所述邻近样本选择单元还用于在选择距离小于距离阈值的其他样本作为当前样本的邻近样本后，过滤邻近样本，一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时，停止过滤。

本申请方法及装置，通过将当前样本与邻近样本的用户行为统计信息进行合并解决数据稀疏的问题，即在保持特征维度完整性的条件下，通过机器学习算法来增强统计信息，降低噪声干扰，极大地提高了用户行为预测的准确性。

在非搜索广告投放场景下，预测用户行为是一件具有重大意义的技术问题，它不仅会影响广告的报价策略，而且也影响着广告的分配策略。本申请尤其适用于非搜索广告投放场景中用户行为的预测。

附图说明

图1为本发明实施例1流程图；

图2为本发明实施例1装置结构示意图；

图3为最邻近结点算法原理图；

图4为本发明实施例2流程图。

具体实施方式

在一个典型的配置中，客户端或认证系统的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)，快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

实施例1

本实施例介绍一种用户行为的机器学习模型的训练方法，如图1所示，所述方法包括以下步骤。

步骤101，收集用户的历史访问数据。

步骤102，将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合，形成多个样本。

具体地，所述特征集中包含历史访问数据在一个或多个维度上的特征。选择一个或多个维度作为基准维度。将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。

每一样本包含用户的历史访问数据在所述基准维度上的特征对应的特征值。所述维度可以包括用户的维度及用户访问对象的维度，例如，用户的维度对应的特征即用户的特征，包括以下一种或多种：用户的性别、用户访问的时间、用户的IP地址、用户的类型等；用户访问对象的维度对应的特征即用户访问的对象的特征，包括以下一种或多种：用户访问的对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息等。

步骤103，计算每一样本对应的用户行为统计信息。

即计算所述基准维度对应的特征的特征值所对应的用户行为统计信息。所述用户行为统计信息包括用户流量数，即页面的用户访问量。

步骤104，当当前样本对应的用户流量数小于流量数第一阈值时，计算当前样本与其他样本的距离，所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定。

样本与样本间的距离包含样本在特征集包含的各个维度上的综合距离。

步骤105，选择距离小于距离阈值的其他样本作为当前样本的邻近样本。

步骤106，将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本。

步骤107，使用新样本训练预先建立的机器学习模型，所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户的行为。

实现上述实施例方法的用户行为的机器学习模型的训练装置如图2所示，包括数据收集单元201、样本形成单元202、统计信息计算单元203、距离计算单元204、邻近样本选择单元205和训练单元206，其中：

所述数据收集单元201，用于收集用户的历史访问数据；

所述样本形成单元202，用于将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合，形成多个样本；

所述统计信息计算单元203，用于计算每一样本对应的用户行为统计信息，所述用户行为统计信息包括用户流量数；

所述距离计算单元204，用于当当前样本对应的用户流量数小于流量数第一阈值时，计算当前样本与其他样本的距离，所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定；

所述邻近样本选择单元205，用于选择距离小于距离阈值的其他样本作为当前样本的邻近样本；

所述训练单元206，用于将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新的样本，使用新的样本训练预先建立的机器学习模型，所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。

上述特征集包括用户的特征及用户访问的对象的特征。其中，用户的特征包括：用户的IP地址信息、用户行为的时间信息及用户的类型中的一种或多种维度；用户访问的对象的特征包括：该对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息中的一种或多种维度。

用户行为统计信息除了包含用户流量数外，还可以包含指定页面对象（比如信息投放者在页面中投放的信息）的点击率等。

在一个优选实施例中，距离计算单元204采用下式计算当前样本与其他样本的距离：

其中，

上式中，Distance(key1,key2)表示当前样本与其他样本的距离；W_i为特征集中第i个维度的权重，n为特征集的总维度数，分别为当前样本和其他样本在第i个维度对应的特征的特征值。

在其他实施例中，上述距离函数可以有多扩展形式，例如对权重进行平方或立方，再对函数结果开方或开立方等。

在一个优选实施例中，邻近样本选择单元205在选择距离小于距离阈值的其他样本作为当前样本的邻近样本后，还用于可以执行以下操作：过滤部分邻近样本，一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时，停止过滤。被过滤的邻近样本的用户行为统计信息不合并到当前样本中。

优选地，在过滤时，按照与当前样本间的距离过滤邻近样本，距离越大被过滤掉的优先级越高；当两邻近样本与当前样本之间的距离相等时，按照样本对应的用户行为统计信息过滤，用户流量数越小被过滤掉的优先级越高。

采用本实施例方法，在数据稀疏时，通过将当前样本与邻近样本的用户行为统计信息进行合并，在保持特征维度完整性的条件下，增强了统计信息。

本发明实施例利用k-Nearest Neighbor（最邻近结点）算法的基本思想，原理图如图3所示，圆圈里所有点的“流量数”之和应该不小于阈值（圆圈内中心点为目标点，其余点为邻近点），如果某个样本点（目标点）的“流量数”过小(小于设定的流量数第一阈值)，那么将样本集中所有离其距离最近（小于预设的距离阈值）的样本点，将该些样本点的统计信息与目标点的统计信息聚合在一起，直到“流量数”大于设定的流量数第二阈值为止，然后使用聚合后的统计信息来表达目标点的统计信息。下面通过实施例2对上述实施例1方法和装置进行具体说明。

实施例2

本实施例中，采用实施例1中的方法进行用户行为预测，如图4所示，包括以下步骤：

步骤401，选择样本集中任意一个样本点作为目标点P_obj，计算目标点的统计信息，并判断目标点的统计信息中的流量（pv）数是否大于流量数第一阈值（lowPv_th），如果大于，执行步骤402，如果不大于，执行步骤403；

lowPv_th的作用如下：若目标点的pv≥lowPv_th，则认为目标点的统计信息充足，不需要寻找邻近点，直接根据目标点自有的统计信息形成新样本训练机器学习模型以预测用户行为。若目标点的pv＜lowPv_th，则认为目标点的统计信息不足，需要寻找邻近点并将邻近点与目标点的统计信息聚合，同时聚合后的pv不能小于lowPv_th，如果聚合后的pv仍小于lowPv_th，则视目标点为离群点，无法用该目标点训练机器学习模型。聚合后的统计信息作为新样本训练机器学习模型以预测用户行为。

例如，样本包括特征集{页面中用户访问的指定对象的尺寸，IP地址信息}，以及统计信息{页面的PV数，页面中在所述指定对象上发生的点击数}，其中所述尺寸、IP地址信息为特征集中的特征值。举例来说所述尺寸为150x500，所述IP地址信息为10.20.150.5。上述特征值对应的统计信息中的页面的PV数为8000次，页面中在所述指定对象上发生的点击数为20次。

步骤402，根据目标点自有的统计信息训练机器学习模型以预测用户行为；

步骤403，基于目标点采用信息增益学习出目标点特征集中每个特征维度的权重；

在特征集中，如果某个维度的权重越大，那么说明该特征维度对统计信息的影响越大。本示例中使用信息增益表示特征集中每个特征维度的权重。信息增益是特征选择中的一个重要指标，它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，其实就是熵。信息论中有关信息量（即“熵”）的定义：对于一个变量X，它可能的取值有n多种，分别是x1，x2，……，xn，每一种取到的概率分别是P1，P2，……，Pn，那么X的熵就定义为：

对分类系统来说，类别C是变量，它可能的取值是C1，C2，……，Cn，而每一个类别出现的概率是P(C1)，P(C2)，……，P(Cn)，因此n就是类别的总数。此时分类系统的熵就可以表示为：

信息增益是针对一个一个的特征而言的，就是看一个特征t，系统有它和没它的时候信息量各是多少，两者的差值就是这个特征给系统带来的信息量，即增益。系统含有特征t的时候信息量即为上式，它表示的是包含所有特征时系统的信息量。当系统不包含t时，就是计算当一个特征t不能变化时，系统的信息量是多少，即条件熵是多少，所谓条件是指“t已经固定”。一般的，t的取值只有t（代表t出现）和t（代表t不出现）。为了区别t出现时的符号与特征t本身的符号，用T代表特征，而用t代表T出现，那么固定t时系统的条件熵为：

其中P(t)表示T出现的概率，表示T不出现的概率。

因此，特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差：

其中P(C_i)表示类别C_i出现的概率，P(t)表示特征T出现的概率，P(C_i|t)表示出现T的时类别C_i出现的概率。

上面介绍了信息增益的计算方法，在本示例中，将特征集中的某个维度作为变量C，分别计算变量C的熵H(C)，再计算该变量C的条件熵H(C|T)，得到该维度的信息增益即权重IG。

步骤404，计算目标点与样本集中其他所有点之间的距离；

采用下式计算样本点之间的距离：

其中，key1为样本点1的特征集，key2为样本点2的特征集，W_i为特征集中第i个维度的权重，n为特征集的大小，即特征集中的维度个数，分别为key1、key2的第i个维度对应特征的特征值；

上述距离计算方法简单实用，将距离归一化（即转换为小于1的数，值越小，说明越近），便于比较。

步骤405，确定目标点的邻近点集合：判断如果某个点P_k与P_obj之间的距离大于距离阈值（dist_th），则认为P_k与P_obj距离太远，不将P_k加入P_obj的邻近点集合；反之，则视P_k为P_obj的邻近点，将其加入P_obj的邻近点集合；

换言之，目标点P_obj与邻近点P_k之间的距离满足以下条件：dis tan ce(P_obj,P_k)≤dist_th。

步骤406，计算目标点与所有邻近点的“流量数”之和pv，并判断pv是否大于阈值lowPv_th，如果pv小于lowPv_th，则视为目标点为离群点，无法用该目标点训练机器学习模型；如果pv大于lowPv_th，执行步骤407；

步骤407，比较pv与流量数第二阈值（pv_th），如果pv不大于pv_th，则直接执行步骤408，如果pv大于pv_th，意味着目标点附近的邻近点有很多，为了降低噪声干扰，须过滤掉邻近点集合中的冗余样本点，过滤规则如下：

1）按与目标点之间的距离过滤邻近点集合中的样本点，距离越大，被过滤掉的优先级越高；

2）当距离相等时，按样本点的“流量数”过滤，“流量数”越小，被过滤掉的优先级越高；

从K个点中过滤出的邻近的K′个点须满足：且即当目标点与其邻近点集合中的所有样本点的“流量数”之和刚好大于pv_th时，停止过滤。

步骤408，聚合目标点与其所有邻近点的统计信息，并用聚合后的统计信息表达目标点的统计信息，该目标点的特征以及该目标点的统计信息共同作为新样本用于训练机器学习模型以预测用户行为。

例如，如何聚合根据统计值的具体属性而定，对于页面的PV数、页面中指定对象的点击数等，直接累加即可。聚合后的统计信息包括：页面中指定对象的平均点击率，通常可以以页面中指定对象的平均点击率来简单表示该样本点的流量价值。当页面中指定对象为信息投放者投放的信息内容时，可以通过计算页面中指定对象的平均点击率达到预测用户行为即预测信息投放效率的目的。

获得当前目标点的统计信息后，取下一样本点，返回步骤401继续执行，直到所有样本点都处理完毕。

下面以一简单示例进行说明，如下表所示，表中有4个样本，比如页面中指定对象的四种尺寸，每个样本对应的统计值包括页面PV数和页面中指定对象的点击数。

尺寸	PV数	点击数
			100x200	80000	50
500x500	200	6
			500x510	500	4
500x520	700	7

假设流量数第一阈值设定为1000，发现页面中指定对象的尺寸为“100x200”时，页面的PV数大于该阈值，那么在所述尺寸下的样本充分，可以用于机器学习模型的训练。

对于页面的PV数小于流量数第一阈值的其他3种情形，需要聚合其邻近点。以页面中指定对象的尺寸为“500x500”时为例，假如与该样本点邻近的点包括：页面中指定对象的尺寸分别为“500x510”及“500x520”时所对应的样本点。可以将页面中指定对象的尺寸分别为“500x510”及“500x520”时所对应的样本点的统计信息合并到指定对象的尺寸为“500x500”时对应的样本点中。

聚合后的样本点信息如下：

尺寸	PV数	点击数
			500x500	1400	17

本实施例中通过三个阈值，dist_th、lowPv_th和pv_th来保证寻找的邻近点与聚合后的“流量数”更具合理性，即能发现离群点，又能降低冗余邻近点带来的噪声干扰。3个阈值的具体取值为经验值。通过灵活控制特征集所对应的流量数大小，从而解决数据稀疏问题。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种用户行为的机器学习模型的训练方法，其特征在于，包括：

收集用户的历史访问数据；

2.如权利要求1所述的方法，其特征在于，

所述将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合，形成多个样本，包括：

选择一个或多个维度作为基准维度；

将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。

3.如权利要求1所述的方法，其特征在于，

所述特征集包括用户的特征及用户访问的对象的特征。

4.如权利要求3所述的方法，其特征在于，

所述用户的特征包括：用户的IP地址信息、用户行为的时间信息及用户的类型中的一种或多种维度。

5.如权利要求3所述的方法，其特征在于，

所述用户访问的对象的特征包括：该对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息中的一种或多种维度。

6.如权利要求1所述的方法，其特征在于，

所述计算当前样本与其他样本的距离，包括：

采用下式计算当前样本与其他样本的距离：

<mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi> </mi> <mi>tan</mi> <mi> </mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>k</mi> <mi>e</mi> <mi>y</mi> <mn>1</mn> <mo>,</mo> <mi>k</mi> <mi>e</mi> <mi>y</mi> <mn>2</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> </mrow> </mfrac> </mrow>

其中，

其中，Distance(key1,key2)表示当前样本与其他样本的距离；W_i为特征集中第i个维度的权重，n为特征集的总维度数，x_i ¹、x_i ²分别为当前样本和其他样本在第i个维度对应的特征的特征值。

7.如权利要求1所述的方法，其特征在于：

所述选择距离小于距离阈值的其他样本作为当前样本的邻近样本后，所述方法还包括：过滤邻近样本，一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时，停止过滤。

8.一种用户行为的机器学习模型的训练装置，其特征在于，包括数据收集单元、样本形成单元、统计信息计算单元、距离计算单元、邻近样本选择单元和训练单元，其中：

所述数据收集单元，用于收集用户的历史访问数据；

9.如权利要求8所述的训练装置，其特征在于，

所述样本形成单元将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合，形成多个样本，包括：

所述样本形成单元选择一个或多个维度作为基准维度，将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。

10.如权利要求8所述的训练装置，其特征在于，

所述特征集包括用户的特征及用户访问的对象的特征。

11.如权利要求10所述的训练装置，其特征在于，

12.如权利要求10所述的训练装置，其特征在于，

13.如权利要求8所述的训练装置，其特征在于，

所述距离计算单元计算当前样本与其他样本的距离，包括：

所述距离计算单元采用下式计算当前样本与其他样本的距离：

<mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi> </mi> <mi>tan</mi> <mi> </mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>k</mi> <mi>e</mi> <mi>y</mi> <mn>1</mn> <mo>,</mo> <mi>k</mi> <mi>e</mi> <mi>y</mi> <mn>2</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> </mrow> </mfrac> </mrow> 2

其中，

14.如权利要求8所述的训练装置，其特征在于：

所述邻近样本选择单元还用于在选择距离小于距离阈值的其他样本作为当前样本的邻近样本后，过滤邻近样本，一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时，停止过滤。