CN104239351A - 一种用户行为的机器学习模型的训练方法及装置 - Google Patents

一种用户行为的机器学习模型的训练方法及装置 Download PDF

Info

Publication number
CN104239351A
CN104239351A CN201310247161.6A CN201310247161A CN104239351A CN 104239351 A CN104239351 A CN 104239351A CN 201310247161 A CN201310247161 A CN 201310247161A CN 104239351 A CN104239351 A CN 104239351A
Authority
CN
China
Prior art keywords
sample
user
dimension
samples
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310247161.6A
Other languages
English (en)
Other versions
CN104239351B (zh
Inventor
何宪
殷维栋
孟晓楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310247161.6A priority Critical patent/CN104239351B/zh
Publication of CN104239351A publication Critical patent/CN104239351A/zh
Application granted granted Critical
Publication of CN104239351B publication Critical patent/CN104239351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Abstract

本发明公开了一种用户行为的机器学习模型的训练方法及装置,无需特征降维即可解决数据稀疏问题,提高用户行为预测的准确性。该方法包括:收集用户的历史访问数据;将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;计算每一样本对应的用户行为统计信息,用户行为统计信息包括用户流量数;当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离;选择距离小于距离阈值的其他样本作为当前样本的邻近样本;将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本;使用新样本训练预先建立的机器学习模型,机器学习模型用于根据特征集在各维度下的特征值预测用户行为。

Description

一种用户行为的机器学习模型的训练方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种用户行为的机器学习模型的训练方法及装置。
背景技术
非搜索广告是区别于搜索引擎中所投放的关键词广告而言的。
在信息推荐方案中,包括基于关键词的信息推荐方式及基于用户访问历史的信息推荐方式。基于关键词的信息推荐方式是根据用户在搜索引擎中输入的关键词来确定向用户推送的信息。基于用户访问历史的信息推荐方式则根据用户的历史访问日志向用户推送用户可能感兴趣的信息。
信息投放平台是为网站主和信息投放者提供信息投放服务的中介平台。信息投放平台可以使信息投放者更简单便捷地选择信息投放方式及信息投放对象。在信息投放平台中,信息投放者提供需要投放的信息内容或数据。
基于用户访问历史的信息推荐方式中,当用户访问某个网站时,信息投放平台收集用户的cookie信息、网站类型、IP地址等多维度信息。信息投放平台根据这些信息为进行页面访问的当前用户确定推送的信息内容。此场景的核心在于用户的历史行为的统计分析,根据用户的历史行为的统计分析挖掘用户的偏好或可能感兴趣的内容。
目前,业界可以基于用户的历史数据建立统计模型,并使用模型预测用户行为偏好。用户的历史数据是包含了在各个维度上的特征集的样本集合,每一个样本(或样本点)记录了特征集,每个样本与用户行为的统计信息(比如页面访问量、点击率等统计信息对应,以键(key)-值对形式表示,如表1所示。特征集和统计值是由需求方平台根据竞价日志记录得到。
表1、特征集与统计值的关系示例
通常,流量(即用户访问数)或点击率可以用来评价用户行为倾向。但是当样本集中特征维数过大或者样本数量不足时,将会导致某些特征集所对应的“流量数”太小,这里称之为数据稀疏。数据稀疏将会直接导致统计信息不足,从而使用户行为预测的准确度降低。
业界处理数据稀疏问题普遍方法是特征降维,即从初始高维特征集中筛选出低维特征集,缩减特征集的个数。通过对样本集进行特征降维,可以在一定程度上增大特征集所对应的“流量数”,增强统计信息,从而使用户行为预测更加有效。虽然这能在一定程度上解决统计信息不足的问题,但是它并不是解决此问题的根本之道。该技术主要存在以下不足之处:
1)用户行为预测的准确性依赖于合理的特征维数。如果特征维数过高,那么样本集将被划分得很稀疏,大多数特征集所对应的“流量数”太小,统计信息不足;如果特征维数过低,大多数特征集所对应的“流量数”过大,统计信息中蕴含了大量噪声。以上两种情况都将降低用户行为预测准确性;
2)采用特征降维虽然达到了增强统计信息的目的,但同时却忽略了被去除的特征对统计值的影响。根据信息论中的观点,事物之间普通存在着信息联系,被去除特征与统计值也应该存在着某种因果联系;
3)特征降维依然不能彻底解决某些特殊特征集所对应的“流量数”过小的问题,因为这是该样本集具有的自然属性。
发明内容
本发明要解决的技术问题是提供一种用户行为的机器学习模型的训练方法及装置,无需特征降维即可解决数据稀疏问题,提高用户行为预测的准确性。
为解决上述技术问题,本发明提供了一种用户行为的机器学习模型的训练方法,包括:
收集用户的历史访问数据;
将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;
计算每一样本对应的用户行为统计信息,所述用户行为统计信息包括用户流量数;
当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离,所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定;
选择距离小于距离阈值的其他样本作为当前样本的邻近样本;
将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本;
使用新样本训练预先建立的机器学习模型,所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。
进一步地,所述将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本,包括:选择一个或多个维度作为基准维度;将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。
进一步地,所述特征集包括用户的特征及用户访问的对象的特征。
进一步地,所述用户的特征包括:用户的IP地址信息、用户行为的时间信息及用户的类型中的一种或多种维度。
进一步地,所述用户访问的对象的特征包括:该对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息中的一种或多种维度。
进一步地,所述计算当前样本与其他样本的距离,包括:采用下式计算当前样本与其他样本的距离:
Dis tan ce ( key 1 , key 2 ) = Σ i = 1 n W i * f ( x i 1 - x i 2 ) Σ i = 1 n W i , 其中, f ( x i 1 - x i 2 ) = 0 , if ( x i 1 = x i 2 ) 1 , if ( x i 1 ≠ x i 2 ) , Distance(key1,key2)表示当前样本与其他样本的距离;Wi为特征集中第i个维度的权重,n为特征集的总维度数,分别为当前样本和其他样本在第i个维度对应的特征的特征值。
进一步地,所述选择距离小于距离阈值的其他样本作为当前样本的邻近样本后,所述方法还包括:过滤邻近样本,一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时,停止过滤。
为解决上述技术问题,本发明还提供了一种用户行为的机器学习模型的训练装置,包括数据收集单元、样本形成单元、统计信息计算单元、距离计算单元、邻近样本选择单元和训练单元,其中:
所述数据收集单元,用于收集用户的历史访问数据;
所述样本形成单元,用于将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;
所述统计信息计算单元,用于计算每一样本对应的用户行为统计信息,所述用户行为统计信息包括用户流量数;
所述距离计算单元,用于当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离,所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定;
所述邻近样本选择单元,用于选择距离小于距离阈值的其他样本作为当前样本的邻近样本;
所述训练单元,用于将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本,使用新样本训练预先建立的机器学习模型,所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。
进一步地,所述样本形成单元将用户的历史访问数据按照包含有一个后多个维度的特征集进行分类聚合,形成多个样本,包括:所述样本形成单元选择一个或多个维度作为基准维度,将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。
进一步地,所述距离计算单元计算当前样本与其他样本的距离,包括:所述距离计算单元采用下式计算当前样本与其他样本的距离:
Dis tan ce ( key 1 , key 2 ) = Σ i = 1 n W i * f ( x i 1 - x i 2 ) Σ i = 1 n W i , 其中, f ( x i 1 - x i 2 ) = 0 , if ( x i 1 = x i 2 ) 1 , if ( x i 1 ≠ x i 2 ) , Distance(key1,key2)表示当前样本与其他样本的距离;Wi为特征集中第i个维度的权重,n为特征集的总维度数,分别为当前样本和其他样本在第i个维度对应的特征的特征值。
进一步地,所述邻近样本选择单元还用于在选择距离小于距离阈值的其他样本作为当前样本的邻近样本后,过滤邻近样本,一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时,停止过滤。
本申请方法及装置,通过将当前样本与邻近样本的用户行为统计信息进行合并解决数据稀疏的问题,即在保持特征维度完整性的条件下,通过机器学习算法来增强统计信息,降低噪声干扰,极大地提高了用户行为预测的准确性。
在非搜索广告投放场景下,预测用户行为是一件具有重大意义的技术问题,它不仅会影响广告的报价策略,而且也影响着广告的分配策略。本申请尤其适用于非搜索广告投放场景中用户行为的预测。
附图说明
图1为本发明实施例1流程图;
图2为本发明实施例1装置结构示意图;
图3为最邻近结点算法原理图;
图4为本发明实施例2流程图。
具体实施方式
在一个典型的配置中,客户端或认证系统的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM),快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
实施例1
本实施例介绍一种用户行为的机器学习模型的训练方法,如图1所示,所述方法包括以下步骤。
步骤101,收集用户的历史访问数据。
步骤102,将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本。
具体地,所述特征集中包含历史访问数据在一个或多个维度上的特征。选择一个或多个维度作为基准维度。将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。
每一样本包含用户的历史访问数据在所述基准维度上的特征对应的特征值。所述维度可以包括用户的维度及用户访问对象的维度,例如,用户的维度对应的特征即用户的特征,包括以下一种或多种:用户的性别、用户访问的时间、用户的IP地址、用户的类型等;用户访问对象的维度对应的特征即用户访问的对象的特征,包括以下一种或多种:用户访问的对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息等。
步骤103,计算每一样本对应的用户行为统计信息。
即计算所述基准维度对应的特征的特征值所对应的用户行为统计信息。所述用户行为统计信息包括用户流量数,即页面的用户访问量。
步骤104,当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离,所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定。
样本与样本间的距离包含样本在特征集包含的各个维度上的综合距离。
步骤105,选择距离小于距离阈值的其他样本作为当前样本的邻近样本。
步骤106,将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本。
步骤107,使用新样本训练预先建立的机器学习模型,所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户的行为。
实现上述实施例方法的用户行为的机器学习模型的训练装置如图2所示,包括数据收集单元201、样本形成单元202、统计信息计算单元203、距离计算单元204、邻近样本选择单元205和训练单元206,其中:
所述数据收集单元201,用于收集用户的历史访问数据;
所述样本形成单元202,用于将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;
所述统计信息计算单元203,用于计算每一样本对应的用户行为统计信息,所述用户行为统计信息包括用户流量数;
所述距离计算单元204,用于当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离,所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定;
所述邻近样本选择单元205,用于选择距离小于距离阈值的其他样本作为当前样本的邻近样本;
所述训练单元206,用于将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新的样本,使用新的样本训练预先建立的机器学习模型,所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。
上述特征集包括用户的特征及用户访问的对象的特征。其中,用户的特征包括:用户的IP地址信息、用户行为的时间信息及用户的类型中的一种或多种维度;用户访问的对象的特征包括:该对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息中的一种或多种维度。
用户行为统计信息除了包含用户流量数外,还可以包含指定页面对象(比如信息投放者在页面中投放的信息)的点击率等。
在一个优选实施例中,距离计算单元204采用下式计算当前样本与其他样本的距离:
Dis tan ce ( key 1 , key 2 ) = Σ i = 1 n W i * f ( x i 1 - x i 2 ) Σ i = 1 n W i , 其中, f ( x i 1 - x i 2 ) = 0 , if ( x i 1 = x i 2 ) 1 , if ( x i 1 ≠ x i 2 ) ;
上式中,Distance(key1,key2)表示当前样本与其他样本的距离;Wi为特征集中第i个维度的权重,n为特征集的总维度数,分别为当前样本和其他样本在第i个维度对应的特征的特征值。
在其他实施例中,上述距离函数可以有多扩展形式,例如对权重进行平方或立方,再对函数结果开方或开立方等。
在一个优选实施例中,邻近样本选择单元205在选择距离小于距离阈值的其他样本作为当前样本的邻近样本后,还用于可以执行以下操作:过滤部分邻近样本,一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时,停止过滤。被过滤的邻近样本的用户行为统计信息不合并到当前样本中。
优选地,在过滤时,按照与当前样本间的距离过滤邻近样本,距离越大被过滤掉的优先级越高;当两邻近样本与当前样本之间的距离相等时,按照样本对应的用户行为统计信息过滤,用户流量数越小被过滤掉的优先级越高。
采用本实施例方法,在数据稀疏时,通过将当前样本与邻近样本的用户行为统计信息进行合并,在保持特征维度完整性的条件下,增强了统计信息。
本发明实施例利用k-Nearest Neighbor(最邻近结点)算法的基本思想,原理图如图3所示,圆圈里所有点的“流量数”之和应该不小于阈值(圆圈内中心点为目标点,其余点为邻近点),如果某个样本点(目标点)的“流量数”过小(小于设定的流量数第一阈值),那么将样本集中所有离其距离最近(小于预设的距离阈值)的样本点,将该些样本点的统计信息与目标点的统计信息聚合在一起,直到“流量数”大于设定的流量数第二阈值为止,然后使用聚合后的统计信息来表达目标点的统计信息。下面通过实施例2对上述实施例1方法和装置进行具体说明。
实施例2
本实施例中,采用实施例1中的方法进行用户行为预测,如图4所示,包括以下步骤:
步骤401,选择样本集中任意一个样本点作为目标点Pobj,计算目标点的统计信息,并判断目标点的统计信息中的流量(pv)数是否大于流量数第一阈值(lowPv_th),如果大于,执行步骤402,如果不大于,执行步骤403;
lowPv_th的作用如下:若目标点的pv≥lowPv_th,则认为目标点的统计信息充足,不需要寻找邻近点,直接根据目标点自有的统计信息形成新样本训练机器学习模型以预测用户行为。若目标点的pv<lowPv_th,则认为目标点的统计信息不足,需要寻找邻近点并将邻近点与目标点的统计信息聚合,同时聚合后的pv不能小于lowPv_th,如果聚合后的pv仍小于lowPv_th,则视目标点为离群点,无法用该目标点训练机器学习模型。聚合后的统计信息作为新样本训练机器学习模型以预测用户行为。
例如,样本包括特征集{页面中用户访问的指定对象的尺寸,IP地址信息},以及统计信息{页面的PV数,页面中在所述指定对象上发生的点击数},其中所述尺寸、IP地址信息为特征集中的特征值。举例来说所述尺寸为150x500,所述IP地址信息为10.20.150.5。上述特征值对应的统计信息中的页面的PV数为8000次,页面中在所述指定对象上发生的点击数为20次。
步骤402,根据目标点自有的统计信息训练机器学习模型以预测用户行为;
步骤403,基于目标点采用信息增益学习出目标点特征集中每个特征维度的权重;
在特征集中,如果某个维度的权重越大,那么说明该特征维度对统计信息的影响越大。本示例中使用信息增益表示特征集中每个特征维度的权重。信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。信息论中有关信息量(即“熵”)的定义:对于一个变量X,它可能的取值有n多种,分别是x1,x2,……,xn,每一种取到的概率分别是P1,P2,……,Pn,那么X的熵就定义为:
H ( X ) = - Σ i = 1 n P i · log 2 P i
对分类系统来说,类别C是变量,它可能的取值是C1,C2,……,Cn,而每一个类别出现的概率是P(C1),P(C2),……,P(Cn),因此n就是类别的总数。此时分类系统的熵就可以表示为:
H ( C ) = - Σ i = 1 n P ( C i ) · log 2 P ( C i )
信息增益是针对一个一个的特征而言的,就是看一个特征t,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即增益。系统含有特征t的时候信息量即为上式,它表示的是包含所有特征时系统的信息量。当系统不包含t时,就是计算当一个特征t不能变化时,系统的信息量是多少,即条件熵是多少,所谓条件是指“t已经固定”。一般的,t的取值只有t(代表t出现)和t(代表t不出现)。为了区别t出现时的符号与特征t本身的符号,用T代表特征,而用t代表T出现,那么固定t时系统的条件熵为:
H ( C | T ) = P ( t ) H ( C | t ) + P ( t ‾ ) H ( C | t ‾ )
其中P(t)表示T出现的概率,表示T不出现的概率。
因此,特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差:
IG ( T ) = H ( C ) - H ( C | T )
= - Σ i = 1 n P ( C i ) log 2 P ( C i ) P ( t ) Σ i = 1 n P ( C i | t ) log 2 P ( C i | t ) + P ( t ‾ ) Σ i = 1 n P ( C i | t ) log 2 P ( C i | t ‾ )
其中P(Ci)表示类别Ci出现的概率,P(t)表示特征T出现的概率,P(Ci|t)表示出现T的时类别Ci出现的概率。
上面介绍了信息增益的计算方法,在本示例中,将特征集中的某个维度作为变量C,分别计算变量C的熵H(C),再计算该变量C的条件熵H(C|T),得到该维度的信息增益即权重IG。
步骤404,计算目标点与样本集中其他所有点之间的距离;
采用下式计算样本点之间的距离:
Dis tan ce ( key 1 , key 2 ) = Σ i = 1 n W i * f ( x i 1 - x i 2 ) Σ i = 1 n W i , f ( x i 1 - x i 2 ) = 0 , if ( x i 1 = x i 2 ) 1 , if ( x i 1 ≠ x i 2 )
其中,key1为样本点1的特征集,key2为样本点2的特征集,Wi为特征集中第i个维度的权重,n为特征集的大小,即特征集中的维度个数, 分别为key1、key2的第i个维度对应特征的特征值;
上述距离计算方法简单实用,将距离归一化(即转换为小于1的数,值越小,说明越近),便于比较。
步骤405,确定目标点的邻近点集合:判断如果某个点Pk与Pobj之间的距离大于距离阈值(dist_th),则认为Pk与Pobj距离太远,不将Pk加入Pobj的邻近点集合;反之,则视Pk为Pobj的邻近点,将其加入Pobj的邻近点集合;
换言之,目标点Pobj与邻近点Pk之间的距离满足以下条件:dis tan ce(Pobj,Pk)≤dist_th。
步骤406,计算目标点与所有邻近点的“流量数”之和pv,并判断pv是否大于阈值lowPv_th,如果pv小于lowPv_th,则视为目标点为离群点,无法用该目标点训练机器学习模型;如果pv大于lowPv_th,执行步骤407;
步骤407,比较pv与流量数第二阈值(pv_th),如果pv不大于pv_th,则直接执行步骤408,如果pv大于pv_th,意味着目标点附近的邻近点有很多,为了降低噪声干扰,须过滤掉邻近点集合中的冗余样本点,过滤规则如下:
1)按与目标点之间的距离过滤邻近点集合中的样本点,距离越大,被过滤掉的优先级越高;
2)当距离相等时,按样本点的“流量数”过滤,“流量数”越小,被过滤掉的优先级越高;
从K个点中过滤出的邻近的K′个点须满足:即当目标点与其邻近点集合中的所有样本点的“流量数”之和刚好大于pv_th时,停止过滤。
步骤408,聚合目标点与其所有邻近点的统计信息,并用聚合后的统计信息表达目标点的统计信息,该目标点的特征以及该目标点的统计信息共同作为新样本用于训练机器学习模型以预测用户行为。
例如,如何聚合根据统计值的具体属性而定,对于页面的PV数、页面中指定对象的点击数等,直接累加即可。聚合后的统计信息包括:页面中指定对象的平均点击率,通常可以以页面中指定对象的平均点击率来简单表示该样本点的流量价值。当页面中指定对象为信息投放者投放的信息内容时,可以通过计算页面中指定对象的平均点击率达到预测用户行为即预测信息投放效率的目的。
获得当前目标点的统计信息后,取下一样本点,返回步骤401继续执行,直到所有样本点都处理完毕。
下面以一简单示例进行说明,如下表所示,表中有4个样本,比如页面中指定对象的四种尺寸,每个样本对应的统计值包括页面PV数和页面中指定对象的点击数。
尺寸 PV数 点击数
100x200 80000 50
500x500 200 6
500x510 500 4
500x520 700 7
假设流量数第一阈值设定为1000,发现页面中指定对象的尺寸为“100x200”时,页面的PV数大于该阈值,那么在所述尺寸下的样本充分,可以用于机器学习模型的训练。
对于页面的PV数小于流量数第一阈值的其他3种情形,需要聚合其邻近点。以页面中指定对象的尺寸为“500x500”时为例,假如与该样本点邻近的点包括:页面中指定对象的尺寸分别为“500x510”及“500x520”时所对应的样本点。可以将页面中指定对象的尺寸分别为“500x510”及“500x520”时所对应的样本点的统计信息合并到指定对象的尺寸为“500x500”时对应的样本点中。
聚合后的样本点信息如下:
尺寸 PV数 点击数
500x500 1400 17
本实施例中通过三个阈值,dist_th、lowPv_th和pv_th来保证寻找的邻近点与聚合后的“流量数”更具合理性,即能发现离群点,又能降低冗余邻近点带来的噪声干扰。3个阈值的具体取值为经验值。通过灵活控制特征集所对应的流量数大小,从而解决数据稀疏问题。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (14)

1.一种用户行为的机器学习模型的训练方法,其特征在于,包括:
收集用户的历史访问数据;
将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;
计算每一样本对应的用户行为统计信息,所述用户行为统计信息包括用户流量数;
当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离,所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定;
选择距离小于距离阈值的其他样本作为当前样本的邻近样本;
将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本;
使用新样本训练预先建立的机器学习模型,所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。
2.如权利要求1所述的方法,其特征在于,
所述将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本,包括:
选择一个或多个维度作为基准维度;
将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。
3.如权利要求1所述的方法,其特征在于,
所述特征集包括用户的特征及用户访问的对象的特征。
4.如权利要求3所述的方法,其特征在于,
所述用户的特征包括:用户的IP地址信息、用户行为的时间信息及用户的类型中的一种或多种维度。
5.如权利要求3所述的方法,其特征在于,
所述用户访问的对象的特征包括:该对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息中的一种或多种维度。
6.如权利要求1所述的方法,其特征在于,
所述计算当前样本与其他样本的距离,包括:
采用下式计算当前样本与其他样本的距离:
Dis tan ce ( key 1 , key 2 ) = Σ i = 1 n W i * f ( x i 1 - x i 2 ) Σ i = 1 n W i
其中, f ( x i 1 - x i 2 ) = 0 , if ( x i 1 = x i 2 ) 1 , if ( x i 1 ≠ x i 2 ) ,
其中,Distance(key1,key2)表示当前样本与其他样本的距离;Wi为特征集中第i个维度的权重,n为特征集的总维度数,分别为当前样本和其他样本在第i个维度对应的特征的特征值。
7.如权利要求1所述的方法,其特征在于:
所述选择距离小于距离阈值的其他样本作为当前样本的邻近样本后,所述方法还包括:过滤邻近样本,一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时,停止过滤。
8.一种用户行为的机器学习模型的训练装置,其特征在于,包括数据收集单元、样本形成单元、统计信息计算单元、距离计算单元、邻近样本选择单元和训练单元,其中:
所述数据收集单元,用于收集用户的历史访问数据;
所述样本形成单元,用于将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;
所述统计信息计算单元,用于计算每一样本对应的用户行为统计信息,所述用户行为统计信息包括用户流量数;
所述距离计算单元,用于当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离,所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定;
所述邻近样本选择单元,用于选择距离小于距离阈值的其他样本作为当前样本的邻近样本;
所述训练单元,用于将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本,使用新样本训练预先建立的机器学习模型,所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。
9.如权利要求8所述的训练装置,其特征在于,
所述样本形成单元将用户的历史访问数据按照包含有一个后多个维度的特征集进行分类聚合,形成多个样本,包括:
所述样本形成单元选择一个或多个维度作为基准维度,将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。
10.如权利要求8所述的训练装置,其特征在于,
所述特征集包括用户的特征及用户访问的对象的特征。
11.如权利要求10所述的训练装置,其特征在于,
所述用户的特征包括:用户的IP地址信息、用户行为的时间信息及用户的类型中的一种或多种维度。
12.如权利要求10所述的训练装置,其特征在于,
所述用户访问的对象的特征包括:该对象的类型、该对象来源网站的类型、该对象在页面的位置信息及该对象的尺寸信息中的一种或多种维度。
13.如权利要求8所述的训练装置,其特征在于,
所述距离计算单元计算当前样本与其他样本的距离,包括:
所述距离计算单元采用下式计算当前样本与其他样本的距离:
Dis tan ce ( key 1 , key 2 ) = Σ i = 1 n W i * f ( x i 1 - x i 2 ) Σ i = 1 n W i
其中, f ( x i 1 - x i 2 ) = 0 , if ( x i 1 = x i 2 ) 1 , if ( x i 1 ≠ x i 2 ) ,
其中,Distance(key1,key2)表示当前样本与其他样本的距离;Wi为特征集中第i个维度的权重,n为特征集的总维度数,分别为当前样本和其他样本在第i个维度对应的特征的特征值。
14.如权利要求8所述的训练装置,其特征在于:
所述邻近样本选择单元还用于在选择距离小于距离阈值的其他样本作为当前样本的邻近样本后,过滤邻近样本,一旦当前样本与所有邻近样本的用户流量数之和大于流量数第二阈值下限时,停止过滤。
CN201310247161.6A 2013-06-20 2013-06-20 一种用户行为的机器学习模型的训练方法及装置 Active CN104239351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310247161.6A CN104239351B (zh) 2013-06-20 2013-06-20 一种用户行为的机器学习模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310247161.6A CN104239351B (zh) 2013-06-20 2013-06-20 一种用户行为的机器学习模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN104239351A true CN104239351A (zh) 2014-12-24
CN104239351B CN104239351B (zh) 2017-12-19

Family

ID=52227435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310247161.6A Active CN104239351B (zh) 2013-06-20 2013-06-20 一种用户行为的机器学习模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN104239351B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778388A (zh) * 2015-05-04 2015-07-15 苏州大学 一种两个不同平台下同一用户识别方法及系统
CN104852830A (zh) * 2015-06-01 2015-08-19 广东电网有限责任公司信息中心 基于机器学习的业务访问模型及其实现方法
CN104915864A (zh) * 2015-06-17 2015-09-16 百度在线网络技术(北京)有限公司 对投放信息的投放效果进行评测的方法及装置
CN104915431A (zh) * 2015-06-17 2015-09-16 深圳市腾讯计算机系统有限公司 一种数据存储方法及系统
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置
CN106354709A (zh) * 2015-07-15 2017-01-25 富士通株式会社 用户属性信息的分析装置、服务器及方法
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN106846041A (zh) * 2016-12-26 2017-06-13 携程计算机技术(上海)有限公司 优惠券的发放方法及系统
CN106909981A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 模型训练、样本平衡方法及装置以及个人信用评分系统
CN106937262A (zh) * 2015-12-29 2017-07-07 中国移动通信集团公司 一种消息处理方法、装置及系统
CN106934413A (zh) * 2015-12-31 2017-07-07 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
CN107302566A (zh) * 2017-05-27 2017-10-27 冯小平 推送信息的方法和装置
CN107682317A (zh) * 2017-09-06 2018-02-09 中国科学院计算机网络信息中心 建立数据检测模型的方法、数据检测方法及设备
CN107767155A (zh) * 2016-08-18 2018-03-06 腾讯科技(深圳)有限公司 一种评估用户画像数据的方法及系统
CN107784363A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 数据处理方法、装置及系统
CN108111399A (zh) * 2017-12-27 2018-06-01 广东欧珀移动通信有限公司 消息处理的方法、装置、终端及存储介质
CN108122122A (zh) * 2016-11-29 2018-06-05 腾讯科技(深圳)有限公司 广告投放方法和系统
CN108521435A (zh) * 2018-07-06 2018-09-11 武汉思普崚技术有限公司 一种用户网络行为画像的方法及系统
CN108628882A (zh) * 2017-03-20 2018-10-09 北京京东尚科信息技术有限公司 用于预判问题的方法和系统
CN108710614A (zh) * 2018-05-31 2018-10-26 校宝在线(杭州)科技股份有限公司 一种基于用户行为的作文评测方法
CN109359686A (zh) * 2018-10-18 2019-02-19 西安交通大学 一种基于校园网流量的用户画像方法及系统
CN109564640A (zh) * 2016-07-20 2019-04-02 苹果公司 使用代理以实现设备上的机器学习
CN109635990A (zh) * 2018-10-12 2019-04-16 阿里巴巴集团控股有限公司 一种训练方法、预测方法、装置及电子设备
CN110163662A (zh) * 2019-04-26 2019-08-23 阿里巴巴集团控股有限公司 一种业务模型训练方法、装置及设备
CN111177656A (zh) * 2019-12-31 2020-05-19 奇安信科技集团股份有限公司 一种行为检测方法、计算机设备和计算机可读存储介质
CN111506575A (zh) * 2020-03-26 2020-08-07 第四范式(北京)技术有限公司 一种网点业务量预测模型的训练方法、装置及系统
CN111626776A (zh) * 2020-05-26 2020-09-04 创新奇智(西安)科技有限公司 训练策略模型的方法、确定广告投放策略的方法和装置
CN111698129A (zh) * 2020-06-09 2020-09-22 湖南大众传媒职业技术学院 一种用户流量和行为分析系统
WO2020252925A1 (zh) * 2019-06-19 2020-12-24 平安科技(深圳)有限公司 用户特征群中用户特征寻优方法、装置、电子设备及计算机非易失性可读存储介质
TWI740891B (zh) * 2016-02-25 2021-10-01 香港商阿里巴巴集團服務有限公司 利用訓練資料訓練模型的方法和訓練系統
CN114745143A (zh) * 2020-12-23 2022-07-12 息象(北京)科技发展有限公司 一种访问控制策略自动生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
US20110112981A1 (en) * 2009-11-09 2011-05-12 Seung-Taek Park Feature-Based Method and System for Cold-Start Recommendation of Online Ads
CN102428467A (zh) * 2009-04-08 2012-04-25 谷歌公司 用于分类的基于相似度的特征集补充

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
CN102428467A (zh) * 2009-04-08 2012-04-25 谷歌公司 用于分类的基于相似度的特征集补充
US20110112981A1 (en) * 2009-11-09 2011-05-12 Seung-Taek Park Feature-Based Method and System for Cold-Start Recommendation of Online Ads

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778388A (zh) * 2015-05-04 2015-07-15 苏州大学 一种两个不同平台下同一用户识别方法及系统
CN104852830A (zh) * 2015-06-01 2015-08-19 广东电网有限责任公司信息中心 基于机器学习的业务访问模型及其实现方法
CN104915864A (zh) * 2015-06-17 2015-09-16 百度在线网络技术(北京)有限公司 对投放信息的投放效果进行评测的方法及装置
CN104915431A (zh) * 2015-06-17 2015-09-16 深圳市腾讯计算机系统有限公司 一种数据存储方法及系统
CN104915864B (zh) * 2015-06-17 2019-07-19 百度在线网络技术(北京)有限公司 对投放信息的投放效果进行评测的方法及装置
CN104915431B (zh) * 2015-06-17 2018-01-16 深圳市腾讯计算机系统有限公司 一种数据存储方法及系统
CN106354709A (zh) * 2015-07-15 2017-01-25 富士通株式会社 用户属性信息的分析装置、服务器及方法
CN106909981B (zh) * 2015-12-23 2020-08-25 阿里巴巴集团控股有限公司 模型训练、样本平衡方法及装置以及个人信用评分系统
CN106909981A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 模型训练、样本平衡方法及装置以及个人信用评分系统
CN106937262A (zh) * 2015-12-29 2017-07-07 中国移动通信集团公司 一种消息处理方法、装置及系统
CN106937262B (zh) * 2015-12-29 2020-03-13 中国移动通信集团公司 一种消息处理方法、装置及系统
CN106934413A (zh) * 2015-12-31 2017-07-07 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
CN106934413B (zh) * 2015-12-31 2020-10-13 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
TWI740891B (zh) * 2016-02-25 2021-10-01 香港商阿里巴巴集團服務有限公司 利用訓練資料訓練模型的方法和訓練系統
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置
CN109564640A (zh) * 2016-07-20 2019-04-02 苹果公司 使用代理以实现设备上的机器学习
CN109564640B (zh) * 2016-07-20 2024-02-06 苹果公司 使用代理以实现设备上的机器学习
CN107767155B (zh) * 2016-08-18 2021-06-18 腾讯科技(深圳)有限公司 一种评估用户画像数据的方法及系统
CN107767155A (zh) * 2016-08-18 2018-03-06 腾讯科技(深圳)有限公司 一种评估用户画像数据的方法及系统
US10915540B2 (en) 2016-08-18 2021-02-09 Tencent Technology (Shenzhen) Company Limited Method and system for evaluating user persona data
CN107784363A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 数据处理方法、装置及系统
CN107784363B (zh) * 2016-08-31 2021-02-09 华为技术有限公司 数据处理方法、装置及系统
CN106789885B (zh) * 2016-11-17 2021-11-16 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN108122122A (zh) * 2016-11-29 2018-06-05 腾讯科技(深圳)有限公司 广告投放方法和系统
CN106846041A (zh) * 2016-12-26 2017-06-13 携程计算机技术(上海)有限公司 优惠券的发放方法及系统
CN108628882A (zh) * 2017-03-20 2018-10-09 北京京东尚科信息技术有限公司 用于预判问题的方法和系统
CN107302566A (zh) * 2017-05-27 2017-10-27 冯小平 推送信息的方法和装置
CN107682317A (zh) * 2017-09-06 2018-02-09 中国科学院计算机网络信息中心 建立数据检测模型的方法、数据检测方法及设备
CN107682317B (zh) * 2017-09-06 2019-12-06 中国科学院计算机网络信息中心 建立数据检测模型的方法、数据检测方法及设备
CN108111399A (zh) * 2017-12-27 2018-06-01 广东欧珀移动通信有限公司 消息处理的方法、装置、终端及存储介质
CN108710614A (zh) * 2018-05-31 2018-10-26 校宝在线(杭州)科技股份有限公司 一种基于用户行为的作文评测方法
CN108521435A (zh) * 2018-07-06 2018-09-11 武汉思普崚技术有限公司 一种用户网络行为画像的方法及系统
CN109635990A (zh) * 2018-10-12 2019-04-16 阿里巴巴集团控股有限公司 一种训练方法、预测方法、装置及电子设备
CN109635990B (zh) * 2018-10-12 2022-09-16 创新先进技术有限公司 一种训练方法、预测方法、装置、电子设备及存储介质
CN109359686A (zh) * 2018-10-18 2019-02-19 西安交通大学 一种基于校园网流量的用户画像方法及系统
CN110163662B (zh) * 2019-04-26 2024-04-05 创新先进技术有限公司 一种业务模型训练方法、装置及设备
CN110163662A (zh) * 2019-04-26 2019-08-23 阿里巴巴集团控股有限公司 一种业务模型训练方法、装置及设备
WO2020252925A1 (zh) * 2019-06-19 2020-12-24 平安科技(深圳)有限公司 用户特征群中用户特征寻优方法、装置、电子设备及计算机非易失性可读存储介质
CN111177656A (zh) * 2019-12-31 2020-05-19 奇安信科技集团股份有限公司 一种行为检测方法、计算机设备和计算机可读存储介质
CN111177656B (zh) * 2019-12-31 2024-02-06 奇安信科技集团股份有限公司 一种行为检测方法、计算机设备和计算机可读存储介质
CN111506575B (zh) * 2020-03-26 2023-10-24 第四范式(北京)技术有限公司 一种网点业务量预测模型的训练方法、装置及系统
CN111506575A (zh) * 2020-03-26 2020-08-07 第四范式(北京)技术有限公司 一种网点业务量预测模型的训练方法、装置及系统
CN111626776B (zh) * 2020-05-26 2024-03-08 创新奇智(西安)科技有限公司 训练策略模型的方法、确定广告投放策略的方法和装置
CN111626776A (zh) * 2020-05-26 2020-09-04 创新奇智(西安)科技有限公司 训练策略模型的方法、确定广告投放策略的方法和装置
CN111698129A (zh) * 2020-06-09 2020-09-22 湖南大众传媒职业技术学院 一种用户流量和行为分析系统
CN114745143A (zh) * 2020-12-23 2022-07-12 息象(北京)科技发展有限公司 一种访问控制策略自动生成方法及装置

Also Published As

Publication number Publication date
CN104239351B (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN104239351A (zh) 一种用户行为的机器学习模型的训练方法及装置
JP6267199B2 (ja) 検索結果をランク付ける方法およびシステム、ならびに検索結果の順位付けを最適化する方法およびシステム
CN104426713B (zh) 网络站点访问效果数据的监测方法和装置
US8504563B2 (en) Method and apparatus for sorting inquiry results
US20140143405A1 (en) System And Method For Analyzing Social Media Trends
US20130110829A1 (en) Method and Apparatus of Ranking Search Results, and Search Method and Apparatus
CN101819573A (zh) 一种自适应的网络舆情识别方法
US20140143013A1 (en) System and method for analyzing social media trends
CN105095210A (zh) 一种筛选推广关键词的方法和装置
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
CN112015909B (zh) 知识图谱的构建方法及装置、电子设备、存储介质
CN104851025A (zh) 一种基于案例推理的电商网站商品的个性化推荐方法
WO2016177280A1 (zh) 记录及还原网页中点击位置的方法和装置
CN102142983A (zh) 告警相关性分析方法和装置
Vu et al. Feature selection methods and sampling techniques to financial distress prediction for Vietnamese listed companies
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
CN103778217A (zh) 基于当前网页列表进行推荐的方法和系统
Xuan et al. Constrained range search query processing on road networks
CN104899321A (zh) 一种基于项目属性评分均值的协同过滤推荐方法
CN103337028A (zh) 一种推荐方法、装置
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
Wei et al. Delle: Detecting latest local events from geotagged tweets
CN113837635A (zh) 风险检测处理方法、装置及设备
Chen et al. An intuitionstic fuzzy factorial analysis model for multi-attribute decision-making under random environment
CN110019210B (zh) 数据写入方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant