CN112819495A - 一种基于随机多项式核的用户购物意图预测方法 - Google Patents

一种基于随机多项式核的用户购物意图预测方法 Download PDF

Info

Publication number
CN112819495A
CN112819495A CN201911127080.6A CN201911127080A CN112819495A CN 112819495 A CN112819495 A CN 112819495A CN 201911127080 A CN201911127080 A CN 201911127080A CN 112819495 A CN112819495 A CN 112819495A
Authority
CN
China
Prior art keywords
user
svm
parameter
training
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911127080.6A
Other languages
English (en)
Inventor
丁晓剑
杨帆
刘健
程伟
曹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Finance and Economics
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN201911127080.6A priority Critical patent/CN112819495A/zh
Publication of CN112819495A publication Critical patent/CN112819495A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用户购物意图预测方法,尤其是一种基于支持向量机的随机多项式核的用户购物意图预测方法。该方法首先收集用户在网站上的行为数据,接着确定支持向量机SVM训练模型在训练测试样本集上的参数组合的最优值,最后利用最优参数组合的支持向量机SVM训练模型测试验证样本集,得到用户的购物意图。本发明在传统单尺度多项式核函数的支持向量机的基础上,扩展了多项式核函数的参数,提升了支持向量机参数选择的效率。与传统单尺度多项式核函数的支持向量机相比,该方法在损失较小的泛化性能的基础上,学习模型参数选取的时间仅需传统SVM多项式核方法的不到1%的时间,并且拥有较好的稳定性。

Description

一种基于随机多项式核的用户购物意图预测方法
技术领域
本发明属于电子商务领域,特别是一种基于随机多项式核的用户购物意图预测方法。
背景技术
随着中国互联网的普及,网络购物日益成为一种重要的购物形式。在目前的电子商务环境之下,用户的购物需求表现出多样化的发展趋势。购买意图是指用户愿意购买商品的可能性或概率,它是用户购买商品的主观可能性。对于传统的电子商务公司来说,每天有大量的潜在用户浏览数以万计的商品,如何有效地识别这些用户的购物意图,是这些公司面临的越来越大的挑战。
用户的购买意图是通过在购物网站上的一系列显式的和隐式的行为表现出来的。例如,用户直接输入对商品的分级评分或评价信息为显式的行为,浏览商品的停留时间可以认定为隐式的行为。个性化推荐是目前电子商务公司采用的较为成功的商品营销策略,根据用户之前的浏览、评价、购买或者搜索历史等行为数据以及相似用户群体的历史行为数据推测目标用户的购物意图,然后在目标用户访问网站时为其推荐或展一组他们最有可能购买的商品。
判断用户的购买意图这类问题在机器学习方法中可以作为一种分类问题来研究,目前已经有一些机器学习算法针对由于用户的历史行为数据判断用户的购买意图,如支持向量机(SVM)和神经网络,神经网络的适应性好,但是容易陷入局部最小化的问题,计算代价也比较大。SVM是近年应用于分类问题和回归问题上最成功的学习机器之一。对于分类问题,由于大多数样本点在原始空间中是线性不可分的,SVM采用非线性映射的方法,将原始空间样本的输入向量x映射到高维特征空间φ(x)中,使样本在高维空间中线性可分。由于输入向量在特征空间中的内积主要利用核函数来度量,使用不同的核函数会映射到不同的特征空间,所以核函数类型的确定以及核参数的选择是影响SVM泛化性能的主要因素。
当前对于参数选择的方法主要有两种:首先是基于测试精度的方法,通过测试非训练样本在某个参数值上的错误率,然后不断修正参数使错误率更小。具体的技术有Doan提出的十折交叉验证法(10-Cross Validation),但是这种方法在参数空间较大的时候花费的计算代价太大,研究学者们将现有的一些优化技术集成到参数选择的方法中,如粒子群优化(Particle Swarm Optimization,简称PSO)方法和基因算法;其次是基于某种理论界的逼近方法,如基于影响函数(Influence Function)的估计和VC维的界。
上述的研究在一定的程度上缓解了模型选择的问题,但是没有从根本上解决问题。对于一个学习算法,训练速度快,泛化能力强和不用调节太多的参数是各个应用领域所追求的理想情况。然而这几方面在SVM身上是矛盾的,追求训练速度就得牺牲泛化性能,追求泛化性能就得花费大量时间来选择最优的模型。
训练样本的每个特征对分类的贡献是不同的,所有特征都设置相同的核参数,则难以区分每个特征的贡献度。当训练样本的特征数目较少时,设置1个核函数参数对训练模型影响较小。当训练样本特征数目较多时,应该对每个特征都设置相应的核函数参数。但是如果核函数参数较多时,使用上述提到的模型选择方法计算代价非常巨大,且很难找到符合样本实际分布的最佳参数组合。
发明内容
本发明所解决的技术问题在于提供一种基于随机多项式核的用户购物意图预测方法,能够在保持泛化性能的同时极大地提高模型选择的效率。
实现本发明目的的技术解决方案为:一种基于随机多项式核的用户购物意图预测方法,包括以下步骤:
步骤1、收集用户在网站上的行为数据,构建用户行为数据集,所述用户行为数据集包括训练测试样本集S和验证样本集V;
步骤2、确定支持向量机SVM训练模型在训练测试样本集S上的参数组合(C,σ)的最优值,其中C为SVM训练模型的惩罚系数参数,σ为SVM训练模型的核参数;
步骤3、利用最优参数组合(C,σ)的支持向量机SVM训练模型测试验证样本集V,得到用户的购物意图。
优选的,所述步骤1中所述训练测试样本集
Figure BDA0002277189750000021
其中xi∈Rd为用户购物意图的因素特征,ti∈{-1,1}为类别,1表示有购买意图,-1表示没有购买意图,N为数据样本的个数。
优选的,所述步骤2确定支持向量机SVM训练模型在训练测试样本集S上的参数组合(C,σ)的最优值具体为:
步骤2-1、将用户行为数据样本集S划分为训练集Strain和测试集Stest
步骤2-2、确定支持向量机SVM训练模型的核函数及其参数σ;
步骤2-3、从候选集T中选择一个元素作为支持向量机SVM训练模型的参数C,然后从候选集T中删去该元素,重复迭代执行步骤2-3~步骤2-8,直至候选集T为空;
步骤2-4、计算支持向量机SVM训练模型的核矩阵K(xi,xj),其中,xi,xj为用户购物意图预测的数据,i=1,…,N,j=1,…,N。
步骤2-5、确定使支持向量机SVM训练模型对偶优化的最优解,所用公式为:
Figure BDA0002277189750000031
Figure BDA0002277189750000032
其中
Figure BDA0002277189750000033
为SVM的核函数,
Figure BDA0002277189750000034
是对x做变换的函数,有些变换会将样本映射到更高维的空间,αi为非负拉格朗日乘子,每个拉格朗日乘子αi对应着一个训练样本(xi,ti),ti为用户购物意图预测的数据的类别;
步骤2-6、求解法向量w和偏置b,所用公式为:
Figure BDA0002277189750000035
式中w为SVM的权值向量,b为SVM的阈值。
步骤2-7、确定SVM分类模型f(x),其中
Figure BDA0002277189750000036
式中sgn为符号函数;
步骤2-8、使用SVM分类模型f(x)对测试集Stest进行预测,得到预测准确率Ak,其中k为第k次迭代;
步骤2-9、从集合A=[A1,…Ak,…]中找出最大值,并标记出相应的参数C的值,从而确定支持向量机SVM训练模型在用户购物意图预测的数据样本集上的参数组合(C,σ)。
优选的,所述步骤2-1中将用户行为数据样本集S划分为训练集Strain和测试集Stest的方法是将样本集S中前m个样本设为训练集Strain,其它样本作为测试集Stest
优选的,所述步骤2-2中支持向量机SVM训练模型的核函数为多项式多尺度核函数,其形式为
Figure BDA0002277189750000037
其中σ=[σ1,…,σd],n为多项式多尺度核函数的参数,σ为d维向量,n一般设置为正整数,x,z∈Rd分别为用户购物意图预测数据的一个样本,且x=[x1,…,xd],z=[z1,…,zd]。
优选的,所述步骤2-2中核函数的参数σ采用随机赋值方法进行赋值,其具体步骤如下:
步骤2-2-1、从区间(0,1)内随机生成均匀分布的随机向量σ;
步骤2-2-2、设置σ=d×σ,其中d为样本集S中特征的数目。
优选的,所述步骤2-3中候选集T为用户设置的候选参数集合,设为T=[0.1,1,10,100,1000]。
优选的,所述步骤2-5中SVM的对偶优化问题是由SVM的初始优化问题转换得到,SVM的初始优化问题如下式所示:
Figure BDA0002277189750000041
Figure BDA0002277189750000042
ξi≥0,i=1,...,N
其中C为用户需要调节的参数,作用是调节分类间隔和训练错误两者的权重,映射函数
Figure BDA0002277189750000043
的作用是将输入向量xi映射到特征空间Z,w是垂直于超平面的法向量。
本发明与现有技术相比,其显著优点为:1)本发明的方法扩充了多项式核函数的参数,从1维到d维,能够区分每个特征的贡献度;2)本发明的方法提升核函数参数选择的效率,基于某连续取样分布概率随机赋值参数的值,在不降低支持向量机泛化性能的同时能够节省参数选取的时间,提升模型选择的效率。相比于传统的单参数变量选择的核函数的方法,本发明不仅具有较好的泛化性能,而且能够节省大量的参数选择的时间,适合电子商务网站用户购物意图在线预测的应用。3)本发明在传统单尺度多项式核函数的支持向量机的基础上,扩展了多项式核函数的参数,提出的多尺度多项式核支持向量机,能够对其中的核函数参数随机化赋值,提升了支持向量机参数选择的效率。通过在电子商务在线购买意图数据集Online Shoppers Purchasing Intention上的实验表明,与传统单尺度多项式核函数的支持向量机相比,本发明的方法在损失较小的泛化性能的基础上,学习模型参数选取的时间仅需传统SVM多项式核方法的不到1%的时间,并且拥有较好的稳定性。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明的基于随机多项式核的用户购物意图预测方法流程图。
具体实施方式
为了能便于理解本发明,下面先对传统的支持向量机分类方法进行介绍。传统支持向量机分类过程如下:
步骤1、给定训练样本集(xi,ti),i=1,...,N,其中xi∈Rd,ti∈{-1,1}。根据经验风险最小化原则,同时最大化分类间隔和最小化训练错误,求解SVM的优化问题:
Figure BDA0002277189750000051
Figure BDA0002277189750000052
ξi≥0,i=1,...,N
其中C为用户需要调节的参数,作用是调节分类间隔和训练错误两者的权重。映射函数
Figure BDA0002277189750000053
的作用是将输入向量xi映射到特征空间Z。w是垂直于超平面的法向量。
步骤2、将SVM的优化问题转化为对偶问题求解:
Figure BDA0002277189750000054
Figure BDA0002277189750000055
得到最优解。其中
Figure BDA0002277189750000056
为SVM的核函数,αi为非负拉格朗日乘子,每个拉格朗日乘子αi对应着每个训练样本(xi,ti)。核函数采用单尺度多项式核函数,形式为
Figure BDA0002277189750000057
参数C和核函数的参数σ的选取使用网格选取法,在下面的参数范围里选取最优参数组合:{0.001,0.01,0.05,0.1,0.2,0.5,1,2,5,10,20,50,100,1000,10000}×{0.001,0.01,0.1,0.2,0.4,0.8,1,2,5,10,20,50,100,1000,10000}。
步骤3、求解法向量w和偏置b,所用公式为:
Figure BDA0002277189750000058
步骤4、根据步骤3得到的法向量w和偏置b,得到支持向量机分类模型f(x)。
Figure BDA0002277189750000061
步骤5、利用支持向量机分类模型f(x)对测试样本进行预测。
为了克服传统支持向量机在分类应用中使用的核函数参数对样本的每个特征赋予相同权重的缺点,相比于传统的SVM算法,使得本发明提出的改进SVM在不损失泛化性能的情况下提升分类训练的效率。本发明的一种基于随机多项式核的用户购物意图预测方法,首先收集用户在网站上的行为数据,数据统计了一年内用户活动的行为,形成的数据集包括训练测试样本集
Figure BDA0002277189750000062
验证样本集
Figure BDA0002277189750000063
其中xi∈Rd为用户购物意图的因素特征,主要有用户访问的页面类型以及在每个页面类别中花费的总时间,页面跳出率,页面退出率,页面价值,用户使用的设备类型,浏览器,访客类型(新手还是回头客),是否周末,访问的月份等等。ti∈{-1,1}为类别,1表示有购买意图,-1表示没有购买意图。所述基于随机多项式核的用户购物意图预测方法,包括如下步骤:
步骤1、寻找SVM在给定样本集合上的参数组合(C,σ)的最优值:
步骤1.1:将数据样本集S划分为训练集Strain和测试集Stest。划分策略是将样本集S中前m个样本设为训练集Strain,其它样本作为测试集Stest,其中m一般设为N/2。
步骤1.2:确定SVM的核函数及其参数σ。SVM的核函数采用多项式多尺度核函数,其形式为
Figure BDA0002277189750000064
其中σ=[σ1,…,σd]为核函数的参数,为d维向量,且n=1,…,M。参数σ的设置采用随机赋值方法,其具体步骤如下:
1.2.1从区间(0,1)内随机生成均匀分布的随机向量σ。
1.2.2设置σ=d×σ,其中d为样本集S中特征的数目。
步骤1.3:从候选集T中选择一个元素作为SVM的参数C,然后从候选集T删去该元素,重复迭代执行步骤1.3-1.8步,直至候选集T为空。候选集T为用户设置的候选参数集合,一般设为T=[0.1,1,10,100,1000]。
步骤1.4:计算SVM的核矩阵K(xi,xj),i=1,…,N,j=1,…,N
步骤1.5:求解SVM的对偶优化问题:
Figure BDA0002277189750000065
Figure BDA0002277189750000071
得到最优解。其中
Figure BDA0002277189750000072
为SVM的核函数,αi为非负拉格朗日乘子,每个拉格朗日乘子αi对应着每个训练样本(xi,ti)。SVM的对偶优化问题是根据SVM的初始优化问题得到:
Figure BDA0002277189750000073
Figure BDA0002277189750000074
ξi≥0,i=1,...,N
其中C为用户需要调节的参数,作用是调节分类间隔和训练错误两者的权重。映射函数
Figure BDA0002277189750000075
的作用是将输入向量xi映射到特征空间Z。w是垂直于超平面的法向量。
步骤1.6:求解法向量w和偏置b,所用公式为:
Figure BDA0002277189750000076
步骤1.7:得到SVM分类模型f(x),其中
Figure BDA0002277189750000077
步骤1.8:使用f(x)对测试集Stest进行预测,得到预测准确率Ak,其中k为第k次迭代。
步骤1.9:从集合A=[A1,…Ak,…]中找出最大值,并标记出相应的参数C的值。
步骤1.10:输出SVM的最优参数值(C,σ)。
步骤2、利用最优(C,σ)的SVM训练模型测试验证样本集。使用SVM分类模型f(x)对证样本集V进行预测,得到预测准确率。
验证样本集的划分采用随机生成迭代法。每次迭代随机生成乱序的电子商务网站用户行为数据样本集,按需将前面若干个样本作为训练集,其它样本作为测试样本。对每次迭代生成的测试样本利用学习模型f(x)预测得到测试精度,迭代运行10次,取其平均测试精度(Testing accuracy(TA))和方差(STD)作为指标。另外,学习模型的参数选取时间(PS)和训练时间(TS)也作为指标进行比较。
下面通过UCI标准数据库中的电子商务在线购买意图数据集Online ShoppersPurchasing Intention,对传统的多项式核SVM和本发明的随机化多项式核SVM(RandSVM)两种算法进行实验,并对它们的结果进行比较。参数设置如下:传统的多项式核SVM的参数C和核函数σ使用网格选取法,在下面的参数范围里选取最优参数组合:{0.001,0.01,0.05,0.1,0.2,0.5,1,2,5,10,20,50,100,1000,10000}×{0.001,0.01,0.1,0.2,0.4,0.8,1,2,5,10,20,50,100,1000,10000}。RandSVM的参数C在下述参数范围里选择一个参数:{0.1,1,10,100,1000},核函数的参数随机选取。此外多项式核的幂参数n分别取值{1,2,3,4,5},并比较相应参数的泛化性能。
下面结合实施例对本发明作进一步详细的描述。
实施例
该实施例是Online Shoppers Purchasing Intention数据集,该数据集的目的是通过用户在电子商务网站中的用户行为记录数据,研究用户完成商品交易的意愿,即购买意图预测。该数据集由属于12,330个会话的特征向量组成。形成数据集是为了使每个会话在1年的时间段内属于不同的用户,以避免出现倾向于特定活动,特殊日子,用户资料或时间段的趋势。在数据集中的12,330个会话中,有84.5%(10,422)是未以购物结束的负面类样本,其余(1908)是以购物结束的正面类样本。每个样本包括10个数值型的特征和7个Categorical类型的特征。由于机器学习模型通常只能处理数值数据,所以需要对Categorical数据转换成Numeric特征。经过Weka预处理软件的预处理,一共得到28个数值型的特征。实验对样本随机排序10次,每次将前1000个样本设为训练样本,其余的样本设为测试样本。两种算法的指标比较是基于10次结果的平均,如表1所示。
n=1
算法 (C,σ)/C PS(s) TA(%) STD(%)
SVM (2,10) 2487.7 88.03 0.43
RandSVM 1 19.83 84.63 0.08
n=2
算法 (C,σ)/C PS(s) TA(%) STD(%)
SVM (0.2,5) 2537 87.85 0.45
RandSVM 1 59.94 84.43 0.09
n=3
算法 (C,σ)/C PS(s) TA(%) STD(%)
SVM (5,0.8) 4738 88.02 0.29
RandSVM 10 53.49 84.55 0.05
n=4
算法 (C,σ)/C PS(s) TA(%) STD(%)
SVM (0.05,0.8) 5997 88.17 0.38
RandSVM 0.1 70.50 84.58 0.04
n=5
算法 (C,σ)/C PS(s) TA(%) STD(%)
SVM (5,0.4) 3488 88.01 0.38
RandSVM 1 61.45 84.59 0.06
从表1可以看出,在Online Shoppers Purchasing Intention数据集上,在参数选取时间的指标上,RandSVM的参数选取时间只有传统SVM方法的不到1%。在用户购买意图的预测在线应用中,这种算法的性能可以节省大量的计算代价;在在平均测试精度Testingaccuracy(TA)的指标上看,RandSVM要比传统的方法要低3%左右,但是从方差(STD)的指标上看,RandSVM要比SVM稳定的多,在多次随机数据集上的测试精度近乎相同。

Claims (9)

1.一种基于随机多项式核的用户购物意图预测方法,其特征在于,包括以下步骤:
步骤1、收集用户在网站上的行为数据,构建用户行为数据集,所述用户行为数据集包括训练测试样本集S和验证样本集V;
步骤2、确定支持向量机SVM训练模型在训练测试样本集S上的参数组合(C,σ)的最优值,其中C为SVM训练模型的惩罚系数参数,σ为SVM训练模型的核参数;
步骤3、利用最优参数组合(C,σ)的支持向量机SVM训练模型测试验证样本集V,得到用户的购物意图。
2.根据权利要求1所述的基于随机多项式核的用户购物意图预测方法,其特征在于,步骤1中所述训练测试样本集
Figure FDA0002277189740000011
其中,xi∈Rd为用户购物意图的因素特征,ti∈{-1,1}为类别,1表示有购买意图,-1表示没有购买意图,Rd为d维特征个数,N为数据样本的个数。
3.根据权利要求2所述的基于随机多项式核的用户购物意图预测方法,其特征在于,步骤2确定支持向量机SVM训练模型在训练测试样本集S上的参数组合(C,σ)的最优值具体为:
步骤2-1、将用户行为数据样本集S划分为训练集Strain和测试集Stest
步骤2-2、确定支持向量机SVM训练模型的核函数及其参数σ;
步骤2-3、从候选集T中选择一个元素作为支持向量机SVM训练模型的参数C,然后从候选集T中删去该元素,重复迭代执行步骤2-3~步骤2-8,直至候选集T为空;
步骤2-4、确定支持向量机SVM训练模型的核矩阵K(xi,xj),其中,xi,xj为用户购物意图预测的数据,i=1,...,N,j=1,...,N;
步骤2-5、确定使支持向量机SVM训练模型对偶优化的最优解,所用公式为:
Minimize:
Figure FDA0002277189740000012
Subject to:
Figure FDA0002277189740000013
其中
Figure FDA0002277189740000014
为SVM的核函数,
Figure FDA0002277189740000015
是对x做变换的函数,将样本映射到更高维的空间,αi为非负拉格朗日乘子,每个拉格朗日乘子αi对应着一个训练样本(xi,ti),ti为用户购物意图预测的数据的类别;
步骤2-6、求解法向量w和偏置b,所用公式为:
Figure FDA0002277189740000021
式中w为SVM的权值向量,b为SVM的阈值;
步骤2-7、确定SVM分类模型f(x),其中
Figure FDA0002277189740000022
式中sgn为符号函数;
步骤2-8、使用SVM分类模型f(x)对测试集Stest进行预测,得到预测准确率Ak,其中k为第k次迭代;
步骤2-9、从集合A=[A1,...Ak,...]中找出最大值,并标记出相应的参数C的值,从而确定支持向量机SVM训练模型在用户购物意图预测的数据样本集上的参数组合(C,σ)。
4.根据权利要求3所述的所述的基于随机多项式核的用户购物意图预测方法,其特征在于,步骤2-1中将用户行为数据样本集S划分为训练集Strain和测试集Stest的方法是将样本集S中前m个样本设为训练集Strain,其它样本作为测试集Stest
5.根据权利要求3所述的所述的基于随机多项式核的用户购物意图预测方法,其特征在于,步骤2-2中支持向量机SVM训练模型的核函数为多项式多尺度核函数,其形式为
Figure FDA0002277189740000023
其中σ=[σ1,...,σd],n为多项式多尺度核函数的参数,σ为d维向量,n为正整数,x,z∈Rd分别为用户购物意图预测数据的一个样本,且x=[x1,...,xd],z=[z1,...,zd]。
6.根据权利要求3或5所述的基于随机多项式核的用户购物意图预测方法,其特征在于,步骤2-2中核函数的参数σ采用随机赋值方法进行赋值,其具体步骤如下:
步骤2-2-1、从区间(0,1)内随机生成均匀分布的随机向量σ;
步骤2-2-2、设置σ=d×σ,其中d为样本集S中特征的数目。
7.根据权利要求3所述的基于随机多项式核的用户购物意图预测方法,其特征在于,步骤2-3中候选集T为用户设置的候选参数集合,设为T=[0.1,1,10,100,1000]。
8.根据权利要求3所述的基于随机多项式核的用户购物意图预测方法,其特征在于,步骤2-5中SVM的对偶优化问题是由SVM的初始优化问题转换得到,SVM的初始优化问题如下式所示:
Minimize:
Figure FDA0002277189740000031
Subject to:
Figure FDA0002277189740000032
ξi≥0,i=1,...,N
其中C为用户需要调节的参数,作用是调节分类间隔和训练错误两者的权重,映射函数
Figure FDA0002277189740000033
的作用是将输入向量xi映射到特征空间Z,w是垂直于超平面的法向量。
9.根据权利要求2所述的基于随机多项式核的用户购物意图预测方法,其特征在于,用户购物意图的因素特征包括:用户访问的页面类型以及在每个页面类别中花费的总时间,页面跳出率,页面退出率,页面价值,用户使用的设备类型,浏览器,访客类型,是否周末,访问的月份。
CN201911127080.6A 2019-11-18 2019-11-18 一种基于随机多项式核的用户购物意图预测方法 Pending CN112819495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911127080.6A CN112819495A (zh) 2019-11-18 2019-11-18 一种基于随机多项式核的用户购物意图预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911127080.6A CN112819495A (zh) 2019-11-18 2019-11-18 一种基于随机多项式核的用户购物意图预测方法

Publications (1)

Publication Number Publication Date
CN112819495A true CN112819495A (zh) 2021-05-18

Family

ID=75852440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911127080.6A Pending CN112819495A (zh) 2019-11-18 2019-11-18 一种基于随机多项式核的用户购物意图预测方法

Country Status (1)

Country Link
CN (1) CN112819495A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645688B2 (en) * 2018-08-02 2023-05-09 T-Mobile Usa, Inc. User-behavior-based predictive product and service provisioning

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184817A1 (en) * 2010-01-28 2011-07-28 Yahoo!, Inc. Sensitivity Categorization of Web Pages
CN103544504A (zh) * 2013-11-18 2014-01-29 康江科技(北京)有限责任公司 一种基于多尺度图匹配核的场景字符识别方法
CN104331816A (zh) * 2014-10-28 2015-02-04 常州大学 基于知识学习和隐私保护的大数据用户购买意愿预测方法
CN104599159A (zh) * 2015-02-06 2015-05-06 浪潮集团有限公司 一种基于支持向量机原理的用户行为识别方法
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN106156854A (zh) * 2016-08-18 2016-11-23 山东师范大学 一种基于dna编码的支持向量机参数预测方法
US20170147941A1 (en) * 2015-11-23 2017-05-25 Alexander Bauer Subspace projection of multi-dimensional unsupervised machine learning models
CN106845544A (zh) * 2017-01-17 2017-06-13 西北农林科技大学 一种基于粒子群与支持向量机的小麦条锈病预测方法
CN107463802A (zh) * 2017-08-02 2017-12-12 南昌大学 一种原核蛋白质乙酰化位点的预测方法
US20180039732A1 (en) * 2016-08-03 2018-02-08 Nantomics, Llc Dasatinib response prediction models and methods therefor
CN107992895A (zh) * 2017-10-19 2018-05-04 电子科技大学 一种Boosting支持向量机学习方法
CN108305103A (zh) * 2018-02-26 2018-07-20 上海理工大学 一种基于参数优化的支持向量机模型的产品销售预测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184817A1 (en) * 2010-01-28 2011-07-28 Yahoo!, Inc. Sensitivity Categorization of Web Pages
CN103544504A (zh) * 2013-11-18 2014-01-29 康江科技(北京)有限责任公司 一种基于多尺度图匹配核的场景字符识别方法
CN104331816A (zh) * 2014-10-28 2015-02-04 常州大学 基于知识学习和隐私保护的大数据用户购买意愿预测方法
CN104599159A (zh) * 2015-02-06 2015-05-06 浪潮集团有限公司 一种基于支持向量机原理的用户行为识别方法
US20170147941A1 (en) * 2015-11-23 2017-05-25 Alexander Bauer Subspace projection of multi-dimensional unsupervised machine learning models
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
US20180039732A1 (en) * 2016-08-03 2018-02-08 Nantomics, Llc Dasatinib response prediction models and methods therefor
CN106156854A (zh) * 2016-08-18 2016-11-23 山东师范大学 一种基于dna编码的支持向量机参数预测方法
CN106845544A (zh) * 2017-01-17 2017-06-13 西北农林科技大学 一种基于粒子群与支持向量机的小麦条锈病预测方法
CN107463802A (zh) * 2017-08-02 2017-12-12 南昌大学 一种原核蛋白质乙酰化位点的预测方法
CN107992895A (zh) * 2017-10-19 2018-05-04 电子科技大学 一种Boosting支持向量机学习方法
CN108305103A (zh) * 2018-02-26 2018-07-20 上海理工大学 一种基于参数优化的支持向量机模型的产品销售预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TINGLING TANG等: "Very large-scale data classification based on K-means clustering and muti-kernel SVM", SOFT COMPUTING, vol. 23, pages 3793 - 3801, XP036764744, DOI: 10.1007/s00500-018-3041-0 *
王建峰等: "基于改进的网格搜索法的SVM参数优化", 应用科技, vol. 39, no. 3, pages 28 - 31 *
郭金玲: "一种基于数据分布的SVM核选择方法", 华侨大学学学报(自然学科版), vol. 34, no. 5, pages 525 - 528 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645688B2 (en) * 2018-08-02 2023-05-09 T-Mobile Usa, Inc. User-behavior-based predictive product and service provisioning

Similar Documents

Publication Publication Date Title
Kuo et al. Application of particle swarm optimization to association rule mining
CN108427891B (zh) 基于差分隐私保护的邻域推荐方法
TWI591556B (zh) Search engine results sorting method and system
CN102902691A (zh) 推荐方法及系统
CN101329683A (zh) 推荐系统及方法
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN105335518A (zh) 生成用户偏好信息的方法及装置
CN113191838A (zh) 一种基于异质图神经网络的购物推荐方法及系统
CN105654361A (zh) 一种基于社区o2o的信用评价方法和系统
CN111695938B (zh) 产品推送方法及系统
CN112232388B (zh) 基于elm-rfe的购物意图关键因素识别方法
CN111582912A (zh) 一种基于深度嵌入聚类算法的画像建模方法
CN112819495A (zh) 一种基于随机多项式核的用户购物意图预测方法
Zeng et al. Collaborative filtering via heterogeneous neural networks
Yu [Retracted] Precision Marketing Optimization Model of e‐Commerce Platform Based on Collaborative Filtering Algorithm
CN113450004A (zh) 电力信用报告生成方法、装置、电子设备及可读存储介质
CN115841345B (zh) 跨境大数据智能化分析方法、系统以及存储介质
CN110321490B (zh) 推荐方法、装置、设备及计算机可读存储介质
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统
Wen et al. Improving the novelty of retail commodity recommendations using multiarmed bandit and gradient boosting decision tree
CN107679709A (zh) 一种基于直觉模糊数和信誉传递的供应商选择方法及装置
CN115456656A (zh) 消费者购买意向预测方法、装置、电子设备及存储介质
Du et al. Research on Personalized Book Recommendation Based on Improved Similarity Calculation and Data Filling Collaborative Filtering Algorithm
CN111833142A (zh) 信息推送处理方法、装置、设备和存储介质
Alghamedy et al. Imputing trust network information in NMF-based collaborative filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination