CN108255949A

CN108255949A - 一种细分选择行为偏好的算法

Info

Publication number: CN108255949A
Application number: CN201711361053.6A
Authority: CN
Inventors: 朱玮; 魏晓阳
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-07-06
Anticipated expiration: 2037-12-18
Also published as: CN108255949B

Abstract

本发明涉及一种细分选择行为偏好的算法。基于选择行为数据和离散选择模型估计模型参数，作为选择行为偏好的表征。首先用蒙特卡洛算法将数据分解为若干最低限度可解的子样本。分解的依据为模型参数的相似度，综合考虑两个模型参数的相对差异以及差异的可信度。接着用等级聚类算法，以该相似度作为距离指标，将所有最低限度可解子样本逐级归类。最后根据贝叶斯信息标准确定合适数量的模型，获得细分的选择行为偏好类型。本发明算法挖掘选择行为数据中的异质性，相比于基础的离散选择模型算法，可获得更加精准的不同类型个人或集体的选择行为偏好和模型，为相关应用获得更为精确的、有针对性的行为预测结果奠定基础。

Description

一种细分选择行为偏好的算法

技术领域

本发明涉及一种细分选择行为偏好的算法，应用于零售业、交通出行、企业管理等涉及个人或集体选择和决策的众多领域。

背景技术

在数据资源日渐丰富的背景下，众多行业都越来越需要通过收集个人行为数据来预测人的行为从而使行业得到更好发展，例如购物行为、出行行为等。选择行为偏好分析方法已得到广泛应用，通过收集个人或组织的选择行为数据，构建行为偏好模型，模拟决策过程，实现行为预测。

多项逻辑特模型(Multinomial Logit Model)是行为偏好模型中最为常用的一个，其数学形式简洁，易于实施应用。该模型假定人们在选择时以效用最大化为决策规则，将效用定义为决策相关要素的函数；通过估计要素参数，使得模型与实际选择行为最大程度贴合，得到可以进一步应用的效用函数。例如在购物行为分析中，收集消费者的购物行为数据，分析得到商品的价格、质量、品牌等决策相关要素在效用中的权重，进一步用来预测新产品的市场占有率。

现有多项逻辑特模型分析将所有对象纳入单个模型，得到唯一的效用函数。然而，现实中个体行为与偏好存在不同程度的异质性，单一模型难以完整、精细地把握，进而造成对偏好理解和行为预测的偏差，给行业决策带来负面效果。现有方法解决这种异质性的措施，或主观地将人群分类并建立相应的模型，或对模型结构进行数学改进，但因模型复杂度增加而应用性较差。需要一种方法能够有效地以个人偏好为依据，对人群进行细分，同时能够避免分类过程中的主观性，易于实施应用的方法。

发明内容

本发明的目的是：一种细分选择行为偏好的算法。基于多项逻辑特模型估计的模型参数，作为选择行为偏好的表征；根据模型参数的相似度，先将样本分解为若干最低限度可解(模型可解前提下，样本量最小)的子样本，再对这些子样本进行聚类，选取合适的分类数量，最终获得细分的选择行为偏好类型。

本发明所采用的技术方案是：

一种细分选择行为偏好的算法，步骤如下：

步骤1：用全样本数据Ω₀拟合模型，得到模型参数集B₀＝{β₁₀...β_g0...β_G0}，β_g0(g＝1...G)为变量的参数；

步骤2：取出全样本中的一个样本R_i(通常为某个人的选择行为数据)，用剩下的样本Ω_i拟合模型，得到参数B_i＝{β_1i...β_gi...β_Gi}；计算B₀与B_i的距离r_0i，定义为各参数距离之和；每对参数之间的距离包括两部分，相对差异z_0ig和可信度c_0ig(公式1)。

相对差异的分子为参数值之差的绝对值，分母为参数绝对值之和，以消除不同参数之间尺度不一的影响(公式2)。

可信度基于对参数间差异的t检验，δ_gi是参数的标准误(公式3)，p(·)是以t_0ig为临界值，以Ω₀的模型自由度df₀和Ω_i的模型自由度df_i之和为参数的双尾检验概率；该概率越小，说明参数间差异的统计显著度越大，即可信度越高(公式4)。

c_0ig＝1-p(t_0ig,df₀+df_i) (4)

步骤3：对所有样本执行步骤2，比较后得到最大r_0i对应的一个样本(或者说“最不合群”的样本)，将其放入数据集

步骤4：将其余的数据作为Ω₀重复执行步骤(1)—(3)，直至模型无解，即得到一个最低限度可解的子样本；

步骤5：将作为Ω₀重复执行步骤(1)—(4)，直至无法产生最低限度可解子样本；

步骤6：将所有通过步骤(1)—(5)获得的子样本拟合模型；

步骤7：以r_0i为指标计算所有子样本之间的距离，将最相似的两个子样本归为一类，将该类作为一个子样本拟合模型；

步骤8：重复步骤(7)，逐级聚类得到分类树，直至所有子样本归为一类；

步骤9：选择合适的分类数量c，采用贝叶斯信息标准(BIC)，根据各类模型的似然数LL_c、参数数量k_c和以及样本总量n，取BIC最小时的分类作为最优分类(公式5)。

步骤10：对每个类的样本拟合多项逻辑特模型，得到细分的行为偏好效用函数。

本发明的优点是：

(1)挖掘选择行为数据中的异质性，相比于多项逻辑特模型，可获得更加精准的不同类型个人或组织的选择行为偏好模型；

(2)解决了因数据过少无法拟合模型的问题，用“先分后聚”的方法对最小可解子样本进行聚类；

(3)方法适用性、延展性好，可应用于利用选择模型的众多领域和具体问题，亦可嵌入其他类型模型。

附图说明

图1为本发明细分选择行为偏好算法的流程示意图。

具体实施方式

本发明基于选择行为数据和多项逻辑特模型估计模型参数，作为选择行为偏好的表征，根据模型参数的相似度，采用等级聚类算法，获得细分的选择行为偏好类型。本发明的算法挖掘选择行为数据中的异质性，可获得更加精准的不同类型个人或组织的选择行为偏好模型。

下面结合附图和具体实例对本发明进行详细说明，该实例为游客选择停留目的地。

如附图所示，算法步骤如下：

首先，收集游客在参观展会时的展园选择行为数据，构建多项逻辑特模型如下：

V_n＝(λ_A+μ_AT)A_n+(λ_D+μ_DT)D_n+(λ_N+μ_NT)N_n+(λ_H+μ_HT+ν_HTa)H_n

其中，λ、μ、ν为参数，自变量定义见表1。

表1自变量说明

步骤1：用全样本数据Ω₀拟合模型，得到模型参数B₀(见表2)；

表2总体模型参数

步骤2：取出全样本中的一个游客的选择行为样本R_i，用剩下其他游客的样本Ω_i拟合模型，得到参数B_i；计算B₀与B_i的距离r_0i；

步骤3：对所有样本执行步骤2，比较后得到对应最大r_0i的一个样本，将其放入数据集

步骤4：将其余的数据作为Ω₀重复执行步骤(1)—(3)，直至模型无解，即得到一个最低限度可解的子样本。该子样本由若干个游客样本组成；

步骤5：将作为Ω₀重复执行步骤(1)—(4)，直至无法产生最低限度可解子样本。共得到152个子样本，每个子样本由3-4个游客的选择行为组成(数量因具体问题和数据而异)；

步骤6：将所有通过步骤(1)—(5)获得的子样本拟合模型；

步骤9：选择合适的分类数量，采用贝叶斯信息标准，取BIC最小时的分类作为最优分类，得到6类；

步骤10：对每个类的样本拟合多项逻辑特模型，得到细分的游客停留目的地选择行为偏好效用函数(表3)。

表3细分的游客停留目的地选择行为偏好参数

注：*0.05，**0.01，***0.001。

Claims

1.一种细分选择行为偏好的算法，其特征在于，步骤如下：

步骤2：取出全样本中的一个样本R_i(通常为某个人的选择行为数据)，用剩下的样本Ω_i拟合模型，得到参数B_i＝{β_1i...β_gi...β_Gi}；计算B₀与B_i的距离r_0i，定义为各参数距离之和；每对参数之间的距离包括两部分，相对差异z_0ig和可信度c_0ig(公式1)

相对差异的分子为参数值之差的绝对值，分母为参数绝对值之和，以消除不同参数之间尺度不一的影响(公式2)

可信度基于对参数间差异的t检验，δ_gi是参数的标准误(公式3)，p(·)是以t_0ig为临界值，以Ω₀的模型自由度df₀和Ω_i的模型自由度df_i之和为参数的双尾检验概率；该概率越小，说明参数间差异的统计显著度越大，即可信度越高(公式4)

c_0ig＝1-p(t_0ig,df₀+df_i) (4)

步骤6：将所有通过步骤(1)—(5)获得的子样本拟合模型；

步骤9：选择合适的分类数量c，采用贝叶斯信息标准(BIC)，根据各类模型的似然数LL_c、参数数量k_c和以及样本总量n，取BIC最小时的分类作为最优分类(公式5)