CN108255949B - 一种游客在参观展会时的展园细分选择行为偏好的方法 - Google Patents

一种游客在参观展会时的展园细分选择行为偏好的方法 Download PDF

Info

Publication number
CN108255949B
CN108255949B CN201711361053.6A CN201711361053A CN108255949B CN 108255949 B CN108255949 B CN 108255949B CN 201711361053 A CN201711361053 A CN 201711361053A CN 108255949 B CN108255949 B CN 108255949B
Authority
CN
China
Prior art keywords
model
exhibition
parameters
selection
subsamples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711361053.6A
Other languages
English (en)
Other versions
CN108255949A (zh
Inventor
朱玮
魏晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201711361053.6A priority Critical patent/CN108255949B/zh
Publication of CN108255949A publication Critical patent/CN108255949A/zh
Application granted granted Critical
Publication of CN108255949B publication Critical patent/CN108255949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种游客在参观展会时的展园细分选择行为偏好的方法。基于选择行为数据和离散选择模型估计模型参数,作为选择行为偏好的表征。首先用蒙特卡洛算法将数据分解为若干最低限度可解的子样本。分解的依据为模型参数的相似度,综合考虑两个模型参数的相对差异以及差异的可信度。接着用等级聚类算法,以该相似度作为距离指标,将所有最低限度可解子样本逐级归类。最后根据贝叶斯信息标准确定合适数量的模型,获得细分的选择行为偏好类型。本发明算法挖掘选择行为数据中的异质性,相比于基础的离散选择模型算法,可获得更加精准的不同类型个人或集体的选择行为偏好和模型,为相关应用获得更为精确的、有针对性的行为预测结果奠定基础。

Description

一种游客在参观展会时的展园细分选择行为偏好的方法
技术领域
本发明涉及大数据技术领域,应用于展会行业中个体或者集体的选择决策。
背景技术
在数据资源日渐丰富的背景下,众多行业都越来越需要通过收集个人行为数据来预测人的行为从而使行业得到更好发展,例如购物行为、出行行为等。选择行为偏好分析方法已得到广泛应用,通过收集个人或组织的选择行为数据,构建行为偏好模型,模拟决策过程,实现行为预测。
多项逻辑特模型(Multinomial Logit Model)是行为偏好模型中最为常用的一个,其数学形式简洁,易于实施应用。该模型假定人们在选择时以效用最大化为决策规则,将效用定义为决策相关要素的函数;通过估计要素参数,使得模型与实际选择行为最大程度贴合,得到可以进一步应用的效用函数。例如在购物行为分析中,收集消费者的购物行为数据,分析得到商品的价格、质量、品牌等决策相关要素在效用中的权重,进一步用来预测新产品的市场占有率。
现有多项逻辑特模型分析将所有对象纳入单个模型,得到唯一的效用函数。然而,现实中个体行为与偏好存在不同程度的异质性,单一模型难以完整、精细地把握,进而造成对偏好理解和行为预测的偏差,给行业决策带来负面效果。现有方法解决这种异质性的措施,或主观地将人群分类并建立相应的模型,或对模型结构进行数学改进,但因模型复杂度增加而应用性较差。需要一种方法能够有效地以个人偏好为依据,对人群进行细分,同时能够避免分类过程中的主观性,易于实施应用的方法。
发明内容
本发明的目的是:一种细分选择行为偏好的算法。基于多项逻辑特模型估计的模型参数,作为选择行为偏好的表征;根据模型参数的相似度,先将样本分解为若干最低限度可解(模型可解前提下,样本量最小)的子样本,再对这些子样本进行聚类,选取合适的分类数量,最终获得细分的选择行为偏好类型。
本发明所采用的技术方案是:
一种细分选择行为偏好的算法,步骤如下:
步骤1:用全样本数据Ω0拟合模型,得到模型参数集B0={β10...βg0...βG0},βg0(g=1...G)为变量的参数;
步骤2:取出全样本中的一个样本Ri(通常为某个人的选择行为数据),用剩下的样本Ωi拟合模型,得到参数Bi={β1i...βgi...βGi};计算B0与Bi的距离r0i,定义为各参数距离之和;每对参数之间的距离包括两部分,相对差异z0ig和可信度c0ig(公式1)。
Figure GDA0002267092920000021
相对差异的分子为参数值之差的绝对值,分母为参数绝对值之和,以消除不同参数之间尺度不一的影响(公式2)。
Figure GDA0002267092920000022
可信度c0ig是基于相对参数间差异toig的检验,δgi是参数的标准误差(公式3),p(·)是以t0ig为临界值,以Ω0的模型自由度df0和Ωi的模型自由度dfi之和为参数的双尾检验概率;该概率越小,说明参数间差异的统计显著度越大,即可信度越高(公式4)。
Figure GDA0002267092920000023
c0ig=1-p(t0ig,df0+dfi) (4)
步骤3:对所有样本执行步骤2,比较后得到最大r0i对应的一个样本(或者说“最不合群”的样本),将其放入数据集
Figure GDA0002267092920000024
步骤4:将其余的数据作为Ω0重复执行步骤(1)—(3),直至模型无解,即得到一个最低限度可解的子样本;
步骤5:将
Figure GDA0002267092920000031
作为Ω0重复执行步骤(1)—(4),直至无法产生最低限度可解子样本;
步骤6:将所有通过步骤(1)—(5)获得的子样本拟合模型;
步骤7:以r0i为指标计算所有子样本之间的距离,将最相似的两个子样本归为一类,将该类作为一个子样本拟合模型;
步骤8:重复步骤(7),逐级聚类得到分类树,直至所有子样本归为一类;
步骤9:选择合适的分类数量c,采用贝叶斯信息标准(BIC),根据各类模型的似然数LLc、参数数量kc和以及样本总量n,取BIC最小时的分类作为最优分类(公式5)。
Figure GDA0002267092920000032
步骤10:对每个类的样本拟合多项逻辑特模型,得到细分的行为偏好效用函数。
本发明的优点是:
(1)挖掘选择行为数据中的异质性,相比于多项逻辑特模型,可获得更加精准的不同类型个人或组织的选择行为偏好模型;
(2)解决了因数据过少无法拟合模型的问题,用“先分后聚”的方法对最小可解子样本进行聚类;
(3)方法适用性、延展性好,可应用于利用选择模型的众多领域和具体问题,亦可嵌入其他类型模型。
附图说明
图1为本发明细分选择行为偏好算法的流程示意图。
具体实施方式
本发明基于选择行为数据和多项逻辑特模型估计模型参数,作为选择行为偏好的表征,根据模型参数的相似度,采用等级聚类算法,获得细分的选择行为偏好类型。本发明的算法挖掘选择行为数据中的异质性,可获得更加精准的不同类型个人或组织的选择行为偏好模型。
下面结合附图和具体实例对本发明进行详细说明,该实例为游客选择停留目的地。
如附图所示,算法步骤如下:
首先,收集游客在参观展会时的展园选择行为数据,构建多项逻辑特模型如下:
Vn=(λAAT)An+(λDDT)Dn+(λNNT)Nn+(λHHT+νHTa)Hn
其中,λ、μ、ν为参数,自变量定义见表1。
表1自变量说明
Figure GDA0002267092920000041
步骤1:用全样本数据Ω0拟合模型,得到模型参数B0(见表2);
表2总体模型参数
Figure GDA0002267092920000042
步骤2:取出全样本中的一个游客的选择行为样本Ri,用剩下其他游客的样本Ωi拟合模型,得到参数Bi;计算B0与Bi的距离r0i
步骤3:对所有样本执行步骤2,比较后得到对应最大r0i的一个样本,将其放入数据集
Figure GDA0002267092920000043
步骤4:将其余的数据作为Ω0重复执行步骤(1)—(3),直至模型无解,即得到一个最低限度可解的子样本。该子样本由若干个游客样本组成;
步骤5:将
Figure GDA0002267092920000051
作为Ω0重复执行步骤(1)—(4),直至无法产生最低限度可解子样本。共得到152个子样本,每个子样本由3-4个游客的选择行为组成(数量因具体问题和数据而异);
步骤6:将所有通过步骤(1)—(5)获得的子样本拟合模型;
步骤7:以r0i为指标计算所有子样本之间的距离,将最相似的两个子样本归为一类,将该类作为一个子样本拟合模型;
步骤8:重复步骤(7),逐级聚类得到分类树,直至所有子样本归为一类;
步骤9:选择合适的分类数量,采用贝叶斯信息标准,取BIC最小时的分类作为最优分类,得到6类;
步骤10:对每个类的样本拟合多项逻辑特模型,得到细分的游客停留目的地选择行为偏好效用函数(表3)。
表3细分的游客停留目的地选择行为偏好参数
Figure GDA0002267092920000052
Figure GDA0002267092920000061
注:*0.05,**0.01,***0.001。

Claims (1)

1.一种游客在参观展会时的展园细分选择行为偏好的方法,其特征在于,
首先,收集游客在参观展会时的展园选择行为数据,构建多项逻辑特模型:
Vn=(λAAT)An+(λDDT)Dn+(λNNT)Nn+(λHHT+νHTa)Hn
其中,λ、μ、ν为参数,自变量定义见表1;
表1 自变量说明
Figure FDA0002267092910000011
得到全样本数据Ω0
接着,步骤如下:
步骤1:用全样本数据Ω0拟合模型,得到模型参数集B0={β10...βg0...βG0},βg0为变量的参数, g = 1...G ;
步骤2:取出全样本Ω0中的一个游客的选择行为样本Ri,通常为某个游客的选择行为数据,用剩下其他游客的样本Ωi拟合模型,得到参数Bi={β1i...βgi...βGi};计算B0与Bi的距离r0i,定义为各参数距离之和;每对参数之间的距离包括两部分,相对差异z0ig和可信度c0ig
Figure FDA0002267092910000012
相对差异z0ig的分子为参数值之差的绝对值,分母为参数绝对值之和,以消除不同参数之间尺度不一的影响
Figure FDA0002267092910000021
可信度c0ig是基于相对参数间差异toig的检验,δgi是参数的标准误差,p(·)是以t0ig为临界值,以Ω0的模型自由度df0和Ωi的模型自由度dfi之和为参数的双尾检验概率;该概率越小,说明参数间差异的统计显著度越大,即可信度越高
Figure FDA0002267092910000022
c0ig=1-p(t0ig,df0+dfi) (4)
步骤3:对所有样本执行步骤2,比较后得到最大r0i对应的一个样本,将其放入数据集
Figure FDA0002267092910000024
步骤4:将其余的数据作为Ω0重复执行步骤1—3,直至模型无解,即得到一个最低限度可解的子样本;该子样本由若干个游客样本组成;
步骤5:将
Figure FDA0002267092910000025
作为Ω0重复执行步骤1—4,直至无法产生最低限度可解子样本,每个子样本由3-4个游客的选择行为组成;
步骤6:将所有通过步骤1—5获得的子样本拟合模型;
步骤7:以r0i为指标计算所有子样本之间的距离,将最相似的两个子样本归为一类,将该类作为一个子样本拟合模型;
步骤8:重复步骤7,逐级聚类得到分类树,直至所有子样本归为一类;
步骤9:选择合适的分类数量c,采用贝叶斯信息标准BIC,根据各类模型的似然数LLc、参数数量kc和以及样本总量n,取贝叶斯信息标准BIC最小时的分类作为最优分类
Figure FDA0002267092910000023
步骤10:对每个类的样本拟合多项逻辑特模型,得到细分的游客停留目的地选择行为偏好效用函数。
CN201711361053.6A 2017-12-18 2017-12-18 一种游客在参观展会时的展园细分选择行为偏好的方法 Active CN108255949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711361053.6A CN108255949B (zh) 2017-12-18 2017-12-18 一种游客在参观展会时的展园细分选择行为偏好的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711361053.6A CN108255949B (zh) 2017-12-18 2017-12-18 一种游客在参观展会时的展园细分选择行为偏好的方法

Publications (2)

Publication Number Publication Date
CN108255949A CN108255949A (zh) 2018-07-06
CN108255949B true CN108255949B (zh) 2020-08-14

Family

ID=62723025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711361053.6A Active CN108255949B (zh) 2017-12-18 2017-12-18 一种游客在参观展会时的展园细分选择行为偏好的方法

Country Status (1)

Country Link
CN (1) CN108255949B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087178B (zh) * 2018-08-28 2021-05-18 清华大学 商品推荐方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631711A (zh) * 2015-12-30 2016-06-01 合一网络技术(北京)有限公司 一种广告投放方法及装置
CN106022865A (zh) * 2016-05-10 2016-10-12 江苏大学 一种基于评分和用户行为的商品推荐方法
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5984150B2 (ja) * 2014-08-21 2016-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631711A (zh) * 2015-12-30 2016-06-01 合一网络技术(北京)有限公司 一种广告投放方法及装置
CN106022865A (zh) * 2016-05-10 2016-10-12 江苏大学 一种基于评分和用户行为的商品推荐方法
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Logit模型在个体选择行为中的研究演进;陈锟等;《统计与决策》;20061030(第20期);第138-140页 *
基于不同偏好的出行者路径选择行为研究;刘新民等;《重庆交通大学学报(自然科学版)》;20171015(第10期);第102-106页 *

Also Published As

Publication number Publication date
CN108255949A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
Nabizadeh et al. Adaptive learning path recommender approach using auxiliary learning objects
CN113010572B (zh) 基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法
Li et al. Applying various algorithms for species distribution modelling
CN106997509B (zh) 一种不确定信息融合的应急物资分布需求预测方法
CN103617435B (zh) 一种主动学习图像分类方法和系统
Wang et al. A data-driven network analysis approach to predicting customer choice sets for choice modeling in engineering design
Kočišová et al. Discriminant analysis as a tool for forecasting company's financial health
Yao et al. Modelling of pavement performance evolution considering uncertainty and interpretability: A machine learning based framework
Fagundes et al. Interval kernel regression
Hayden et al. Statistical methods to develop rating models
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN109214863A (zh) 一种基于快递数据预测城市房屋需求的方法
CN112562863A (zh) 流行病监测预警方法、装置、电子设备
Ikawati et al. Student behavior analysis to detect learning styles in Moodle learning management system
Yoon et al. Dynamic diurnal social taxonomy of urban environments using data from a geocoded time use activity-travel diary and point-based business establishment inventory
CN104766219A (zh) 基于以列表为单位的用户推荐列表生成方法及系统
CN111612491B (zh) 状态分析模型构建方法、分析方法及装置
CN109460474B (zh) 用户偏好趋势挖掘方法
CN108255949B (zh) 一种游客在参观展会时的展园细分选择行为偏好的方法
Putrada et al. A Hybrid Genetic Algorithm-Random Forest Regression Method for Optimum Driver Selection in Online Food Delivery
Liu et al. Robust prediction and outlier detection for spatial datasets
Chen et al. Macro-level accident fatality prediction using a combined model based on ARIMA and multivariable linear regression
CN112650949B (zh) 基于多源特征融合协同过滤的区域poi需求识别方法
KR101689499B1 (ko) 신규 논문 추천 방법 및 상기 방법을 수행하는 신규 논문 추천 시스템
Depari Real Estate Segmentation: A Model of Real estate Decision Support System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant