CN108255949A - 一种细分选择行为偏好的算法 - Google Patents
一种细分选择行为偏好的算法 Download PDFInfo
- Publication number
- CN108255949A CN108255949A CN201711361053.6A CN201711361053A CN108255949A CN 108255949 A CN108255949 A CN 108255949A CN 201711361053 A CN201711361053 A CN 201711361053A CN 108255949 A CN108255949 A CN 108255949A
- Authority
- CN
- China
- Prior art keywords
- model
- parameter
- sample
- housing choice
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种细分选择行为偏好的算法。基于选择行为数据和离散选择模型估计模型参数,作为选择行为偏好的表征。首先用蒙特卡洛算法将数据分解为若干最低限度可解的子样本。分解的依据为模型参数的相似度,综合考虑两个模型参数的相对差异以及差异的可信度。接着用等级聚类算法,以该相似度作为距离指标,将所有最低限度可解子样本逐级归类。最后根据贝叶斯信息标准确定合适数量的模型,获得细分的选择行为偏好类型。本发明算法挖掘选择行为数据中的异质性,相比于基础的离散选择模型算法,可获得更加精准的不同类型个人或集体的选择行为偏好和模型,为相关应用获得更为精确的、有针对性的行为预测结果奠定基础。
Description
技术领域
本发明涉及一种细分选择行为偏好的算法,应用于零售业、交通出行、企业管理等涉及个人或集体选择和决策的众多领域。
背景技术
在数据资源日渐丰富的背景下,众多行业都越来越需要通过收集个人行为数据来预测人的行为从而使行业得到更好发展,例如购物行为、出行行为等。选择行为偏好分析方法已得到广泛应用,通过收集个人或组织的选择行为数据,构建行为偏好模型,模拟决策过程,实现行为预测。
多项逻辑特模型(Multinomial Logit Model)是行为偏好模型中最为常用的一个,其数学形式简洁,易于实施应用。该模型假定人们在选择时以效用最大化为决策规则,将效用定义为决策相关要素的函数;通过估计要素参数,使得模型与实际选择行为最大程度贴合,得到可以进一步应用的效用函数。例如在购物行为分析中,收集消费者的购物行为数据,分析得到商品的价格、质量、品牌等决策相关要素在效用中的权重,进一步用来预测新产品的市场占有率。
现有多项逻辑特模型分析将所有对象纳入单个模型,得到唯一的效用函数。然而,现实中个体行为与偏好存在不同程度的异质性,单一模型难以完整、精细地把握,进而造成对偏好理解和行为预测的偏差,给行业决策带来负面效果。现有方法解决这种异质性的措施,或主观地将人群分类并建立相应的模型,或对模型结构进行数学改进,但因模型复杂度增加而应用性较差。需要一种方法能够有效地以个人偏好为依据,对人群进行细分,同时能够避免分类过程中的主观性,易于实施应用的方法。
发明内容
本发明的目的是:一种细分选择行为偏好的算法。基于多项逻辑特模型估计的模型参数,作为选择行为偏好的表征;根据模型参数的相似度,先将样本分解为若干最低限度可解(模型可解前提下,样本量最小)的子样本,再对这些子样本进行聚类,选取合适的分类数量,最终获得细分的选择行为偏好类型。
本发明所采用的技术方案是:
一种细分选择行为偏好的算法,步骤如下:
步骤1:用全样本数据Ω0拟合模型,得到模型参数集B0={β10...βg0...βG0},βg0(g=1...G)为变量的参数;
步骤2:取出全样本中的一个样本Ri(通常为某个人的选择行为数据),用剩下的样本Ωi拟合模型,得到参数Bi={β1i...βgi...βGi};计算B0与Bi的距离r0i,定义为各参数距离之和;每对参数之间的距离包括两部分,相对差异z0ig和可信度c0ig(公式1)。
相对差异的分子为参数值之差的绝对值,分母为参数绝对值之和,以消除不同参数之间尺度不一的影响(公式2)。
可信度基于对参数间差异的t检验,δgi是参数的标准误(公式3),p(·)是以t0ig为临界值,以Ω0的模型自由度df0和Ωi的模型自由度dfi之和为参数的双尾检验概率;该概率越小,说明参数间差异的统计显著度越大,即可信度越高(公式4)。
c0ig=1-p(t0ig,df0+dfi) (4)
步骤3:对所有样本执行步骤2,比较后得到最大r0i对应的一个样本(或者说“最不合群”的样本),将其放入数据集
步骤4:将其余的数据作为Ω0重复执行步骤(1)—(3),直至模型无解,即得到一个最低限度可解的子样本;
步骤5:将作为Ω0重复执行步骤(1)—(4),直至无法产生最低限度可解子样本;
步骤6:将所有通过步骤(1)—(5)获得的子样本拟合模型;
步骤7:以r0i为指标计算所有子样本之间的距离,将最相似的两个子样本归为一类,将该类作为一个子样本拟合模型;
步骤8:重复步骤(7),逐级聚类得到分类树,直至所有子样本归为一类;
步骤9:选择合适的分类数量c,采用贝叶斯信息标准(BIC),根据各类模型的似然数LLc、参数数量kc和以及样本总量n,取BIC最小时的分类作为最优分类(公式5)。
步骤10:对每个类的样本拟合多项逻辑特模型,得到细分的行为偏好效用函数。
本发明的优点是:
(1)挖掘选择行为数据中的异质性,相比于多项逻辑特模型,可获得更加精准的不同类型个人或组织的选择行为偏好模型;
(2)解决了因数据过少无法拟合模型的问题,用“先分后聚”的方法对最小可解子样本进行聚类;
(3)方法适用性、延展性好,可应用于利用选择模型的众多领域和具体问题,亦可嵌入其他类型模型。
附图说明
图1为本发明细分选择行为偏好算法的流程示意图。
具体实施方式
本发明基于选择行为数据和多项逻辑特模型估计模型参数,作为选择行为偏好的表征,根据模型参数的相似度,采用等级聚类算法,获得细分的选择行为偏好类型。本发明的算法挖掘选择行为数据中的异质性,可获得更加精准的不同类型个人或组织的选择行为偏好模型。
下面结合附图和具体实例对本发明进行详细说明,该实例为游客选择停留目的地。
如附图所示,算法步骤如下:
首先,收集游客在参观展会时的展园选择行为数据,构建多项逻辑特模型如下:
Vn=(λA+μAT)An+(λD+μDT)Dn+(λN+μNT)Nn+(λH+μHT+νHTa)Hn
其中,λ、μ、ν为参数,自变量定义见表1。
表1自变量说明
步骤1:用全样本数据Ω0拟合模型,得到模型参数B0(见表2);
表2总体模型参数
步骤2:取出全样本中的一个游客的选择行为样本Ri,用剩下其他游客的样本Ωi拟合模型,得到参数Bi;计算B0与Bi的距离r0i;
步骤3:对所有样本执行步骤2,比较后得到对应最大r0i的一个样本,将其放入数据集
步骤4:将其余的数据作为Ω0重复执行步骤(1)—(3),直至模型无解,即得到一个最低限度可解的子样本。该子样本由若干个游客样本组成;
步骤5:将作为Ω0重复执行步骤(1)—(4),直至无法产生最低限度可解子样本。共得到152个子样本,每个子样本由3-4个游客的选择行为组成(数量因具体问题和数据而异);
步骤6:将所有通过步骤(1)—(5)获得的子样本拟合模型;
步骤7:以r0i为指标计算所有子样本之间的距离,将最相似的两个子样本归为一类,将该类作为一个子样本拟合模型;
步骤8:重复步骤(7),逐级聚类得到分类树,直至所有子样本归为一类;
步骤9:选择合适的分类数量,采用贝叶斯信息标准,取BIC最小时的分类作为最优分类,得到6类;
步骤10:对每个类的样本拟合多项逻辑特模型,得到细分的游客停留目的地选择行为偏好效用函数(表3)。
表3细分的游客停留目的地选择行为偏好参数
注:*0.05,**0.01,***0.001。
Claims (1)
1.一种细分选择行为偏好的算法,其特征在于,步骤如下:
步骤1:用全样本数据Ω0拟合模型,得到模型参数集B0={β10...βg0...βG0},βg0(g=1...G)为变量的参数;
步骤2:取出全样本中的一个样本Ri(通常为某个人的选择行为数据),用剩下的样本Ωi拟合模型,得到参数Bi={β1i...βgi...βGi};计算B0与Bi的距离r0i,定义为各参数距离之和;每对参数之间的距离包括两部分,相对差异z0ig和可信度c0ig(公式1)
相对差异的分子为参数值之差的绝对值,分母为参数绝对值之和,以消除不同参数之间尺度不一的影响(公式2)
可信度基于对参数间差异的t检验,δgi是参数的标准误(公式3),p(·)是以t0ig为临界值,以Ω0的模型自由度df0和Ωi的模型自由度dfi之和为参数的双尾检验概率;该概率越小,说明参数间差异的统计显著度越大,即可信度越高(公式4)
c0ig=1-p(t0ig,df0+dfi) (4)
步骤3:对所有样本执行步骤2,比较后得到最大r0i对应的一个样本(或者说“最不合群”的样本),将其放入数据集
步骤4:将其余的数据作为Ω0重复执行步骤(1)—(3),直至模型无解,即得到一个最低限度可解的子样本;
步骤5:将作为Ω0重复执行步骤(1)—(4),直至无法产生最低限度可解子样本;
步骤6:将所有通过步骤(1)—(5)获得的子样本拟合模型;
步骤7:以r0i为指标计算所有子样本之间的距离,将最相似的两个子样本归为一类,将该类作为一个子样本拟合模型;
步骤8:重复步骤(7),逐级聚类得到分类树,直至所有子样本归为一类;
步骤9:选择合适的分类数量c,采用贝叶斯信息标准(BIC),根据各类模型的似然数LLc、参数数量kc和以及样本总量n,取BIC最小时的分类作为最优分类(公式5)
步骤10:对每个类的样本拟合多项逻辑特模型,得到细分的行为偏好效用函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711361053.6A CN108255949B (zh) | 2017-12-18 | 2017-12-18 | 一种游客在参观展会时的展园细分选择行为偏好的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711361053.6A CN108255949B (zh) | 2017-12-18 | 2017-12-18 | 一种游客在参观展会时的展园细分选择行为偏好的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108255949A true CN108255949A (zh) | 2018-07-06 |
CN108255949B CN108255949B (zh) | 2020-08-14 |
Family
ID=62723025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711361053.6A Active CN108255949B (zh) | 2017-12-18 | 2017-12-18 | 一种游客在参观展会时的展园细分选择行为偏好的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108255949B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087178A (zh) * | 2018-08-28 | 2018-12-25 | 清华大学 | 商品推荐方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160055416A1 (en) * | 2014-08-21 | 2016-02-25 | International Business Machines Corporation | Predicting a consumer selection preference based on estimated preference and environmental dependence |
CN105631711A (zh) * | 2015-12-30 | 2016-06-01 | 合一网络技术(北京)有限公司 | 一种广告投放方法及装置 |
CN106022865A (zh) * | 2016-05-10 | 2016-10-12 | 江苏大学 | 一种基于评分和用户行为的商品推荐方法 |
CN106874693A (zh) * | 2017-03-15 | 2017-06-20 | 国信优易数据有限公司 | 一种医疗大数据分析处理系统及方法 |
-
2017
- 2017-12-18 CN CN201711361053.6A patent/CN108255949B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160055416A1 (en) * | 2014-08-21 | 2016-02-25 | International Business Machines Corporation | Predicting a consumer selection preference based on estimated preference and environmental dependence |
CN105631711A (zh) * | 2015-12-30 | 2016-06-01 | 合一网络技术(北京)有限公司 | 一种广告投放方法及装置 |
CN106022865A (zh) * | 2016-05-10 | 2016-10-12 | 江苏大学 | 一种基于评分和用户行为的商品推荐方法 |
CN106874693A (zh) * | 2017-03-15 | 2017-06-20 | 国信优易数据有限公司 | 一种医疗大数据分析处理系统及方法 |
Non-Patent Citations (2)
Title |
---|
刘新民等: "基于不同偏好的出行者路径选择行为研究", 《重庆交通大学学报(自然科学版)》 * |
陈锟等: "Logit模型在个体选择行为中的研究演进", 《统计与决策》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087178A (zh) * | 2018-08-28 | 2018-12-25 | 清华大学 | 商品推荐方法和装置 |
CN109087178B (zh) * | 2018-08-28 | 2021-05-18 | 清华大学 | 商品推荐方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108255949B (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Colombo et al. | Graph-based interpretation of the molecular interstellar medium segmentation | |
Kiang et al. | An extended self-organizing map network for market segmentation—a telecommunication example | |
Wei et al. | Predicting injection profiles using ANFIS | |
CN1316419C (zh) | 从形成模型的共同可能性进行预测 | |
CN110413707A (zh) | 互联网中欺诈团伙关系的挖掘与排查方法及其系统 | |
CN108171209A (zh) | 一种基于卷积神经网络进行度量学习的人脸年龄估计方法 | |
Tovar et al. | Classifying ports for efficiency benchmarking: A review and a frontier-based clustering approach | |
CN107577682A (zh) | 基于社交图片的用户兴趣挖掘和用户推荐方法及系统 | |
Hutahaean et al. | On optimal selection of objective grouping for multiobjective history matching | |
US20090276157A1 (en) | System and method for interpretation of well data | |
Alarifi et al. | A new approach to estimating ultimate recovery for multistage hydraulically fractured horizontal wells by utilizing completion parameters using machine learning | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
Li | Application of finite mixture of logistic regression for heterogeneous merging behavior analysis | |
CN107391670A (zh) | 一种融合协同过滤和用户属性过滤的混合推荐方法 | |
CN113065062A (zh) | 一种基于用户阅读时间行为的新闻推荐方法及系统 | |
CN104239496A (zh) | 一种结合模糊权重相似性度量和聚类协同过滤的方法 | |
CN111985576B (zh) | 基于决策树的店铺选址方法 | |
CN106204267A (zh) | 一种基于改进k‑means和神经网络聚类的客户细分系统 | |
CN107194815A (zh) | 客户分类方法及系统 | |
CN110796159A (zh) | 基于k-means算法的电力数据分类方法及系统 | |
CN106204053A (zh) | 信息类目错放识别方法和装置 | |
Han et al. | Comprehensive analysis for production prediction of hydraulic fractured shale reservoirs using proxy model based on deep neural network | |
CN110096651B (zh) | 基于在线社交媒体个人中心网络的可视化分析方法 | |
Santiago et al. | A methodology for the characterization of flow conductivity through the identification of communities in samples of fractured rocks | |
Phate et al. | Clustered ANFIS weighing models for sweet lime (Citrus limetta) using computer vision system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |