CN108805199A - 一种基于遗传算法的实体商业营销方法 - Google Patents

一种基于遗传算法的实体商业营销方法 Download PDF

Info

Publication number
CN108805199A
CN108805199A CN201810589102.XA CN201810589102A CN108805199A CN 108805199 A CN108805199 A CN 108805199A CN 201810589102 A CN201810589102 A CN 201810589102A CN 108805199 A CN108805199 A CN 108805199A
Authority
CN
China
Prior art keywords
user
businessman
genetic algorithm
data
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810589102.XA
Other languages
English (en)
Other versions
CN108805199B (zh
Inventor
邹倩颖
彭光辉
李梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu College of University of Electronic Science and Technology of China
Original Assignee
Chengdu College of University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu College of University of Electronic Science and Technology of China filed Critical Chengdu College of University of Electronic Science and Technology of China
Priority to CN201810589102.XA priority Critical patent/CN108805199B/zh
Publication of CN108805199A publication Critical patent/CN108805199A/zh
Application granted granted Critical
Publication of CN108805199B publication Critical patent/CN108805199B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

本发明公开一种基于遗传算法的实体商业营销方法,涉及营销方法领域,包括如下步骤:采集商家数据和用户数据;根据商家数据,针对商家采用对不同消费类型设定标签,获得商家特征基因建立商家基因库模型;根据用户数据,获得用户消费权重,建立用户偏好模型;利用k‑means算法分别对类型相似的商家数据和用户数据进行初始聚类;采用遗传算法计算某一商家对一被推荐用户的推荐率,对用户求解推荐率;再计算出满足条件的商家对此被推荐用户的推荐率,生成推新备选商家数据集,根据各商家在数据集中的排名,对此被推荐用户进行精准推荐;本发明解决了目前实体商业市场无法对用户进行精准营销,使得在商业市场上竞争力低的问题。

Description

一种基于遗传算法的实体商业营销方法
技术领域
本发明涉及营销方法领域,尤其涉及一种基于遗传算法的实体商业营销方法。
背景技术
随着“互联网+”的浪潮席卷而来,以电商平台为典型代表的新型商业模式成为人们的宠儿,而传统实体商业,如百货商场,却在此次浪潮中受到非常大的冲击。不少商场沦为“试衣间”、商品展示平台。根据iziRetail抽样调查数据,2016年上半年全国近六成的百货商场业绩处于下滑状态,很多商场甚至濒临倒闭或者已经倒闭。因此,对于目前的大型实体商业而言,积极探寻新的经营理念,利用先进大数据技术,在新时代、新环境下实现商业模式转型,是目前所有实体商业领导者亟待解决的问题。
总之,由于实体商业市场缺乏像电商平台那样的个性化交互平台,因此无法对用户进行精准营销,使得在商业市场上竞争力越来越弱。
发明内容
本发明的目的在于:为解决目前实体商业市场无法对用户进行精准营销,使得在商业市场上竞争力低的问题,本发明提供一种基于遗传算法的实体商业营销方法。
本发明的技术方案如下:
一种基于遗传算法的实体商业营销方法,包括如下步骤:
步骤1:采集商家数据和用户数据;
步骤2:根据商家数据,针对商家采用对不同消费类型设定标签,获得商家特征基因建立商家基因库模型;
步骤3:根据用户数据,获得用户消费权重,建立用户偏好模型;
步骤4:利用k-means算法分别对类型相似的商家数据和用户数据进行初始聚类;
步骤5:在聚合的类中将用户数据和商家基因库的特征基因进行匹配,采用遗传算法计算某一商家对一被推荐用户的推荐率;再计算出匹配成功的商家对此被推荐用户的推荐率,生成推新备选商家数据集,根据各商家在数据集中的排名,对此被推荐用户进行精准推荐。
步骤1-步骤5中,用户包括老用户和新用户,老用户和新用户的判定依据一定的判定规则;
步骤5中,对计算某一商家对老用户或者新用户的推荐率采用不同的遗传算法。
进一步地,所述用户分为老用户或新用户,老用户的具体消费数据根据句实际调查获取,每个用户所有具体消费数据;新用户要下载APP或关注微信公众号,让其通过APP或者微信公众号选择偏好并打分,后台记录并填写标签作为用户数据。
具体地,所述步骤2中,将所述商家数据分为代表餐饮行业、服装行业和休闲行业三个类型,分别是CI、RI和LI,每一类型的个数相同;商家的特征基因为:其中h代表第h个商家,商家的特征基因需要转化为二进制序。
具体地,所述步骤3中,用户消费的权重为:其中Ci表示第i位用户,xj表示权重序列的第j个特征,用户消费权重也需要转换为二进制序列。
具体地,所述步骤4的具体步骤为:
步骤4.1:输入样本数据集,样本数据集包括步骤2中获得的商家特征基因以及步骤3中获得的用户消费权重
步骤4.2:对样本数据集进行判定,区分商家特征基因和用户消费权重,分别存储;
步骤4.3:使用K-means算法对商家和用户分别在餐饮行业、服装行业和休闲行业三大类基础上进行类型相似数据的聚类;
具体的聚类算法为:
在数据集合中随机选取q个质心作为初始质心点,k值个数在之间,其中,n表示权重序列个数30,根据实际情况设定k值个数q=6,分别为k1、k2…kq…k6,使用公式(1)(2)所示,计算个体所属的族:
其中,argmin表示平均最小距离绝对值,表示样本C集合,Ci表示样本C中第i个样本,xj表示第j个权重数,表示样本S集合,sh表示S样本中第h个样本;
在个体总数不断增多情况下,质心也会根据个体数量的改变而改变,对于每一类kq都需要重新计算该类质心,以形成更准确的族,公式如(3)(4)所示:
其中G(i)表示样例i与k个类中质心点距离最近的类(G(i)∈[k1,k6]),质心kqc、kqs表示对属于同一个类样本中心点的猜测;迭代计算,每个个体都有所属的簇,在个体数量增多时,用户和商家分别重复迭代公式(1)(3)和公式(2)(4),直到质心不变或范围波动很窄时收敛得到最终聚类结果。
具体地,所述步骤5中,如果被推荐用户为老用户,对于老用户的算法为:
步骤5.1:在商家中随机找m个点作初始群体,再根据遗传算法中基因的变异、交叉、复制算子的计算,不断产生新的基因型,并计算新基因型与此老用户之间的匹配程度M,保留匹配程度高的基因型淘汰掉匹配程度低的;
当某一时刻t,群体状态为τ,老用户与群体的最大适应度如公式(5)所示:
其中Ci表示第i位用户,xj表示权重序列的第j个特征,Sh表示第h位商家;群体状态连续三代不再改变时,则遗传算法收敛;
当计算过程中求最优解的基因始终在改变,并没有满足收敛条件时,在遗传算法中的基因最大更新代数为500,一般取值300-500之间,超过更新代数时算法,停止计算,确定停止时刻群体状态及最大适应度;
步骤5.2:运用遗传算法寻找老用户的关联用户Cf的适应度函数,适应度函数如公式(6)所示:
其中,C表示用户,表示老用户i的权重序列,表示用户关联好友f的权重序列,所有权重序列的特征数都为30,i与f都从特征1到30进行求和计算;
步骤5.3:计算最终的商家推荐率:
运用遗传算法找到老用户Ci的关联用户Cf的最优解F,以F为圆心,设定匹配程度阈值,以此阈值为半径范围取值,在该范围中所有关联用户则为老用户Ci的最终相似关联用户F;具体地,本具体实施中阈值取85%,此值可根据实际情况调整。
实际调查获取到每个用户所有具体消费数据来计算某一个商家S对用户Ci的推荐率,其中表示被推荐用户Ci的消费记录,表示Cf的消费记录,求某一商家S对Ci被推荐用户的推荐率为公式7所示:
其中Countf=∑f∈FPc(S,Cf),f为在店S消费过的关联好友,F为所有的用户集合,Count(F)为所有的用户的数值,以商家S为主,在F集中找到在店S消费过的人计数count(f),消费过则计数1,未消费则计数0,以该计数值与count(F)进行比值,最终值则为最后该店对Ci的最终推荐率;
步骤5.4:计算得出匹配成功的的商家对用户Ci的推荐率,生成推新备选商家数据集,根据各商家在数据集中的排名进行推荐。
具体地,所述步骤5中,如果被推荐用户为新用户,对新用户的推荐算法为:
步骤5.1-1:在遗传算法框架中采用用户序列与商家序列直接匹配的方式,得到与该用户相似度最大的商家作为适应度函数,并进行实时推送,相对应的遗传算法的适应度函数为公式(8)所示:
其中中Ci表示第i位用户、xj表示权重序列的第j个特征,中Sh表示第h位商家;
步骤5.2-2:求用户与商家的相似程度,与获取的商圈消费情况进行分析;具体地,将商家与用户放于n维空间中,采用欧几里得距离公式计算两点的距离,并使用公式(8)将距离变成两点的相似度;
步骤5.3-1:在商家中随机找m个点作初始群体,再根据遗传算法中基因的变异、交叉、复制算子的计算,不断产生新的基因型,并计算新基因型与此老用户之间的匹配程度M,保留匹配程度高的基因型淘汰掉匹配程度低的;
当某一时刻t,群体状态为τ,老用户与群体的最大适应度如公式(5)所示:
其中Ci表示第i位用户,xj表示权重序列的第j个特征,Sh表示第h位商家;群体状态连续三代不再改变时,则遗传算法收敛;当计算过程中求最优解的基因始终在改变,并没有满足收敛条件时,在遗传算法中的基因最大更新代数为500,超过更新代数时算法,停止计算,确定停止时刻群体状态及最大适应度;
步骤5.4-1:自定义新的算法模式——范围相似度函数Sim,在实际的基因组中找到与o最匹配的解成为算法的实际最优解:
在n维空间中以o点为圆心,设定阈值为半径得到相应的范围,计算范围中所有点与o点的距离且最终推荐率为公式(9):
其中,Sh表示范围内某商家,Wo为运用遗传算法后得到的相似最优解权重序列,为范围之中商家基因序列;采用余弦相似度计算o点与范围中商家的相似度,找到相似度最大的商家,将其作为最优解推送给相应的用户。
采用上述方案后,本发明的有益效果如下:
(1)实体商业经济快速发展,用户和商家数据不断累积,由于用户的年龄、性别、职业、购物习惯的不同,传统遗传算法很难准确分析出目标用户特有的个性。本文提出一种改进遗传算法,即在传统遗传算法之前加入k-means算法,使数据源特征更具有集中性,再应用遗传算法得出相似最优解集,最后使用自定义范围相似度函数求解推荐率。
(2)在使用传统遗传算法之后加入范围相似度函数求被推荐用户的亲密好友f,对遗传算法得出的相似最优解集做出最优选择,使最优解的范围更精确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
图1为本发明的步骤图;
图2为本发明的k-means算法计算过程图;
图3为聚类过程的示意图;
图4为亲密好友的结构示意图;
图5为用户消费记录交集Venn图;
图6为最终得到的实际最优解结构图;
图7为本发明的并行实现改进的遗传算法;
图8为不同消费类型匹配程度效果对比图;
图9为本发明的具体步骤图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本具体实施方式中的一种基于遗传算法的实体商业营销方法,如图1和图9所示,包括如下步骤:
步骤1:采集商家数据和用户数据;所述用户分为老用户或新用户,老用户的具体消费数据根据句实际调查获取,每个用户所有具体消费数据;新用户要下载APP或关注微信公众号,让其通过APP或者微信公众号选择偏好并打分,后台记录并填写标签作为用户数据。本实施例中数据采集是以3个月为周期,设定3个月内有5次以上购物行为的用户判定为老用户,新用户为无购物行为或一个周期内购物行为低于5次的用户。
步骤2:将所述商家数据分为代表餐饮行业、服装行业和休闲行业三个类型,分别是CI、RI和LI,具体的分类情况如表1所示,每一类型的个数相同;
表1
商家的特征基因为:其中h代表第h个商家,商家的特征基因需要转化为二进制序。具体的二进制序列如表2所示:
表2
步骤3:根据用户数据,获得用户消费权重,建立用户偏好模型;用户消费的权重为:其中Ci表示第i位用户,xj表示权重序列的第j个特征,客户消费带有权重,其权重在为0—5之间取值,同时,用户消费权重也需要转换为二进制序列,如表3所示。
表3
步骤4:如图2所示,利用k-means算法分别对类型相似的商家数据和用户数据进行初始聚类;商家一共存在90个标签,CI、RI和LI三个类型各占30个,商家在连续30个标签之内含各自特征基因,用户在连续90个标签中均有权重值,每个类型的商家和用户分别在CI、RI和LI这三个大类上进行聚类。所述步骤4的具体步骤为:
步骤4.1:输入样本数据集,样本数据集包括步骤2中获得的商家特征基因以及步骤3中获得的用户消费权重
步骤4.2:对样本数据集进行判定,区分商家特征基因和用户消费权重,分别存储;
步骤4.3:使用K-means算法对商家和用户分别在餐饮行业、服装行业和休闲行业三大类基础上进行类型相似数据的聚类;
具体的聚类算法为:
在数据集合中随机选取q个质心作为初始质心点,k值个数在之间,其中,n表示权重序列个数30,根据实际情况设定k值个数q=6,分别为k1、k2…kq…k6,使用公式(1)(2)所示,计算个体所属的族:
其中,argmin表示平均最小距离绝对值,表示样本C集合,ci表示样本C中第i个样本,xj表示第j个权重数,表示样本S集合,sh表示S样本中第h个样本。
在个体总数不断增多情况下,质心也会根据个体数量的改变而改变,对于每一类kq都需要重新计算该类质心,以形成更准确的族,公式如(3)(4)所示:
其中G(i)表示样例i与k个类中质心点距离最近的类(G(i)∈[k1,k6]),质心kqc、kqs表示对属于同一个类样本中心点的猜测;迭代计算,每个个体都有所属的簇,在个体数量增多时,用户和商家分别重复迭代公式(1)(3)和公式(2)(4),直到质心不变或范围波动很窄时收敛得到最终聚类结果,以CI为例,如图3所示。
步骤5:采用遗传算法计算某一商家对一被推荐用户的推荐率,对用户求解推荐率;再计算出匹配成功的商家对此被推荐用户的推荐率,生成推新备选商家数据集,根据各商家在数据集中的排名,对此被推荐用户进行精准推荐。
具体地,如果被推荐用户为老用户,对于老用户的算法为:
步骤5.1:在商家中随机找m个点作初始群体,再根据遗传算法中基因的变异、交叉、复制算子的计算,不断产生新的基因型,并计算新基因型与此老用户之间的匹配程度M,保留匹配程度高的基因型淘汰掉匹配程度低的;
当某一时刻t,群体状态为τ,老用户与群体的最大适应度如公式(5)所示:
其中Ci表示第i位用户,xj表示权重序列的第j个特征,Sh表示第h位商家;群体状态连续三代不再改变时,则遗传算法收敛;
当计算过程中求最优解的基因始终在改变,并没有满足收敛条件时,在遗传算法中的基因最大更新代数为300-500,超过更新代数时算法,停止计算,确定停止时刻群体状态及最大适应度;
步骤5.2:运用遗传算法寻找老用户的关联用户Cf的适应度函数,适应度函数如公式(6)所示:
其中,C表示用户,表示老用户i的权重序列,表示用户关联好友Cf的权重序列,所有权重序列的特征数都为30,i与f都从特征1到30进行求和计算;
步骤5.3:计算最终的商家推荐率:
运用遗传算法找到老用户i的关联用户Cf的最优解F,以F为圆心,设定匹配程度阈值85%,以此阈值为半径范围取值,在该范围中所有关联用户则为老用户Ci的最终相似关联用户,如图4所示;
实际调查获取到每个用户所有具体消费数据来计算某一个商家S对用户Ci的推荐率,其中表示被推荐用户Ci的消费记录,表示f的消费记录,对用户Ci的推荐率采用消费记录交集推荐的方法来得到最终的推荐率;两用户的消费记录交集Venn图如图5所示。
求某一商家S对Ci被推荐用户的推荐率为公式7所示:
其中Count(f)=∑f∈FPc(S,Cf),f为在店S消费过的关联好友,F为所有的用户集合,Count(F)为所有的用户的数值,以商家S为主,在F集中找到在店S消费过的人计数count(f),消费过则计数1,未消费则计数0,以该计数值与count(F)进行比值,最终值则为最后该店对Ci的最终推荐率。
步骤5.4:计算得出匹配成功的商家对用户Ci的推荐率,生成推新备选商家数据集,根据各商家在数据集中的排名进行推荐。
如果被推荐用户为新用户,对新用户的推荐算法为:
步骤5.1-1:在遗传算法框架中采用用户序列与商家序列直接匹配的方式,得到与该用户相似度最大的商家作为适应度函数,并进行实时推送,相对应的遗传算法的适应度函数为公式(8)所示:
其中中Ci表示第i位用户、xj表示权重序列的第j个特征,中Sh表示第h位商家;
步骤5.2-2:求用户与商家的相似程度,与获取的商圈消费情况进行分析;具体地,将商家与用户放于n维空间中,采用欧几里得距离公式计算两点的距离,并使用公式(8)将距离变成两点的相似度;
步骤5.3-1:在商家中随机找m个点作初始群体,再根据遗传算法中基因的变异、交叉、复制算子的计算,不断产生新的基因型,并计算新基因型与此老用户之间的匹配程度M,保留匹配程度高的基因型淘汰掉匹配程度低的;
当某一时刻t,群体状态为τ,老用户与群体的最大适应度如公式(5)所示:
其中Ci表示第i位用户,xj表示权重序列的第j个特征,Sh表示第h位商家;群体状态连续三代不再改变时,则遗传算法收敛;当计算过程中求最优解的基因始终在改变,并没有满足收敛条件时,在遗传算法中的基因最大更新代数为500,超过更新代数时算法,停止计算,确定停止时刻群体状态及最大适应度;
步骤5.4-1:自定义新的算法模式——范围相似度函数Sim,在实际的基因组中找到与o最匹配的解成为算法的实际最优解:
在n维空间中以o点为圆心,设定阈值为半径得到相应的范围,计算范围中所有点与o点的距离且最终推荐率为公式(9):
其中,Sh表示范围内某商家,Wo为运用遗传算法后得到的相似最优解权重序列,为范围之中商家基因序列;采用余弦相似度计算o点与范围中商家的相似度,找到相似度最大的商家,将其作为最优解推送给相应的用户,如图6所示。
本发明提出一种改进遗传算法,即在传统算法之前加入k-means算法,使数据源特征更具有集中性,再应用遗传算法得出相似最优解集,最后使用自定义范围相似度函数求解推荐率。本文提出的算法仍有需要改进的地方,以下几个方面需要基于实际情况来进行具体选择:
一、利用k-means算法对用户和商家数据进行初始聚类,其中对k值的确定有待完善,当用户和商家的数据有变动的时候,所确定的k值就需要更新。
二、对新用户的数据采集方式可以更具个性化,不限于本发明的具体实施中所描述的方法,不论以哪种方式,其目的都是为了提高新用户的数据参数的精确度以及快速有效的采集并存储其数据,进行精准的计算。
三、在计算最终推荐率时,将相似最优解放入n维空间中,以其为圆心,人为的设定以与其相似程度85%取值,在此范围的即为最优解的关联用户f。因此在寻找最优解的亲密好友的时候可以设定一个算法去自动确定以最优的相似程度范围取值。
以上所有算法均采用Hadoop集群MapReduce编程模型并行实现。下面,将分别对k-means算法和遗传算法在Hadoop平台上的实现过程进行详细说明。
首先,本发明的具体实施例基于Hadoop分布式集群,利用MapReduce编程模型来并行实现k-means聚类算法、遗传算法以及自定义范围相似度函数。针对1000万条用户和商家数据进行挖掘及分析。实施例运行环境以10台Dell机架服务器搭建的Hadoop集群,两台内存16G的PowerEdgeR910服务器分别作为masters,8台PowerEdge R930服务器作为slaves节点,如表4所示:
表4
k-means算法的并行实现过程为:
1.先计算所有种群中的k值,其中k值一般在之间,n表示标签个数,将所有群体快速聚类,迭代计算过程如图2所示。
2.输入:群体的样本数据,计算出种群的聚类中心k,直到算法收敛,所有的群体聚类。
3.输出:每一个k族的聚类数据中Ci表示第i位用户、xj表示权重序列的第j个特征,中Sh表示第h位商家。
4.map阶段:利用公式(3)(4)计算出k-means算法的聚类中心,直到其收敛。将所有的群体都匹配到与之同类的族中,形成<k聚类中心值,权重序列>,输入到combine中。
5.combine阶段:合并map输入相同key的权重序列,并以<k聚类中心值,List<权重序列>>输入到Reduce。3.reduce阶段:将map阶段输入的key值置空,并以次结果作为遗传算法map阶段的输入值。
在hadoop平台并行实现k-means算法,自定义6个质心点,将实际获得的数据集群中类型相似的数据聚类,分类更集中,加快查找速度,再根据得到的6个聚类结果作为遗传算法的输入数据源。
改进遗传算法的并行实现过程为:
1.第一步Map阶段:以k-means算法的最终结果作为遗传算法的map输入,接收数据为所有群体,且在map阶段不做任何处理将<key1,value1>作为下一阶段combine的输入,如图7所示。
2.第二步Combine阶段:由于商家商品基因和消费者的权重序列存在明显差异(商家存在60个连续为0的权重,用户则几乎不会出现该情况),在combine阶段则将这两类群体合并,最终以消费者权重序列作为key值,商家基因序列作为value值,以<key2,value2>的形式作输入到下一个Reduce阶段。
3.第三步Reduce阶段:Reduce进行遗传算法的计算过程,将商家基因与用户权重进行匹配,求其相似度,从而找到最终相似最优解。并以<key3,value3>输出,其中key3为某一用户权重序列,value3是与该用户匹配程度最高的商家相似最优解。
4.第四步:由于相似最优解可能不存于实际商家序列中,根据不同的用户类型在遗传算法最后自定义算法范围相似度得出实际最优解,并以此计算出商家对用户的推荐率。
5.输入:k-means算法的计算结果,每一个k族的聚类数据
6.输出:商家对用户的推荐率。
通过运行后,将本发明的遗传算法与传统遗传算法在匹配程度方面进行对比。具体的比较结果如图8所示,传统遗传算法匹配程度在70%-75%之间的有3566344条数据,匹配程度在75%以上的有809246条数据,其中还存在匹配度在90%-100%的5条数据。以餐饮业为例,传统遗传算法匹配度在70%-75%有数据1140528条,高于改进遗传算法,其在70%-100%范围的数据则低于改进遗传算法,推荐精度在传统遗传算法基础上平均提高15.6%。
以餐饮业为例,传统遗传算法匹配度在70%~75%有数据1140528条,高于改进遗传算法,其在70%~100%范围的数据则低于改进遗传算法,推荐率在传统遗传算法基础上平均提高15.6%。本发明的算法优于传统遗传算法的原因为以下两点:第一点,在传统遗传算法加入k-means算法对数据进行初始聚类,将商家基因累积,抬高特征值,加快遗传算法对特征基因的识别和匹配分析;第二点,在使用传统遗传算法之后加入范围相似度函数求被推荐用户的亲密好友f,对遗传算法得出的相似最优解集做出最优选择,使最优解的范围更精确。
将提出改进遗传算法与传统遗传算法在性能上进行对比。针对大数据环境,主要测试算法处理数据的时间复杂度。改变节点数、数据量测试不同算法处理数据时所耗时间。
a)相同节点、相同数据不同的算法所耗时间的对比。
表5
处理相同数据1000W条、设置相同3个节点,实验结果得出,改进的遗传算法所耗时间仅有13分15秒,传统遗传算法所耗时间为31分36秒,因此可计算得出改进后的算法处理数据的能力提高了41.9%以上,如表5所示。
b)相同算法、相同数据不同节点的算法所耗时间的对比。
保持相同的1000W条数据,开启一个节点时,传统遗传算法优于改进遗传算法,因为改进遗传算法在初始阶段开启的进程要多于传统遗传算法,相对耗时。改变节点数,随着节点数的增加,系统处理数据能力明显提升。改进的遗传算法单节点处理数据时耗时42分39秒,4节点并行处理时时间仅仅需要3分45秒就能得出结果,如表6所示。
表6算法和数据相同,节点个数不同
c)相同算法,相同节点的不同数据的处理数据的能力
当算法相同,数据量在百万条左右,两者处理能力相当。当数据量足够大时,传统遗传算法时间复杂度大幅度增加,改进遗传算法耗时增加相对平稳,处理数据的能力明显优于传统遗传算法,如表7所示:
表7
测试两种算法在3个节点均只启动一个reduce,如表8所示;
表8
传统遗传算法需要38:06分钟,改进遗传算法需要22:05分钟。进一步测试优化算法,如表9。
表9
1reduce 2reduce 3reduce 4reduce 5reduce 6reduce
传统遗传算法 38:06 29:51 31:36 31:09 31:54 33:46
改进遗传算法 22:05 13:33 13:15 13:18 13:37 14:02
该实验结果显示当reduce节点个数在增加时,其与时间呈一定线性关系,reduce个数增加,算法处理数据能力相应增加,所耗时间降低。当reduce节点数超过3时,系统处理数据的时间在小范围内有增加,对于大数据集群此时并发过高,操作系统自身占用越来越高,进程调度也在内耗,所以处理时间会相应的增加。

Claims (7)

1.一种基于遗传算法的实体商业营销方法,其特征在于,包括如下步骤:
步骤1:采集商家数据和用户数据;
步骤2:根据商家数据,针对商家采用对不同消费类型设定标签,获得商家特征基因,建立商家基因库模型;
步骤3:根据用户数据,获得用户消费权重,建立用户偏好模型;
步骤4:利用k-means算法分别对类型相似的商家数据和用户数据进行初始聚类;
步骤5:在聚合的类中将用户数据和商家基因库的特征基因进行匹配,采用遗传算法计算某一商家对一被推荐用户的推荐率;再计算出匹配成功的商家对此被推荐用户的推荐率,生成推新备选商家数据集,根据各商家在数据集中的排名,对此被推荐用户进行精准推荐。
2.根据权利要求1所述的一种基于遗传算法的实体商业营销方法,其特征在于,所述用户分为老用户或新用户,老用户的具体消费数据根据句实际调查获取,每个用户所有具体消费数据;新用户要下载APP或关注微信公众号,让其通过APP或者微信公众号选择偏好并打分,后台记录并填写标签作为用户数据。
3.根据权利要求2所述的一种基于遗传算法的实体商业营销方法,其特征在于,所述步骤2中,将所述商家数据分为代表餐饮行业、服装行业和休闲行业三个类型,分别是CI、RI和LI,每一类型的个数相同;商家的特征基因为:其中h代表第h个商家,商家的特征基因需要转化为二进制序。
4.根据权利要求2所述的一种基于遗传算法的实体商业营销方法,其特征在于,所述步骤3中,用户消费的权重为:其中Ci表示第i位用户,xj表示权重序列的第j个特征,用户消费权重也需要转换为二进制序列。
5.根据权利要求所述的一种基于遗传算法的实体商业营销方法,其特征在于,所述步骤4的具体步骤为:
步骤4.1:输入样本数据集,样本数据集包括步骤2中获得的商家特征基因以及步骤3中获得的用户消费权重
步骤4.2:对样本数据集进行判定,区分商家特征基因和用户消费权重,分别存储;
步骤4.3:使用K-means算法对商家和用户分别在餐饮行业、服装行业和休闲行业三大类基础上进行类型相似数据的聚类;
具体的聚类算法为:
在数据集合中随机选取q个质心作为初始质心点,k值个数在之间,其中,n表示权重序列个数30,根据实际情况设定k值个数q=6,分别为k1、k2…kq…k6,使用公式(1)(2)所示,计算个体所属的族:
其中,argmin表示平均最小距离绝对值,表示样本C集合,Ci表示样本C中第i个样本,xj表示第j个权重数,表示样本S集合,sh表示S样本中第h个样本;
在个体总数不断增多情况下,质心也会根据个体数量的改变而改变,对于每一类kq都需要重新计算该类质心,以形成更准确的族,公式如(3)(4)所示:
其中G(i)表示样例i与k个类中质心点距离最近的类(G(i)∈[k1,k6]),质心kqc、kqs表示对属于同一个类样本中心点的猜测;迭代计算,每个个体都有所属的簇,在个体数量增多时,用户和商家分别重复迭代公式(1)(3)和公式(2)(4),直到质心不变或范围波动很窄时收敛得到最终聚类结果。
6.根据权利要求2所述的一种基于遗传算法的实体商业营销方法,其特征在于,所述步骤5中,如果被推荐用户为老用户,对于老用户的算法为:
步骤5.1:在商家中随机找m个点作初始群体,再根据遗传算法中基因的变异、交叉、复制算子的计算,不断产生新的基因型,并计算新基因型与此老用户之间的匹配程度M,保留匹配程度高的基因型淘汰掉匹配程度低的;
当某一时刻t,群体状态为τ,老用户与群体的最大匹配度如公式(5)所示:
其中Ci表示第i位用户,xj表示权重序列的第j个特征,Sh表示第h位商家;群体状态连续三代不再改变时,则遗传算法收敛;
当计算过程中求最优解的基因始终在改变,并没有满足收敛条件时,在遗传算法中的基因最大更新代数为500,超过更新代数时算法,停止计算,确定停止时刻群体状态及最大适应度;
步骤5.2:运用遗传算法寻找老用户的关联用户Cf的适应度函数,适应度函数如公式(6)所示:
其中,C表示用户,表示老用户Ci的权重序列,表示用户关联好友Cf的权重序列,所有权重序列的特征数都为30,i与f都从特征1到30进行求和计算;
步骤5.3:计算最终的商家推荐率:
运用遗传算法找到老用户Ci的关联用户Cf的最优解F,以F为圆心,设定匹配程度阈值,以此阈值为半径范围取值,在该范围中所有关联用户则为老用户Ci的最终关联用户;
实际调查获取到每个用户所有具体消费数据来计算某一个商家S对用户Ci的推荐率,其中表示被推荐用户Ci的消费记录,表示v的消费记录,对用户Ci的推荐率采用消费记录交集推荐的方法来得到最终的推荐率;求某一商家S对Ci被推荐用户的推荐率为公式7所示:
其中Countf=∑f∈FPc(S,Cf),f为在店S消费过的关联好友,F为所有的用户集合,Count(F)为所有的用户的数值,以商家S为主,在F集中找到在店S消费过的人计数count(f),消费过则计数1,未消费则计数0,以该计数值与count(F)进行比值,最终值则为最后该店对Ci的最终推荐率;
步骤5.4:计算得出匹配成功的商家的商家对用户Ci的推荐率,生成推新备选商家数据集,根据各商家在数据集中的排名进行推荐。
7.根据权利要求2所述的一种基于遗传算法的实体商业营销方法,其特征在于,所述步骤5中,如果被推荐用户为新用户,对新用户的推荐算法为:
步骤5.1-1:在遗传算法框架中采用用户序列与商家序列直接匹配的方式,得到与该用户相似度最大的商家作为适应度函数,并进行实时推送,相对应的遗传算法的适应度函数为公式(8)所示:
其中 中Ci表示第i位用户、xj表示权重序列的第j个特征,中Sh表示第h位商家;
步骤5.2-2:求用户与商家的相似程度,与获取的商圈消费情况进行分析;具体地,将商家与用户放于n维空间中,采用欧几里得距离公式计算两点的距离,并使用公式(8)将距离变成两点的相似度;
步骤5.3-1:在商家中随机找m个点作初始群体,再根据遗传算法中基因的变异、交叉、复制算子的计算,不断产生新的基因型,并计算新基因型与此老用户之间的匹配程度M,保留匹配程度高的基因型淘汰掉匹配程度低的;
当某一时刻t,群体状态为τ,老用户与群体的最大适应度如公式(5)所示:
其中Ci表示第i位用户,xj表示权重序列的第j个特征,Sh表示第h位商家;群体状态连续三代不再改变时,则遗传算法收敛;当计算过程中求最优解的基因始终在改变,并没有满足收敛条件时,在遗传算法中的基因最大更新代数为500,超过更新代数时算法,停止计算,确定停止时刻群体状态及最大适应度;
步骤5.4-1:自定义新的算法模式——范围相似度函数Sim,在实际的基因组中找到与o最匹配的解成为算法的实际最优解:
在n维空间中以o点为圆心,设定阈值为半径得到相应的范围,计算范围中所有点与o点的距离且最终推荐率为公式(9):
其中,Sh表示范围内某商家,Wo为运用遗传算法后得到的相似最优解权重序列,为范围之中商家基因序列;采用余弦相似度计算o点与范围中商家的相似度,找到相似度最大的商家,将其作为最优解推送给相应的用户。
CN201810589102.XA 2018-06-08 2018-06-08 一种基于遗传算法的实体商业营销方法 Expired - Fee Related CN108805199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810589102.XA CN108805199B (zh) 2018-06-08 2018-06-08 一种基于遗传算法的实体商业营销方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810589102.XA CN108805199B (zh) 2018-06-08 2018-06-08 一种基于遗传算法的实体商业营销方法

Publications (2)

Publication Number Publication Date
CN108805199A true CN108805199A (zh) 2018-11-13
CN108805199B CN108805199B (zh) 2021-10-22

Family

ID=64088121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810589102.XA Expired - Fee Related CN108805199B (zh) 2018-06-08 2018-06-08 一种基于遗传算法的实体商业营销方法

Country Status (1)

Country Link
CN (1) CN108805199B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632429A (zh) * 2020-12-25 2021-04-09 北京百度网讯科技有限公司 引导信息展示方法、装置、设备、存储介质和程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316904A1 (en) * 1997-01-06 2012-12-13 Jeffrey Scott Eder Detailed method of and system for modeling and analyzing business improvement programs
US20160225027A1 (en) * 2005-09-14 2016-08-04 Millennial Media, Inc. User characteristic influenced search results
CN106294489A (zh) * 2015-06-08 2017-01-04 北京三星通信技术研究有限公司 内容推荐方法、装置及系统
CN107391713A (zh) * 2017-07-29 2017-11-24 内蒙古工业大学 一种解决协同过滤推荐技术中冷启动问题的方法及系统
CN107609111A (zh) * 2017-09-13 2018-01-19 福建省农业科学院果树研究所 一种枇杷果实品种鉴别、品质分级和成熟度判定的检索方法
CN107831285A (zh) * 2017-01-19 2018-03-23 江苏省金威测绘服务中心 一种基于物联网的河湖污染监测系统及其方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316904A1 (en) * 1997-01-06 2012-12-13 Jeffrey Scott Eder Detailed method of and system for modeling and analyzing business improvement programs
US20160225027A1 (en) * 2005-09-14 2016-08-04 Millennial Media, Inc. User characteristic influenced search results
CN106294489A (zh) * 2015-06-08 2017-01-04 北京三星通信技术研究有限公司 内容推荐方法、装置及系统
CN107831285A (zh) * 2017-01-19 2018-03-23 江苏省金威测绘服务中心 一种基于物联网的河湖污染监测系统及其方法
CN107391713A (zh) * 2017-07-29 2017-11-24 内蒙古工业大学 一种解决协同过滤推荐技术中冷启动问题的方法及系统
CN107609111A (zh) * 2017-09-13 2018-01-19 福建省农业科学院果树研究所 一种枇杷果实品种鉴别、品质分级和成熟度判定的检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MICHAEL LASZLO等: "A genetic algorithm that exchanges nerghboring centers for k-means clustering", 《PATTERN RECOGNITION LETTERS》 *
SURUCHI CHAWLA: "A novel approach of cluster based optimal ranking of clicked urls using genetic algorithm for effective personalized web search", 《APPLIED SOFT COMPUTING》 *
刘利民等: "混合智能算法在电子商务个性化推荐中的研究", 《内蒙古工业大学学报》 *
陈琦等: "一个解决协同过滤推荐系统相关问题的新算法", 《电子测量技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632429A (zh) * 2020-12-25 2021-04-09 北京百度网讯科技有限公司 引导信息展示方法、装置、设备、存储介质和程序产品
CN112632429B (zh) * 2020-12-25 2023-10-10 北京百度网讯科技有限公司 引导信息展示方法、装置、设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN108805199B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN106355449B (zh) 用户选取方法和装置
CN103678672B (zh) 一种信息推荐方法
CN106709040B (zh) 一种应用搜索方法和服务器
CN104866474B (zh) 个性化数据搜索方法及装置
CN102902691B (zh) 推荐方法及系统
CN110399565A (zh) 基于时空周期注意力机制的递归神经网络兴趣点推荐方法
CN102576438A (zh) 用于执行推荐的方法和设备
CN107203522A (zh) 一种恶意订单地址的判定方法和装置
CN102254043A (zh) 一种基于语义映射的服装图像检索方法
CN106960044B (zh) 一种基于张量分解及加权hits的时间感知个性化poi推荐方法
CN108694606B (zh) 一种基于关联规则的客户画像及服务推送方法
CN107016122A (zh) 基于时间迁移的知识推荐方法
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
Rogić et al. Class balancing in customer segments classification using support vector machine rule extraction and ensemble learning
CN106846088A (zh) 一种快消品电商网站的商品推荐方法
CN106980639B (zh) 短文本数据聚合系统及方法
CN108694234A (zh) 一种基于改进协同过滤算法的服务推荐模型
Bhattacharjee et al. An integrated machine learning and DEMATEL approach for feature preference and purchase intention modelling
CN114254615A (zh) 组卷方法、装置、电子设备和存储介质
Ranggadara et al. Applying customer loyalty classification with RFM and Naïve Bayes for better decision making
CN113326432A (zh) 一种基于决策树与推荐方法的模型优选方法
CN108805199A (zh) 一种基于遗传算法的实体商业营销方法
CN117474631A (zh) 基于电商平台评论的数据挖掘与情感分析的推荐算法
CN115408618B (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
Wedashwara et al. Combination of genetic network programming and knapsack problem to support record clustering on distributed databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211022