CN111445280A - 模型生成方法、餐馆排序方法、系统、设备和介质 - Google Patents

模型生成方法、餐馆排序方法、系统、设备和介质 Download PDF

Info

Publication number
CN111445280A
CN111445280A CN202010166736.1A CN202010166736A CN111445280A CN 111445280 A CN111445280 A CN 111445280A CN 202010166736 A CN202010166736 A CN 202010166736A CN 111445280 A CN111445280 A CN 111445280A
Authority
CN
China
Prior art keywords
restaurant
user
target
restaurants
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010166736.1A
Other languages
English (en)
Inventor
王思博
郭松荣
罗超
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN202010166736.1A priority Critical patent/CN111445280A/zh
Publication of CN111445280A publication Critical patent/CN111445280A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Abstract

本发明公开了一种模型生成方法、餐馆排序方法、系统、设备和介质,通过获取多个用户的历史数据和多个餐馆的历史数据,基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,进一步利用该模型预测用户点击餐馆的概率,对比现有技术中按距离排序出来的餐馆,本发明能够预测用户点击餐馆的概率,且在对餐馆进行排序时引入了多个考虑因素,包括用户维度特征、餐馆维度特征以及对应的用户餐馆偏好分,实现了餐馆按照用户个性化需求进行排序,为用户提供了与需求相匹配的餐馆。

Description

模型生成方法、餐馆排序方法、系统、设备和介质
技术领域
本发明涉及OTA(Online Travel Agency,在线旅行社)平台的信息处理技术领域,特别涉及一种模型生成方法、餐馆排序方法、系统、设备和介质。
背景技术
目前对于酒店周边美食的排序,主要是基于酒店到餐馆距离的排序方法,这种方法着重考虑了距离的因素,但缺乏对用户偏好的考虑,不同用户对于餐馆价格、人气、风味菜系的需求不同,只按距离排序出来的餐馆不一定适合用户本身的消费偏好,与用户的需求匹配度低,排序方法不具有个性化需求。酒店周边美食是一种吸引用户下该酒店的重要参考因素,通过提升餐馆和用户的匹配度,进而提升酒店销量,提升用户体验,提高用户对品牌的满意度和忠诚度的目的。
发明内容
本发明要解决的技术问题是为了克服现有技术中按距离排序出来的餐馆不一定适合用户本身的消费偏好,与用户的需求匹配度低的缺陷,提供一种模型生成方法、餐馆排序方法、系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种模型生成方法,所述模型生成方法包括:
获取多个用户的历史数据和多个餐馆的历史数据;
基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;
其中,所述用户餐馆偏好分用于表征用户对餐馆的偏好程度;
生成训练集,所述训练集中包括多组训练数据,每组训练数据均包括一组模型输入数据以及对应的模型输出数据,所述模型输入数据包括用户维度特征、餐馆维度特征以及对应的用户餐馆偏好分,对应的模型输出数据根据用户是否点击过餐馆页面标记为1或0;
利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,所述餐馆点击概率预测模型用于预测用户点击餐馆的概率。
较佳地,所述用户维度特征包括用户点击浏览餐馆情况、用户收藏预订餐馆情况和用户本身的基本属性;
所述餐馆维度特征包括餐馆本身的基本属性。
较佳地,所述获取每个用户对每个餐馆的用户餐馆偏好分的步骤包括:
获取所述用户的第一历史数据,所述第一历史数据包括用户停留餐馆页面时长,用户点击餐馆的图片、所述用户对餐馆的评论;
将所述用户的第一历数据输入至矩阵分解模型进行训练,以得到用户隐向量和餐馆隐向量;
基于所述用户隐向量和餐馆隐向量,根据偏好分计算公式计算用户餐馆偏好分;
所述偏好分计算公式如下:
Figure RE-GDA0002483716260000021
其中,ui表示用户隐向量,vi表示餐馆隐向量,n表示用户隐变量和餐馆隐变量的维度。
本发明还提供了一种餐馆排序方法,所述餐馆排序方法用于对与酒店相对应的餐馆进行排序,所述餐馆排序方法包括:
获取目标用户,并根据所述目标用户确定至少一个目标酒店;
从与每个所述目标酒店对应的餐馆中选取多个目标餐馆;
针对每个目标餐馆生成一组对应的待预测数据,所述待预测数据包括所述目标用户的用户维度特征、所述目标餐馆的餐馆维度特征以及所述目标用户对所述目标餐馆的用户餐馆偏好分;
将每个目标餐馆对应的待预测数据输入至所述餐馆点击概率预测模型预测目标用户点击每一个目标餐馆的概率;
所述餐馆点击概率预测模型使用前述的餐馆点击概率预测模型的生成方法生成。
基于用户点击每一个目标餐馆的概率,对所述多个目标餐馆进行排序。
较佳地,所述获取与所述目标酒店对应的多个目标餐馆的步骤包括:
计算所述目标餐馆到所述目标酒店的距离,并选取所述距离小于第一预设值的目标餐馆,以得到第一目标餐馆;
将所述至少一个目标酒店按照价格划分不同档次,从所述第一目标餐馆中选取价格与所述目标酒店档次相匹配的目标餐馆,以得到第二目标餐馆;
对所述第二目标餐馆进行综合质量分的评定,并选取所述综合质量分大于第二预设值的目标餐馆作为所述目标酒店对应的目标餐馆。
较佳地,所述餐馆排序方法还包括:
对与每个所述目标酒店对应的餐馆中除所述目标餐馆之外的餐馆进行综合质量分评定,并按照综合质量分从高到低依次排在所有目标餐馆之后。
本发明还提供了一种模型生成系统,所述模型生成系统包括:
第一获取模块,获取多个用户的历史数据和多个餐馆的历史数据;
第二获取模块,基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;
其中,所述用户餐馆偏好分用于表征用户对餐馆的偏好程度;
第一生成模块,生成训练集,所述训练集中包括多组训练数据,每组训练数据均包括一组模型输入数据以及对应的模型输出数据,所述模型输入数据包括用户维度特征、餐馆维度特征以及对应的用户餐馆偏好分,对应的模型输出数据根据用户是否点击过餐馆页面标记为1或0;
训练模块,利用训练集中的训练数据对XGBOOST(Extreme Gradient Boosting,极端梯度提升)模型进行训练,以生成餐馆点击概率预测模型,所述餐馆点击概率预测模型用于预测用户点击餐馆的概率。
较佳地,所述用户维度特征包括用户点击浏览餐馆情况、用户收藏预订餐馆情况和用户本身的基本属性;
所述餐馆维度特征包括餐馆本身的基本属性。
较佳地,所述第二获取模块包括:
第一获取单元,获取所述用户的第一历史数据,所述第一历史数据包括用户停留餐馆页面时长,用户点击餐馆的图片、所述用户对餐馆的评论;
输入单元,将所述用户的第一历数据输入至矩阵分解模型进行训练,以得到用户隐向量和餐馆隐向量;
计算单元,基于所述用户隐向量和餐馆隐向量,根据偏好分计算公式计算用户餐馆偏好分;
所述偏好分计算公式如下:
Figure RE-GDA0002483716260000041
其中,ui表示用户隐向量,vi表示餐馆隐向量,n表示用户隐变量和餐馆隐变量的维度。
本发明还提供了一种餐馆排序系统,所述餐馆排序系统用于对与酒店相对应的餐馆进行排序,所述餐馆排序系统包括:
第三获取模块,获取目标用户,并根据所述目标用户确定至少一个目标酒店;
选取模块,从与每个所述目标酒店对应的餐馆中选取多个目标餐馆;
第二生成模块,针对每个目标餐馆生成一组对应的待预测数据,所述待预测数据包括所述目标用户的用户维度特征、所述目标餐馆的餐馆维度特征以及所述目标用户对所述目标餐馆的用户餐馆偏好分;
输入模块,将每个目标餐馆对应的待预测数据输入至所述餐馆点击概率预测模型预测目标用户点击每一个目标餐馆的概率;
所述餐馆点击概率预测模型使用前述的餐馆点击概率预测模型的生成方法生成。
第一排序模块,基于用户点击每一个目标餐馆的概率,对所述多个目标餐馆进行排序。
较佳地,所述选取模块包括:
第一选取单元,计算所述目标餐馆到所述目标酒店的距离,并选取所述距离小于第一预设值的目标餐馆,以得到第一目标餐馆;
第二选取单元,将所述至少一个目标酒店按照价格划分不同档次,从所述第一目标餐馆中选取价格与所述目标酒店档次相匹配的目标餐馆,以得到第二目标餐馆;
第三选取单元,对所述第二目标餐馆进行综合质量分的评定,并选取所述综合质量分大于第二预设值的目标餐馆作为所述目标酒店对应的目标餐馆。
较佳地,所述餐馆排序系统还包括:
第二排序模块,对与每个所述目标酒店对应的餐馆中除所述目标餐馆之外的餐馆进行综合质量分评定,并按照综合质量分从高到低依次排在所有目标餐馆之后。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的餐馆点击概率预测模型生成方法或上述述的餐馆排序方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的餐馆点击概率预测模型生成方法或上述的餐馆排序方法的步骤。
本发明的积极进步效果在于:本发明提供了一种模型的生成方法、餐馆排序方法、系统、设备和介质,通过获取多个用户的历史数据和多个餐馆的历史数据,基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,进一步利用该模型预测用户点击餐馆的概率,进而对餐馆进行排序,对比现有技术中按距离排序出来的餐馆,本发明能够预测用户点击餐馆的概率,且在对餐馆进行排序时引入了多个考虑因素,包括用户维度特征、餐馆维度特征以及对应的用户餐馆偏好分,实现了餐馆按照用户个性化需求进行排序,为用户提供了与需求相匹配的餐馆。
附图说明
图1为本发明实施例1的餐馆点击概率预测模型生成方法的流程图。
图2为本发明实施例1中步骤S102的流程图。
图3为本发明实施例2的餐馆排序方法的流程图。
图4为本发明实施例2中步骤S202的流程图。
图5为本发明实施例3的餐馆点击概率预测模型生成系统的模块示意图。
图6为本发明实施例3中第二获取模块的模块示意图。
图7为本发明实施例4的餐馆排序系统的模块示意图。
图8为本发明实施例4中第四获取模块的模块示意图。
图9为本发明实施例5的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例公开了一种模型生成方法,包括以下步骤:
步骤S101、获取多个用户的历史数据和多个餐馆的历史数据;
步骤S102、基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;
其中,所述用户餐馆偏好分用于表征用户对餐馆的偏好程度;
本实施例中,用户维度特征包括用户点击浏览餐馆情况、用户收藏预订餐馆情况和用户本身的基本属性,例如:年龄,性别,用户会员等级,用户最近一段时间登录APP(Application,应用程序)的次数、浏览、下单酒店数,用户浏览、下单、收藏酒店的均价、最高价、最低价,用户浏览、下单、收藏酒店的星级中位数,用户成交价格方差;所述餐馆维度特征包括餐馆本身的基本属性及餐馆相对同城市其他餐馆的优势情况,例如,餐馆ID(Identity document,身份标识号),人均价格,一级菜系、二级菜系,是否有“美食林”、“米其林”标签,餐馆点评分、点评量,餐馆点评分、点评量与同区域其他餐馆的优势比,餐馆页面展示的图片数量,餐馆UV(Unique Visitor,独立访客)量。
步骤S103、生成训练集,所述训练集中包括多组训练数据,每组训练数据均包括一组模型输入数据以及对应的模型输出数据,所述模型输入数据包括用户维度特征、餐馆维度特征以及对应的用户餐馆偏好分,对应的模型输出数据根据用户是否点击过餐馆页面标记为1或0;
本实施例中,模型输入数据为数值型,如用户年龄、餐馆均价等,可以直接输入至模型中;模型输入数据为字符型如用户性别、餐馆菜系等,需要将其转换为数值型特征,再输入至模型中。以用户性别为例,可以将性别男转化为1,性别别女转化为0,然后再输入至模型中。
模型的输出数据只有两种情况,用户点击餐馆标记为1,未点击餐馆标记为0,所以模型学习的本质上是一个分类任务。
步骤S104、利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,所述餐馆点击概率预测模型用于预测用户点击餐馆的概率。
本实施例中,利用训练集中的训练数据对XGBOOST模型进行训练时,需对模型进行验证和调整。本实施例模型验证时采用AUC(Area under the curve,模型评估指标)指标进行校验,AUC指标越接近1,代表模型效果越好。模型调整时,根据测试数据的模型效果,调整模型参数,以及放入模型的特征变量,并重新训练模型,直到模型的AUC指标达到要求。
如图2所示,本实施例中,步骤S102包括以下步骤:
步骤S1021、获取所述用户的第一历史数据,所述第一历史数据包括用户停留餐馆页面时长,用户点击餐馆的图片、所述用户对餐馆的评论;
步骤S1022、将所述用户的第一历数据输入至矩阵分解模型进行训练,以得到用户隐向量和餐馆隐向量;
步骤S1023、基于所述用户隐向量和餐馆隐向量,根据偏好分计算公式计算用户餐馆偏好分;
所述偏好分计算公式如下:
Figure RE-GDA0002483716260000081
其中,ui表示用户隐向量,vi表示餐馆隐向量,n表示用户隐变量和餐馆隐变量的维度,它没有实际的物理意义,可以是用户的特征、偏好,例如用户的口味偏好、价格偏好、菜系偏好等与餐馆属性的一些内在联系。n是模型的超参数,即模型训练前可以设置的参数,不是通过模型学习得到的参数。不同的n,会得到不同的模型效果,所以我们训练模型时需要设置几组不同的n,以得到最优的模型效果。
本方案中,偏好分是1-5分制,根据分位数,分别确定各自维度的分数 (1-5)分,然后对各个维度进行加权后,将得到的分数映射到(1-5)分,作为最终用户对餐馆的偏好分。
本实施例中,公开的模型生成方法,通过获取多个用户的历史数据和多个餐馆的历史数据;基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;生成训练集,并利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,该餐馆点击概率预测模型能够用于预测用户点击餐馆的概率。
实施例2
如图3所示,本实施例提供了一种餐馆排序方法,所述餐馆排序方法用于对与酒店相对应的餐馆进行排序,包括以下步骤:
步骤S201、获取目标用户,并根据所述目标用户确定至少一个目标酒店;
步骤S202、从与每个所述目标酒店对应的餐馆中选取多个目标餐馆;
步骤S203、针对每个目标餐馆生成一组对应的待预测数据,所述待预测数据包括所述目标用户的用户维度特征、所述目标餐馆的餐馆维度特征以及所述目标用户对所述目标餐馆的用户餐馆偏好分;
步骤S204、将每个目标餐馆对应的待预测数据输入至前述餐馆点击概率预测模型预测目标用户点击每一个目标餐馆的概率;
所述餐馆点击概率预测模型使用前述的餐馆点击概率预测模型的生成方法生成;
步骤S205、基于用户点击每一个目标餐馆的概率,对所述多个目标餐馆进行排序。
步骤S206、对与每个所述目标酒店对应的餐馆中除所述目标餐馆之外的餐馆进行综合质量分评定,并按照综合质量分从高到低依次排在所有目标餐馆之后。
如图4所示,本实施例中,步骤S202包括以下步骤:
步骤S2021、计算所述目标餐馆到所述目标酒店的距离,并选取所述距离小于第一预设值的目标餐馆,以得到第一目标餐馆;
实施例中的第一预设值是根据用户调研的结果得出的,在用户选择餐馆的所考虑的因素中,超过25%的用户将“距离限制”作为最重要的因素,其中将近80%的用户的选择集中在500m和1公里之内,还有将近15%的用户选择在2公里之内。为使可选择的餐馆数量更加丰富,我们这里将国内酒店设置为3公里以内;海外因为餐馆数量相对国内较少,故设置为5公里以内。
步骤S2022、将所述至少一个目标酒店按照价格划分不同档次,从所述第一目标餐馆中选取价格与所述目标酒店档次相匹配的目标餐馆,以得到第二目标餐馆;
本实施例中,根据每日全国酒店的均价,按照分位数将酒店档次划分为十档;餐馆价格方面,因为考虑到小吃甜点类的餐馆普遍价格较低,所以将小吃甜点等餐馆单独归为一类,其余餐馆归为一类。并且根据餐馆均价,筛选与酒店档次匹配的餐馆。
利用酒店档次较低的三档,过滤掉价格分位数高于90%的餐馆;利用酒店档次较高的两档,过滤掉价格分位数低于10%的餐馆;利用中间档次的五个档,过滤掉价格分位数低于5%,以及价格分位数高于95%的餐馆。
步骤S2023、对所述第二目标餐馆进行综合质量分的评定,并选取所述综合质量分大于第二预设值的目标餐馆作为所述目标酒店对应的目标餐馆。
本实施例公开了的餐馆排序方法,通过获取目标用户,并根据所述目标用户确定至少一个目标酒店;从与每个所述目标酒店对应的餐馆中选取多个目标餐馆;针对每个目标餐馆生成一组对应的待预测数据,所述待预测数据包括所述目标用户的用户维度特征、所述目标餐馆的餐馆维度特征以及所述目标用户对所述目标餐馆的用户餐馆偏好分;将每个目标餐馆对应的待预测数据输入至前述的餐馆点击概率预测模型预测目标用户点击每一个目标餐馆的概率;基于用户点击每一个目标餐馆的概率,对所述多个目标餐馆进行排序。本实施例能够预测目标用户点击每一个目标餐馆的概率,从而实现与酒店相对应的餐馆进行排序,进一步,满足用户本身的消费偏好,为用户提供与其需求相匹配的餐馆。
实施例3
如图5所示,本实施例提供了一种餐馆点击概率预测模型生成系统,所述餐馆排序方系统用于对与酒店相对应的餐馆进行排序,餐馆点击概率预测模型生成系统包括:
第一获取模块1,获取多个用户的历史数据和多个餐馆的历史数据;
第二获取模块2,基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;
其中,所述用户餐馆偏好分用于表征用户对餐馆的偏好程度;
本实施例中,用户维度特征包括用户点击浏览餐馆情况、用户收藏预订餐馆情况和用户本身的基本属性,例如:年龄,性别,用户会员等级,用户最近一段时间登录APP(Application,应用程序)的次数、浏览、下单酒店数,用户浏览、下单、收藏酒店的均价、最高价、最低价,用户浏览、下单、收藏酒店的星级中位数,用户成交价格方差;所述餐馆维度特征包括餐馆本身的基本属性及餐馆相对同城市其他餐馆的优势情况,例如,餐馆ID(Identity document,身份标识号),人均价格,一级菜系、二级菜系,是否有“美食林”、“米其林”标签,餐馆点评分、点评量,餐馆点评分、点评量与同区域其他餐馆的优势比,餐馆页面展示的图片数量,餐馆UV(Unique Visitor,独立访客)量。
第一生成模块3,生成训练集,所述训练集中包括多组训练数据,每组训练数据均包括一组模型输入数据以及对应的模型输出数据,所述模型输入数据包括用户维度特征、餐馆维度特征以及对应的用户餐馆偏好分,对应的模型输出数据根据用户是否点击过餐馆页面标记为1或0;
本实施例中,模型输入数据为数值型,如用户年龄、餐馆均价等,可以直接输入至模型中;模型输入数据为字符型如用户性别、餐馆菜系等,需要将其转换为数值型特征,再输入至模型中。以用户性别为例,可以将性别男转化为1,性别别女转化为0,然后再输入至模型中。
模型的输出数据只有两种情况,用户点击餐馆标记为1,未点击餐馆标记为0,所以模型学习的本质上是一个分类任务。
训练模块4,利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,所述餐馆点击概率预测模型用于预测用户点击餐馆的概率。
本实施例中,利用训练集中的训练数据对XGBOOST模型进行训练时,需对模型进行验证和调整。本实施例模型验证时采用AUC(Area under the curve,模型评估指标)指标进行校验,AUC指标越接近1,代表模型效果越好。模型调整时,根据测试数据的模型效果,调整模型参数,以及放入模型的特征变量,并重新训练模型,直到模型的AUC指标达到要求。
如图6所示,本实施例中第二获取模块包括:
第一获取单元21,获取所述用户的数据,所述数据包括历史用户停留餐馆页面时长,历史用户点击餐馆的图片、所述用户对餐馆的评论;
输入单元22,将所述用户的数据输入至矩阵分解模型进行训练,以得到用户隐向量和餐馆隐向量;
计算单元23,基于所述用户隐向量和餐馆隐向量,根据偏好分计算公式计算用户餐馆偏好分;
所述偏好分计算公式如下:
Figure RE-GDA0002483716260000121
其中,ui表示用户隐向量,vi表示餐馆隐向量,n表示用户隐变量和餐馆隐变量的维度,它没有实际的物理意义,可以是用户的特征、偏好,例如用户的口味偏好、价格偏好、菜系偏好等与餐馆属性的一些内在联系。n是模型的超参数,即模型训练前可以设置的参数,不是通过模型学习得到的参数。不同的n,会得到不同的模型效果,所以我们训练模型时需要设置几组不同的n,以得到最优的模型效果。
本方案中,偏好分是1-5分制,根据分位数,分别确定各自维度的分数(1-5)分,然后对各个维度进行加权后,将得到的分数映射到(1-5)分,作为最终用户对餐馆的偏好分。
本实施例中,公开的餐馆点击概率预测模型生成系统,通过获取多个用户的历史数据和多个餐馆的历史数据;基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;生成训练集,并利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,该餐馆点击概率预测模型能够用于预测用户点击餐馆的概率。
实施例4
如图7所示,本实施例提供了一种餐馆排序系统,所述餐馆排序系统用于对与酒店相对应的餐馆进行排序,所述餐馆排序系统包括:
第三获取模块5,获取目标用户,并根据所述目标用户确定至少一个目标酒店;
选取模块6,从与每个所述目标酒店对应的餐馆中选取多个目标餐馆;
第二生成模块7,针对每个目标餐馆生成一组对应的待预测数据,所述待预测数据包括所述目标用户的用户维度特征、所述目标餐馆的餐馆维度特征以及所述目标用户对所述目标餐馆的用户餐馆偏好分;
输入模块8,将每个目标餐馆对应的待预测数据输入至所述餐馆点击概率预测模型预测目标用户点击每一个目标餐馆的概率;
所述餐馆点击概率预测模型使用前述的餐馆点击概率预测模型的生成方法生成;
第一排序模块9,基于用户点击每一个目标餐馆的概率,对所述多个目标餐馆进行排序;
第二排序模块10,对与每个所述目标酒店对应的餐馆中除所述目标餐馆之外的餐馆进行综合质量分评定,并按照综合质量分从高到低依次排在所有目标餐馆之后。
如图8所示,本实施例中选取模块包括:
第一选取单元61,计算所述目标餐馆到所述目标酒店的距离,并选取所述距离小于第一预设值的目标餐馆,以得到第一目标餐馆;
实施例中的第一预设值是根据用户调研的结果得出的,在用户选择餐馆的所考虑的因素中,超过25%的用户将“距离限制”作为最重要的因素,其中将近80%的用户的选择集中在500m和1公里之内,还有将近15%的用户选择在2公里之内。为使可选择的餐馆数量更加丰富,我们这里将国内酒店设置为3公里以内;海外因为餐馆数量相对国内较少,故设置为5公里以内。
第二选取单元62,将所述至少一个目标酒店按照价格划分不同档次,从所述第一目标餐馆中选取价格与所述目标酒店档次相匹配的目标餐馆,以得到第二目标餐馆;
本实施例中,根据每日全国酒店的均价,按照分位数将酒店档次划分为十档;餐馆价格方面,因为考虑到小吃甜点类的餐馆普遍价格较低,所以将小吃甜点等餐馆单独归为一类,其余餐馆归为一类。并且根据餐馆均价,筛选与酒店档次匹配的餐馆。
利用酒店档次较低的三档,过滤掉价格分位数高于90%的餐馆;利用酒店档次较高的两档,过滤掉价格分位数低于10%的餐馆;利用中间档次的五个档,过滤掉价格分位数低于5%,以及价格分位数高于95%的餐馆。
第三选取单元63,对所述第二目标餐馆进行综合质量分的评定,并选取所述综合质量分大于第二预设值的目标餐馆作为所述目标酒店对应的目标餐馆。
本实施例公开了的餐馆排序系统,通过获取目标用户,并根据所述目标用户确定至少一个目标酒店;从与每个所述目标酒店对应的餐馆中选取多个目标餐馆;针对每个目标餐馆生成一组对应的待预测数据,所述待预测数据包括所述目标用户的用户维度特征、所述目标餐馆的餐馆维度特征以及所述目标用户对所述目标餐馆的用户餐馆偏好分;将每个目标餐馆对应的待预测数据输入至前述的餐馆点击概率预测模型预测目标用户点击每一个目标餐馆的概率;基于用户点击每一个目标餐馆的概率,对所述多个目标餐馆进行排序。本实施例能够预测目标用户点击每一个目标餐馆的概率,从而实现与酒店相对应的餐馆进行排序,进一步,满足用户本身的消费偏好,为用户提供与其需求相匹配的餐馆。
实施例5
图9为本发明实施例4提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1所提供的模型生成方法或实施例2 所提供的餐馆排序方法。图9显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/ 或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的模型生成方法或实施例 2所提供的餐馆排序方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等) 通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的模型生成方法或实施例2所提供的餐馆排序方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所提供的模型生成方法或实施例2所提供的餐馆排序方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (14)

1.一种模型生成方法,其特征在于,所述模型生成方法包括:
获取多个用户的历史数据和多个餐馆的历史数据;
基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;
其中,所述用户餐馆偏好分用于表征用户对餐馆的偏好程度;
生成训练集,所述训练集中包括多组训练数据,每组训练数据均包括一组模型输入数据以及对应的模型输出数据,所述模型输入数据包括用户维度特征、餐馆维度特征以及对应的用户餐馆偏好分,对应的模型输出数据根据用户是否点击过餐馆页面标记为1或0;
利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,所述餐馆点击概率预测模型用于预测用户点击餐馆的概率。
2.如权利要求1所述的模型生成方法,其特征在于,所述用户维度特征包括用户点击浏览餐馆情况、用户收藏预订餐馆情况和用户本身的基本属性;
所述餐馆维度特征包括餐馆本身的基本属性。
3.如权利要求1所述的模型生成方法,其特征在于,所述获取每个用户对每个餐馆的用户餐馆偏好分的步骤包括:
获取所述用户的第一历史数据,所述第一历史数据包括用户停留餐馆页面时长,用户点击餐馆的图片、所述用户对餐馆的评论;
将所述用户的第一历数据输入至矩阵分解模型进行训练,以得到用户隐向量和餐馆隐向量;
基于所述用户隐向量和餐馆隐向量,根据偏好分计算公式计算用户餐馆偏好分;
所述偏好分计算公式如下:
Figure FDA0002406440510000011
其中,ui表示用户隐向量,vi表示餐馆隐向量,n表示用户隐变量和餐馆隐变量的维度。
4.一种餐馆排序方法,所述餐馆排序方法用于对与酒店相对应的餐馆进行排序,其特征在于,所述餐馆排序方法包括:
获取目标用户,并根据所述目标用户确定至少一个目标酒店;
从与每个所述目标酒店对应的餐馆中选取多个目标餐馆;
针对每个目标餐馆生成一组对应的待预测数据,所述待预测数据包括所述目标用户的用户维度特征、所述目标餐馆的餐馆维度特征以及所述目标用户对所述目标餐馆的用户餐馆偏好分;
将每个目标餐馆对应的待预测数据输入至所述餐馆点击概率预测模型预测目标用户点击每一个目标餐馆的概率;
所述餐馆点击概率预测模型使用如权利要求1至3任一项所述的餐馆点击概率预测模型的生成方法生成;
基于用户点击每一个目标餐馆的概率,对所述多个目标餐馆进行排序。
5.如权利要求4所述的餐馆排序方法,其特征在于,所述获取与所述目标酒店对应的多个目标餐馆的步骤包括:
计算所述目标餐馆到所述目标酒店的距离,并选取所述距离小于第一预设值的目标餐馆,以得到第一目标餐馆;
将所述至少一个目标酒店按照价格划分不同档次,从所述第一目标餐馆中选取价格与所述目标酒店档次相匹配的目标餐馆,以得到第二目标餐馆;
对所述第二目标餐馆进行综合质量分的评定,并选取所述综合质量分大于第二预设值的目标餐馆作为所述目标酒店对应的目标餐馆。
6.如权利要求4所述的餐馆排序方法,其特征在于,所述餐馆排序方法还包括:
对与每个所述目标酒店对应的餐馆中除所述目标餐馆之外的餐馆进行综合质量分评定,并按照综合质量分从高到低依次排在所有目标餐馆之后。
7.一种模型生成系统,其特征在于,所述模型生成系统包括:
第一获取模块,获取多个用户的历史数据和多个餐馆的历史数据;
第二获取模块,基于历史数据,获取每个用户的用户维度特征、每个餐馆的餐馆维度特征以及每个用户对每个餐馆的用户餐馆偏好分;
其中,所述用户餐馆偏好分用于表征用户对餐馆的偏好程度;
第一生成模块,生成训练集,所述训练集中包括多组训练数据,每组训练数据均包括一组模型输入数据以及对应的模型输出数据,所述模型输入数据包括用户维度特征、餐馆维度特征以及对应的用户餐馆偏好分,对应的模型输出数据根据用户是否点击过餐馆页面标记为1或0;
训练模块,利用训练集中的训练数据对XGBOOST模型进行训练,以生成餐馆点击概率预测模型,所述餐馆点击概率预测模型用于预测用户点击餐馆的概率。
8.如权利要求7所述的模型生成系统,其特征在于,所述用户维度特征包括用户点击浏览餐馆情况、用户收藏预订餐馆情况和用户本身的基本属性;
所述餐馆维度特征包括餐馆本身的基本属性。
9.如权利要求7所述的模型生成系统,其特征在于,所述第二获取模块包括:
第一获取单元,将所述用户的第一历数据输入至矩阵分解模型进行训练,以得到用户隐向量和餐馆隐向量;
输入单元,基于所述用户隐向量和餐馆隐向量,根据偏好分计算公式计算用户餐馆偏好分;
计算单元,基于所述用户隐向量和餐馆隐向量,根据偏好分计算公式计算用户餐馆偏好分;
所述偏好分计算公式如下:
Figure FDA0002406440510000031
其中,ui表示用户隐向量,vi表示餐馆隐向量,n表示用户隐变量和餐馆隐变量的维度。
10.一种餐馆排序系统,所述餐馆排序系统用于对与酒店相对应的餐馆进行排序,其特征在于,所述餐馆排序系统包括:
第三获取模块,获取目标用户,并根据所述目标用户确定至少一个目标酒店;
选取模块,从与每个所述目标酒店对应的餐馆中选取多个目标餐馆;
第二生成模块,针对每个目标餐馆生成一组对应的待预测数据,所述待预测数据包括所述目标用户的用户维度特征、所述目标餐馆的餐馆维度特征以及所述目标用户对所述目标餐馆的用户餐馆偏好分;
输入模块,将每个目标餐馆对应的待预测数据输入至所述餐馆点击概率预测模型预测目标用户点击每一个目标餐馆的概率;
所述餐馆点击概率预测模型使用如权利要求7至9任一项所述的餐馆点击概率预测模型的生成系统生成;
第一排序模块,基于用户点击每一个目标餐馆的概率,对所述多个目标餐馆进行排序。
11.如权利要求10所述的餐馆排序系统,其特征在于,所述选取模块包括:
第一选取单元,计算所述目标餐馆到所述目标酒店的距离,并选取所述距离小于第一预设值的目标餐馆,以得到第一目标餐馆;
第二选取单元,将所述至少一个目标酒店按照价格划分不同档次,从所述第一目标餐馆中选取价格与所述目标酒店档次相匹配的目标餐馆,以得到第二目标餐馆;
第三选取单元,对所述第二目标餐馆进行综合质量分的评定,并选取所述综合质量分大于第二预设值的目标餐馆作为所述目标酒店对应的目标餐馆。
12.如权利要求10所述的餐馆排序系统,其特征在于,所述餐馆排序系统还包括:
第二排序模块,对与每个所述目标酒店对应的餐馆中除所述目标餐馆之外的餐馆进行综合质量分评定,并按照综合质量分从高到低依次排在所有目标餐馆之后。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的餐馆点击概率预测模型生成方法或如权利要求4至6任一项所述的餐馆排序方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的餐馆点击概率预测模型生成方法或如权利要求4至6任一项所述的餐馆排序方法的步骤。
CN202010166736.1A 2020-03-10 2020-03-10 模型生成方法、餐馆排序方法、系统、设备和介质 Pending CN111445280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010166736.1A CN111445280A (zh) 2020-03-10 2020-03-10 模型生成方法、餐馆排序方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010166736.1A CN111445280A (zh) 2020-03-10 2020-03-10 模型生成方法、餐馆排序方法、系统、设备和介质

Publications (1)

Publication Number Publication Date
CN111445280A true CN111445280A (zh) 2020-07-24

Family

ID=71653202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010166736.1A Pending CN111445280A (zh) 2020-03-10 2020-03-10 模型生成方法、餐馆排序方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN111445280A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094602A (zh) * 2021-04-09 2021-07-09 携程计算机技术(上海)有限公司 酒店推荐方法、系统、设备及介质
CN117112912A (zh) * 2023-10-23 2023-11-24 深圳数拓科技有限公司 基于用户特征的餐饮内容个性化展示方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446351A (zh) * 2018-03-08 2018-08-24 携程计算机技术(上海)有限公司 Ota平台的基于用户偏好的酒店筛选方法及系统
CN109740072A (zh) * 2018-12-29 2019-05-10 携程计算机技术(上海)有限公司 Ota平台下基于poi的酒店排序方法及系统
CN110119479A (zh) * 2019-05-16 2019-08-13 苏州大学 一种餐馆推荐方法、装置、设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446351A (zh) * 2018-03-08 2018-08-24 携程计算机技术(上海)有限公司 Ota平台的基于用户偏好的酒店筛选方法及系统
CN109740072A (zh) * 2018-12-29 2019-05-10 携程计算机技术(上海)有限公司 Ota平台下基于poi的酒店排序方法及系统
CN110119479A (zh) * 2019-05-16 2019-08-13 苏州大学 一种餐馆推荐方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
(美)斯蒂尔等主编,王向宇等译, 旅游教育出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094602A (zh) * 2021-04-09 2021-07-09 携程计算机技术(上海)有限公司 酒店推荐方法、系统、设备及介质
CN113094602B (zh) * 2021-04-09 2023-08-29 携程计算机技术(上海)有限公司 酒店推荐方法、系统、设备及介质
CN117112912A (zh) * 2023-10-23 2023-11-24 深圳数拓科技有限公司 基于用户特征的餐饮内容个性化展示方法及系统
CN117112912B (zh) * 2023-10-23 2024-01-23 深圳数拓科技有限公司 基于用户特征的餐饮内容个性化展示方法及系统

Similar Documents

Publication Publication Date Title
CN110941740B (zh) 视频推荐方法及计算机可读存储介质
CN110866181B (zh) 资源推荐的方法、装置及存储介质
CN109783730A (zh) 产品推荐方法、装置、计算机设备和存储介质
WO2008005796A2 (en) System and method for generating a display of tags
CN105469263A (zh) 一种商品推荐方法及装置
CN111723292B (zh) 基于图神经网络的推荐方法、系统、电子设备及存储介质
CN110008397B (zh) 一种推荐模型训练方法及装置
CN110647696B (zh) 一种业务对象的排序方法及装置
CN112905897B (zh) 相似用户确定方法、向量转化模型、装置、介质及设备
CN112258260A (zh) 基于用户特征的页面展示方法、装置、介质及电子设备
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN112487283A (zh) 训练模型的方法、装置、电子设备及可读存储介质
CN111784062A (zh) 点击概率预测方法、系统、电子设备和介质
CN111445280A (zh) 模型生成方法、餐馆排序方法、系统、设备和介质
CN110852785B (zh) 用户分级方法、装置及计算机可读存储介质
US20200311761A1 (en) System and method for analyzing the effectiveness and influence of digital online content
CN114330519A (zh) 数据确定方法、装置、电子设备及存储介质
CN108280531B (zh) 一种基于Lasso回归的学生班级成绩排名预测方法
CN113407827A (zh) 基于用户价值分类的信息推荐方法、装置、设备及介质
CN104966212B (zh) 用户移动化程度的检测方法及应用方法
KR102614106B1 (ko) 학습모델에 기초한 주가 변동 예측 장치
CN114969486B (zh) 语料推荐方法、装置、设备及存储介质
CN117648497B (zh) 一种基于大数据实现用户信息智能采集方法及系统
CN113379482B (zh) 一种物品推荐方法、计算设备以及存储介质
US20220318327A1 (en) Ranking similar users based on values and personal journeys

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination