CN108805755B - 一种旅游套餐生成方法及装置 - Google Patents
一种旅游套餐生成方法及装置 Download PDFInfo
- Publication number
- CN108805755B CN108805755B CN201810723352.8A CN201810723352A CN108805755B CN 108805755 B CN108805755 B CN 108805755B CN 201810723352 A CN201810723352 A CN 201810723352A CN 108805755 B CN108805755 B CN 108805755B
- Authority
- CN
- China
- Prior art keywords
- travel
- item
- data
- current
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 69
- 238000005192 partition Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000007405 data analysis Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 235000011888 snacks Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种旅游套餐生成方法及装置,该方法包括:采集至少一个旅游游记数据;从所述至少一个旅游游记数据中解析出至少一个旅游事务;利用所述至少一个旅游事务生成至少一个频繁项目集;确定每一个所述频繁项目集对应的支持度和置信度;当所述支持度和置信度分别大于预设的支持度阈值和置信度阈值时,确定所述频繁项目集对应的关联规则;根据所述关联规则,生成相对应的旅游套餐。本方案能满足用户多元化的旅游套餐需求。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种旅游套餐生成方法及装置。
背景技术
随着人们生活水平的提高,人们的娱乐活动越来越多。外出旅行也成为一种常见的娱乐方式。人们在外出旅行前,一般会定制相应的旅游套餐。
现有的旅游套餐主要是根据地理坐标设置的,例如,同一个城市的多个景点中,景点A和景点B的距离较近,而景点C与景点A和景点B的距离较远,则生成的旅游套餐中一般仅包括景点A和景点B。
由于定制旅游套餐的用户数量较多,每个用户均有不同的要求,这种单纯从地理坐标设置的旅游套餐很难满足用户多元化的需求。
发明内容
本发明实施例提供了一种旅游套餐生成方法及装置,能满足用户多元化的需求。
第一方面,本发明实施例提供了一种旅游套餐生成方法,包括:
采集至少一个旅游游记数据;
从所述至少一个旅游游记数据中解析出至少一个旅游事务;
利用所述至少一个旅游事务生成至少一个频繁项目集;
确定每一个所述频繁项目集对应的支持度和置信度;
当所述支持度和置信度分别大于预设的支持度阈值和置信度阈值时,确定所述频繁项目集对应的关联规则;
根据所述关联规则,生成相对应的旅游套餐。
可选地,
在所述采集至少一个旅游游记数据之后,进一步包括:
将所述至少一个旅游游记数据组成的数据库连续分成至少一个数据分区;
将所述至少一个数据分区分别分布在至少一个数据处理设备中;其中,所述至少一个数据分区与所述至少一个数据处理设备一一对应;
则,所述从所述至少一个旅游游记数据中解析出至少一个旅游事务,包括:
利用每一个所述数据处理设备对所对应的旅游游记数据进行语义分析和特征抽取,从每一个所述旅游游记数据中确定出至少一个旅游事务。
可选地,
所述利用所述至少一个旅游事务生成至少一个频繁项目集,包括:
将每一个所述旅游事务拆分成至少一个所述旅游项目;
确定每一个所述旅游项目对应的项目类型;
将同一个所述项目类型对应的至少一个旅游项目分布至同一个所述数据处理设备中;
在每一个所述数据处理设备中,将所述数据处理设备上的至少一个所述旅游项目划分为至少一个项目组;其中,同一个所述项目类型对应的旅游项目在同一个所述项目组中;
则,确定每一个所述频繁项目集对应的支持度和置信度,包括:
计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度;
对各个所述数据处理设备中计算出的所述当前支持度和当前置信度进行聚合,形成所述支持度和所述置信度。
可选地,
当所述项目类型的数量为至少两个时,每一个所述项目组包括至少两个项目类型;
则,所述计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度,包括:
针对每一个所述项目组,执行:
将所述项目组中的每一个所述项目类型作为当前项目类型;
将所述当前项目类型对应的至少一个当前旅游项目与所述项目组中的至少一个其他项目类型对应的至少一个其他旅游项目组合成旅游项目集;
确定每一个所述旅游项目集对应的所述当前支持度和所述当前置信度。
可选地,
所述确定每一个所述旅游项目集对应的当前支持度和当前置信度,包括:
针对每一个所述旅游项目集,执行:
利用以下第一计算公式,计算所述旅游项目集对应的当前支持度;
第一计算公式:
其中,M表征所述旅游项目集对应的当前支持度;bi表征所述旅游项目集中第i个项目类型对应的旅游项目的个数,ai表征第i个项目类型对应的旅游项目的个数,n表征所述项目类型的总个数;
可选地,
所述确定每一个所述旅游项目集对应的当前支持度和当前置信度,包括:
针对每一个所述旅游项目集,执行:
从所述旅游项目集中确定目标项目类型;
利用以下第二计算公式,确定所述旅游项目集对应于所述目标项目类型的当前置信度;
第二计算公式:
其中,N表征所述旅游项目集对应的当前置信度,bi表征所述旅游项目集中第i个项目类型对应的旅游项目的个数,n表征所述目标项目类型对应的旅游项目的个数。
第二方面,本发明实施例提供了一种旅游套餐生成装置,包括:数据采集模块、数据解析模块、数据处理模块和套餐生成模块;其中,
所述数据采集模块,用于采集至少一个旅游游记数据;
所述数据解析模块,用于从所述至少一个旅游游记数据中解析出至少一个旅游事务;
所述数据处理模块,用于利用所述至少一个旅游事务生成至少一个频繁项目集;确定每一个所述频繁项目集对应的支持度和置信度;当所述支持度和置信度分别大于预设的支持度阈值和置信度阈值时,确定所述频繁项目集对应的关联规则;
所述套餐生成模块,用于根据所述关联规则,生成相对应的旅游套餐。
可选地,
进一步包括:分区模块;其中,
所述分区模块,用于将所述至少一个旅游游记数据组成的数据库连续分成至少一个数据分区;将所述至少一个数据分区分别分布在至少一个数据处理设备中;其中,所述至少一个数据分区与所述至少一个数据处理设备一一对应;
所述数据解析模块,用于利用每一个所述数据处理设备对所对应的旅游游记数据进行语义分析和特征抽取,从每一个所述旅游游记数据中确定出至少一个旅游事务。
可选地,
所述数据处理模块包括:分组单元、计算单元和聚合单元;其中,
所述分区模块,用于将每一个所述旅游事务拆分成至少一个所述旅游项目,确定每一个所述旅游项目对应的项目类型;将同一个所述项目类型对应的至少一个旅游项目分布至同一个所述数据处理设备中;
所述分组单元,用于在每一个所述数据处理设备中,将所述数据处理设备上的至少一个所述旅游项目划分为至少一个项目组;其中,同一个所述项目类型对应的旅游项目在同一个所述项目组中;
所述计算单元,用于计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度;
所述聚合单元,用于对各个所述数据处理设备中计算出的所述当前支持度和当前置信度进行聚合,形成所述支持度和所述置信度。
可选地,
当所述项目类型的数量为至少两个时,每一个所述项目组包括至少两个项目类型;
所述计算单元,用于针对每一个所述项目组,执行:将所述项目组中的每一个所述项目类型作为当前项目类型;将所述当前项目类型对应的至少一个当前旅游项目与所述项目组中的至少一个其他项目类型对应的至少一个其他旅游项目组合成旅游项目集;确定每一个所述旅游项目集对应的所述当前支持度和所述当前置信度。
可选地,
所述计算单元,用于针对每一个所述旅游项目集,执行:利用以下第一计算公式,计算所述旅游项目集对应的当前支持度;
第一计算公式:
其中,M表征所述旅游项目集对应的当前支持度;bi表征所述旅游项目集中第i个项目类型对应的旅游项目的个数,ai表征第i个项目类型对应的旅游项目的个数,n表征所述项目类型的总个数;
可选地,
所述计算单元,用于针对每一个所述旅游项目集,执行:从所述旅游项目集中确定目标项目类型;利用以下第二计算公式,确定所述旅游项目集对应于所述目标项目类型的当前置信度;
第二计算公式:
其中,N表征所述旅游项目集对应的当前置信度,bi表征所述旅游项目集中第i个项目类型对应的旅游项目的个数,n表征所述目标项目类型对应的旅游项目的个数。
本发明实施例提供了一种旅游套餐生成方法及装置,首先采集旅游游记数据,从旅游游记数据中解析出旅游事务,利用解析出的旅游事务生成频繁项目集,并确定频繁项目集的支持度和置信度,之后根据确定出的支持度和置信度找出满足要求的关联规则,再根据关联规则生成相应的旅游套餐。由于旅游游记数据中包括“吃住行游购娱”等多方面的旅游项目,并且记录在旅游游记数据中的旅游项目一般是用户较为感兴趣的项目,因此根据旅游游记数据中各个旅游项目的关联规则生成旅游套餐,能满足用户多元化的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种旅游套餐生成方法的流程图;
图2是本发明一个实施例提供的一种旅游套餐生成装置的结构示意图;
图3是本发明另一个实施例提供的一种旅游套餐生成装置的结构示意图;
图4是本发明又一个实施例提供的一种旅游套餐生成装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种旅游套餐生成方法,该方法可以包括以下步骤:
步骤101:采集至少一个旅游游记数据;
步骤102:从所述至少一个旅游游记数据中解析出至少一个旅游事务;
步骤103:利用所述至少一个旅游事务生成至少一个频繁项目集;
步骤104:确定每一个所述频繁项目集对应的支持度和置信度;
步骤105:当所述支持度和置信度分别大于预设的支持度阈值和置信度阈值时,确定所述频繁项目集对应的关联规则;
步骤106:根据所述关联规则,生成相对应的旅游套餐。
上述实施例中,首先采集旅游游记数据,从旅游游记数据中解析出旅游事务,利用解析出的旅游事务生成频繁项目集,并确定频繁项目集的支持度和置信度,之后根据确定出的支持度和置信度找出满足要求的关联规则,再根据关联规则生成相应的旅游套餐。由于旅游游记数据中包括“吃住行游购娱”等多方面的旅游项目,并且记录在旅游游记数据中的旅游项目一般是用户较为感兴趣的项目,因此根据旅游游记数据中各个旅游项目的关联规则生成旅游套餐,能满足用户多元化的需求。
本发明一个实施例中,在步骤101之后,可以进一步包括:
将所述至少一个旅游游记数据组成的数据库连续分成至少一个数据分区;
将所述至少一个数据分区分别分布在至少一个数据处理设备中;其中,所述至少一个数据分区与所述至少一个数据处理设备一一对应;
则步骤102的具体实施方式,可以包括:
利用每一个所述数据处理设备对所对应的旅游游记数据进行语义分析和特征抽取,从每一个所述旅游游记数据中确定出至少一个旅游事务。
在“互联网+”旅游的驱动下,旅游“吃住行游购娱”已积累海量数据,尤其是游记数据,它完美的贯通了这六大维度。在进行旅游数据挖掘时,首先可利用网络爬虫或者其他渠道积累挖掘分析所需的数据支撑,即采集大量的旅游游记数据。然后对采集到的旅游游记数据进行预处理,通过语义分析和特征抽取等方式,从每一个旅游游记数据中确定出旅游事务,每一个旅游事务可以对应一条旅游路线,以及一条旅游路线中关于“吃住行游购娱”各方面的旅游项目,由此形成“吃住行游购娱”基本字典,并不断学习挖掘旅游新词,不断完善“吃住行游购娱”字典,为文本关联规则挖掘提供基础数据支撑。
然后,在MapReduce架构下,将数据库分成连续不同的数据分区,每一个分区分布在不同的机器上,每一个这样的分区可以称为shard。然后Mapper利用shard的数据库分区,一个一个处理shard数据库分区中的每一个旅游事务,将每一个旅游事务拆分成一个一个的旅游项目,例如旅游景点以及与旅游景点对应的游玩方式、餐厅信息、住宿信息、出行信息、购物信息和娱乐信息等,便于后期对这些旅游项目进行挖掘分析,以生成满足用户多元化需求的旅游套餐,并且,通过多个数据分区对数据进行挖掘处理,有利于提高数据处理效率。
本发明一个实施例中,步骤103的具体实施方式,可以包括:
将每一个所述旅游事务拆分成至少一个所述旅游项目;
确定每一个所述旅游项目对应的项目类型;
将同一个所述项目类型对应的至少一个旅游项目分布至同一个所述数据处理设备中;
在每一个所述数据处理设备中,将所述数据处理设备上的至少一个所述旅游项目划分为至少一个项目组;其中,同一个所述项目类型对应的旅游项目在同一个所述项目组中;
则步骤104的具体实施方式,可以包括:
计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度;
对各个所述数据处理设备中计算出的所述当前支持度和当前置信度进行聚合,形成所述支持度和所述置信度。
在确定出各个旅游项目后,可计算每一个旅游项目对应的项目类型的支持度,形成F_list,F_list可如表1所示。然后将F_list中的各个旅游项目分成N个项目组,形成一个group_list,group_list里的每一个项目组都被分配一个group_id,每个group_list中包含一组旅游项目的集合。通过mapper将属于同一个group的旅游项目的集合都聚合到同一台机器上,例如,从多个旅游游记数据中均确定出旅游项目“景点A”,则这些“景点A”均属于项目类型A,则将这些旅游项目“景点A”都聚合到同一台机器上,这样形成一个完备数据集,以便于基于mapper形成的完备数据集,进行本地的FP-Growth算法,以利用FP-Growth算法计算各个项目组对应的当前支持度和当前置信度,最后将各台机器上的计算结果进行聚合,形成最终的支持度和置信度,即我们需要的结果。由此,将同一项目类型的旅游项目聚合到同一个数据分区中进行处理,有利于对数据进行有效管理,从而有利于进一步提高数据处理效率。
表1
项目类型 | A | B | C | D | E |
支持度 | 1/10 | 4/10 | 2/10 | 1/10 | 2/10 |
本发明一个实施例中,当所述项目类型的数量为至少两个时,每一个所述项目组包括至少两个项目类型;
则,所述计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度,包括:
针对每一个所述项目组,执行:
将所述项目组中的每一个所述项目类型作为当前项目类型;
将所述当前项目类型对应的至少一个当前旅游项目与所述项目组中的至少一个其他项目类型对应的至少一个其他旅游项目组合成旅游项目集;
确定每一个所述旅游项目集对应的所述当前支持度和所述当前置信度。
例如,项目组甲中包括的项目类型有景点A、景点A对应的特色小吃店B和景点A对应的娱乐项目C。则项目组中可组合成的旅游项目集为AB、AC、BC和ABC。针对每一个旅游项目集,可计算其对应的当前支持度和当前置信度。
可利用以下计算公式(1),计算所述旅游项目集对应的当前支持度;
其中,M表征所述旅游项目集对应的当前支持度;bi表征所述旅游项目集中第i个项目类型对应的旅游项目的个数,ai表征第i个项目类型对应的旅游项目的个数,n表征所述项目类型的总个数。
以旅游项目集AB为例,当从各个旅游游记数据中确定出的景点A的数量为10个,特色小吃店B的数量为8个,娱乐项目C的数量为6个,则旅游项目集AB对应的当前支持度为10/24,表示游客同时去景点A和特色小吃店B的概率为10/24。
在计算旅游项目集对应的置信度时,需从所述旅游项目集中确定目标项目类型;
利用以下计算公式(2),确定所述旅游项目集对应于所述目标项目类型的当前置信度;
其中,N表征所述旅游项目集对应的当前置信度,bi表征所述旅游项目集中第i个项目类型对应的旅游项目的个数,n表征所述目标项目类型对应的旅游项目的个数。
仍以旅游项目集AB为例,若确定A为目标项目类型,则该旅游项目集对应的当前置信度为8/10,表示去景点A后还去特色小吃店B的概率为8/10。若后期聚合后旅游项目集AB的支持度和置信度未发生变化,且其支持度和置信度分别大于对应的支持度阈值和置信度阈值,则景点A和特殊小吃店B可形成一个旅游套餐,不仅为游客推荐景点,还为游客推荐相关的特色吃食,有利于满足游客多元化的需求。
可以理解的是,确定关联规则时,首先设定初始支持度阈值与置信度阈值,进行关联规则的初步挖掘,然后可由专家评定初步挖掘效果,根据评定结果循环反复调整支持度阈值和置信度阈值,最终确定合理的支持度阈值和置信度阈值,以挖掘出具有较高价值的频繁模式,为旅游套餐设计提供决策支持。
另外,在本发明实施例中在MapReduce架构下实现FP-Growth增量式更新算法,由于FP-Growth算法在整个算法执行过程中,只需要遍历数据集两次,即可完成频繁模式的发现,因此在MapReduce架构下的FP-Growth,在有效的负载均衡策略下,算法效率得到一定程度的提高,有利于提高数据处理效率。同时,基于“频繁项目集的子集一定是频繁项目集”和“非频繁项目集的父集一定是非频繁项目集”的定理,FP-Growth可通过树的合并操作来避免对原始数据集的再次扫描,即当采集到新的旅游游记数据之后,仅需对新采集的这部分数据进行处理,而无需再对原始数据集进行再一次扫描,有利于进一步提高数据处理效率。
如图2、图3所示,本发明实施例提供了一种旅游套餐生成装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图2所示,为本发明实施例提供的旅游套餐生成装置所在设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图3所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的旅游套餐生成装置,包括:数据采集模块301、数据解析模块302、数据处理模块303和套餐生成模块304;其中,
所述数据采集模块301,用于采集至少一个旅游游记数据;
所述数据解析模块302,用于从所述至少一个旅游游记数据中解析出至少一个旅游事务;
所述数据处理模块303,用于利用所述至少一个旅游事务生成至少一个频繁项目集;确定每一个所述频繁项目集对应的支持度和置信度;当所述支持度和置信度分别大于预设的支持度阈值和置信度阈值时,确定所述频繁项目集对应的关联规则;
所述套餐生成模块304,用于根据所述关联规则,生成相对应的旅游套餐。
如图4所示,本发明一个实施例中,该装置可以进一步包括:分区模块401;其中,
所述分区模块401,用于将所述至少一个旅游游记数据组成的数据库连续分成至少一个数据分区;将所述至少一个数据分区分别分布在至少一个数据处理设备中;其中,所述至少一个数据分区与所述至少一个数据处理设备一一对应;
所述数据解析模块302,用于利用每一个所述数据处理设备对所对应的旅游游记数据进行语义分析和特征抽取,从每一个所述旅游游记数据中确定出至少一个旅游事务。
本发明一个实施例中,所述数据处理模块包括:分组单元、计算单元和聚合单元;其中,
所述分区模块,用于将每一个所述旅游事务拆分成至少一个所述旅游项目,确定每一个所述旅游项目对应的项目类型;将同一个所述项目类型对应的至少一个旅游项目分布至同一个所述数据处理设备中;
所述分组单元,用于在每一个所述数据处理设备中,将所述数据处理设备上的至少一个所述旅游项目划分为至少一个项目组;其中,同一个所述项目类型对应的旅游项目在同一个所述项目组中;
所述计算单元,用于计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度;
所述聚合单元,用于对各个所述数据处理设备中计算出的所述当前支持度和当前置信度进行聚合,形成所述支持度和所述置信度。
本发明一个实施例中,当所述项目类型的数量为至少两个时,每一个所述项目组包括至少两个项目类型;
所述计算单元,用于针对每一个所述项目组,执行:将所述项目组中的每一个所述项目类型作为当前项目类型;将所述当前项目类型对应的至少一个当前旅游项目与所述项目组中的至少一个其他项目类型对应的至少一个其他旅游项目组合成旅游项目集;确定每一个所述旅游项目集对应的所述当前支持度和所述当前置信度。
本发明一个实施例中,所述计算单元,用于针对每一个所述旅游项目集,执行:利用以下计算公式(1),计算所述旅游项目集对应的当前支持度;
其中,M表征所述旅游项目集对应的当前支持度;bi表征所述旅游项目集中第i个项目类型对应的旅游项目的个数,ai表征第i个项目类型对应的旅游项目的个数,n表征所述项目类型的总个数;
本发明一个实施例中,所述计算单元,用于针对每一个所述旅游项目集,执行:从所述旅游项目集中确定目标项目类型;利用以下计算公式(2),确定所述旅游项目集对应于所述目标项目类型的当前置信度;
其中,N表征所述旅游项目集对应的当前置信度,bi表征所述旅游项目集中第i个项目类型对应的旅游项目的个数,n表征所述目标项目类型对应的旅游项目的个数。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明上述任一实施例提供的方法。
综上所述,本发明以上各个实施例至少具有如下有益效果:
1、在本发明实施例中,首先采集旅游游记数据,从旅游游记数据中解析出旅游事务,利用解析出的旅游事务生成频繁项目集,并确定频繁项目集的支持度和置信度,之后根据确定出的支持度和置信度找出满足要求的关联规则,再根据关联规则生成相应的旅游套餐。由于旅游游记数据中包括“吃住行游购娱”等多方面的旅游项目,并且记录在旅游游记数据中的旅游项目一般是用户较为感兴趣的项目,因此根据旅游游记数据中各个旅游项目的关联规则生成旅游套餐,能满足用户多元化的需求。
2、在本发明实施例中,在MapReduce架构下,将数据库分成连续不同的数据分区,每一个分区分布在不同的机器上,通过多个数据分区同时对数据进行挖掘处理,有利于提高数据处理效率。
3、在本发明实施例中,通过mapper将同一项目类型的旅游项目聚合到同一个数据分区中进行处理,有利于对数据进行有效管理,从而有利于进一步提高数据处理效率。
4、在本发明实施例中,在MapReduce架构下实现FP-Growth增量式更新算法,并行FP-Growth,在有效的负载均衡策略下,提高算法效率,满足海量数据的挖掘需求。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (2)
1.一种旅游套餐生成方法,其特征在于,包括:
采集至少一个旅游游记数据;
从所述至少一个旅游游记数据中解析出至少一个旅游事务;
利用所述至少一个旅游事务生成至少一个频繁项目集;
确定每一个所述频繁项目集对应的支持度和置信度;
当所述支持度和置信度分别大于预设的支持度阈值和置信度阈值时,确定所述频繁项目集对应的关联规则;
根据所述关联规则,生成相对应的旅游套餐;
在所述采集至少一个旅游游记数据之后,进一步包括:
将所述至少一个旅游游记数据组成的数据库连续分成至少一个数据分区;
将所述至少一个数据分区分别分布在至少一个数据处理设备中;其中,所述至少一个数据分区与所述至少一个数据处理设备一一对应;
则,从所述至少一个旅游游记数据中解析出至少一个旅游事务,包括:
利用每一个所述数据处理设备对所对应的旅游游记数据进行语义分析和特征抽取,从每一个所述旅游游记数据中确定出至少一个旅游事务;
所述利用所述至少一个旅游事务生成至少一个频繁项目集,包括:
将每一个所述旅游事务拆分成至少一个旅游项目;
确定每一个所述旅游项目对应的项目类型;
将同一个所述项目类型对应的至少一个旅游项目分布至同一个所述数据处理设备中;
在每一个所述数据处理设备中,将所述数据处理设备上的至少一个所述旅游项目划分为至少一个项目组;其中,同一个所述项目类型对应的旅游项目在同一个所述项目组中;
则,所述确定每一个所述频繁项目集对应的支持度和置信度,包括:
计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度;
对各个所述数据处理设备中计算出的所述当前支持度和当前置信度进行聚合,形成所述支持度和所述置信度;
当所述项目类型的数量为至少两个时,每一个所述项目组包括至少两个项目类型;
则,所述计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度,包括:
针对每一个所述项目组,执行:
将所述项目组中的每一个所述项目类型作为当前项目类型;
将所述当前项目类型对应的至少一个当前旅游项目与所述项目组中的至少一个其他项目类型对应的至少一个其他旅游项目组合成旅游项目集;
确定每一个所述旅游项目集对应的所述当前支持度和所述当前置信度。
2.一种旅游套餐生成装置,其特征在于,包括:数据采集模块、数据解析模块、数据处理模块和套餐生成模块;其中,
所述数据采集模块,用于采集至少一个旅游游记数据;
所述数据解析模块,用于从所述至少一个旅游游记数据中解析出至少一个旅游事务;
所述数据处理模块,利用所述至少一个旅游事务生成至少一个频繁项目集;确定每一个所述频繁项目集对应的支持度和置信度;当所述支持度和置信度分别大于预设的支持度阈值和置信度阈值时,确定所述频繁项目集对应的关联规则;
所述套餐生成模块,用于根据所述关联规则,生成相对应的旅游套餐;
进一步包括:分区模块;其中,
所述分区模块,用于将所述至少一个旅游游记数据组成的数据库连续分成至少一个数据分区;将所述至少一个数据分区分别分布在至少一个数据处理设备中;其中,所述至少一个数据分区与所述至少一个数据处理设备一一对应;
所述数据解析模块,用于利用每一个所述数据处理设备对所对应的旅游游记数据进行语义分析和特征抽取,从每一个所述旅游游记数据中确定出至少一个旅游事务;
所述数据处理模块包括:分组单元、计算单元和聚合单元;其中,
所述分区模块,用于将每一个所述旅游事务拆分成至少一个旅游项目,确定每一个所述旅游项目对应的项目类型;将同一个所述项目类型对应的至少一个旅游项目分布至同一个所述数据处理设备中;
所述分组单元,用于在每一个所述数据处理设备中,将所述数据处理设备上的至少一个所述旅游项目划分为至少一个项目组;其中,同一个所述项目类型对应的旅游项目在同一个所述项目组中;
所述计算单元,用于计算每一个所述数据处理设备中的每一个所述项目组中各个所述项目类型分别对应的当前支持度和当前置信度;
所述聚合单元,用于对各个所述数据处理设备中计算出的所述当前支持度和当前置信度进行聚合,形成所述支持度和所述置信度;
当所述项目类型的数量为至少两个时,每一个所述项目组包括至少两个项目类型;
计算单元用于针对每一个所述项目组,执行:将所述项目组中的每一个所述项目类型作为当前项目类型;将所述当前项目类型对应的至少一个当前旅游项目与所述项目组中的至少一个其他项目类型对应的至少一个其他旅游项目组合成旅游项目集;确定每一个所述旅游项目集对应的所述当前支持度和所述当前置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810723352.8A CN108805755B (zh) | 2018-07-04 | 2018-07-04 | 一种旅游套餐生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810723352.8A CN108805755B (zh) | 2018-07-04 | 2018-07-04 | 一种旅游套餐生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108805755A CN108805755A (zh) | 2018-11-13 |
CN108805755B true CN108805755B (zh) | 2021-11-23 |
Family
ID=64072888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810723352.8A Active CN108805755B (zh) | 2018-07-04 | 2018-07-04 | 一种旅游套餐生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108805755B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489652B (zh) * | 2019-08-23 | 2022-06-03 | 重庆邮电大学 | 基于用户行为检测的新闻推荐方法、系统及计算机设备 |
CN111341446B (zh) * | 2020-02-11 | 2022-11-29 | 中山大学 | 一种个性化体检套餐推荐方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1578955A (zh) * | 2001-09-04 | 2005-02-09 | 国际商业机器公司 | 关联规则数据挖掘所用的采样方法 |
CN103150163A (zh) * | 2013-03-01 | 2013-06-12 | 南京理工大学常熟研究院有限公司 | 一种基于MapReduce模型的并行关联方法 |
CN103207912B (zh) * | 2013-04-15 | 2016-04-27 | 武汉理工大学 | 基于属性多层关联的服务资源组合智能推荐方法和系统 |
CN103729478B (zh) * | 2014-01-26 | 2016-11-09 | 重庆邮电大学 | 基于MapReduce的LBS兴趣点发现方法 |
CN106033424B (zh) * | 2015-03-11 | 2020-04-21 | 哈尔滨工业大学深圳研究生院 | 数据挖掘方法和装置 |
CN105184422B (zh) * | 2015-09-28 | 2019-10-18 | 华南理工大学 | 一种基于互联网词频的智慧旅游线路规划辅助方法 |
CN106066873B (zh) * | 2016-05-30 | 2019-09-27 | 哈尔滨工程大学 | 一种基于本体的旅游信息推荐方法 |
CN107451903A (zh) * | 2017-08-18 | 2017-12-08 | 四川融慧文创旅游资源开发有限公司 | 定制化旅游的方法及装置 |
CN107833161A (zh) * | 2017-10-10 | 2018-03-23 | 东南大学 | 一种基于大数据的旅游交通管理系统 |
-
2018
- 2018-07-04 CN CN201810723352.8A patent/CN108805755B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108805755A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin | Mr-apriori: Association rules algorithm based on mapreduce | |
US20160092514A1 (en) | Mining association rules in the map-reduce framework | |
CN105224606A (zh) | 一种用户标识的处理方法及装置 | |
Lin et al. | Website reorganization using an ant colony system | |
CN103942308A (zh) | 大规模社交网络社区的检测方法及装置 | |
CN102722553A (zh) | 基于用户日志分析的分布式倒排索引组织方法 | |
US20150019592A1 (en) | Systems, methods and software for computing reachability in large graphs | |
US9355166B2 (en) | Clustering signifiers in a semantics graph | |
CN108805755B (zh) | 一种旅游套餐生成方法及装置 | |
CN113254630A (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN106599122B (zh) | 一种基于垂直分解的并行频繁闭序列挖掘方法 | |
Skhiri et al. | Large graph mining: recent developments, challenges and potential solutions | |
Muppidi et al. | Document clustering with map reduce using Hadoop framework | |
CN109285015A (zh) | 一种虚拟资源的分配方法及系统 | |
Romero et al. | Bolt: Fast inference for random forests | |
Tzacheva et al. | Discovery of action rules at lowest cost in spark | |
US11709798B2 (en) | Hash suppression | |
Wang et al. | MapReduce-based frequent pattern mining framework with multiple item support | |
CN111562990B (zh) | 一种基于消息的轻量级无服务器计算方法 | |
CN115033616A (zh) | 一种基于多轮采样的数据筛查规则验证方法及其装置 | |
Sethi et al. | A Spark-based high utility itemset mining with multiple external utilities | |
Kolici et al. | Scalability, memory issues and challenges in mining large data sets | |
Du et al. | A novel knn join algorithms based on hilbert r-tree in mapreduce | |
Alrahwan et al. | ASCF: Optimization of the Apriori Algorithm Using Spark‐Based Cuckoo Filter Structure | |
Li | Collaborative filtering recommendation algorithm based on cluster |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190709 Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707 Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co., Ltd. Address before: 250100 S06 Floor, No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province Applicant before: Shandong Hui Trade Electronic Port Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |