CN111191127B - 一种基于关联分析算法的旅行推荐方法和系统 - Google Patents
一种基于关联分析算法的旅行推荐方法和系统 Download PDFInfo
- Publication number
- CN111191127B CN111191127B CN201911351256.6A CN201911351256A CN111191127B CN 111191127 B CN111191127 B CN 111191127B CN 201911351256 A CN201911351256 A CN 201911351256A CN 111191127 B CN111191127 B CN 111191127B
- Authority
- CN
- China
- Prior art keywords
- travel
- text information
- webpage
- picture
- recommendation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000010219 correlation analysis Methods 0.000 title claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 230000008451 emotion Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000002996 emotional effect Effects 0.000 claims description 19
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000012098 association analyses Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000000903 blocking effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种基于关联分析算法的旅行推荐方法和系统。该方法包括:通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对旅行文本信息集进行喜好置信度计算;抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立图片的标签集合与旅行文本信息集的映射关系;根据旅行时空关系,由映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集;旅行时空关系包括时间关系和地理位置关系;提取出旅行频繁项集中符合用户要求的旅行文本信息,形成推荐攻略。本申请通过关联分析算法提高了旅行推荐的用户体验。
Description
技术领域
本申请涉及智能处理技术及旅行推荐领域,尤其涉及一种基于关联分析 算法的旅行推荐方法和系统。
背景技术
现在的旅行推荐过程中,往往是固定化的套路模式,例如,一条旅行线 路都是去固定几个城市、逛固定的商店、吃固定的饭馆,并没有对旅行者的 个性进行推荐。而且,旅行者进行旅行规划的时候,一般具有从众心理,大 家常去的“网红”店、热门地标都一定要“打卡”。进一步地说,为了方便旅 行者自己制作旅行攻略的麻烦,旅行者一般希望根据自己的需求和大众评价, 自动生成图文并茂的旅行攻略。
因此,亟须一种高效、准确的方法和设备能够解决这些问题。
发明内容
有鉴于此,本申请的目的在于提出一种基于关联分析算法的旅行推荐方法 和系统,提高旅行推荐的效率,解决目前旅行推荐过程中,无法准确识别用 户的兴趣点,并自动生成旅行推荐攻略的技术问题。
基于上述目的,本申请提出了一种基于关联分析算法的旅行推荐方法,包 括:
通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集, 并通过情感分析对所述旅行文本信息集进行喜好置信度计算;所述旅行文本信 息集分类为作者基本信息、食宿信息、轨迹信息和商品信息;
抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图 片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合, 建立所述图片的标签集合与所述旅行文本信息集的映射关系;
根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事 件链,识别出旅行频繁项集;所述旅行时空关系包括时间关系和地理位置关系;
提取出所述旅行频繁项集中符合用户要求的旅行文本信息,得到推荐结果, 并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集中的图片,形成 推荐攻略。
在一些实施例中,所述方法还包括:
按照用户的选择条件,预测用户的兴趣点,并根据所述兴趣点对所述推荐 结果进行增加、删除和排序,生成新的推荐攻略。
在一些实施例中,通过命名实体识别,抽取出旅行网页中的文本信息,构 建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计 算,包括:
对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容 分块;
抽取所述网页核心内容分块中的地标、品牌、菜品和对应的情感特征词, 形成旅行文本信息集;
通过情感分析计算所述旅行文本信息集进行喜好置信度,并按照地标、品 牌和菜品分别进行排序。
在一些实施例中,抽取出旅行网页中的图片信息,去除与旅行无关的噪音 图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每 张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关 系,包括:
对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容 分块;
识别出所述网页核心内容分块中图片的焦点内容,对所述焦点内容进行地 标、品牌和菜品识别,得到每张图片的标签集合;
将所述标签集合中的每个元素与所述文本信息集中的每个元素进行语义比 对,在比对结果超过指定阈值的情况下,建立映射关系。
在一些实施例中,根据旅行时空关系,由所述映射关系中各分类信息形成 关联规则树中的事件链,识别出旅行频繁项集,包括:
按照时间序列关系,将所述分类信息填充至所述事件链中,事件链中的每 个节点对应于指定的时间和地理位置,并包含了在所述时间和地理位置的地标、 品牌、菜品和对应的情感特征;
采用混合遍历的方式,通过深度优先策略识别出旅行频繁项集。
在一些实施例中,所述推荐攻略还包括:
根据所述推荐结果中各个频繁项集的支持度,结合所述情感特征,得到的 推荐度。
在一些实施例中,根据所述推荐结果中各个频繁项集的支持度,结合所述 情感特征,得到的推荐度,通过公式:
Reci=Supi+μEmoi
进行,其中Reci表示所述频繁项集中的第i项推荐度,Supi表示所述频繁项 集中的第i项支持度,Emoi表示所述频繁项集中的第i项情感特征的置信度,μ为 情感加权系数。
基于上述目的,本申请还提出了一种基于关联分析算法的旅行推荐系统, 包括:
文本模块,用于通过命名实体识别,抽取出旅行网页中的文本信息,构建 旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算; 所述旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信息。
图片模块,用于抽取出旅行网页中的图片信息,去除与旅行无关的噪音图 片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张 图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系;
识别模块,用于根据旅行时空关系,由所述映射关系中各分类信息形成关 联规则树中的事件链,识别出旅行频繁项集;所述旅行时空关系包括时间关系 和地理位置关系;
推荐模块,用于提取出所述旅行频繁项集中符合用户要求的旅行文本信息, 得到推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集 中的图片,形成推荐攻略。
在一些实施例中,所述系统还包括:
更新模块,用于按照用户的选择条件,预测用户的兴趣点,并根据所述兴 趣点对所述推荐结果进行增加、删除和排序,生成新的推荐攻略。
在一些实施例中,所述图片模块,包括:
分块单元,用于对所述旅行网页进行分块预处理,根据网页视觉特征抽取 出网页核心内容分块;
焦点单元,用于识别出所述网页核心内容分块中图片的焦点内容,对所述 焦点内容进行地标、品牌和菜品识别,得到每张图片的标签集合;
映射单元,用于将所述标签集合中的每个元素与所述文本信息集中的每个 元素进行语义比对,在比对结果超过指定阈值的情况下,建立映射关系。
总的来说,本申请的思路在于:网络中存在大量的旅行游记数据,通过对 这些游记中的文本、图片进行分析,一方面识别出作者的个人特点,例如年龄、 职业、兴趣、家庭等;另一方面,识别出这些旅行游记中的城市、商店名称、 饭馆名称,甚至手信名称、佳肴名称等。然后对大量的旅行游记数据进行关联 分析,推导出个人特点与旅游热点之间的频繁项集;通过这些频繁项集,对输 入的待预测对象进行旅行推荐,并生成图文相间的攻略文档。这为用户的旅行 提供了便利,能提高用户的使用体验。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或 相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图 仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的 限制。
图1示出根据本发明实施例的基于关联分析算法的旅行推荐方法的流程图。
图2示出根据本发明实施例的基于关联分析算法的旅行推荐方法的流程图。
图3示出根据本发明实施例的基于关联分析算法的旅行推荐系统的构成图。
图4示出根据本发明实施例的基于关联分析算法的旅行推荐系统的构成图。
图5示出根据本发明实施例的图片模块的构成图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是, 此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外 还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特 征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出根据本发明实施例的基于关联分析算法的旅行推荐方法的流程图。 如图1所示,该基于关联分析算法的旅行推荐方法包括:
步骤S11、通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文 本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算;所述 旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信息。
具体来说,可以预先设置一个自由行文本命名实体库,这个实体库中按照 城市、地标、美食等进行了文本标记。在抽取旅行网页中文本信息的过程中, 通过与自由行文本命名实体库的比较,可以得到网页中存在的旅行文本信息。 同时,还需要对每个旅行文本信息周围一定距离内的情感词进行提取,以便计 算出对该旅行文本信息的置信度。例如“埃菲尔铁塔棒极了”的置信度可以记 作+1,而“埃菲尔铁塔也就那样”可以记作-0.7。
在一种实施方式中,通过命名实体识别,抽取出旅行网页中的文本信息, 构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度 计算,包括:
对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容 分块;
抽取所述网页核心内容分块中的地标、品牌、菜品和对应的情感特征词, 形成旅行文本信息集;
通过情感分析计算所述旅行文本信息集进行喜好置信度,并按照地标、品 牌和菜品分别进行排序。
对于一个网页而言,可以从视觉上将其分解为若干分块,而对于旅行推荐 网页而言,一般大家的旅行攻略文章都处于正文中间位置,占有的面积最大, 拥有的图片、文字也最多,基于这些特征,可以进行网页进行预处理,去除网 页中的核心内容分块,也就是包含旅行攻略文章的分块。这样,可以提高旅行 文本信息集构建的效率和准确度。
步骤S12、抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构 建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的 标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系。
具体来说,与旅行无关的噪音图片一般都是诸如表情、图标等分辨率低、 尺寸小的图片,这些图片包含的信息量小,与旅行推荐也没有关系,因此,可 以通过比较图片的分辨率、尺寸去除与旅行物馆的噪音图片,从而提高图片识 别的效率和准确度。
在一种实施方式中,抽取出旅行网页中的图片信息,去除与旅行无关的噪 音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到 每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射 关系,包括:
对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容 分块;
识别出所述网页核心内容分块中图片的焦点内容,对所述焦点内容进行地 标、品牌和菜品识别,得到每张图片的标签集合;
将所述标签集合中的每个元素与所述文本信息集中的每个元素进行语义比 对,在比对结果超过指定阈值的情况下,建立映射关系。
同样的,对于一个网页而言,可以从视觉上将其分解为若干分块,而对于 旅行推荐网页而言,一般大家的旅行攻略图片都处于正文中间位置,占有的面 积最大,拥有的图片、文字也最多,基于这些特征,可以进行网页进行预处理, 去除网页中的核心内容分块,也就是包含旅行攻略图片的分块。这样,可以提 高对所述图片中的地标、品牌和菜品进行识别的效率和准确度。
步骤S13、根据旅行时空关系,由所述映射关系中各分类信息形成关联规则 树中的事件链,识别出旅行频繁项集;所述旅行时空关系包括时间关系和地理 位置关系。
具体来说,大众旅行过程中一般具有时空规律,也就是说,对于值得去地 标、值得品尝的美食、值得购买的礼品,一般都会按照既定的时间空间轨迹进 行“打卡”,而这种既定的时间空间轨迹形成的规律就是数据挖掘中的频繁项集。 例如,自由行攻略中,可能会频繁出现旅行顺序,通过识别出这样的时空规律, 形成旅行频繁项集。
在一种实施方式中,根据旅行时空关系,由所述映射关系中各分类信息形 成关联规则树中的事件链,识别出旅行频繁项集,包括:
按照时间序列关系,将所述分类信息填充至所述事件链中,事件链中的每 个节点对应于指定的时间和地理位置,并包含了在所述时间和地理位置的地标、 品牌、菜品和对应的情感特征;
采用混合遍历的方式,通过深度优先策略识别出旅行频繁项集。
步骤S14、提取出所述旅行频繁项集中符合用户要求的旅行文本信息,得到 推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集中的 图片,形成推荐攻略。
具体来说,可以采用一段文字配上若干图片的形式,使得提供给用户的攻 略更加全面、丰富,从而让用户获得更加良好的体验。
在一种实施方式中,所述推荐攻略还包括:
根据所述推荐结果中各个频繁项集的支持度,结合所述情感特征,得到的 推荐度。
在一种实施方式中,根据所述推荐结果中各个频繁项集的支持度,结合所 述情感特征,得到的推荐度,通过公式:
Reci=Supi+μEmoi
进行,其中Reci表示所述频繁项集中的第i项推荐度,Supi表示所述频繁项 集中的第i项支持度,Emoi表示所述频繁项集中的第i项情感特征的置信度,μ为 情感加权系数。
通过以上公式可以看出,通过调节情感加权系数μ调整情感特征的比例,从 而控制推荐度的生成方式,可以更加灵活地计算推荐度,从而提高结果推荐的 适应性。
图2示出根据本发明实施例的基于关联分析算法的旅行推荐方法的流程图。 如图2所示,该基于关联分析算法的旅行推荐方法还包括:
步骤S15、按照用户的选择条件,预测用户的兴趣点,并根据所述兴趣点对 所述推荐结果进行增加、删除和排序,生成新的推荐攻略。
具体来说,根据用户的选择以及浏览顺序,可以预测出用户的兴趣点。根 据用户的兴趣点,对推荐结果进行进一步的处理,可以得到更为准确,更适合 用户的推荐攻略,从而让用户获得更好的体验。
图3示出根据本发明实施例的基于关联分析算法的旅行推荐系统的构成图。 如图3所示,该基于关联分析算法的旅行推荐系统整体可以分为:
文本模块31,用于通过命名实体识别,抽取出旅行网页中的文本信息,构 建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计 算;所述旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信 息。
图片模块32,用于抽取出旅行网页中的图片信息,去除与旅行无关的噪音 图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每 张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关 系;
识别模块33,用于根据旅行时空关系,由所述映射关系中各分类信息形成 关联规则树中的事件链,识别出旅行频繁项集;所述旅行时空关系包括时间关 系和地理位置关系;
推荐模块34,用于提取出所述旅行频繁项集中符合用户要求的旅行文本信 息,得到推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图 片集中的图片,形成推荐攻略。
图4示出根据本发明实施例的基于关联分析算法的旅行推荐系统的构成图。 如图4所示,该基于关联分析算法的旅行推荐系统还包括:
更新模块35,用于按照用户的选择条件,预测用户的兴趣点,并根据所述 兴趣点对所述推荐结果进行增加、删除和排序,生成新的推荐攻略。
图5示出根据本发明实施例的图片模块的构成图。如图5所示,该基于关 联分析算法的旅行推荐系统的图片模块32包括:
分块单元321,用于对所述旅行网页进行分块预处理,根据网页视觉特征抽 取出网页核心内容分块;
焦点单元322,用于识别出所述网页核心内容分块中图片的焦点内容,对所 述焦点内容进行地标、品牌和菜品识别,得到每张图片的标签集合;
映射单元323,用于将所述标签集合中的每个元素与所述文本信息集中的每 个元素进行语义比对,在比对结果超过指定阈值的情况下,建立映射关系。
本申请实施例各系统中的各模块的功能可以参见上述方法中的对应描述, 在此不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具 体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结 构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具 体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方 式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中 描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表 示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码 的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其 中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或 按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员 所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认 为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机 可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处 理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统) 使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算 机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行 系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算 机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线 的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM), 只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光 纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以 是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其 他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理 来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。 在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执 行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方 式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有 用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合 逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部 分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计 算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块 中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的 形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品 销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以 是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的 保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种基于关联分析算法的旅行推荐方法,其特征在于,包括:
通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算;所述旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信息;
抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系;
根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集,包括:按照时间序列关系,将所述分类信息填充至所述事件链中,事件链中的每个节点对应于指定的时间和地理位置,并包含了在所述时间和地理位置的地标、品牌、菜品和对应的情感特征;采用混合遍历的方式,通过深度优先策略识别出旅行频繁项集;所述旅行时空关系包括时间关系和地理位置关系;
提取出所述旅行频繁项集中符合用户要求的旅行文本信息,得到推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集中的图片,形成推荐攻略。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照用户的选择条件,预测用户的兴趣点,并根据所述兴趣点对所述推荐结果进行增加、删除和排序,生成新的推荐攻略。
3.根据权利要求1所述的方法,其特征在于,通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算,包括:
对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;
抽取所述网页核心内容分块中的地标、品牌、菜品和对应的情感特征词,形成旅行文本信息集;
通过情感分析计算所述旅行文本信息集的喜好置信度,并按照地标、品牌和菜品分别进行排序。
4.根据权利要求1所述的方法,其特征在于,抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系,包括:
对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;
识别出所述网页核心内容分块中图片的焦点内容,对所述焦点内容进行地标、品牌和菜品识别,得到每张图片的标签集合;
将所述标签集合中的每个元素与所述文本信息集中的每个元素进行语义比对,在比对结果超过指定阈值的情况下,建立映射关系。
5.根据权利要求1所述的方法,其特征在于,所述推荐攻略还包括:
根据所述推荐结果中各个频繁项集的支持度,结合所述情感特征,得到的推荐度。
6.根据权利要求5所述的方法,其特征在于,根据所述推荐结果中各个频繁项集的支持度,结合所述情感特征,得到的推荐度,通过公式:
Reci=Supi+μEmoi
进行,其中Reci表示所述频繁项集中的第i项推荐度,Supi表示所述频繁项集中的第i项支持度,Emoi表示所述频繁项集中的第i项情感特征的置信度,μ为情感加权系数。
7.一种基于关联分析算法的旅行推荐系统,其特征在于,包括:
文本模块,用于通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算;所述旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信息;
图片模块,用于抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系;
识别模块,用于根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集,包括:按照时间序列关系,将所述分类信息填充至所述事件链中,事件链中的每个节点对应于指定的时间和地理位置,并包含了在所述时间和地理位置的地标、品牌、菜品和对应的情感特征;采用混合遍历的方式,通过深度优先策略识别出旅行频繁项集;所述旅行时空关系包括时间关系和地理位置关系;
推荐模块,用于提取出所述旅行频繁项集中符合用户要求的旅行文本信息,得到推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集中的图片,形成推荐攻略。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
更新模块,用于按照用户的选择条件,预测用户的兴趣点,并根据所述兴趣点对所述推荐结果进行增加、删除和排序,生成新的推荐攻略。
9.根据权利要求7所述的系统,其特征在于,所述图片模块,包括:
分块单元,用于对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;
焦点单元,用于识别出所述网页核心内容分块中图片的焦点内容,对所述焦点内容进行地标、品牌和菜品识别,得到每张图片的标签集合;
映射单元,用于将所述标签集合中的每个元素与所述文本信息集中的每个元素进行语义比对,在比对结果超过指定阈值的情况下,建立映射关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911351256.6A CN111191127B (zh) | 2019-12-24 | 2019-12-24 | 一种基于关联分析算法的旅行推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911351256.6A CN111191127B (zh) | 2019-12-24 | 2019-12-24 | 一种基于关联分析算法的旅行推荐方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191127A CN111191127A (zh) | 2020-05-22 |
CN111191127B true CN111191127B (zh) | 2023-02-03 |
Family
ID=70709415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911351256.6A Active CN111191127B (zh) | 2019-12-24 | 2019-12-24 | 一种基于关联分析算法的旅行推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191127B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813980A (zh) * | 2020-08-03 | 2020-10-23 | Oppo广东移动通信有限公司 | 图片处理方法、装置、电子设备及存储介质 |
CN112287111B (zh) * | 2020-12-18 | 2021-03-23 | 腾讯科技(深圳)有限公司 | 一种文本处理方法和相关装置 |
CN113076472B (zh) * | 2021-03-16 | 2022-09-16 | 合肥工业大学 | 基于用户需求和标签关联度的电影推荐方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933789A (zh) * | 2015-12-30 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 旅游攻略生成方法和生成系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9449106B2 (en) * | 2013-03-08 | 2016-09-20 | Opentable, Inc. | Context-based queryless presentation of recommendations |
CN106066873B (zh) * | 2016-05-30 | 2019-09-27 | 哈尔滨工程大学 | 一种基于本体的旅游信息推荐方法 |
WO2017210452A1 (en) * | 2016-06-02 | 2017-12-07 | Kodak Alaris Inc. | Method for proactive interactions with a user |
CN106126637A (zh) * | 2016-06-23 | 2016-11-16 | 东软集团股份有限公司 | 一种交通工具类别识别方法及装置 |
CN107577682B (zh) * | 2016-07-05 | 2021-06-29 | 上海交通大学 | 基于社交图片的用户兴趣挖掘和用户推荐方法及系统 |
CN106600482A (zh) * | 2016-12-30 | 2017-04-26 | 西北工业大学 | 多源社交数据融合的多角度旅游信息感知与智能推荐方法 |
CN109492168B (zh) * | 2018-11-13 | 2022-04-15 | 钟栎娜 | 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法 |
CN110245286B (zh) * | 2019-05-08 | 2020-01-31 | 特斯联(北京)科技有限公司 | 一种基于数据挖掘的旅行推荐方法及装置 |
CN110348694A (zh) * | 2019-06-14 | 2019-10-18 | 中南大学 | 一种基于大数据的智慧旅游决策系统及决策方法 |
-
2019
- 2019-12-24 CN CN201911351256.6A patent/CN111191127B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933789A (zh) * | 2015-12-30 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 旅游攻略生成方法和生成系统 |
Non-Patent Citations (1)
Title |
---|
游记文本中的知识发现与聚合――以蚂蜂窝旅行网杭州游记为例;吕琳露等;《情报杂志》;20170718(第07期);176-181,110 * |
Also Published As
Publication number | Publication date |
---|---|
CN111191127A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhai et al. | Beyond Word2vec: An approach for urban functional region extraction and identification by combining Place2vec and POIs | |
US10878002B2 (en) | Activity based analytics | |
CN111191127B (zh) | 一种基于关联分析算法的旅行推荐方法和系统 | |
US9123259B2 (en) | Discovering functional groups of an area | |
Költringer et al. | Analyzing destination branding and image from online sources: A web content mining approach | |
Duckham et al. | Including landmarks in routing instructions | |
US10198635B2 (en) | Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics | |
Eken et al. | A smart bus tracking system based on location-aware services and QR codes | |
Milias et al. | Assessing the influence of point-of-interest features on the classification of place categories | |
CN108182253B (zh) | 用于生成信息的方法和装置 | |
Thatcher | You are where you go, the commodification of daily life through ‘location’ | |
Wang et al. | Pedestrian and cyclist detection based on deep neural network fast R-CNN | |
Widaningrum et al. | Discovering spatial patterns of fast-food restaurants in Jakarta, Indonesia | |
CN109740049B (zh) | 文章的生成方法和装置 | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN116308556A (zh) | 基于物联网的广告推送方法及系统 | |
CN112711645B (zh) | 一种位置点信息扩展方法、装置、存储介质和电子设备 | |
CN113157871B (zh) | 应用人工智能的新闻舆情文本处理方法、服务器及介质 | |
CN115203539A (zh) | 一种媒体内容推荐方法、装置、设备及存储介质 | |
Chen et al. | Special issue on spatiotemporal big data analytics for transportation applications | |
CN110245286A (zh) | 一种基于数据挖掘的旅行推荐方法及装置 | |
Zhang et al. | Image tweet popularity prediction with convolutional neural network | |
Yang et al. | Dynamic vehicle routing with parking probability under connected environment | |
WO2021261987A1 (en) | System and method for providing destination recommendation to travelers | |
CN112183879A (zh) | 一种城市功能区的分类方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |