CN107194739B - 一种基于大数据的智能推荐系统 - Google Patents

一种基于大数据的智能推荐系统 Download PDF

Info

Publication number
CN107194739B
CN107194739B CN201710395300.8A CN201710395300A CN107194739B CN 107194739 B CN107194739 B CN 107194739B CN 201710395300 A CN201710395300 A CN 201710395300A CN 107194739 B CN107194739 B CN 107194739B
Authority
CN
China
Prior art keywords
feature
text
data
indicate
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710395300.8A
Other languages
English (en)
Other versions
CN107194739A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou hundred games Mdt InfoTech Ltd
Original Assignee
Guangzhou Hundred Games Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Hundred Games Mdt Infotech Ltd filed Critical Guangzhou Hundred Games Mdt Infotech Ltd
Priority to CN201710395300.8A priority Critical patent/CN107194739B/zh
Publication of CN107194739A publication Critical patent/CN107194739A/zh
Application granted granted Critical
Publication of CN107194739B publication Critical patent/CN107194739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据的智能推荐系统,包括大数据库、用户消费数据库和推荐子系统;所述大数据库用于存储交通数据、酒店数据、餐饮数据及交通数据、酒店数据、餐饮数据的评价数据;所述用户消费数据库用于记录用户历史消费记录;所述推荐子系统用于向用户提供推荐项,对于任一领域消费,当用户有该领域的历史消费记录时,根据用户历史消费记录和所述大数据库向用户提供推荐项,当用户无该领域历史消费记录时,根据所述大数据库向用户提供推荐项。本发明的有益效果为:对于任一领域消费,能够向用户提供该领域推荐项。

Description

一种基于大数据的智能推荐系统
技术领域
本发明涉及智能推荐技术领域,具体涉及一种基于大数据的智能推荐系统。
背景技术
现有的针对用户的智能推荐系统,基本都是根据用户的历史记录,推荐相似的条目给用户,若用户的历史记录空白,则无法向客户进行有效推荐。
大数据库上的用户观点数据有着非常重要的研究价值以及商业价值,因此逐渐受到人们的重视。情感分类作为观点挖掘中的重要任务,对情感分类的研究显得尤为重要。
情感分类的主要任务是将包含主观性文字的文本划分到不同类别中,现有的情感分类方法存在分类准确率差、分类速度慢等缺陷,无法满足日益提高的情感分类要求。
发明内容
针对上述问题,本发明旨在提供一种基于大数据的智能推荐系统。
本发明的目的采用以下技术方案来实现:
提供了一种基于大数据的智能推荐系统,包括大数据库、用户消费数据库和推荐子系统;
所述大数据库用于存储交通数据、酒店数据、餐饮数据及交通数据、酒店数据、餐饮数据的评价数据;
所述用户消费数据库用于记录用户历史消费记录;
所述推荐子系统用于向用户提供推荐项,对于任一领域消费,当用户有该领域的历史消费记录时,根据用户历史消费记录和所述大数据库向用户提供推荐项,当用户无该领域历史消费记录时,根据所述大数据库向用户提供推荐项。
本发明的有益效果为:对于任一领域消费,能够向用户提供该领域推荐项。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明的结构示意图;
图2是本发明推荐子系统的结构示意图。
附图标记:
大数据库1、用户消费数据库2、推荐子系统3、特征提取模块31、特征筛选模块32、文本建模模块33、情感分类模块34。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1、图2,本实施例的一种基于大数据的智能推荐系统,包括大数据库1、用户消费数据库2和推荐子系统3;
所述大数据库1用于存储交通数据、酒店数据、餐饮数据及交通数据、酒店数据、餐饮数据的评价数据;
所述用户消费数据库2用于记录用户历史消费记录;
所述推荐子系统3用于向用户提供推荐项,对于任一领域消费,当用户有该领域的历史消费记录时,根据用户历史消费记录和所述大数据库1向用户提供推荐项,当用户无该领域历史消费记录时,根据所述大数据库1向用户提供推荐项。
本实施例对于任一领域消费,能够向用户提供该领域推荐项。
优选的,所述交通数据是与航班时刻、航班类型、航空公司、铁路时刻、火车类型、火车座位有关的数据,所述酒店数据是与酒店名称、酒店位置、酒店级别、酒店入住率、酒店特色服务、酒店相关交通有关的数据,所述餐饮数据是与餐馆位置、餐馆类型、餐馆评价、餐馆菜系、餐馆特色有关的数据。
本优选实施例大数据库提供了丰富的数据资源。
优选的,所述大数据库1向用户提供推荐项根据评价数据的情感分类进行。
本优选实施例根据情感分类向用户提供推荐项,能够提高用户满意度。
优选的,所述推荐子系统3能够对大数据库中的评价数据进行情感分类,包括特征提取模块31、特征筛选模块32、文本建模模块33和情感分类模块34,所述特征提取模块31用于对评价数据中的文本包含的情感特征进行提取,所述征筛选模块32用于对提取的特征进行筛选,所述文本建模模块33用于根据筛选后的特征建立评价数据的文本模型,所述情感分类模块34用于根据文本模型对大数据库中的评价数据进行分类。
所述特征筛选模块32包括第一筛选单元和第二筛选单元,所述第一筛选单元对提取的特征进行初步筛选,得到初步筛选的特征,所述第二筛选单元对初步筛选的特征进行进一步筛选,得到最终筛选的特征。
所述对提取的特征进行初步筛选采用以下步骤进行:
a、令W={w1,w2,…,wn}表示所有文本的集合,wi∈W表示集合中一个文本,n表示文本总数,C={c1,c2,…,ck}表示文本分类集合,ci∈C表示集合中一个分类,k表示分类的总数,F0={f1,f2,…,fM}表示任意文本wi包含的特征集合,fi∈F0表示集合中一个特征,M表示特征总数;
b、建立初步筛选函数DY:式中,表示特征fi初步筛选函数值,wip(fi)表示特征fi在文本wi中出现的次数,设定阈值DY1,若则对特征予以保留,否则将特征过滤掉,得到初步筛选的特征。
所述对初步筛选的特征进行进一步筛选采用以下步骤进行:
a、对于任意ci∈C,建立最终筛选函数DE:式中,DE(ci,fi)表示特征fi最终筛选函数值,Z(ci,fi)表示训练样本中的文本中包含特征fi且被划分为ci的文本数,表示训练样本中的文本中不包含特征fi且不被划分为ci的文本数,表示训练样本中的文本中包含特征fi且不被划分为ci的文本数,表示训练样本中的文本中不包含特征fi且被划分为ci的文本数;
b、设定阈值DE1,若DE(ci,fi)>DE1,则对特征予以保留,否则将特征过滤掉,得到最终筛选的特征。
由于文本包含大量特征,将所有特征用于文本建模既耗时又易造成过度拟合,本优选实施例推荐子系统设置特征筛选模块对文本特征进行提取,抽取合适的特征集合来刻画文本,能够提高计算效率,减少工作时间,采用第一筛选单元和第二筛选单元对特征进行两次筛选,对多余的特征进行两次滤除,得到的特征更加符合实际应用的需求。
优选的,所述文本模型采用以下方式建立:
设文本集合为W,W={w1,w2,…,wn},其中,n表示文本数量,将集合中任意文本wi表示成一系列特征的集合F,计算每个特征对文本的重要程度,完成文本建模,其中,F={f1,f2,…,fm},F表示最终筛选的特征集合,m表示特征数量;
计算每个特征对文本的重要程度,具体采用重要性程度指标zc衡量特征对文本的重要性程度:
式中,表示特征fi对文本wi的重要性程度指标值,wip(fi)表示特征fi在文本wi中出现的次数,表示文本wi中包含的所有特征出现次数总和,Wd(fi)表示特征fi在文本集合W中出现的次数。
本优选实施例推荐子系统文本建模模块的文本模型简单、算法复杂度低,采用重要性程度指标来衡量特征对文本的重要性程度,有助于后续评价数据分类快速准确进行。
优选的,所述根据文本模型对大数据库中的评价数据进行分类采用以下步骤进行:
a、确定分类指标函数:
式中,P(c|wi)表示文本wi被划分为c类的指标值,c表示分类的类标,ρ(fj,c)表示指示函数,当训练样本中文本的特征fj与类标同时出现时值为1,否则为0;
b、选取指标值最大的类别作为评价数据的最终类别。
本优选实施例推荐子系统情感分类模块通过分类指标函数实现了对文本的分类,分类过程中引入指示函数,获取的文本类结果更为准确,从而获取了更为准确的评价数据分类结果。
采用本发明基于大数据的智能推荐系统向用户提供推荐项,当推荐项数目取不同值时,对推荐准确性和推荐时间进行统计,同未采用本发明相比,产生的有益效果如下表所示:
推荐项数目 推荐准确性提高 推荐时间减少
5 10% 18%
6 15% 23%
7 20% 25%
8 24% 28%
9 31% 32%
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (4)

1.一种基于大数据的智能推荐系统,其特征在于,包括大数据库、用户消费数据库和推荐子系统;
所述大数据库用于存储交通数据、酒店数据、餐饮数据及交通数据、酒店数据、餐饮数据的评价数据;
所述用户消费数据库用于记录用户历史消费记录;
所述推荐子系统用于向用户提供推荐项,对于任一领域消费,当用户有该领域的历史消费记录时,根据用户历史消费记录和所述大数据库向用户提供推荐项,当用户无该领域历史消费记录时,根据所述大数据库向用户提供推荐项;
所述交通数据是与航班时刻、航班类型、航空公司、铁路时刻、火车类型、火车座位有关的数据,所述酒店数据是与酒店名称、酒店位置、酒店级别、酒店入住率、酒店特色服务、酒店相关交通有关的数据,所述餐饮数据是与餐馆位置、餐馆类型、餐馆评价、餐馆菜系、餐馆特色有关的数据;
所述大数据库向用户提供推荐项根据评价数据的情感分类进行;
所述推荐子系统能够对大数据库中的评价数据进行情感分类,包括特征提取模块、特征筛选模块、文本建模模块和情感分类模块,所述特征提取模块用于对评价数据中的文本包含的情感特征进行提取,所述特征筛选模块用于对提取的特征进行筛选,所述文本建模模块用于根据筛选后的特征建立评价数据的文本模型,所述情感分类模块用于根据文本模型对大数据库中的评价数据进行分类;
所述特征筛选模块包括第一筛选单元和第二筛选单元,所述第一筛选单元对提取的特征进行初步筛选,得到初步筛选的特征,所述第二筛选单元对初步筛选的特征进行进一步筛选,得到最终筛选的特征;
所述对提取的特征进行初步筛选采用以下步骤进行:
a、令W={w1,w2,…,wn}表示所有文本的集合,wi∈W表示集合中一个文本,n表示文本总数,C={c1,c2,…,ck}表示文本分类集合,ci∈C表示集合中一个分类,k表示分类的总数,F0={f1,f2,…,fM}表示任意文本wi包含的特征集合,fi∈F0表示集合中一个特征,M表示特征总数;
b、建立初步筛选函数DY:式中,表示特征fi初步筛选函数值,wip(fi)表示特征fi在文本wi中出现的次数,设定阈值DY1,若则对特征予以保留,否则将特征过滤掉,得到初步筛选的特征。
2.根据权利要求1所述的基于大数据的智能推荐系统,其特征在于,所述对初步筛选的特征进行进一步筛选采用以下步骤进行:
a、对于任意ci∈C,建立最终筛选函数DE:式中,DE(ci,fi)表示特征fi最终筛选函数值,z(ci,fi)表示训练样本中的文本中包含特征fi且被划分为ci的文本数,表示训练样本中的文本中不包含特征fi且不被划分为ci的文本数,表示训练样本中的文本中包含特征fi且不被划分为ci的文本数,表示训练样本中的文本中不包含特征fi且被划分为ci的文本数;
b、设定阈值DE1,若DE(ci,fi)>DE1,则对特征予以保留,否则将特征过滤掉,得到最终筛选的特征。
3.根据权利要求2所述的基于大数据的智能推荐系统,其特征在于,所述文本模型采用以下方式建立:
设文本集合为W,W={w1,w2,…,wn},其中,n表示文本数量,将集合中任意文本wi表示成一系列特征的集合F,计算每个特征对文本的重要程度,完成文本建模,其中,F={f1,f2,…,fm},F表示最终筛选的特征集合,m表示特征数量;
计算每个特征对文本的重要程度,具体采用重要性程度指标zc衡量特征对文本的重要性程度:
式中,表示特征fi对文本wi的重要性程度指标值,wip(fi)表示特征fi在文本wi中出现的次数,表示文本wi中包含的所有特征出现次数总和,Wd(fi)表示特征fi在文本集合W中出现的次数。
4.根据权利要求3所述的基于大数据的智能推荐系统,其特征在于,所述根据文本模型对大数据库中的评价数据进行分类采用以下步骤进行:
a、确定分类指标函数:
式中,P(c|wi)表示文本wi被划分为c类的指标值,c表示分类的类标,ρ(fj,c)表示指示函数,当训练样本中文本的特征fj与类标同时出现时值为1,否则为0;
b、选取指标值最大的类别作为评价数据的最终类别。
CN201710395300.8A 2017-05-25 2017-05-25 一种基于大数据的智能推荐系统 Active CN107194739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710395300.8A CN107194739B (zh) 2017-05-25 2017-05-25 一种基于大数据的智能推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710395300.8A CN107194739B (zh) 2017-05-25 2017-05-25 一种基于大数据的智能推荐系统

Publications (2)

Publication Number Publication Date
CN107194739A CN107194739A (zh) 2017-09-22
CN107194739B true CN107194739B (zh) 2018-10-26

Family

ID=59876006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710395300.8A Active CN107194739B (zh) 2017-05-25 2017-05-25 一种基于大数据的智能推荐系统

Country Status (1)

Country Link
CN (1) CN107194739B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191176A (zh) * 2018-07-31 2019-01-11 国政通科技有限公司 一种精准命中高端餐饮潜在用户的方法及装置
CN109471973A (zh) * 2018-10-31 2019-03-15 深圳市元征科技股份有限公司 一种餐馆智能推荐方法、装置、设备及存储介质
CN109697657A (zh) * 2018-12-27 2019-04-30 厦门快商通信息技术有限公司 一种餐饮推荐方法、服务器及存储介质
CN112446514A (zh) * 2019-09-03 2021-03-05 阿里巴巴集团控股有限公司 信息预订方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365867A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN103488623A (zh) * 2013-09-04 2014-01-01 中国科学院计算技术研究所 多种语言文本数据分类处理方法
CN104281694A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种文本情感倾向分析系统
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699523B (zh) * 2013-12-16 2016-06-29 深圳先进技术研究院 产品分类方法和装置
CN105677910A (zh) * 2016-02-26 2016-06-15 中国银联股份有限公司 智能推荐方法及系统
CN105809451A (zh) * 2016-02-29 2016-07-27 江苏大学 一种大数据电商网购评价分析预测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365867A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN103488623A (zh) * 2013-09-04 2014-01-01 中国科学院计算技术研究所 多种语言文本数据分类处理方法
CN104281694A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种文本情感倾向分析系统
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法

Also Published As

Publication number Publication date
CN107194739A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN107194739B (zh) 一种基于大数据的智能推荐系统
CN103778214B (zh) 一种基于用户评论的商品属性聚类方法
CN102609523B (zh) 基于物品分类和用户分类的协同过滤推荐方法
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN104813315B (zh) 顾客数据分析/验证系统
CN108763362A (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN102591876A (zh) 搜索结果排序方法及装置
CN102542474A (zh) 查询结果排序方法及装置
CN108681970A (zh) 基于大数据的理财产品推送方法、系统及计算机存储介质
CN102663627A (zh) 个性化推荐方法
CN110263257A (zh) 基于深度学习的多源异构数据混合推荐模型
CN109118283A (zh) 基于大数据的精准营销服务系统
CN107563343A (zh) 基于人脸识别技术的FaceID数据库的自我完善方法和系统
CN108153781A (zh) 提取业务领域的关键词的方法和装置
CN113450178A (zh) 一种基于互联网的电商精准营销系统
CN109508342B (zh) 一种电子商务平台的商品自动分类管理系统
CN108090503A (zh) 多分类器的在线调整方法、装置、存储介质及电子设备
CN108021627A (zh) 关联数据的存储方法及装置
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN107423335A (zh) 一种针对单类协同过滤问题的负样本选择方法
CN109614484A (zh) 一种基于分类效用的文本聚类方法及其系统
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN116739836B (zh) 一种基于知识图谱的餐饮数据分析方法及系统
CN106202391A (zh) 一种用户社群的自动分类方法及装置
CN101178721A (zh) 一种对论坛中有用帖子信息进行分类并整理的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170922

Address after: Xinhua Street, Huadu District, Guangdong city of Guangzhou province 510000 Tian Mei Cun Tian Mei Xin Cun from No. 87

Applicant after: Guangzhou Rui LAN embroidery Trading Co., Ltd.

Address before: 200000, 556, 5, 2265 Willow Road, Shanghai, Putuo District

Applicant before: Shanghai phase resistant Intelligent Technology Co., Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180823

Address after: 510108 two 8 tier, 604 North Renmin Road, Yuexiu District, Guangzhou, Guangdong.

Applicant after: Guangzhou hundred games Mdt InfoTech Ltd

Address before: 510000 self compiled No. 87, Mei Village, Mei Village, Xinhua Street, Huadu District, Guangzhou, Guangdong

Applicant before: Guangzhou Rui LAN embroidery Trading Co., Ltd.

GR01 Patent grant
GR01 Patent grant