CN106250522A - 一种基于高斯估计的在线餐饮主标签数据快速提取方法 - Google Patents

一种基于高斯估计的在线餐饮主标签数据快速提取方法 Download PDF

Info

Publication number
CN106250522A
CN106250522A CN201610634284.9A CN201610634284A CN106250522A CN 106250522 A CN106250522 A CN 106250522A CN 201610634284 A CN201610634284 A CN 201610634284A CN 106250522 A CN106250522 A CN 106250522A
Authority
CN
China
Prior art keywords
label
user
taste
data
gauss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610634284.9A
Other languages
English (en)
Other versions
CN106250522B (zh
Inventor
宣琦
周鸣鸣
张致远
傅晨波
翔云
吴哲夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610634284.9A priority Critical patent/CN106250522B/zh
Publication of CN106250522A publication Critical patent/CN106250522A/zh
Application granted granted Critical
Publication of CN106250522B publication Critical patent/CN106250522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于高斯估计的在线餐饮主标签数据快速提取方法,包括以下步骤:1)获取商铺标签数据,以及用户评分与评论数据,并对商铺标签数据进行预处理;2)针对每个用户,将其各标签的评分数据集求得高斯分布的平均值与方差,即该用户在该标签下的评分高斯分布;3)针对每个用户,将每次商铺的各个标签评分与该标签评分高斯分布作标准化处理,求得最大似然估计作为该次用户去该商铺的目标标签;4)将估计标签、实际完整标签分别和评论数据作测试,取两者匹配率的相对偏差作为模型的最终评价成绩。本发明提取高斯分布下最大似然口味标签作为用户就餐行为的主选口味标签,提取精度较高且算法复杂度较低,适合实际应用场景。

Description

一种基于高斯估计的在线餐饮主标签数据快速提取方法
技术领域
本发明涉及数据挖掘与推荐系统领域,特别是涉及一种基于高斯估计的在线餐饮主标签数据快速提取方法。
背景技术
数据挖掘中采集的数据往往会有各种噪声,例如缺失数据,或异常数据,显然噪声数据能够影响后续建模的性能。数据去噪是非常重要的预处理步骤,目的是提取出保留最大信息量的数据。在用户数据分析的过程中,有时候用一个好的数据去噪方法来提高精确度,比复杂的算法优化效果要好得多。
设计推荐系统的主要目的是为了预测用户的行为偏好,而分析素材往往来源于用户的历史行为数据。要想发掘用户某次购买行为的内容,常见的方法是可以通过自然语言分析用户评论,或者机器学习用户上传的图片来获知。但这些算法复杂度较高,显然不适用于快速性要求较高的数据预处理过程。特别是在分析用户去餐馆吃饭的历史记录,各个餐馆都具有不同的标签数据,如何快速找出该用户该次用餐主要选择了哪种标签的菜肴,是本发明解决问题的主要动机。
发明内容
为了克服现有的餐饮数据提取方式的无法兼顾内容完整性与效用性的不足,本发明提供一种去噪后的数据在内容完整性与效用性上具有均衡的表现、效果良好的基于高斯估计的在线餐饮主标签数据快速提取方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于高斯估计的在线餐饮主标签数据快速提取方法,包括以下步骤:
S1:获取商铺标签数据,以及用户评分与评论数据,对商铺标签数据进行预处理,删除共同标签和无效标签;
S2:针对每个用户,将其各标签的评分数据集求得高斯分布的平均值与方差,即该用户在该标签下的评分高斯分布;
S3:针对每个用户,将每次商铺的各个标签评分与该标签评分高斯分布作标准化处理,求得最大似然估计作为该次用户去该商铺的目标标签;
S4:将上述估计标签、实际完整标签分别和评论数据作测试,取两者匹配率的相对偏差作为模型的最终评价成绩。
进一步,所述步骤S1中,需要删除的数据是指那些大多数或所有餐馆都具有的口味标签,以及那些无法明确表达口味信息的标签,例如“餐馆”,“食物”等。
再进一步,所述步骤S2中,计算各个口味的高斯分布模型方法,例如计算用户ui的口味高斯分布模型,过程如下:已知该用户去了某些餐馆的历史记录{r1,r2,...,rT},其中rk表示该用户第k次所去的餐馆,表示该餐馆所附属的口味标签;假设该次餐后的用户评分对其各个口味均有效,则关于用户ui的口味fj历史记录均有一组历史打分列表m≤T,可根据此列表数据求得该用户的各口味的评分高斯分布平均值μ与方差σ,记该用户关于口味fj的高斯分布满足
所述步骤S3中,估计用户每次选择何种口味标签方法,例如预测用户ui第k次去餐馆主要吃了哪种口味的菜肴,过程如下:定义第k次口味在标准正态分布下的绝对标准差该值越小,说明该口味越能反映该用户对该次用餐行为的客观评价。所以选择最小绝对标准差的口味标签,即最大似然的口味标签作为该用户在第k次用餐的主要口味标签。
所述步骤S4根据S3方法提取的用户历史口味估计数据,与S1准备的该用户评论数据作匹配度分析。若该用户的第k次口味标签单词在其第k次评论文本中出现,则记为1,反之为0,可求得本发明的匹配率;同理,对用户的原始口味历史数据与评论数据分析,求得原始数据集的匹配率,通过比较两者的相对偏差,作为该高斯估计模型的评价指标。
本发明的技术构思为:本发明的适用对象是具有用户打分数据的标签,本发明可以提取用户对某些标签的偏好程度,进而概括出用户的行为特征和模式,用于后续分析用户行为与构建推荐模型。本发明需要的数据包括用户用餐餐馆的评论与评分、以及餐馆口味标签等原始数据集。
本发明的有益效果为:通过具有用户评分的口味标签高斯分布函数提取最大似然口味标签,作为用户该次就餐行为的口味选择。最终的估计结果接近于全局搜索且计算复杂度较低,能有效满足实际使用的要求。
附图说明
图1为本发明实施例的基于高斯估计的在线餐饮主标签数据快速提取方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1,一种基于高斯估计的在线餐饮主标签数据快速提取方法,本发明使用yelp官方公开的数据进行用户就餐行为意义上口味标签提取方案分析,原始数据记录了各个用户的历史行为信息与餐馆的详细信息,以本专利研究yelp用户为例,所需的行为数据包括用户的用餐餐馆、餐馆口味标签以及对餐馆的评论文本等信息。关于用户对餐馆的评论文本数据,在这里作为验证数据集,用于后续检验预测用户行为模型的可靠性。
本发明包括以下步骤:
S1:获取商铺标签数据,以及用户评分与评论数据,对商铺标签数据进行预处理,删除共同标签和无效标签;
S2:针对每个用户,将其各标签的评分数据集求得高斯分布的平均值与方差,即该用户在该标签下的评分高斯分布;
S3:针对每个用户,将每次商铺的各个标签评分与该标签评分高斯分布作标准化处理,求得最大似然估计作为该次用户去该商铺的目标标签;
S4:将上述估计标签、实际完整标签分别和评论数据作测试,取两者匹配率的相对偏差作为模型的最终评价成绩。
所述步骤S1中的需要删除的数据主要是指那些大多数或所有餐馆都具有的口味标签,以及那些无法明确表达口味信息的标签,例如“餐馆”,“食物”等。
所述步骤S2中的计算各个口味的高斯分布模型方法,例如计算用户ui的口味高斯分布模型,过程如下:已知该用户去了某些餐馆的历史记录{r1,r2,...,rT},其中rk表示该用户第k次所去的餐馆,表示该餐馆所附属的口味标签。假设该次餐后的用户评分对其各个口味均有效,则关于用户ui的口味fj历史记录均有一组历史打分列表m≤T,可根据此列表数据求得该用户的各口味的评分高斯分布平均值μ与方差σ,记该用户关于口味fj的高斯分布满足
所述步骤S3中的估计用户每次选择何种口味标签方法,例如预测用户ui第k次去餐馆主要吃了哪种口味的菜肴,具体步骤如下:定义第k次口味在标准正态分布下的绝对标准差该值越小,说明该口味越能反映该用户对该次用餐行为的客观评价。所以选择最小绝对标准差的口味标签,即最大似然的口味标签作为该用户在第k次用餐的主要口味标签。
所述步骤S4根据S3方法提取的用户历史口味估计数据,与S1准备的该用户评论数据作匹配度分析。若该用户的第k次口味标签单词在其第k次评论文本中出现,则记为1,反之为0,可求得本发明的匹配率。同理,对用户的原始口味历史数据与评论数据分析,求得原始数据集的匹配率。通过比较与后者全局完全搜索的相对偏差,作为该高斯估计模型的评价指标。
如上所述为本发明在yelp餐饮平台通过提取口味标签来预测用户行为的实施例介绍,本发明根据高斯分布函数的思想,将最大似然的口味标签保留下来,具体提取了用户各次行为下的各个特征。最终的预测结果,如表1所示,
表1
本发明接近于全局遍历原始数据的结果,但是在计算时间与计算复杂度上优于后者,达到了实际使用的要求。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (5)

1.一种基于高斯估计的在线餐饮主标签数据快速提取方法,其特征在于:所述提取方法包括以下步骤:
S1:获取商铺标签数据,以及用户评分与评论数据,对商铺标签数据进行预处理,删除共同标签和无效标签;
S2:针对每个用户,将其各标签的评分数据集求得高斯分布的平均值与方差,即该用户在该标签下的评分高斯分布;
S3:针对每个用户,将每次商铺的各个标签评分与该标签评分高斯分布作标准化处理,求得最大似然估计作为该次用户去该商铺的目标标签;
S4:将上述估计标签、实际完整标签分别和评论数据作测试,取两者匹配率的相对偏差作为模型的最终评价成绩。
2.如权利要求1所述的一种基于高斯估计的在线餐饮主标签数据快速提取方法,其特征在于:所述步骤S1中,需要删除的数据是指那些大多数或所有餐馆都具有的口味标签,以及那些无法明确表达口味信息的标签。
3.如权利要求1或2所述的一种基于高斯估计的在线餐饮主标签数据快速提取方法,其特征在于:所述步骤S2中,计算用户ui的口味高斯分布模型,过程如下:已知该用户去了某些餐馆的历史记录{r1,r2,…,rT},其中rk表示该用户第k次所去的餐馆,表示该餐馆所附属的口味标签,假设该次餐后的用户评分对其各个口味均有效,则关于用户ui的口味fj历史记录均有一组历史打分列表m≤T,根据此列表数据求得该用户的各口味的评分高斯分布平均值μ与方差σ,记该用户关于口味fj的高斯分布满足
4.如权利要求1或2所述的一种基于高斯估计的在线餐饮主标签数据快速提取方法,其特征在于:所述步骤S3中,预测用户ui第k次去餐馆吃了哪种口味的菜肴,过程如下:定义第k次口味在标准正态分布下的绝对标准差该值越小,说明该口味越能反映该用户对该次用餐行为的客观评价;所以选择最小绝对标准差的口味标签,即最大似然的口味标签作为该用户在第k次用餐的主要口味标签。
5.如权利要求1或2所述的一种基于高斯估计的在线餐饮主标签数据快速提取方法,其特征在于:所述步骤S4根据S3方法提取的用户历史口味估计数据,与S1准备的该用户评论数据作匹配度分析;若该用户的第k次口味标签单词在其第k次评论文本中出现,则记为1,反之为0,求得匹配率;同理,对用户的原始口味历史数据与评论数据分析,求得原始数据集的匹配率,通过比较两者的相对偏差,作为该高斯估计模型的评价指标。
CN201610634284.9A 2016-08-03 2016-08-03 一种基于高斯估计的在线餐饮主标签数据快速提取方法 Active CN106250522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610634284.9A CN106250522B (zh) 2016-08-03 2016-08-03 一种基于高斯估计的在线餐饮主标签数据快速提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610634284.9A CN106250522B (zh) 2016-08-03 2016-08-03 一种基于高斯估计的在线餐饮主标签数据快速提取方法

Publications (2)

Publication Number Publication Date
CN106250522A true CN106250522A (zh) 2016-12-21
CN106250522B CN106250522B (zh) 2019-11-05

Family

ID=58077809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610634284.9A Active CN106250522B (zh) 2016-08-03 2016-08-03 一种基于高斯估计的在线餐饮主标签数据快速提取方法

Country Status (1)

Country Link
CN (1) CN106250522B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851653A (zh) * 2019-11-08 2020-02-28 上海摩象网络科技有限公司 一种拍摄素材标记的方法、装置、电子设备
CN116385074A (zh) * 2023-03-14 2023-07-04 深圳市秦丝科技有限公司 一种基于互联网的线上销售数据智能筛选管理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045909A1 (en) * 2004-08-30 2006-03-02 Colgate-Palmolive Company Genome-based diet design
CN102508870A (zh) * 2011-10-10 2012-06-20 南京大学 一种结合评分数据与标签数据的个性化推荐方法
CN103412948A (zh) * 2013-08-27 2013-11-27 北京交通大学 基于聚类的协同过滤的商品推荐方法及系统
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN105046535A (zh) * 2015-08-31 2015-11-11 刘申宁 一种基于行为预测的推荐方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045909A1 (en) * 2004-08-30 2006-03-02 Colgate-Palmolive Company Genome-based diet design
CN102508870A (zh) * 2011-10-10 2012-06-20 南京大学 一种结合评分数据与标签数据的个性化推荐方法
CN103412948A (zh) * 2013-08-27 2013-11-27 北京交通大学 基于聚类的协同过滤的商品推荐方法及系统
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN105046535A (zh) * 2015-08-31 2015-11-11 刘申宁 一种基于行为预测的推荐方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851653A (zh) * 2019-11-08 2020-02-28 上海摩象网络科技有限公司 一种拍摄素材标记的方法、装置、电子设备
CN116385074A (zh) * 2023-03-14 2023-07-04 深圳市秦丝科技有限公司 一种基于互联网的线上销售数据智能筛选管理系统及方法
CN116385074B (zh) * 2023-03-14 2023-10-24 深圳市秦丝科技有限公司 一种基于互联网的线上销售数据智能筛选管理系统及方法

Also Published As

Publication number Publication date
CN106250522B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN107862027B (zh) 检索意图识别方法、装置、电子设备及可读存储介质
US20170308756A1 (en) Systems and Methods for Identifying Activities in Media Contents Based on Prediction Confidences
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN109492101A (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN102193936A (zh) 一种数据分类的方法及装置
CN106339510A (zh) 基于人工智能的点击预估方法及装置
CN107423339A (zh) 基于极端梯度推进和随机森林的热门微博预测方法
CN109816469A (zh) 基于大数据的菜品推荐方法及服务器
CN108228820A (zh) 用户查询意图理解方法、系统及计算机终端
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN108108347B (zh) 对话模式分析系统及方法
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
US20190392295A1 (en) Information processing device, method, and program that use deep learning
CN106537387A (zh) 检索/存储与事件相关联的图像
CN111881671A (zh) 一种属性词提取方法
CN107807958A (zh) 一种文章列表个性化推荐方法、电子设备及存储介质
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN106484678A (zh) 一种短文本相似度计算方法及装置
CN109522487A (zh) 一种基于评论的餐厅个性化推荐方法
CN106250522A (zh) 一种基于高斯估计的在线餐饮主标签数据快速提取方法
CN108496185A (zh) 用于对象检测的系统和方法
CN107122378A (zh) 对象处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant