CN107133730A - 一种基于潜在狄利克雷分配模型的潜在特征提取方法 - Google Patents

一种基于潜在狄利克雷分配模型的潜在特征提取方法 Download PDF

Info

Publication number
CN107133730A
CN107133730A CN201710273587.7A CN201710273587A CN107133730A CN 107133730 A CN107133730 A CN 107133730A CN 201710273587 A CN201710273587 A CN 201710273587A CN 107133730 A CN107133730 A CN 107133730A
Authority
CN
China
Prior art keywords
label
commodity
mrow
potential
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710273587.7A
Other languages
English (en)
Inventor
王宝亮
王宇琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710273587.7A priority Critical patent/CN107133730A/zh
Publication of CN107133730A publication Critical patent/CN107133730A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于潜在狄利克雷分配模型的隐特征提取方法,包括:选取一段时间内用户对商品的评分及对这些商品的标签,用户好友关系信息和用户的自身特性作为数据集;从数据集提取出不同用户对同一商品的标签置于同一商品下,并且按商品热度由零开始将数据集重新排列;为潜在狄利克雷分配模型向量赋初始值;针对一个特定商品的标签集合中的标签,得到其出现概率;得到其潜在特征;更新参数;利用Gibbs Sampling通过求解出主题分布和词分布的后验分布,完成一次迭代;重复执行迭代步骤,对每个标签按照Gibbs Sampling公式重新采样得到潜在特征,在标签库中更新,此收敛值即为潜在狄利克雷分配模型的最终输出值。

Description

一种基于潜在狄利克雷分配模型的潜在特征提取方法
技术领域
本发明涉及一种用于推荐系统的特征提取方法。
背景技术
随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己需要的商品。这种浏览大量无关信息和产品的过程,无疑会使消费者淹没在信息过载问题中,从而不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐是根据用户的特点和行为,向用户推荐其感兴趣的信息和商品。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
目前,推荐系统有着非常广泛的应用,除了亚马逊,淘宝等电商网站,如今日头条的新闻推荐,云 OS的手机app推荐,网易云音乐的音乐推荐,以及其他很多应用场景中,都使用到了推荐系统。
个性化推荐系统中,当用户到来之后,推荐系统需要为用户生成特征,然后对每个特征找到有相似特征的物品,从而最终生成用户的推荐列表。因而,推荐系统的核心任务就被拆分成两部分,一个是如何为给定的用户生成特征,另一个是如何提取出已知商品的特征,进而实现用户与商品的特征匹配,完成推荐。
发明内容
本发明提供一种用于推荐系统的特征提取方法。本发明将潜在狄利克雷分配模型运用到推荐算法中,将用户对商品所打的标签、购买记录构成商品的向量,进而运用潜在狄利克雷分配模型提取商品的潜在特征。技术方案如下:
一种基于潜在狄利克雷分配模型的隐特征提取方法,包括下列步骤:
(1)选取一段时间内用户对商品的评分,以及这些用户对这些商品的标签,用户好友关系信息和用户的自身特性作为数据集;
(2)从数据集提取出不同用户对同一商品的标签置于同一商品下,并且按商品热度由零开始将数据集重新排列,重新定义商品ID;
(3)随机地为潜在狄利克雷分配模型向量θd赋初始值,参数θd的含义为标签集合中的每个标签集合d,对应不同潜在特征的概率θd<pt1,pt2,...pti,...pt25>,其中,pti表示d对应潜在特征集T中第i 个潜在特征的概率,参数的含义为对每个潜在特征集T中的潜在特征t,生成不同标签的概率其中,pwi表示t第i个标签的概率;
(4)针对一个特定商品的标签集合ds中的第i个标签wi,令该标签对应的潜在特征为tj,得到标签集合的中出现标签wi的概率;
(5)枚举T中的潜在特征,得到所有的pj(wj|ds),即在标签集合ds中出现第j个标签wj的概率;然后可以根据这些概率值结果,取令pj(wi|ds)最大的tj为ds中的第i个标签wi为其潜在特征;
(6)如果ds中的第i个标签wj此时选择了一个与原先不同的潜在特征,根据向量θd的计算公式,会对θd产生反馈,更新参数,迭代公式如下:
然后将θd带入Gibbs Sampling公式中,通过求解出主题分布和词分布的后验分布,从而成功解决主题分布和词分布这两参数未知的问题,完成一次迭代;
其中,αk与βt分别为未知的主题分布超参数和词分布超参数,Gibbs Sampling;
(7)重复执行(4)-(6)步骤,对每个标签按照Gibbs Sampling公式重新采样得到潜在特征,在标签库中更新,直到Gibbs Sampling输出收敛,此收敛值即为潜在狄利克雷分配模型的最终输出值。
在推荐系统中,若直接利用商品的显性特征,存在一词多义和一义多词的问题。若采用基础的概率潜在语义分析模型,其参数个数会随着文本数的增加而线性增长,且易出现过拟合,效果较差。但将潜在狄利克雷分配模型运用到推荐系统中处理商品数据集,对数据集中的商品标签进行清洗后,潜在狄利克雷分配模型可以准确提取出商品的潜在特征,解决上述两种方法的问题,从而为用户进行准确的推荐。有益效果如下:
1.本专利提出的基于潜在狄利克雷分配模型的潜在特征提取方法,将原本用于文本隐形语义分析、提取主题的潜在狄利克雷分配模型用于推荐系统的潜在特征提取中,从而获得更加准确、维度极低的商品特征。
2.推荐系统算法的构造者在构造算法的时候,可以根据本专利提出的基于潜在狄利克雷分配模型的潜在特征提取方法来提取商品潜在特征,提升推荐性能。
附图说明
图1为本发明的程序流程图。
具体实施方式
推荐系统的目的是为用户进行有效的推荐,而决定其性能的关键之一便是准确提取出商品的特征。传统的特征向量空间模型使用精确的词匹配,即精确匹配用户特征向量空间与商品特征向量空间中存在的词。由于一词多义和一义多词的存在,使得该模型无法提供给用户语义层面的检索。而潜在语义分析,就是要找出词即特征的真正含义,也就是潜在语义,相比传统向量空间,潜在语义空间的维度更小,语义关系更明确,从而解决了传统的特征向量空间模型存在的问题。
潜在狄利克雷分配模型原本用于对文本进行隐形语义分析,从中提取潜在主题,其本质是将一篇文章看做一个由单词组成的很长的向量,进而压缩这一长向量,提取真正能代表这篇文章的潜在主题。
方案整体示意图如图(1),具体步骤如下:
1定义一些字母的含义
(1)d:全部用户对某一个商品所打标签的集合,数据集中表现为一组单词的集合。
(2)D:数据集中,全部d集合构成的商品标签集合。
(3)wi:集合D中,将每个商品的标签集合d看作一个单词序列<w1,w2,...wi,...,wn>,wi表示第i 个单词,即第i个标签,设d有n个标签单词。在潜在狄利克雷分配模型中,将d称之为word bag,每个单词出现的位置对潜在狄利克雷分配模型无影响。
(4)T:潜在特征的集合,本专利中将T的维度设置为25,即每个商品的显性特征经潜在狄利克雷分配模型处理后,输出25个隐性特征。
(5)VOC:集合D中涉及到的所有不同的标签组成一个大集合VOCABULARY(简称VOC)。
2数据集预处理
本专利选取一段时间内用户对商品的评分,以及这些用户对这些商品的评分,用户好友关系信息和用户的自身特性作为数据集,进行潜在特征提取。数据集中,用户对商品所打标签用词极不规范,如将两词连写为一词,词性不同但词根相同,无意义的乱码等,因此首先要遍历标签单词,对不规范单词进行相应的切词、取词干、停用等。同时,不同用户对同一商品所打标签是互相独立放置的,因此还要将数据库按用户遍历一次,提取出不同用户对同一商品的标签置于该商品下。此外,按商品热度由零开始将数据集重新排列,重新定义商品ID。
3潜在狄利克雷分配模型向量θd赋初始值
潜在狄利克雷分配模型开始时,先随机地给向量θd赋值。参数θd的含义如下:
(1)参数θd:D中的每个标签集合d,对应不同潜在特征的概率θd<pt1,pt2,...pti,...pt25>,其中,pti表示d对应T中第i个潜在特征的概率。计算方法很直观,pti=nti/n,其中nti表示d中对应第i个潜在特征的数目,n是d中标签总数。
(2)参数对每个T中的潜在特征t,生成不同标签的概率其中,pwi表示t生成VOC中第i个标签的概率。计算方法同样很直观,pwi=Nwi/N,其中Nwi表示对应到潜在特征t的VOC中第i个标签的数目,N表示所有对应到潜在特征t的单词总数。
4计算标签集合d中出现标签w的概率
针对一个特定商品的标签集合ds中的第i个标签wi,如果令该标签对应的潜在特征为tj,则可得到公式如下:
pj(wi|ds)=p(wi|tj)*p(wj|ds)
如公式所示,以潜在特征作为中间层,通过当前的θd给出标签集合ds中出现标签wi的概率。其中p(wj|ds)利用θd计算得到,p(wi|tj)利用计算得到。换言之,利用当前的θd可以为一个商品的标签集合d中的一个标签计算它对应任意一个潜在特征时的pj(wi|ds),然后根据这些结果来更新这个标签应该对应的潜在特征。
5计算标签集合ds中标签wi对应的潜在特征
经过以上计算后,可以枚举出T中的潜在特征,得到所有的pj(wj|ds)。然后可以根据这些概率值结果,取令pj(wi|ds)最大的tj为ds中的第i个标签wi为其潜在特征。
6更新参数θd并根据Gibbs Sampling公式采样
如果ds中的第i个标签wj此时选择了一个与原先不同的潜在特征,根据向量θd的计算公式可知,就会对θd产生反馈,更新参数。迭代公式如下:
其中,α与β分别为未知的主题分布超参数和词分布超参数,可通过后续的GibbsSampling采样公式求得。
然后将θd带入Gibbs Sampling公式中,可得:
仔细观察上述结果,可以发现,式子的右半部分便是5.4节中的p(wi|tj)*p(wj|ds),这个概率的值对应着从标签集到潜在特征再到标签的路径概率。如此,K个潜在特征对应着K条路径,Gibbs Sampling 便在这K条路径中进行采样。
这样,Gibbs Sampling通过求解出主题分布和词分布的后验分布,从而成功解决主题分布和词分布这两参数未知的问题,完成一次迭代。
7得到商品潜在特征
重复执行4到.6的步骤,对每个标签按照Gibbs Sampling公式重新采样它的潜在特征,在标签库中更新,知道Gibbs Sampling收敛,此收敛值即为潜在狄利克雷分配模型的最终输出值。
利用潜在狄利克雷分配模型提取对象的潜在特征时,应该根据推荐系统应用场景的变换,以及所采用的不同数据集的特点,对数据集进行适当的预处理,降低潜在狄利克雷分配模型的输入噪声,有利于获得准确的输出。除技术方案中的操作之外,应当根据实际应用场景,适当限制潜在狄利克雷分配模型的迭代次数,保证有效性的同时,适当降低模型的复杂度,从而获得更好的推荐效果。

Claims (1)

1.一种基于潜在狄利克雷分配模型的隐特征提取方法,包括下列步骤:
(1)选取一段时间内用户对商品的评分,以及这些用户对这些商品的标签,用户好友关系信息和用户的自身特性作为数据集;
(2)从数据集提取出不同用户对同一商品的标签置于同一商品下,并且按商品热度由零开始将数据集重新排列,重新定义商品ID;
(3)随机地为潜在狄利克雷分配模型向量θd赋初始值,参数θd的含义为标签集合中的每个标签集合d,对应不同潜在特征的概率θd<pt1,pt2,...pti,...pt25>,其中,pti表示d对应潜在特征集T中第i个潜在特征的概率,参数的含义为对每个潜在特征集T中的潜在特征t,生成不同标签的概率其中,pwi表示t第i个标签的概率;
(4)针对一个特定商品的标签集合ds中的第i个标签wi,令该标签对应的潜在特征为tj,得到标签集合的中出现标签wi的概率;
(5)枚举T中的潜在特征,得到所有的pj(wj|ds),即在标签集合ds中出现第j个标签wj的概率;然后可以根据这些概率值结果,取令pj(wi|ds)最大的tj为ds中的第i个标签wi为其潜在特征;
(6)如果ds中的第i个标签wj此时选择了一个与原先不同的潜在特征,根据向量θd的计算公式,会对θd产生反馈,更新参数,迭代公式如下:
<mrow> <msub> <mi>&amp;theta;</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>n</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msub> <mi>&amp;alpha;</mi> <mi>k</mi> </msub> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msubsup> <mi>n</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msub> <mi>&amp;alpha;</mi> <mi>k</mi> </msub> </mrow> </mfrac> </mrow>
然后将θd带入Gibbs Sampling公式中,通过求解出主题分布和词分布的后验分布,从而成功解决主题分布和词分布这两参数未知的问题,完成一次迭代;
其中,αk与βt分别为未知的主题分布超参数和词分布超参数,Gibbs Sampling;
(7)重复执行(4)-(6)步骤,对每个标签按照Gibbs Sampling公式重新采样得到潜在特征,在标签库中更新,直到Gibbs Sampling输出收敛,此收敛值即为潜在狄利克雷分配模型的最终输出值。
CN201710273587.7A 2017-04-24 2017-04-24 一种基于潜在狄利克雷分配模型的潜在特征提取方法 Pending CN107133730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710273587.7A CN107133730A (zh) 2017-04-24 2017-04-24 一种基于潜在狄利克雷分配模型的潜在特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710273587.7A CN107133730A (zh) 2017-04-24 2017-04-24 一种基于潜在狄利克雷分配模型的潜在特征提取方法

Publications (1)

Publication Number Publication Date
CN107133730A true CN107133730A (zh) 2017-09-05

Family

ID=59716494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710273587.7A Pending CN107133730A (zh) 2017-04-24 2017-04-24 一种基于潜在狄利克雷分配模型的潜在特征提取方法

Country Status (1)

Country Link
CN (1) CN107133730A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427749A (zh) * 2018-03-12 2018-08-21 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
CN112860989A (zh) * 2021-01-20 2021-05-28 平安科技(深圳)有限公司 课程推荐方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886067A (zh) * 2014-03-20 2014-06-25 浙江大学 使用标签隐含主题进行图书推荐的方法
CN105608166A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种标签提取方法及装置
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN105740444A (zh) * 2016-02-02 2016-07-06 桂林电子科技大学 基于用户评分的项目推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886067A (zh) * 2014-03-20 2014-06-25 浙江大学 使用标签隐含主题进行图书推荐的方法
CN105608166A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种标签提取方法及装置
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN105740444A (zh) * 2016-02-02 2016-07-06 桂林电子科技大学 基于用户评分的项目推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘英: "基于用户评论的个性化产品推荐系统", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427749A (zh) * 2018-03-12 2018-08-21 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
CN108427749B (zh) * 2018-03-12 2021-06-18 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
CN112860989A (zh) * 2021-01-20 2021-05-28 平安科技(深圳)有限公司 课程推荐方法、装置、计算机设备及存储介质
CN112860989B (zh) * 2021-01-20 2022-02-01 平安科技(深圳)有限公司 课程推荐方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
US10410138B2 (en) System and method for automatic generation of features from datasets for use in an automated machine learning process
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN111784455A (zh) 一种物品推荐方法及推荐设备
CN105574067A (zh) 项目推荐装置以及项目推荐方法
CN110874439A (zh) 一种基于评论信息的推荐方法
JP6509718B2 (ja) 文書分類装置、文書分類方法、及び文書分類プログラム
CN106326351A (zh) 一种基于用户反馈的推荐系统冷启动解决方法
KR102412158B1 (ko) 오픈마켓에서의 시장점유율 확대를 위한 키워드 추출 및 분석 방법
CN107918778A (zh) 一种信息匹配方法及相关装置
CN111046170A (zh) 用于输出信息的方法和装置
CN106708871A (zh) 一种社交业务特征用户的识别方法和装置
CN111353838A (zh) 自动化校验商品类目的方法和装置
Borna et al. Hierarchical LSTM network for text classification
CN115374845A (zh) 商品信息推理方法和装置
CN115187345A (zh) 智能家居建材推荐方法、装置、设备及存储介质
CN107133730A (zh) 一种基于潜在狄利克雷分配模型的潜在特征提取方法
CN115374259A (zh) 一种问答数据挖掘方法、装置及电子设备
Wu Creative painting with latent diffusion models
CN116821516B (zh) 资源推荐方法、装置、设备及存储介质
Fersellia et al. Sentiment analysis of shopee food application user satisfaction using the c4. 5 decision tree method
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN114818651A (zh) 文本相似度的确定方法、装置、存储介质及电子装置
CN111310459A (zh) 机器学习组件的训练方法及装置、中文分词方法及装置
CN110852094A (zh) 检索目标的方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905

RJ01 Rejection of invention patent application after publication