CN105608154B - 一种基于隐马尔科夫链模型的智能推荐算法 - Google Patents

一种基于隐马尔科夫链模型的智能推荐算法 Download PDF

Info

Publication number
CN105608154B
CN105608154B CN201510958239.4A CN201510958239A CN105608154B CN 105608154 B CN105608154 B CN 105608154B CN 201510958239 A CN201510958239 A CN 201510958239A CN 105608154 B CN105608154 B CN 105608154B
Authority
CN
China
Prior art keywords
document
probability
state
hidden markov
markov chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510958239.4A
Other languages
English (en)
Other versions
CN105608154A (zh
Inventor
陈力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wanglv Internet Technology Co Ltd
Original Assignee
Guangzhou Wanglv Internet Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wanglv Internet Technology Co Ltd filed Critical Guangzhou Wanglv Internet Technology Co Ltd
Priority to CN201510958239.4A priority Critical patent/CN105608154B/zh
Publication of CN105608154A publication Critical patent/CN105608154A/zh
Application granted granted Critical
Publication of CN105608154B publication Critical patent/CN105608154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于隐马尔科夫链模型的智能推荐算法,用于法律网的智能推荐系统上。包括步骤:针对文档特点,将信息增益率和相关度分别替代隐马尔科夫链模型中的状态的初始概率和状态转移概率;计算客户阅读第t篇文档时的部分概率;计算文档篇数t=n时每一篇文档的最优概率和最优文档序列,从所有最优概率中选择值最大的最优概率;记录下最优文档序列,即是推荐给客户的所有文档序列。本发明实施方案综合了信息增益率和隐马尔科夫链的优点,弥补了单使用隐马尔科夫链算法作为推荐算法时推荐偏向数量大的状态的缺点,以及求解参数是的复杂性缺点,在推荐算法中具有较大的实用性和较高的精准性。

Description

一种基于隐马尔科夫链模型的智能推荐算法
技术领域
本发明涉及智能推荐领域,特别涉及一种基于隐马尔科夫链模型的智能推荐算法。
背景技术
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载问题。
解决信息超载问题一个非常有潜力的办法是推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。和搜索引擎相比推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户对推荐产生依赖。
推荐系统现已广泛应用于很多领域,其中最典型并具有良好的发展和应用前景的领域就是电子商务领域。同时学术界对推荐系统的研究热度一直很高,逐步形成了一门独立的学科。
推荐系统有3个重要的模块分别为用户建模模块、推荐对象建模模块、推荐算法模块。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。推荐系统采用的推荐算法有多种,目前最常用的是组合推荐算法,各种算法都有优缺点,选择组合推荐算法可弥补或者避免单独推荐技术的弱点。
发明内容
基于此,针对上述现有技术,本发明的目的在于提供一种基于隐马尔科夫链模型的智能推荐算法,是综合了信息增益率和隐马尔科夫链的优点,弥补了单使用隐马尔科夫链算法作为推荐算法时推荐偏向数量大的状态的缺点,以及求解参数是的复杂性缺点。
为达到上述目的,本发明实施例采用以下方案:
针对文档特点,将信息增益率和相关度分别替代隐马尔科夫链模型中的状态的初始概率和状态转移概率;
计算客户阅读第t篇文档时的部分概率;
计算文档篇数t=n时每一篇文档的最优概率和最优文档序列,从所有最优概率中选择值最大的最优概率;
记录下最优文档序列,即是推荐给客户的所有文档序列。
根据上述本发明实施例的方案,将信息增益率和相关度分别替代了状态的初始概率和状态转移概率,然后结合常规HMM的算法步骤对信息属性进行分析得到多个同时与目标属性有强相关的属性,然后将其作出推荐。本方案综合了信息增益率和隐马尔科夫链的优点,弥补了单使用隐马尔科夫链算法作为推荐算法时推荐偏向数量大的状态的缺点,以及求解参数是的复杂性缺点,在推荐算法中具有较大的实用性和较高的精准性。
附图说明
图1是本发明实施例的基于隐马尔科夫链模型的智能推荐算法的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1中示出了一个实施例中的基于隐马尔科夫链模型的智能推荐算法的流程示意图,如图1所示,基于隐马尔科夫链模型的智能推荐算法包括如下步骤:
步骤S1:针对文档特点,将信息增益率和相关度分别替代隐马尔科夫链模型中的状态的初始概率和状态转移概率;
步骤S2:计算客户阅读第t篇文档时的部分概率;
步骤S3:计算文档篇数t=n时每一篇文档的最优概率和最优文档序列,从所有最优概率中选择值最大的最优概率;
步骤S4:记录下最优文档序列,即是推荐给客户的所有文档序列。
根据上述本发明实施例的方案,将信息增益率和相关度分别替代了状态的初始概率和状态转移概率,然后结合常规HMM的算法步骤对信息属性进行分析得到多个同时与目标属性有强相关的属性,然后将其作出推荐。本方案综合了信息增益率和隐马尔科夫链的优点,弥补了单使用隐马尔科夫链算法作为推荐算法时推荐偏向数量大的状态的缺点,以及求解参数是的复杂性缺点,在推荐算法中具有较大的实用性和较高的精准性。
在实施例中,上述步骤S1中,将信息增益率和相关度分别替代隐马尔科夫链模型中的状态的初始概率和状态转移概率可按如下方式进行:
隐马尔科夫链模型的主要思想是:隐马尔科夫链模型的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程,具有跟智能推荐类似的可以根据可观察状态的序列找到一个最可能的隐含状态序列的性质。隐马尔科夫链模型可以用五个元素来描述,包括可观测状态O、隐含状态S、初始状态概率矩阵π、隐含状态转移概率矩阵A、观测状态输出概率矩阵B。
信息增益率的主要思想是:在智能推荐系统中,一个状态出现是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之就大。故在信息论中,定义的不确定性函数
Figure 100002_DEST_PATH_IMAGE001
是概率P的单调递降函数,而两个独立状态所产生的不确定性应等于各自不确定性之和,即
Figure DEST_PATH_IMAGE002
,这称为可加性。同时满足这两个条件的函数
Figure 454292DEST_PATH_IMAGE001
是对数函数,即
Figure 100002_DEST_PATH_IMAGE003
。而信息熵便为基于该不确定性函数的期望,且在本文算法应用的推荐系统中,一个状态是一个独立的单元,故一个状态的信息熵为:
Figure DEST_PATH_IMAGE004
而所有状态的信息熵为:
Figure DEST_PATH_IMAGE005
则状态
Figure DEST_PATH_IMAGE006
的信息增益值为:
同由于在所应用的推荐系统中,一个状态是一个独立的单位,故状态的分裂信息等于
Figure DEST_PATH_IMAGE008
,则状态
Figure 772404DEST_PATH_IMAGE006
的信息增益率为:
Figure DEST_PATH_IMAGE009
将信息增益率融合在隐马尔科夫链模型中,以信息增益率代替隐马尔科夫链模型中隐含状态的初始概率。信息增益率本身就涵盖了初始状态概率,且信息增益率能更准确地将对整体而言重要的状态推出,而不是过分地将数量大的状态推出,一定程度上能比纯初始状态概率的代入使推荐的结果更精准。
在智能推荐系统中,状态的变换显然是跟相关度有很大联系的,且一般推荐算法也主要考虑的是关联规则,故本文所要提供的推荐算法中的隐马尔科夫链模型的隐含状态转移概率矩阵A便是相关度矩阵C。
上述步骤S2中,计算客户阅读第t篇文档时的部分概率可按如下方式进行:
步骤1:计算 t=1 时刻的部分概率
当阅读第t=1篇文档的时候,阅读的某篇文档的序列还不存在,根据2.3所述,这时可以直接使用某文档的信息增益率和它跟文档
Figure DEST_PATH_IMAGE010
的输出概率的积来表示这时候的部分概率:
Figure DEST_PATH_IMAGE011
步骤2:计算 t>1 时刻的部分概率
往下则可以根据第t-1篇的部分概率来求第t篇的部分概率。
如客户阅读的第t篇文档是文档
Figure DEST_PATH_IMAGE012
,而阅读的第t-1篇文档有多种可能,而现从这多种可能中找出最可能即概率最大的一篇,以此类推寻至第1篇文档。
由于推荐阅读的后一篇文档都与前一篇文档有关系,且发生的概率值依赖于前一篇文档,故可以利用阅读到第t-1篇文档时为止的所有文档的转移矩阵即相关度矩阵和输出矩阵得到第t篇文档为
Figure 132584DEST_PATH_IMAGE012
的概率:
将上面这个表达式推广,就可以得到客户点击阅读了文档
Figure 531336DEST_PATH_IMAGE010
,则往下阅读的第t篇文档是具有最大部分概率的文档
Figure 23497DEST_PATH_IMAGE006
的计算公式:
Figure DEST_PATH_IMAGE014
其中
Figure DEST_PATH_IMAGE015
表示的是文档
Figure DEST_PATH_IMAGE016
与文档
Figure 950608DEST_PATH_IMAGE006
的相关度,即文档阅读转移的依赖系数;表示的是文档
Figure 288049DEST_PATH_IMAGE006
出现,文档
Figure 744569DEST_PATH_IMAGE010
出现的概率,即输出概率。
上述步骤S3中,计算文档篇数t=n时每一篇文档的最优概率和最优文档序列可按如下方式进行:
最优概率是客户在阅读的第t篇文档是文档的所有可能文档序列中概率最大的文档序列的概率,记为
Figure DEST_PATH_IMAGE018
。显然阅读到的每一个文档都有对应的最优概率和最优文档序列。
上述步骤S4中,记录下最优文档序列可按如下方式进行:
在阅读的每一篇中间文档和结束文档都有一个部分最优概率。但是目的是找到最可能的隐藏文档序列,所以需要一个方法去记住部分最优文档序列的每一篇文档。
要计算第t篇文档的部分概率,只需要知道第t-1篇文档的部分概率,所以只需要记录那个导致了第t篇文档有最大部分概率的文档,也就是说,在阅读到任何一篇文档时,系统都必须处在一个能使下一篇文档具有最大部分概率的状态。则可以利用一个后向指针
Figure DEST_PATH_IMAGE019
来记录导致某篇文档具有最大局部概率的前一个状态,即:
Figure DEST_PATH_IMAGE020
其中argmax表示能最大化后面公式的j值。
以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (1)

1.一种基于隐马尔科夫链模型的智能推荐方法,其特征在于,包括步骤:
针对文档特点,将信息增益率和相关度分别替代隐马尔科夫链模型中的状态的初始概率和状态转移概率;
计算客户阅读第t篇文档时的部分概率;
计算文档篇数t=n时每一篇文档的最优概率和最优文档序列;
从所有最优概率中选择值最大的最优概率,记录下最优文档序列,即是推荐给客户的所有文档序列;
所述的基于隐马尔科夫链模型的智能推荐方法,将信息增益率和相关度分别替代状态的初始概率和状态转移概率的方式包括:
将信息增益率代替隐马尔科夫链模型中隐含状态的初始概率,信息增益率本身就涵盖了初始状态概率,且信息增益率能更准确地将对整体而言重要的状态推出,而不是过分地将数量大的状态推出,一定程度上能比纯初始状态概率的代入使推荐的结果更精准,
在智能推荐系统中,状态的变换显然是跟相关度有很大联系的,且一般推荐方法也主要考虑的是关联规则,故本方法所要提供的推荐方法中的隐马尔科夫链模型的隐含状态转移概率矩阵便是相关度矩阵;
所述的基于隐马尔科夫链模型的智能推荐方法,计算客户阅读第t篇文档时部分概率的方式包括:
部分概率是客户在阅读第t篇文档最可能是文档X的一条路径的概率,
当阅读第t=1篇文档时,阅读的某篇文档的序列还不存在,这时直接使用某文档的信息增益率和它跟文档
Figure DEST_PATH_IMAGE001
的输出概率的积来表示这时候的部分概率:
Figure 670343DEST_PATH_IMAGE002
当阅读t>1篇文档时,则根据第t-1篇的部分概率来求第t篇的部分概率,
客户点击阅读了文档
Figure DEST_PATH_IMAGE003
,则往下阅读的第t篇文档是具有最大部分概率的文档的计算公式:
Figure 287138DEST_PATH_IMAGE004
所述的基于隐马尔科夫链模型的智能推荐方法,计算文档篇数t=n时每一篇文档的最优概率和最优文档序列按如下方式进行:
最优概率是客户在阅读的第t篇文档是文档
Figure 528764DEST_PATH_IMAGE005
的所有可能文档序列中概率最大的文档序列的概率,记为
Figure 741570DEST_PATH_IMAGE006
,显然阅读到的每一个文档都有对应的最优概率和最优文档序列;
所述的基于隐马尔科夫链模型的智能推荐方法,记录下最优文档序列按如下方式进行:
在阅读的每一篇中间文档和结束文档都有一个部分最优概率
Figure 385041DEST_PATH_IMAGE007
,同时也需要一个方法去记住部分最优文档序列的每一篇文档,要计算第t篇文档的部分概率,只需要记录那个导致了第t篇文档有最大部分概率的文档,利用一个后向指针
Figure 907158DEST_PATH_IMAGE008
来记录导致某篇文档具有最大局部概率的前一个状态,即:
Figure 636080DEST_PATH_IMAGE009
CN201510958239.4A 2016-02-14 2016-02-14 一种基于隐马尔科夫链模型的智能推荐算法 Active CN105608154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510958239.4A CN105608154B (zh) 2016-02-14 2016-02-14 一种基于隐马尔科夫链模型的智能推荐算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958239.4A CN105608154B (zh) 2016-02-14 2016-02-14 一种基于隐马尔科夫链模型的智能推荐算法

Publications (2)

Publication Number Publication Date
CN105608154A CN105608154A (zh) 2016-05-25
CN105608154B true CN105608154B (zh) 2019-10-15

Family

ID=55988094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958239.4A Active CN105608154B (zh) 2016-02-14 2016-02-14 一种基于隐马尔科夫链模型的智能推荐算法

Country Status (1)

Country Link
CN (1) CN105608154B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339505B (zh) * 2016-09-27 2019-09-27 电子科技大学 一种基于马氏链的音乐推荐方法
CN108170680A (zh) * 2017-12-29 2018-06-15 厦门市美亚柏科信息股份有限公司 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质
CN108363681B (zh) * 2018-03-06 2023-01-31 艾凯克斯(嘉兴)信息科技有限公司 一种基于马尔可夫假设的零部件标准规格推荐方法
CN112380449B (zh) * 2020-12-03 2021-11-23 腾讯科技(深圳)有限公司 信息推荐方法、模型训练方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154591A (ja) * 2010-01-28 2011-08-11 Nec Corp リコメンド装置、方法、及び、プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Automatic Collecting Representative Logo Images from the Internet;Xiaobing Liu 等;《TSINGHUA SCIENCE AND TECHNOLOGY》;20131231;全文 *
基于信息增益率的决策树对入侵检测的改进;唐 谦 等;《计 算 机 工 程》;20060429;第32卷(第7期);全文 *
基于隐马尔科夫模型的文本分类;刘晓飞 等;《石家庄铁道大学学报( 自然科学版)》;20130330(第 1 期);全文 *

Also Published As

Publication number Publication date
CN105608154A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN105608154B (zh) 一种基于隐马尔科夫链模型的智能推荐算法
CN104935963B (zh) 一种基于时序数据挖掘的视频推荐方法
CN104462560B (zh) 一种个性化推荐系统的推荐方法
CN111291261B (zh) 融合标签和注意力机制的跨领域推荐方法及其实现系统
CN103455515B (zh) Sns社区中的用户推荐方法和系统
CN108563690B (zh) 一种基于面向对象聚类的协同过滤推荐方法
CN107220365A (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
CN103886001A (zh) 一种个性化商品推荐系统
CN106096047B (zh) 基于熵值法的用户分区偏好计算方法及系统
CN108038746A (zh) 基于关键用户和时间上下文的二部图推荐方法
CN103440341A (zh) 信息推荐方法及装置
CN103500228A (zh) 一种协同过滤推荐算法中改进的相似性度量方法
CN105426550A (zh) 一种基于用户质量模型的协同过滤标签推荐方法及系统
CN107277115A (zh) 一种内容推送方法及装置
WO2015175835A1 (en) Click through ratio estimation model
CN105718951A (zh) 用户相似度的估算方法及估算系统
CN106570031A (zh) 一种业务对象的推荐方法和装置
CN105338408A (zh) 基于时间因子的视频推荐方法
CN103337028A (zh) 一种推荐方法、装置
Ottenstreuer et al. A combined Shewhart-CUSUM chart with switching limit
JP6760084B2 (ja) 分析用情報表示システム、方法およびプログラム
CN115577991B (zh) 一种基于大数据的商业智能数据分析系统及分析方法
Huang et al. Prediction of categorical spatial data via Bayesian updating
Mosley et al. Sparse temporal disaggregation
AU2008362223A1 (en) Double weighted correlation scheme

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 510630 209, 210, No. 235, Gaotang Road, Tianhe District, Guangzhou, Guangdong Province

Patentee after: GUANGZHOU WANGLV INTERNET TECHNOLOGY Co.,Ltd.

Address before: 510630, Guangdong, Tianhe District Tianhe Software Park, Gaotang New District, Guangzhou Internet industry park, building 1, second floor, A201 and C201 room,

Patentee before: GUANGZHOU WANGLV INTERNET TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An intelligent recommendation algorithm based on hidden markov chain model

Effective date of registration: 20221129

Granted publication date: 20191015

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Tianhe branch

Pledgor: GUANGZHOU WANGLV INTERNET TECHNOLOGY Co.,Ltd.

Registration number: Y2022980024052

PE01 Entry into force of the registration of the contract for pledge of patent right