CN103678329B - 推荐方法及装置 - Google Patents

推荐方法及装置 Download PDF

Info

Publication number
CN103678329B
CN103678329B CN201210322688.6A CN201210322688A CN103678329B CN 103678329 B CN103678329 B CN 103678329B CN 201210322688 A CN201210322688 A CN 201210322688A CN 103678329 B CN103678329 B CN 103678329B
Authority
CN
China
Prior art keywords
item
information
user
comment
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210322688.6A
Other languages
English (en)
Other versions
CN103678329A (zh
Inventor
丁贵广
叶小伟
林运桢
文海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
ZTE Corp
Original Assignee
Tsinghua University
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, ZTE Corp filed Critical Tsinghua University
Priority to CN201210322688.6A priority Critical patent/CN103678329B/zh
Publication of CN103678329A publication Critical patent/CN103678329A/zh
Application granted granted Critical
Publication of CN103678329B publication Critical patent/CN103678329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种推荐方法及装置,该方法包括:获取项的信息,其中,该信息用于判断是否向用户推荐该项,该信息包括以下至少之一:用户侧信息、项的相关性信息,用户侧信息包括获取到的用户对于项的评论,项的相关性信息包括以下至少之一:项本身的特性、项与除该项之外的其它项之间的相关性;根据上述信息确定是否将上述项推荐给用户。通过本发明,引入了迁移学习的方法,增加了推荐可以利用的数据,即项的信息,根据该信息判断是否向用户推荐该项,用户侧信息缓解了数据的不确定性,项的相关性信息改善了数据的稀疏性,从而提高了推荐结果的准确性。

Description

推荐方法及装置
技术领域
本发明涉及计算机数据处理领域,具体而言,涉及一种推荐方法及装置。
背景技术
随着多媒体业务以及电子商务的蓬勃发展,很多公司都积累了大量的用户数据,如何利用这些数据找出用户的使用倾向成为商家的迫切需求;同时,作为普通用户,如何从海量数据当中找出自己最需要的内容,也成为用户的急切需要。这些原因成为推动推荐技术发展的主要助力。而无论对于企业还是用户而言,对每个用户产生针对其使用特点的个性化推荐远远优于给所有用户同样的推荐内容。因此,个性化推荐成为推荐技术的主要发展方向。
协同过滤推荐技术已经成为个性化推荐领域的主流技术,其原理是根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,然后再基于这些关联性进行推荐。
在交互电视(Interactive Personality TV,简称为IPTV)领域,用户的偏好信息主要来自于用户的浏览数据,利用这些数据我们可以构建虚拟打分矩阵,然后在此基础上使用协同过滤技术帮助用户进行个性化推荐。图1是根据相关技术的IPTV推荐方法的流程图,如图1所示,包括如下步骤:
步骤S102,从原始数据库中获取相关的浏览数据进行预处理。
步骤S104,根据浏览数据构建用户视频评分矩阵。
步骤S106,使用协同过滤算法帮助用户协同推荐。
然而用户因为各自喜好的不同,观看的视频数量是极其有限的,因此用户的浏览数据是具备稀疏性的;同时用户受主观情绪的影响,观看视频的行为具有一定程度的随机性,对视频的直接评价也具备不确定性,从而会导致虚拟打分矩阵的可靠性较低,因而完全依赖虚拟打分矩阵的传统方法的准确性也较低。
发明内容
本发明提供了一种推荐方法及装置,以至少解决相关技术中,协同过滤推荐技术的数据集具有稀疏性和随机性,导致推荐结果不能令人满意的问题。
根据本发明的一个方面,提供了一种推荐方法,包括:获取项的信息,其中,该信息用于判断是否向用户推荐该项,该信息包括以下至少之一:用户侧信息、项的相关性信息,用户侧信息包括获取到的用户对于项的评论,项的相关性信息包括以下至少之一:项本身的特性、项与除该项之外的其它项之间的相关性;根据上述信息确定是否将上述项推荐给用户。
优选地,获取用户侧信息包括:根据用户对项的评论和情感元素集合确定评论的分类,作为用户侧信息,其中,情感元素集合包括以下至少之一:词语、表情符号,分类包括:正评论、负评论。
优选地,根据用户对项的评论和情感元素集合确定评论的分类包括:将评论分割成短句,根据情感元素集合分别计算各个短句的得分;将各个短句的得分之和作为评论的得分,并根据评论的得分确定评论的分类。
优选地,在根据用户对项的评论和情感元素集合确定评论的分类之后,上述方法还包括:调整用户的所有评论的分类的比例,实现正评论数目与负评论数目相同;根据调整后得到的正评论和负评论,迭代更新情感元素集合。
优选地,在迭代更新情感元素集合之后,上述方法还包括:通过线性核心的支撑向量机对迭代更新过的情感元素集合进行学习;利用词频-逆向文件频率TF-IDF计算方法计算情感元素集合中每个特征的权重。
优选地,对于交互电视IPTV业务,项是视频,获取项的相关性信息包括:根据视频的画面色彩、亮度对视频进行镜头切分;选取各个镜头的关键帧;提取各个镜头的关键帧的边缘直方图,得到各个关键帧的特征向量;计算各个关键帧的特征向量间的距离,作为项的相关性信息。
优选地,在根据视频的画面色彩、亮度对视频进行镜头切分之前,上述方法还包括:对视频进行合并、转码处理。
优选地,上述信息还包括:评分矩阵、评分矩阵的权值矩阵,获取权值矩阵包括:将评分矩阵分解成两个秩较低的矩阵;计算两个秩较低的矩阵的乘积,并将乘积对评分矩阵逼近;根据两个秩较低的矩阵的特征向量对评分矩阵中的丢失项构造权值,并构造权值矩阵。
优选地,用户侧信息和项的相关性信息是矩阵的形式。
优选地,根据信息确定是否将项推荐给用户包括:对用户侧信息、项的相关性信息进行分解,确定用户侧特征矩阵和项侧特征矩阵;对用户侧特征矩阵和项侧特征矩阵进行迭代,使用户侧特征矩阵和项侧特征矩阵的乘积逼近评分矩阵;将乘积中对应于评分矩阵的丢失项的较高分值的项推荐给用户。
根据本发明的另一个方面,提供了一种推荐装置,包括:获取模块,用于获取项的信息,其中,该信息用于判断是否向用户推荐该项,该信息包括以下至少之一:用户侧信息、项的相关性信息,用户侧信息包括获取到的用户对于项的评论,项的相关性信息包括以下至少之一:项本身的特性、项与除该项之外的其它项之间的相关性;确定模块,用于根据上述信息确定是否将上述项推荐给用户。
通过本发明,引入了迁移学习的方法,增加了推荐可以利用的数据,即项的信息,根据该信息判断是否向用户推荐该项,用户侧信息缓解了数据的不确定性,项的相关性信息改善了数据的稀疏性,从而提高了推荐结果的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据相关技术的IPTV推荐方法的流程图;
图2是根据本发明实施例的推荐方法的流程图;
图3是根据本发明实施例的推荐装置的结构框图;
图4是根据本发明优选实施例的IPTV推荐方法的示意图;
图5是根据本发明优选实施例的情感分析的流程图;
图6是根据本发明优选实施例的视频分析的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明实施例提供了一种推荐方法,图2是根据本发明实施例的推荐方法的流程图,如图2所示,该方法包括如下的步骤S202至步骤S204。
步骤S202,获取项的信息,其中,该信息用于判断是否向用户推荐该项,该信息包括以下至少之一:用户侧信息、项的相关性信息,用户侧信息包括获取到的用户对于项的评论,项的相关性信息包括以下至少之一:项本身的特性、项与除该项之外的其它项之间的相关性。
步骤S204,根据上述信息确定是否将上述项推荐给用户。
相关技术中,协同过滤推荐技术的数据集具有稀疏性和随机性,导致推荐结果不能令人满意。本发明实施例中,引入了迁移学习的方法,增加了推荐可以利用的数据,即项的信息,根据该信息判断是否向用户推荐该项,用户侧信息缓解了数据的不确定性,项的相关性信息改善了数据的稀疏性,从而提高了推荐结果的准确性。
优选地,用户侧信息和项的相关性信息是矩阵的形式。
步骤S202中,获取用户侧信息包括:根据用户对项的评论和情感元素集合确定评论的分类,作为用户侧信息,其中,情感元素集合包括以下至少之一:词语、表情符号,分类包括:正评论、负评论。
根据用户对项的评论和情感元素集合确定评论的分类包括:将评论分割成短句,根据情感元素集合分别计算各个短句的得分;将各个短句的得分之和作为评论的得分,并根据评论的得分确定评论的分类。分割成短句,较容易与情感元素集合中的元素匹配,根据各短句的得分,确定评论的分类,结果较为准确。
在根据用户对项的评论和情感元素集合确定评论的分类之后,上述方法还包括:调整用户的所有评论的分类的比例,实现正评论数目与负评论数目相同;根据调整后得到的正评论和负评论,迭代更新情感元素集合。本优选实施例中,将每次迭代后得到的正负评论调整为相同的数目,是为了符合下一次训练的要求,在实际应用中,可以将正评论或者负评论中数目较多的那一方,丢掉部分,来实现此目的。
在迭代更新情感元素集合之后,上述方法还包括:通过线性核心的支撑向量机对迭代更新过的情感元素集合进行学习;利用TFIDF计算方法计算情感元素集合中每个特征的权重。本优选实施例属于半监督情感分类模型,可以进一步保证计算的准确性。
对于IPTV业务,项是视频,步骤S202中,获取项的相关性信息包括:根据视频的画面色彩、亮度对视频进行镜头切分;选取各个镜头的关键帧;提取各个镜头的关键帧的边缘直方图,得到各个关键帧的特征向量;计算各个关键帧的特征向量间的距离,作为项的相关性信息。优选地,在根据视频的画面色彩、亮度对视频进行镜头切分之前,上述方法还包括:对视频进行合并、转码处理。本优选实施例中,使用视频关键帧分析技术来帮助计算视觉特征相关性,缓解了数据的稀疏性。
上述信息还可以包括:评分矩阵、评分矩阵的权值矩阵,此时,步骤S202还需要获取权值矩阵,可以通过以下步骤实现:将评分矩阵分解成两个秩较低的矩阵;计算两个秩较低的矩阵的乘积,并将乘积对评分矩阵逼近;根据两个秩较低的矩阵的特征向量对评分矩阵中的丢失项构造权值,并构造权值矩阵。本优选实施例中,为用户对项的评分矩阵中的丢失项赋予了细化的权值,可以通过计算一个较接近实际情况的数值去填充原评分矩阵,而不是估计一个值去填充,提高了推荐的准确性。
步骤S204包括:对用户侧信息、项的相关性信息进行分解,确定用户侧特征矩阵和项侧特征矩阵;对用户侧特征矩阵和项侧特征矩阵进行迭代,使用户侧特征矩阵和项侧特征矩阵的乘积逼近评分矩阵;将乘积中对应于评分矩阵的丢失项的较高分值的项推荐给用户。
本发明实施例还提供了一种推荐装置,该推荐装置可以用于实现上述推荐方法。图3是根据本发明实施例的推荐装置的结构框图,如图3所示,包括获取模块32和确定模块34。下面对其进行详细描述。
获取模块32,用于获取项的信息,其中,信息用于判断是否向用户推荐项,信息包括以下至少之一:用户侧信息、项的相关性信息,用户侧信息包括获取到的用户对于项的评论,项的相关性信息包括以下至少之一:项本身的特性、项与除项之外的其它项之间的相关性;确定模块34,连接至获取模块32,用于根据获取模块32获取的信息确定是否将项推荐给用户。
相关技术中,协同过滤推荐技术的数据集具有稀疏性和随机性,导致推荐结果不能令人满意。本发明实施例中,引入了迁移学习的方法,增加了推荐可以利用的数据,即项的信息,根据该信息判断是否向用户推荐该项,用户侧信息缓解了数据的不确定性,项的相关性信息改善了数据的稀疏性,从而提高了推荐结果的准确性。
获取模块32(获取用户侧信息)包括:确定单元,用于根据用户对项的评论和情感元素集合确定评论的分类,作为用户侧信息,其中,情感元素集合包括以下至少之一:词语、表情符号,分类包括:正评论、负评论。
确定单元包括:分割子单元,用于将评论分割成短句;计算子单元,用于根据情感元素集合分别计算各个短句的得分;确定子单元,用于将各个短句的得分之和作为评论的得分,并根据评论的得分确定评论的分类。
获取模块32还包括:调整单元,用于调整用户的所有评论的分类的比例,实现正评论数目与负评论数目相同;迭代更新单元,用于根据调整后得到的正评论和负评论,迭代更新情感元素集合;学习单元,用于通过线性核心的支撑向量机对迭代更新过的情感元素集合进行学习;第一计算单元,用于利用TFIDF计算方法计算情感元素集合中每个特征的权重。
对于IPTV业务,项是视频,获取模块32(获取项的相关性信息)包括:处理单元,用于对视频进行合并、转码处理;镜头切分单元,用于根据视频的画面色彩、亮度对视频进行镜头切分;选取单元,用于选取各个镜头的关键帧;提取单元,用于提取各个镜头的关键帧的边缘直方图,得到各个关键帧的特征向量;第二计算单元,用于计算各个关键帧的特征向量间的距离,作为项的相关性信息。
上述项的信息还包括:评分矩阵、评分矩阵的权值矩阵,获取模块32还用于获取权值矩阵,包括:分解单元,用于将评分矩阵分解成两个秩较低的矩阵;第三计算单元,用于计算两个秩较低的矩阵的乘积,并将乘积对评分矩阵逼近;构造单元,用于根据两个秩较低的矩阵的特征向量对评分矩阵中的丢失项构造权值,并构造权值矩阵。
优选地,用户侧信息和项的相关性信息是矩阵的形式。
确定模块34包括:分解单元,用于对用户侧信息、项的相关性信息进行分解;第一确定单元,用于确定用户侧特征矩阵和项侧特征矩阵;迭代单元,用于对用户侧特征矩阵和项侧特征矩阵进行迭代,使用户侧特征矩阵和项侧特征矩阵的乘积逼近评分矩阵;第二确定单元,用于将乘积中对应于评分矩阵的丢失项的较高分值的项推荐给用户。
需要说明的是,装置实施例中描述的推荐装置对应于上述的方法实施例,其具体的实现过程在方法实施例中已经进行过详细说明,在此不再赘述。
在另外一个优选实施例中,上述推荐装置还可以采用以下模块来实现:
情感分析模块(实现了上述获取模块32的部分功能),该模块使用自监督情感分类算法——基于字典和语料库的自监督模型(SElf-SupervisedLexicon-based andCorpus-basedModel,简称为SELC)米帮助评论信息分类打分。该模块的输入是用户对某一个项的评论信息,输出是该条评论的情感分类,作为用户侧辅助评分的数据使用。该模块定义为用户侧辅助矩阵构建模块。
视频分析模块(实现了上述获取模块32的部分功能),该模块使用视频关键帧分析技术来帮助计算视觉特征相关性。模块的输入是视频文件内容,输出是视频的视觉相关性。输出的数据作为项侧辅助评分的数据使用。该模块定义为项侧辅助矩阵构建模块。
权值构建模块(实现了上述获取模块32的部分功能),该模块直接从传统评分矩阵中得到权值矩阵,为用户对项的评分矩阵中的丢失项赋予了细化的权值,提高了推荐准确性。
基于迁移学习的推荐算法模块(实现了上述确定模块34的功能),该模块的输入是传统的评分矩阵(用户浏览矩阵),以及从情感分析模块和视频分析模块得到的辅助矩阵,输出的是推荐结果。
情感分析模块(用户侧辅助矩阵构建模块)和视频分析模块(项侧辅助矩阵构建模块)来源于原始数据分析与处理,是推荐执行模块的前置模块,为后者提供减少稀疏度的辅助数据。权值构建模块从传统评分矩阵中构建权值矩阵,同样是推荐执行模块的前置模块,为后者解决准确性的问题。推荐执行模块使用传统的评分矩阵和辅助矩阵、权值矩阵进行迭代计算,得到最终的推荐结果。
从以上描述可知,对于IPTV领域的推荐,为了提高推荐准确率,本发明使用两个辅助的数据源:其一来自于视频内容本身的视觉特征分析,获得视频的内在特征如色彩、纹理等,作为视频特征数据,帮助缓解稀疏性;其二来自于用户对视频的评论信息,分析其中的用户感情色彩,得到用户的虚拟打分作为辅助评分,帮助缓解不确定性。基于这两个隐含的数据源,本发明实施例提供了一种基于迁移学习的方法改进推荐效果,是IPTV推荐系统中一种新颖的个性化推荐方法,通过辅助数据,改善了稀疏性,且提高了准确性。
为了使本发明的技术方案和实现方法更加清楚,下面将结合优选的实施例(以IPTV业务的视频推荐为例)对其实现过程进行详细描述。
图4是根据本发明优选实施例的IPTV推荐方法的示意图,如图4所示,基于上述优选实施例中的情感分析模块、视频分析模块、权值构建模块和基于迁移学习的推荐算法模块,评论信息经过情感分析模块的处理,得到用户侧辅助矩阵;视频内容经过视频分析模块的处理,得到项侧辅助矩阵;原始浏览数据经过权值构建模块的处理,得到权值矩阵;用户侧辅助矩阵、项侧辅助矩阵和权值矩阵经过基于迁移学习的推荐算法模块的处理,输出推荐结果。
下面分别对上述各个模块及其功能进行详细介绍。
(1)情感分析模块(也可以称为用户侧辅助矩阵构建模块),该模块采用了一种新型的自监督情感分类算法(SELC),通过类似子增强(Boost-strapping)的迭代算法来提高对评论进行分类的准确性,进而为推荐算法提供高可靠的虚拟打分。
情感分析模块的输入是用户的评论数据,输出是用户侧辅助矩阵。
图5是根据本发明优选实施例的情感分析的流程图,如图5所示,包括如下的步骤S502至步骤S508。
步骤S502,从用户对视频的评论信息中分析得到原始评论语料。
步骤S504,使用无监督模型进行训练。
步骤S506,使用半监督模型进行训练。
步骤S508,得到结果。
下面对步骤S504和步骤S506进行详细说明。
首先对评论信息进行无监督模型的分类,其中包括初始化情感元素集合、确定评论情感得分、通过正负比例控制分类比例、更新情感元素集合等部分,并对这些部分进行迭代循环;无监督模型训练完成后,再通过半监督模型进行训练。
其中,无监督模型的分类的具体步骤如下:
a.初始化情感元素集合。所谓情感元素集合即对视频的评论词语的集合,可以通过人工选取感情倾向性较强的词素作为模型初始化的符号集合。
b.确定评论情感得分。将评论信息分割成短句,分别计算其情感得分,并将其情感得分之和作为该评论信息的总得分。
c.通过正负极性比例控制对评论分类的比例。为了实现该目的,设计了一个标注极性比例控制机制,这个机制要求每轮迭代后得到的正负评论数目相同。
d.迭代更新情感元素集合。评分为正的情感元素会被加入正向集合,评分为负的情感元素会被加入负向集合。
无监督模型训练完成后,再使用半监督模型进行再次计算。半监督分类模型中,可以选择线性核心的支撑向量机作为机器学习分类模型,选择最近一轮迭代更新过的情感元素集合(包含情感词和表情符号)作为机器学习分类模型的特征集合。在特征值方面,可以选取最为常用的TFIDF计算方法来计算情感元素集合之中每个特征的权重。
(2)视频分析模块(也可以称为项侧辅助矩阵构建模块),该模块的输入是视频文件,输出是项侧的辅助矩阵。
图6是根据本发明优选实施例的视频分析的流程图,如图6所示,包括如下的步骤S602至步骤S610。
步骤S602,对获取的视频内容进行预处理。从网络抓取的视频一般都是分段的FLV(FLASH VIDEO)格式,因此需要对其进行合并。同时,需要对视频进行转码(格式转换),以便后续分析。
步骤S604,对各个视频进行镜头切割。在对各个视频的镜头检测过程中,以画面的色彩、亮度的变化为依据进行镜头切分,将视频切割成镜头。
步骤S606,对镜头进行关键帧提取。选取镜头内最具代表性的一帧作为关键帧。
步骤S608,提取关键帧的边缘直方图,进行关键帧的特征提取,得到其特征向量并存储下来。
步骤S610,通过计算距离构建相关性矩阵。具体地,计算特征向量间的距离,并以“固定值-距离”衡量视频间的相关性,从而构建相关性矩阵,直接作为项侧辅助矩阵使用。
(3)权值构建模块
在通过矩阵分解的思想对推荐数据进行迭代的过程中,一般的思想是将原评分矩阵R分解成两个秩较低的矩阵U和V,使U和V的乘积尽量逼近R,再用U和V所蕴含的特征向量来计算推荐结果。权值构造过程在进行U和V的乘积对R的逼近时,根据原评分矩阵R的特性,给予逼近时比较项一定的权重,从而在逼近时改善丢失项(原评分矩阵中没有的项)的处理。
权值构建模块的输入是原始的浏览数据,输出是权值矩阵。
在本优选实施例中,对评分矩阵中的丢失项,有三种权值构建策略,第一个权值策略认为一个丢失项是负样本的可能性在对于任何用户或是项的背景下都是相同的;第二种权值策略认为如果一个用户有较多的正样本,他有可能不喜欢这些样本以外的,那么他的丢失项就更有可能是负样本;第三种权值策略认为如果一个项有较少的正样本,那么这个项相关的丢失项就更有可能是负样本。权重取值策略如表1所示:
表1权重取值策略表
正样本 “负”样本
标准 Wij=1 Wij
偏向用户 Wij=1 Wij∝∑jRij
偏向项 Wij=1 Wij∝m-∑iRij
表1中W表示权值矩阵,R表示原评分矩阵,δ是根据经验值确定的一个固定值,可以是0,m表示用户数量,求和表示购买该商品的用户数量。公式Wij∝m-∑iRij表示,购买商品的人越多,说明该商品越受欢迎,也就是越流行,那么在这种情况下,没有购买的人很有可能是真的不喜欢才没有购买,所以权值越小。比如牛奶,很多人购买,是一个很流行的商品,一般人不用推荐就会购买,但是那么没有买的人,说明是真的不喜欢牛奶,所以要给估值样本给一个小的权值。
(4)基于迁移学习的推荐算法模块。该模块使用基于矩阵的协同过滤的思想,对训练数据进行迭代更新,并得到最终的推荐结果。
该模块的输入是用户的原始浏览数据、用户侧辅助矩阵、项侧辅助矩阵和权值矩阵,输出是推荐结果。
该模块的推荐算法的主要过程如下:
分别对评分矩阵、用户侧辅助矩阵和项侧辅助矩阵进行奇异值分解(SingularValue Decomposition,简称为SVD),得到初始输入。用户侧和项侧作为推荐的辅助领域,即从用户辅助领域得到用户侧的知识,从项侧的领域得到项侧的知识。
对两个辅助推荐领域,有用户-项的评分矩阵R(1)和R(2),对他们分别进行SVD分解,使R(1)=U(1)B(1)V(1),R(2)=U(2)B(2)V(2)。设领域1为用户方面的辅助领域,领域2为项方面的辅助领域,则可取领域1的用户侧特征矩阵U(1)和领域2的项侧特征矩阵V(2)参与目标推荐领域的推荐工作。
通过目标函数更新中间变量,逐步迭代用户侧特征矩阵和项侧特征矩阵,使二者之积逼近原始评分矩阵。迭代过程中,最小化目标函数L(U,V)为:
其中,W为权值矩阵,由权值构建模块得到;R是原始评分矩阵;U矩阵和V矩阵分别表达了用户层面和项层面的潜在特征,是迭代的输出;ρuv=1,F一般取2。而领域1的用户侧特征矩阵U(1)和领域2的项侧特征矩阵V(2)由情感分析模块和视频分析模块得到。
在更新U、V时,可求得目标函数对U的偏导为:
目标函数对V的偏导为:
令偏导为0,即可求得在该迭代中U、V的值。
通过以上公式进行迭代,迭代一定次数后(最小化目标函数L(U,V)的值几乎稳定时),将用户侧特征矩阵和项侧特征矩阵相乘,得到新的评分矩阵,并将对应原评分矩阵中无分值项的新的评分矩阵中的较高分值项作为推荐结果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
综上所述,根据本发明的上述实施例,提供了一种推荐方法及装置。通过本发明,引入了迁移学习的方法,增加了推荐可以利用的数据,即项的信息,根据该信息判断是否向用户推荐该项,用户侧信息缓解了数据的不确定性,项的相关性信息改善了数据的稀疏性,从而提高了推荐结果的准确性。与传统的协同过滤推荐算法相比,本发明实施例的推荐方法引入了迁移学习的方法,从外来的数据集直接引入有效数据到推荐算法中,增加了推荐算法可以利用的数据,缓解了协同过滤算法中的稀疏性问题。权值构建对推荐算法中的评分丢失项进行了权值处理,针对用户或项的已有信息(如评分的数目)给予丢失项以一定的权值,从而改善推荐算法的效果,提高了推荐准确性。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种推荐方法,其特征在于包括:
获取项的信息,其中,所述信息用于判断是否向用户推荐所述项,所述信息包括以下至少之一:用户侧信息、项的相关性信息,所述用户侧信息包括获取到的所述用户对于项的评论,所述项的相关性信息包括以下至少之一:所述项本身的特性、所述项与除所述项之外的其它项之间的相关性;
根据所述信息确定是否将所述项推荐给所述用户;
其中,获取所述用户侧信息包括:根据所述用户对项的评论和情感元素集合确定所述评论的分类,作为所述用户侧信息,其中,所述情感元素集合包括以下至少之一:词语、表情符号,所述分类包括:正评论、负评论。
2.根据权利要求1所述的方法,其特征在于,根据所述用户对项的评论和情感元素集合确定所述评论的分类包括:
将所述评论分割成短句,根据情感元素集合分别计算各个短句的得分;
将所述各个短句的得分之和作为所述评论的得分,并根据所述评论的得分确定所述评论的分类。
3.根据权利要求1所述的方法,其特征在于,在根据所述用户对项的评论和情感元素集合确定所述评论的分类之后,所述方法还包括:
调整所述用户的所有评论的分类的比例,实现正评论数目与负评论数目相同;
根据调整后得到的正评论和负评论,迭代更新所述情感元素集合。
4.根据权利要求3所述的方法,其特征在于,在迭代更新所述情感元素集合之后,所述方法还包括:
通过线性核心的支撑向量机对迭代更新过的情感元素集合进行学习;
利用词频-逆向文件频率TF-IDF计算方法计算所述情感元素集合中每个特征的权重。
5.根据权利要求1所述的方法,其特征在于,对于交互电视IPTV业务,所述项是视频,获取所述项的相关性信息包括:
根据所述视频的画面色彩、亮度对所述视频进行镜头切分;
选取各个镜头的关键帧;
提取所述各个镜头的关键帧的边缘直方图,得到所述各个镜头的关键帧的特征向量;
计算所述各个关键帧的特征向量间的距离,作为所述项的相关性信息。
6.根据权利要求5所述的方法,其特征在于,在根据所述视频的画面色彩、亮度对所述视频进行镜头切分之前,所述方法还包括:
对所述视频进行合并、转码处理。
7.根据权利要求1所述的方法,其特征在于,所述信息还包括:评分矩阵、评分矩阵的权值矩阵,获取所述权值矩阵包括:
将所述评分矩阵分解成两个秩较低的矩阵;
计算所述两个秩较低的矩阵的乘积,并将所述乘积对所述评分矩阵逼近;
根据所述两个秩较低的矩阵的特征向量对所述评分矩阵中的丢失项构造权值,并构造权值矩阵。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述用户侧信息和所述项的相关性信息是矩阵的形式。
9.根据权利要求8所述的方法,其特征在于,根据所述信息确定是否将所述项推荐给所述用户包括:
对所述用户侧信息、所述项的相关性信息进行分解,确定用户侧特征矩阵和项侧特征矩阵;
对所述用户侧特征矩阵和所述项侧特征矩阵进行迭代,使所述用户侧特征矩阵和所述项侧特征矩阵的乘积逼近评分矩阵;
将所述用户侧特征矩阵和所述项侧特征矩阵的乘积中对应于所述评分矩阵的丢失项的较高分值的项推荐给所述用户。
10.一种推荐装置,其特征在于包括:
获取模块,用于获取项的信息,其中,所述信息用于判断是否向用户推荐所述项,所述信息包括以下至少之一:用户侧信息、项的相关性信息,所述用户侧信息包括获取到的所述用户对于项的评论,所述项的相关性信息包括以下至少之一:所述项本身的特性、所述项与除所述项之外的其它项之间的相关性;
确定模块,用于根据所述信息确定是否将所述项推荐给所述用户;
其中,获取模块还用于根据所述用户对项的评论和情感元素集合确定所述评论的分类,作为所述用户侧信息,其中,所述情感元素集合包括以下至少之一:词语、表情符号,所述分类包括:正评论、负评论。
CN201210322688.6A 2012-09-04 2012-09-04 推荐方法及装置 Active CN103678329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210322688.6A CN103678329B (zh) 2012-09-04 2012-09-04 推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210322688.6A CN103678329B (zh) 2012-09-04 2012-09-04 推荐方法及装置

Publications (2)

Publication Number Publication Date
CN103678329A CN103678329A (zh) 2014-03-26
CN103678329B true CN103678329B (zh) 2018-05-04

Family

ID=50315931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210322688.6A Active CN103678329B (zh) 2012-09-04 2012-09-04 推荐方法及装置

Country Status (1)

Country Link
CN (1) CN103678329B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183731B (zh) * 2014-06-04 2020-01-21 腾讯科技(深圳)有限公司 推荐信息生成方法、装置及系统
CN104111969B (zh) * 2014-06-04 2017-06-20 百度移信网络技术(北京)有限公司 一种相似性度量的方法以及系统
CN107209785B (zh) * 2015-02-11 2021-02-09 胡露有限责任公司 数据库系统中的相关性表聚合
CN105095508B (zh) * 2015-08-31 2019-11-08 北京奇艺世纪科技有限公司 一种多媒体内容推荐方法和多媒体内容推荐装置
CN105447730B (zh) * 2015-12-25 2020-11-06 腾讯科技(深圳)有限公司 目标用户定向方法及装置
CN107798012B (zh) * 2016-09-05 2021-12-14 腾讯科技(深圳)有限公司 阅读资源评论推送方法和系统
US10721503B2 (en) * 2017-06-09 2020-07-21 Sony Interactive Entertainment LLC Systems and methods for operating a streaming service to provide community spaces for media content items
CN109213989A (zh) * 2017-07-01 2019-01-15 武汉斗鱼网络科技有限公司 分析语言的弹幕分发方法、存储介质、电子设备及系统
CN110019957A (zh) * 2017-12-27 2019-07-16 飞狐信息技术(天津)有限公司 一种视频推荐方法及装置
CN110309357B (zh) * 2018-02-27 2022-12-02 腾讯科技(深圳)有限公司 应用数据推荐的方法、模型训练的方法、装置及存储介质
CN108446635B (zh) * 2018-03-19 2022-03-22 西北大学 一种利用脑电信号辅助偏好获取协同过滤推荐系统及方法
CN108875776B (zh) * 2018-05-02 2021-08-20 北京三快在线科技有限公司 模型训练方法和装置、业务推荐的方法和装置、电子设备
CN109034389A (zh) * 2018-08-02 2018-12-18 黄晓鸣 信息推荐系统的人机交互式修正方法、装置、设备和介质
CN110209944B (zh) * 2019-06-10 2023-07-28 上海时廊人工智能科技有限公司 一种股票分析师推荐方法、装置、计算机设备和存储介质
CN111191054B (zh) * 2019-12-18 2024-02-13 腾讯科技(深圳)有限公司 媒体数据的推荐方法、装置
CN111291264B (zh) * 2020-01-23 2023-06-23 腾讯科技(深圳)有限公司 基于机器学习的访问对象预测方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386506B2 (en) * 2008-08-21 2013-02-26 Yahoo! Inc. System and method for context enhanced messaging

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IPTV系统中的节目分类系统设计与实现IPTV系统中的节目分类系统设计与实现;陈剑峰;《中国优秀硕士学位论文全文数据库信息科技辑》;20110315(第3期);第I136-1493页 *
基于矩阵分解的单类协同过滤推荐算法;李改等;《计算机应用研究》;20120531;第29卷(第5期);第1662-1665页 *

Also Published As

Publication number Publication date
CN103678329A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103678329B (zh) 推荐方法及装置
US20220222920A1 (en) Content processing method and apparatus, computer device, and storage medium
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN111708950B (zh) 内容推荐方法、装置及电子设备
US20180121434A1 (en) Method and apparatus for recalling search result based on neural network
CN104199896B (zh) 基于特征分类的视频相似度确定及视频推荐方法
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
CN111553754A (zh) 行为预测系统的更新方法及装置
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
CN108334558A (zh) 一种结合标签和时间因素的协同过滤推荐方法
CN113744032B (zh) 一种图书推荐的方法、相关装置、设备及存储介质
CN107133282B (zh) 一种改进的基于双向传播的评价对象识别方法
CN108573041A (zh) 基于加权信任关系的概率矩阵分解推荐方法
CN106610970A (zh) 基于协同过滤的内容推荐系统与方法
CN105338408B (zh) 基于时间因子的视频推荐方法
CN113569129A (zh) 点击率预测模型处理方法、内容推荐方法、装置及设备
Wu et al. Optimization matrix factorization recommendation algorithm based on rating centrality
CN112256965A (zh) 一种基于lambdaMart的神经协同过滤模型推荐方法
CN112862567A (zh) 一种在线展会的展品推荐方法与系统
CN106095974A (zh) 基于网络结构相似性的推荐系统评分预测与推荐算法
Sabnis et al. Course recommendations in moocs: Techniques and evaluation
Ji et al. Making recommendations from top-N user-item subgroups
CN111125428A (zh) 基于评分预测函数拟合结构的时间相关电影推荐方法
CN110968675B (zh) 一种基于多领域语义融合的推荐方法及系统
WO2019237461A1 (zh) 一种基于用户需求的稳态标签开发方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant