CN111918136B - 一种兴趣的分析方法及装置、存储介质、电子设备 - Google Patents
一种兴趣的分析方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN111918136B CN111918136B CN202010634874.8A CN202010634874A CN111918136B CN 111918136 B CN111918136 B CN 111918136B CN 202010634874 A CN202010634874 A CN 202010634874A CN 111918136 B CN111918136 B CN 111918136B
- Authority
- CN
- China
- Prior art keywords
- program
- interest
- vector
- target object
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 158
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000006399 behavior Effects 0.000 claims description 75
- 230000004927 fusion Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 abstract description 7
- 239000002699 waste material Substances 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4532—Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种兴趣的分析方法及装置、存储介质、电子设备。其中,该方法包括:根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度,因此,可以解决相关对用户兴趣的描述准确度较低的技术问题,提高了兴趣分析的准确度,进一步减少了资源浪费。
Description
技术领域
本发明涉及兴趣分析领域,具体而言,涉及一种兴趣的分析方法及装置、存储介质、电子设备。
背景技术
网络协议电视(Internet Protocol Television,IPTV)是随着互联网发展出现的一种崭新技术。IPTV利用宽带网将多媒体信息传递给用户,为用户提供包括数字电视在内的多种交互式服务。它在传统电视的基础上,加入点播、回看等交互功能,这使得电视观众与电视服务提供商之间有了更好的互动。为了给用户提供更好的收视服务,电视服务提供商可以通过大数据分析用户行为,为用户建模。
通过分析用户收视节目记录和用户收视行为习惯,可以建立用户兴趣模型。目前的IPTV用户兴趣模型大多通过分析用户收视节目记录和用户的收视行为习惯来建立。影响用户收视兴趣的因素有很多,相关技术中的方案只考虑了用户收视节目记录和用户收视行为习惯,导致对用户兴趣的描述并不准确。如果针对用户兴趣的分析出现偏差,必然导致向该用户推荐的内容与该用户的实际需求存在偏差,导致资源利用率的降低。
发明内容
本发明实施例提供了一种兴趣的分析方法及装置、存储介质、电子设备,以至少解决相关对用户兴趣的描述准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种兴趣的分析方法,包括:
根据多个对象的节目记录确定不同节目的特征向量,其中,一个所述节目用一个所述特征向量表示;根据所述节目的特征向量与所述节目相对于所述多个对象的节目记录的重要程度确定所述目标对象的兴趣向量,其中,所述兴趣向量指示了所述目标对象对所述节目的兴趣度。
根据本发明实施例的另一方面,还提供了一种兴趣的分析装置,包括:
第一确定模块,用于根据多个对象的节目记录确定不同节目的特征向量,其中,一个所述节目用一个所述特征向量表示;
第二确定模块,用于根据所述节目的特征向量与所述节目相对于所述对象的节目记录的重要程度确定所述目标对象的兴趣向量,其中,所述兴趣向量指示了所述目标对象的对所述节目的兴趣度。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述兴趣的分析方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的兴趣的分析方法。
在本发明实施例中,根据多个对象的节目记录确定不同节目的特征向量,其中,一个所述节目用一个所述特征向量表示;根据所述节目的特征向量与所述节目相对于所述多个对象的节目记录的重要程度确定所述目标对象的兴趣向量,其中,所述兴趣向量指示了所述目标对象对所述节目的兴趣度,因此,可以解决相关对用户兴趣的描述准确度较低的技术问题,提高了兴趣分析的准确度,进一步减少了资源浪费。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的兴趣的分析方法的流程图;
图2是根据本发明实施例的兴趣的分析装置的结构框图;
图3是根据本发明示例实施方式的Skip-Gram模型图;
图4是根据本发明示例实施方式的兴趣的分析方法的流程示意图;
图5是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种兴趣的分析方法,可选地,作为一种可选的实施方式,上述兴趣的分析方法可以应用于服务器、计算机、智能解决设备等终端设备或者说电子设备中。
可选地,作为一种可选的实施方式,图1是根据本发明实施例的兴趣的分析方法的流程图,如图1所示,方法包括:
步骤S101,根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;
步骤S103,根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度。
通过上述步骤,根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度,因此,可以解决相关对用户兴趣的描述准确度较低的技术问题,提高了兴趣分析的准确度,进一步减少了资源浪费。
在一个示例性的实施方式中,可以根据目标对象的兴趣向量向目标对象推荐信息。
在一个示例性的实施方式中,该根据多个对象的节目记录确定不同节目的特征向量,包括:该特征向量为词向量,通过词向量模型对多个对象的节目记录进行处理,生成不同节目的词向量。
在一个示例性的实施方式中,该通过词向量模型对多个对象的节目记录进行处理,生成不同节目的词向量,包括:
根据该多个对象的节目记录创建词汇表;
初始化权重矩阵,以及,初始化该词汇表中所有词汇的向量表;
对该多个对象的节目记录建立word2vec模型;
对于该多个对象的节目记录中的每一条节目记录数据,用负采样的方法训练该word2vec模型,得到不同节目的词向量。
在一个示例性的实施方式中,该该节目相对于该多个对象的节目记录的重要程度为:该节目在该多个对象的节目记录中的词频逆向文档频率值。
在一个示例性的实施方式中,所述该根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,包括:将该节目的特征向量与该节目在该多个对象的节目记录中的词频逆向文档频率值相乘得到该目标对象的兴趣向量。
在一个示例性的实施方式中,该方法还包括:根据该目标对象对不同节目的行为与该目标对象的兴趣向量确定该目标对象的融合兴趣向量,其中,该融合兴趣向量至少指示了该目标对象的对不同的该节目的行为兴趣。
在一个示例性的实施方式中,该根据该目标对象对不同节目的行为与该目标对象的兴趣向量确定该目标对象的融合兴趣向量,包括:分别根据不同的该行为的权重与不同的该行为指向的节目对应的兴趣向量得到不同行为的融合兴趣子向量;根据不同的该融合兴趣子向量得到该目标对象的融合兴趣向量。
在一个示例性的实施方式中,该分别根据不同的该行为的权重与不同的该行为所指向的节目所对应的兴趣向量得到融合兴趣子向量,包括:在该行为包括观看行为的情况下,根据该观看行为所指向的节目的观看质量、该观看行为的权重以及该观看行为所指向的节目所对应的兴趣向量得到该观看行为的融合兴趣子向量。
本发明实施例还提供了一种兴趣的分析装置,用于实现上述的兴趣的分析方法,图2是根据本发明实施例的兴趣的分析装置的结构框图,如图2所示,包括:
第一确定模块22,用于根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;
第二确定模块24,用于根据该节目的特征向量与该节目相对于该对象节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度。
通过上述步骤,根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度,因此,可以解决相关对用户兴趣的描述准确度较低的技术问题,提高了兴趣分析的准确度,进一步减少了资源浪费。
还需要说明的是,本装置还具有其他示例实施方式,用于实现上述方法实施例中的其他任一项实施方式,在此不再赘述。
示例实施方式
以下结合具体场景对本发明进行进一步解释说明。
本实施例基于Word2Vec模型良好的扩展性,提出用词向量的方法来挖掘IPTV节目之间的关联,并结合各种收视行为数据(例如“观看、浏览、收藏、观看时长”等行为与节目收视频次)为IPTV用户建立兴趣模型,以更好的表征用户收视兴趣。
本实施例提出用Word2Vec的方法来学习IPTV节目的向量表示;
提出用TF-IDF算法对用户观看、浏览、收藏的节目进行加权,建立初步的用户兴趣模型;
根据用户观看节目的时长与节目本身时长提出一种量化用户兴趣的策略;
提出量化不同收视行为对用户兴趣度的贡献,主要包括各种收视行为(例如观看、浏览、收藏、观看时长)与节目收视频次,结合TF-IDF方法与用户的各种行为特征对IPTV节目向量进行特征加权来生成IPTV用户兴趣向量,建立多因子融合策略用户兴趣模型。
在一个示例性的实施方式中,本方法原理如下所示:
将IPTV节目表示成向量:
如果将每一个用户的收视节目记录看做一篇文章、IPTV节目看成文章中的词,就可以用词向量模型为用户建模。词向量模型结合上下文语境将词语转换为向量,由此可以通过词向量之间的关系来体现词语的语义逻辑。假设从N个用户获得的收视节目记录集合为S。其中集合s=(l1,···,lM)∈S记录了一个用户的所有收视节目记录,l1......lM表示一个用户的不同的收视节目记录。Word2Vec采用Skip-Gram的方法来学习IPTV节目的向量表示,图3是根据本发明示例实施方式的Skip-Gram模型图,如图3所示,该模型的目标是最大化目标函数L,定义如下:
用Softmax函数定义从收视节目记录li的前后记录中得到li+j的概率P(li+j|li):
其中,表示与li步长相差j的节目记录,vl与v'l是收视节目记录l的输入输出向量表示。超参数m表示Skip-Gram模型中考虑的前后相邻收视节目记录的个数,其中,收视记录是以时间为顺序排列的节目单,此处的考虑前后相邻表示当前记录的前m个记录与后m个记录。V是所有不同IPTV节目的数据集合,VT表示向量的转置。这里采用负采样方法代替计算目标函数的梯度ΔL以降低计算复杂度。负采样方法表述如下,为用户收视节目数据(即,前述的节目记录)生成正样本对(l,c)集合Dp,其中c为所有相邻的收视节目记录(即同一用户在l(在窗口为m的范围内)之前或者之后的收视节目)。同时为当前收视节目记录生成负样本对(l,c)集合Dn,从整个节目表V中随机抽样n个收视节目记录。优化目标函数变为:
式中,要学习的参数θ是vl和vc,l,c∈V。函数的优化通过随机梯度下降来完成。
Word2vec算法实施过程:
处理用户-节目文档数据;
设置上下文窗口大小window_size=5,节目向量维度vectorSize=200;
读取用户-节目记录文件D,创建词汇表vocab;
初始化权重矩阵W[vectorSize][N],初始化所有词汇的向量表V[vocabSize][vector Size];
对用户-节目记录数据建立word2vec模型;
对于每个用户的节目记录中的每一条节目数据,用负采样的方法训练上述word2vec模型,得到节目的二进制向量文件word2vec.bin。
在一个示例性的实施方式中,建立TF-IDF加权用户兴趣模型:
词频(TermFrequency,TF)指的是单词在文本中出现的次数,它是衡量一个单词重要程度的关键评价指标。因为一个词在文中出现的越多,说明这个词越能反映文章主题。TF的表达式:Wij=TFij。其中,TFij表示节目集中第i个节目在第j个用户收视行为记录中出现的次数。
逆文档频率策略(Inverse Document Frequency,IDF)考虑的是如果一个词语在文本中普遍出现,说明这个词是比较常用的词,没有区分文本主题的能力。如果一个词语只在少数几篇文章中出现,那么这个词可能是这些文章的专有词汇,对于该文章有很好的代表性,所以区分文本主题的能力也会比较强。基于上述策略的权重计算公式如下:(其中,N代表用户数量,ni表示收视行为记录中含有节目i的用户数,ni+0.01是为了防止ni=0,从而导致IDF的值无穷大。)
TF-IDF是将TF和IDF结合起来的方法。一方面考虑了节目在一个用户收视行为记录中出现的频次,另一方面考虑了节目在整个用户收视行为记录数据库中出现的频次。其计算公式如下所示:
Wij=TFij×IDFij=TFij×log(N/(ni+0.01))。
IPTV用户兴趣模型可由收视行为记录中的节目加权表示。公式如下:
设IPTV用户记录d={w1,w2,···,wn},其中wi表示该用户收视行为记录中的IPTV节目向量。
其中d表示IPTV用户的收视行为记录,t表示记录中的具体节目。
建立多因子融合策略用户兴趣模型:
用户的实际收视行为类型,比如浏览、观看、收藏以及用户观看节目的时长都影响用户的收视兴趣。本发明根据IPTV用户收视行为记录的特点,结合了收视行为类型与时长等信息来自定义加权策略。
首先分析如何通过观看时长量化用户收视兴趣。在IPTV系统中,可以假设用户对某一节目的观看时长越长,则对这个节目的兴趣度越高。引入“观看完整度”的概念,用户对某一节目的观看完整度表述为:用户观看这个节目的时长与节目总时长的比值,为:其中,p表示用户对节目的观看完整度,l表示对节目的观看时长,L表示节目本身时长。
一般情况下可以认为节目观看完整度越高,用户对该节目的兴趣度就越高。然而这种方法不一定准确,节目本身的时长也会影响用户收视行为。用户在观看节目时,各种节目资源本身时长不同,有些节目时长较短(动画、小品、新闻等),有些节目时长较长(综艺、电影、电视剧等)。对于时长较短的节目,用户很快就能看完,而时长较长的节目,用户却很难一次性看完。由此可见,仅仅由节目观看完整度不足以真正表明用户的收视兴趣。基于上述分析,本文引入观看质量与节目时长标量的概念,观看质量如公式所示:r=logscalar(L)×p。其中,scalar为节目时长标量,是一个设定值。实际操作中,通过实验来确定最佳标量长度。r为观看质量,L为节目本身时长。
然后通过赋予浏览、观看、收藏等行为不同的权重,结合TF-IDF权重算法与观看质量对IPTV节目向量进行加权建立IPTV用户兴趣模型。用户观看的节目用P标记、浏览的节目用B标记,收藏的节目用C标记。最终融合了用户观看、浏览、收藏等行为与用户观看时长的多因子融合策略的IPTV用户兴趣向量(Multi-factor User Interest Model,MF-UIM)表示为:
其中,ω1,ω2,ω3分别为用户的观看、浏览、收藏等行为对用户兴趣度贡献的比例,即,不同行为的权重。最终MF-UIM模型的建立过程如图4所示,图4是根据本发明示例实施方式的兴趣的分析方法的流程示意图。
下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明,不限制本申请权利要求的保护范围。
本发明提供了一种基于词向量的IPTV用户兴趣模型挖掘方法,其特征在于该方法包括以下步骤:
步骤1、服务器端收集用户的操作记录形成IPTV用户收视历史数据,同一个电视节目中的不同集数视为同一个节目。本实施例提取用户收视行为记录中的节目名称、行为时间、行为时长、行为类别(例如浏览、收藏、观看)与节目本身时长等信息,其中时长的单位转换可以是分钟。示例性的,可以只保留观看时长超过3分钟的观看记录(具体可视节目的平均观看时长来定)。换句话说,如果用户相邻观看记录之间的时间间隔小于三分钟,则删除上一个观看记录。
表1 IPTV用户观看行为记录样例
表1
步骤2、将IPTV节目表示成向量:将每一个用户的收视节目记录看做一篇文章、IPTV节目看成文章中的词,用Word2Vec算法来学习IPTV节目的向量表示。
Word2vec算法实施过程:
处理用户-节目文档数据
设置上下文窗口大小window_size=5,节目向量维度vector Size=200
读取用户-节目记录文件D,创建词汇表vocab
初始化权重矩阵W[vector Size][N],初始化所有词汇的向量表V[vocab Size][vector Size]
对用户-节目记录数据建立word2vec模型
对于每个用户的节目记录中的每一条节目数据,用负采样的方法训练上述word2vec模型,得到节目的二进制向量文件word2vec.bin。
步骤3、建立TF-IDF加权用户兴趣模型:
TF-IDF将TF和IDF结合起来,一方面考虑了节目在一个用户收视行为记录中出现的频次,另一方面考虑了节目在整个用户收视行为记录数据库中出现的频次。其计算公式如下所示:
Wij=TFij×IDFij=TFij×log(N/(ni+0.01))
IPTV用户兴趣模型可由收视行为记录中的节目加权表示。公式如下:
其中,TFij表示节目集中第i个节目在第j个用户收视行为记录中出现的次数,其中,N代表用户数量,ni表示收视行为记录中含有节目i的用户数,d表示IPTV用户的收视行为记录,t表示记录中的具体节目。
步骤4、建立多因子融合策略用户兴趣模型:
首先,计算节目观看质量。观看质量如公式所示:
r=logscalar(L)×p。
然后通过赋予浏览、观看、收藏等行为不同的权重,结合TF-IDF权重算法与观看质量对IPTV节目向量进行加权建立IPTV用户兴趣模型。用户观看的节目用P标记、浏览的节目用B标记,收藏的节目用C标记。最终融合了用户观看、浏览、收藏等行为与用户观看时长的多因子融合策略的IPTV用户兴趣向量(Multi-factor User Interest Model,MF-UIM)表示为:
其中,ω1,ω2,ω3分别为用户的观看、浏览、收藏等行为对用户兴趣度贡献的比例。最终MF-UIM模型的建立过程如图4所示。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的又一个方面,还提供了一种用于实施上述兴趣的分析方法的电子设备,该电子设备可以是图5所示的终端设备或服务器。图5是根据本发明实施例的一种可选的电子设备的结构示意图,如图5所示,该电子设备包括存储器502和处理器504,该存储器502中存储有计算机程序,该处理器504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;
S2,根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度。
通过上述步骤,根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度,因此,可以解决相关对用户兴趣的描述准确度较低的技术问题,提高了兴趣分析的准确度,进一步减少了资源浪费。
可选地,本领域普通技术人员可以理解,图5所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图5中所示更多或者更少的组件(如网络接口等),或者具有与图5所示不同的配置。
其中,存储器502可用于存储软件程序以及模块,如本发明实施例中的兴趣的分析方法和装置对应的程序指令/模块,处理器504通过运行存储在存储器502内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的兴趣的分析方法。存储器502可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器502可进一步包括相对于处理器504远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器502具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。
可选地,上述的传输装置506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置506包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置506为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器508,用于显示上述待处理的订单信息;和连接总线510,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;
S2,根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度。
通过上述步骤,根据多个对象的节目记录确定不同节目的特征向量,其中,一个该节目用一个该特征向量表示;根据该节目的特征向量与该节目相对于该多个对象的节目记录的重要程度确定该目标对象的兴趣向量,其中,该兴趣向量指示了该目标对象对该节目的兴趣度,因此,可以解决相关对用户兴趣的描述准确度较低的技术问题,提高了兴趣分析的准确度,进一步减少了资源浪费。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种兴趣的分析方法,其特征在于,包括:
根据多个对象的节目记录确定不同节目的特征向量,其中,一个所述节目用一个所述特征向量表示;所述特征向量为词向量,通过词向量模型对多个对象的节目记录进行处理,生成不同节目的词向量;
根据所述节目的特征向量与所述节目在所述多个对象的节目记录中的词频逆向文档频率值确定目标对象的兴趣向量,包括将所述节目的特征向量与所述节目在所述多个对象的节目记录中的词频逆向文档频率值相乘得到所述目标对象的兴趣向量,其中,所述兴趣向量指示了所述目标对象对所述节目的兴趣度;
根据所述目标对象对不同节目的行为与所述目标对象的兴趣向量确定所述目标对象的融合兴趣向量,其中,所述融合兴趣向量指示了所述目标对象的对不同的所述节目的行为兴趣,包括:
分别根据不同的所述行为的权重与不同的所述行为指向的节目对应的兴趣向量得到不同行为的融合兴趣子向量,包括:在所述行为包括观看行为的情况下,根据所述观看行为所指向的节目的观看质量、所述观看行为的权重以及所述观看行为所指向的节目所对应的兴趣向量得到所述观看行为的融合兴趣子向量;
根据不同的所述融合兴趣子向量得到所述目标对象的融合兴趣向量。
2.根据权利要求1所述的方法,其特征在于,所述通过词向量模型对多个对象的节目记录进行处理,生成不同节目的词向量,包括:
根据所述多个对象的节目记录创建词汇表;
初始化权重矩阵,以及,初始化所述词汇表中所有词汇的向量表;
对所述多个对象的节目记录建立word2vec模型;
对于所述多个对象的节目记录中的每一条节目记录数据,用负采样的方法训练所述word2vec模型,得到不同节目的词向量。
3.一种兴趣的分析装置,其特征在于,包括:
第一确定模块,用于根据多个对象的节目记录确定不同节目的特征向量,其中,一个所述节目用一个所述特征向量表示;所述特征向量为词向量,通过词向量模型对多个对象的节目记录进行处理,生成不同节目的词向量;
第二确定模块,用于根据所述节目的特征向量与所述节目在所述多个对象的节目记录中的词频逆向文档频率值确定目标对象的兴趣向量,包括将所述节目的特征向量与所述节目在所述多个对象的节目记录中的词频逆向文档频率值相乘得到所述目标对象的兴趣向量,其中,所述兴趣向量指示了所述目标对象对所述节目的兴趣度;
根据所述目标对象对不同节目的行为与所述目标对象的兴趣向量确定所述目标对象的融合兴趣向量,其中,所述融合兴趣向量指示了所述目标对象的对不同的所述节目的行为兴趣,包括:
分别根据不同的所述行为的权重与不同的所述行为指向的节目对应的兴趣向量得到不同行为的融合兴趣子向量,包括:在所述行为包括观看行为的情况下,根据所述观看行为所指向的节目的观看质量、所述观看行为的权重以及所述观看行为所指向的节目所对应的兴趣向量得到所述观看行为的融合兴趣子向量;
根据不同的所述融合兴趣子向量得到所述目标对象的融合兴趣向量。
4.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至2任一项中所述的方法。
5.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至2任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010634874.8A CN111918136B (zh) | 2020-07-04 | 2020-07-04 | 一种兴趣的分析方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010634874.8A CN111918136B (zh) | 2020-07-04 | 2020-07-04 | 一种兴趣的分析方法及装置、存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111918136A CN111918136A (zh) | 2020-11-10 |
CN111918136B true CN111918136B (zh) | 2022-07-01 |
Family
ID=73227354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010634874.8A Active CN111918136B (zh) | 2020-07-04 | 2020-07-04 | 一种兴趣的分析方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111918136B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509565A (zh) * | 2020-11-13 | 2021-03-16 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN115203564A (zh) * | 2022-07-20 | 2022-10-18 | 百度在线网络技术(北京)有限公司 | 信息流推荐方法、装置及计算机程序产品 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729937B (zh) * | 2017-10-12 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 用于确定用户兴趣标签的方法及装置 |
CN107818166A (zh) * | 2017-11-07 | 2018-03-20 | 暴风集团股份有限公司 | 一种资讯推荐方法、装置、服务器及系统 |
CN108540826B (zh) * | 2018-04-17 | 2021-01-26 | 京东方科技集团股份有限公司 | 弹幕推送方法、装置、电子设备及存储介质 |
US11010561B2 (en) * | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
CN110704674B (zh) * | 2019-09-05 | 2022-11-25 | 苏宁云计算有限公司 | 一种视频播放完整度预测方法及装置 |
CN111143610B (zh) * | 2019-12-30 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 一种内容推荐方法、装置、电子设备和存储介质 |
CN111143684B (zh) * | 2019-12-30 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的泛化模型的训练方法及装置 |
CN111310060B (zh) * | 2020-05-13 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 推荐方法、装置、电子设备及计算机可读存储介质 |
-
2020
- 2020-07-04 CN CN202010634874.8A patent/CN111918136B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111918136A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708901A (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN109993583B (zh) | 信息推送方法和装置、存储介质及电子装置 | |
CN110543598A (zh) | 信息推荐方法、装置及终端 | |
CN110413867B (zh) | 用于内容推荐的方法及系统 | |
CN111918136B (zh) | 一种兴趣的分析方法及装置、存储介质、电子设备 | |
CN102934113A (zh) | 信息提供系统、信息提供方法、信息提供设备、程序和信息记录介质 | |
CN110598105B (zh) | 一种基于概率采样的推荐方法、装置、设备及介质 | |
CN112100221B (zh) | 一种资讯推荐方法、装置、推荐服务器及存储介质 | |
CN111506820A (zh) | 推荐模型、方法、装置、设备及存储介质 | |
CN112712418A (zh) | 推荐商品信息的确定方法和装置、存储介质及电子设备 | |
CN109446431A (zh) | 用于信息推荐的方法、装置、介质、和计算设备 | |
CN111954087B (zh) | 视频中图像的截取方法和装置、存储介质和电子设备 | |
CN110209921B (zh) | 媒体资源的推送方法和装置、以及存储介质和电子装置 | |
CN112231700A (zh) | 行为识别方法和装置、存储介质及电子设备 | |
CN106156351A (zh) | 多媒体资源推荐信息生成方法及装置 | |
Quercia et al. | TRULLO-local trust bootstrapping for ubiquitous devices | |
CN112182460A (zh) | 资源的推送方法和装置、存储介质及电子装置 | |
CN113868466A (zh) | 视频推荐的方法、装置、设备和存储介质 | |
CN113626638A (zh) | 短视频推荐处理方法、装置、智能终端及存储介质 | |
CN108614845B (zh) | 基于媒体文件的行为预估方法和装置 | |
CN105956061A (zh) | 一种用户间相似度确定方法及装置 | |
CN110381339B (zh) | 图片传输方法及装置 | |
CN114117221A (zh) | 信息推荐方法、装置以及计算机可读存储介质 | |
CN113761272A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114090848A (zh) | 数据推荐及分类方法、特征融合模型及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |