CN110929177A - 一种电子资源推荐方法、装置和存储介质 - Google Patents

一种电子资源推荐方法、装置和存储介质 Download PDF

Info

Publication number
CN110929177A
CN110929177A CN201811098723.4A CN201811098723A CN110929177A CN 110929177 A CN110929177 A CN 110929177A CN 201811098723 A CN201811098723 A CN 201811098723A CN 110929177 A CN110929177 A CN 110929177A
Authority
CN
China
Prior art keywords
label
list
user
tag
electronic resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811098723.4A
Other languages
English (en)
Other versions
CN110929177B (zh
Inventor
李天浩
崔瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811098723.4A priority Critical patent/CN110929177B/zh
Publication of CN110929177A publication Critical patent/CN110929177A/zh
Application granted granted Critical
Publication of CN110929177B publication Critical patent/CN110929177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电子资源推荐方法、装置和存储介质,用以提高电子资源推荐的精准度。所述电子资源推荐方法,包括:针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表;根据所述第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表;根据预先建立的标签与相似标签列表之间的映射关系,确定所述候选标签列表中包含的每一候选标签对应的相似标签列表,所述标签与相似标签列表之间的映射关系为根据各用户访问所述标签对应的电子资源的历史访问数据确定出的;根据所述候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向所述用户推荐的电子资源列表。

Description

一种电子资源推荐方法、装置和存储介质
技术领域
本发明涉及领域互联网技术领域,尤其涉及一种电子资源推荐方法、装置和存储介质。
背景技术
信息流以机器算法来做新闻资讯的精准推荐和分发,让用户能看到自己喜欢的内容。这种推荐机制打破了传统的新闻页面的分类方式,而是以像瀑布一样实时流动的“信息流”的方式呈现。
现有的采用信息流方式进行推荐的推荐系统采用基于用户兴趣推荐的方法来为用户推荐个性化的新闻资讯,基于用户兴趣推荐方法主要是利用用户画像信息对资讯做召回,画像信息往往是基于用户较长一段时间的观看行为累积构建的,由于用户兴趣偏好随时间会动态转移,导致向用户推荐的信息存在一定的时间延迟,对用户短期内的兴趣偏好反馈不够及时,降低了信息推荐的精准性。
发明内容
本发明实施例提供一种电子资源推荐方法、装置和存储介质,用以提高电子资源推荐的精准度。
第一方面,提供一种电子资源推荐方法,包括:
针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表;
根据所述第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表;
根据预先建立的标签与相似标签列表之间的映射关系,确定所述候选标签列表中包含的每一候选标签对应的相似标签列表,所述标签与相似标签列表之间的映射关系为根据各用户访问所述标签对应的电子资源的历史访问数据确定出的;
根据所述候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向所述用户推荐的电子资源列表。
第二方面,提供一种电子资源推荐装置,包括:
获得单元,用于针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表;
第一确定单元,用于根据所述第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表;
第二确定单元,用于根据预先建立的标签与相似标签列表之间的映射关系,确定所述候选标签列表中包含的每一候选标签对应的相似标签列表,所述标签与相似标签列表之间的映射关系为根据各用户访问所述标签对应的电子资源的历史访问数据确定出的;
推荐单元,用于根据所述候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向所述用户推荐的电子资源列表。
可选地,本发明实施例提供的电子资源推荐装置,还包括:
第三确定单元,用于根据电子资源标识对应的标签集合和从所述历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,建立所述用户标识与标签之间的对应关系;
第一统计单元,用于针对所述历史访问数据中包含的每一用户标识,根据该用户标识对应的标签,统计该用户标识对应于同一标签的访问频次;
第四确定单元,用于针对所述历史访问数据中同一电子资源对应的任两个标签,根据各个用户标识对应于该两个标签的访问频次,确定该两个标签之间的相似参数值;
映射关系建立单元,用于针对任一标签,根据该标签与其它标签之间的相似参数值选择一定数量的标签得到相似标签列表并建立映射关系。
可选地,本发明实施例提供的电子资源推荐装置,还包括第五确定单元和选择单元,其中:
所述统计单元,还用于在针对所述历史访问数据中包含的每一用户标识,根据该用户标识对应的标签,统计该用户标识对应于同一标签的访问频次之前,针对电子资源标识对应的标签集合中包含的每一标签,统计该标签在所述电子资源标识对应电子资源中的出现频次;
所述第五确定单元,用于根据所述出现频次、所述电子资源标识对应的电子资源中包含的总词数以及所有在线电子资源数量和包含该标签的在线电子资源数量,确定该标签对应的评价参数值;
选择单元,用于根据各个标签对应的评价参数值,从电子资源标识对应的标签集合中选择出关键标签;
所述第三确定单元,用于根据电子资源标识对应的关键标签和从所述历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,建立所述用户标识与标签之间的对应关系。
可选地,所述推荐单元,具体用于从各候选标签对应的所有相似标签列表中选择出现次数大于第一阈值和/或与各个候选标签之间的累和相似分数值大于第二阈值的相似标签;从选择出的相似标签对应的电子资源中,确定向所述用户推荐的电子资源列表。
可选地,所述候选标签列表包括目标标签列表和补充标签列表;
所述第一确定单元,具体用于确定所述第一标签列表和第二标签列表中相同的标签组成所述目标标签列表;确定存在于所述第一标签列表中但不存在于第二标签列表中的标签组成所述补充标签列表。
可选地,所述第二确定单元,具体用于如果所述目标标签列表不为空,则根据预先建立的标签与相似标签列表之间的映射关系,确定所述目标标签列表中包含的每一候选标签对应的相似标签列表;或者如果所述目标标签列表为空,则根据预先建立的标签与相似标签列表之间的映射关系,确定所述补充标签列表中包含的每一候选标签对应的相似标签列表。
可选地,所述获得单元,具体用于针对每一实时数据采集窗口,采集用户的电子资源访问数据;提取所述电子资源访问数据包含的电子资源所对应的标签得到所述第一标签列表。
第三方面,提供一种计算装置,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述任一电子资源推荐方法所述的步骤。
第四方面,提供一种计算机可读介质,其存储有可由计算装置执行的计算机程序,当所述程序在计算装置上运行时,使得所述计算装置执行上述任一电子资源推荐方法所述的步骤。
本发明实施例提供的电子资源推荐方法、装置和存储介质中,从用户在实时数据采集窗口访问过的电子资源中提取标签得到第一标签列表,结合从用户画像中提取的第二标签列表确定出用于给用户推荐电子资源的候选标签列表,与仅基于从用户画像中提取的标签进行电子资源推荐的技术方案,能够对用户近期的兴趣偏好及时反馈,从而提高了电子资源推荐的精准性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例的应用场景示意图;
图2为根据本发明实施方式的建立标签与相似标签列表之间映射关系的流程示意图;
图3为根据本发明实施方式的从标签集合中选择满足条件的标签的流程示意图;
图4为根据本发明实施方式的电子资源推荐方法的实施流程示意图;
图5为根据本发明实施方式的电子资源推荐装置的结构示意图;
图6为根据本发明实施方式的计算装置的结构示意图。
具体实施方式
为了提高电子资源推荐的精准性,本发明实施例提供了一种电子资源推荐方法、装置和存储介质。
首先,对本发明实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
Tag(标签):一种关键词标记。
本发明中的终端设备可以是个人电脑(英文全称:Personal Computer,PC)、平板电脑、个人数字助理(Personal Digita l Assistant,PDA)、个人通信业务(英文全称:Personal Communication Service,PCS)电话、笔记本和手机等终端设备,也可以是具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们能够向用户提供语音和/或数据连通性的设备,以及与无线接入网交换语言和/或数据。
另外,本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本发明实施例提供的电子资源推荐方法的应用场景示意图。用户10通过终端设备11中安装的应用客户端登录应用服务器12,其中,应用客户端可以为网页的浏览器,也可以为安装于终端设备,如手机,平板电脑等中的应用程序客户端。
终端设备11与应用服务器12之间通过网络进行通信连接,该网络可以为局域网、蜂窝网和广域网等。终端设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),应用服务器12可以为任何能够提供互联网服务的设备。
其中,用户10利用终端设备11通过向应用服务器12注册获得用户名,应用服务器12在用户进行注册成功后存储用户名以及与用户10设置的用户密码作为认证信息,后续用户10利用终端设备11再次登录应用服务器12时,应用服务器12向应用客户端返回登录页面,用户在应用客户端显示的登录页面输入认证信息(即用户名和用户密码)并提交给应用服务器12,应用服务器12比较用户提交认证信息与自身在用户注册时存储的认证信息是否一致以确定是否允许用户登录。
应用服务器12可以为用户提供不同的互联网业务,在一个实施例中,应用服务器可以为用户提供资讯浏览业务,这种实施方式下,本发明实施例涉及的电子资源可以为数字咨询内容;在另一实施例中,应用服务器12可以为用户提供云阅读业务,这种情况下,本发明实施例中涉及的电子资源可以为电子书资源,例如,数字漫画资源、数字小说资源、数字散文资源等等,在又一实施例中,应用服务器12还可以为用户提供视频播放业务,这种情况下,本发明实施例中涉及的电子资源可以为数字视频资源等等,在一些实施例中,应用服务器还可以为用户提供多媒体播放业务,这种情况下,本发明实施例中涉及的电子资源可以为数字音乐资源等等,或者,应用服务器12还可以为用户提供应用程序下载业务,这种情况下,本发明实施例涉及的电子资源可以为应用程序等,具体实施时,根据应用服务器提供的业务不同,本发明实施例中涉及的电子资源也不同,这里不再一一列举。
本发明施例提供的电子资源推荐方法可以应用于应用服务器中。在一个实时数据采集窗口内,由应用服务器采集用户在当前实时数据采集窗口内用户的电子资源访问数据。其中,实时数据采集窗口可以根据实际需要进行设置,例如,可以设置2小时作为一个实时数据采集窗口,由应用客户端在实时数据采集窗口内向应用服务器上报用户的数据访问记录,如果用户在2小时内无任何数据访问记录上报时,应用服务器将清除针对该用户记录的信息,直至下一次接收到应用客户端针对该用户上报的数据访问记录。具体实施时,还可以设置4小时或者6小时等作为一个实时数据采集窗口,本发明实施例对此不进行限定,应用服务器根据实时数据采集窗口应用客户端上报的数据访问记录中包含的标签列表结合用户画像中提取的标签列表确定用户感兴趣的标签,进一步地,针对用户感兴趣的标签进行扩展得到该标签的相似标签,根据用户感兴趣的标签及其相似标签选择向用户推荐的电子资源,以对用户短时内的兴趣偏好进行及时反馈,提高电子资源推荐的精准度。
其中,对于任一标签,可以根据各个用户访问该标签对应的电子资源的历史访问数据,确定出该标签对应的相似标签列表。
针对任一标签,具体实施时,可以按照图2所示的流程确定该标签对应的相似标签列表:
S21、根据电子资源标识对应的标签集合和从历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,确定各用户标识对应的标签。
具体实施时,应用服务器可以采集并记录所有在线电子资源的标识与该电子资源对应的标签集合所包含的标签之间的对应关系,具体实施时,为了降低计算复杂度,提高计算效率,应用服务器可以根据电子资源内容采用数字编码算法将其转换为数字得到电子资源标识,而对于标签,应用服务器可以采用该标签对应的数字标识进行记录。
每当有新的电子资源上线时,应用服务器对电子资源内容进行更新,同时更新记录的电子资源标识与标签标识之间的对应关系,其中,电子资源标识和标签标识可以由数字组成,一个电子资源可以对应多个标签,因此,一个电子资源标识可以对应多个标签标识,如表1所示:
表1
Figure BDA0001806155580000081
为了减少计算结果的误差,本发明实施例中,可以对历史访问数据进行预处理,以减少脏数据或者污染数据对结果造成的误差影响。具体实施时,针对历史访问数据中包含的电子资源,可以从用户角度和电子资源角度两个维度分别对电子资源进行划分,其中,对于不同用户访问过的电子资源,可以根据用户对电子数据的点击次数,设定点击次数上限,即对于同一用户来说,对同一电子资源点击次数超过设定上限,则确定该条数据为脏数据或者污染数据,需要滤除;而对于任一电子资源来说,可以为该电子资源分别设定点击次数上限和下限,即如果该电子资源对应的总点击次数大于设定的上限或者低于设定的下行,则确定该条数据为脏数据或者污染数据,需要滤除,采用该方法,可以筛选出满足条件的历史访问数据。
从用户历史访问数据中提取用户标识及其访问过的电子资源标识之间的对应关系。具体实施时,用户标识可以采用设备标识或者用户名等表示,同样,为了提高计算速度,本发明实施例中,应用服务器可以对用户名等采用数字编码算法进行编码得到对应的数字,如表2所示,为应用服务器提取的用户标识和电子资源标识之间的对应关系示意:
表2
Figure BDA0001806155580000091
S22、针对历史访问数据中包含的每一用户标识,根据该用户标识对应的标签,统计该用户标识对应于同一标签的访问频次。
具体实施时,由于不同的电子资源对应的标签可能重叠,因此,同一用户访问相同标签对应的不同电子资源的访问时,将产生对于该相同标签的多条数据记录,本发明实施例中,针对同一用户对于同一标签的数据记录采用累加方式,得到同一用户对于同一标签的访问频次。
S23、针对历史访问数据中同一电子资源对应的任两个标签,根据各个用户标识对应于该两个标签的访问频次,确定该两个标签之间的相似参数值。
具体实施时,可以利用余弦相似度确定两个标签之间的相似参数值,具体计算公式如下:
Figure BDA0001806155580000092
其中:
sim(i,j)表示Tag IDi和Tag IDj之间的相似参数值,ρi和ρj分别表示Tag IDi和Tag IDj在所有用户维度上的访问频次,本例中,ρi=(xi1,xi2,......,xin),ρj=(xj1,xj2,...,xjn),n表示用户数量。
以电子资源标识为CID1对应的标签Tag ID1和Tag ID2为例,假设各个用户UID1对标签Tag ID1和Tag ID2的访问频次分别为1,1;用户UID2对标签Tag ID1和Tag ID2的访问频次分别为1,2,用户UID3对标签Tag ID1和Tag ID2的访问频次分别为0,1,用户UID4对标签Tag ID1和Tag ID2的访问频次分别为0,1;亦即Tag ID1分别被用户UID1和用户UID2访问过,访问的次数分别为1次和两次,Tag ID2分别被用户UID2、用户UID3和UID4访问过,访问的次数各为1次,为了更好的理解,本实施例中以表3的形式进行描述:
表3
Figure BDA0001806155580000101
根据表3可知,ρ1=(1,2,0,0),ρ2=(0,1,1,1),则根据上述公式可以确定出TagID1和Tag ID2之间的相似参数值sim(1,2):
Figure BDA0001806155580000102
针对历史访问数据中包含的每一电子资源对应的标签,可以利用上述方法计算两两标签之间的相似参数值。
S24、针对任一标签,根据该标签与其它标签之间的相似参数值选择一定数量的标签得到相似标签列表并建立映射关系。
本步骤中,根据步骤S23的计算结果,针对任一标签可以根据该标签与其他标签之间的相似参数值,按照由大到小的顺序选择N个标签作为该标签的相似标签得到相似标签列表建立映射关系,其中,N为预设值且N为整数。
具体实施时,由于在线电子资源数量以及各电子资源对应的标签集合中包含的标签数量众多,本发明实施例中,为了降低计算复杂度,提高计算速度,针对电子资源对应的标签集合,可以从中选择出一定数量的标签参与计算。本发明实施例中,可以按照图3所示的流程从标签集合中选择出一定数量的标签,包括以下步骤:
S31、针对电子资源标识对应的标签集合中包含的每一标签,统计该标签在电子资源标识对应电子资源中的出现频次。
本步骤中,针对任一电子资源对应的标签集合中包含的任一标签,统计该标签在该电子资源中出现的次数。
S32、根据该标签的出现频次、电子资源标识对应的电子资源中包含的总词数以及所有在线电子资源数量和包含该标签的在线电子资源数量,确定该标签对应的评价参数值。
具体实施时,可以采用TF-IDF(词频-逆文本率)作为标签对应的评价参数值。根据步骤S31确定出的出现频次,可以按照以下公式计算该标签对应的TF值:
Figure BDA0001806155580000111
以及按照以下公式确定该标签对应的IDF值:
Figure BDA0001806155580000112
根据确定出的TF值和IDF值,可以按照以下公式确定该标签对应的评价参数值:TF*IDF。
S33、根据各个标签对应的评价参数值,从电子资源标识对应的标签集合中选择出关键标签。
步骤S33中,可以根据各个标签对应的评价参数值由大到小的顺序从标签集合中选择出M个标签作为关键标签,其中,M为预设值且M为整数。
这样,在步骤S21中,可以根据电子资源标识对应的关键标签和从历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,建立用户标识与标签之间的对应关系。其具体的实施方式与图2所示的流程类似,这里不再赘述。
在建立了每一标签与其相似标签列表之间的映射关系之后,应用服务器可以针对每一标签存储其与对应的相似标签列表之间的映射关系。具体实施时,为了提高查询效率,本发明实施例中,可以采用key(键)-Value(值)的方式进行存储,其中,在每一个键值对中,Key为Tag ID,Value为其对应的一个相似标签以及该相似标签对应的相似分数值构成的字符。
具体实施时,由于在线电子资源内容以及在线电子资源的历史访问数据是随时间变化的,因此,本发明实施例中,应用服务器可以每间隔一定的周期对标签与相似标签列表之间的映射关系进行更新,以提高计算结果的准确性。
基于上述建立的标签与相似标签列表之间的映射关系,本发明实施例中提供了一种电子资源推荐方法,如图4所示,可以包括以下步骤:
S41、针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表。
具体实施时,根据预先设定的实时数据采集窗口,应用客户端采集用户在每一实时数据采集窗口内的电子资源访问数据,例如,曝光电子资源列表、点击电子资源列表等上报给应用服务器,应用服务器根据客户端上报的访问数据,分别统计曝光电子资源列表中的电子资源对应的标签得到曝光标签列表,以及统计点击电子资源列表中的电子资源对应的标签得到点击标签列表。并在此基础上,统计用户在标签维度上的曝光频次和点击频次,从而确定在标签维度上的CTR(点击率)值,对于各个标签按照CTR值由大到小的顺序进行排序,如果CTR值相同,则按照点击时间排序,点击时间越近的标签排序越靠前。
本发明实施例中,可以提取点击标签列表得到第一标签列表。第一标签列表中的各个标签按照上述规则进行排序。
S42、根据第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表。
为了提高电子资源推荐结果的精准度,本发明实施例中,除了参考用户在短时内的访问数据以外,还引入了用户画像中的数据作为参考。
用户画像中根据用户的历史访问数据,为用户构建在一级类、二级类、标签等维度上的兴趣偏好。具体实施时,可以从用户画像中提取一定数量的标签得到第二标签列表。具体地,可以从用户画像中选择排序靠前的前R个标签组成第二标签列表。
在一个实施例中,可以以第一标签列表和第二标签列表中包含的所有标签组成候选标签列表。在另一实施例中,候选标签列表可以包括目标标签列表和补充标签列表,具体实施时,可以确定第一标签列表和第二标签列表中相同的标签作为目标标签列表,确定存在于第一标签列表中但不存在于第二标签列表中的标签组成补充标签列表。
具体实施时,如果第一标签列表不为空且目标标签列表不为空,则选择目标标签列表中包含的标签作为向用户推荐电子资源的依据,如果第一标签列表不为空但目标标签列表为空,则选择补充标签列表中包含的每一候选标签作为向用户推荐电子资源的依据。如果第一标签列表为空,则以第二标签列表中包含的标签作为向用户推荐电子资源的依据。
S43、根据预先建立的标签与相似标签列表之间的映射关系,确定候选标签列表中包含的每一候选标签对应的相似标签列表。
本步骤中,根据预先建立的标签与相似标签列表之间的映射关系,对每一候选标签进行扩展,得到其相似标签。
S44、根据候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向用户推荐的电子资源列表。
本步骤中,可以选择所有候选标签及其相似标签对应的电子资源推荐给用户,也可以选择满足条件的候选标签和/或相似标签,将其对应的电子资源推荐给用户。在一个实施例中,从各候选标签对应的相似标签列表中选择出现次数大于第一阈值和/或与各个候选标签之间的累和相似分数值大于第二阈值的相似标签,从选择出的相似标签对应的电子资源中,确定向所述用户推荐的电子资源列表。
例如,预先设定第一阈值为2,第二阈值为0.6,以候选标签列表中包含的候选标签为Tag ID1和Tag ID 2为例,其中,Tag ID1对应的相似标签列表以及各相似标签之间的相似参数值如表4所示:
表4
Figure BDA0001806155580000141
Tag ID2对应的相似标签列表以及各相似标签之间的相似参数值如表4所示:
表5
Figure BDA0001806155580000142
根据表4和表5可知,在Tag ID1和Tag ID 2对应的相似列表中共包含3个相似标签,即Tag A,Tag B和TagC,其中,TagA和tagC在各个相似列表中共出现一次,TagA对应的累和相似值分数为0.3,TagC对应的累和相似值分数为0.4,TagB在各个相似列表中共出现2次,其对应的累和相似值分数为0.3+0.5=0.8。根据预先设定的第一阈值为2,第二阈值为0.6可以确定,在本例中,满足条件的相似标签为Tag B。
最终,可以从Tag1、Tag2和TagB对应的电子资源中,确定向用户推荐的电子资源列表;或者,从Tag1和Tag2对应的电子资源中,确定用户推荐的电子资源列表;或者,从TagB对应的电子资源中,确定向用户推荐的电子资源列表等等,本发明实施例对此不进行限定。
具体实施时,在向用户返回推荐的电子资源列表时,可以按照电子资源发布时间由近及远的顺序对电子资源进行排序。
本发明实施例提供的电子资源推荐方法中,从用户在实时数据采集窗口访问过的电子资源中提取标签得到第一标签列表,结合从用户画像中提取的第二标签列表确定出用于给用户推荐电子资源的候选标签列表,与仅基于从用户画像中提取的标签进行电子资源推荐的技术方案,能够对用户近期的兴趣偏好及时反馈,从而提高了电子资源推荐的精准性。
基于同一发明构思,本发明实施例中还提供了一种电子资源推荐装置,由于上述装置解决问题的原理与电子资源推荐方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,其为本发明实施例提供的电子资源推荐装置的结构示意图,包括:
获得单元51,用于针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表;
第一确定单元52,用于根据所述第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表;
第二确定单元53,用于根据预先建立的标签与相似标签列表之间的映射关系,确定所述候选标签列表中包含的每一候选标签对应的相似标签列表,所述标签与相似标签列表之间的映射关系为根据各用户访问所述标签对应的电子资源的历史访问数据确定出的;
推荐单元54,用于根据所述候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向所述用户推荐的电子资源列表。
可选地,本发明实施例提供的电子资源推荐装置,还包括:
第三确定单元,用于根据电子资源标识对应的标签集合和从所述历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,建立所述用户标识与标签之间的对应关系;
第一统计单元,用于针对所述历史访问数据中包含的每一用户标识,根据该用户标识对应的标签,统计该用户标识对应于同一标签的访问频次;
第四确定单元,用于针对所述历史访问数据中同一电子资源对应的任两个标签,根据各个用户标识对应于该两个标签的访问频次,确定该两个标签之间的相似参数值;
映射关系建立单元,用于针对任一标签,根据该标签与其它标签之间的相似参数值选择一定数量的标签得到相似标签列表并建立映射关系。
可选地,本发明实施例提供的电子资源推荐装置,还包括第五确定单元和选择单元,其中:
所述统计单元,还用于在针对所述历史访问数据中包含的每一用户标识,根据该用户标识对应的标签,统计该用户标识对应于同一标签的访问频次之前,针对电子资源标识对应的标签集合中包含的每一标签,统计该标签在所述电子资源标识对应电子资源中的出现频次;
所述第五确定单元,用于根据所述出现频次、所述电子资源标识对应的电子资源中包含的总词数以及所有在线电子资源数量和包含该标签的在线电子资源数量,确定该标签对应的评价参数值;
选择单元,用于根据各个标签对应的评价参数值,从电子资源标识对应的标签集合中选择出关键标签;
所述第三确定单元,用于根据电子资源标识对应的关键标签和从所述历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,建立所述用户标识与标签之间的对应关系。
可选地,所述推荐单元,具体用于从各候选标签对应的所有相似标签列表中选择出现次数大于第一阈值和/或与各个候选标签之间的累和相似分数值大于第二阈值的相似标签;从选择出的相似标签对应的电子资源中,确定向所述用户推荐的电子资源列表。
可选地,所述候选标签列表包括目标标签列表和补充标签列表;
所述第一确定单元,具体用于确定所述第一标签列表和第二标签列表中相同的标签组成所述目标标签列表;确定存在于所述第一标签列表中但不存在于第二标签列表中的标签组成所述补充标签列表。
可选地,所述第二确定单元,具体用于如果所述目标标签列表不为空,则根据预先建立的标签与相似标签列表之间的映射关系,确定所述目标标签列表中包含的每一候选标签对应的相似标签列表;或者如果所述目标标签列表为空,则根据预先建立的标签与相似标签列表之间的映射关系,确定所述补充标签列表中包含的每一候选标签对应的相似标签列表。
可选地,所述获得单元,具体用于针对每一实时数据采集窗口,采集用户的电子资源访问数据;提取所述电子资源访问数据包含的电子资源所对应的标签得到所述第一标签列表。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本发明示例性实施方式的电子资源推荐方法和装置之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的电子资源推荐方法中的步骤。例如,所述处理器可以执行如图4中所示的步骤S41、针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表,和步骤S42、根据第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表;以及步骤S43、根据预先建立的标签与相似标签列表之间的映射关系,确定候选标签列表中包含的每一候选标签对应的相似标签列表;步骤S44、根据候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向用户推荐的电子资源列表。
下面参照图6来描述根据本发明的这种实施方式的计算装置60。图6显示的计算装置60仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算装置60以通用计算设备的形式表现。计算装置60的组件可以包括但不限于:上述至少一个处理器61、上述至少一个存储器62、连接不同系统组件(包括存储器62和处理器61)的总线63。
总线63表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器62可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)621和/或高速缓存存储器622,还可以进一步包括只读存储器(ROM)623。
存储器62还可以包括具有一组(至少一个)程序模块624的程序/实用工具625,这样的程序模块624包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置60也可以与一个或多个外部设备64(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置60交互的设备通信,和/或与使得该计算装置60能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口65进行。并且,计算装置60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器66通过总线63与用于计算装置60的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置60使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本发明提供的电子资源推荐方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的电子资源推荐方法中的步骤,例如,所述计算机设备可以执行如图4中所示的步骤S41、针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表,和步骤S42、根据第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表;以及步骤S43、根据预先建立的标签与相似标签列表之间的映射关系,确定候选标签列表中包含的每一候选标签对应的相似标签列表;步骤S44、根据候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向用户推荐的电子资源列表。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于电子资源推荐的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种电子资源推荐方法,其特征在于,包括:
针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表;
根据所述第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表;
根据预先建立的标签与相似标签列表之间的映射关系,确定所述候选标签列表中包含的每一候选标签对应的相似标签列表,所述标签与相似标签列表之间的映射关系为根据各用户访问所述标签对应的电子资源的历史访问数据确定出的;
根据所述候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向所述用户推荐的电子资源列表。
2.如权利要求1所述的方法,其特征在于,根据各用户访问所述标签对应的电子资源的历史访问数据,按照以下流程确定所述标签与相似标签列表之间的映射关系:
根据电子资源标识对应的标签集合和从所述历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,建立所述用户标识与标签之间的对应关系;并
针对所述历史访问数据中包含的每一用户标识,根据该用户标识对应的标签,统计该用户标识对应于同一标签的访问频次;
针对所述历史访问数据中同一电子资源对应的任两个标签,根据各个用户标识对应于该两个标签的访问频次,确定该两个标签之间的相似参数值;
针对任一标签,根据该标签与其它标签之间的相似参数值选择一定数量的标签得到相似标签列表并建立映射关系。
3.如权利要求2所述的方法,其特征在于,在针对所述历史访问数据中包含的每一用户标识,根据该用户标识对应的标签,统计该用户标识对应于同一标签的访问频次之前,还包括:
针对电子资源标识对应的标签集合中包含的每一标签,统计该标签在所述电子资源标识对应电子资源中的出现频次;
根据所述出现频次、所述电子资源标识对应的电子资源中包含的总词数以及所有在线电子资源数量和包含该标签的在线电子资源数量,确定该标签对应的评价参数值;
根据各个标签对应的评价参数值,从电子资源标识对应的标签集合中选择出关键标签;以及
根据电子资源标识对应的标签集合和从所述历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,建立所述用户标识与标签之间的对应关系,具体包括:
根据电子资源标识对应的关键标签和从所述历史访问数据中提取的用户标识与访问过的电子资源标识之间的对应关系,建立所述用户标识与标签之间的对应关系。
4.如权利要求1所述的方法,其特征在于,根据每一候选标签对应的相似标签列表,确定向所述用户推荐的电子资源列表,具体包括:
从各候选标签对应的所有相似标签列表中选择出现次数大于第一阈值和/或与各个候选标签之间的累和相似分数值大于第二阈值的相似标签;
从选择出的相似标签对应的电子资源中,确定向所述用户推荐的电子资源列表。
5.如权利要求1所述的方法,其特征在于,所述候选标签列表包括目标标签列表和补充标签列表;以及
根据所述第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表,具体包括:
确定所述第一标签列表和第二标签列表中相同的标签组成所述目标标签列表;
确定存在于所述第一标签列表中但不存在于第二标签列表中的标签组成所述补充标签列表。
6.如权利要求5所述的方法,其特征在于,根据预先建立的标签与相似标签列表之间的映射关系,确定所述候选标签列表中包含的每一候选标签对应的相似标签列表,具体包括:
如果所述目标标签列表不为空,则根据预先建立的标签与相似标签列表之间的映射关系,确定所述目标标签列表中包含的每一候选标签对应的相似标签列表;或者
如果所述目标标签列表为空,则根据预先建立的标签与相似标签列表之间的映射关系,确定所述补充标签列表中包含的每一候选标签对应的相似标签列表。
7.如权利要求1所述的方法,其特征在于,针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源包含的第一标签列表,具体包括:
针对每一实时数据采集窗口,采集用户的电子资源访问数据;
提取所述电子资源访问数据包含的电子资源所对应的标签得到所述第一标签列表。
8.一种电子资源推荐装置,其特征在于,包括:
获得单元,用于针对每一实时数据采集窗口,获得用户在该实时数据采集窗口内访问过的电子资源对应的第一标签列表;
第一确定单元,用于根据所述第一标签列表和从用户画像中提取的第二标签列表,确定候选标签列表;
第二确定单元,用于根据预先建立的标签与相似标签列表之间的映射关系,确定所述候选标签列表中包含的每一候选标签对应的相似标签列表,所述标签与相似标签列表之间的映射关系为根据各用户访问所述标签对应的电子资源的历史访问数据确定出的;
推荐单元,用于根据所述候选标签列表中包含的标签和/或每一候选标签对应的相似标签列表中包含的标签,确定向所述用户推荐的电子资源列表。
9.一种计算装置,其特征在于,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~7任一权利要求所述方法的步骤。
10.一种计算机可读介质,其特征在于,其存储有可由计算装置执行的计算机程序,当所述程序在计算装置上运行时,使得所述计算装置执行权利要求1~7任一所述方法的步骤。
CN201811098723.4A 2018-09-20 2018-09-20 一种电子资源推荐方法、装置和存储介质 Active CN110929177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811098723.4A CN110929177B (zh) 2018-09-20 2018-09-20 一种电子资源推荐方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811098723.4A CN110929177B (zh) 2018-09-20 2018-09-20 一种电子资源推荐方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110929177A true CN110929177A (zh) 2020-03-27
CN110929177B CN110929177B (zh) 2024-04-02

Family

ID=69856216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811098723.4A Active CN110929177B (zh) 2018-09-20 2018-09-20 一种电子资源推荐方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110929177B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016885A1 (en) * 2010-07-16 2012-01-19 Ibm Corporation Adaptive and personalized tag recommendation
CN106649316A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 一种视频推送方法及装置
CN107451217A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 资讯推荐方法及装置
CN107800801A (zh) * 2017-11-07 2018-03-13 上海电机学院 一种基于用户学习偏好的学习资源推送方法及系统
CN108228784A (zh) * 2017-12-28 2018-06-29 暴风集团股份有限公司 视频推荐方法和装置、电子设备、存储介质、程序

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016885A1 (en) * 2010-07-16 2012-01-19 Ibm Corporation Adaptive and personalized tag recommendation
CN106649316A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 一种视频推送方法及装置
CN107451217A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 资讯推荐方法及装置
CN107800801A (zh) * 2017-11-07 2018-03-13 上海电机学院 一种基于用户学习偏好的学习资源推送方法及系统
CN108228784A (zh) * 2017-12-28 2018-06-29 暴风集团股份有限公司 视频推荐方法和装置、电子设备、存储介质、程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金浙良;胡桂明;: "融合动态标签优化协同过滤推荐算法", 机械设计与制造, no. 02 *

Also Published As

Publication number Publication date
CN110929177B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
US11716401B2 (en) Systems and methods for content audience analysis via encoded links
US11443010B2 (en) Systems and methods for benchmarking online activity via encoded links
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
CN102609474B (zh) 一种访问信息提供方法及系统
US20170091838A1 (en) Product recommendation using sentiment and semantic analysis
US10713666B2 (en) Systems and methods for curating content
US10169730B2 (en) System and method to present a summarized task view in a case management system
US20170180496A1 (en) Systems and methods for analyzing traffic across multiple media channels via encoded links
CN107256267A (zh) 查询方法和装置
US20130159826A1 (en) Systems and methods for recommending a list of urls
CN102483745A (zh) 共同选择图像分类
US20180060426A1 (en) Systems and methods for issue management
US9367638B2 (en) Surfacing actions from social data
US11620283B2 (en) Method and system for analytic based connections among user types in an online platform
CN103970796A (zh) 查询偏好排序方法和装置
US20170180495A1 (en) Systems and methods for online activity monitoring via cookies
CN112330412B (zh) 一种产品推荐方法、装置、计算机设备及存储介质
CN106354867A (zh) 多媒体资源的推荐方法及装置
CN112328889A (zh) 推荐搜索词确定方法、装置、可读介质及电子设备
CN110188291B (zh) 基于代理日志的文档处理
US10785332B2 (en) User lifetime revenue allocation associated with provisioned content recommendations
US20210264480A1 (en) Text processing based interface accelerating
US20160124946A1 (en) Managing a set of data
CN108132940B (zh) 一种应用程序数据提取方法及装置
KR102322212B1 (ko) 학습 콘텐츠 추천 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021668

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant