CN108846097A - 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 - Google Patents

用户的兴趣标签表示方法、文章推荐方法、及装置、设备 Download PDF

Info

Publication number
CN108846097A
CN108846097A CN201810622649.5A CN201810622649A CN108846097A CN 108846097 A CN108846097 A CN 108846097A CN 201810622649 A CN201810622649 A CN 201810622649A CN 108846097 A CN108846097 A CN 108846097A
Authority
CN
China
Prior art keywords
user
vector
article
target user
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810622649.5A
Other languages
English (en)
Other versions
CN108846097B (zh
Inventor
林玻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201810622649.5A priority Critical patent/CN108846097B/zh
Publication of CN108846097A publication Critical patent/CN108846097A/zh
Application granted granted Critical
Publication of CN108846097B publication Critical patent/CN108846097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种用户的兴趣标签表示方法、文章推荐方法、及装置、设备,该方法包括:收集目标用户的文章阅读行为;根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章;计算所述目标用户的感兴趣文章对应的文本向量;根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签。本申请基于用户感兴趣文章对应的文本向量生成用户向量,并利用连续型数据即用户向量对用户的兴趣标签进行表示,能够实现对用户的阅读偏好或兴趣的全面准确描述。本申请提供的文章推荐方法利用二值型向量进行匹配,很大程度上提高了匹配效率,能够快速完成文章推荐。

Description

用户的兴趣标签表示方法、文章推荐方法、及装置、设备
技术领域
本申请涉及数据处理领域,具体涉及一种用户的兴趣标签表示方法、文章推荐方法、及装置、设备。
背景技术
用户画像,是根据用户社会属性、生活习惯和消费行为等信息抽象出的一个标签化的用户模型,构建用户画像的核心是给用户贴标签,而标签时通过对用户的各项信息的分析得来的高度精炼的特征标识。
不同产品的用户画像专注于用户不同领域的画像特征,目前的阅读类产品的用户画像,通常描述用户的阅读偏好,基于该用户画像,可以向用户进行感兴趣文章推荐,以达到用户精准个性化阅读的效果。对用户的阅读偏好的精准描述,影响着阅读类产品的推荐精准度,从而影响着用户的产品体验。
目前,对用户的阅读偏好的描述主要使用文字标签完成,比如某个用户对体育感兴趣,那么他的兴趣标签可能会是——“体育、足球、C罗、欧冠,……”,这些兴趣标签往往都是基于该用户的阅读习惯,也就是阅读历史提取的标签。但是,由于使用文字标签对用户的阅读偏好或兴趣进行描述会有一定的描述误差或信息丢失,所以存在描述不全面以及不准确的问题。
发明内容
为解决上述问题,本申请提供了一种用户的兴趣标签表示方法、装置及设备,具体技术方案如下:
第一方面,本申请提供了一种用户的兴趣标签表示方法,所述方法包括:
收集目标用户的文章阅读行为;
根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章;
计算所述目标用户的感兴趣文章对应的文本向量;
根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签。
可选的,所述计算所述目标用户的感兴趣文章对应的文本向量,包括:
利用预先训练的神经网络隐层,计算所述目标用户的感兴趣文章对应的文本向量。
可选的,所述利用预先训练的神经网络隐层,计算所述目标用户的感兴趣文章对应的文本向量,包括:
提取所述目标用户的任一感兴趣文章中的特征词,并确定各个特征词分别对应的词向量;
将各个词向量作为预先训练的神经网络隐层的输入参数,由所述神经网络隐层计算各个词向量的均值,并将所述均值输出为所述感兴趣文章对应的文本向量。
可选的,所述方法还包括:
根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章分别对应的权重值;
相应的,所述根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量,包括:
根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量。
可选的,所述根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量,包括:
利用公式(1)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;user_vector为所述目标用户的用户向量。
可选的,所述根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量,包括:
利用公式(2)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;words_num[i]为所述第i篇感兴趣文章对应的特征词数量;total_num为所述目标用户的感兴趣文章的特征词总数量;user_vector为所述目标用户的用户向量。
可选的,所述根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量之前,还包括:
计算所述目标用户的感兴趣文章对应的文本向量的平均值或中值;
将所述平均值或所述中值确定为所述目标用户的初始用户向量;其中,所述初始用户向量用于表示所述目标用户的初始兴趣标签;
利用所述目标用户的用户向量更新所述目标用户的初始用户向量。
可选的,所述利用所述目标用户的用户向量更新所述目标用户的初始用户向量,包括:
通过公式(3),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
user_vector_new=(1-η)×user_vector_ini+η×user_vector (3)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率。9、根据权利要求7所述的用户的兴趣标签表示方法,其特征在于,所述利用所述目标用户的用户向量更新所述目标用户的初始用户向量,包括:
通过公式(4),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
words_num_new=(1-η)×words_num_ini+η×words_num_avg;
words_num_avg=total_num/n (4)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率;total_num为所述目标用户的感兴趣文章的特征词总数量;words_num_ini为所述目标用户初始感兴趣文章的平均特征词数量;words_num_avg为所述目标用户当前感兴趣文章的平均特征词数量;words_num_new为所述目标用户的更新后感兴趣文章的平均特征词数量。
可选的,所述方法还包括:
将所述目标用户的用户向量作为经过训练的分类器的输入参数,由所述分类器对所述用户向量进行分类后,输出所述目标用户的兴趣标签与预测概率的映射关系。
可选的,所述将所述目标用户的用户向量作为经过训练的分类器的输入参数之前,还包括:
将具有兴趣标签的文章作为分类器的训练样本;
利用所述训练样本对所述分类器进行训练,得到经过训练的分类器。
第二方面,本申请提供了一种文章推荐方法,所述方法包括:
将目标用户的用户向量转换为二值型用户向量;其中,所述用户向量为利用上述权利要求1-11中任一项所述的用户的兴趣标签表示方法计算得到的;
在预设的文章数据库中,查询与所述二值型用户向量匹配的二值型文本向量;其中,所述文章数据库中存储有文章与二值型文本向量的对应关系;
将与所述二值型用户向量匹配的二值型文本向量对应的文章,推荐给所述目标用户。
可选的,所述将目标用户的用户向量转换为二值型用户向量;其中,所述用户向量为利用上述任一项所述的用户的兴趣标签表示方法计算得到的,包括:
将所述目标用户的感兴趣文章对应的文本向量的平均值或中值,确定为所述目标用户的阈值向量;
将所述目标用户的用户向量与所述阈值向量进行比较,确定所述目标用户的二值型用户向量。
可选的,所述在预设的文章数据库中,查询与所述二值型用户向量匹配的二值型文本向量之前,还包括:
将预设的文章数据库中各个文章的文本向量与所述阈值向量进行比较,得到各个文章对应的二值型文本向量;
将各个文章与二值型文本向量的对应关系存储于所述文章数据库。
第三方面,本申请提供了一种用户的兴趣标签表示装置,所述装置包括:
收集模块,用于收集目标用户的文章阅读行为;
第一确定模块,用于根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章;
第一计算模块,用于计算所述目标用户的感兴趣文章对应的文本向量;
第二计算模块,用于根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签。
可选的,所述第一计算模块,包括:
第一计算子模块,用于利用预先训练的神经网络隐层,计算所述目标用户的感兴趣文章对应的文本向量。
可选的,所述第一计算子模块,包括:
第一确定子模块,用于提取所述目标用户的任一感兴趣文章中的特征词,并确定各个特征词分别对应的词向量;
第二计算子模块,用于将各个词向量作为预先训练的神经网络隐层的输入参数,由所述神经网络隐层计算各个词向量的均值,并将所述均值输出为所述感兴趣文章对应的文本向量。
可选的,所述装置还包括:
第二确定模块,用于根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章分别对应的权重值;
相应的,所述第二计算模块,包括:
第三计算子模块,用于根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量。
可选的,所述第三计算子模块,包括:
第四计算子模块,用于利用公式(1)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;user_vector为所述目标用户的用户向量。
可选的,所述第三计算子模块,包括:
第五计算子模块,用于利用公式(2)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;words_num[i]为所述第i篇感兴趣文章对应的特征词数量;total_num为所述目标用户的感兴趣文章的特征词总数量;user_vector为所述目标用户的用户向量。
可选的,所述装置,还包括:
第三计算模块,用于计算所述目标用户的感兴趣文章对应的文本向量的平均值或中值;
第三确定模块,用于将所述平均值或所述中值确定为所述目标用户的初始用户向量;其中,所述初始用户向量用于表示所述目标用户的初始兴趣标签;
更新模块,用于利用所述目标用户的用户向量更新所述目标用户的初始用户向量。
可选的,所述更新模块,包括:
第一更新子模块,用于通过公式(3),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
user_vector_new=(1-η)×user_vector_ini+η×user_vector (3)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率。
可选的,所述更新模块,包括:
第二更新子模块,用于通过公式(4),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
words_num_new=(1-η)×words_num_ini+η×words_num_avg;
words_num_avg=total_num/n (4)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率;total_num为所述目标用户的感兴趣文章的特征词总数量;words_num_ini为所述目标用户初始感兴趣文章的平均特征词数量;words_num_avg为所述目标用户当前感兴趣文章的平均特征词数量;words_num_new为所述目标用户的更新后感兴趣文章的平均特征词数量。
可选的,所述装置还包括:
分类模块,用于将所述目标用户的用户向量作为经过训练的分类器的输入参数,由所述分类器对所述用户向量进行分类后,输出所述目标用户的兴趣标签与预测概率的映射关系。
可选的,所述装置还包括:
第四确定模块,用于将具有兴趣标签的文章作为分类器的训练样本;
训练模块,用于利用所述训练样本对所述分类器进行训练,得到经过训练的分类器。
第四方面,本申请提供了一种文章推荐装置,所述装置包括:
转换模块,用于将目标用户的用户向量转换为二值型用户向量;其中,所述用户向量为利用上述权利要求15-25中任一项所述的用户的兴趣标签表示装置计算得到的;
查询模块,用于在预设的文章数据库中,查询与所述二值型用户向量匹配的二值型文本向量;其中,所述文章数据库中存储有文章与二值型文本向量的对应关系;
推荐模块,用于将与所述二值型用户向量匹配的二值型文本向量对应的文章,推荐给所述目标用户。
可选的,所述转换模块,包括:
第二确定子模块,用于将所述目标用户的感兴趣文章对应的文本向量的平均值或中值,确定为所述目标用户的阈值向量;
第三确定子模块,用于将所述目标用户的用户向量与所述阈值向量进行比较,确定所述目标用户的二值型用户向量。
可选的,所述装置,还包括:
比较模块,用于将预设的文章数据库中各个文章的文本向量与所述阈值向量进行比较,得到各个文章对应的二值型文本向量;
存储模块,用于将各个文章与二值型文本向量的对应关系存储于所述文章数据库。
第五方面,本申请提供了一种用户的兴趣标签表示设备,,所述设备包括存储器和处理器,
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行任一项所述的用户的兴趣标签表示方法。
第六方面,本申请提供了一种文章推荐设备,所述设备包括存储器和处理器,
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行任一项所述的文章推荐方法。
本申请提供的用户的兴趣标签表示方法,首先收集目标用户的文章阅读行为,其次,根据目标用户的阅读行为,确定该目标用户的感兴趣文章,然后计算各个感兴趣文章对应的文本向量,最后,根据该目标用户的感兴趣文章对应的文本向量,计算该目标用户的用户向量;其中,用户向量用于表示目标用户的兴趣标签。本申请基于用户感兴趣文章对应的文本向量生成用户向量,并利用连续型数据即用户向量对用户的兴趣标签进行表示,能够实现对用户的阅读偏好或兴趣的全面准确描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种用户的兴趣标签表示方法的流程图;
图2为本申请实施例提供的一种利用神经网络隐层计算目标用户的感兴趣文章对应的文本向量的示意图;
图3为本申请实施例提供的一种包括神经网络隐层和分类器的浅层神经网络分类模型示意图;
图4为本申请实施例提供的一种文章推荐方法的流程图;
图5为本申请实施例提供的一种用户的兴趣标签表示装置的结构示意图;
图6为本申请实施例提供的一种文章推荐装置的结构示意图;
图7为本申请实施例提供一种用户的兴趣标签表示设备的结构示意图;
图8为本申请实施例提供一种文章推荐设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,利用文字标签对用户的兴趣标签进行表示的方法,不可能将用户的所有阅读文章中的关键词提取作为该用户的兴趣标签,所以上述方法存在对用户的兴趣标签表示不全面且不准确的问题,另外,用户的阅读喜好是有可能随着时间变化的,所以上述方法也存在时效性的问题。另外,基于上述方法表示的用户兴趣标签查找用户感兴趣文章时,由于以词为粒度,所以查找到的用户感兴趣文章精准率也较低。
基于上述问题,本申请提供了一种用户的兴趣标签表示方法,首先收集目标用户的文章阅读行为,其次,根据目标用户的阅读行为,确定该目标用户的感兴趣文章,然后计算各个感兴趣文章对应的文本向量,最后,根据该目标用户的感兴趣文章对应的文本向量,计算该目标用户的用户向量;其中,用户向量用于表示目标用户的兴趣标签。本申请基于用户感兴趣文章对应的文本向量生成用户向量,并利用连续型数据即用户向量对用户的兴趣标签进行表示,能够实现对用户的阅读偏好或兴趣的全面准确描述。
以下具体介绍本申请提供的一种用户的兴趣标签表示方法的实施例,参考图1,为本申请实施例提供的一种用户的兴趣标签表示方法的流程图,该方法具体包括:
S101:收集目标用户的文章阅读行为。
本申请实施例中,对目标用户的文章阅读行为进行收集,其中,文章阅读行为包括用户阅读的文章、评论的文章、转发的文章、点赞的文章等,通过文章阅读行为能够获知目标用户的感兴趣领域、内容、主题等,以及各个感兴趣领域、内容、主题的喜好程度等。
实际应用中,目标用户的文章阅读行为可以是距当前一定时间内收集到的,例如,收集一周内目标用户的文章阅读行为,以便收集到的文章阅读行为具有时效性。
S102:根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章。
本申请实施例中,在收集到目标用户的文章阅读行为后,根据该文章阅读行为确定目标用户的感兴趣文章。
实际应用中,在根据目标用户的文章阅读行为获知该目标用户感兴趣领域、内容、主题后,通过与预先存储的语料库中的文章进行匹配,确定该目标用户的感兴趣文章。其中,预先存储的语料库中包括各种文章及其所属领域、所包含内容、所属主题的记录,通过将目标用户感兴趣领域、内容、主题与语料库中的文章进行匹配,确定出目标用户的感兴趣文章。
S103:计算所述目标用户的感兴趣文章对应的文本向量。
本申请实施例中,在确定目标用户的感兴趣文章后,计算感兴趣文章对应的文本向量,其中,文本向量用于表示对应的感兴趣文章的特征。
实际应用中,可以利用预先训练的神经网络隐层,计算目标用户的感兴趣文章对应的文本向量。参见图2所示,图2为利用神经网络隐层计算目标用户的感兴趣文章对应的文本向量的示意图,具体的,可以包括:
S1:提取所述目标用户的任一感兴趣文章中的特征词,并确定各个特征词分别对应的词向量。
本申请实施例中,针对目标用户的每一篇感兴趣文章,均需要提取其中的特征词,具体的,经过对感兴趣文章进行文本清洗、文本分词、特征词过滤等处理步骤,最终得到该感兴趣文章的特征词。例如,在提取特征词之前需要过滤掉“的”、“地”、“得”等没有实际意思的词,得到具有明确含义的词作为特征词。
实际应用中,通过查询词向量表,确定提取到的各个特征词分别对应的词向量。其中,词向量表用于存储各个特征词与词向量的对应的关系,当任一特征词的词向量存在变化时,可以更新词向量表。
S2:将各个词向量作为预先训练的神经网络隐层的输入参数,由所述神经网络隐层计算各个词向量的均值,并将所述均值输出为所述感兴趣文章对应的文本向量。
本申请实施例中,在确定目标用户的某一篇感兴趣文章的特征词分别对应的词向量后,将各个词向量作为预先训练的神经网络隐层的输入参数,由该神经网络隐层计算各个词向量的均值,最终输出该均值作为该感兴趣文章对应的文本向量。
实际应用中,各个特征词对应的词向量一般为50至400维,假设词向量为形如[0.20,-0.43,0.54,…,-0.83]的100维向量,则通过神经网络隐层的计算也会得到一个100维的浮点向量,该浮点向量则为文本向量。
对于神经网络隐层的训练过程会在后续进行介绍。
S104:根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签。
本申请实施例中,在计算得到目标用户的感兴趣文章分别对应的文本向量后,计算该目标用户的用户向量。
实际应用中,在S102中根据目标用户的文章阅读行为,确定目标用户的感兴趣文章时,还可以确定各个感兴趣文章的权重值,用于表示目标用户对其的喜好程度。其中权重值的范围为[-1,1],负值表示厌恶程度,具体的,可以将目标用户阅读遍数最多的文章的权重值设置的较大,将目标用户点赞多的文章的权重值设置的较大等。
在确定目标用户的感兴趣文章、对应的权重值、对应的文本向量后,计算该目标用户的用户向量。
一种可选的实时方式中,可以利用公式(1)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;user_vector为所述目标用户的用户向量。
另一种可选的实施方式中,还可以利用公式(2)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;words_num[i]为所述第i篇感兴趣文章对应的特征词数量;total_num为所述目标用户的感兴趣文章的特征词总数量;user_vector为所述目标用户的用户向量。
由于上述第二种可选的实施方式中考虑了每篇感兴趣文章对应的特征词数量,从特征词的粒度计算用户向量,所以相比第一种可选的实施方式,更具有准确性。
本申请实施例提供的用户的兴趣标签表示方法,首先收集目标用户的文章阅读行为,其次,根据目标用户的阅读行为,确定该目标用户的感兴趣文章,然后计算各个感兴趣文章对应的文本向量,最后,根据该目标用户的感兴趣文章对应的文本向量,计算该目标用户的用户向量;其中,用户向量用于表示目标用户的兴趣标签。本申请实施例基于用户感兴趣文章对应的文本向量生成用户向量,并利用连续型数据即用户向量对用户的兴趣标签进行表示,能够实现对用户的阅读偏好或兴趣的全面准确描述。
另外,由于目标用户的用户向量具有时效性,即目标用户的兴趣是随着时间变化的,因此,本申请实施例还需要对目标用户的用户向量进行更新,以下具体对用户向量的更新方法进行介绍。
一种实现方式中,目标用户的初始用户向量的计算方式如下:
首先,计算所述目标用户的感兴趣文章对应的文本向量的平均值或中值;
其次,将所述平均值或所述中值确定为所述目标用户的初始用户向量;其中,所述初始用户向量用于表示所述目标用户的初始兴趣标签。
后续通过对目标用户的初始兴趣标签的更新,使得目标用户的用户向量具有时效性。
具体的,可以利用上述实施例中计算得到的目标用户的用户向量更新所述目标用户的初始用户向量。
一种可选的更新方式中,可以通过公式(3),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
user_vector_new=(1-η)×user_vector_ini+η×user_vector (3)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率。
另一种可选的更新方式中,可以通过公式(4),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
words_num_new=(1-η)×words_num_ini+η×words_num_avg;
words_num_avg=total_num/n (4)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率;total_num为所述目标用户的感兴趣文章的特征词总数量;words_num_ini为所述目标用户初始感兴趣文章的平均特征词数量;words_num_avg为所述目标用户当前感兴趣文章的平均特征词数量;words_num_new为所述目标用户的更新后感兴趣文章的平均特征词数量。
其中,更新频率可以根据具体需求进行设定,针对不同用户的阅读习惯进行更新频率的设定。
另外,本申请实施例在根据目标用户的感兴趣文章对应的文本向量,计算该目标用户的用户向量后,由于用户向量用于表示该目标用户的兴趣标签,所以,基于该目标用户的用户向量,可以得到该目标用户的兴趣标签和概率。
具体的,可以利用经过训练的分类器实现上述用户的兴趣标签和概率的计算。其中,分类器可以为softmax分类器或者Hierarchical Softmax分类器,在分类器的类别标签较少时,可以采用softmax分类器直接预测分类;相反,类别标签较多时,则可采用Hierarchical Softmax层次化的分类器进行预测分类,提高效率。
实际应用中,将目标用户的用户向量作为经过训练的分类器的输入参数,由giant分类器对该用户向量进行分类后,输出该目标用户的兴趣标签与预测概率的映射关系。其中,通过输出的该目标用户的兴趣标签与预测概率的映射关系,能够反映出该目标用户的兴趣分布。
参考图3,为本申请实施例提供的一种包括神经网络隐层和分类器的浅层神经网络分类模型示意图,本申请实施例可以利用预先从文本库中获取到的具有兴趣标签的文章作为训练样本,对该浅层神经网络分类模型进行训练。
具体的,预先对训练文本进行文本清洗、文本分词、特征词过滤等处理步骤,同时监督兴趣标签的确定过程,包括关键词提取、主题与话题识别、类别识别等兴趣标签的确定方法。其次,将经过上述处理的训练样本用于对浅层神经网络分类模型进行训练,将预测结果与训练样本的兴趣标签做对比得到损失函数,在训练的不断循环过程中,将词向量与神经网络隐层和分类器中的网络结构参数也不断更新训练,最后这些参数与网络结构共同组成训练结果模型,得到经过训练的包括神经网络隐层和分类器的浅层神经网络分类模型。经过训练的神经网络隐层可以用于上述用户的兴趣标签表示方法中,而经过训练的分类器可以用于上述对用户向量的分类中。
本申请实施例提供的用户的兴趣标签表示方法中得到用户向量可以用于各种领域,以下以文章推荐领域进行介绍,参考图4,为本申请提供的一种文章推荐方法的流程图,该方法包括:
S401:将目标用户的用户向量转换为二值型用户向量。
为了提高匹配出向目标用户推荐的文章的效率,本申请实施例预先将利用上述用户的兴趣标签表示方法计算出的浮点型文本向量转换成二值型用户向量,通过二值型数据之间比较,能够快速匹配出向目标用户推荐的文章。
一种可选的实施方式中,将目标用户的用户向量转换为二值型用户向量,具体可以包括:
S10:将所述目标用户的感兴趣文章对应的文本向量的平均值或中值,确定为所述目标用户的阈值向量。
S20:将所述目标用户的用户向量与所述阈值向量进行比较,确定所述目标用户的二值型用户向量。
实际应用中,可以选取目标用户的若干感兴趣文章,计算其对应的文本向量的平均值或中值,作为目标用户的阈值向量。假设计算得到的阈值向量为[0.4,0.5],目标用户的浮点型用户向量为[0.3,0.6],则将大于阈值向量相应位的二值型用户向量的对应位取1,否则取0,即由于0.3<0.4且0.6>0.5,则对应的二值型(bit)型用户向量为[0,1]或表示为“01”。
S402:在预设的文章数据库中,查询与所述二值型用户向量匹配的二值型文本向量;其中,所述文章数据库中存储有文章与二值型文本向量的对应关系。
本申请实施例中,可以利用S501中的计算方式,预先计算文章数据库中的各个文章的二值型文本向量,具体方法如下:
S40:将预设的文章数据库中各个文章的文本向量与所述阈值向量进行比较,得到各个文章对应的二值型文本向量;
S50:将各个文章与二值型文本向量的对应关系存储于所述文章数据库。
本申请实施例中,将二值型用户向量与文本数据库中的各个二值型文本向量进行匹配,如果存在匹配成功的二值型文本向量,则说明存在推荐给目标用户的文章,否则不存在推荐给目标用户的文章。
S403:将与所述二值型用户向量匹配的二值型文本向量对应的文章,推荐给所述目标用户。
实际应用中,将与目标用户的二值型用户向量匹配的二值型文本向量对应的文章推荐给该目标用户,具体的匹配成功的文章的个数可以为一个或多个。
本申请实施例提供的文章推荐方法,利用二值型向量进行匹配,完成对用户的文章推荐,很大程度上提高了匹配效率,能够快速完成文章推荐。
与上述方法实施例相对应的,本申请实施例还提供了一种用户的兴趣标签表示装置,参考图5,图5为本申请实施例提供的一种用户的兴趣标签表示装置的结构示意图,所述装置包括:
收集模块501,用于收集目标用户的文章阅读行为;
第一确定模块502,用于根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章;
第一计算模块503,用于计算所述目标用户的感兴趣文章对应的文本向量;
第二计算模块504,用于根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签。
所述第一计算模块,包括:
第一计算子模块,用于利用预先训练的神经网络隐层,计算所述目标用户的感兴趣文章对应的文本向量。
所述第一计算子模块,包括:
第一确定子模块,用于提取所述目标用户的任一感兴趣文章中的特征词,并确定各个特征词分别对应的词向量;
第二计算子模块,用于将各个词向量作为预先训练的神经网络隐层的输入参数,由所述神经网络隐层计算各个词向量的均值,并将所述均值输出为所述感兴趣文章对应的文本向量。
所述装置还包括:
第二确定模块,用于根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章分别对应的权重值;
相应的,所述第二计算模块,包括:
第三计算子模块,用于根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量。
所述第三计算子模块,包括:
第四计算子模块,用于利用公式(1)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;user_vector为所述目标用户的用户向量。
所述第三计算子模块,包括:
第五计算子模块,用于利用公式(2)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;words_num[i]为所述第i篇感兴趣文章对应的特征词数量;total_num为所述目标用户的感兴趣文章的特征词总数量;user_vector为所述目标用户的用户向量。
所述装置,还包括:
第三计算模块,用于计算所述目标用户的感兴趣文章对应的文本向量的平均值或中值;
第三确定模块,用于将所述平均值或所述中值确定为所述目标用户的初始用户向量;其中,所述初始用户向量用于表示所述目标用户的初始兴趣标签;
更新模块,用于利用所述目标用户的用户向量更新所述目标用户的初始用户向量。
所述更新模块,包括:
第一更新子模块,用于通过公式(3),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
user_vector_new=(1-η)×user_vector_ini+η×user_vector (3)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率。
所述更新模块,包括:
第二更新子模块,用于通过公式(4),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
words_num_new=(1-η)×words_num_ini+η×words_num_avg;
words_num_avg=total_num/n (4)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率;total_num为所述目标用户的感兴趣文章的特征词总数量;words_num_ini为所述目标用户初始感兴趣文章的平均特征词数量;words_num_avg为所述目标用户当前感兴趣文章的平均特征词数量;words_num_new为所述目标用户的更新后感兴趣文章的平均特征词数量。
所述装置还包括:
分类模块,用于将所述目标用户的用户向量作为经过训练的分类器的输入参数,由所述分类器对所述用户向量进行分类后,输出所述目标用户的兴趣标签与预测概率的映射关系。
所述装置还包括:
第四确定模块,用于将具有兴趣标签的文章作为分类器的训练样本;
训练模块,用于利用所述训练样本对所述分类器进行训练,得到经过训练的分类器。
本申请实施例提供的用户的兴趣标签表示装置,首先收集目标用户的文章阅读行为,其次,根据目标用户的阅读行为,确定该目标用户的感兴趣文章,然后计算各个感兴趣文章对应的文本向量,最后,根据该目标用户的感兴趣文章对应的文本向量,计算该目标用户的用户向量;其中,用户向量用于表示目标用户的兴趣标签。本申请实施例基于用户感兴趣文章对应的文本向量生成用户向量,并利用连续型数据即用户向量对用户的兴趣标签进行表示,能够实现对用户的阅读偏好或兴趣的全面准确描述。
另外,本申请实施例还提供了一种文章推荐装置,参考图6,为本申请实施例提供的一种文章推荐装置的结构示意图,所述装置包括:
转换模块601,用于将目标用户的用户向量转换为二值型用户向量;其中,所述用户向量为利用上述用户的兴趣标签表示装置计算得到的;
查询模块602,用于在预设的文章数据库中,查询与所述二值型用户向量匹配的二值型文本向量;其中,所述文章数据库中存储有文章与二值型文本向量的对应关系;
推荐模块603,用于将与所述二值型用户向量匹配的二值型文本向量对应的文章,推荐给所述目标用户。
所述转换模块,包括:
第二确定子模块,用于将所述目标用户的感兴趣文章对应的文本向量的平均值或中值,确定为所述目标用户的阈值向量;
第三确定子模块,用于将所述目标用户的用户向量与所述阈值向量进行比较,确定所述目标用户的二值型用户向量。
所述装置,还包括:
比较模块,用于将预设的文章数据库中各个文章的文本向量与所述阈值向量进行比较,得到各个文章对应的二值型文本向量;
存储模块,用于将各个文章与二值型文本向量的对应关系存储于所述文章数据库。
本申请实施例提供的文章推荐装置,利用二值型向量进行匹配,完成对用户的文章推荐,很大程度上提高了匹配效率,能够快速完成文章推荐。
相应的,本发明实施例还提供一种用户的兴趣标签表示设备,参见图7所示,可以包括:
处理器701、存储器702、输入装置703和输出装置704。用户的兴趣标签表示设备中的处理器701的数量可以一个或多个,图7中以一个处理器为例。在本发明的一些实施例中,处理器701、存储器702、输入装置703和输出装置704可通过总线或其它方式连接,其中,图7中以通过总线连接为例。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行用户的兴趣标签表示设备的各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置703可用于接收输入的数字或字符信息,以及产生与用户的兴趣标签表示设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现上述用户的兴趣标签表示方法中的各种功能。
相应的,本发明实施例还提供一种文章推荐设备,参见图8所示,可以包括:
处理器801、存储器802、输入装置803和输出装置804。文章推荐设备中的处理器801的数量可以一个或多个,图8中以一个处理器为例。在本发明的一些实施例中,处理器801、存储器802、输入装置803和输出装置804可通过总线或其它方式连接,其中,图8中以通过总线连接为例。
存储器802可用于存储软件程序以及模块,处理器801通过运行存储在存储器802的软件程序以及模块,从而执行文章推荐设备的各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置803可用于接收输入的数字或字符信息,以及产生与文章推荐设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器801会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器801来运行存储在存储器802中的应用程序,从而实现上述文章推荐方法中的各种功能。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请实施例所提供的一种用户的兴趣标签表示方法、文章推荐方法、及装置、设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (30)

1.一种用户的兴趣标签表示方法,其特征在于,所述方法包括:
收集目标用户的文章阅读行为;
根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章;
计算所述目标用户的感兴趣文章对应的文本向量;
根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签。
2.根据权利要求1所述的用户的兴趣标签表示方法,其特征在于,所述计算所述目标用户的感兴趣文章对应的文本向量,包括:
利用预先训练的神经网络隐层,计算所述目标用户的感兴趣文章对应的文本向量。
3.根据权利要求2所述的用户的兴趣标签表示方法,其特征在于,所述利用预先训练的神经网络隐层,计算所述目标用户的感兴趣文章对应的文本向量,包括:
提取所述目标用户的任一感兴趣文章中的特征词,并确定各个特征词分别对应的词向量;
将各个词向量作为预先训练的神经网络隐层的输入参数,由所述神经网络隐层计算各个词向量的均值,并将所述均值输出为所述感兴趣文章对应的文本向量。
4.根据权利要求1所述的用户的兴趣标签表示方法,其特征在于,所述方法还包括:
根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章分别对应的权重值;
相应的,所述根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量,包括:
根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量。
5.根据权利要求4所述的用户的兴趣标签表示方法,其特征在于,所述根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量,包括:
利用公式(1)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;user_vector为所述目标用户的用户向量。
6.根据权利要求4所述的用户的兴趣标签表示方法,其特征在于,所述根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量,包括:
利用公式(2)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;words_num[i]为所述第i篇感兴趣文章对应的特征词数量;total_num为所述目标用户的感兴趣文章的特征词总数量;user_vector为所述目标用户的用户向量。
7.根据权利要求4-6中任一项所述的用户的兴趣标签表示方法,其特征在于,所述根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量之前,还包括:
计算所述目标用户的感兴趣文章对应的文本向量的平均值或中值;
将所述平均值或所述中值确定为所述目标用户的初始用户向量;其中,所述初始用户向量用于表示所述目标用户的初始兴趣标签;
利用所述目标用户的用户向量更新所述目标用户的初始用户向量。
8.根据权利要求7所述的用户的兴趣标签表示方法,其特征在于,所述利用所述目标用户的用户向量更新所述目标用户的初始用户向量,包括:
通过公式(3),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
user_vector_new=(1-η)×user_vector_ini+η×user_vector (3)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率。
9.根据权利要求7所述的用户的兴趣标签表示方法,其特征在于,所述利用所述目标用户的用户向量更新所述目标用户的初始用户向量,包括:
通过公式(4),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
words_num_new=(1-η)×words_num_ini+η×words_num_avg;
words_num_avg=total_num/n (4)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率;total_num为所述目标用户的感兴趣文章的特征词总数量;words_num_ini为所述目标用户初始感兴趣文章的平均特征词数量;words_num_avg为所述目标用户当前感兴趣文章的平均特征词数量;words_num_new为所述目标用户的更新后感兴趣文章的平均特征词数量。
10.根据权利要求1所述的用户的兴趣标签表示方法,其特征在于,所述方法还包括:
将所述目标用户的用户向量作为经过训练的分类器的输入参数,由所述分类器对所述用户向量进行分类后,输出所述目标用户的兴趣标签与预测概率的映射关系。
11.根据权利要求10所述的用户的兴趣标签表示方法,其特征在于,所述将所述目标用户的用户向量作为经过训练的分类器的输入参数之前,还包括:
将具有兴趣标签的文章作为分类器的训练样本;
利用所述训练样本对所述分类器进行训练,得到经过训练的分类器。
12.一种文章推荐方法,其特征在于,所述方法包括:
将目标用户的用户向量转换为二值型用户向量;其中,所述用户向量为利用上述权利要求1-11中任一项所述的用户的兴趣标签表示方法计算得到的;
在预设的文章数据库中,查询与所述二值型用户向量匹配的二值型文本向量;其中,所述文章数据库中存储有文章与二值型文本向量的对应关系;
将与所述二值型用户向量匹配的二值型文本向量对应的文章,推荐给所述目标用户。
13.根据权利要求12所述的文章推荐方法,其特征在于,所述将目标用户的用户向量转换为二值型用户向量;其中,所述用户向量为利用上述权利要求1-11中任一项所述的用户的兴趣标签表示方法计算得到的,包括:
将所述目标用户的感兴趣文章对应的文本向量的平均值或中值,确定为所述目标用户的阈值向量;
将所述目标用户的用户向量与所述阈值向量进行比较,确定所述目标用户的二值型用户向量。
14.根据权利要求13所述的文章推荐方法,其特征在于,所述在预设的文章数据库中,查询与所述二值型用户向量匹配的二值型文本向量之前,还包括:
将预设的文章数据库中各个文章的文本向量与所述阈值向量进行比较,得到各个文章对应的二值型文本向量;
将各个文章与二值型文本向量的对应关系存储于所述文章数据库。
15.一种用户的兴趣标签表示装置,其特征在于,所述装置包括:
收集模块,用于收集目标用户的文章阅读行为;
第一确定模块,用于根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章;
第一计算模块,用于计算所述目标用户的感兴趣文章对应的文本向量;
第二计算模块,用于根据所述目标用户的感兴趣文章对应的文本向量,计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签。
16.根据权利要求15所述的用户的兴趣标签表示装置,其特征在于,所述第一计算模块,包括:
第一计算子模块,用于利用预先训练的神经网络隐层,计算所述目标用户的感兴趣文章对应的文本向量。
17.根据权利要求16所述的用户的兴趣标签表示装置,其特征在于,所述第一计算子模块,包括:
第一确定子模块,用于提取所述目标用户的任一感兴趣文章中的特征词,并确定各个特征词分别对应的词向量;
第二计算子模块,用于将各个词向量作为预先训练的神经网络隐层的输入参数,由所述神经网络隐层计算各个词向量的均值,并将所述均值输出为所述感兴趣文章对应的文本向量。
18.根据权利要求15所述的用户的兴趣标签表示装置,其特征在于,所述装置还包括:
第二确定模块,用于根据所述目标用户的文章阅读行为,确定所述目标用户的感兴趣文章分别对应的权重值;
相应的,所述第二计算模块,包括:
第三计算子模块,用于根据所述目标用户的感兴趣文章对应的文本向量以及所述感兴趣文章对应的权重值,计算所述目标用户的用户向量。
19.根据权利要求18所述的用户的兴趣标签表示装置,其特征在于,所述第三计算子模块,包括:
第四计算子模块,用于利用公式(1)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;user_vector为所述目标用户的用户向量。
20.根据权利要求18所述的用户的兴趣标签表示装置,其特征在于,所述第三计算子模块,包括:
第五计算子模块,用于利用公式(2)计算所述目标用户的用户向量;其中,所述用户向量用于表示所述目标用户的兴趣标签;
其中,n表示所述目标用户的感兴趣文章数量;doc_vector[i]为所述目标用户的第i篇感兴趣文章对应的文本向量;weight[i]为所述第i篇感兴趣文章对应的权重值;words_num[i]为所述第i篇感兴趣文章对应的特征词数量;total_num为所述目标用户的感兴趣文章的特征词总数量;user_vector为所述目标用户的用户向量。
21.根据权利要求18-20中任一项所述的用户的兴趣标签表示装置,其特征在于,所述装置,还包括:
第三计算模块,用于计算所述目标用户的感兴趣文章对应的文本向量的平均值或中值;
第三确定模块,用于将所述平均值或所述中值确定为所述目标用户的初始用户向量;其中,所述初始用户向量用于表示所述目标用户的初始兴趣标签;
更新模块,用于利用所述目标用户的用户向量更新所述目标用户的初始用户向量。
22.根据权利要求21所述的用户的兴趣标签表示装置,其特征在于,所述更新模块,包括:
第一更新子模块,用于通过公式(3),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
user_vector_new=(1-η)×user_vector_ini+η×user_vector (3)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率。
23.根据权利要求21所述的用户的兴趣标签表示装置,其特征在于,所述更新模块,包括:
第二更新子模块,用于通过公式(4),利用所述目标用户的用户向量更新所述目标用户的初始用户向量;
words_num_new=(1-η)×words_num_ini+η×words_num_avg;
words_num_avg=total_num/n (4)
其中,user_vector_new为所述目标用户的更新后用户向量;user_vector_ini为所述目标用户的初始用户向量;user_vector为所述目标用户的用户向量;η为针对所述目标用户的文章阅读习惯设置的更新频率;total_num为所述目标用户的感兴趣文章的特征词总数量;words_num_ini为所述目标用户初始感兴趣文章的平均特征词数量;words_num_avg为所述目标用户当前感兴趣文章的平均特征词数量;words_num_new为所述目标用户的更新后感兴趣文章的平均特征词数量。
24.根据权利要求15所述的用户的兴趣标签表示装置,其特征在于,所述装置还包括:
分类模块,用于将所述目标用户的用户向量作为经过训练的分类器的输入参数,由所述分类器对所述用户向量进行分类后,输出所述目标用户的兴趣标签与预测概率的映射关系。
25.根据权利要求24所述的用户的兴趣标签表示装置,其特征在于,所述装置还包括:
第四确定模块,用于将具有兴趣标签的文章作为分类器的训练样本;
训练模块,用于利用所述训练样本对所述分类器进行训练,得到经过训练的分类器。
26.一种文章推荐装置,其特征在于,所述装置包括:
转换模块,用于将目标用户的用户向量转换为二值型用户向量;其中,所述用户向量为利用上述权利要求15-25中任一项所述的用户的兴趣标签表示装置计算得到的;
查询模块,用于在预设的文章数据库中,查询与所述二值型用户向量匹配的二值型文本向量;其中,所述文章数据库中存储有文章与二值型文本向量的对应关系;
推荐模块,用于将与所述二值型用户向量匹配的二值型文本向量对应的文章,推荐给所述目标用户。
27.根据权利要求26所述的文章推荐装置,其特征在于,所述转换模块,包括:
第二确定子模块,用于将所述目标用户的感兴趣文章对应的文本向量的平均值或中值,确定为所述目标用户的阈值向量;
第三确定子模块,用于将所述目标用户的用户向量与所述阈值向量进行比较,确定所述目标用户的二值型用户向量。
28.根据权利要求27所述的文章推荐装置,其特征在于,所述装置,还包括:
比较模块,用于将预设的文章数据库中各个文章的文本向量与所述阈值向量进行比较,得到各个文章对应的二值型文本向量;
存储模块,用于将各个文章与二值型文本向量的对应关系存储于所述文章数据库。
29.一种用户的兴趣标签表示设备,其特征在于,所述设备包括存储器和处理器,
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行权利要求1-11中任一项所述的用户的兴趣标签表示方法。
30.一种文章推荐设备,其特征在于,所述设备包括存储器和处理器,
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行权利要求12-14中任一项所述的文章推荐方法。
CN201810622649.5A 2018-06-15 2018-06-15 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 Active CN108846097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810622649.5A CN108846097B (zh) 2018-06-15 2018-06-15 用户的兴趣标签表示方法、文章推荐方法、及装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810622649.5A CN108846097B (zh) 2018-06-15 2018-06-15 用户的兴趣标签表示方法、文章推荐方法、及装置、设备

Publications (2)

Publication Number Publication Date
CN108846097A true CN108846097A (zh) 2018-11-20
CN108846097B CN108846097B (zh) 2021-01-29

Family

ID=64202058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810622649.5A Active CN108846097B (zh) 2018-06-15 2018-06-15 用户的兴趣标签表示方法、文章推荐方法、及装置、设备

Country Status (1)

Country Link
CN (1) CN108846097B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688475A (zh) * 2019-09-05 2020-01-14 上海异势信息科技有限公司 基于内容主观倾向的文章推荐方法及系统
CN110704728A (zh) * 2019-09-06 2020-01-17 北京达佳互联信息技术有限公司 信息推荐的方法、装置、电子设备及存储介质
CN110727784A (zh) * 2019-09-05 2020-01-24 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN110781377A (zh) * 2019-09-03 2020-02-11 腾讯科技(深圳)有限公司 一种文章推荐方法、装置
CN111339429A (zh) * 2020-03-27 2020-06-26 上海景域智能科技有限公司 一种资讯推荐方法
CN111914079A (zh) * 2020-08-07 2020-11-10 上海梅斯医药科技有限公司 一种基于用户标签的话题推荐方法及系统
CN113641901A (zh) * 2021-08-05 2021-11-12 腾讯科技(深圳)有限公司 资讯推荐方法、装置、计算机可读介质及电子设备

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
US20110153598A1 (en) * 2009-12-22 2011-06-23 Kamimaeda Naoki Information Processing Apparatus and Method
CN102651011A (zh) * 2011-02-27 2012-08-29 祁勇 一种确定文档特征和用户特征的方法和系统
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN104750731A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 一种获取完整用户画像的方法及装置
CN104866554A (zh) * 2015-05-15 2015-08-26 大连理工大学 一种基于社会化标注的个性化搜索方法及系统
CN105224699A (zh) * 2015-11-17 2016-01-06 Tcl集团股份有限公司 一种新闻推荐方法及装置
CN106484777A (zh) * 2016-09-12 2017-03-08 腾讯科技(深圳)有限公司 一种多媒体数据处理方法以及装置
US9754020B1 (en) * 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
CN107145536A (zh) * 2017-04-19 2017-09-08 畅捷通信息技术股份有限公司 用户画像构建方法与装置及推荐方法与装置
CN107341145A (zh) * 2017-06-21 2017-11-10 华中科技大学 一种基于深度学习的用户情感分析方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN107885749A (zh) * 2016-09-30 2018-04-06 南京理工大学 本体语义扩展与协同过滤加权融合的工艺知识检索方法
CN108053257A (zh) * 2017-12-27 2018-05-18 互动派科技股份有限公司 一种大数据用户运营金字塔体系的建立方法及应用系统
CN108062375A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
US20110153598A1 (en) * 2009-12-22 2011-06-23 Kamimaeda Naoki Information Processing Apparatus and Method
CN102651011A (zh) * 2011-02-27 2012-08-29 祁勇 一种确定文档特征和用户特征的方法和系统
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN104750731A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 一种获取完整用户画像的方法及装置
US9754020B1 (en) * 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
CN104866554A (zh) * 2015-05-15 2015-08-26 大连理工大学 一种基于社会化标注的个性化搜索方法及系统
CN105224699A (zh) * 2015-11-17 2016-01-06 Tcl集团股份有限公司 一种新闻推荐方法及装置
CN106484777A (zh) * 2016-09-12 2017-03-08 腾讯科技(深圳)有限公司 一种多媒体数据处理方法以及装置
CN107885749A (zh) * 2016-09-30 2018-04-06 南京理工大学 本体语义扩展与协同过滤加权融合的工艺知识检索方法
CN107145536A (zh) * 2017-04-19 2017-09-08 畅捷通信息技术股份有限公司 用户画像构建方法与装置及推荐方法与装置
CN107341145A (zh) * 2017-06-21 2017-11-10 华中科技大学 一种基于深度学习的用户情感分析方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置
CN108062375A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN108053257A (zh) * 2017-12-27 2018-05-18 互动派科技股份有限公司 一种大数据用户运营金字塔体系的建立方法及应用系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周佳玲: "基于分值传递的协同过滤推荐技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781377A (zh) * 2019-09-03 2020-02-11 腾讯科技(深圳)有限公司 一种文章推荐方法、装置
CN110781377B (zh) * 2019-09-03 2024-02-20 深圳市雅阅科技有限公司 一种文章推荐方法、装置
CN110688475A (zh) * 2019-09-05 2020-01-14 上海异势信息科技有限公司 基于内容主观倾向的文章推荐方法及系统
CN110727784A (zh) * 2019-09-05 2020-01-24 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN110727784B (zh) * 2019-09-05 2023-11-10 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN110704728A (zh) * 2019-09-06 2020-01-17 北京达佳互联信息技术有限公司 信息推荐的方法、装置、电子设备及存储介质
CN111339429A (zh) * 2020-03-27 2020-06-26 上海景域智能科技有限公司 一种资讯推荐方法
CN111339429B (zh) * 2020-03-27 2022-09-13 上海景域智能科技有限公司 一种资讯推荐方法
CN111914079A (zh) * 2020-08-07 2020-11-10 上海梅斯医药科技有限公司 一种基于用户标签的话题推荐方法及系统
CN113641901A (zh) * 2021-08-05 2021-11-12 腾讯科技(深圳)有限公司 资讯推荐方法、装置、计算机可读介质及电子设备
CN113641901B (zh) * 2021-08-05 2024-02-02 腾讯科技(深圳)有限公司 资讯推荐方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
CN108846097B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN108846097A (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN103678672B (zh) 一种信息推荐方法
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN111191092B (zh) 标签确定方法和标签确定模型训练方法
CN107563429A (zh) 一种网络用户群体的分类方法及装置
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN106126582A (zh) 推荐方法及装置
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN107220365A (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
CN110008397B (zh) 一种推荐模型训练方法及装置
CN109145245A (zh) 预测点击率的方法、装置、计算机设备及存储介质
CN107833117A (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
CN107862022A (zh) 文化资源推荐系统
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN108920665A (zh) 基于网络结构和评论文本的推荐评分方法及装置
CN108829804A (zh) 基于距离划分树的高维数据相似性连接查询方法及装置
CN108885628A (zh) 数据分析方法候选决定装置
KR20140015653A (ko) 컨텐츠 추천 시스템 및 방법
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN106021428A (zh) 一种基于knn和三支决策的电影推荐方法
CN115718826A (zh) 图结构数据中的目标节点分类方法、系统、设备及介质
Ullah et al. Adaptive data balancing method using stacking ensemble model and its application to non-technical loss detection in smart grids
CN104794135B (zh) 一种对搜索结果进行排序的方法和装置
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant