CN111651666A - 用户主题推荐方法、装置、计算机设备及存储介质 - Google Patents

用户主题推荐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111651666A
CN111651666A CN202010349666.3A CN202010349666A CN111651666A CN 111651666 A CN111651666 A CN 111651666A CN 202010349666 A CN202010349666 A CN 202010349666A CN 111651666 A CN111651666 A CN 111651666A
Authority
CN
China
Prior art keywords
topic
recent
user
topics
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010349666.3A
Other languages
English (en)
Inventor
周君君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010349666.3A priority Critical patent/CN111651666A/zh
Publication of CN111651666A publication Critical patent/CN111651666A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户主题推荐方法、装置、计算机设备及存储介质,所述方法包括:接收用户推荐指令,获取用户唯一标识码和近期主题清单;获取与用户唯一标识码关联的所有兴趣标签,同时获取与用户唯一标识码关联的符合预设停留时长的所有历史主题;将所有近期主题和所有兴趣标签输入第一文本相似度度量模型,计算每个近期主题与所有兴趣标签的第一相似度值,并输出相关主题;将所有相关主题和所有历史主题输入第二文本相似度度量模型,计算每个相关主题与所有历史主题的第二相似度值,输出推荐主题;在用户界面显示所有推荐主题。本发明实现了快速地、准确地提供给用户真正感兴趣的新闻主题的访问体验,提升了用户的体验满意度。

Description

用户主题推荐方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种用户主题推荐方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的发展,新闻行业正经历着巨变,新闻主题正日趋海量化。为了让用户更容易地找到自己感兴趣的新闻主题,新闻推荐系统应运而生。现有技术中,在新闻推荐系统里大部分通过对用户访问的新闻主题的分类进行统计,根据统计访问最多的新闻主题的分类进行推荐,但是由于新闻主题的分类过于广泛,缺乏针对性,一个新闻主题的分类包含很多个方向的新闻主题,因此,无法精确地在近期的新闻主题中识别出与用户感兴趣的主题相似的新闻主题。
发明内容
本发明提供一种用户主题推荐方法、装置、计算机设备及存储介质,实现了快速地、准确地提供给用户真正感兴趣的新闻主题的访问体验,提升了用户的体验满意度。
一种用户主题推荐方法,包括:
接收用户推荐指令,获取用户唯一标识码和近期主题清单;其中,所述近期主题清单包含若干个近期主题;
获取与所述用户唯一标识码关联的所有兴趣标签,同时获取与所述用户唯一标识码关联的符合预设停留时长的所有历史主题;
将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,并输出相关主题;所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题;
将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,输出推荐主题;所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题;
将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示。
一种用户主题推荐装置,包括:
接收模块,用于接收用户推荐指令,获取用户唯一标识码和近期主题清单;其中,所述近期主题清单包含若干个近期主题;
获取模块,用于获取与所述用户唯一标识码关联的所有兴趣标签,同时获取与所述用户唯一标识码关联的符合预设停留时长的所有历史主题;
第一计算模块,用于将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,并输出相关主题;所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题;
第二计算模块,用于将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,输出推荐主题;所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题;
显示模块,用于将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户主题推荐方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户主题推荐方法的步骤。
本发明通过接收用户推荐指令,获取用户唯一标识码和近期主题清单;其中,所述近期主题清单包含若干个近期主题;获取与所述用户唯一标识码关联的所有兴趣标签,同时获取与所述用户唯一标识码关联的符合预设停留时长的所有历史主题;将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,并输出相关主题;所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题;将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,输出推荐主题;所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题;将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示。
因此,本发明实现了通过获取用户唯一标识码和包含若干个近期主题的近期主题清单,获取所有兴趣标签和符合预设停留时长的所有历史主题;将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,输出相关主题,再将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,输出推荐主题;将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示,因此,解决了无法精确地从近期的新闻主题中识别出用户真正感兴趣的新闻主题的问题,能够快速地、准确地提供给用户真正感兴趣的新闻主题的访问体验,提升了用户的体验满意度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中用户主题推荐方法的应用环境示意图;
图2是本发明一实施例中用户主题推荐方法的流程图;
图3是本发明一实施例中用户主题推荐方法的步骤S10的流程图;
图4是本发明一实施例中用户主题推荐方法的步骤S20的流程图;
图5是本发明一实施例中用户主题推荐方法的步骤S30的流程图;
图6是本发明一实施例中用户主题推荐方法的步骤S305的流程图;
图7是本发明另一实施例中用户主题推荐方法的步骤S40的流程图;
图8是本发明一实施例中用户主题推荐装置的原理框图;
图9是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的用户主题推荐方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种用户主题推荐方法,其技术方案主要包括以下步骤S10-S50:
S10,接收用户推荐指令,获取用户唯一标识码和近期主题清单;其中,所述近期主题清单包含若干个近期主题。
可理解地,用户在客户端使用所述用户唯一标识码打开应用程序之后,在需要阅读新的新闻主题时触发所述用户推荐指令,所述用户唯一标识码为用户登录所述应用程序的唯一标识码,一个用户对应一个唯一的用户唯一标识码,所述触发方式可以根据需求进行设定,比如在应用程序的用户界面提供一个可以通过点击、滑动等方式进行触发的触发按键、在打开用户界面时自动触发等等,获取所述用户唯一标识码和所述近期主题清单,其获取方式可以根据需要进行设定,比如获取方式可以为通过所述用户推荐指令中获取所述用户唯一标识码、根据所述用户推荐指令中包含的所述近期主题清单的存储路径获取所述近期主题清单、自数据库中获取所述近期主题清单等等,其中,所述近期主题清单为距离当天存在预设时间内的所有新闻主题的清单,所述近期主题清单随着时间的滚动而不断刷新,所述预设时间可以根据需求进行设定,比如1天、3天、1周等等,所述近期主题清单包括至少一个所述近期主题,所述近期主题为一个新闻主题。
在一实施例中,如图3所示,所述步骤S10中,即所述接收用户推荐指令用户推荐指令,获取用户唯一标识码和近期主题清单,包括:
S101,获取所述用户推荐指令中的地址定位信息和所述用户唯一标识码。
可理解地,所述用户推荐指令包含所述地址定位信息和所述用户唯一标识码,所述地址定位信息为提供用户所在定位地点的信息,比如中国、法国、广东省、深圳市等等。
S102,根据所述地址定位信息,获取与所述地址定位信息相匹配的所述近期主题清单。
可理解地,根据所述地址定位信息,自数据库中的所有近期主题中的区域与所述地址定位信息进行匹配,将与所述地址定位信息相匹配所述区域对应的近期主题进行汇总并确定为与所述用户唯一标识码对应的所述近期主题清单。
如此,根据用户推荐指令中的地址定位信息匹配出用户所在区域的近期主题,可以为用户只提供所在区域相关的近期主题,能够提升用户的体验满意度。
S20,获取与所述用户唯一标识码关联的所有兴趣标签,同时获取与所述用户唯一标识码关联的符合预设停留时长的所有历史主题。
可理解地,获取与所述用户唯一标识码关联的所有兴趣标签,所述兴趣标签为所述用户唯一标识码对应的用户感兴趣的词语而确定的标签内容,比如健身、娱乐等等,同时获取与所述唯一标识码关联的所有符合预设停留时长的所述历史主题,所述历史主题为用户在此之前通过所述用户唯一标识码访问或者点击的新闻主题,其中,符合所述预设停留时长的所述历史主题表明用户对所述历史主题感兴趣而花时间进行阅读或者观看,所述预设停留时长可以根据需求进行设定,比如2分钟、3分钟等等。
在一实施例中,如图4所示,所述步骤S20之前,即所述获取与所述用户唯一标识码关联的所有兴趣标签之前,包括:
S201,获取所述用户唯一标识码关联的所有主题及主题对应的访问时间。
可理解地,所述主题为用户通过所述用户唯一标识码访问的新闻主题、视频主题、微博主题等,每个所述主题可以对应多个访问时间,所述访问时间为用户通过所述用户唯一标识码访问的新闻主题、视频主题、微博主题的时间。
S202,根据每个所述主题对应的所述访问时间距离当前时间的时长,确定每个所述主题的时间衰减系数。
可理解地,获取每个所述主题对应的所述访问时间距离当前时间的时长,根据所述时长确定每个所述主题的所述时间衰减系数,所述时间衰减系数为随着时间的递增关注热度会逐渐递减的衰减系数,所述时间衰减系数可以根据需求进行设定,比如距离当前时间的时长为超过两周且1月内对应的时间衰减系数为0.9、距离当前时间的时长为超过1年对应的时间衰减系数为0.1等等。
S203,将所有所述主题及其对应的所述时间衰减系数输入预设的向量空间模型,通过TF-IDF算法,所述向量空间模型提取出所有所述主题的词语特征,根据所有所述词语特征以及与每一个所述词语特征对应的时间衰减系数,得到分类标签及其对应的分类标签权重。
可理解地,将所有所述主题及其对应的所述时间衰减系数输入预设的向量空间模型,所述向量空间模型(VSM,Vector Space Model)为把对文本内容的处理简化为向量空间中的向量运算并且以空间上的相似度表达语义的相似度的模型,通过所述TF-IDF算法,所述向量空间模型计算出所有所述主题中的所有词语特征,所述词语特征为具备出现频率高的重要的特征的词语,所述词语特征包括TF向量特征值和IDF向量特征值,所述TF(TermFrequency,词频)向量特征值表示词条在所有所述主题中出现的频率的衡量指标值,所述IDF(Inverse Document Frequency,逆文本频率指数)为一个词语的普遍性及重要性的衡量指标值,所述向量空间模型提取出所有所述主题中的词语特征,所述词语特征对应的时间衰减系数是指从中提取所述词语特征的所述主题对应的时间衰减系数,根据所有所述词语特征以及与每一个所述词语特征对应的时间衰减系数,输出分类标签及其对应的分类标签权重,将所述词语特征确定为所述分类标签,所述分类标签权重为相同所述词语特征对应的时间衰减系数的平均值与所述IDF向量特征值的组合值,比如相同所述词语特征对应的时间衰减系数的平均值与所述IDF向量特征值的乘积、相同所述词语特征对应的时间衰减系数的平均值与所述IDF向量特征值乘积之后的对数值等等。
S204,根据所有所述分类标签权重,对所有所述分类标签由大到小进行排序,将排序后的所有所述分类标签中序列在先的预设个数的所述分类标签确定为所述兴趣标签。
可理解地,将所有所述分类标签按照所有所述分类标签权重由大到小的顺序进行排序,将排序后的所有所述分类标签中序列在先的所述预设个数的所述分类标签确定为所述兴趣标签,所述预设个数可以根据需求进行设定,比如10(即前10个所述分类标签)、20(即前10个所述分类标签)等等。
如此,通过获取用户关联的所有主题及主题对应的访问时间,确定每个所述主题的时间衰减系数,将所有所述主题及其对应的所述时间衰减系数输入预设的向量空间模型,通过TF-IDF算法,所述向量空间模型提取出所有所述主题的词语特征,根据所有所述词语特征以及与每一个所述词语特征对应的时间衰减系数,得到分类标签及其对应的分类标签权重,最后通过对所有所述分类标签进行排序确定出兴趣标签,因此,提供了一种自动识别出用户唯一标识码对应的兴趣标签的方法。
S30,将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,并输出相关主题;所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题。
可理解地,将所有所述近期主题和所有所述兴趣标签输入所述第一文本相似度量模型,所述第一文本相似度量模型为计算出每个所述近期主题与每个所述兴趣标签的第一相似度值并根据所有所述第一相似度值输出所述相关主题的模型,优选地,所述第一文本相似度量模型为第一编辑距离模型、第一Jaccard距离模型和第一Word2Vec模型进行融合的模型,所述第一相似度值为衡量所述近期主题与所述兴趣标签的相似度的值,所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题,所述第一阈值可以根据需求进行设定,比如所述第一阈值为80%,或者为所有第一相似度值的平均值等。
如此,可以对所有所述近期主题中进行降维处理,从所有所述近期主题中筛选出用户感兴趣的相关主题。
在一实施例中,如图5所示,所述步骤S30中,即所述将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,包括:
S301,获取所述近期主题和所述兴趣标签,同时获取所述近期主题的第一句长和所述兴趣标签的第二句长。
可理解地,所述第一句长为所述近期主题的句子长度,所述第二句长为所述兴趣标签的句子长度。
S302,通过所述第一文本相似度度量模型中的第一编辑距离模型,得到所述近期主题和所述兴趣标签的第一编辑距离相似度值。
可理解地,将所述近期主题和所述兴趣标签输入所述第一文本相似度度量模型中的所述第一编辑距离模型,所述第一编辑距离模型为识别所述近期主题和所述兴趣标签之间的第一编辑距离值,通过将所述近期主题和所述兴趣标签之间的编辑距离值输入所述第一编辑距离模型中的第一编辑距离相似度函数,计算出所述近期主题和所述兴趣标签的第一编辑距离相似度值,所述第一编辑距离值为通过对所述兴趣标签进行插入、删除或者替换的基本操作而达到所述近期主题一样的句子而得到的值,例如:所述兴趣标签为“平安集团”,所述近期主题为“平安科技中心成立”,将所述兴趣标签中的2个字符“集团”替换为“科技”,同时再在末尾插入4个字符“中心成立”,则可以转换为所述近期主题,因此所述近期主题和所述兴趣标签之间的编辑距离值为2+4=6。
其中,所述第一编辑距离相似度函数为
Figure BDA0002471489820000071
其中:
simiedit(S1,S2)为近期主题和兴趣标签的第一编辑距离相似度值;
S1为近期主题;
S2为兴趣标签;
Ledit为近期主题和兴趣标签的第一编剧距离值;
L1为第一句长;
L2为第二句长;
max(L1,L2)为第一句长和第二句长中的最大值。
S303,通过所述第一文本相似度度量模型中的第一Jaccard距离模型,得到所述近期主题和所述兴趣标签的第一Jaccard距离相似度值。
可理解地,将所述近期主题和所述兴趣标签输入所述第一文本相似度度量模型中的所述第一Jaccard距离模型,所述第一Jaccard距离模型为识别所述近期主题和所述兴趣标签之间的第一Jaccard距离值,通过将所述Jaccard距离值输入所述第一Jaccard距离模型中的第一Jaccard距离相似度函数,计算出所述近期主题和所述兴趣标签的第一Jaccard距离相似度值,所述第一Jaccard距离值通过将所述近期主题和所述兴趣标签输入第一Jaccard距离函数获得,所述第一Jaccard距离函数为
Figure BDA0002471489820000081
其中,S1为近期主题;S2为兴趣标签;A1为将近期主题的每个字作为元素的近期主题的集合;A2为将兴趣标签的每个字作为元素的兴趣标签的集合;符号∪表示集合的并操作,符号∩表示集合的交操作;通过将所述第一Jaccard距离值输入所述第一Jaccard距离模型中的第一Jaccard距离相似度函数,计算出所述近期主题和所述兴趣标签的第一Jaccard距离相似度值。
其中,所述第一Jaccard距离相似度函数为
simij(S1,S2)=1-dj(S1,S2)
其中:
simij(S1,S2)为近期主题和兴趣标签的第一Jaccard距离相似度值;
S1为近期主题;
S2为兴趣标签;
dj(S1,S2)为近期主题和兴趣标签的第一Jaccard距离值。
S304,通过所述第一文本相似度度量模型中的第一Word2Vec模型,得到所述近期主题和所述兴趣标签的第一余弦相似度值。
可理解地,将所述近期主题和所述兴趣标签输入所述第一文本相似度度量模型中的所述第一Word2Vec模型,所述第一Word2Vec模型为训练完成的且输出余弦向量值(即词向量)的深度卷积神经网络模型,将所述近期主题输入所述第一Word2Vec模型进行识别,得到所述近期主题的余弦向量值,将所述兴趣标签输入所述第一Word2Vec模型进行识别,得到所述兴趣标签的余弦向量值,通过将所述近期主题的余弦向量值和所述兴趣标签的余弦向量值输入所述第一Word2Vec模型中的第一Word2Vec相似度函数,计算出所述近期主题和所述兴趣标签的第一余弦相似度值。
其中,所述第一Word2Vec相似度函数为
Figure BDA0002471489820000091
其中:
simivec(S1,S2)为所述近期主题和所述兴趣标签的第一余弦相似度值;
S1为近期主题;
S2为兴趣标签;
v1为所述近期主题的余弦向量值;
v2为所述兴趣标签的余弦向量值。
S305,根据所述第一句长和所述第二句长,确定所述近期主题和所述兴趣标签的第一编辑距离权重、第一Jaccard距离权重和第一Word2Vec权重。
可理解地,根据所述第一句长和所述第二句长是否符合预设要求的情况,确定所述近期主题和所述兴趣标签的第一编辑距离权重、第一Jaccard距离权重和第一Word2Vec权重,所述预设要求可以根据需求进行确定,比如根据所述第一句长与预设长度值的大小关系及所述第二句长与预设长度值的大小关系,所述预设长度值优选为预设的某一数值,或者根据所述第一句长和所述第二句长之间的比值与预设比值的大小关系,所述预设比值优选为预设的某一比值,又或者所述第一句长和所述第二句长的平均值与预设均值的大小关系,所述预设均值优选为预设的某一含有小数点的数值等等;所述第一编辑距离权重优选为根据所述第一句长和所述第二句长确定的与所述第二编辑距离相似度值相关的数值格式的权重值,所述第一Jaccard距离权重优选为根据所述第一句长和所述第二句长确定的与所述第一Jaccard距离相似度值相关的数值格式的权重值,所述第一Word2Vec权重优选为根据所述第一句长和所述第二句长确定的与所述第一Word2Vec相似度值相关的数值格式的权重值。
在一实施例中,如图6所示,所述步骤S305中,即所述根据所述第一句长和所述第二句长,确定所述近期主题和所述兴趣标签的第一编辑距离权重、第一Jaccard距离权重和第一Word2Vec权重,包括:
S3051,将所述第一句长和所述第二句长相加,获得总句长。
可理解地,获取所述第一句长和所述第二句长之和,并将所述第一句长和所述第二句长之和确定为所述总句长。
S3052,若所述第一句长大于预设长度值,则所述第一编辑距离权重为第一参数与所述总句长的比值,所述第一Word2Vec权重为一与两倍的所述第一编辑距离权重之间的差值,且所述第一Jaccard距离权重与所述第一编辑距离权重相等;其中,所述第一参数小于所述总句长。
可理解地,如果所述第一句长大于所述预设长度值,比如所述第一句长为8,所述预设长度值为7,则所述第一编辑距离权重为所述第一参数与所述总句长的比值,所述第一Jaccard距离权重与所述第一编辑距离权重相等,所述第一Word2Vec权重为一与两倍的所述第一编辑距离权重之间的差值,所述第一参数可以根据需求进行设定,而且所述第一参数小于所述总句长,比如所述总句长为10,所述第一参数为小数点格式的预设的数值为3.2,所述第一编辑距离权重为0.32,所述第一Jaccard距离权重也为0.32,所述第一Word2Vec权重为1-2×0.32=0.36。
S3053,若所述第一句长小于且等于预设长度值,则所述第一编辑距离权重为第二参数除以所述总句长,所述第一Jaccard距离权重与所述第一编辑距离权重相等,所述第一Word2Vec权重为一减去两倍的所述第一编辑距离权重;其中,所述第二参数小于所述总句长,且所述第二参数大于所述第一参数。
可理解地,如果所述第一句长小于且等于所述预设长度值,比如所述第一句长为4,所述预设长度值为7,则所述第一编辑距离权重为所述第二参数与所述总句长的比值,所述第一Jaccard距离权重与所述第一编辑距离权重相等,所述第一Word2Vec权重为一与两倍的所述第一编辑距离权重之间的差值,所述第二参数可以根据需求进行设定,及所述第二参数小于所述总句长且大于所述第一参数,比如所述总句长为10,所述第一参数为小数点格式的预设的数值为3.2,所述第二参数为小数点格式的预设的数值为2.4,所述第一编辑距离权重为0.24,所述第一Jaccard距离权重也为0.24,所述第一Word2Vec权重为1-2×0.24=0.52。
如此,根据所述第一句长和所述第二句长情况,即比较所述第一句长和所述第二句长的大小,确定第一编辑距离权重、第一Jaccard距离权重和第一Word2Vec权重,实现了客观地衡量第一编辑距离相似度值、述第一Jaccard距离相似度值和第一余弦相似度值之间的权重,更加精确地衡量句子之间的相似度。
S306,将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述第一文本相似度度量模型中的相似度融合模型,得到所述近期主题与所述兴趣标签的所述第一相似度值。
可理解地,所述第一文本相似度度量模型中的相似度融合模型为计算出所述近期主题与所述兴趣标签的所述第一相似度值的模型,所述第一文本相似度度量模型中的相似度融合模型包含第一加权函数,通过将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述第一加权函数,计算出所述近期主题和所述兴趣标签的所述第一相似度值。
在一实施例中,所述步骤S306中,即所述将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述文本相似度度量模型中的相似度融合模型,得到所述近期主题和所述兴趣标签的所述第一相似度值,包括:
S3061,将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述相似度融合模型中的加权函数,得到所述近期主题和所述兴趣标签的所述第一相似度值;其中,所述加权函数为:
Y=α1A+α2B+α3C
其中:
Y为所述近期主题和所述兴趣标签的所述第一相似度值;
A为所述第一编辑距离相似度值;
B为所述第一Jaccard距离相似度值;
C为所述第一余弦相似度值;
α1为所述第一编辑距离权重;
α2为所述第一Jaccard距离权重;
α3为所述第一Word2Vec权重。
如此,通过将近期主题和兴趣标签输入基于第一编辑距离、第一Jaccard距离和第一Word2Vec融合的第一文本相似度度量模型,第一文本相似度度量模型根据第一编辑距离相似度值、第一Jaccard距离相似度值、第一余弦相似度值、第一编辑距离权重、第一Jaccard距离权重和第一Word2Vec权重输出所述近期主题与所述兴趣标签的所述第一相似度值,实现了精准地衡量出近期主题和兴趣标签之间的文本相似度,提供一种精确衡量句子相似度的方法,对所有近期主题进行降维处理,更能客观地在所有近期主题中找出用户感兴趣的近期主题的效果,提升了用户体验。
S40,将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,输出推荐主题;所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题。
可理解地,将所有所述相关主题和所有所述历史主题输入所述第二文本相似度量模型,所述第二文本相似度量模型为计算出每个所述相关主题与每个所述历史主题的第二相似度值并根据所有所述第二相似度值输出所述相关主题的模型,优选地,所述第二文本相似度量模型为第二编辑距离模型、第二Jaccard距离模型和第二Word2Vec模型进行融合的模型,所述第二相似度值为衡量所述相关主题与所述历史主题的相似度的值,所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题,所述第二阈值可以根据需求进行设定,比如所述第二阈值为95%,或者为所有所述第二相似度值的平均值等。
如此,从相关主题中筛选出与符合预设停留时长的所有历史主题相似的相关主题,确定出用户真正感兴趣的推荐主题。
在一实施例中,如图7所示,所述步骤S40中,即所述将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,包括:
S401,获取所述相关主题和所述历史主题,同时获取所述相关主题的第三句长和所述历史主题的第四句长。
可理解地,所述第三句长为所述相关主题的句子长度,所述第四句长为所述历史主题的句子长度。
S402,通过所述第二文本相似度度量模型中的第二编辑距离模型,得到所述相关主题和所述历史主题的第二编辑距离相似度值。
可理解地,将所述相关主题和所述历史主题输入所述第二文本相似度度量模型中的所述第二编辑距离模型,所述第二编辑距离模型为识别所述相关主题和所述历史主题之间的第二编辑距离值,通过将所述相关主题和所述历史主题之间的编辑距离值输入所述第二编辑距离模型中的第二编辑距离相似度函数,计算出所述相关主题和所述历史主题的第二编辑距离相似值,所述第而编辑距离值为通过对所述历史主题进行插入、删除或者替换的基本操作而达到所述相关主题一样的句子而得到的值。
其中,所述第二编辑距离相似度函数为
Figure BDA0002471489820000131
其中:
simiedit1(S3,S4)为相关主题和历史主题的第二编辑距离相似度值;
S3为相关主题;
S4为历史主题;
Ledit1为相关主题和历史主题的第二编剧距离值;
L3为第三句长;
L4为第四句长;
max(L3,L4)为第三句长和第四句长中的最大值。
S403,通过所述第二文本相似度度量模型中的第二Jaccard距离模型,得到所述相关主题和所述历史主题的第二Jaccard距离相似度值。
可理解地,将所述相关主题和所述历史主题输入所述第二文本相似度度量模型中的所述第二Jaccard距离模型,所述第二Jaccard距离模型为识别所述相关主题和所述历史主题之间的第二Jaccard距离值,通过将所述Jaccard距离值输入所述第二Jaccard距离模型中的第二Jaccard距离相似度函数,计算出所述相关主题和所述历史主题的第二Jaccard距离相似度值,所述第二Jaccard距离值通过将所述相关主题和所述历史主题输入第二Jaccard距离函数获得,所述第二Jaccard距离函数为
Figure BDA0002471489820000132
其中,S3为相关主题;S4为历史主题;A3为将相关主题的每个字作为元素的相关主题的集合;A3为将历史主题的每个字作为元素的历史主题的集合;符号∪表示集合的并操作,符号∩表示集合的交操作;通过将所述第二Jaccard距离值输入所述第二Jaccard距离模型中的第二Jaccard距离相似度函数,计算出所述相关主题和所述历史主题的第二Jaccard距离相似度值。
其中,所述第二Jaccard距离相似度函数为
simij1(S3,S4)=1-dj1(S3,S4)
其中:
simij1(S3,S4)为相关主题和历史主题的第二Jaccard距离相似度值;
S3为相关主题;
S4为历史主题;
dj1(S3,S4)为相关主题和历史主题的第二Jaccard距离值。
S404,通过所述第二文本相似度度量模型中的第二Word2Vec模型,得到所述相关主题和所述历史主题的第二余弦相似度值。
可理解地,将所述相关主题和所述历史主题输入所述第二文本相似度度量模型中的所述第二Word2Vec模型,所述第二Word2Vec模型为训练完成的且输出余弦向量值(即词向量)的深度卷积神经网络模型,将所述相关主题输入所述第二Word2Vec模型进行识别,得到所述相关主题的余弦向量值,将所述历史主题输入所述第二Word2Vec模型进行识别,得到所述历史主题的余弦向量值,通过将所述相关主题的余弦向量值和所述历史主题的余弦向量值输入所述第二Word2Vec模型中的第二Word2Vec相似度函数,计算出所述相关主题和所述历史主题的第二余弦相似度值。
其中,所述第二Word2Vec相似度函数为
Figure BDA0002471489820000141
其中:
simivec1(S3,S4)为所述相关主题和所述历史主题的第二余弦相似度值;
S3为相关主题;
S4为历史主题;
v3为所述相关主题的余弦向量值;
v4为所述历史主题的余弦向量值。
S405,根据所述第三句长和所述第四句长,确定所述相关主题和所述历史主题的第二编辑距离权重、第二Jaccard距离权重和第二Word2Vec权重。
可理解地,根据所述第三句长和所述第四句长是否符合另一预设要求的情况,确定所述相关主题和所述历史主题的第二编辑距离权重、第二Jaccard距离权重和第二Word2Vec权重,所述另一预设要求可以根据需求进行确定,比如根据所述第三句长与另一预设长度值的大小关系及所述第四句长与另一预设长度值的大小关系,所述另一预设长度值优选为预设的某一数值,可以与所述预设长度值相同,也可以与所述预设长度值不相同,或者根据所述第三句长和所述第四句长之间的比值与另一预设比值的大小关系,所述另一预设比值优选为预设的某一比值,可以与所述预设比值相同,也可以与所述预设比值不相同,又或者所述第三句长和所述第四句长的平均值与预设均值的大小关系,所述预设均值优选为预设的某一含有小数点的数值,可以与所述预设均值相同,也可以与所述预设均值不相同等等;所述第二编辑距离权重优选为根据所述第三句长和所述第四句长确定的与所述第二编辑距离相似度值相关的数值格式的权重值,所述第二Jaccard距离权重优选为根据所述第三句长和所述第四句长确定的与所述第二Jaccard距离相似度值相关的数值格式的权重值,所述第二Word2Vec权重优选为根据所述第三句长和所述第四句长确定的与所述第二Word2Vec相似度值相关的数值格式的权重值。
S406,将所述第二编辑距离相似度值、所述第二Jaccard距离相似度值、所述第二余弦相似度值、所述第二编辑距离权重、所述第二Jaccard距离权重和所述第二Word2Vec权重输入所述第二文本相似度度量模型中的相似度融合模型,得到所述相关主题与所述历史主题的所述第二相似度值。
可理解地,所述第二文本相似度度量模型中的相似度融合模型为计算出所述相关主题与所述历史主题的所述第二相似度值的模型,所述第二文本相似度度量模型中的相似度融合模型包含第二额加权函数,通过将所述第二编辑距离相似度值、所述第二Jaccard距离相似度值、所述第二余弦相似度值、所述第二编辑距离权重、所述第二Jaccard距离权重和所述第二Word2Vec权重输入所述第二加权函数,计算出所述相关主题和所述历史主题的所述第二相似度值。
如此,通过将相关主题和历史主题输入基于第二编辑距离、第二Jaccard距离和第二Word2Vec融合的第二文本相似度度量模型,第二文本相似度度量模型根据第二编辑距离相似度值、第二Jaccard距离相似度值、第二余弦相似度值、第二编辑距离权重、第二Jaccard距离权重和第二Word2Vec权重输出所述相关主题与所述历史主题的所述第二相似度值,实现了精准地衡量出相关主题和历史主题之间的文本相似度,提供一种精确衡量句子相似度的方法,更能客观地在所有相关主题中找出用户真正感兴趣的相关主题的效果,提升了用户体验。
S50,将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示。
可理解地,将所有所述推荐主题在所述客户端的所述用户界面显示,所述客户端为用户通过所述用户唯一标识码登录的所述应用程序的终端,以便于用户查看真正感兴趣的新闻主题。
本发明通过接收用户推荐指令,获取用户唯一标识码和近期主题清单;其中,所述近期主题清单包含若干个近期主题;获取与所述用户唯一标识码关联的所有兴趣标签,同时获取与所述用户唯一标识码关联的符合预设停留时长的所有历史主题;将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,并输出相关主题;所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题;将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,输出推荐主题;所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题;将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示。
如此,本发明实现了通过获取用户唯一标识码和包含若干个近期主题的近期主题清单,获取所有兴趣标签和符合预设停留时长的所有历史主题;将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,输出相关主题,再将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,输出推荐主题;将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示,因此,解决了无法精确地从近期的新闻主题中识别出用户真正感兴趣的新闻主题的问题,能够快速地、准确地提供给用户真正感兴趣的新闻主题的访问体验,提升了用户的体验满意度。
在一实施例中,提供一种用户主题推荐装置,该用户主题推荐装置与上述实施例中用户主题推荐方法一一对应。如图8所示,该用户主题推荐装置包括接收模块11、获取模块12、第一计算模块13、第二计算模块14和显示模块15。各功能模块详细说明如下:
接收模块11,用于接收用户推荐指令,获取用户唯一标识码和近期主题清单;其中,所述近期主题清单包含若干个近期主题;
获取模块12,用于获取与所述用户唯一标识码关联的所有兴趣标签,同时获取与所述用户唯一标识码关联的符合预设停留时长的所有历史主题;
第一计算模块13,用于将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,并输出相关主题;所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题;
第二计算模块14,用于将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,输出推荐主题;所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题;
显示模块15,用于将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示。
在一实施例中,所述接收模块11包括:
第一获取单元,用于获取所述用户推荐指令中的地址定位信息和所述用户唯一标识码;
第一匹配单元,用于根据所述地址定位信息,获取与所述地址定位信息相匹配的所述近期主题清单。
在一实施例中,所述获取模块12包括:
第二获取单元,用于获取所述用户唯一标识码关联的所有主题及主题对应的访问时间;
第一确定单元,用于根据每个所述主题对应的所述访问时间距离当前时间的时长,确定每个所述主题的时间衰减系数;
第一输出单元,用于将所有所述主题及其对应的所述时间衰减系数输入预设的向量空间模型,通过TF-IDF算法,所述向量空间模型提取出所有所述主题的词语特征,根据所有所述词语特征以及与每一个所述词语特征对应的时间衰减系数,得到分类标签及其对应的分类标签权重;
第二输出单元,用于根据所有所述分类标签权重,对所有所述分类标签由大到小进行排序,将排序后的所有所述分类标签中序列在先的预设个数的所述分类标签确定为所述兴趣标签。
在一实施例中,所述第一计算模块13包括:
第三获取单元,用于获取所述近期主题和所述兴趣标签,同时获取所述近期主题的第一句长和所述兴趣标签的第二句长;
第一计算单元,用于通过所述第一文本相似度度量模型中的第一编辑距离模型,得到所述近期主题和所述兴趣标签的第一编辑距离相似度值;
第二计算单元,用于通过所述第一文本相似度度量模型中的第一Jaccard距离模型,得到所述近期主题和所述兴趣标签的第一Jaccard距离相似度值;
第三计算单元,用于通过所述第一文本相似度度量模型中的第一Word2Vec模型,得到所述近期主题和所述兴趣标签的第一余弦相似度值;
第三输出单元,用于根据所述第一句长和所述第二句长,确定所述近期主题和所述兴趣标签的第一编辑距离权重、第一Jaccard距离权重和第一Word2Vec权重;
第四输出单元,用于将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述第一文本相似度度量模型中的相似度融合模型,得到所述近期主题与所述兴趣标签的所述第一相似度值。
在一实施例中,所述第三输出单元包括:
获取子单元,用于将所述第一句长和所述第二句长相加,获得总句长;
第一确定子单元,用于若所述第一句长大于预设长度值,则所述第一编辑距离权重为第一参数与所述总句长的比值,所述第一Word2Vec权重为一与两倍的所述第一编辑距离权重之间的差值,且所述第一Jaccard距离权重与所述第一编辑距离权重相等;其中,所述第一参数小于所述总句长;
第二确定子单元,用于若所述第一句长小于且等于预设长度值,则所述第一编辑距离权重为第二参数除以所述总句长,所述第一Jaccard距离权重与所述第一编辑距离权重相等,所述第一Word2Vec权重为一减去两倍的所述第一编辑距离权重;其中,所述第二参数小于所述总句长,且所述第二参数大于所述第一参数。
在一实施例中,所述第四输出单元包括:
第三确定子单元,用于将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述相似度融合模型中的加权函数,得到所述近期主题和所述兴趣标签的所述第一相似度值;其中,所述加权函数为:
Y=α1A+α2B+α3C
其中:
Y为所述近期主题和所述兴趣标签的所述第一相似度值;
A为所述第一编辑距离相似度值;
B为所述第一Jaccard距离相似度值;
C为所述第一余弦相似度值;
α1为所述第一编辑距离权重;
α2为所述第一Jaccard距离权重;
α3为所述第一Word2Vec权重。
在一实施例中,所述第二计算模块14包括:
第四获取单元,用于获取所述相关主题和所述历史主题,同时获取所述相关主题的第三句长和所述历史主题的第四句长;
第四计算单元,用于通过所述第二文本相似度度量模型中的第二编辑距离模型,得到所述相关主题和所述历史主题的第二编辑距离相似度值;
第五计算单元,用于通过所述第二文本相似度度量模型中的第二Jaccard距离模型,得到所述相关主题和所述历史主题的第二Jaccard距离相似度值;
第六计算单元,用于通过所述第二文本相似度度量模型中的第二Word2Vec模型,得到所述相关主题和所述历史主题的第二余弦相似度值;
第五输出单元,用于根据所述第三句长和所述第四句长,确定所述相关主题和所述历史主题的第二编辑距离权重、第二Jaccard距离权重和第二Word2Vec权重;
第六输出单元,用于将所述第二编辑距离相似度值、所述第二Jaccard距离相似度值、所述第二余弦相似度值、所述第二编辑距离权重、所述第二Jaccard距离权重和所述第二Word2Vec权重输入所述第二文本相似度度量模型中的相似度融合模型,得到所述相关主题与所述历史主题的所述第二相似度值。
关于用户主题推荐装置的具体限定可以参见上文中对于用户主题推荐方法的限定,在此不再赘述。上述用户主题推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户主题推荐方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中用户主题推荐方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中用户主题推荐方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用户主题推荐方法,其特征在于,包括:
接收用户推荐指令,获取用户唯一标识码和近期主题清单;其中,所述近期主题清单包含若干个近期主题;
获取与所述用户唯一标识码关联的所有兴趣标签,同时获取与所述用户唯一标识码关联的符合预设停留时长的所有历史主题;
将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,并输出相关主题;所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题;
将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,输出推荐主题;所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题;
将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示。
2.如权利要求1所述的用户主题推荐方法,其特征在于,所述接收用户推荐指令用户推荐指令,获取用户唯一标识码和近期主题清单,包括:
获取所述用户推荐指令中的地址定位信息和所述用户唯一标识码;
根据所述地址定位信息,获取与所述地址定位信息相匹配的所述近期主题清单。
3.如权利要求1所述的用户主题推荐方法,其特征在于,所述获取与所述用户唯一标识码关联的所有兴趣标签之前,包括:
获取所述用户唯一标识码关联的所有主题及主题对应的访问时间;
根据每个所述主题对应的所述访问时间距离当前时间的时长,确定每个所述主题的时间衰减系数;
将所有所述主题及其对应的所述时间衰减系数输入预设的向量空间模型,通过TF-IDF算法,所述向量空间模型提取出所有所述主题的词语特征,根据所有所述词语特征以及与每一个所述词语特征对应的时间衰减系数,得到分类标签及其对应的分类标签权重;
根据所有所述分类标签权重,对所有所述分类标签由大到小进行排序,将排序后的所有所述分类标签中序列在先的预设个数的所述分类标签确定为所述兴趣标签。
4.如权利要求1所述的用户主题推荐方法,其特征在于,所述将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,包括:
获取所述近期主题和所述兴趣标签,同时获取所述近期主题的第一句长和所述兴趣标签的第二句长;
通过所述第一文本相似度度量模型中的第一编辑距离模型,得到所述近期主题和所述兴趣标签的第一编辑距离相似度值;
通过所述第一文本相似度度量模型中的第一Jaccard距离模型,得到所述近期主题和所述兴趣标签的第一Jaccard距离相似度值;
通过所述第一文本相似度度量模型中的第一Word2Vec模型,得到所述近期主题和所述兴趣标签的第一余弦相似度值;
根据所述第一句长和所述第二句长,确定所述近期主题和所述兴趣标签的第一编辑距离权重、第一Jaccard距离权重和第一Word2Vec权重;
将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述第一文本相似度度量模型中的相似度融合模型,得到所述近期主题与所述兴趣标签的所述第一相似度值。
5.如权利要求4所述的用户主题推荐方法,其特征在于,所述根据所述第一句长和所述第二句长,确定所述近期主题和所述兴趣标签的第一编辑距离权重、第一Jaccard距离权重和第一Word2Vec权重,包括:
将所述第一句长和所述第二句长相加,获得总句长;
若所述第一句长大于预设长度值,则所述第一编辑距离权重为第一参数与所述总句长的比值,所述第一Word2Vec权重为一与两倍的所述第一编辑距离权重之间的差值,且所述第一Jaccard距离权重与所述第一编辑距离权重相等;其中,所述第一参数小于所述总句长;
若所述第一句长小于且等于预设长度值,则所述第一编辑距离权重为第二参数除以所述总句长,所述第一Jaccard距离权重与所述第一编辑距离权重相等,所述第一Word2Vec权重为一减去两倍的所述第一编辑距离权重;其中,所述第二参数小于所述总句长,且所述第二参数大于所述第一参数。
6.如权利要求4所述的用户主题推荐方法,其特征在于,所述将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述文本相似度度量模型中的相似度融合模型,得到所述近期主题和所述兴趣标签的所述第一相似度值,包括:
将所述第一编辑距离相似度值、所述第一Jaccard距离相似度值、所述第一余弦相似度值、所述第一编辑距离权重、所述第一Jaccard距离权重和所述第一Word2Vec权重输入所述相似度融合模型中的加权函数,得到所述近期主题和所述兴趣标签的所述第一相似度值;其中,所述加权函数为:
Y=α1A+α2B+α3C
其中:
Y为所述近期主题和所述兴趣标签的所述第一相似度值;
A为所述第一编辑距离相似度值;
B为所述第一Jaccard距离相似度值;
C为所述第一余弦相似度值;
α1为所述第一编辑距离权重;
α2为所述第一Jaccard距离权重;
α3为所述第一Word2Vec权重。
7.如权利要求1所述的用户主题推荐方法,其特征在于,所述将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,包括:
获取所述相关主题和所述历史主题,同时获取所述相关主题的第三句长和所述历史主题的第四句长;
通过所述第二文本相似度度量模型中的第二编辑距离模型,得到所述相关主题和所述历史主题的第二编辑距离相似度值;
通过所述第二文本相似度度量模型中的第二Jaccard距离模型,得到所述相关主题和所述历史主题的第二Jaccard距离相似度值;
通过所述第二文本相似度度量模型中的第二Word2Vec模型,得到所述相关主题和所述历史主题的第二余弦相似度值;
根据所述第三句长和所述第四句长,确定所述相关主题和所述历史主题的第二编辑距离权重、第二Jaccard距离权重和第二Word2Vec权重;
将所述第二编辑距离相似度值、所述第二Jaccard距离相似度值、所述第二余弦相似度值、所述第二编辑距离权重、所述第二Jaccard距离权重和所述第二Word2Vec权重输入所述第二文本相似度度量模型中的相似度融合模型,得到所述相关主题与所述历史主题的所述第二相似度值。
8.一种用户主题推荐装置,其特征在于,包括:
接收模块,用于接收用户推荐指令,获取用户唯一标识码和近期主题清单;其中,所述近期主题清单包含若干个近期主题;
获取模块,用于获取与所述用户唯一标识码关联的所有兴趣标签,同时获取与所述用户唯一标识码关联的符合预设停留时长的所有历史主题;
第一计算模块,用于将所有所述近期主题和所有所述兴趣标签输入第一文本相似度度量模型,通过所述第一文本相似度度量模型计算每个所述近期主题与所有所述兴趣标签的第一相似度值,并输出相关主题;所述相关主题是指已进行去重处理且所述第一相似度值达到第一阈值的所述近期主题;
第二计算模块,用于将所有所述相关主题和所有所述历史主题输入第二文本相似度度量模型,通过所述第二文本相似度度量模型计算每个所述相关主题与所有所述历史主题的第二相似度值,输出推荐主题;所述推荐主题是指已进行去重处理且所述第二相似度值达到第二阈值的所述相关主题;
显示模块,用于将所有所述推荐主题在所述用户唯一标识码对应的客户端的用户界面显示。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述用户主题推荐方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述用户主题推荐方法。
CN202010349666.3A 2020-04-28 2020-04-28 用户主题推荐方法、装置、计算机设备及存储介质 Pending CN111651666A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010349666.3A CN111651666A (zh) 2020-04-28 2020-04-28 用户主题推荐方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010349666.3A CN111651666A (zh) 2020-04-28 2020-04-28 用户主题推荐方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111651666A true CN111651666A (zh) 2020-09-11

Family

ID=72352232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010349666.3A Pending CN111651666A (zh) 2020-04-28 2020-04-28 用户主题推荐方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111651666A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490396A (zh) * 2022-01-27 2022-05-13 北京京航计算通讯研究所 一种软件测试需求挖掘方法和系统
CN114710554A (zh) * 2022-03-30 2022-07-05 北京奇艺世纪科技有限公司 一种消息处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490396A (zh) * 2022-01-27 2022-05-13 北京京航计算通讯研究所 一种软件测试需求挖掘方法和系统
CN114710554A (zh) * 2022-03-30 2022-07-05 北京奇艺世纪科技有限公司 一种消息处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN106874314B (zh) 信息推荐的方法和装置
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN112395500A (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN110175264A (zh) 视频用户画像的构建方法、服务器及计算机可读存储介质
CN111683274A (zh) 弹幕广告展示方法、装置、设备及计算机可读存储介质
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
CN113343024B (zh) 对象推荐方法、装置、电子设备及存储介质
CN113704509A (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN110971973A (zh) 一种视频推送方法、装置及电子设备
CN114491093B (zh) 多媒体资源推荐、对象表征网络的生成方法及装置
CN116089616A (zh) 主题文本获取方法、装置、设备及存储介质
CN113610215B (zh) 任务处理网络生成、任务处理方法、装置及电子设备
CN114547116A (zh) 一种数据推送方法、装置、设备和介质
CN113868516A (zh) 对象推荐方法、装置、电子设备及存储介质
CN109299351B (zh) 内容推荐方法和装置、电子设备及计算机可读介质
CN113434633A (zh) 基于头像的社交话题推荐方法、装置、设备及存储介质
CN112784032A (zh) 会话语料推荐评价方法、装置、存储介质和电子设备
CN114021739B (zh) 业务处理、业务处理模型训练方法、装置及电子设备
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN114048392B (zh) 多媒体资源推送方法、装置、电子设备及存储介质
CN110825954A (zh) 关键词推荐方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination