CN111475729A - 搜索内容推荐方法及装置 - Google Patents
搜索内容推荐方法及装置 Download PDFInfo
- Publication number
- CN111475729A CN111475729A CN202010266804.1A CN202010266804A CN111475729A CN 111475729 A CN111475729 A CN 111475729A CN 202010266804 A CN202010266804 A CN 202010266804A CN 111475729 A CN111475729 A CN 111475729A
- Authority
- CN
- China
- Prior art keywords
- content
- search
- information
- recommended
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请实施例公开了一种搜索内容推荐方法及装置;在检测到用户针对目标搜索内容的阅读触发操作后,获取与目标搜索内容关联的推荐信息关联内容,目标搜索内容基于搜索信息搜索得到;基于推荐信息关联内容的内容类型,获取推荐信息关联内容的内容含义文本,内容含义文本以文本形式展现推荐信息关联内容;基于内容含义文本的词组分布情况,从内容含义文本中提取出关键词组;计算关键词组与搜索信息的相似度;基于相似度,从关键词组中确定待推荐搜索词组;在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息。本方案有利于提升用户对推荐信息的点击率,进而提高搜索内容推荐的准确率。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种搜索内容推荐方法及装置。
背景技术
近年来通信技术飞速发展,用户可以通过在搜索引擎上输入搜索词汇进行搜索,得到需要的搜索内容。相关技术中,搜索引擎还会针对本次搜索,推荐一些其他的搜索词汇供用户选择。
在对相关技术的研究和实践过程中,本申请的发明人发现搜索引擎推荐的搜索词汇一般与用户输入的搜索词汇相关,但是搜索词汇一般是比较简短的,含义有限,而不同用户的阅读偏好不同,所以相关技术中的推荐不能很好地满足不同用户的个性化阅读需求,推荐信息的点击率有限。
发明内容
本申请实施例提供一种搜索内容推荐方法及装置,可以基于用户最新阅读的内容进行推荐,有利于提升用户对推荐信息的点击率,提升推荐信息的转化率提高搜索内容推荐的准确率。
本申请实施例提供了一种搜索内容推荐方法,包括:
在检测到用户针对目标搜索内容的阅读触发操作后,获取与所述目标搜索内容关联的推荐信息关联内容,所述目标搜索内容基于搜索信息搜索得到;
基于所述推荐信息关联内容的内容类型,获取所述推荐信息关联内容的内容含义文本,所述内容含义文本以文本形式展现所述推荐信息关联内容;
基于所述内容含义文本的词组分布情况,从所述内容含义文本中提取出关键词组;
计算所述关键词组与所述搜索信息的相似度;
基于所述相似度,从所述关键词组中确定待推荐搜索词组;
在检测到所述用户针对所述目标搜索内容的阅读结束操作后,基于所述待推荐搜索词组展示待推荐信息,其中,所述待推荐信息与所述待推荐搜索词组关联。
相应的,本申请实施例提供了一种搜索内容推荐装置,包括:
第一获取单元,用于在检测到用户针对目标搜索内容的阅读触发操作后,获取与所述目标搜索内容关联的推荐信息关联内容,所述目标搜索内容基于搜索信息搜索得到;
第二获取单元,用于基于所述推荐信息关联内容的内容类型,获取所述推荐信息关联内容的内容含义文本,所述内容含义文本以文本形式展现所述推荐信息关联内容;
提取单元,用于基于所述内容含义文本的词组分布情况,从所述内容含义文本中提取出关键词组;
计算单元,用于计算所述关键词组与所述搜索信息的相似度;
第一确定单元,用于基于所述相似度,从所述关键词组中确定待推荐搜索词组;
展示单元,用于在检测到所述用户针对所述目标搜索内容的阅读结束操作后,基于所述待推荐搜索词组展示待推荐信息,其中,所述待推荐信息与所述待推荐搜索词组关联。
在一实施例中,所述第一获取单元,包括:
第一获取子单元,用于在检测到用户针对目标搜索内容的阅读触发操作后,获取关联用户在第一历史时间段内的第一历史阅读内容,和/或所述用户的第二历史阅读内容,作为推荐信息关联内容,其中,所述用户与所述关联用户存在关联关系,所述第一历史阅读内容与所述目标搜索内容关联,所述第二历史阅读内容包括所述目标搜索内容。
在一实施例中,所述提取单元,包括:
第一得到子单元,用于对所述内容含义文本进行分词处理,得到原始词组;
第二得到子单元,用于从所述原始词组中筛选出预设词组类型的词组,得到候选词组;
第二获取子单元,用于基于所述内容含义文本的词组分布情况,获取所述候选词组的重要性度量信息;
第一确定子单元,用于基于所述重要性度量信息,从所述候选词组中确定关键词组。
在一实施例中,所述第二获取子单元还用于获取所述候选词组与所述原始词组的词组数量;基于所述候选词组的词组数量与所述原始词组的词组数量,计算所述候选词组的原始权重参数;获取参考内容库中参考内容的数量,以及所述参考内容中目标参考内容的数量,其中,所述目标参考内容包括所述候选词组;基于所述参考内容的数量与所述目标参考内容的数量,计算所述候选词组的原始权重系数;基于所述原始权重参数与所述原始权重系数,计算所述候选词组的目标权重参数,作为所述候选词组的重要性度量信息。
在一实施例中,所述计算单元,包括:
提取子单元,用于对所述关键词组与所述搜索信息进行语义特征信息提取;
第三得到子单元,用于将所述关键词组的语义特征信息与所述搜索信息的语义特征信息进行语义相似度比较,得到所述关键词组与所述搜索信息的相似度。
在一实施例中,所述第一确定单元,包括:
第二确定子单元,用于确定在第二历史时间段内,所述关键词组对应的用户搜索偏好程度;
第三确定子单元,用于基于所述相似度与所述搜索权重,从所述关键词组中确定待推荐搜索词组。
在一实施例中,所述展示单元,包括:
第一页面显示子单元,用于显示所述搜索信息对应的搜索结果页面,所述搜索结果页面包括所述目标搜索内容,以及与所述目标搜索内容对应展示的所述待推荐搜索词组。
在一实施例中,所述展示单元,包括:
第二页面显示子单元,用于显示所述搜索信息对应的搜索结果页面,所述搜索结果页面包括所述目标搜索内容,以及与所述目标搜索内容对应展示的所述待推荐内容的描述信息。。
在一实施例中,搜索内容推荐装置,还包括:
第三获取单元,用于获取所述推荐信息关联内容的历史用户互动信息;
第二确定单元,用于基于所述历史用户互动信息,确定所述推荐信息关联内容的历史阅读用户对各所述待推荐搜索词组的用户关注程度;
选择单元,用于基于所述用户关注程度,从所述待推荐搜索词组中选择预设数量的待推荐搜索词组。
相应的,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行本申请实施例任一提供的搜索内容推荐方法中的步骤。
相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适用于处理器进行加载,以执行本申请实施例任一提供的搜索内容推荐方法中的步骤。
本申请实施例可以在检测到用户针对目标搜索内容的阅读触发操作后,获取与所述目标搜索内容关联的推荐信息关联内容,所述目标搜索内容基于搜索信息搜索得到;基于所述推荐信息关联内容的内容类型,获取所述推荐信息关联内容的内容含义文本,所述内容含义文本以文本形式展现所述推荐信息关联内容;基于所述内容含义文本的词组分布情况,从所述内容含义文本中提取出关键词组;计算所述关键词组与所述搜索信息的相似度;基于所述相似度,从所述关键词组中确定待推荐搜索词组;在检测到所述用户针对所述目标搜索内容的阅读结束操作后,基于所述待推荐搜索词组展示待推荐信息,其中,所述待推荐信息与所述待推荐搜索词组关联。该方案可以将用户当前阅读的内容与历史阅读内容相结合,然后从中提取出关键词组,再根据关键词组与搜索信息,确定用于进行再次搜索的待推荐搜索词组,更能体现用户的阅读偏好,而且相对于只根据搜素信息进行搜索内容推荐的方法,更能满足不同用户的个性化需求,可以提高待推荐搜索词组的点击率,进而提升推荐信息的转化率提高内容推荐的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的搜索内容推荐方法的场景示意图;
图2是本申请实施例提供的搜索内容推荐方法的流程图;
图3是本申请实施例提供的搜索内容推荐方法词向量转化图;
图4是本申请实施例提供的搜索内容推荐方法的搜索结果页面显示图;
图5是本申请实施例提供的搜索内容推荐方法的另一搜索结果页面显示图;
图6是本申请实施例提供的搜索内容推荐方法的详情页面显示图
图7是本申请实施例提供的搜索内容推荐方法的另一流程图;
图8是本申请实施例提供的搜索内容推荐方法的关键词组提取流程图;
图9是本申请实施例提供的搜索内容推荐方法的装置图;
图10是本申请实施例提供的搜索内容推荐方法的另一装置图;
图11是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种搜索内容推荐方法、装置、计算机设备和计算机可读存储介质。具体地,本申请实施例提供适用于计算机设备的搜索内容推荐装置。其中,该计算机设备可以为终端或服务器等设备,该终端可以为手机、平板电脑、笔记本电脑等设备。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
本申请实施例提供的搜索内容推荐方法涉及人工智能领域中的自然语言处理方向。本申请实施例可以通过机器学习训练得到的神经网络识别各内容(比如,目标搜索内容、推荐信息关联内容)的内容类型。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模型、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳效果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,集有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括自然语言处理、机器学习/深度学习等方向。
其中,自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论与方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
参考图1,以该计算机设备为服务器为例,该服务器可以在检测到用户针对目标搜索内容的阅读触发操作后,获取与目标搜索内容关联的推荐信息关联内容,目标搜索内容基于搜索信息搜索得到;基于推荐信息关联内容的内容类型,获取推荐信息关联内容的内容含义文本,内容含义文本以文本形式展现推荐信息关联内容;基于内容含义文本的词组分布情况,从内容含义文本中提取出关键词组;计算关键词组与搜索信息的相似度;基于相似度,从关键词组中确定待推荐搜索词组;在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息,其中,待推荐信息与待推荐搜索词组关联。
由以上可知,本申请实施例可以将用户当前阅读的内容与历史阅读内容相结合,然后从中提取出关键词组,再根据关键词组与搜索信息,确定用于进行再次搜索的待推荐搜索词组,更能体现用户的阅读偏好,而且相对于只根据搜素信息进行搜索内容推荐的方法,更能满足不同用户的个性化需求,可以提高待推荐搜索词组的点击率,进而提升推荐信息的转化率提高内容推荐的准确率。
本实施例可以以下分别进行详细说明,需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供一种搜索内容推荐方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以搜索内容推荐方法由服务器执行为例来进行说明,具体的,由集成在服务器中的搜索内容推荐装置来执行。如图2所示,该搜索内容推荐方法的具体流程可以如下:
201、在检测到用户针对目标搜索内容的阅读触发操作后,获取与目标搜索内容关联的推荐信息关联内容,目标搜索内容基于搜索信息搜索得到。
其中,目标搜索内容为基于用户输入的搜索信息搜索到的内容,目标搜索内容可以为文章、视频、以及图像,等等。
其中,推荐信息关联内容可以为用户在历史时间段内阅读过的内容,还可以为用户在历史时间段内阅读过的内容与其他用户在历史时间段内阅读过的历史内容,相合并的内容,其他用户可以为与用户存在关联关系的用户,比如是社交软件上关联的用户,或者是历史阅读相似度达到一定程度的用户,等等。
在一实施例中,在检测到用户针对目标搜索内容进行阅读后,可以获取与目标搜索内容关联的推荐信息关联内容,具体步骤“在用户针对目标搜索内容进行阅读后,获取与目标搜索内容关联的推荐信息关联内容”,可以包括:
在检测到用户针对目标搜索内容的阅读触发操作后,获取关联用户在第一历史时间段内的第一历史阅读内容,和/或用户的第二历史阅读内容,作为推荐信息关联内容,其中,用户与关联用户存在关联关系,第一历史阅读内容与目标搜索内容关联,第二历史阅读内容包括目标搜索内容。
也就是说,可以将第一历史阅读内容作为推荐信息关联内容,可以将第二历史阅读内容作为推荐信息关联内容,还可以将第一历史阅读内容与第二历史阅读内容作为推荐信息关联内容。
进一步的,在一实施中,还可以获取第一历史阅读内容对应的第一用户互动信息、第二历史阅读内容对应的第二用户互动信息,然后将第一历史阅读内容、第二历史阅读内容、第一用户互动信息、以及第二用户互动信息作为推荐信息关联内容。
其中,第一用户互动信息与第二用户互动信息分别为第一历史阅读内容的历史用户互动信息与第二历史阅读内容的历史用户互动信息,比如,第一用户互动信息可以为在历史时间段内所有用户对于第一历史阅读内容的评论,第二用户互动信息可以为在历史时间段内所有用户对于第二历史阅读内容的评论。
202、基于推荐信息关联内容的内容类型,获取推荐信息关联内容的内容含义文本,内容含义文本以文本形式展现推荐信息关联内容,并基于内容含义文本的词组分布情况,从内容含义文本中提取出关键词组。
其中,内容含义文本为可以表达推荐信息关联内容的含义的文本,同一推荐信息关联内容中的内容类型不限,包括但不限于:文本类型,图像类型,音/视频类型等。比如,若推荐信息关联内容的内容类型为文本类型,则可以直接提取推荐信息关联内容中的文本(包括标题,正文等等文本信息)作为内容含义文本,若推荐信息关联内容的内容类型除了文本类型,还包括图像类型,则还可以提取推荐信息关联内容中图像的语义,并转化为文本,进而得到图像对应的内容含义文本,若推荐信息关联内容的内容类型还包括视频类型,则还可以提取推荐信息关联内容中视频相关的文本,例如提取视频中的台词,和/或提取描述视频的图像语义的文本,得到视频对应的内容含义文本,等等。
其中,关键词组为与推荐信息关联内容重要性程度比较重的词组,比如,可以较好的表现推荐信息关联内容的词组,并且这些词组是从推荐信息关联内容或内容含义文本中提取出来的,可以根据词组在内容含义文本中分布的情况来确定词组相对于推荐信息关联内容的重要性,比如,词组A在推荐信息关联内容中分布的范围比词组B在推荐信息关联内容中分布的范围广,出现的频率高,那么可以知道词组A于推荐信息关联内容的重要性比词组B于推荐信息关联内容的重要性强,相比较而言,词组A比词组B能更好的代替这个类的推荐信息关联内容的特征。
进一步的,除了基于内容含义文本的词组的分布情况,从内容含义文本中提取出关键词组以外,还可以根据其他的方法提取出关键词组,比如,结合用户的当前地理位置、以及当前的事实热点等,来从内容含义文本中提取出关键词组。
在一实施例中,为了从内容含义文本中提取出关键词组,可以对内容含义文本进行分词处理,并确定内容含义文本中各词组相对于内容含义文本的而重要性步骤“基于内容含义文本的词组分布情况,从内容含义文本中提取出关键词组”,可以包括:
对内容含义文本进行分词处理,得到原始词组;
从原始词组中筛选出预设词组类型的词组,得到候选词组;
基于内容含义文本的词组分布情况,获取候选词组的重要性度量信息;
基于重要性度量信息,从候选词组中确定关键词组。
例如,得到的原始词组可能包括多个类型的词组,而需要提取的词组可能只为某些类型的词组,比如,词组类型为名词性词组的词组,那么就可以从原始词组中筛选出名词性词组,得到候选词组。
在一实施例中,重要性度量信息是衡量候选词组相对于内容含义文本重要性程度的度量信息,可以将根据候选词组的原始权重参数与候选词组的原始权重系数计算得到的目标权重参数,作为候选词组的重要性度量信息,步骤“基于内容含义文本的词组分布情况,获取候选词组的重要性度量信息”,可以包括:
获取候选词组与原始词组的词组数量;
基于候选词组的词组数量与原始词组的词组数量,计算候选词组的原始权重参数;
获取参考内容库中参考内容的数量,以及参考内容中目标参考内容的数量,其中,目标参考内容包括候选词组;
基于参考内容的数量与目标参考内容的数量,计算候选词组的原始权重系数;
基于原始权重参数与原始权重系数,计算候选词组的目标权重参数,作为候选词组的重要性度量信息。
在一实施例中,可以通过TF-IDF(term frequency-inverse documentfrequency)来计算目标权重参数。比如,根据以下公式计算出原始权重参数,也就是TF(Term Frequency)值:
以上式子中ni,j是该词在文件中的出现次数(比如,候选词组的词组数量),而分母∑knk,j则是在文件中所有字词的出现次数之和(比如,原始词组的词组数量),也就是说,候选词组的原始权重参数可以由候选词组的词组数量除以原始词组的词组数量得到。TF(Term Frequency,词频)这个数字是对词数(term count)的归一化,以防止它偏向长的文件,比如,同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否,对于在某一特定文件里的词语来说,它的重要性可以通过以上的公式表示出来。
同理,可以根据以下公式计算出原始权重系数,也就是IDF(inverse documentfrequency,逆向文件频率)值:
其中,|D|:语料库中的文件总数(比如,参考内容库中参考内容的数量);包含词语的文件数目(比如目标参考内容的数量)如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用。然后再计算TF与IDF的乘积,就可以得到目标权重参数。IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,也就是说,候选词组的原始权重系数可以由参考内容的数量除以目标参考内容的数量,再将得到的商取对数得到。
通过以上算法步骤可以计算出候选词组的目标权重参数,当目标权重参数大于预设权重参数时,可以从候选词组中确定关键词组。
其中,TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF(TermFrequency),意思是词频,指的是某一个给定的词语在该文件中出现的频率,IDF(InverseDocument Frequency),意思是逆文本频率指数。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
在一实施例中,推荐信息关联内容可以包括用户的第二历史阅读内容与关联用户的第一历史阅读内容,然后,基于第一历史阅读内容与第二历史阅读内容中的内容类型,获取第一历史阅读内容与第二历史阅读内容的内容含义文本,然后分别对第一历史阅读内容对应的内容含义文本与第二历史阅读内容对应的内容含义文本进行分词处理,得到第一原始词组与第二原始词组,然后,再从第一原始词组与第二原始词组中筛选出预设词组类型的词组,比如,从第一原始词组中筛选出词组类型为名词性词组的第一候选词组,从第二原始词组中筛选出词组类型为名词性词组的第二候选词组,然后再基于第一历史阅读内容对应的内容含义文本与第二历史阅读内容对应的内容含义文本的词组分布情况,计算第一候选词组与第二候选词组的目标权重参数,作为第一候选词组与第二候选词组的重要性度量信息,最后,基于重要性度量信息,从第一候选词组与第二候选词组中确定关键词组。
其中,第一候选词组与第二候选词组的目标权重参数的计算方法同理可以通过TF-IDF来计算,在这里就不再赘述。
203、计算关键词组与搜索信息的相似度。
其中,相似度为表征关键词组与搜索信息相似程度的度量信息,相似度越高,可以说明关键词组与搜索信息的相似程度越高,关键词组与搜索信息越相似。
在一实施例中,为了确定关键词组与搜索信息的相似度情况,可以分别提取关键词组与搜索信息的特征信息,然后再进行相似度比较,步骤“计算关键词组与搜索信息的相似度”,可以包括:
对关键词组与搜索信息进行语义特征信息提取;
将关键词组的语义特征信息与搜索信息的语义特征信息进行语义相似度比较,得到关键词组与搜索信息的相似度。
在一实施例中,还可以将关键词组与搜索信息转化为词向量,然后,计算关键词组的词向量与搜索信息的词向量之间的向量相似度,以得到关键词组与搜索信息的相似度。
其中,关键词组与搜索信息的词向量可以通过词向量模型提取出来,词向量模型可以为用于生成词向量的模型,也就是可以理解为将一个词组表示为一个向量,比如,对词向量模型输入一个词组,该词向量模型便可以输出该词组的向量表达。该词向量模型可以为Word2vec等等。
其中,通过Word2Vec模型来提取关键词组与搜索信息的词向量,Word2Vec是一群用来产生词向量的相关模型,这些模型为浅而双层的神经网络,可以用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词组到一个向量,可用来表示词组对词组之间的关系,该向量为神经网络之隐藏层。其中,输入大量已分词的文本,输出向量来表示词组。
其中,Word2vec可以将词映射到一个低维的向量空间中,通过计算两个词之间的距离来得到词之间的相似度。Word2vec模型类型可以有多种,比如,可以包括CBOW(Continuous Bag of Words,词袋)模型、skip-gram模型,等等。
其中,CBOW是给定上下文词来预测输入词向量。其中,skip-gram模型为通过当前词预测上下文词的模型。参考图3,skip-gram模型可以包括:输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer);每层中包括多个神经元。词组里每个词都可以表示为一个N维(比如20维)词向量。然后将词组里每个词的20维词向量加和,即认为是这个词组(或者句子)的词向量表示。
在一实施例中,可以采用余弦相似度来衡量关键词组与搜索信息之间的相似度,余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。
余弦值的范围在[-1,1]之间,关键词组的词向量与搜索信息的余弦值越趋近于1,代表两个词向量的方向越接近;越趋近于-1,他们的方向越相反;接近于0,表示两个向量近乎于正交,他们的余弦值越大就表示关键词组与搜索信息越相似。
其中,余弦相似度又称余弦相似性,最常见的应用就是计算文本相似度。将两个文本根据他们词,建立两个向量,计算这两个向量的余弦值,就可以知道两个文本在统计学方法中他们的相似度情况,公式如下:
在本方案中,显而易见的,cosθ的值可以表示关键词组与搜索信息的相似度,向量a与向量b可以关键词组的词向量与搜索信息的词向量,||a||与||b||可以表示关键词组的词向量的模与搜索信息的词向量的模。
其中,假设关键词组的词向量为向量a,搜索信息的词向量为向量b,知道向量a与向量b的坐标分别为(x1,y1)、(x2,y2),那么cosθ可以通过以下公式计算出来:
其中,可以假设向量A=(A1,A2,……,An),向量B=(B1,B2,……,Bn),推广到多维,那么cosθ可以通过以下公式计算出来:
204、基于相似度,从关键词组中确定待推荐搜索词组。
其中,待推荐搜索词组为关键词组与搜索信息的相似度达到一定程度时,从关键词组中确定的词组。相比较而言,确定为待推荐搜索词组的关键词组与搜索信息的相似度,高于其他未被确定为待推荐搜索词组的关键词组。
在一实施例中,除了可以根据相似度特征信息,还可以根据关键词组在历史时间段内的搜索权重,比如根据关键词组被用于搜索的次数,来确定待推荐搜索词组,步骤“基于相似度,从关键词组中确定待推荐搜索词组”,可以包括:
确定在第二历史时间段内,关键词组对应的用户搜索偏好程度;
基于相似度与搜索权重,从关键词组中确定待推荐搜索词组。
其中,用户搜索偏好程度可以根据关键词组在第二历史时间段内被用于搜索的次数来计算,比如,关键词组在第二历史时间段内被用于搜索的次数越多,用户搜索偏好程度就越高,待推荐搜索词组可以基于相似度特征信息与用户偏好程度,对关键词组进行排序,比如相似度越高、用户搜索偏好程度越高的关键词组排在相似度较低、用户搜索偏好程度较低的关键词组的前面,最后可以选择排在前面的关键词组为待推荐搜索词组,等等。
在一实施例中,在确定待推荐搜索词组之前,还可以计算关键词组的权重值,比如,根据关键词组在推荐信息关联内容中出现的频率来计算关键词组的权重值,最后,可以根据相似度信息、关键词组的权重值,从关键词组中确定待推荐搜索词组。
205、在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息,其中,待推荐信息与待推荐搜索词组关联。
其中,待推荐信息可以用于用户再一次进行内容搜索的推荐信息,比如,用户对待推荐信息中待推荐搜索词组的目标搜索词组进行搜索触发时,显示相应的搜索结果页面,搜索结果页面包括目标搜索词组对应的推荐内容。
在一实施例中,待推荐信息包括待推荐搜索词组,待推荐内容为基于待推荐搜索词组搜索得到的内容,步骤“在用户对目标搜索内容的阅读结束后,基于待推荐搜索词组展示待推荐信息”,可以包括:
显示搜索信息对应的搜索结果页面,搜索结果页面包括目标搜索内容,以及与目标搜索内容对应展示的待推荐搜索词组。
其中,当检测到针对待推荐搜索词组中的目标搜索词组的搜索操作时,可以显示目标搜索词组对应的搜索结果页面,搜索结果页面包括基于目标搜索词组搜索得到的搜索内容。
在一实施例中,待推荐信息包括待推荐内容的描述信息,待推荐内容为基于待推荐搜索词组搜索得到的内容,步骤“在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息”,可以包括:
显示搜索信息对应的搜索结果页面,搜索结果页面包括目标搜索内容,以及与目标搜索内容对应展示的待推荐内容的描述信息;
其中,在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息之后,当检测到针对描述信息中的目标描述信息的阅读操作时,可以显示目标描述信息所属待推荐内容对应的详情页面,详情页面包括待推荐内容的内容详情。
其中,描述信息用于描述待推荐内容的信息,其中,描述维度包括但不限于话题、作者、标题、内容概述、发布时间,在一个具体的示例中,描述信息可以包括待推荐内容的标题,可选的,该描述信息还起到链接的作用,用户点击该描述信息,该终端即可基于该描述信息对应的链接,获取网页内容,展示描述信息的详情页面。
其中,用户对目标搜索内容的阅读结束操作可以通过对目标搜索内容进行点击、滑动等操作来实现,同理,搜索操作与阅读操作,具体可以为点击、滑动等操作。
在一实施例中,待推荐信息包括待推荐搜索词组与待推荐内容的描述信息,可以显示搜索信息对应的搜索结果页面,搜索结果页面包括目标搜索内容,以及与目标搜索内容对应展示的待推荐搜索信息,比如,待推荐搜索词组和待推荐内容的描述信息,参考图4,可以在搜索框中输入搜索词“新型冠状病毒”进行内容的搜索,得到搜索结果页面,该搜索页面包括目标搜索内容显示区域,该目标搜索内容可以为“新型肺炎疫情最新动态”,若当前用户对目标搜索内容显示区域中的目标搜索内容进行阅读并返回,那么在待推荐搜索词组显示区域可以显示待推荐搜索词组,比如,待推荐搜索词组可以为“新型肺炎传播途径”、“海外新型冠状病毒”、“口罩预防”、以及“疫情主要症状表现”等等。
其中,若是对待推荐搜索词组中的任意一个搜索词组进行搜索触发操作,比如,对待推荐搜索词组的“新型肺炎传播途径”进行搜索触发,可以显示如图5所示的搜索结果页面,其中,该搜索结果页面的目标搜索内容显示区域可以显示搜索词组“新型肺炎传播途径”对应的搜索内容“新型肺炎的气溶胶传播”,待推荐搜索词组显示区域可以显示与搜索词组“新型肺炎传播途径”对应的待推荐搜索词组,比如,“接触传播”、“飞沫传播”、“新型肺炎传染”、以及“新型肺炎治愈”,等等。
其中,若是检测到针对描述信息中的目标描述信息的搜索操作,比如,检测到针对图4中描述信息中的“XX日报,关于新型肺炎的几点倡议”的搜索阅读操作(比如点击、滑动等操作),则可以显示如图6所示的详情页面,详情页面可以包括文章标题、作者名称、以及正文等。
在一实施例中,基于待推荐搜索词组展示待推荐信息前,还可以包括:
获取推荐信息关联内容的历史用户互动信息;
基于历史用户互动信息,确定推荐信息关联内容的历史阅读用户对各待推荐搜索词组的用户关注程度;
基于用户关注程度,从待推荐搜索词组中选择预设数量的待推荐搜索词组;
基于待推荐搜索词组展示待推荐信息,包括:
基于被选择的待推荐搜索词组展示待推荐信息。
其中,历史用户互动信息为历史上历史用户与推荐信息关联内容进行互动的信息,比如,文章的用户评论、视频的用户评论、以及视频的弹幕,等等。
其中,用户关注程度可以从历史用户互动信息中,获取推荐搜索词组对应的语义关联词组,基于各推荐搜索词组的语义关联词组的数量,确定各推荐搜索词组的用户关注程度。
例如,根据文章的用户评论、视频的用户评论或者视频的弹幕,确定历史用户对待推荐搜索词组的关注程度,然后选择关注程度高的待推荐搜索词组展示待推荐信息,可以较好的提高待推荐信息的点击率。
由以上可知,本实施例可以将用户当前阅读的内容与历史阅读内容相结合,然后从中提取出关键词组,再根据关键词组与搜索信息,确定用于进行再次搜索的待推荐搜索词组,更能体现用户的阅读偏好,而且相对于只根据搜素信息进行搜索内容推荐的方法,更能满足不同用户的个性化需求,可以提高待推荐搜索词组的点击率,进而提升推荐信息的转化率提高内容推荐的准确率。
根据上述介绍的内容,下面将举例来进一步说明本申请的搜索内容推荐方法。参考图7,一种搜索内容推荐方法,具体流程可以如下:
701、服务器在检测到用户针对目标搜索内容的阅读触发操作后,获取与目标搜索内容关联的推荐信息关联内容。
在一实施例中,推荐信息关联内容的内容类型为文本类型,当前用户在搜索引擎的输入框中输入搜索信息,比如,搜索词,可以搜索到目标搜索文本,服务器在用户针对目标搜索内容进行阅读后,获取推荐信息关联内容。目标搜索内容可以包括文本,或者文本与文本对应历史用户互动信息,比如,目标搜索内容可以包括文章,或者是文章与文章对应的历史用户的评论。
在一实施例中,在用户针对目标搜索内容进行阅读后,可以获取关联用户在第一历史时间段内的第一阅读文本,作为推荐信息关联内容,或者将第一历史时间段内用户的第二历史阅读文本,作为推荐信息关联内容,或者将第一历史时间段内的第一阅读文本与用户的第二历史阅读文本,作为推荐信息关联内容。
702、服务器基于推荐信息关联内容的词组分布情况,从推荐信息关联内容中提取出关键词组。
在一实施例中,推荐信息关联内容的内容类型为文本类型,可以直接对推荐信息关联内容进行分词处理,并筛选出预设词组类型的词组,得到候选词组,然后基于推荐信息关联内容的词组分布情况,获取候选词组的重要性度量信息,最后,基于重要性度量信息,从候选词组中确定关键词组。
其中,重要性度量信息可以根据TF-IDF来计算,在上一个实施例已经详细介绍,在此就不再赘述。
例如,以推荐信息关联内容的内容类型为文本类型为例进行说明,在一实施例中,参考图8,可以对推荐信息关联内容进行分词处理,得到的原始词组,然后除去原始词组中的停用词组和非名词词组,并识别出其中的人名、地名、机构名等名词词组作为候选词组,计算候选词组的目标权重值,最后筛选出目标权重值大于预设权重值的候选词组为关键词组。
其中,目标权重值可以通过候选词组的词组数量、原始词组的词组数量、参考文本库中参考文本的数量、以及参考文本库中目标参考文本的数量来计算,目标参考文本包括有候选词组。详细计算过程可以包括以下:
将候选词组的词组数量除以原始词组的词组数量,可以计算出候选词组的原始权重参数,然后再根据参考文本的数量除以目标参考文本的数量,再将得到的商取对数,得到原始权重系数,最后将原始权重参数乘以原始权重系数,得到目标权重值。
703、服务器计算关键词组与搜索信息的相似度。
在一实施例中,推荐信息关联内容的内容类型为文本类型,提取出关键词组之后,为了计算关键词组与搜索信息的相似度,可以将关键词组与搜索信息转化成词向量,通过词向量间的计算,得到关键词组与搜索信息的相似度,比如,得到关键词组与搜索信息转化成词向量之后,采用余弦相似度衡量关键词组与搜索信息之间的相似度。
704、服务器基于相似度,从关键词组中确定待推荐搜索词组。
在一实施例中,推荐信息关联内容的内容类型为文本类型,服务器基于相似度信息,可以对关键词组进行排序,相似度越高的关键词组相应排在前面,最后可以确定排在前面的关键词组为待推荐搜索词组。
其中,在一实施例中,还可以获取关键词组在历史时间段内被搜索的次数,然后根据相似度信息与次数,从关键词组中确定待推荐搜索词组,比如,根据相似度信息与关键词组在历史时间段内被搜索的次数,对关键词组进行排序,最后根据排序结果从关键词组中确定待推荐搜索词组。
705、服务器在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息,其中,待推荐信息与待推荐搜索词组关联。
在一实施例中,待推荐信息可以包括待推荐搜索词组,当检测到用户针对待推荐搜索词组中的目标搜索词组的搜索操作时,可以显示包括基于目标搜索词组搜索得到的搜索内容对应的搜索结果页面。
在一实施例中,待推荐信息可以包括待推荐内容的描述信息,当检测到用户针对描述信息中目标描述信息的触发操作时,可以显示目标信息所属待推荐内容对应的详情页面,详情页面包括待推荐内容的内容详情。
在一实施例中,待推荐信息包括待推荐搜索词组与待推荐内容的描述信息,可以针对待推荐词组的目标搜索词组进行触发操作,显示目标搜索词组对应的搜索结果页面,还可以针对描述信息的目标描述信息进行触发操作,显示目标描述信息所属待推荐搜索内容对应的详情页面,比如,参考图4,在用户对目标搜索内容结束阅读后,用户可以搜索结果页面,在搜索结果页面可以显示用户刚阅读结束的目标搜索内容,以及待推荐信息,待推荐信息可以包括待推荐搜索词组,还可以包括描述信息。
其中,还可以基于待推荐搜索词组在搜索引擎中对待推荐搜索词组对应的信息进行搜索,比如,当检测到针对待推荐搜索词组中的目标搜索词组的搜索触发操作时,显示目标搜索词组对应的搜索结果页面,搜索结果页面包括目标搜索词组对应的待推荐内容。当检测到针对描述信息中的目标描述信息的搜索操作时,显示待推荐内容的详情页面,详情页面包括待推荐内容的内容详情。
在一实施例中,基于待推荐搜索词组展示待推荐信息前,还可以获取推荐信息关联内容的历史用户互动信息,比如,推荐信息关联内容的历史用户评论,根据历史用户评论,确定推荐信息关联内容的历史阅读用户对各待推荐搜索词组的用户关注程度,并选择用户关注程度较高的待推荐搜索词组展示待推荐信息。
由以上可知,本实施例可以将用户当前阅读的内容与历史阅读内容相结合,然后从中提取出关键词组,再根据关键词组与搜索信息,确定用于进行再次搜索的待推荐搜索词组,更能体现用户的阅读偏好,而且相对于只根据搜素信息进行搜索内容推荐的方法,更能满足不同用户的个性化需求,可以提高待推荐搜索词组的点击率,进而提升推荐信息的转化率提高内容推荐的准确率。
为了更好地实施以上方法,相应的,本申请实施例还提供一种搜索内容推荐装置,其中,该搜索内容推荐装置具体可以集成在服务器中,参考图9,该搜索内容推荐装置可以包括第一获取单元901、第二获取单元902、提取单元903、计算单元904、第一确定单元905和展示单元906,如下:
(1)第一获取单元901;
第一获取单元901,用于在检测到用户针对目标搜索内容的阅读触发操作后,获取与目标搜索内容关联的推荐信息关联内容,目标搜索内容基于搜索信息搜索得到。
在一实施例中,参考图10,第一获取单元901,包括:
第一获取子单元9011,用于在检测到用户针对目标搜索内容的阅读触发操作后,获取关联用户在第一历史时间段内的第一历史阅读内容,和/或用户的第二历史阅读内容,作为推荐信息关联内容,其中,用户与关联用户存在关联关系,第一历史阅读内容与目标搜索内容关联,第二历史阅读内容包括目标搜索内容。
(2)第二获取单元902;
第二获取单元902,用于基于推荐信息关联内容的内容类型,获取推荐信息关联内容的内容含义文本,内容含义文本以文本形式展现推荐信息关联内容。
(3)提取单元903;
提取单元903,用于基于内容含义文本的词组分布情况,从内容含义文本中提取出关键词组。
在一实施例中,参考图10,提取单元903,包括:
第一得到子单元9031,用于对内容含义文本进行分词处理,得到原始词组;
第二得到子单元9032,用于从原始词组中筛选出预设词组类型的词组,得到候选词组;
第二获取子单元9033,用于基于内容含义文本的词组分布情况,获取候选词组的重要性度量信息;
第一确定子单元9034,用于基于重要性度量信息,从候选词组中确定关键词组。
在一实施例中,第二获取子单元9033还用于获取候选词组与原始词组的词组数量;基于候选词组的词组数量与原始词组的词组数量,计算候选词组的原始权重参数;获取参考内容库中参考内容的数量,以及参考内容中目标参考内容的数量,其中,目标参考内容包括候选词组;基于参考内容的数量与目标参考内容的数量,计算候选词组的原始权重系数;基于原始权重参数与原始权重系数,计算候选词组的目标权重参数,作为候选词组的重要性度量信息。
(4)计算单元904;
计算单元904,用于计算关键词组与搜索信息的相似度。
在一实施例中,参考图10,计算单元904,包括:
提取子单元9041,用于对关键词组与搜索信息进行语义特征信息提取;
第三得到子单元9042,用于将关键词组的语义特征信息与搜索信息的语义特征信息进行语义相似度比较,得到关键词组与搜索信息的相似度。
(5)第一确定单元905;
第一确定单元905,用于基于相似度,从关键词组中确定待推荐搜索词组。
在一实施例中,参考图10,确定单元905,包括:
第二确定子单元9051,用于确定在第二历史时间段内,关键词组对应的用户搜索偏好程度;
第三确定子单元9052,用于基于相似度与搜索权重,从关键词组中确定待推荐搜索词组。
(6)展示单元906;
展示单元906,用于在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息,其中,待推荐信息与待推荐搜索词组关联。
在一实施例中,参考图10,展示单元906,包括:
第一页面显示子单元9061,用于显示搜索信息对应的搜索结果页面,搜索结果页面包括目标搜索内容,以及与目标搜索内容对应展示的待推荐搜索词组。
在一实施例中,展示单元906,包括:
第二页面显示子单元9062,用于显示搜索信息对应的搜索结果页面,搜索结果页面包括目标搜索内容,以及与目标搜索内容对应展示的待推荐内容的描述信息。在一实施例中,搜索内容推荐装置,还包括:
第三获取单元907,用于获取推荐信息关联内容的历史用户互动信息;
第二确定单元908,用于基于历史用户互动信息,确定推荐信息关联内容的历史阅读用户对各待推荐搜索词组的用户关注程度;
选择单元909,用于基于用户关注程度,从待推荐搜索词组中选择预设数量的待推荐搜索词组。
由以上可知,本申请实施例的搜索内容推荐装置的第一获取单元901在检测到用户针对目标搜索内容的阅读触发操作后,获取与目标搜索内容关联的推荐信息关联内容,目标搜索内容基于搜索信息搜索得到;然后,由第二获取单元902基于推荐信息关联内容的内容类型,获取推荐信息关联内容的内容含义文本,内容含义文本以文本形式展现推荐信息关联内容;由提取单元903基于内容含义文本的词组分布情况,从内容含义文本中提取出关键词组;由计算单元904计算关键词组与搜索信息的相似度;由第一确定单元905基于相似度,从关键词组中确定待推荐搜索词组;由展示单元906在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息,其中,待推荐信息与待推荐搜索词组关联。该方案可以将用户当前阅读的内容与历史阅读内容相结合,然后从中提取出关键词组,再根据关键词组与搜索信息,确定用于进行再次搜索的待推荐搜索词组,更能体现用户的阅读偏好,而且相对于只根据搜素信息进行搜索内容推荐的方法,更能满足不同用户的个性化需求,可以提高待推荐搜索词组的点击率,进而提升推荐信息的转化率提高内容推荐的准确率。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器等设备,如图11所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器1101、一个或一个以上计算机可读存储介质的存储器1102、电源1103和输入单元1104等部件。本领域技术人员可以理解,图11中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器1101是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器1102内的软件程序和/或模块,以及调用存储在存储器1102内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器1101可包括一个或多个处理核心;优选的,处理器1101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1101中。
存储器1102可用于存储软件程序以及模块,处理器1101通过运行存储在存储器1102的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1102可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1102还可以包括存储器控制器,以提供处理器1101对存储器1102的访问。
计算机设备还包括给各个部件供电的电源1103,优选的,电源1103可以通过电源管理系统与处理器1101逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1103还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元1104,该输入单元1104可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器1101会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1102中,并由处理器1101来运行存储在存储器1102中的应用程序,从而实现各种功能,如下:
在检测到用户针对目标搜索内容的阅读触发操作后,获取与目标搜索内容关联的推荐信息关联内容,目标搜索内容基于搜索信息搜索得到;基于推荐信息关联内容的内容类型,获取推荐信息关联内容的内容含义文本,内容含义文本以文本形式展现推荐信息关联内容;基于内容含义文本的词组分布情况,从内容含义文本中提取出关键词组;计算关键词组与搜索信息的相似度;基于相似度,从关键词组中确定待推荐搜索词组;在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息,其中,待推荐信息与待推荐搜索词组关联。以上个操作的具体实施例可参见前面的实施例,在此不再赘述。
由以上可知,本实施例可以将用户当前阅读的内容与历史阅读内容相结合,然后从中提取出关键词组,再根据关键词组与搜索信息,确定用于进行再次搜索的待推荐搜索词组,更能体现用户的阅读偏好,而且相对于只根据搜素信息进行搜索内容推荐的方法,更能满足不同用户的个性化需求,可以提高待推荐搜索词组的点击率,进而提升推荐信息的转化率提高内容推荐的准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种搜索内容推荐方法中的步骤。例如,该指令可以执行如下步骤:
在检测到用户针对目标搜索内容的阅读触发操作后,获取与目标搜索内容关联的推荐信息关联内容,目标搜索内容基于搜索信息搜索得到;基于推荐信息关联内容的内容类型,获取推荐信息关联内容的内容含义文本,内容含义文本以文本形式展现推荐信息关联内容;基于内容含义文本的词组分布情况,从内容含义文本中提取出关键词组;计算关键词组与搜索信息的相似度;基于相似度,从关键词组中确定待推荐搜索词组;在检测到用户针对目标搜索内容的阅读结束操作后,基于待推荐搜索词组展示待推荐信息,其中,待推荐信息与待推荐搜索词组关联。
以上各个操作的具体实施方式可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种搜索内容推荐方法中的步骤,因此,可以实现本申请实施例所提供的任一种搜索内容推荐方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种搜索内容推荐方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种搜索信息推荐方法,其特征在于,包括:
在检测到用户针对目标搜索内容的阅读触发操作后,获取与所述目标搜索内容关联的推荐信息关联内容,所述目标搜索内容基于搜索信息搜索得到;
基于所述推荐信息关联内容的内容类型,获取所述推荐信息关联内容的内容含义文本,所述内容含义文本以文本形式展现所述推荐信息关联内容;
基于所述内容含义文本的词组分布情况,从所述内容含义文本中提取关键词组;
计算所述关键词组与所述搜索信息的相似度;
基于所述相似度,从所述关键词组中确定待推荐搜索词组;
在检测到所述用户针对所述目标搜索内容的阅读结束操作后,基于所述待推荐搜索词组展示待推荐信息,其中,所述待推荐信息与所述待推荐搜索词组关联。
2.根据权利要求1所述的方法,其特征在于,所述基于所述内容含义文本的词组分布情况,从所述内容含义文本中提取出关键词组,包括:
对所述内容含义文本进行分词处理,得到原始词组;
从所述原始词组中筛选出预设词组类型的词组,得到候选词组;
基于所述内容含义文本的词组分布情况,获取所述候选词组的重要性度量信息;
基于所述重要性度量信息,从所述候选词组中确定关键词组。
3.根据权利要求2所述的方法,其特征在于,所述基于所述内容含义文本的词组分布情况,获取所述候选词组的重要性度量信息,包括:
获取所述候选词组与所述原始词组的词组数量;
基于所述候选词组的词组数量与所述原始词组的词组数量,计算所述候选词组的原始权重参数;
获取参考内容库中参考内容的数量,以及所述参考内容中目标参考内容的数量,其中,所述目标参考内容包括所述候选词组;
基于所述参考内容的数量与所述目标参考内容的数量,计算所述候选词组的原始权重系数;
基于所述原始权重参数与所述原始权重系数,计算所述候选词组的目标权重参数,作为所述候选词组的重要性度量信息。
4.根据权利要求1所述的方法,其特征在于,所述在检测到用户针对目标搜索内容的阅读触发操作后,获取与所述目标搜索内容关联的推荐信息关联内容,包括:
在检测到用户针对目标搜索内容的阅读触发操作后,获取关联用户在第一历史时间段内的第一历史阅读内容,和/或所述用户的第二历史阅读内容,作为推荐信息关联内容,其中,所述用户与所述关联用户存在关联关系,所述第一历史阅读内容与所述目标搜索内容关联,所述第二历史阅读内容包括所述目标搜索内容。
5.根据权利要求1所述的方法,其特征在于,所述计算所述关键词组与所述搜索信息的相似度,包括:
对所述关键词组与所述搜索信息进行语义特征信息提取;
将所述关键词组的语义特征信息与所述搜索信息的语义特征信息进行语义相似度比较,得到所述关键词组与所述搜索信息的相似度。
6.根据权利要求1所述的方法,其特征在于,所述基于所述相似度,从所述关键词组中确定待推荐搜索词组,包括:
确定在第二历史时间段内,所述关键词组对应的用户搜索偏好程度;
基于所述相似度与所述用户搜索偏好程度,从所述关键词组中确定待推荐搜索词组。
7.根据权利要求1所述的方法,其特征在于,所述待推荐信息包括所述待推荐搜索词组;
所述在检测到所述用户针对所述目标搜索内容的阅读结束操作后,基于所述待推荐搜索词组展示待推荐信息,包括:
显示所述搜索信息对应的搜索结果页面,所述搜索结果页面包括所述目标搜索内容,以及与所述目标搜索内容对应展示的所述待推荐搜索词组。
8.根据权利要求1所述的方法,其特征在于,所述待推荐信息包括待推荐内容的描述信息,所述待推荐内容为基于所述待推荐搜索词组搜索得到的内容;
所述在检测到所述用户针对所述目标搜索内容的阅读结束操作后,基于所述待推荐搜索词组展示待推荐信息,包括:
显示所述搜索信息对应的搜索结果页面,所述搜索结果页面包括所述目标搜索内容,以及与所述目标搜索内容对应展示的所述待推荐内容的描述信息。
9.根据权利要求1所述的方法,其特征在于,所述基于所述待推荐搜索词组展示待推荐信息前,还包括:
获取所述推荐信息关联内容的历史用户互动信息;
基于所述历史用户互动信息,确定所述推荐信息关联内容的历史阅读用户对各所述待推荐搜索词组的用户关注程度;
基于所述用户关注程度,从所述待推荐搜索词组中选择预设数量的待推荐搜索词组;
所述基于所述待推荐搜索词组展示待推荐信息,包括:
基于被选择的所述待推荐搜索词组展示待推荐信息。
10.一种搜索内容推荐装置,其特征在于,包括:
第一获取单元,用于在检测到用户针对目标搜索内容的阅读触发操作后,获取与所述目标搜索内容关联的推荐信息关联内容,所述目标搜索内容基于搜索信息搜索得到;
第二获取单元,用于基于所述推荐信息关联内容的内容类型,获取所述推荐信息关联内容的内容含义文本,所述内容含义文本以文本形式展现所述推荐信息关联内容;
提取单元,用于基于所述内容含义文本的词组分布情况,从所述内容含义文本中提取出关键词组;
计算单元,用于计算所述关键词组与所述搜索信息的相似度;
第一确定单元,用于基于所述相似度,从所述关键词组中确定待推荐搜索词组;
展示单元,用于在检测到所述用户针对所述目标搜索内容的阅读结束操作后,基于所述待推荐搜索词组展示待推荐信息,其中,所述待推荐信息与所述待推荐搜索词组关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266804.1A CN111475729B (zh) | 2020-04-07 | 2020-04-07 | 搜索内容推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266804.1A CN111475729B (zh) | 2020-04-07 | 2020-04-07 | 搜索内容推荐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475729A true CN111475729A (zh) | 2020-07-31 |
CN111475729B CN111475729B (zh) | 2023-07-25 |
Family
ID=71750172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010266804.1A Active CN111475729B (zh) | 2020-04-07 | 2020-04-07 | 搜索内容推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475729B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328752A (zh) * | 2021-01-04 | 2021-02-05 | 平安科技(深圳)有限公司 | 基于搜索内容的课程推荐方法、装置、计算机设备及介质 |
CN112463918A (zh) * | 2020-10-13 | 2021-03-09 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法、系统及存储介质和终端设备 |
CN113139049A (zh) * | 2021-04-21 | 2021-07-20 | 北京明略昭辉科技有限公司 | 关联文档推荐方法、装置、计算机设备和存储介质 |
CN113204578A (zh) * | 2021-04-29 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
CN113343024A (zh) * | 2021-08-04 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 对象推荐方法、装置、电子设备及存储介质 |
CN113360758A (zh) * | 2021-06-08 | 2021-09-07 | 苍穹数码技术股份有限公司 | 信息推荐方法、装置、电子设备和计算机存储介质 |
CN113610605A (zh) * | 2021-08-10 | 2021-11-05 | 深圳新动信息技术有限公司 | 反向针对用户推荐感兴趣的反向被动搜索的方法及系统 |
CN114238778A (zh) * | 2022-02-23 | 2022-03-25 | 深圳市云初信息科技有限公司 | 基于大数据的科技情报推荐方法、装置、介质及电子设备 |
CN114925273A (zh) * | 2022-05-23 | 2022-08-19 | 天津众群科技有限公司 | 基于大数据分析的用户行为预测方法及ai预测分析系统 |
WO2022227866A1 (zh) * | 2021-04-26 | 2022-11-03 | 北京字节跳动网络技术有限公司 | 信息展示的方法、装置以及非易失性计算机存储介质 |
CN117474703A (zh) * | 2023-12-26 | 2024-01-30 | 武汉荟友网络科技有限公司 | 基于社交网络的话题智能推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148948A (ja) * | 2005-11-30 | 2007-06-14 | Hitachi Ltd | 文書検索プログラム |
CN103294814A (zh) * | 2013-06-07 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 搜索结果推荐方法、系统和搜索引擎 |
CN106445963A (zh) * | 2015-08-10 | 2017-02-22 | 北京奇虎科技有限公司 | App平台的广告索引关键词自动生成方法和装置 |
CN107291835A (zh) * | 2017-05-31 | 2017-10-24 | 北京京东尚科信息技术有限公司 | 一种搜索词的推荐方法和装置 |
-
2020
- 2020-04-07 CN CN202010266804.1A patent/CN111475729B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148948A (ja) * | 2005-11-30 | 2007-06-14 | Hitachi Ltd | 文書検索プログラム |
CN103294814A (zh) * | 2013-06-07 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 搜索结果推荐方法、系统和搜索引擎 |
CN106445963A (zh) * | 2015-08-10 | 2017-02-22 | 北京奇虎科技有限公司 | App平台的广告索引关键词自动生成方法和装置 |
CN107291835A (zh) * | 2017-05-31 | 2017-10-24 | 北京京东尚科信息技术有限公司 | 一种搜索词的推荐方法和装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463918A (zh) * | 2020-10-13 | 2021-03-09 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法、系统及存储介质和终端设备 |
CN112463918B (zh) * | 2020-10-13 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法、系统及存储介质和终端设备 |
CN112328752A (zh) * | 2021-01-04 | 2021-02-05 | 平安科技(深圳)有限公司 | 基于搜索内容的课程推荐方法、装置、计算机设备及介质 |
CN113139049A (zh) * | 2021-04-21 | 2021-07-20 | 北京明略昭辉科技有限公司 | 关联文档推荐方法、装置、计算机设备和存储介质 |
WO2022227866A1 (zh) * | 2021-04-26 | 2022-11-03 | 北京字节跳动网络技术有限公司 | 信息展示的方法、装置以及非易失性计算机存储介质 |
CN113204578A (zh) * | 2021-04-29 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
CN113360758A (zh) * | 2021-06-08 | 2021-09-07 | 苍穹数码技术股份有限公司 | 信息推荐方法、装置、电子设备和计算机存储介质 |
CN113343024A (zh) * | 2021-08-04 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 对象推荐方法、装置、电子设备及存储介质 |
CN113610605A (zh) * | 2021-08-10 | 2021-11-05 | 深圳新动信息技术有限公司 | 反向针对用户推荐感兴趣的反向被动搜索的方法及系统 |
CN114238778A (zh) * | 2022-02-23 | 2022-03-25 | 深圳市云初信息科技有限公司 | 基于大数据的科技情报推荐方法、装置、介质及电子设备 |
CN114925273A (zh) * | 2022-05-23 | 2022-08-19 | 天津众群科技有限公司 | 基于大数据分析的用户行为预测方法及ai预测分析系统 |
CN114925273B (zh) * | 2022-05-23 | 2023-01-10 | 厦门亿加网络科技有限公司 | 基于大数据分析的用户行为预测方法及ai预测分析系统 |
CN117474703A (zh) * | 2023-12-26 | 2024-01-30 | 武汉荟友网络科技有限公司 | 基于社交网络的话题智能推荐方法 |
CN117474703B (zh) * | 2023-12-26 | 2024-03-26 | 武汉荟友网络科技有限公司 | 基于社交网络的话题智能推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111475729B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475729B (zh) | 搜索内容推荐方法及装置 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN106776673B (zh) | 多媒体文档概括 | |
Habibi et al. | Keyword extraction and clustering for document recommendation in conversations | |
De Gemmis et al. | Integrating tags in a semantic content-based recommender | |
CN106095845B (zh) | 文本分类方法和装置 | |
CN111401045B (zh) | 一种文本生成方法、装置、存储介质和电子设备 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN108287875B (zh) | 人物共现关系确定方法、专家推荐方法、装置及设备 | |
CN112052308A (zh) | 一种摘要文本提取方法、装置、存储介质和电子设备 | |
He et al. | A framework of query expansion for image retrieval based on knowledge base and concept similarity | |
Srinivas et al. | A weighted tag similarity measure based on a collaborative weight model | |
CN110888970B (zh) | 文本生成方法、装置、终端和存储介质 | |
CN112905768A (zh) | 一种数据交互方法、装置及存储介质 | |
CN115238039A (zh) | 文本生成方法、电子设备及计算机可读存储介质 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN109800429B (zh) | 主题挖掘方法、装置及存储介质、计算机设备 | |
CN110688559A (zh) | 一种检索方法及装置 | |
Zhang et al. | Mining source code topics through topic model and words embedding | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 | |
Camastra et al. | Machine learning-based web documents categorization by semantic graphs | |
US11397776B2 (en) | Systems and methods for automated information retrieval | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |