CN109271574A - 一种热词推荐方法及装置 - Google Patents
一种热词推荐方法及装置 Download PDFInfo
- Publication number
- CN109271574A CN109271574A CN201810985370.3A CN201810985370A CN109271574A CN 109271574 A CN109271574 A CN 109271574A CN 201810985370 A CN201810985370 A CN 201810985370A CN 109271574 A CN109271574 A CN 109271574A
- Authority
- CN
- China
- Prior art keywords
- category
- target
- hot
- recommended
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000013145 classification model Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 27
- 230000006399 behavior Effects 0.000 claims description 25
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 description 76
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种热词推荐方法及装置,其中,该方法通过预先对备选热词进行分类,确定各备选热词的所属类别,在为用户在目标搜索引擎的信息搜索框中输入的查询关键词匹配推荐热词时,基于各备选热词的所属类别选取与该查询关键词匹配的多个目标热词作为推荐热词,同时在目标搜索引擎的搜索页面上的指定区域将选取出的推荐热词分类展示给用户,这样既能够提高确定出的推荐热词的准确度,又能够保证推荐热词展示的规律性,使得用户按热词类别快速准确锁定到自己真正需要查询的热词,从而提高用户获取自身感兴趣信息的时效性。
Description
技术领域
本申请涉及信息推荐领域,尤其涉及一种热词推荐方法及装置。
背景技术
目前,随着互联网与新媒体的快速发展,通过在搜索引擎的信息查询框中输入查询词来获取用户所需的咨询信息,已经成为人们日常生活中获取信息的主要手段,然而,这种方式给用户带来了海量的咨询信息的同时,也带来了大量无效、冗余或者用户并不感兴趣的咨询信息。为了提高最终展示的与查询词对应的咨询信息的准确度,一旦检测到用户通过搜索引擎搜索某个查询词时,将在信息查询框的下拉列表中显示为用户推荐的与该查询词相关的目标热词。
当前,相关技术中提供了一种热词推荐的方法,主要是:获取用户在信息搜索框中输入的查询关键词,在包含该查询关键词的多个备选热词中,选取热度排序靠前的预设数量的备选热词作为目标热词,再将选取出的多个目标热词展示于信息输入框下方。例如,在百度搜索引擎的信息搜索框中输入“区块链”,对应展示的目标热词有“区块链是什么、区块链培训班、区块链趋势、区块链投资骗局、区块链技术是什么”等等。
然而,基于现有技术中的热词推荐方法确定出的目标热词存在准确度低的问题,且热词展示方式不具有规律性,使得用户无法快速准确锁定到自己真正需要查询的目标热词,大大降低了用户获取自身感兴趣信息的时效性,从而导致用户使用体验差。
发明内容
本申请实施例的目的是提供一种热词推荐方法及装置,既能够提高确定出的推荐热词的准确度,又能够保证推荐热词展示的规律性,使得用户按热词类别快速准确锁定到自己真正需要查询的热词,从而提高用户获取自身感兴趣信息的时效性。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供了一种热词推荐方法,包括:
获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,所述目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;以及,
获取待推荐的多个备选热词各自对应的所属类别,其中,所述备选热词的所述所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,将所述多个目标热词作为针对所述查询关键词的推荐热词;
在所述目标搜索引擎的搜索页面上的指定区域,根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词。
本申请实施例提供了一种热词推荐装置,包括:
查询词获取模块,用于获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,所述目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;以及,
热词类别获取模块,用于获取待推荐的多个备选热词各自对应的所属类别,其中,所述备选热词的所述所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
推荐热词确定模块,用于基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,将所述多个目标热词作为针对所述查询关键词的推荐热词;
推荐热词展示模块,用于在所述目标搜索引擎的搜索页面上的指定区域,根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词。
本申请实施例提供了一种热词推荐设备,包括:处理器;以及
被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现以下流程:
获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,所述目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;以及,
获取待推荐的多个备选热词各自对应的所属类别,其中,所述备选热词的所述所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,将所述多个目标热词作为针对所述查询关键词的推荐热词;
在所述目标搜索引擎的搜索页面上的指定区域,根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词。
本申请实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现以下流程:
获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,所述目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;以及,
获取待推荐的多个备选热词各自对应的所属类别,其中,所述备选热词的所述所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,将所述多个目标热词作为针对所述查询关键词的推荐热词;
在所述目标搜索引擎的搜索页面上的指定区域,根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词。
本申请实施例中的热词推荐方法及装置,通过预先对备选热词进行分类,确定各备选热词的所属类别,在为用户在目标搜索引擎的信息搜索框中输入的查询关键词匹配推荐热词时,基于各备选热词的所属类别选取与该查询关键词匹配的多个目标热词作为推荐热词,同时在目标搜索引擎的搜索页面上的指定区域将选取出的推荐热词分类展示给用户,这样既能够提高确定出的推荐热词的准确度,又能够保证推荐热词展示的规律性,使得用户按热词类别快速准确锁定到自己真正需要查询的热词,从而提高用户获取自身感兴趣信息的时效性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的热词推荐方法的第一种流程示意图;
图2为本申请实施例提供的热词推荐方法中展示推荐热词的效果示意图;
图3为本申请实施例提供的热词推荐方法的第二种流程示意图;
图4为本申请实施例提供的热词推荐方法的第三种流程示意图;
图5为本申请实施例提供的热词推荐方法的第四种流程示意图;
图6为本申请实施例提供的热词推荐方法的第五种流程示意图;
图7为本申请实施例提供的热词推荐装置的第一种模块组成示意图;
图8为本申请实施例提供的热词推荐装置的第二种模块组成示意图;
图9为本申请实施例提供的热词推荐设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种热词推荐方法及装置,既能够提高确定出的推荐热词的准确度,又能够保证推荐热词展示的规律性,使得用户按热词类别快速准确锁定到自己真正需要查询的热词,从而提高用户获取自身感兴趣信息的时效性。
图1为本申请一实施例提供的热词推荐方法的第一种流程示意图,如图1所示,该方法至少包括以下步骤:
S101,获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,该目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;
具体的,由用户终端实时监听用户在目标搜索引擎的信息搜索框中输入的查询关键词,用户可以通过打字的方式输入查询关键词,也可以通过语音的方式输入查询关键词,其中,该查询关键词可以是单个查询词,也可以是多个查询词的组合;具有既定类别的垂直搜索引擎包括:房产搜索、体育搜索、或者娱乐搜索等发布信息所属领域比较单一的搜索引擎,不分类别的通用搜索引擎包括:百度搜索、谷歌搜索、或者360搜索等发布信息所属领域范围比较多样的搜索引擎。
S102,获取待推荐的多个备选热词各自对应的所属类别,其中,每个备选热词的所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
具体的,预先基于热词来源信息、热词分类模型、人工标记信息中至少一种热词分类方式,为每个备选热词标记对应的所属类别,并存储各备选热词各自对应的所属类别,其中,可以预先创建一个备选热词库,该备选热词库中包含多个标记有所属类别的备选热词,并且定期更新该备选热词库,每个备选热词对应于至少一个搜索结果展示页面,该搜索结果显示界面上包含由服务器检索得到的与该备选热词相关的多条内容项链接。
S103,基于各备选热词的所属类别,选取与查询关键词匹配的多个目标热词,将多个目标热词作为针对查询关键词的推荐热词;
具体的,结合获取到的各备选热词的所属类别,将查询关键词与对应类别的备选热词进行匹配,将匹配度满足预设条件的备选热词确定为目标热词,其中,可以先在所有备选热词涉及的多个所属类别中,确定与查询关键词相关的多个目标类别,再将查询关键词与目标类别下的备选热词进行匹配,进而根据多个匹配结果确定目标热词。
S104,在目标搜索引擎的搜索页面上的指定区域,根据各推荐热词的所属类别,分类展示多个推荐热词。
具体的,在确定出与用户输入的查询关键词匹配的多个推荐热词后,由用户终端在目标搜索引擎的搜索页面的指定区域,基于各推荐热词的所属类别,分类展示针对用户输入的查询关键词的多个推荐热词,其中,该指定区域可以是信息搜索框的下拉菜单,还可以是搜索页面的上端预设区域、下端预设区域、左端预设区域、右端预设区域、中部预设区域等;
例如,用户输入的查询关键词为XXX,针对该查询关键词的多个推荐热词包括:推荐热词1、推荐热词2、推荐热词3、推荐热词4、推荐热词5、推荐热词6,多个推荐热词的所属类别分别为:类别b、类别a、类别b、类别c、类别a、类别c;
如图2所示,以将信息搜索框的下拉菜单作为用于展示推荐热词的指定区域为例,在信息搜索框的下拉菜单中,分类展示推荐热词1、推荐热词2、推荐热词3、推荐热词4、推荐热词5、推荐热词6,其中,所属类别均为类别a的推荐热词2和推荐热词5属于一类,所属类别均为类别b的推荐热词1和推荐热词3属于一类,所属类别均为类别c的推荐热词4和推荐热词6属于一类,另外,为了便于用户对推荐热词的所属类别进行区分,可以在推荐热词的预设位置标记其所属类别。
本申请提供的实施例中,通过预先对备选热词进行分类,确定各备选热词的所属类别,在为用户在目标搜索引擎的信息搜索框中输入的查询关键词匹配推荐热词时,基于各备选热词的所属类别选取与该查询关键词匹配的多个目标热词作为推荐热词,同时在目标搜索引擎的搜索页面上的指定区域将选取出的推荐热词分类展示给用户,为用户输入查询词的过程中提供参考,提高查询词输入的准确度,这样既能够提高确定出的推荐热词的准确度,又能够保证推荐热词展示的规律性,使得用户按热词类别快速准确锁定到自己真正需要查询的热词,从而提高用户获取自身感兴趣信息的时效性。
其中,确定与查询关键词匹配的多个推荐热词的过程,可以由用户终端来执行,也可以由服务器来执行,即上述步骤S103可以由用户终端来执行,也可以由服务器来执行,具体为:
(1)针对确定与查询关键词对应的推荐热词的过程由服务器来执行的情况,具体包括:
用户终端监听到用户输入的查询关键词后,生成携带有该查询关键词的热词推荐请求,并将该热词推荐请求发送给服务器;
服务器在接收到来自于用户终端的热词推荐请求后,获取各备选热词各自对应的所属类别;以及,
服务器基于各备选热词的所属类别,选取与查询关键词匹配的多个目标热词,将多个目标热词作为针对查询关键词的推荐热词;
服务器将确定出的与用户输入的查询关键词对应的多个推荐热词发送给用户终端;
用户终端在目标搜索引擎的搜索页面上的指定区域,根据各推荐热词的所属类别,分类展示多个推荐热词;
用户终端实时监测用户对推荐热词的选择操作,将用户选择的推荐热词输入至目标搜索引擎的信息搜索框中,即将该推荐热词作为查询词,并展示与该推荐热词对应的搜索结果展示界面,该搜索结果显示界面上包含由服务器检索得到的与该推荐热词相关的多条内容项链接,当检测到用户对任一内容项链接进行点击操作后,自动跳转至该内容项链接对应的信息展示界面,以便用户查阅该信息展示界面上显示的与推荐热词相关具体内容。
(2)针对确定与查询关键词对应的推荐热词的过程由用户终端来执行的情况,具体包括:
用户终端监听到用户输入的查询关键词后,获取各备选热词各自对应的所属类别,其中,各备选热词各自对应的所属类别可以是用户终端向服务器发送备选热词获取请求并由接收服务器下发给用户终端的、或者用户终端预先存储于本地并从本地获取的;以及,
用户终端基于各备选热词的所属类别,选取与查询关键词匹配的多个目标热词,将多个目标热词作为针对查询关键词的推荐热词;
用户终端在目标搜索引擎的搜索页面上的指定区域,根据各推荐热词的所属类别,分类展示与用户输入的查询关键词对应的多个推荐热词;
用户终端实时监测用户对推荐热词的选择操作,将用户选择的推荐热词输入至目标搜索引擎的信息搜索框中,即将该推荐热词作为查询词,并展示与该推荐热词对应的搜索结果展示界面,该搜索结果显示界面上包含由服务器检索得到的与该推荐热词相关的多条内容项链接,当检测到用户对任一内容项链接进行点击操作后,自动跳转至该内容项链接对应的信息展示界面,以便用户查阅该信息展示界面上显示的与推荐热词相关具体内容。
其中,可以预先由服务器标记各备选热词的所属类别,以便后续基于各备选热词的所属类别,为用户输入的查询关键词匹配推荐热词,基于此,在上述S101获取用户在目标搜索引擎的信息搜索框中输入的查询关键词之前,还包括:
确定各备选热词各自对应的所属类别,包括如下热词分类方式中任一种:
热词分类方式一,根据待分类的备选热词的热词来源信息,确定该备选热词的所属类别;
具体的,通过网络爬虫技术获取预设时间段内发布的互联网信息,从互联网信息中提取出现频次高的备选热词,并针对各备选热词,记录出现该备选热词的目标网页(即热词来源信息),根据该热词来源信息获取该备选热词所在目标网页的类别标签,将其所在目标网页的类别标签确定为该备选热词的所属类别,其中,当备选热词所在目标网页为多个且至少两个目标网页的类别标签不同,则该备选热词的所属类别为多个,例如,出现该备选热词的第一目标网页的类别标签为娱乐网站,以及出现该备选热词的第二目标网页的类别标签为购物网站,因此,该备选热词的所属类别为娱乐类别和购物类别。
热词分类方式二,根据对待分类的备选热词的人工标记信息,确定该备选热词的所属类别;
具体的,在预先划分的多个分类类别的选项中,接收用户为备选热词选择的至少一个分类类别,将该至少一个分类类别作为该备选热词的所属类别,其中,若用户为备选热词选择两个以上分类类别,则该备选热词的所属类别为多个,例如,用户为备选热词选择娱乐类别的选项,以及用户为备选热词选择购物类别的选项,因此,该备选热词的所属类别为娱乐类别和购物类别。
热词分类方式三,利用预先训练的热词分类模型,确定待分类的备选热词的所属类别,其中,该热词分类模型是利用机器学习方法并基于全网样本热词与其所属类别的对应关系训练得到的;
具体的,将待分类的备选热词输入至预先训练的热词分类模型,利用热词分类模型确定备选热词与预先划分的多个分类类别间的匹配程度,将该热词分类模型的输出结果表征的分类类别作为该备选热词的所属类别,其中,预先划分的分类类别可以是分类比较宽泛的多个大类别,例如,娱乐类别、体育类别等等,还可以是细分得到的各大类别下的多个小类别,例如,细分到娱乐类别下的影视明星类别、娱乐节目类别等等、体育类别下的体育明星类别、体育项目类别等等,为了提高推荐热词推送的准确度,按照小类别对备选热词进行所属类别识别,该热词分类模型是利用机器学习方法根据全网中各类别的关键词进行训练得到,将备选热词输入至热词分类模型中后,确定该备选热词与各分类类别下样本热词的相关程度,进而根据确定出的相关程度,确定该备选热词属于各分类类别的概率分值,将概率分值大于预设阈值的对应分类类别作为备选热词的所属类别,其中,当某一备选热词与多个分类类别的概率分值均大于预设阈值,则该备选热词的所属类别为多个,例如,该备选热词与影视明星类别的概率分值均大于预设阈值,以及该备选热词与体育明星类别的概率分值均大于预设阈值,因此,该备选热词的所属类别为影视明星类别和体育明星类别。
其中,针对基于热词分类模型来确定备选热词的所属类别的情况,如图3所示,上述利用预先训练的热词分类模型,确定待分类的备选热词的所属类别,具体包括:
S105,针对每个预先划分的分类类别,利用预先训练的热词分类模型确定备选热词与该分类类别下的样本热词之间的相关程度,具体的,每个分类类别下包含多个样本热词,分别计算备选热词与各分类类别下的样本热词的相关程度,若相关程度越高,说明该备选热词属于该分类类别的可能性越大;
S106,根据确定出的多个相关程度,确定备选热词属于分类类别的预测概率,具体的,可以预先设定相关程度与预测概率之间的对应关系,针对每个分类类别下计算得到的相关程度,基于该对应关系,查找与该相关程度对应的预测概率,将查找到的预测概率作为备选热词属于该分类类别的预测概率;
S107,将预测概率大于预设概率阈值的分类类别确定为备选热词的所属类别,具体的,针对每个分类类别对应的预测概率,依次判断该预测概率是否大于预设概率阈值,若大于,则将对应的分类类别作为备选热词的所属类别,若有多个预测概率均大于预设概率阈值,此时备选热词的所属类别为多个;
在具体实施时,优选的,采用预先训练好的神经网络模型对备选热词进行所属类别识别,具有识别效率高、识别准确度高的特点,其中,上述热词分类模型是通过如下方式训练得到的:
获取预先选取的训练样本集,其中,该训练样本集包括多个模型训练样本,每个模型训练样本表示样本热词与该样本热词所属类别之间的对应关系;
将获取的训练样本集输入至待训练的神经网络模型中,采用机器学习方法并基于该训练样本集,更新神经网络模型中的模型参数,得到热词分类模型。
具体的,在预先训练得到热词分类模型后,直接将待分类的备选热词输入至该热词分类模型即可,根据热词分类模型的输出结果确定备选热词的所属类别。
其中,在检测到用户在信息搜索框中输入查询关键词后,需要在备选热词库中选取与该查询关键词匹配的多个目标热词,并将选取出的多个目标热词推荐给用户,以便用户从中选取自己真正需要查询的热词,具体的,针对确定与查询关键词匹配的多个目标热词的过程,如图4所示,上述S103基于各备选热词的所属类别,选取与查询关键词匹配的多个目标热词,将多个目标热词作为针对查询关键词的推荐热词,具体包括:
S1031,基于各备选热词的所属类别,确定与查询关键词相关的多个目标类别,具体的,考虑到备选热词的数量庞大,如果直接将查询关键词与备选热词进行一一匹配,数据处理量比较大,将大大降低用户查询请求的响应效率,因此,为了提高用户查询请求的响应效率,提高目标热词的选取效率,先以类别为匹配单位,确定与查询关键词相关的多个目标类别,再将查询关键词与目标类别下的备选热词进行匹配;
S1032,将查询关键词与目标类别下的备选热词进行语义匹配,得到各备选词对应的语义相似度,具体的,在确定出与查询关键词相关的多个目标类别后,针对每个目标类别,获取划入该目标类别的多个备选热词,将查询关键词与备选热词进行语义比对,计算查询关键词与该目标类别下的各备选热词间的语义相似度;
S1033,针对每个目标类别,根据该目标类别下的各备选热词对应的语义相似度,选择排序靠前的目标推荐数量的多个备选热词作为目标热词,将多个目标热词作为针对查询关键词的推荐热词,具体的,在确定出查询关键词与各目标类别下的备选热词间的语义相似度后,针对每个目标类别,根据该目标类别下的各备选热词与查询关键词的语义相似度,按照语义相似度由高到低的顺序对该目标类别下的多个备选热词进行排序,根据排序结果将语义相似度高的备选热词按照一定配比选取多个目标热词,并将选取出的多个目标热词作为推荐热词推送给用户,其中,各目标类别下选取的目标热词的目标推荐数量可以相同,也可以不同,优选的,基于用户偏好确定各目标类别对应的目标推荐数量,即针对与用户偏好匹配度高的目标类别,增加该目标类别下为用户推送的推荐热词的数量。
在本申请提供的实施例中,先在所有备选热词涉及的多个所属类别中,确定与查询关键词相关的多个目标类别,再将查询关键词与目标类别下的备选热词进行语义匹配,进而根据多个语义匹配结果确定目标热词,并非将查询关键词与所有的备选热词均进行语义相似度匹配,先初步缩小需要进行语义相似度匹配的备选热词的数量,这样能够提高目标热词确定效率,从而缩短针对用户查询请求的响应时间。
其中,针对确定与用户输入的查询关键词相关的多个目标类别的过程,上述S1031基于各备选热词的所属类别,确定与查询关键词相关的多个目标类别,具体包括:
若目标搜索引擎为具有既定类别的垂直搜索引擎,则在各备选热词的所属类别中,将与该垂直搜索引擎的既定类别对应的所属类别确定为与查询关键词相关的多个目标类别;
其中,针对目标搜索引擎为具有既定类别的垂直搜索引擎而言,例如,体育搜索、娱乐搜索等,由于目标搜索引擎的类别明确,如果用户使用该目标搜索引擎进行信息查询,说明查询关键词的所属类别与搜索引擎的既定类别直接相关,因此,无需确定查询关键词的所属类别,直接基于该目标搜索引擎的既定类别确定与查询关键词相关的目标类别即可,例如,目标搜索引擎的既定类别为娱乐类别,则在各备选热词的所属类别中,选取与娱乐类别对应的所属类别确定为目标类别,例如,目标类别为娱乐类别下的影视明星类别、娱乐节目类别等等;
在确定出与查询关键词相关的目标类别后,将查询关键词与确定出的目标类别下的备选热词进行语义匹配,分别确定各目标类别下与查询关键词语义匹配度较高的备选热词作为目标热词。
若目标搜索引擎为不分类别的通用搜索引擎,则利用预先训练的热词分类模型,确定查询关键词的分类类别;以及在各备选热词的所属类别中,将与分类类别对应的所属类别确定为与查询关键词相关的多个目标类别。
其中,针对目标搜索引擎为不分类别的通用搜索引擎而言,需要先识别用户输入的查询关键词的分类类别,具体地,将查询关键词输入至热词分类模型中后,确定该查询关键词与各类别下样本热词的相关程度,进而根据确定出的相关程度,确定该查询关键词属于各类别的概率分值,将概率分值大于预设阈值的对应类别作为查询关键词的分类类别,再基于该查询关键词的分类类别,确定与查询关键词相关的目标类别;
其中,当查询关键词与多个分类类别的概率分值均大于预设阈值,则该查询关键词的分类类别为多个,对应的,目标类别也为多个,具体的,当目标类别为多个时,则分别调用各目标类别下的综合分值较高的备选热词作为推荐热词,并将这些推荐热词返回至搜索引擎进行展现。
其中,考虑到用户偏好与用户当前关注的热词直接相关,为了提高最终展示给用户的推荐热词的精准度,进而提高用户使用体验,在确定各目标类别对应的目标推荐数量的过程,以及在对多个目标类别进行排序的过程,均可以参考用户偏好这一因素,因此,需要预先确定各用户的偏好信息,基于此,上述方法还包括:
获取用户针对展示的多个推荐热词的触控行为数据,以及获取用户针对被触控的推荐热词对应的搜索结果页面上的多条搜索结果条目的浏览行为数据;
其中,由于用户对推荐热词的选择操作以及用户对推荐热词对应的搜索结果条目的查看操作能够直观地反映出用户当前所关注的内容,因此,通过实时监听并记录用户的历史行为数据,进而基于该历史行为数据能够准确地确定用户的偏好信息,具体的,在搜索页面上的指定区域分类展示确定出的多个推荐热词后,实时监听并记录用户对某一推荐热词的点击行为数据,以及监听并记录用户针对与推荐热词对应的搜索结果页面上的多条搜索结果条目的查看行为数据。
利用用户偏好识别模型并基于预设时间段内获取到的用户的触控行为数据和浏览行为数据,确定用户的偏好信息,其中,该偏好信息用于表征用户的关注度高的热词类别,具体的,根据被用户触发的各搜索结果条目所分别对应的页面类别、页面标签、标题等,以及用户在各搜索结果条目分别对应的浏览时长等综合分析用户感兴趣的热词类别。
其中,上述用户偏好识别模型是利用机器学习方法并基于样本数据预先训练得到的,具体的,通过如下方式训练得到的:
获取预先选取的偏好识别训练样本集,其中,该训练样本集包括多个模型训练样本,每个模型训练样本表示历史行为记录与用户偏好信息之间的对应关系;
将获取的偏好识别训练样本集输入至待训练的神经网络模型中,采用机器学习方法并基于该偏好识别训练样本集,更新神经网络模型中的模型参数,得到用户偏好识别模型。
具体的,在预先训练得到用户偏好识别模型后,直接将目标用户的触控行为数据和浏览行为数据输入至该用户偏好识别模型即可,根据用户偏好识别模型的输出结果确定用户的偏好信息。
在本申请提供的实施例中,考虑到用户的历史点击行为数据能够直观地、准确地反映其感兴趣的信息类别,因此,先基于用户的历史行为记录,分析用户的兴趣偏好,以便在确定各目标类别对应的目标推荐数量时,引入用户偏好信息,增加与用户的偏好信息匹配的目标类别下的推荐热词的数量,以及在对多个目标类别进行排序时,引入用户偏好信息,将与用户的偏好信息匹配度高的目标类别下的推荐热词优先展示,能够智能识别用户感兴趣的内容类型,进而实现热词的个性化推荐。
其中,为了进一步提高为用户推荐的热词的准确度,在确定出各目标类别下备选热词与查询关键词间的语义相似度后,针对基于语义相似度从各目标类别下的备选热词选取目标热词的过程,需要先基于用户偏好信息,确定各目标类别对应的目标推荐数量,如图5所示,在上述S1033选择排序靠前的目标推荐数量的多个备选热词作为与查询关键词匹配的目标热词之前,还包括:
S1034,针对每个目标类别,根据预先确定的用户的偏好信息,确定用户对目标类别的用户关注度,其中,用户偏好信息能够表征用户的关注度高的热词类别(即偏好类别),将各目标类别与偏好类别进行类别匹配,计算偏好类别与各目标类别之间的类别匹配度,将该类别匹配度确定为用户对该目标类别的用户关注度,目标类别与偏好类别的匹配度越高,说明用户对该目标类别的用户关注度越高;
S1035,根据目标类别对应的用户关注度,确定目标类别下的备选热词的推荐比重,具体的,用户关注度高的目标类别为用户更加感兴趣的类别,其中,用户关注度与推荐比重正相关,即针对每个目标类别,该目标类别对应的用户关注度越高,该目标类别下的备选热词的推荐比重越大,所有目标类别对应的推荐比重之和等于100%;
S1036,根据确定出的推荐比重和预设推荐总数,确定目标类别对应的备选热词的目标推荐数量,其中,预设推荐总数为所有目标类别对应的目标热词的数量之和,具体的,针对每个目标类别,将该目标类别对应的推荐比重与预设推荐总数的乘积,确定为该目标类别对应的备选热词的目标推荐数量。
例如,若基于用户偏好信息可知,目标用户的偏好类别为娱乐类别下的影视明星子类别,此时,确定出的影视明星子类别对应的用户关注度高于其他目标类别对应的用户关注度,则增加影视明星子类别下的备选热词的推荐比重,进而增加影视明星子类别下待推荐的目标热词的推荐数量。
在本申请提供的实施例中,基于用户偏好信息,确定用户对各目标类别的关注程度,再基于该关注程度确定各目标类别下备选热词的推荐比重,进而基于推荐比重确定各目标类别对应的目标推荐数量,实现更多数量的展示与用户偏好匹配度高的目标类别下的推荐热词的数量,从而实现有针对性的增加用户感兴趣的类别的内容。
其中,进一步提高用户使用体验,实现基于用户偏好信息对推荐热词展示顺序进行个性化调整,针对在目标搜索引擎的搜索页面上分类展示推荐热词的过程,如图6所示,上述S104在目标搜索引擎的搜索页面上的指定区域,根据各推荐热词的所属类别,分类展示多个推荐热词,具体包括:
S1041,根据预先确定的用户的偏好信息,对目标类别进行排序,得到类别排序结果,具体的,用户偏好信息能够表征用户的关注度高的热词类别(即偏好类别),将各目标类别与偏好类别进行类别匹配,计算偏好类别与各目标类别之间的类别匹配度,目标类别与偏好类别的匹配度越高,说明用户对该目标类别的用户关注度越高,因此,按照类别匹配度由高到低的顺序,对目标类别进行排序,得到类别排序结果;
S1042,在目标搜索引擎的搜索页面上的指定区域,根据各推荐热词的所属类别和类别排序结果,分类并按序展示针对查询关键词的多个推荐热词,具体的,仍以图2中所示的推荐热词为例,目标类别包括:类别a、类别b、类别c,若各目标类别与偏好类别间类别匹配度由高到低的顺序为:类别b、类别a、类别c,因此,推荐热词的展示顺序为:推荐热词1和推荐热词3、推荐热词2和推荐热词5、推荐热词4和推荐热词6。
在本申请提供的实施例中,基于用户偏好信息,对多个目标类别进行排序,根据类别排序结果分类并按序展示针对查询关键词的多个推荐热词,优先展示与用户偏好匹配度高的目标类别下的推荐热词,实现热词展示顺序的个性化调整,进一步提高用户使用体验。
其中,不仅基于用户偏好信息对多个目标类别进行排序,还针对每个目标类别,基于推荐热词的热度值和其属于目标类别的预测概率对该目标类别下的多个推荐热词进行排序,具体的,上述S1042根据各推荐热词的所属类别和类别排序结果,分类并按序展示针对查询关键词的多个推荐热词,具体包括:
步骤一,针对每个目标类别,根据该目标类别下的各推荐热词的热度值和其属于目标类别的预测概率,对该目标类别下的多个推荐热词进行排序,得到类别下热词排序结果;
具体的,针对每个目标类别下的多个推荐热词,根据该推荐热词的热度值和其属于该目标类别的预测概率,确定该推荐热词的推荐度,进而,根据该目标类别下的推荐热词各自对应的推荐度,按照推荐度由高到低的顺序对该目标类别下的多个推荐热词进行排序,其中,推荐热词的推荐度的计算公式为:R=b1x+b2y,其中,R表示热词的推荐度,b1表示推荐热词的热度值的权重系数,b2表示推荐热词属于其所在目标类别的预测概率的权重系数,x表示推荐热词的热度值对应的第一分数,y表示推荐热词属于其所在目标类别的预测概率对应的第二分数,具体的,为了对各影响参数进行归一化处理,预先设定热度值与第一分数之间的对应关系(热度值越高、第一分数越高),以及设定预测概率与第二分数之间的对应关系(预测概率越高、第二分数越高);
步骤二,根据各推荐热词的所属类别、类别排序结果和类别下热词排序结果,分类并按序展示针对查询关键词的多个推荐热词;
具体的,仍以图2中所示的推荐热词为例,目标类别包括:类别a、类别b、类别c,若各目标类别与偏好类别间类别匹配度由高到低的顺序为:类别b、类别a、类别c,以及针对类别b下多个推荐热词的推荐度由高到低的顺序为:推荐热词3、推荐热词1,针对类别a下多个推荐热词的推荐度由高到低的顺序为:推荐热词5、推荐热词2,针对类别c下多个推荐热词的推荐度由高到低的顺序为:推荐热词6、推荐热词4,因此,最终确定出的针对查询关键词的多个推荐热词的展示顺序为:推荐热词3、推荐热词1、推荐热词5、推荐热词2、推荐热词6、推荐热词4。
在本申请提供的实施例中,在分类展示与查询关键词匹配的多个推荐热词时,先基于用户偏好信息对多个目标类别进行排序,再针对每个目标类别,基于推荐热词的热度值和其属于目标类别的预测概率对该目标类别下的多个推荐热词进行排序,即先对多个目标类别排序,再对每个目标类别下的多个推荐热词排序,这样既能够优先展示与用户偏好匹配度高的目标类别下的推荐热词,又能够将各目标类别下推荐度高的推荐热词优先展示,进一步提高用户使用体验。
本申请实施例中的热词推荐方法,通过预先对备选热词进行分类,确定各备选热词的所属类别,在为用户在目标搜索引擎的信息搜索框中输入的查询关键词匹配推荐热词时,基于各备选热词的所属类别选取与该查询关键词匹配的多个目标热词作为推荐热词,同时在目标搜索引擎的搜索页面上的指定区域将选取出的推荐热词分类展示给用户,这样既能够提高确定出的推荐热词的准确度,又能够保证推荐热词展示的规律性,使得用户按热词类别快速准确锁定到自己真正需要查询的热词,从而提高用户获取自身感兴趣信息的时效性。
对应上述图1至图6描述的热词推荐方法,基于相同的技术构思,本申请实施例还提供了一种热词推荐装置,图7为本申请实施例提供的热词推荐装置的第一种模块组成示意图,该装置用于执行图1至图6描述的热词推荐方法,如图7所示,该装置包括:
查询词获取模块701,用于获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,所述目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;以及,
热词类别获取模块702,用于获取待推荐的多个备选热词各自对应的所属类别,其中,所述备选热词的所述所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
推荐热词确定模块703,用于基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,将所述多个目标热词作为针对所述查询关键词的推荐热词;
推荐热词展示模块704,用于在所述目标搜索引擎的搜索页面上的指定区域,根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词。
可选地,如图8所示,上述装置还包括热词类别确定模块705,其中,所述热词类别确定模块705,用于:
根据待分类的备选热词的热词来源信息,确定所述备选热词的所属类别;
或者,
利用预先训练的热词分类模型,确定待分类的备选热词的所属类别,其中,所述热词分类模型是利用机器学习方法并基于全网样本热词与其所属类别的对应关系训练得到的;
或者,
根据对待分类的备选热词的人工标记信息,确定所述备选热词的所属类别。
可选地,所述热词类别确定模块705,具体用于:
针对每个预先划分的分类类别,利用预先训练的热词分类模型确定所述备选热词与该分类类别下的样本热词之间的相关程度;
根据确定出的多个所述相关程度,确定所述备选热词属于所述分类类别的预测概率;
将所述预测概率大于预设概率阈值的所述分类类别确定为所述备选热词的所属类别。
可选地,所述推荐热词确定模块703,具体用于:
基于各所述备选热词的所述所属类别,确定与所述查询关键词相关的多个目标类别;
将所述查询关键词与所述目标类别下的所述备选热词进行语义匹配,得到各所述备选词对应的语义相似度;
针对每个所述目标类别,根据该目标类别下的各所述备选热词对应的所述语义相似度,选择排序靠前的目标推荐数量的多个所述备选热词作为与所述查询关键词匹配的目标热词。
可选地,所述推荐热词确定模块703,进一步具体用于:
若所述目标搜索引擎为具有既定类别的垂直搜索引擎,则在各所述备选热词的所述所属类别中,将与所述既定类别对应的所述所属类别确定为与所述查询关键词相关的多个目标类别;
若所述目标搜索引擎为不分类别的通用搜索引擎,则利用预先训练的热词分类模型,确定所述查询关键词的分类类别;以及在各所述备选热词的所述所属类别中,将与所述分类类别对应的所述所属类别确定为与所述查询关键词相关的多个目标类别。
可选地,上述装置还包括推荐数量确定模块706,其中,所述推荐数量确定模块706,用于:
针对每个所述目标类别,根据预先确定的所述用户的偏好信息,确定所述用户对所述目标类别的用户关注度;
根据所述目标类别对应的所述用户关注度,确定所述目标类别下的备选热词的推荐比重;
根据确定出的所述推荐比重和预设推荐总数,确定所述目标类别对应的备选热词的目标推荐数量。
可选地,所述推荐热词展示模块704,具体用于:
根据预先确定的所述用户的偏好信息,对所述目标类别进行排序,得到类别排序结果;
根据各所述推荐热词的所述所属类别和所述类别排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词。
可选地,所述推荐热词展示模块704,进一步具体用于:
针对每个所述目标类别,根据该目标类别下的各所述推荐热词的热度值和其属于所述目标类别的预测概率,对该目标类别下的多个所述推荐热词进行排序,得到类别下热词排序结果;
根据各所述推荐热词的所述所属类别、所述类别排序结果和所述类别下热词排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词。
可选地,上述装置还包括用户偏好确定模块707,其中,所述用户偏好确定模块707,用于:
获取所述用户针对展示的多个所述推荐热词的触控行为数据,以及获取所述用户针对被触控的所述推荐热词对应的搜索结果页面上的多条搜索结果条目的浏览行为数据;
利用用户偏好识别模型并基于预设时间段内获取到的所述用户的所述触控行为数据和所述浏览行为数据,确定所述用户的偏好信息,其中,所述用户偏好识别模型是利用机器学习方法并基于样本数据预先训练得到的,所述偏好信息用于表征所述用户的关注度高的热词类别。
本申请实施例中的热词推荐装置,通过预先对备选热词进行分类,确定各备选热词的所属类别,在为用户在目标搜索引擎的信息搜索框中输入的查询关键词匹配推荐热词时,基于各备选热词的所属类别选取与该查询关键词匹配的多个目标热词作为推荐热词,同时在目标搜索引擎的搜索页面上的指定区域将选取出的推荐热词分类展示给用户,这样既能够提高确定出的推荐热词的准确度,又能够保证推荐热词展示的规律性,使得用户按热词类别快速准确锁定到自己真正需要查询的热词,从而提高用户获取自身感兴趣信息的时效性。
需要说明的是,本申请实施例提供的热词推荐装置与本申请实施例提供的热词推荐方法基于同一发明构思,因此该实施例的具体实施可以参见前述热词推荐方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图6所示的方法,基于相同的技术构思,本申请实施例还提供了一种热词推荐设备,该设备用于执行上述的热词推荐方法,图9为本申请实施例提供的热词推荐设备的结构示意图。
如图9所示,热词推荐设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对热词推荐设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在热词推荐设备上执行存储器902中的一系列计算机可执行指令。热词推荐设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入输出接口905,一个或一个以上键盘906等。
在一个具体的实施例中,热词推荐设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对热词推荐设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,所述目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;以及,
获取待推荐的多个备选热词各自对应的所属类别,其中,所述备选热词的所述所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,将所述多个目标热词作为针对所述查询关键词的推荐热词;
在所述目标搜索引擎的搜索页面上的指定区域,根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词。
可选地,计算机可执行指令在被执行时,还包含用于进行以下计算机可执行指令:
在获取用户在目标搜索引擎的信息搜索框中输入的查询关键词之前,还包括:
根据待分类的备选热词的热词来源信息,确定所述备选热词的所属类别;
或者,
利用预先训练的热词分类模型,确定待分类的备选热词的所属类别,其中,所述热词分类模型是利用机器学习方法并基于全网样本热词与其所属类别的对应关系训练得到的;
或者,
根据对待分类的备选热词的人工标记信息,确定所述备选热词的所属类别。
可选地,计算机可执行指令在被执行时,所述利用预先训练的热词分类模型,确定待分类的备选热词的所属类别,包括:
针对每个预先划分的分类类别,利用预先训练的热词分类模型确定所述备选热词与该分类类别下的样本热词之间的相关程度;
根据确定出的多个所述相关程度,确定所述备选热词属于所述分类类别的预测概率;
将所述预测概率大于预设概率阈值的所述分类类别确定为所述备选热词的所属类别。
可选地,计算机可执行指令在被执行时,所述基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,包括:
基于各所述备选热词的所述所属类别,确定与所述查询关键词相关的多个目标类别;
将所述查询关键词与所述目标类别下的所述备选热词进行语义匹配,得到各所述备选词对应的语义相似度;
针对每个所述目标类别,根据该目标类别下的各所述备选热词对应的所述语义相似度,选择排序靠前的目标推荐数量的多个所述备选热词作为与所述查询关键词匹配的目标热词。
可选地,计算机可执行指令在被执行时,所述基于各所述备选热词的所述所属类别,确定与所述查询关键词相关的多个目标类别,包括:
若所述目标搜索引擎为具有既定类别的垂直搜索引擎,则在各所述备选热词的所述所属类别中,将与所述既定类别对应的所述所属类别确定为与所述查询关键词相关的多个目标类别;
若所述目标搜索引擎为不分类别的通用搜索引擎,则利用预先训练的热词分类模型,确定所述查询关键词的分类类别;以及在各所述备选热词的所述所属类别中,将与所述分类类别对应的所述所属类别确定为与所述查询关键词相关的多个目标类别。
可选地,计算机可执行指令在被执行时,还包含用于进行以下计算机可执行指令:
在选择排序靠前的目标推荐数量的多个所述备选热词作为与所述查询关键词匹配的目标热词之前,还包括:
针对每个所述目标类别,根据预先确定的所述用户的偏好信息,确定所述用户对所述目标类别的用户关注度;
根据所述目标类别对应的所述用户关注度,确定所述目标类别下的备选热词的推荐比重;
根据确定出的所述推荐比重和预设推荐总数,确定所述目标类别对应的备选热词的目标推荐数量。
可选地,计算机可执行指令在被执行时,所述根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词,包括:
根据预先确定的所述用户的偏好信息,对所述目标类别进行排序,得到类别排序结果;
根据各所述推荐热词的所述所属类别和所述类别排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词。
可选地,计算机可执行指令在被执行时,所述根据各所述推荐热词的所述所属类别和所述类别排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词,包括:
针对每个所述目标类别,根据该目标类别下的各所述推荐热词的热度值和其属于所述目标类别的预测概率,对该目标类别下的多个所述推荐热词进行排序,得到类别下热词排序结果;
根据各所述推荐热词的所述所属类别、所述类别排序结果和所述类别下热词排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词。
可选地,计算机可执行指令在被执行时,还包含用于进行以下计算机可执行指令:
获取所述用户针对展示的多个所述推荐热词的触控行为数据,以及获取所述用户针对被触控的所述推荐热词对应的搜索结果页面上的多条搜索结果条目的浏览行为数据;
利用用户偏好识别模型并基于预设时间段内获取到的所述用户的所述触控行为数据和所述浏览行为数据,确定所述用户的偏好信息,其中,所述用户偏好识别模型是利用机器学习方法并基于样本数据预先训练得到的,所述偏好信息用于表征所述用户的关注度高的热词类别。
本申请实施例中的热词推荐设备,通过预先对备选热词进行分类,确定各备选热词的所属类别,在为用户在目标搜索引擎的信息搜索框中输入的查询关键词匹配推荐热词时,基于各备选热词的所属类别选取与该查询关键词匹配的多个目标热词作为推荐热词,同时在目标搜索引擎的搜索页面上的指定区域将选取出的推荐热词分类展示给用户,这样既能够提高确定出的推荐热词的准确度,又能够保证推荐热词展示的规律性,使得用户按热词类别快速准确锁定到自己真正需要查询的热词,从而提高用户获取自身感兴趣信息的时效性。
优选的,本申请实施例还提供一种热词推荐设备,包括处理器901,存储器902,存储在存储器902上并可在处理器901上运行的计算机程序,该计算机程序被处理器901执行时实现上述热词推荐方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
进一步地,对应上述图1至图6所示的方法,基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述热词推荐方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (15)
1.一种热词推荐方法,其特征在于,包括:
获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,所述目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;以及,
获取待推荐的多个备选热词各自对应的所属类别,其中,所述备选热词的所述所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,将所述多个目标热词作为针对所述查询关键词的推荐热词;
在所述目标搜索引擎的搜索页面上的指定区域,根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词。
2.根据权利要求1所述的方法,其特征在于,在获取用户在目标搜索引擎的信息搜索框中输入的查询关键词之前,还包括:
根据待分类的备选热词的热词来源信息,确定所述备选热词的所属类别;
或者,
利用预先训练的热词分类模型,确定待分类的备选热词的所属类别,其中,所述热词分类模型是利用机器学习方法并基于全网样本热词与其所属类别的对应关系训练得到的;
或者,
根据对待分类的备选热词的人工标记信息,确定所述备选热词的所属类别。
3.根据权利要求2所述的方法,其特征在于,所述利用预先训练的热词分类模型,确定待分类的备选热词的所属类别,包括:
针对每个预先划分的分类类别,利用预先训练的热词分类模型确定所述备选热词与该分类类别下的样本热词之间的相关程度;
根据确定出的多个所述相关程度,确定所述备选热词属于所述分类类别的预测概率;
将所述预测概率大于预设概率阈值的所述分类类别确定为所述备选热词的所属类别。
4.根据权利要求1所述的方法,其特征在于,所述基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,包括:
基于各所述备选热词的所述所属类别,确定与所述查询关键词相关的多个目标类别;
将所述查询关键词与所述目标类别下的所述备选热词进行语义匹配,得到各所述备选词对应的语义相似度;
针对每个所述目标类别,根据该目标类别下的各所述备选热词对应的所述语义相似度,选择排序靠前的目标推荐数量的多个所述备选热词作为与所述查询关键词匹配的目标热词。
5.根据权利要求4所述的方法,其特征在于,所述基于各所述备选热词的所述所属类别,确定与所述查询关键词相关的多个目标类别,包括:
若所述目标搜索引擎为具有既定类别的垂直搜索引擎,则在各所述备选热词的所述所属类别中,将与所述既定类别对应的所述所属类别确定为与所述查询关键词相关的多个目标类别;
若所述目标搜索引擎为不分类别的通用搜索引擎,则利用预先训练的热词分类模型,确定所述查询关键词的分类类别;以及在各所述备选热词的所述所属类别中,将与所述分类类别对应的所述所属类别确定为与所述查询关键词相关的多个目标类别。
6.根据权利要求4所述的方法,其特征在于,在选择排序靠前的目标推荐数量的多个所述备选热词作为与所述查询关键词匹配的目标热词之前,还包括:
针对每个所述目标类别,根据预先确定的所述用户的偏好信息,确定所述用户对所述目标类别的用户关注度;
根据所述目标类别对应的所述用户关注度,确定所述目标类别下的备选热词的推荐比重;
根据确定出的所述推荐比重和预设推荐总数,确定所述目标类别对应的备选热词的目标推荐数量。
7.根据权利要求4所述的方法,其特征在于,所述根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词,包括:
根据预先确定的所述用户的偏好信息,对所述目标类别进行排序,得到类别排序结果;
根据各所述推荐热词的所述所属类别和所述类别排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词。
8.根据权利要求7所述的方法,其特征在于,所述根据各所述推荐热词的所述所属类别和所述类别排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词,包括:
针对每个所述目标类别,根据该目标类别下的各所述推荐热词的热度值和其属于所述目标类别的预测概率,对该目标类别下的多个所述推荐热词进行排序,得到类别下热词排序结果;
根据各所述推荐热词的所述所属类别、所述类别排序结果和所述类别下热词排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词。
9.根据权利要求1至8任一项所述的方法,其特征在于,还包括:
获取所述用户针对展示的多个所述推荐热词的触控行为数据,以及获取所述用户针对被触控的所述推荐热词对应的搜索结果页面上的多条搜索结果条目的浏览行为数据;
利用用户偏好识别模型并基于预设时间段内获取到的所述用户的所述触控行为数据和所述浏览行为数据,确定所述用户的偏好信息,其中,所述用户偏好识别模型是利用机器学习方法并基于样本数据预先训练得到的,所述偏好信息用于表征所述用户的关注度高的热词类别。
10.一种热词推荐装置,其特征在于,包括:
查询词获取模块,用于获取用户在目标搜索引擎的信息搜索框中输入的查询关键词,其中,所述目标搜索引擎包括:具有既定类别的垂直搜索引擎、或者不分类别的通用搜索引擎;以及,
热词类别获取模块,用于获取待推荐的多个备选热词各自对应的所属类别,其中,所述备选热词的所述所属类别是基于热词来源信息、热词分类模型、人工标记信息中至少一种确定的;
推荐热词确定模块,用于基于各所述备选热词的所述所属类别,选取与所述查询关键词匹配的多个目标热词,将所述多个目标热词作为针对所述查询关键词的推荐热词;
推荐热词展示模块,用于在所述目标搜索引擎的搜索页面上的指定区域,根据各所述推荐热词的所述所属类别,分类展示多个所述推荐热词。
11.根据权利要求10所述的装置,其特征在于,还包括热词类别确定模块,其中,所述热词类别确定模块,用于:
根据待分类的备选热词的热词来源信息,确定所述备选热词的所属类别;
或者,
利用预先训练的热词分类模型,确定待分类的备选热词的所属类别,其中,所述热词分类模型是利用机器学习方法并基于全网样本热词与其所属类别的对应关系训练得到的;
或者,
根据对待分类的备选热词的人工标记信息,确定所述备选热词的所属类别。
12.根据权利要求11所述的装置,其特征在于,所述热词类别确定模块,具体用于:
针对每个预先划分的分类类别,利用预先训练的热词分类模型确定所述备选热词与该分类类别下的样本热词之间的相关程度;
根据确定出的多个所述相关程度,确定所述备选热词属于所述分类类别的预测概率;
将所述预测概率大于预设概率阈值的所述分类类别确定为所述备选热词的所属类别。
13.根据权利要求10所述的装置,其特征在于,所述推荐热词确定模块,具体用于:
基于各所述备选热词的所述所属类别,确定与所述查询关键词相关的多个目标类别;
将所述查询关键词与所述目标类别下的所述备选热词进行语义匹配,得到各所述备选词对应的语义相似度;
针对每个所述目标类别,根据该目标类别下的各所述备选热词对应的所述语义相似度,选择排序靠前的目标推荐数量的多个所述备选热词作为与所述查询关键词匹配的目标热词。
14.根据权利要求13所述的装置,其特征在于,还包括推荐数量确定模块,其中,所述推荐数量确定模块,用于:
针对每个所述目标类别,根据预先确定的所述用户的偏好信息,确定所述用户对所述目标类别的用户关注度;
根据所述目标类别对应的所述用户关注度,确定所述目标类别下的备选热词的推荐比重;
根据确定出的所述推荐比重和预设推荐总数,确定所述目标类别对应的备选热词的目标推荐数量。
15.根据权利要求13所述的装置,其特征在于,所述推荐热词展示模块,具体用于:
根据预先确定的所述用户的偏好信息,对所述目标类别进行排序,得到类别排序结果;
根据各所述推荐热词的所述所属类别和所述类别排序结果,分类并按序展示针对所述查询关键词的多个所述推荐热词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810985370.3A CN109271574A (zh) | 2018-08-28 | 2018-08-28 | 一种热词推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810985370.3A CN109271574A (zh) | 2018-08-28 | 2018-08-28 | 一种热词推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109271574A true CN109271574A (zh) | 2019-01-25 |
Family
ID=65154402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810985370.3A Pending CN109271574A (zh) | 2018-08-28 | 2018-08-28 | 一种热词推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271574A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815413A (zh) * | 2019-03-19 | 2019-05-28 | 合肥中科类脑智能技术有限公司 | 一种智能推荐系统及其智能推荐方法 |
CN109933691A (zh) * | 2019-02-11 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于内容检索的方法、装置、设备和存储介质 |
CN110598100A (zh) * | 2019-09-04 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种热词推荐方法、装置、设备及存储介质 |
CN110674847A (zh) * | 2019-08-30 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 卡片分类保存方法、装置、计算机设备和存储介质 |
CN110968800A (zh) * | 2019-11-26 | 2020-04-07 | 北京明略软件系统有限公司 | 一种信息推荐方法、装置、电子设备及可读存储介质 |
CN111209277A (zh) * | 2020-01-06 | 2020-05-29 | 北京思维造物信息科技股份有限公司 | 一种数据处理方法、装置、设备及介质 |
CN111291258A (zh) * | 2020-01-20 | 2020-06-16 | 北京无限光场科技有限公司 | 搜索热词的推荐方法、装置、电子设备及可读介质 |
CN111368025A (zh) * | 2020-02-24 | 2020-07-03 | 百度在线网络技术(北京)有限公司 | 智能语音设备的热词推荐方法、设备及存储介质 |
CN111814078A (zh) * | 2020-07-02 | 2020-10-23 | 浙江工业大学 | 谷歌趋势的热词族的地域搜索指数的生成方法 |
CN112307319A (zh) * | 2019-08-02 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种页面生成方法及装置 |
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
CN112507181A (zh) * | 2019-09-16 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
CN112579779A (zh) * | 2020-12-24 | 2021-03-30 | 上海电子信息职业技术学院 | 一种科研成果展示用终端统计系统 |
CN112784142A (zh) * | 2019-10-24 | 2021-05-11 | 北京搜狗科技发展有限公司 | 一种信息推荐方法及装置 |
CN113032680A (zh) * | 2021-04-19 | 2021-06-25 | 南京点橙互联网科技有限公司 | 基于用户订阅热词模式的推荐方法 |
CN113111174A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的群体识别方法与装置、设备及介质 |
CN113111176A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型作案手段识别方法与装置、设备及介质 |
CN113127641A (zh) * | 2021-04-23 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 百科词条的展示方法、装置、设备、介质及程序产品 |
CN113127718A (zh) * | 2021-05-17 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 文本搜索方法、装置、可读介质及电子设备 |
CN113297468A (zh) * | 2020-07-30 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 信息展示、推荐及处理方法、信息推荐系统、电子设备 |
CN113392355A (zh) * | 2021-06-28 | 2021-09-14 | 未鲲(上海)科技服务有限公司 | 页面配置方法、装置、设备及存储介质 |
CN113742560A (zh) * | 2021-09-18 | 2021-12-03 | 中国银行股份有限公司 | 关键词联想方法、装置、电子设备及存储介质 |
CN113743973A (zh) * | 2020-11-30 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 分析市场热点趋势的方法和装置 |
CN114357140A (zh) * | 2022-01-11 | 2022-04-15 | 瀚云科技有限公司 | 问答信息推送的方法、装置、电子设备及可读存储介质 |
CN115080867A (zh) * | 2022-08-23 | 2022-09-20 | 湖南正宇软件技术开发有限公司 | 一种提案主题的推荐方法、装置、计算机设备和存储介质 |
CN117034904A (zh) * | 2023-10-09 | 2023-11-10 | 北京睿企信息科技有限公司 | 一种获取热度稳定的热词的方法、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744956A (zh) * | 2014-01-06 | 2014-04-23 | 同济大学 | 一种关键词的多样化拓展方法 |
CN105574176A (zh) * | 2015-12-21 | 2016-05-11 | 北京奇虎科技有限公司 | 结合多数据源的热词推荐方法和装置 |
CN106708886A (zh) * | 2015-11-17 | 2017-05-24 | 北京国双科技有限公司 | 站内搜索词的显示方法及装置 |
-
2018
- 2018-08-28 CN CN201810985370.3A patent/CN109271574A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744956A (zh) * | 2014-01-06 | 2014-04-23 | 同济大学 | 一种关键词的多样化拓展方法 |
CN106708886A (zh) * | 2015-11-17 | 2017-05-24 | 北京国双科技有限公司 | 站内搜索词的显示方法及装置 |
CN105574176A (zh) * | 2015-12-21 | 2016-05-11 | 北京奇虎科技有限公司 | 结合多数据源的热词推荐方法和装置 |
Non-Patent Citations (3)
Title |
---|
吕苗: "《基于情境的商品个性化推荐方法研究》", 30 June 2018 * |
国家工商行政管理总局网络商品交易监管司: "《网络交易管理理论与实务》", 30 November 2014, 中国工商出版社 * |
胡洋: "基于SVM的百度新闻热搜词风险分类研究", 《大数据时代管理科学与系统科学的机遇与挑战 第十二届全国青年管理科学与系统科学学术会议论文集》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933691A (zh) * | 2019-02-11 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于内容检索的方法、装置、设备和存储介质 |
CN109933691B (zh) * | 2019-02-11 | 2023-06-09 | 北京百度网讯科技有限公司 | 用于内容检索的方法、装置、设备和存储介质 |
CN109815413A (zh) * | 2019-03-19 | 2019-05-28 | 合肥中科类脑智能技术有限公司 | 一种智能推荐系统及其智能推荐方法 |
CN112307319A (zh) * | 2019-08-02 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种页面生成方法及装置 |
CN110674847A (zh) * | 2019-08-30 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 卡片分类保存方法、装置、计算机设备和存储介质 |
CN110598100A (zh) * | 2019-09-04 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种热词推荐方法、装置、设备及存储介质 |
CN110598100B (zh) * | 2019-09-04 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 一种热词推荐方法、装置、设备及存储介质 |
CN112507181B (zh) * | 2019-09-16 | 2023-09-29 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
CN112507181A (zh) * | 2019-09-16 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
CN112784142A (zh) * | 2019-10-24 | 2021-05-11 | 北京搜狗科技发展有限公司 | 一种信息推荐方法及装置 |
CN110968800B (zh) * | 2019-11-26 | 2023-05-02 | 北京明略软件系统有限公司 | 一种信息推荐方法、装置、电子设备及可读存储介质 |
CN110968800A (zh) * | 2019-11-26 | 2020-04-07 | 北京明略软件系统有限公司 | 一种信息推荐方法、装置、电子设备及可读存储介质 |
CN111209277B (zh) * | 2020-01-06 | 2023-11-24 | 北京思维造物信息科技股份有限公司 | 一种数据处理方法、装置、设备及介质 |
CN111209277A (zh) * | 2020-01-06 | 2020-05-29 | 北京思维造物信息科技股份有限公司 | 一种数据处理方法、装置、设备及介质 |
CN111291258A (zh) * | 2020-01-20 | 2020-06-16 | 北京无限光场科技有限公司 | 搜索热词的推荐方法、装置、电子设备及可读介质 |
CN111368025A (zh) * | 2020-02-24 | 2020-07-03 | 百度在线网络技术(北京)有限公司 | 智能语音设备的热词推荐方法、设备及存储介质 |
CN113111174A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的群体识别方法与装置、设备及介质 |
CN113111176A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型作案手段识别方法与装置、设备及介质 |
CN111814078A (zh) * | 2020-07-02 | 2020-10-23 | 浙江工业大学 | 谷歌趋势的热词族的地域搜索指数的生成方法 |
CN111814078B (zh) * | 2020-07-02 | 2022-07-15 | 浙江工业大学 | 谷歌趋势的热词族的地域搜索指数的生成方法 |
CN113297468A (zh) * | 2020-07-30 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 信息展示、推荐及处理方法、信息推荐系统、电子设备 |
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
CN113743973A (zh) * | 2020-11-30 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 分析市场热点趋势的方法和装置 |
CN112579779A (zh) * | 2020-12-24 | 2021-03-30 | 上海电子信息职业技术学院 | 一种科研成果展示用终端统计系统 |
CN113032680A (zh) * | 2021-04-19 | 2021-06-25 | 南京点橙互联网科技有限公司 | 基于用户订阅热词模式的推荐方法 |
CN113127641A (zh) * | 2021-04-23 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 百科词条的展示方法、装置、设备、介质及程序产品 |
CN113127718A (zh) * | 2021-05-17 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 文本搜索方法、装置、可读介质及电子设备 |
CN113392355A (zh) * | 2021-06-28 | 2021-09-14 | 未鲲(上海)科技服务有限公司 | 页面配置方法、装置、设备及存储介质 |
CN113742560A (zh) * | 2021-09-18 | 2021-12-03 | 中国银行股份有限公司 | 关键词联想方法、装置、电子设备及存储介质 |
CN114357140A (zh) * | 2022-01-11 | 2022-04-15 | 瀚云科技有限公司 | 问答信息推送的方法、装置、电子设备及可读存储介质 |
CN115080867A (zh) * | 2022-08-23 | 2022-09-20 | 湖南正宇软件技术开发有限公司 | 一种提案主题的推荐方法、装置、计算机设备和存储介质 |
CN115080867B (zh) * | 2022-08-23 | 2022-11-15 | 湖南正宇软件技术开发有限公司 | 一种提案主题的推荐方法、装置、计算机设备和存储介质 |
CN117034904A (zh) * | 2023-10-09 | 2023-11-10 | 北京睿企信息科技有限公司 | 一种获取热度稳定的热词的方法、电子设备及存储介质 |
CN117034904B (zh) * | 2023-10-09 | 2023-12-08 | 北京睿企信息科技有限公司 | 一种获取热度稳定的热词的方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271574A (zh) | 一种热词推荐方法及装置 | |
CN104834729B (zh) | 题目推荐方法和题目推荐装置 | |
CN107577759B (zh) | 用户评论自动推荐方法 | |
US9836511B2 (en) | Computer-generated sentiment-based knowledge base | |
US20200073953A1 (en) | Ranking Entity Based Search Results Using User Clusters | |
US8234311B2 (en) | Information processing device, importance calculation method, and program | |
KR101793222B1 (ko) | 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트 | |
US10229190B2 (en) | Latent semantic indexing in application classification | |
US20140201180A1 (en) | Intelligent Supplemental Search Engine Optimization | |
CN109829104A (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN108205572A (zh) | 一种搜索方法、装置及设备 | |
KR101355945B1 (ko) | 온라인 문맥기반 광고 장치 및 방법 | |
CN111061954B (zh) | 搜索结果排序方法、装置及存储介质 | |
CN106462644B (zh) | 标识来自多个结果页面标识的优选结果页面 | |
CN112749328B (zh) | 搜索方法、装置和计算机设备 | |
CN103425767B (zh) | 一种提示数据的确定方法和系统 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
US10255246B1 (en) | Systems and methods for providing a searchable concept network | |
JP4891638B2 (ja) | 目的データをカテゴリに分類する方法 | |
CN115827990A (zh) | 搜索方法及装置 | |
TWM623755U (zh) | 產生創意素材的系統 | |
CN116484085A (zh) | 一种信息投放方法、装置、设备及存储介质、程序产品 | |
Pisal et al. | AskUs: An opinion search engine | |
JP7529344B2 (ja) | 関心トピックに基づいた個人化推薦のための方法、システム、およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190125 |