CN110955845A

CN110955845A - 用户兴趣识别方法及装置、搜索结果处理方法及装置

Info

Publication number: CN110955845A
Application number: CN201811124505.3A
Authority: CN
Inventors: 黄杰
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2020-04-03

Abstract

本发明公开了一种用户兴趣识别方法及装置和一种搜索结果处理方法及装置，该用户兴趣识别方法包括：获取用户的至少一条历史记录数据，历史记录数据为浏览记录日志或搜索记录日志；按照预设规则对每个历史记录数据进行分词处理，得到多个分词结果；对多个分词结果进行聚类处理，得到至少一个聚类簇；以聚类簇所包括的分词结果为依据，获得每个聚类簇的用户兴趣相关度；根据聚类簇的用户兴趣相关度，从至少一个聚类簇中确定用户的兴趣标签，得到的兴趣标签更加准确的描述用户了的兴趣，提高了对用户兴趣识别的准确度，也就提高了以该兴趣标签为依据进行搜索的效果和准确率。

Description

用户兴趣识别方法及装置、搜索结果处理方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种用户兴趣识别方法及装置和一种搜索结果处理方法及装置。

背景技术

随着日益丰富的网络资源，个性化搜索越来越成为流行的话题，如何设计较为高效的搜索方案和规则同时成为学术界讨论的课题。

目前，通过收集用户在互联网上的查询记录，虽然可以实现对该用户的个性化搜索，但是仍然存在搜索准确率不高、搜索结果中无关链接数量过多的问题。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种用户兴趣识别方法及装置和一种搜索结果处理方法及装置。

本申请实施例提供的用户兴趣识别方法，包括：

获取用户的至少一条历史记录数据，所述历史记录数据为浏览记录日志或搜索记录日志；

按照预设规则对每个历史记录数据进行分词处理，得到多个分词结果；

对所述多个分词结果进行聚类处理，得到至少一个聚类簇；

以所述聚类簇所包括的分词结果为依据，获得每个所述聚类簇的用户兴趣相关度；

根据所述聚类簇的用户兴趣相关度，从所述至少一个聚类簇中确定所述用户的兴趣标签。

可选的，所述以聚类簇所包括的分词结果为依据，获得每个所述聚类簇的用户兴趣相关度，具体包括：

获得每个所述聚类簇的相关性参数；所述相关性参数包括排名和/或出现比重；所述排名与聚类簇所包括的分词结果的数量正相关，所述出现比重与聚类簇所包括的分词结果在所述至少一条历史记录数据中的总词频正相关；

利用所述相关性参数，获得所述聚类簇的用户兴趣相关度。

可选的，所述根据所述聚类簇的用户兴趣相关度，从所述至少一个聚类簇中确定所述用户的兴趣标签，具体包括：

按照所述用户兴趣相关度降序排列的顺序，对每个所述聚类簇进行排序；

将排序后的前N个聚类簇确定为所述用户的兴趣标签，N为正整数。

可选的，当所述历史记录数据为浏览记录日志时，所述按照预设规则对每个所述历史记录数据进行分词处理，具体包括：

对所述浏览记录日志中的网页摘要进行分词处理；

和/或，

根据所述浏览记录日志中记录的链接，获得用户浏览网页中包括的文本，对所述获得的文本进行分词。

本申请实施例提供的搜索结果处理方法，其特征在于，包括：

获得用户的多个搜索结果；

按照预设规则对目标搜索结果的目标文本进行分词处理，得到所述目标搜索结果的多个分词结果；所述目标文本包括所述目标搜索结果的标题和/或摘要，所述目标搜索结果为所述多个搜索结果中的任意一个；

将所述目标搜索结果的每个分词结果和预先得到的兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度；所述兴趣标签根据上述实施例提供的用户兴趣识别方法中的任意一种得到；

根据所述搜索结果的用户兴趣相关度，对所述多个搜索结果进行筛选和/或排序处理。

可选的，所述将所述目标搜索结果的每个分词结果和预先得到的兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度，具体包括：

获得所述兴趣标签的权重；所述权重与所述兴趣标签对应聚类簇的用户兴趣相关度正相关；

利用所述目标搜索结果中每个分词结果与所述兴趣标签的相似度和所述兴趣标签的权重，得到所述目标搜索结果的用户兴趣相关度。

可选的，所述按照预设规则对目标搜索结果的目标文本进行分词处理，得到所述目标搜索结果的多个分词结果，之后还包括：

从所述目标搜索结果的多个分词结果中提取所述目标搜索结果的关键词；

则，所述将所述目标搜索结果的每个分词结果和预先得到的兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度，具体包括：

将每个所述关键词和所述兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度。

本申请实施例提供的用户兴趣识别装置，包括：数据获取单元、分词处理单元、聚类处理单元、相关度处理单元和标签确定单元；

所述数据获取单元，用于获取用户的至少一条历史记录数据，所述历史记录数据为浏览记录日志或搜索记录日志；

所述分词处理单元，用于按照预设规则对每个历史记录数据进行分词处理，得到多个分词结果；

所述聚类处理单元，用于对所述多个分词结果进行聚类处理，得到至少一个聚类簇；

所述相关度处理单元，用于以所述聚类簇所包括的分词结果为依据，获得每个所述聚类簇的用户兴趣相关度；

所述标签确定单元，用于根据所述聚类簇的用户兴趣相关度，从所述至少一个聚类簇中确定所述用户的兴趣标签。

可选的，所述相关度处理单元，具体包括：参数获取子单元和相关度获得子单元；

所述参数获取子单元，用于获得每个所述聚类簇的相关性参数；所述相关性参数包括排名和/或出现比重；所述排名与聚类簇所包括的分词结果的数量正相关，所述出现比重与聚类簇所包括的分词结果在所述至少一条历史记录数据中的总词频正相关；

所述相关度获得子单元，用于利用所述相关性参数，获得所述聚类簇的用户兴趣相关度。

可选的，所述标签确定单元，具体包括：排序子单元和确定子单元；

所述排序子单元，用于按照所述用户兴趣相关度降序排列的顺序，对每个所述聚类簇进行排序；

所述确定子单元，用于将排序后的前N个聚类簇确定为所述用户的兴趣标签，N为正整数。

可选的，当所述历史记录数据为浏览记录日志时，所述分词处理单元，具体包括：第一分词子单元和/或第二分词子单元；

所述第一分词子单元，用于对所述浏览记录日志中的网页摘要进行分词处理；

所述第二分词子单元，用于根据所述浏览记录日志中记录的链接，获得用户浏览网页中包括的文本，对所述获得的文本进行分词。

本申请实施例提供的搜索结果处理装置，包括：获取单元、分词单元、对比单元和处理单元；

所述获取单元，用于获得用户的多个搜索结果；

所述分词单元，用于按照预设规则对目标搜索结果的目标文本进行分词处理，得到所述目标搜索结果的多个分词结果；所述目标文本包括所述目标搜索结果的标题和/或摘要，所述目标搜索结果为所述多个搜索结果中的任意一个；

所述对比单元，用于将所述目标搜索结果的每个分词结果和预先得到的兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度；所述兴趣标签根据上述实施例提供的用户兴趣识别方法中的任意一种得到；

所述处理单元，用于根据所述搜索结果的用户兴趣相关度，对所述多个搜索结果进行筛选和/或排序处理。

可选的，所述对比单元，具体包括：权重获取子单元和相关度确定子单元；

所述权重获取子单元，用于获得所述兴趣标签的权重；所述权重与所述兴趣标签对应聚类簇的用户兴趣相关度正相关；

所述相关度确定子单元，用于利用所述目标搜索结果中每个分词结果与所述兴趣标签的相似度和所述兴趣标签的权重，得到所述目标搜索结果的用户兴趣相关度。

可选的，还包括：提取单元；

所述提取单元，用于从所述目标搜索结果的多个分词结果中提取所述目标搜索结果的关键词；

则，所述对比单元，具体用于将每个所述关键词和所述兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度。

本申请实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时，实现如上述实施例提供的用户兴趣识别方法中的任意一种，或者，实现如上述实施例提供的搜索结果处理方法中的任意一种。

本申请实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时，执行如上述实施例提供的用户兴趣识别方法中的任意一种，或者，执行如上述实施例提供的搜索结果处理方法中的任意一种。

借由上述技术方案，本申请提供的一种用户兴趣识别方法及装置和一种搜索结果处理方法及装置，在获得用户的包括浏览记录日志和/或搜索记录日志的历史记录数据后，先对每条历史记录数据进行分词处理，再对得到的多个分词结果进行聚类处理得到至少一个聚类簇。然后，以聚类簇中包括的分词结果为依据，可以获得每个聚类簇的用户兴趣相关度。进而根据该用户兴趣相关度，即可将聚类处理得到的至少一个聚类簇中，与用户兴趣相关度较大的聚类簇确定为用户的兴趣标签，得到的兴趣标签更加准确的描述用户了的兴趣，提高了对用户兴趣识别的准确度，进而提高了以该兴趣标签为依据进行的搜索的效果和准确率，提高了用户体验。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种用户兴趣识别方法的流程示意图；

图2示出了本申请实施例提供的另一种用户兴趣识别方法的流程示意图；

图3示出了本申请实施例提供的一种搜索结果处理方法的流程示意图；

图4示出了本申请实施例提供的另一种搜索结果处理方法的流程示意图；

图5示出了本申请实施例提供的一种用户兴趣识别装置的结构示意图；

图6示出了本申请实施例提供的一种搜索结果处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了实现个性化搜索、提高搜索的准确率、减少搜索结果中与用户兴趣无关的链接的数量，本申请实施例第一方面提供了一种用户兴趣识别方法及装置，对用户搜索和浏览的历史数据记录进行分词和聚类处理，利用聚类的结果确定用户的兴趣所在作为个性化搜索用的兴趣标签，提高了对用户搜索兴趣识别的准确率。本申请实施例第二方面提供了一种搜索结果处理方法及装置，利用第一方面确定出的兴趣标签，可以获得用户的搜索结果的用户兴趣相关度，以该用户兴趣相关度为依据可以从搜索结果中筛选出用户兴趣相关度较高、更加符合用户真实的搜索结果，提高了搜索的准确率，减少了搜索结果中与用户兴趣无关的链接的数量。

需要说明的是，本申请实施例提供的一种用户兴趣识别方法及装置和一种搜索结果处理方法及装置不仅可以应用于对网页或商品的个性化搜索，还可以应用于对其他数据或材料(如论文、视频等)的个性化搜索，本申请对此不进行限定。

基于上述思想，为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。

参见图1，该图为本申请实施例提供的一种用户兴趣识别方法的流程示意图。

本申请实施例提供的用户兴趣识别方法，包括步骤S101-S105。

S101：获取用户的至少一条历史记录数据。

在本申请实施例中，历史记录数据可以为记录用户浏览历史的浏览记录日志，或者记录用户搜索历史的搜索记录日志。其中，浏览记录日志中一般记录有用户浏览网页的链接、访问时间、名称和网页摘要等，搜索记录日志中一般记录有用户输入的查询串和搜索结果中用户点击的链接信息等。

在实际应用中，可以根据实际需要，获取预设时间范围内生成的历史记录数据，例如获取一年内或一个月内生成的历史记录数据；还可以在具体实施时，实时采集当前生成的历史记录数据，以保证根据该历史记录数据识别出的用户兴趣更加符合用户的当前情况。

S102：按照预设规则对每个历史记录数据进行分词处理，得到多个分词结果。

分词处理，即将历史记录数据中的文本信息按照一定的规则划分成单词和/或词组(即得到的分词结果)等。在一些可能的设计中，还可以对分词结果进行去重处理。在本申请实施例中可以采用任意一种分词算法对历史记录数据进行分词处理，这里不进行限定。

在本申请实施例一些可能的实现方式中，当历史记录数据为浏览记录日志时，步骤S102具体可以包括：

对浏览记录日志中的网页摘要进行分词处理；和/或，根据浏览记录日志中记录的链接，获得用户浏览网页中包括的文本，对获得的文本进行分词。

在本申请实施例一些可能的实现方式中，当历史记录数据为搜索记录日志时，步骤S102具体可以包括：

对搜索记录日志中记录的查询串进行分词处理；和/或，根据搜索记录日志中记录的户点击的链接，获得对应网页中包括的文本，对获得的文本进行分词。

S103：对多个分词结果进行聚类处理，得到至少一个聚类簇。

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类处理所生成的簇(即聚类簇)是一组数据对象(即每个聚类簇所包括的分词结果)的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。在本申请实施例中，可以采用任意一种聚类算法，如K均值(K-means)聚类、均值漂移聚类、凝聚层次聚类等，对得到的多个分词结果进行聚类分析，这里不进行限定。

S104：以聚类簇所包括的分词结果为依据，获得每个聚类簇的用户兴趣相关度。

在本申请实施例中，聚类簇代表了用户的兴趣点，例如兴趣点可以是金融、篮球、电视剧、大数据等等。聚类簇中的分词结果为历史记录数据中属于该聚类簇所代表的兴趣点的单词或词组。每个聚类簇包括的分词结果的数量越多和/或在历史记录数据中的词频越高，历史记录数据与该聚类簇所代表的兴趣点的相关程度也就越高。因为历史记录数据表示了用户的搜索兴趣，所以历史记录数据与兴趣点的相关程度也就反映了用户对该兴趣点的感兴趣程度。因此，根据聚类处理所包括的分词结果，就可以确定出聚类簇的用户兴趣相关度，即得到用户对该聚类簇对应的兴趣点的感兴趣程度。

在本申请实施例一些可能的实现方式中，如图2所示，步骤S104具体可以包括：

S1041：获得每个聚类簇的相关性参数。

在本申请实施例中，聚类簇的相关性参数包括该聚类簇的排名和/或出现比重。其中，聚类簇的排名与聚类簇所包括的分词结果的数量正相关，聚类簇包括的分词结果数量越多，其排名越高。聚类簇的出现比重与聚类簇所包括的分词结果在至少一条历史记录数据中的总词频正相关，聚类簇所包括的分词结果在获得的历史记录数据中的总词频越高，该聚类簇的出现比重越大。

例如，对历史记录数据的多个分词结果进行聚类处理，共得到了多个聚类簇。其中，第一个聚类簇包括的分词结果多于第二个聚类簇包括的分词结果，则第一个聚类簇的排名比第二个聚类簇的排名。第一个聚类簇包括的分词结果在该历史记录数据中出现的总词频(即每个分类结果的词频之和)小于第二个聚类簇的分词结果在该历史记录数据中出现的总词频，则第一个聚类簇的出现比重小于第二个聚类簇的出现比重。

S1042：利用相关性参数，获得聚类簇的用户兴趣相关度。

可以理解的是，由于每个聚类簇包括的分词结果的数量越多和/或在历史记录数据中的总词频越高，历史记录数据与该聚类簇所代表的兴趣点的相关程度也就越高，因此在本申请实施例中相关性参数与聚类簇的用户兴趣相关度正相关。实际应用中，可以利用任意一种方式(如标定赋值或公式计算等)根据聚类簇的相关性参数得到该聚类簇的用户兴趣相关度，本申请实施例对此不进行限定。

S105：根据聚类簇的用户兴趣相关度，从至少一个聚类簇中确定用户的兴趣标签。

在本申请实施例一些可能的实现方式中，可以将用户兴趣相关度大于预设阈值的聚类簇确定为用户的兴趣标签。例如，表示金融的聚类簇的用户兴趣相关度大于预设阈值，即可以将“金融”作为该用户的兴趣标签。用户的兴趣标签不仅可以作为个性化搜索时所用的兴趣标签，还可以用于用户画像的构建以及视频、广告等内容的推荐，本申请实施例对此不进行限定。

在本申请实施例另一些可能的实现方式中，还可以先按照用户兴趣相关度降序排列的顺序，对每个聚类簇进行排序；再将排序后的前N个聚类簇确定为用户的兴趣标签。其中，N为正整数，具体可以根据实际需要设定，如N可以取20。

在本申请实施例中，在获得用户的包括浏览记录日志和/或搜索记录日志的历史记录数据后，先对每条历史记录数据进行分词处理，再对得到的多个分词结果进行聚类处理得到至少一个聚类簇。然后，以聚类簇中包括的分词结果为依据，可以获得每个聚类簇的用户兴趣相关度。进而根据该用户兴趣相关度，即可将聚类处理得到的至少一个聚类簇中，与用户兴趣相关度较大的聚类簇确定为用户的兴趣标签，得到的兴趣标签更加准确的描述用户了的兴趣，提高了对用户兴趣识别的准确度，进而提高了以该兴趣标签为依据进行的搜索的效果和准确率，提高了用户体验。

基于上述实施例提供的用户兴趣识别方法，本申请实施例还提供了一种搜索结果处理方法。

参见图3，该图为本申请实施例提供的一种搜索结果处理方法的流程示意图。

本申请实施例提供的搜索结果处理方法，包括如下步骤S301-S304。

S301：获得用户的多个搜索结果。

在本申请实施例中，搜索结果是根据用户输入的搜索串得到的，可以是网页链接、文本文件、视频资源等，这里不再一一列举。

S302：按照预设规则对目标搜索结果的目标文本进行分词处理，得到目标搜索结果的多个分词结果。

在本申请实施例中，目标文本包括目标搜索结果的标题和/或摘要，目标搜索结果为多个搜索结果中的任意一个。以网页链接为例，目标文本包括该网页链接对应网页的标题和/或该网页的网页摘要。

与上述实施例类似，在本申请实施例中，可以采用任意一种分词算法对目标文本进行分词处理，这里不进行限定。在一些可能的设计中，还可以对分词结果进行去重处理。

S303：将目标搜索结果的每个分词结果与预先得到的兴趣标签对比，得到目标搜索结果的用户兴趣相关度。

在本申请实施例中，兴趣标签是根据上述实施例提供的用户兴趣识别方法中的任意一种得到。由于兴趣标签代表了用户的兴趣，将目标搜索结果的每个分词结果与预先得到的兴趣标签对比，也就是将目标搜索结果与用户的兴趣对比，从而可以根据对比的结果得到目标搜索结果的用户兴趣相关程度。

作为一个示例，可以通过对比每个分词结果与兴趣标签的相似度，得到目标搜索结果的用户兴趣相关度。分词结果与兴趣标签的相似度，表示了在计算机表示方式上的相似程度，可以利用任意一种相似度计算方法得到，如基于语义词典的词汇相似度计算、基于语料统计的词汇相似度计算和基于检索页面数量计算词汇相似度等，这里不再一一赘述。

可以理解的是预先得到兴趣标签可能不止一个，可以获得目标搜索结果的每个分词结果分别与各个兴趣标签对比，能够更加准确的确定出目标搜索结果的用户兴趣相关度，进一步提高搜索结果的准确度、减少搜索结果中与用户兴趣无关的链接的数量。

在本申请实施例一些可能的实现方式中，由于上述实施例在从至少一个聚类簇中确定用户的兴趣标签时，以聚类簇的用户兴趣相关度为依据，而不同的聚类簇的用户兴趣相关度不尽相同，则为了提高处理结果的准确率和精度，步骤S303具体可以包括：

S3031：获得兴趣标签的权重。

在本申请实施例中，兴趣标签的权重与其对应聚类簇的用户兴趣相关度正相关，可以根据上述实施例提供的用户兴趣识别方法中的任意一种得到，具体参见相关说明即可，这里不再赘述。

S3032：利用目标搜索结果中每个分词结果与兴趣标签的相似度和兴趣标签权重，得到目标搜索结果的用户兴趣相关度。

在本实施例中，在得到目标搜索结果的用户兴趣相关度时，不仅考虑到目标搜索结果与兴趣标签的相似度，还考虑到了兴趣标签的用户兴趣相关度(即权重)，使得得到的目标搜索结果的用户兴趣相关度更加准确。

在实际应用中，步骤S3042可以利用下式实现：

式中，R为目标搜索结果的用户兴趣相关度，S_i为目标搜索结果与第i个兴趣标签的相似度，W_i为第i个兴趣标签的权重。

S304：根据搜索结果的用户兴趣相关度，对多个搜索结果进行筛选和/或排序处理。

由于搜索结果的用户兴趣相关度越高，用户对该搜索结果也就越感兴趣，因此可以按照搜索结果额用户兴趣相关度降序排列的顺序对每个搜索结果进行排序，保证在显示给用户时用户越感兴趣的搜索结果排名越靠前，提高搜索结果的准确度。

在一些可能的实现方式中，还可以根据搜索结果的用户兴趣相关度对获得的搜索结果进行筛选，去除用户兴趣相关度较低的搜索结果，提高搜索结果的准确度，减少与用户兴趣无关的链接的数量。

在本申请实施例一些可能的实现方式中，为了提高处理的精度和准确度，步骤S302之后还可以从目标搜索结果的多个分词结果中提取目标搜索结果的至少一个关键词。然后，再将目标搜索结果的每个关键词与兴趣标签对比，得到目标搜索结果的用户兴趣相关度。

在实际应用中，可以利用任意一种关键词提取方法提取目标搜索结果的至少一个关键词，这里不再一一赘述。

基于上述实施例提供的用户兴趣识别方法，本申请实施例还提供了一种用户兴趣识别装置。

参见图5，该图为本申请实施例提供的一种用户兴趣识别装置的结构示意图。

本申请实施例提供的用户兴趣识别装置，包括：数据获取单元501、分词处理单元502、聚类处理单元503、相关度处理单元504和标签确定单元505；

数据获取单元501，用于获取用户的至少一条历史记录数据，历史记录数据为浏览记录日志或搜索记录日志；

分词处理单元502，用于按照预设规则对每个历史记录数据进行分词处理，得到多个分词结果；

聚类处理单元503，用于对多个分词结果进行聚类处理，得到至少一个聚类簇；

相关度处理单元504，用于以聚类簇所包括的分词结果为依据，获得每个聚类簇的用户兴趣相关度；

标签确定单元505，用于根据聚类簇的用户兴趣相关度，从至少一个聚类簇中确定用户的兴趣标签。

在本申请实施例一些可能的实现方式中，相关度处理单元504，具体可以包括：参数获取子单元和相关度获得子单元(均未在图中示出)；

参数获取子单元，用于获得每个聚类簇的相关性参数；相关性参数包括排名和/或出现比重；排名与聚类簇所包括的分词结果的数量正相关，出现比重与聚类簇所包括的分词结果在至少一条历史记录数据中的总词频正相关；

相关度获得子单元，用于利用相关性参数，获得聚类簇的用户兴趣相关度。

在本申请实施例一些可能的实现方式中，标签确定单元505，具体可以包括：排序子单元和确定子单元(均未在图中示出)；

排序子单元，用于按照用户兴趣相关度降序排列的顺序，对每个聚类簇进行排序；

确定子单元，用于将排序后的前N个聚类簇确定为用户的兴趣标签，N为正整数。

在本申请实施例一些可能的实现方式中，当历史记录数据为浏览记录日志时，分词处理单元502，具体可以包括：第一分词子单元和/或第二分词子单元(均未在图中示出)；

第一分词子单元，用于对浏览记录日志中的网页摘要进行分词处理；

第二分词子单元，用于根据浏览记录日志中记录的链接，获得用户浏览网页中包括的文本，对获得的文本进行分词。

基于上述实施例提供的用户兴趣识别方法及装置和搜索结果处理方法，本申请实施例还提供了一种搜索结果处理装置。

参见图6，该图为本申请实施例提供的一种搜索结果处理装置的结构示意图。

本申请实施例提供的搜索结果处理装置，包括：获取单元601、分词单元602、对比单元603和处理单元604；

获取单元601，用于获得用户的多个搜索结果；

分词单元602，用于按照预设规则对目标搜索结果的目标文本进行分词处理，得到目标搜索结果的多个分词结果；目标文本包括目标搜索结果的标题和/或摘要，目标搜索结果为多个搜索结果中的任意一个；

对比单元603，用于将目标搜索结果的每个分词结果和预先得到的兴趣标签对比，得到目标搜索结果的用户兴趣相关度；兴趣标签根据上述实施例提供的用户兴趣识别方法中的任意一种得到；

处理单元604，用于根据搜索结果的用户兴趣相关度，对多个搜索结果进行筛选和/或排序处理。

在本申请实施例一些可能的实现方式中，对比单元603，具体可以包括：权重获取子单元和相关度确定子单元；

权重获取子单元，用于获得兴趣标签的权重；权重与兴趣标签对应聚类簇的用户兴趣相关度正相关；

相关度确定子单元，用于利用目标搜索结果中每个分词结果与兴趣标签的相似度和兴趣标签的权重，得到目标搜索结果的用户兴趣相关度。

在本申请实施例一些可能的实现方式中，该装置还可以包括：提取单元；

提取单元，用于从目标搜索结果的多个分词结果中提取目标搜索结果的关键词；

则，对比单元604，具体用于将每个关键词和兴趣标签对比，得到目标搜索结果的用户兴趣相关度。

所述用户兴趣识别装置和所述搜索结果处理装置均包括处理器和存储器，用户兴趣识别装置包括的上述数据获取单元、分词处理单元、聚类处理单元、相关度处理单元、标签确定单元和搜索结果处理装置包括的获取单元、分词单元、对比单元、处理单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高搜索的效果和准确率，减少搜索结果中与用户兴趣无关的链接的数量，提高用户体验。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述用户兴趣识别方法或者所述搜索结果处理方法。

本申请实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述用户兴趣识别方法或者所述搜索结果处理方法。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时第一方面实现以下步骤：

对所述多个分词结果进行聚类处理，得到至少一个聚类簇；

利用所述相关性参数，获得所述聚类簇的用户兴趣相关度。

对所述浏览记录日志中的网页摘要进行分词处理；

和/或，

第二方面实现以下步骤：

获得用户的多个搜索结果；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，第一方面适于执行初始化有如下方法步骤的程序：

对所述多个分词结果进行聚类处理，得到至少一个聚类簇；

利用所述相关性参数，获得所述聚类簇的用户兴趣相关度。

对所述浏览记录日志中的网页摘要进行分词处理；

和/或，

第二方面适于执行初始化有如下方法步骤的程序：

获得用户的多个搜索结果；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用户兴趣识别方法，其特征在于，所述方法包括：

对所述多个分词结果进行聚类处理，得到至少一个聚类簇；

2.根据权利要求1所述的方法，其特征在于，所述以聚类簇所包括的分词结果为依据，获得每个所述聚类簇的用户兴趣相关度，具体包括：

利用所述相关性参数，获得所述聚类簇的用户兴趣相关度。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述聚类簇的用户兴趣相关度，从所述至少一个聚类簇中确定所述用户的兴趣标签，具体包括：

4.一种搜索结果处理方法，其特征在于，所述方法包括：

获得用户的多个搜索结果；

将所述目标搜索结果的每个分词结果和预先得到的兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度；所述兴趣标签根据权利要求1-4任意一项所述的用户兴趣识别方法得到；

5.根据权利要求4所述的方法，其特征在于，所述将所述目标搜索结果的每个分词结果和预先得到的兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度，具体包括：

6.根据权利要求4或5所述的方法，其特征在于，所述按照预设规则对目标搜索结果的目标文本进行分词处理，得到所述目标搜索结果的多个分词结果，之后还包括：

7.一种用户兴趣识别装置，其特征在于，包括：数据获取单元、分词处理单元、聚类处理单元、相关度处理单元和标签确定单元；

8.一种搜索结果处理装置，其特征在于，包括：获取单元、分词单元、对比单元和处理单元；

所述获取单元，用于获得用户的多个搜索结果；

所述对比单元，用于将所述目标搜索结果的每个分词结果和预先得到的兴趣标签对比，得到所述目标搜索结果的用户兴趣相关度；所述兴趣标签根据权利要求1-3任意一项所述的用户兴趣识别方法得到；

9.一种存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现如权利要求1-3任一项所述的用户兴趣识别方法，或者，实现如权利要求4-6任一项所述的搜索结果处理方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时，执行如权利要求1-3任一项所述的用户兴趣识别方法，或者，执行如权利要求4-6任一项所述的搜索结果处理方法。