CN104102650A - 内容提供装置、内容提供方法以及电子设备 - Google Patents

内容提供装置、内容提供方法以及电子设备 Download PDF

Info

Publication number
CN104102650A
CN104102650A CN201310118185.1A CN201310118185A CN104102650A CN 104102650 A CN104102650 A CN 104102650A CN 201310118185 A CN201310118185 A CN 201310118185A CN 104102650 A CN104102650 A CN 104102650A
Authority
CN
China
Prior art keywords
content
active user
content type
browsing
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310118185.1A
Other languages
English (en)
Other versions
CN104102650B (zh
Inventor
周恩策
张军
邹纲
张沈斌
皮冰锋
于浩
松尾昭彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201310118185.1A priority Critical patent/CN104102650B/zh
Publication of CN104102650A publication Critical patent/CN104102650A/zh
Application granted granted Critical
Publication of CN104102650B publication Critical patent/CN104102650B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了内容提供装置、内容提供方法以及电子设备,以克服现有的用于向用户提供内容的技术所提供的内容与用户的兴趣匹配度较低的问题。内容提供装置包括:获得单元,用于根据当前用户的浏览历史记录获得当前用户的浏览偏好分布,其中,浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;类别确定单元,用于至少基于当前用户的浏览偏好分布来确定至少一个内容类别;以及结果确定单元,用于将与上述至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户。内容提供方法用于执行能够实现内容提供装置的功能的处理。电子设备包括上述内容提供装置。本发明的上述技术能够应用于信息处理领域。

Description

内容提供装置、内容提供方法以及电子设备
技术领域
本发明涉及信息处理领域,尤其涉及内容提供装置、内容提供方法以及电子设备。
背景技术
随着信息技术的发展,信息处理逐渐成为一个热门且不可或缺的领域。然而,由于信息的丰富性和多样性,处理的目的和要求也不尽相同。
其中,在一些情况下,用户期望能够在众多的资源中快速地确定其感兴趣的内容。目前,在现有的用于向用户提供内容的技术中,其提供的内容往往与用户的兴趣之间的匹配度较低。另外,一些传统的方法通常采用数据挖掘算法(如关联规则方法)向用户推荐内容,但这些方法常常较为低效。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,本发明提供了内容提供装置、内容提供方法以及电子设备,以至少解决现有的用于向用户提供内容的技术所提供的内容与用户的兴趣匹配度较低的问题。
根据本发明的一个方面,提供了一种内容提供装置,该内容提供装置包括:获得单元,用于根据当前用户的浏览历史记录获得当前用户的浏览偏好分布,其中,浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;类别确定单元,用于至少基于当前用户的浏览偏好分布来确定至少一个内容类别;以及结果确定单元,用于将与上述至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户。
根据本发明的另一个方面,还提供了一种内容提供方法,该内容提供方法包括:根据当前用户的浏览历史记录获得当前用户的浏览偏好分布,其中,浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;至少基于当前用户的浏览偏好分布来确定至少一个内容类别;以及将与上述至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户。
根据本发明的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的内容提供装置。
根据本发明的又一个方面,还提供了一种存储有机器可读取的指令代码的程序产品,上述程序产品在执行时能够使上述机器执行如上所述的内容提供方法。
此外,根据本发明的其他方面,还提供了一种计算机可读存储介质,其上存储有如上所述的程序产品。
上述根据本发明实施例的内容提供装置、内容提供方法以及电子设备,其根据当前用户的浏览历史记录来获得其对各个内容类别的浏览偏好分布,并基于此来确定至少一个内容类别,以将与该至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户,能够获得至少以下益处之一:由于考虑了用户的浏览历史记录,能够使得所提供的内容记录能够较符合用户的兴趣和/或兴趣;处理较为高效;通过利用未访问时间间隔以及内容类别信息对各个记录内容进行分类,有利于样本统计,能够使得基于此而得到的后续结果更为准确;通过基于未访问时间间隔的分组以及利用核密度估计算法的筛选相结合,能够有效地过滤具有明显噪声特征的样本;能够使得最终计算的当前用户对每个内容类别的关注度更加准确;以及使得得到的当前用户对各内容类别的浏览偏好分布更为准确。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示意性地示出根据本发明的实施例的内容提供装置的一种示例结构的框图。
图2是示意性地示出如图1所示的获得单元的一种可能的示例结构的框图。
图3是示意性地示出如图2所示的第一分组子单元的一种可能的示例结构的框图。
图4是示意性地示出如图2所示的第一获得子单元的一种可能的示例结构的框图。
图5是示意性地示出如图2所示的第二获得子单元的一种可能的示例结构的框图。
图6是示意性地示出如图1所示的类别确定单元的一种可能的示例结构的框图。
图7是示意性地示出如图6所示的相似用户确定子单元的一种可能的示例结构的框图。
图8是示意性地示出如图7所示的相似度获得模块的一种可能的示例结构的框图。
图9是示意性地示出根据本发明的实施例的内容提供装置的另一种示例结构的框图。
图10是示意性地示出如图9所示的预处理单元的一种可能的示例结构的框图。
图11是示意性地示出根据本发明的实施例的内容提供方法的一种示例性处理的流程图。
图12是示意性地示出如图11所示的步骤S1120的一种示例性处理的流程图。
图13是示意性地示出如图12所示的步骤S1210的一种示例性处理的流程图。
图14是示意性地示出如图12所示的步骤S1220的一种示例性处理的流程图。
图15是示意性地示出如图12所示的步骤S1230的一种示例性处理的流程图。
图16是示意性地示出如图11所示的步骤S1130的一种示例性处理的流程图。
图17是示出了可用来实现根据本发明的实施例的内容提供装置和内容提供方法的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明的实施例提供了一种内容提供装置,该内容提供装置包括:获得单元,用于根据当前用户的浏览历史记录获得当前用户的浏览偏好分布,其中,浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;类别确定单元,用于至少基于当前用户的浏览偏好分布来确定至少一个内容类别;以及结果确定单元,用于将与上述至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户。
下面结合图1来详细描述根据本发明的实施例的内容提供装置的一个示例。
如图1所示,根据本发明的实施例的内容提供装置100包括获得单元110、类别确定单元120以及结果确定单元130。
获得单元110用于根据当前用户的浏览历史记录获得当前用户的浏览偏好分布。
在根据本发明的实施例的内容提供装置的一个实现方式中,用户(例如,当前用户)的浏览历史记录例如可以包括关于该用户所浏览的网站的相关信息的记录内容。在一个例子中,在网站本身可以记录用户的浏览日志的情况下,可以通过挖掘这些浏览日志来获得用于反映用户浏览历史(例如,浏览的网站对应的网址、访问时间及所属的内容类别等信息)的各条记录,即浏览历史记录。在另一个例子中,也可以通过特定数据库来记录用户浏览过的网站的网址、该网站所属的内容类别以及访问时间等,通过对数据库中相关记录的处理可以获得用户的上述“浏览历史记录”。
在根据本发明的实施例的内容提供装置的另一个实现方式中,浏览历史记录也可以包括关于用户(例如,当前用户)所浏览的其他浏览对象(例如除网站之外的其他浏览对象)的相关信息的记录内容。在一个例子中,上述其他浏览对象可以是包含多个阅读分类(其中,每个阅读分类例如相当于一个上述的内容类别)的关于图书和/或文章的阅读软件,在这种情况下,用户(如当前用户)的浏览历史记录例如可以包括该用户浏览(阅读)过的图书和/或文章对应的名称、浏览(阅读)时间及其所属阅读分类等信息。
在下文中,将主要以针对用户浏览的网站的浏览历史记录为例来给出描述,但本领域的技术人员应当理解,浏览历史记录并不限于此,例如也可以是针对除此(网站)之外的其他浏览对象的浏览历史记录。
用户(如当前用户)的浏览偏好分布用于反映相应的用户分别对各内容类别的关注度。例如,“当前用户的浏览历史记录”用于反映当前用户对各内容类别的关注度。
其中,这里所说的“各内容类别”例如可以是预先设定的多个内容类别,或者,也可以是当前用户的浏览历史记录中的所有记录内容所属的各个内容类别(其中,重复的内容类别记为同一个)。
在一种实现方式中,每个记录内容所属的内容类别例如可以是预先设置的。例如,对于用户浏览过的网站所属的内容类别(即,对应于浏览历史记录中的某条记录的内容所属的内容类别)来说,当用户浏览某个网站时,网站的后台可以直接记录其访问内容(每条记录)所属的类别至数据库,由此,可以根据该数据库中所记录的内容类别直接来获得每条记录的内容类别。又如,对于上述包含多个阅读分类的阅读软件来说,用户在阅读某个图书和/或文章时,其对应的阅读分类(如历史、科幻等)可以作为该图书和/或文章对应的内容类别,这样,在用户阅读的同时可以记录其阅读内容的内容类别。
在另一种实现方式中,以针对用户浏览的网站的浏览历史记录为例,可以从浏览日志的URL地址中进行提取相关网站的内容类别。例如,用户的浏览历史记录中的每条记录可以按照如下格式被记录:(用户,浏览时间,浏览地址)。例如,假设用Us0来表示当前用户,该当前用户Us0在时间T0浏览了网站W0,其中,假设网站W0的地址为ad0,则,这条记录可以被记录为:(Us0,T0,ad0)。假设ad0对应的地址ad0(URL地址)格式如下所示:
http://example.com/news/res_01
在这个例子中,记录(Us0,T0,ad0)的内容所属的内容类别为“news”(即“新闻”)。
在根据本发明的实施例的内容提供装置的一种实现方式中,获得单元110可以包括如图2所示的第一分组子单元210、第一获得子单元220和第二获得子单元230。
其中,第一分组子单元210可以基于当前用户的浏览历史记录中的未访问时间间隔来对当前用户的浏览历史记录中的记录内容进行分组,以得到多个组,可以将对当前用户的浏览历史记录进行分组所获得的每个组作为第一记录内容组。这样,第一分组子单元210通过对当前用户的浏览历史记录进行分组,能够得到多个第一记录内容组。
针对某一用户(如当前用户)来说,其浏览历史记录会随着时间的推移而不断积累,为了更为准确解决用户随着时间推移而产生的兴趣变化问题,可以对用户的浏览历史记录进行分隔,即,分隔为多个组,然后对浏览历史记录的每个组进行处理,接着再关联各个组之间的信息,能够有利于为挖掘用户最新的兴趣分布提供信息基础。
图3示出了第一分组子单元210的一种可能的示例结构。
如图3所示,第一分组子单元210可以包括间隔选择模块310和划分模块320。
间隔选择模块310可以在当前用户Us0的浏览历史记录中的未访问时间间隔中选择那些大于或等于预定时长的未访问时间间隔,这样,可以选择到一个或多个“未访问时间间隔”,作为多个“第一间隔”。其中,预定时长可以根据经验值来设定,也可以通过试验的方法来确定,这里不再详述。
划分模块320可以基于间隔选择模块310选择的那些“第一间隔”来将当前用户Us0的浏览历史记录划分为多个第一记录内容组。
需要说明的是,如果当前用户Us0的浏览历史记录中不存在大于或等于预定时长的未访问时间间隔,则可以不对该浏览历史记录进行分组。
在一个例子中,假设当前用户Us0的浏览历史记录如表一所示,并假设在该例子中上述预定时长为2小时。需要注意的是,在实际应用中,当前用户Us0的浏览历史记录中所包含的记录条数不限于表一中所示出的数量。
表一:
由表一可以看出,记录一(假设记录一为当前用户Us0浏览的第一条记录)和记录二之间的未访问时间间隔为约10分钟,记录二和记录三之间的未访问时间间隔为约15分钟,记录三和记录四之间的未访问时间间隔为约30分钟,记录四和记录五之间的未访问时间间隔为约2小时50分钟,记录四和记录五之间的未访问时间间隔为约2小时50分钟。
此外,记录五和记录六之间的未访问时间间隔为约19分钟,记录六和记录七之间的未访问时间间隔为约6分钟,记录七和记录八之间的未访问时间间隔为约11分钟,记录八和记录九之间的未访问时间间隔为约3小时。
此外,还可以得到,记录九和记录十之间的未访问时间间隔为约1分钟,记录十和记录十一之间的未访问时间间隔为约4分钟,记录十一和记录十二(假设记录十二为当前用户Us0浏览的最后一条记录)之间的未访问时间间隔为约2小时2分钟。
这样,在以上所列举的所有未访问时间间隔中,超过预定时长2小时的共有三个,即记录四和记录五之间的未访问时间间隔(约2小时50分钟)、记录八和记录九之间的未访问时间间隔(约3小时)以及记录十一和记录十二之间的未访问时间间隔(约2小时2分钟)。因此,可以基于这三个未访问时间间隔将当前用户Us0的浏览历史记录(如表一中所示的12条记录)划分为4个组,即,4个“第一记录内容组”。可以得到,记录一至记录四为一个“第一记录内容组”,记录五至记录八为另一个“第一记录内容组”,记录九至记录十一为又一个“第一记录内容组”,以及记录十二单独为一个“第一记录内容组”。
这样,在第一分组子单元210基于当前用户Us0的浏览历史记录中的未访问时间间隔将其浏览历史记录中的记录内容划分为多个第一记录内容组之后,第一获得子单元220可以获得当前用户Us0在每个第一记录内容组中分别对各内容类别的关注分数。
在一个实现方式中,在上述“各内容类别”是当前用户Us0的浏览历史记录中的各条记录内容所属的各个内容类别的情况下,如表一所示,假设记录一至记录十二所属的内容类别分别为类别A1、类别A2、类别A1、类别A2、类别A2、类别A3、类别A4、类别A1、类别A3、类别A2、类别A4、类别A4,则上述“各内容类别”可以包括类别A1、类别A2、类别A3和类别A4。在这种情况下,第一获得子单元220可以获得当前用户Us0在每个第一记录内容组中分别对类别A1至类别A4的关注分数。
在另一个实现方式中,在上述“各内容类别”是预定的多个内容类别的情况下,预设N(N为正整数)个内容类别,如类别A1、类别A2、…、类别AN。在这种情况下,第一获得子单元220可以获得当前用户Us0在每个第一记录内容组中分别对类别A1至类别AN的关注分数。
需要说明的是,若某个第一记录内容组中不存在某个类别的记录内容时,则当前用户Us0在该第一记录内容组中对该类别的关注分数可以设置为0。
这样,通过利用未访问时间间隔对各个记录内容分组,并利用内容类别信息每个分组下的各个记录内容进行分类,有利于样本统计,并能够使得基于此而得到的后续结果(例如,计算的用户对每个类别的关注度等)更为准确。
图4示出了第一获得子单元220的一种可能的示例结构。
如图4所示,第一获得子单元220可以包括分类模块410和关注分数确定模块420。
分类模块410可以将每个第一记录内容组中的记录内容按其对应的内容类别进行分类。
关注分数确定模块420可以针对每个第一记录内容组,获得该第一记录内容组中每个内容类别下的记录内容数目在该第一记录内容组中所有记录内容总数中所占的比例,以确定当前用户Us0在该第一记录内容组中分别对每个内容类别的关注分数。
下面结合图4来描述上述第一获得子单元220的一个应用示例。
以上述表一中的其中包括记录一至记录四的第一记录内容组(以下称为“分组一”)为例,假设从URL1(对应于记录一)提取出的类别为类别A1、从URL2(对应于记录二)提取出的类别为类别A2、从URL3(对应于记录三)提取出的类别为类别A1以及从URL4(对应于记录四)提取出的类别为类别A3。此外,假设上述“各内容类别”为类别A1、类别A2、类别A3和类别A4(其中,类别A1-A4例如可以是预先设定的)。这样,在上述分组一中,分类模块410可以将记录一和记录三分为同一类(对应于类别A1),将记录二单独分为一类(对应于类别A2),以及将记录四单独分为一类(对应于类别A3)。其中,在上述分组一中,没有对应于类别A4的记录。
类似地,可以对其他的各个第一记录内容组进行与上述分类过程相似的分类,这里不再赘述。
于是,关注分数确定模块420可以根据以下公式一来计算当前用户Us0在该第一记录内容组中分别对上述“各内容类别”中的每个内容类别的关注分数。
公式一: V k ( j ) = c k _ j Σ i = 1 n c k _ i
其中,k表示多个第一记录内容组中的第k个,k=1,2,…,NG,NG表示“多个第一记录内容组”所包含的所有第一记录内容组的数量,Vk(j)表示当前用户Us0在第k个第一记录内容组中对内容类别j的关注分数,其中,内容类别j为上述“各内容类别”中的第j个内容类别,ck_j表示第k个第一记录内容组中内容类别j下的记录内容的数目(即,第k个第一记录内容组中对应于内容类别j的记录数目),则表示第k个第一记录内容组中各个内容类别下的所有记录内容的总数目,其中,n为上述“各内容类别”中所包含的类别总数。
例如,在上述分组一中,针对类别A1,可以得到分组一中类别A1的记录内容的数目(即分组一中对应于类别A1的记录数目)为2(即记录一和记录三),而分组一中各个内容类别下的所有记录内容的总数目为4(记录一至记录四),因此,在该例子中,当前用户Us0在上述分组一中对类别A1的关注分数可以为2/4,即0.5。类似地,可以计算当前用户Us0在每个第一记录内容组中分别对每个内容类别的关注分数,这里不再赘述。
由此,第二获得子单元230可以基于当前用户Us0在每个第一记录内容组中分别对各内容类别的关注分数,获得当前用户分别对各内容类别的关注度,以得到当前用户的浏览偏好分布。
图5示出了第二获得子单元230的一种可能的示例结构。
如图5所示,第二获得子单元230可以包括选择模块510、计算模块520和分布获得模块530。
选择模块510可以针对各内容类别中的每一个,利用核密度估计算法,在当前用户Us0在所有第一记录内容组中对该内容类别的关注分数中选择至少一个关注分数。然后,针对各内容类别中的每一个,计算模块520可以根据该内容类别所对应的至少一个关注分数来计算当前用户Us0对该内容类别的关注度。
需要注意的是,在本实施例中,选择模块510所利用的核密度估计算法主要是用于在当前用户Us0在所有第一记录内容组中对该内容类别的多个关注分数中选择一个或多个最具有代表性的代表分数。
这样,基于当前用户Us0对各内容类别的关注度,分布获得模块530可以获得当前用户Us0对上述各内容类别的浏览偏好分布(即上述“当前用户的浏览偏好分布”)。
核密度估计算法能够有效地过滤具有明显噪声特征的样本(在本实施例中,每个样本相当于一个关注分数),同时能够计算某个具体样本对其它样本产生的影响。在本实施例中,选择模块510可以利用均值核密度估计算法来为每个内容类别估算最终的样本值(在本实施例中,最终的样本值相当于上述关注度)。
举例来说,假设当前用户Us0的浏览历史记录中存在大量的记录,将这些记录按照如上文所述的根据未访问时间间隔分组,可以得到多个组,并可以根据上述的核密度估计算法来针对这多个组选出具有代表性的组。也就是说,在当前用户Us0在这多个组中对某特定类别的关注分数中,利用核密度估计算法能够选出更能够代表当前用户Us0兴趣和/或需求的关注分数,而这些选出的关注分数所对应的那些组也就是以上“具有代表性的组”。
例如,假设当前用户Us0的朋友UB某段时间突然使用了当前用户Us0的计算机来浏览某些网站,那么这些浏览记录也将存储在当前用户Us0的浏览历史记录中。然而,当前用户Us0的浏览历史记录中的关于朋友UB的这部分记录比较不能够反映当前用户Us0的兴趣和/或需求,因此,通过上述的分组过程可以将关于朋友UB的这部分记录分为一个组,而再利用核密度估计算法,即可以过滤掉这部分记录。换句话说,通过基于未访问时间间隔的分组以及利用核密度估计算法的筛选,能够过滤掉与浏览历史记录对应的用户(如当前用户)关系不大(或者说不是该用户的典型代表)的那些组。由此,能够使得最终的计算结果更为准确。
下面结合图5来描述上述第二获得子单元230的一个具体应用实例。
选择模块510可以根据如下的公式二来计算每个内容类别对应于每个分组(例如上述第一至第四个分组中的每个)的代表分数。
公式二: P ( V k ( j ) ) = 1 N G Σ h = 1 N G 1 2 πσ 2 e - 1 2 ( V k ( j ) - V h ( j ) ) 2 σ 2 , h ≠ k
其中,P(Vk(j))表示内容类别j对应于分组k的代表分数,Vh(j)表示当前用户Us0在第h个第一记录内容组中对内容类别j的关注分数,其中,j。σ2表示当前用户Us0在各个第一记录内容组中对内容类别j的关注分数的方差,其可以由以下公式三计算获得。
公式三: σ 2 = 1 N G - 1 Σ k = 1 N G ( V k ( j ) - V ( j ) ‾ ) 2
其中,表示V1(j)、V2(j)、…、的均值。
以上文所述的类别A1(作为类别j的示例)为例,已计算获得当前用户Us0在表一中的上数第一个分组(包括记录一至记录四)中对该类别A1的关注分数为0.5(相当于V1(j)=0.5),假设当前用户Us0在表一中的上数第二个分组(包括记录五至记录八)中对该类别A1的关注分数为0.25(相当于V2(j)=0.25)、当前用户Us0在表一中的上数第三个分组(包括记录九至记录十一)中对该类别A1的关注分数为0.33(相当于V3(j)=0.33)、以及当前用户Us0在表一中的上数第四个分组(包括记录十二)中对该类别A1的关注分数为0(相当于V4(j)=0)。由此可根据以上公式二和公式三来计算类别A1对应于各个分组(例如上述第一至第四个分组中的每个)的代表分数,此处省略其详细计算过程。
在该例子中,对应的代表分数越小,表示样本(在本实施例中为关注分数)越具有代表性。例如,假设类别A1对应于分组一、分组二、分组三和分组四的代表分数分别为P1、P2、P3和P4,假设P1>P2>P3>P4,则相当于当前用户Us0在表一中的上数第一个分组中对类别A1的关注分数最小,而在表一中的上数第四个分组中对类别A1的关注分数最大。
然后,针对各内容类别中的每一个,计算模块520例如可以根据该内容类别在各个第一记录内容组中所对应的关注分数中选择最具有代表性的前Nq个,作为该内容类别对应的至少一个关注分数。例如,针对于上述类别A1,计算模块520可以选择对应的代表分数最小的前Nq个关注分数,将这个Nq个关注分数作为类别A1对应的至少一个关注分数。类似地,根据可以得到每个内容类别对应的至少一个关注分数,这里不再详述。
其中,Nq可以根据经验值设定,也可以通过试验的方法来确定,这里不再赘述。
然后,计算模块520例如可以根据如下的公式四来计算当前用户Us0对每个内容类别的关注度。
公式四:
Ave ( j ) = 1 N G Σ k = 1 N G V k ( j ) ( V k ( j ) ∈ MIN N G ( V k ( j ) ) )
其中,Ave(j)表示当前用户Us0对类别j的关注度,表示类别j在各个第一记录内容组中所对应的关注分数对应的代表分数中最小的前Nq个代表分数所对应的Nq个关注分数的集合。
然后,分布获得模块530可以根据如下的公式五来计算当前用户Us0对上述各内容类别的浏览偏好分布。
公式五: D ( j ) = Ave ( j ) Σ i = 1 n Ave ( i )
其中,D(j)的值用于反映当前用户Us0对内容类别j的浏览偏好分布,表示当前用户Us0对n个内容类别(作为上述各内容类别的示例)中每个内容类别的关注度之和。
这样,根据公式五,可以获得当前用户Us0对上述各内容类别的浏览偏好分布。
针对上述各内容类别中的每一个内容类别,将当前用户Us0在所有第一记录内容组中对该内容类别的多个关注分数看作多个样本,则通过利用均值核密度估计算法在当前用户Us0在所有第一记录内容组中对该内容类别的多个关注分数中选择一个或多个最具有代表性的代表分数,相当于实现了对样本的筛选,能够有效地过滤掉噪声样本,进而使得最终计算的当前用户Us0对该内容类别的关注度更加准确,也会使得由此得到的当前用户对各内容类别的浏览偏好分布更为准确。
如图1所示,基于当前用户Us0对上述各内容类别的浏览偏好分布,类别确定单元120可以确定至少一个内容类别。
在根据本发明的实施例的内容提供装置的一种实现方式中,类别确定单元120可以包括如图6所示的相似用户确定子单元610和类别获得子单元620。
其中,相似用户确定子单元610可以基于多个预定用户对各内容类别的浏览偏好分布分别与当前用户对各内容类别的浏览偏好分布之间的相似性,在多个预定用户中确定当前用户的至少一个相似用户。
在一种实现方式中,上述多个预定用户对各内容类别的浏览偏好分布可以是预存在相似用户确定子单元610中的。例如,可以采用与计算当前用户Us0对上述各内容类别的浏览偏好分布的过程相类似的处理来计算每个预定用户对各内容类别的浏览偏好分布,这里不再详述。
图7示出了相似用户确定子单元610的一种可能的示例结构。
如图7所示,相似用户确定子单元610可以包括相似度获得模块710和相似用户选择模块720。
其中,针对多个预定用户中的每一个,相似度获得模块710可以获得该预定用户对各内容类别的浏览偏好分布与当前用户Us0对各内容类别的浏览偏好分布之间的相似度,作为该预定用户与当前用户Us0之间的相似度。
在一个例子中,相似度获得模块710可以包括如图8所示的关注度确定子模块810和相似度确定子模块820。
针对多个预定用户中的每一个,关注度确定子模块810例如可以根据该预定用户对各内容类别的浏览偏好分布来确定该预定用户分别对各内容类别的关注度。其中,关注度确定子模块810所确定的关注度例如可以是相对值。
举例来说,对于某个预定用户Us1来说,根据预定用户Us1对各内容类别的浏览偏好分布,关注度确定子模块810可以根据“预定用户Us1对各内容类别的浏览偏好分布”而得到多个类似上文所述的D(j)的值。换句话说,假设上述“各内容类别”为类别A1、类别A2、类别A3和类别A4(其中,类别A1-A4例如可以是预先设定的),则关注度确定子模块810可以根据“预定用户Us1对各内容类别的浏览偏好分布”而得到预定用户Us1对应于类别A1、类别A2、类别A3和类别A4各自的D(j)。可以将预定用户Us1对应于每个内容类别的D(j)直接作为该内容类别的关注度,或者也可以将预定用户Us1对应于每个内容类别的D(j)乘以一个预定系数后的结果作为该内容类别的关注度。因而,这样获得的关注度实质上是一种相对的关注度,其能够反映预定用户Us1对应于每个内容类别的关注度的相对大小。
以预定用户Us1为例,针对各内容类别中的每一个,相似度确定子模块820可以将预定用户Us1对该内容类别的关注度以及当前用户Us0对该内容类别的关注度这两个关注度中较大的一个作为预定用户Us1对应于该内容类别的第一类分数,而把这两个关注度中较小的一个作为预定用户Us1对应于该内容类别的第二类分数(需要说明的是,如果这两个关注度的数值一样大,则可以将其中任一个作为上述第一类分数,另一个作为上述第二类分数)。这样,相似度确定子模块820可以得到预定用户Us1对应于每个内容类别的第一类分数和第二类分数。
根据预定用户Us1对应于各内容类别的第一类分数之和与预定用户Us1对应于各内容类别的第二类分数之和的比值,相似度确定子模块820可以得到预定用户Us1与当前用户Us0之间的相似度。
假设在一个例子中,当前用户Us0对各内容类别(例如,类别A1、类别A2、类别A3和类别A4)的关注度如表二所示,而预定用户Us1对上述各内容类别的关注度如表三所示。
表二:
内容类别 关注度(当前用户Us0)
类别A1 0.3
类别A2 0.1
类别A3 0.35
类别A4 0.05
表三:
内容类别 关注度(预定用户Us1)
类别Al 0.15
类别A2 0.25
类别A3 0.1
类别A4 0.15
于是,对于类别A1来说,由于当前用户Us0对类别A1的关注度(0.3)大于预定用户Us1对类别A1的关注度(0.15),则相似度确定子模块820可以将当前用户Us0对类别A1的关注度(0.3)确定为预定用户Us1对应于类别A1的第一类分数,而把预定用户Us1对类别A1的关注度(0.15)确定为预定用户Us1对应于类别A1的第二类分数。
类似地,相似度确定子模块820可以将预定用户Us1对类别A2的关注度(0.25)确定为预定用户Us1对应于类别A2的第一类分数,而把当前用户Us0对类别A2的关注度(0.1)确定为预定用户Us1对应于类别A2的第二类分数。
此外,相似度确定子模块820可以将当前用户Us0对类别A3的关注度(0.35)确定为预定用户Us1对应于类别A3的第一类分数,而把预定用户Us1对类别A3的关注度(0.1)确定为预定用户Us1对应于类别A3的第二类分数。
另外,相似度确定子模块820可以将预定用户Us1对类别A4的关注度(0.15)确定为预定用户Us1对应于类别A4的第一类分数,而把当前用户Us0对类别A4的关注度(0.05)确定为预定用户Us1对应于类别A4的第二类分数。
于是,相似度确定子模块820例如可以根据以下公式六来计算预定用户Us1对各内容类别的浏览偏好分布与当前用户Us0对各内容类别的浏览偏好分布之间的相似度,并将该相似度的值最终确定为预定用户Us1与当前用户Us0之间的相似度的值。
公式六: Sim ( Us l , Us 0 ) = Σ i = 1 n Min ( D Us l ( i ) , D Us 0 ( i ) ) Σ i = 1 n Max ( D Us l ( i ) , D Us 0 ( i ) )
其中,表示预定用户Usl对类别i的关注度,l=1,2,…,Np,Np表示预定用户的总数,表示当前用户Us0对类别i的关注度。
于是,预定用户Us1与当前用户Us0之间的相似度为:
Sim ( Us 1 , Us 0 ) = 0.15 + 0.1 + 0.1 + 0.05 0.3 + 0.25 + 0.35 + 0.15 ≈ 38 %
类似地,可以得到其他预定用户与当前用户Us0之间的相似度,这里不再详述。
这样,相似度获得模块710得到了每个预定用户与当前用户Us0之间的相似度。
然后,根据相似度获得模块710所得到的相似度,相似用户选择模块720可以在所有的预定用户之中选择其中与当前用户Us0之间的相似度最高的至少一个(例如3个,或其他数量)预定用户,来作为当前用户Us0的至少一个相似用户。
其中,至少一个预定用户中“至少一个”的数量可以是预设的,其并不限于以上例子中的数量3,也可以是其他数量。例如,至少一个预定用户中“至少一个”的数量可以根据经验值来设定,也可以通过试验的方法来确定,或者也可以根据实际需求来确定,这里不再详述。
例如,假设共有10个预定用户Us1、Us2、Us3、Us4、Us5、Us6、Us7、Us8、Us9和Us10,并设这10个预定用户与当前用户Us0之间的相似度分别为38%、25%、51%、33%、56%、36%、73%、22%、21%和18%,则与当前用户Us0之间的相似度最高的前3个预定用户分别是预定用户Us7、Us5和Us3。于是,相似用户选择模块720可以将预定用户Us7、Us5和Us3确定为当前用户Us0的3个相似用户,作为当前用户Us0的至少一个预定用户。
参考图6,在相似用户确定子单元610确定了当前用户Us0的至少一个相似用户之后,类别获得子单元620可以基于确定的上述至少一个相似用户的浏览偏好分布来获得上述至少一个相似用户最关注的前N1个内容类别。其中,N1为正整数,其可以根据经验值来设定,也可以通过试验的方法来确定,或者也可以根据实际需求来确定,这里不再详述。需要说明的是,相似用户的浏览偏好分布即是指相似用户对各个内容类别的浏览偏好分布。
例如,对于每个内容类别,将上述至少一个相似用户各自对该内容类别的关注度(例如上文所述的相对关注度)加权相加,并将所得到的和作为上述至少一个相似用户对该内容类别的总的关注度。其中,在进行加权相加的过程中,每个相似用户对应的关注度的权重例如可以相等(如全部为1),也可以根据每个相似用户与当前用户Us0之间的相似度的高低来设定其权重的大小(例如,相似度越高,权重越大)。这样,可以得到上述至少一个相似用户对每一个内容类别的总的关注度,可以挑选对应的总的关注度的值最大的前N1个所对应的内容类别来作为上述至少一个相似用户最关注的前N1个内容类别。
在根据本发明的实施例的内容提供装置的另一种实现方式中,类别确定单元120也可以基于当前用户Us0对上述各内容类别的浏览偏好分布确定当前用户最关注的前N2个内容类别,作为至少一个内容类别;其中,N2为正整数。例如,根据当前用户Us0对上述各内容类别的浏览偏好分布中,当前用户Us0对各个内容类别的关注度中,类别确定单元120可以将其中关注度最大的前N2个关注度对应的N2个内容类别作为当前用户Us0最关注的至少一个内容类别。
这样,通过获得单元110和类别确定单元120的处理,可以确定至少一个内容类别(例如,上述至少一个相似用户最关注的前N1个内容类别,或当前用户Us0最关注的至少一个内容类别)。然后,如图1所示,结果确定单元130可以将与上述至少一个内容类别对应的记录内容确定为搜索结果来提供给当前用户Us0
下面结合图9来描述根据本发明的实施例的内容提供装置的另一个示例。
在如图9所示的例子中,内容提供装置900除了包括获得单元910、类别确定单元920以及结果确定单元930之外,还包括用于预先获得多个预定用户对各内容类别的浏览偏好分布的预处理单元940。
如图9所示,在内容提供装置900中,获得单元910例如可以具有与上文中结合图1-5中的任一个所描述的获得单元110或其组成部件相同的结构和功能,并能够达到相类似的技术效果,这里不再赘述。
此外,在内容提供装置900中,类别确定单元920可以包括相似用户确定子单元922和类别获得子单元924。
这样,在获得单元910获得了当前用户的浏览偏好分布之后,相似用户确定子单元922可以基于当前用户对各内容类别的浏览偏好分布分别与预处理单元940获得的每个预定用户对各内容类别的浏览偏好分布之间的相似性,在多个预定用户中确定当前用户的至少一个相似用户。然后,类别获得子单元924可以根据至少一个相似用户的浏览偏好分布,获得至少一个相似用户最关注的前N1个内容类别。由此,结果确定单元930可以将与至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户。
其中,相似用户确定子单元922例如可以具有与上文中结合图6-8中的任一个所描述的相似用户确定子单元610或其组成部件相同的结构和功能,以及类别获得子单元924可以具有与上文中结合图6所描述的类别获得子单元620或其组成部件相同的结构和功能,并分别能够达到相类似的技术效果,这里不再赘述。
此外,结果确定单元930例如可以具有与上文中结合图1所描述的结果确定单元130或其组成部件相同的结构和功能,并能够达到相类似的技术效果,这里也不再赘述。
其中,预处理单元940例如可以采用与计算当前用户Us0对上述各内容类别的浏览偏好分布的过程相类似的处理来预先获得多个预定用户中的每个预定用户对各内容类别的浏览偏好分布的,并能够达到相类似的效果。
在根据本发明的实施例的内容提供装置的一种实现方式中,预处理单元940可以包括如图10所示的第二分组子单元1010、第三获得子单元1020以及第四获得子单元1030。
其中,第二分组子单元1010可以基于多个预定用户中的每一个的浏览历史记录中的未访问时间间隔,对该预定用户的浏览历史记录中的记录内容进行分组,以得到该预定用户对应的多个第二记录内容组。其中,第二分组子单元1010的具体处理过程例如可以参考上文中结合图2和/或图3所描述的第一分组子单元210的处理,并可以达到相类似的功能和效果,这里不再赘述。
第三获得子单元1020可以获得多个预定用户中的每一个在该预定用户对应的每个第二记录内容组中分别对各内容类别的关注分数。其中,第三获得子单元1020的具体处理过程例如可以参考上文中结合图2和/或图4所描述的第一获得子单元220的处理,并可以达到相类似的功能和效果,这里不再赘述。
第四获得子单元1030可以基于多个预定用户中的每一个在该预定用户对应的每个第二记录内容组中分别对各内容类别的关注分数,获得该预定用户分别对各内容类别的关注度,以得到该预定用户对各内容类别的浏览偏好分布。其中,第四获得子单元1030的具体处理过程例如可以参考上文中结合图2和/或图5所描述的第二获得子单元230的处理,并可以达到相类似的功能和效果,这里不再赘述。
通过以上描述可知,上述根据本发明实施例的内容提供装置根据当前用户的浏览历史记录来获得其对各个内容类别的浏览偏好分布,并基于此来确定至少一个内容类别,以将与该至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户,使得用户能够由此确定其可能感兴趣的记录内容。此外,上述根据本发明实施例的内容提供装置由于考虑了用户的浏览历史记录,充分挖掘了用户的浏览历史记录中的相关信息,使得所提供的内容记录能够较符合用户的兴趣和/或兴趣。此外,上述根据本发明实施例的内容提供装置的计算过程相对简单,处理较为高效。
此外,本发明的实施例还提供了一种内容提供方法,该内容提供方法包括:根据当前用户的浏览历史记录获得当前用户的浏览偏好分布,其中,浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;至少基于当前用户的浏览偏好分布来确定至少一个内容类别;以及将与上述至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户。
下面结合图11来描述上述内容提供方法的一种示例性处理。
如图11所示,根据本发明的实施例的内容提供方法的处理流程1100开始于步骤S1110,然后执行步骤S1120。
在步骤S1120中,根据当前用户的浏览历史记录获得当前用户的浏览偏好分布,其中,浏览偏好分布用于反映相应的用户分别对各内容类别的关注度。然后执行步骤S1130。
在一个实现方式中,当前用户的浏览偏好分布例如可以通过如图12所示的步骤S1210-S1230来实现。
如图12所示,在步骤S1210中,基于当前用户的浏览历史记录中的未访问时间间隔,对其浏览历史记录中的记录内容进行分组,以得到多个第一记录内容组。然后执行步骤S1220。
其中,在一个例子中,可以通过如图13所示的步骤S1310-S1320来实现步骤S1210的处理。
如图13所示,在步骤S1310中,在当前用户的浏览历史记录中的未访问时间间隔中选择大于或等于预定时长的未访问时间间隔,作为第一间隔。然后执行步骤S1320。
在步骤S1320中,基于第一间隔来将当前用户的浏览历史记录划分为多个第一记录内容组。
如图12所示,在步骤S1220中,获得当前用户在每个第一记录内容组中分别对各内容类别的关注分数。然后执行步骤S1230。
在一个实现方式中,可以通过如图14所示的步骤S1410-S1420来实现步骤S1220的处理。
如图14所示,在步骤S1410中,将每个第一记录内容组中的记录内容按其对应的内容类别进行分类。然后执行步骤S1420。
在步骤S1420中,针对每个第一记录内容组,获得该第一记录内容组中每个内容类别下的记录内容数目在该第一记录内容组中所有记录内容总数中所占的比例,以确定当前用户在该第一记录内容组中分别对每个内容类别的关注分数。
如图12所示,在步骤S1230中,基于当前用户在每个第一记录内容组中分别对各内容类别的关注分数,获得当前用户分别对各内容类别的关注度,以得到当前用户的浏览偏好分布。
在一个实现方式中,可以通过如图15所示的步骤S1510-S1530来实现步骤S1230的处理。
如图15所示,在步骤S1510中,针对各内容类别中的每一个,利用核密度估计算法,在当前用户在所有第一记录内容组中对该内容类别的关注分数中选择至少一个关注分数。然后执行步骤S1520。
在步骤S1520中,根据各内容类别中的每一个对应的至少一个关注分数来计算当前用户对该内容类别的关注度。然后执行步骤S1530。
在步骤S1530中,根据当前用户分别对各内容类别的关注度来获得当前用户对各内容类别的浏览偏好分布。
如图11所示,在步骤S1130中,至少基于当前用户的浏览偏好分布来确定至少一个内容类别。然后执行步骤S1140。
在一个实现方式中,可以通过如图16所示的步骤S1610-S1620来实现步骤S1130的处理。
如图16所示,在步骤S1610中,基于多个预定用户对各内容类别的浏览偏好分布分别与当前用户的浏览偏好分布之间的相似性,在多个预定用户中确定当前用户的至少一个相似用户。然后执行步骤S1620。
在步骤S1620中,根据至少一个相似用户的浏览偏好分布,获得至少一个相似用户最关注的前N1个内容类别,N1为正整数。
如图11所示,在步骤S1140中,将与上述至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户。然后执行步骤S1150。
处理流程1100结束于步骤S1150。
需要说明的是,步骤S1120中所执行的处理例如可以与上文中结合图1-5中的任一个所描述的获得单元110或其组成部件的处理相同,步骤S1130中所执行的处理例如可以与上文中结合图1或图6所描述的类别确定单元120或其组成部件的处理相同,以及步骤S1140中所执行的处理例如可以与上文中结合图1所描述的结果确定单元130或其组成部件的处理相同,并分别能够达到类似的技术效果,在此不再赘述。
此外,需要说明的是,在以上结合图11-图16所描述的内容提供方法的处理流程和/或其中的处理步骤和/或子步骤中,可以分别采用分别与这些处理流程和/或其中的处理步骤和/或子步骤对应的、上文中结合图1-图10所描述的内容提供装置和/或其中的组成单元和/或子单元等的功能和处理相类似的处理,并能够达到相类似的技术效果,这里不再赘述。
通过以上描述可知,上述根据本发明实施例的内容提供方法根据当前用户的浏览历史记录来获得其对各个内容类别的浏览偏好分布,并基于此来确定至少一个内容类别,以将与该至少一个内容类别对应的记录内容确定为搜索结果提供给当前用户,使得用户能够由此确定其可能感兴趣的记录内容。此外,上述根据本发明实施例的内容提供方法由于考虑了用户的浏览历史记录,充分挖掘了用户的浏览历史记录中的相关信息,使得所提供的内容记录能够较符合用户的兴趣和/或兴趣。此外,上述根据本发明实施例的内容提供方法的计算过程相对简单,处理较为高效。
此外,本发明的实施例还提供了一种电子设备,该电子设备包括如上所述的内容提供装置。在根据本发明的实施例的上述电子设备的具体实现方式中,上述电子设备可以是以下设备中的任意一种设备:计算机;平板电脑;个人数字助理;多媒体播放设备;手机以及电纸书等等。其中,该电子设备具有上述内容提供装置的各种功能和技术效果,这里不再赘述。
上述根据本发明的实施例的内容提供装置中的各个组成单元、子单元、模块等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图17所示的通用机器1700)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图17是示出了可用来实现根据本发明的实施例的内容提供装置和内容提供方法的一种可能的信息处理设备的硬件配置的结构简图。
在图17中,中央处理单元(CPU)1701根据只读存储器(ROM)1702中存储的程序或从存储部分1708加载到随机存取存储器(RAM)1703的程序执行各种处理。在RAM1703中,还根据需要存储当CPU1701执行各种处理等等时所需的数据。CPU1701、ROM1702和RAM1703经由总线1704彼此连接。输入/输出接口1705也连接到总线1704。
下述部件也连接到输入/输出接口1705:输入部分1706(包括键盘、鼠标等等)、输出部分1707(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1708(包括硬盘等)、通信部分1709(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1709经由网络例如因特网执行通信处理。根据需要,驱动器1710也可连接到输入/输出接口1705。可拆卸介质1711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1710上,使得从中读出的计算机程序可根据需要被安装到存储部分1708中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图17所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1711。可拆卸介质1711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1702、存储部分1708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本发明还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的内容提供方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
综上,在根据本发明的实施例中,本发明提供了如下方案但不限于此:
附记1.一种内容提供装置,包括:
获得单元,其用于根据当前用户的浏览历史记录获得所述当前用户的浏览偏好分布,其中,所述浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;
类别确定单元,其用于至少基于所述当前用户的浏览偏好分布来确定至少一个内容类别;以及
结果确定单元,其用于将与所述至少一个内容类别对应的记录内容确定为搜索结果提供给所述当前用户。
附记2.根据附记1所述的内容提供装置,其中,所述获得单元包括:
第一分组子单元,其用于基于所述当前用户的浏览历史记录中的未访问时间间隔,对其浏览历史记录中的记录内容进行分组,以得到多个第一记录内容组;
第一获得子单元,其用于获得所述当前用户在每个所述第一记录内容组中分别对所述各内容类别的关注分数;以及
第二获得子单元,其用于基于所述当前用户在每个所述第一记录内容组中分别对所述各内容类别的关注分数,获得所述当前用户分别对所述各内容类别的关注度,以得到所述当前用户的浏览偏好分布。
附记3.根据附记2所述的内容提供装置,其中,所述第一分组子单元包括:
间隔选择模块,其用于在所述当前用户的浏览历史记录中的未访问时间间隔中选择大于或等于预定时长的未访问时间间隔,作为第一间隔;以及
划分模块,其用于基于所述第一间隔来将所述当前用户的浏览历史记录划分为多个第一记录内容组。
附记4.根据附记2或3所述的内容提供装置,其中,所述第一获得子单元包括:
分类模块,其用于将每个所述第一记录内容组中的记录内容按其对应的内容类别进行分类;以及
关注分数确定模块,其用于针对每个所述第一记录内容组,获得该第一记录内容组中每个内容类别下的记录内容数目在该第一记录内容组中所有记录内容总数中所占的比例,以确定所述当前用户在该第一记录内容组中分别对每个内容类别的关注分数。
附记5.根据附记2-4中任一项所述的内容提供装置,其中,所述第二获得子单元包括:
选择模块,其用于针对所述各内容类别中的每一个,利用核密度估计算法,在所述当前用户在所有所述第一记录内容组中对该内容类别的关注分数中选择至少一个关注分数;
计算模块,其用于根据所述各内容类别中的每一个对应的所述至少一个关注分数来计算所述当前用户对该内容类别的关注度;以及
分布获得模块,其用于根据所述当前用户分别对所述各内容类别的关注度来获得所述当前用户对所述各内容类别的浏览偏好分布。
附记6.根据附记1-5中任一项所述的内容提供装置,其中,所述类别确定单元包括:
相似用户确定子单元,其用于基于多个预定用户对所述各内容类别的浏览偏好分布分别与所述当前用户的浏览偏好分布之间的相似性,在所述多个预定用户中确定所述当前用户的至少一个相似用户;以及
类别获得子单元,其用于根据所述至少一个相似用户的浏览偏好分布,获得所述至少一个相似用户最关注的前N1个内容类别,N1为正整数。
附记7.根据附记6所述的内容提供装置,还包括用于预先获得所述多个预定用户对所述各内容类别的浏览偏好分布的预处理单元,其中,所述预处理单元包括:
第二分组子单元,其用于基于所述多个预定用户中的每一个的浏览历史记录中的未访问时间间隔,对该预定用户的浏览历史记录中的记录内容进行分组,以得到该预定用户对应的多个第二记录内容组;
第三获得子单元,其用于获得所述多个预定用户中的每一个在该预定用户对应的每个所述第二记录内容组中分别对所述各内容类别的关注分数;以及
第四获得子单元,其用于基于所述多个预定用户中的每一个在该预定用户对应的每个所述第二记录内容组中分别对所述各内容类别的关注分数,获得该预定用户分别对所述各内容类别的关注度,以得到该预定用户对所述各内容类别的浏览偏好分布。
附记8.根据附记6或7所述的内容提供装置,其中,所述相似用户确定子单元包括:
相似度获得模块,其用于获得所述多个预定用户中的每一个对所述各内容类别的浏览偏好分布与所述当前用户对所述各内容类别的浏览偏好分布之间的相似度,作为该预定用户与所述当前用户之间的相似度;以及
相似用户选择模块,其用于选择与所述当前用户之间的相似度最高的至少一个所述预定用户,作为所述当前用户的至少一个相似用户。
附记9.根据附记8所述的内容提供装置,其中,所述相似度获得模块包括:
关注度确定子模块,其用于根据所述多个预定用户中的每一个对所述各内容类别的浏览偏好分布确定该预定用户分别对所述各内容类别的关注度;以及
相似度确定子模块,其用于针对所述多个预定用户中的每一个和所述各内容类别中的每一个,将该预定用户对该内容类别的关注度以及所述当前用户对该内容类别的关注度中的较大值和较小值分别作为该预定用户对应于该内容类别的第一类分数和第二类分数,并根据该预定用户对应于所述各内容类别的第一类分数之和与该预定用户对应于所述各内容类别的第二类分数之和的比值来确定该预定用户与所述当前用户之间的相似度。
附记10.根据附记1-5中任一项所述的内容提供装置,其中,所述类别确定单元用于:
基于所述当前用户的浏览偏好分布确定所述当前用户最关注的前N2个内容类别,作为所述至少一个内容类别;其中,N2为正整数。
附记11.一种内容提供方法,包括:
根据当前用户的浏览历史记录获得所述当前用户的浏览偏好分布,其中,所述浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;
至少基于所述当前用户的浏览偏好分布来确定至少一个内容类别;以及
将与所述至少一个内容类别对应的记录内容确定为搜索结果提供给所述当前用户。
附记12.根据附记11所述的内容提供方法,其中,获得所述当前用户的浏览偏好分布的步骤包括:
基于所述当前用户的浏览历史记录中的未访问时间间隔,对其浏览历史记录中的记录内容进行分组,以得到多个第一记录内容组;
获得所述当前用户在每个所述第一记录内容组中分别对所述各内容类别的关注分数;以及
基于所述当前用户在每个所述第一记录内容组中分别对所述各内容类别的关注分数,获得所述当前用户分别对所述各内容类别的关注度,以得到所述当前用户的浏览偏好分布。
附记13.根据附记12所述的内容提供方法,其中,所述多个第一记录内容组通过如下方式获得:
在所述当前用户的浏览历史记录中的未访问时间间隔中选择大于或等于预定时长的未访问时间间隔,作为第一间隔;以及
基于所述第一间隔来将所述当前用户的浏览历史记录划分为多个第一记录内容组。
附记14.根据附记12或13所述的内容提供方法,其中,获得所述当前用户在每个所述第一记录内容组中分别对所述各内容类别的关注分数的步骤包括:
将每个所述第一记录内容组中的记录内容按其对应的内容类别进行分类;以及
针对每个所述第一记录内容组,获得该第一记录内容组中每个内容类别下的记录内容数目在该第一记录内容组中所有记录内容总数中所占的比例,以确定所述当前用户在该第一记录内容组中分别对每个内容类别的关注分数。
附记15.根据附记12-14中任一项所述的内容提供方法,其中,获得所述当前用户分别对所述各内容类别的关注度以得到所述当前用户的浏览偏好分布的步骤包括:
针对所述各内容类别中的每一个,利用核密度估计算法,在所述当前用户在所有所述第一记录内容组中对该内容类别的关注分数中选择至少一个关注分数;
根据所述各内容类别中的每一个对应的所述至少一个关注分数来计算所述当前用户对该内容类别的关注度;以及
根据所述当前用户分别对所述各内容类别的关注度来获得所述当前用户对所述各内容类别的浏览偏好分布。
附记16.根据附记11-15中任一项所述的内容提供方法,其中,确定至少一个内容类别的步骤包括:
基于多个预定用户对所述各内容类别的浏览偏好分布分别与所述当前用户的浏览偏好分布之间的相似性,在所述多个预定用户中确定所述当前用户的至少一个相似用户;以及
根据所述至少一个相似用户的浏览偏好分布,获得所述至少一个相似用户最关注的前N1个内容类别,N1为正整数。
附记17.一种电子设备,包括如附记1-10中任一项所述的内容提供装置。
附记18.根据附记17所述的电子设备,其中,所述电子设备是以下设备中的任意一种:
计算机;平板电脑;个人数字助理;多媒体播放设备;手机以及电纸书。
附记19.一种存储有机器可读取的指令代码的程序产品,所述程序产品在执行时能够使所述机器执行根据附记11-16中任一项所述的内容提供方法。
附记20.一种计算机可读存储介质,其上存储有根据附记19所述的程序产品。

Claims (10)

1.一种内容提供装置,包括:
获得单元,其用于根据当前用户的浏览历史记录获得所述当前用户的浏览偏好分布,其中,所述浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;
类别确定单元,其用于至少基于所述当前用户的浏览偏好分布来确定至少一个内容类别;以及
结果确定单元,其用于将与所述至少一个内容类别对应的记录内容确定为搜索结果提供给所述当前用户。
2.根据权利要求1所述的内容提供装置,其中,所述获得单元包括:
第一分组子单元,其用于基于所述当前用户的浏览历史记录中的未访问时间间隔,对其浏览历史记录中的记录内容进行分组,以得到多个第一记录内容组;
第一获得子单元,其用于获得所述当前用户在每个所述第一记录内容组中分别对所述各内容类别的关注分数;以及
第二获得子单元,其用于基于所述当前用户在每个所述第一记录内容组中分别对所述各内容类别的关注分数,获得所述当前用户分别对所述各内容类别的关注度,以得到所述当前用户的浏览偏好分布。
3.根据权利要求2所述的内容提供装置,其中,所述第一分组子单元包括:
间隔选择模块,其用于在所述当前用户的浏览历史记录中的未访问时间间隔中选择大于或等于预定时长的未访问时间间隔,作为第一间隔;以及
划分模块,其用于基于所述第一间隔来将所述当前用户的浏览历史记录划分为多个第一记录内容组。
4.根据权利要求2或3所述的内容提供装置,其中,所述第一获得子单元包括:
分类模块,其用于将每个所述第一记录内容组中的记录内容按其对应的内容类别进行分类;以及
关注分数确定模块,其用于针对每个所述第一记录内容组,获得该第一记录内容组中每个内容类别下的记录内容数目在该第一记录内容组中所有记录内容总数中所占的比例,以确定所述当前用户在该第一记录内容组中分别对每个内容类别的关注分数。
5.根据权利要求2-4中任一项所述的内容提供装置,其中,所述第二获得子单元包括:
选择模块,其用于针对所述各内容类别中的每一个,利用核密度估计算法,在所述当前用户在所有所述第一记录内容组中对该内容类别的关注分数中选择至少一个关注分数;
计算模块,其用于根据所述各内容类别中的每一个对应的所述至少一个关注分数来计算所述当前用户对该内容类别的关注度;以及
分布获得模块,其用于根据所述当前用户分别对所述各内容类别的关注度来获得所述当前用户对所述各内容类别的浏览偏好分布。
6.根据权利要求1-5中任一项所述的内容提供装置,其中,所述类别确定单元包括:
相似用户确定子单元,其用于基于多个预定用户对所述各内容类别的浏览偏好分布分别与所述当前用户的浏览偏好分布之间的相似性,在所述多个预定用户中确定所述当前用户的至少一个相似用户;以及
类别获得子单元,其用于根据所述至少一个相似用户的浏览偏好分布,获得所述至少一个相似用户最关注的前N1个内容类别,N1为正整数。
7.根据权利要求6所述的内容提供装置,还包括用于预先获得所述多个预定用户对所述各内容类别的浏览偏好分布的预处理单元,其中,所述预处理单元包括:
第二分组子单元,其用于基于所述多个预定用户中的每一个的浏览历史记录中的未访问时间间隔,对该预定用户的浏览历史记录中的记录内容进行分组,以得到该预定用户对应的多个第二记录内容组;
第三获得子单元,其用于获得所述多个预定用户中的每一个在该预定用户对应的每个所述第二记录内容组中分别对所述各内容类别的关注分数;以及
第四获得子单元,其用于基于所述多个预定用户中的每一个在该预定用户对应的每个所述第二记录内容组中分别对所述各内容类别的关注分数,获得该预定用户分别对所述各内容类别的关注度,以得到该预定用户对所述各内容类别的浏览偏好分布。
8.根据权利要求6或7所述的内容提供装置,其中,所述相似用户确定子单元包括:
相似度获得模块,其用于获得所述多个预定用户中的每一个对所述各内容类别的浏览偏好分布与所述当前用户对所述各内容类别的浏览偏好分布之间的相似度,作为该预定用户与所述当前用户之间的相似度;以及
相似用户选择模块,其用于选择与所述当前用户之间的相似度最高的至少一个所述预定用户,作为所述当前用户的至少一个相似用户。
9.一种内容提供方法,包括:
根据当前用户的浏览历史记录获得所述当前用户的浏览偏好分布,其中,所述浏览偏好分布用于反映相应的用户分别对各内容类别的关注度;
至少基于所述当前用户的浏览偏好分布来确定至少一个内容类别;以及
将与所述至少一个内容类别对应的记录内容确定为搜索结果提供给所述当前用户。
10.一种电子设备,包括如权利要求1-8中任一项所述的内容提供装置。
CN201310118185.1A 2013-04-07 2013-04-07 内容提供装置、内容提供方法以及电子设备 Expired - Fee Related CN104102650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310118185.1A CN104102650B (zh) 2013-04-07 2013-04-07 内容提供装置、内容提供方法以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310118185.1A CN104102650B (zh) 2013-04-07 2013-04-07 内容提供装置、内容提供方法以及电子设备

Publications (2)

Publication Number Publication Date
CN104102650A true CN104102650A (zh) 2014-10-15
CN104102650B CN104102650B (zh) 2017-08-22

Family

ID=51670809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310118185.1A Expired - Fee Related CN104102650B (zh) 2013-04-07 2013-04-07 内容提供装置、内容提供方法以及电子设备

Country Status (1)

Country Link
CN (1) CN104102650B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935633A (zh) * 2015-04-24 2015-09-23 北京金山安全软件有限公司 一种信息发布方法及服务设备
CN112102038A (zh) * 2020-09-16 2020-12-18 汤涛 一种基于大数据的直播电商平台用户访问数据库的优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101946249A (zh) * 2008-02-13 2011-01-12 微软公司 使用相关用户的数据来增强web搜索
CN103235824A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据浏览网页确定用户感兴趣的网页文本的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101946249A (zh) * 2008-02-13 2011-01-12 微软公司 使用相关用户的数据来增强web搜索
CN103235824A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据浏览网页确定用户感兴趣的网页文本的方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935633A (zh) * 2015-04-24 2015-09-23 北京金山安全软件有限公司 一种信息发布方法及服务设备
CN112102038A (zh) * 2020-09-16 2020-12-18 汤涛 一种基于大数据的直播电商平台用户访问数据库的优化方法

Also Published As

Publication number Publication date
CN104102650B (zh) 2017-08-22

Similar Documents

Publication Publication Date Title
CN106504011B (zh) 一种业务对象的展示方法和装置
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
CN105005582A (zh) 多媒体信息的推荐方法及装置
CN104123332A (zh) 搜索结果的显示方法及装置
CN101079033A (zh) 一种综合搜索结果的排序系统及方法
CN103136683A (zh) 计算产品参考价格的方法、装置及产品搜索方法、系统
CN104699751A (zh) 一种基于搜索词进行搜索推荐的方法和装置
CN103870505A (zh) 一种查询词推荐方法和查询词推荐系统
CN104077415A (zh) 搜索方法及装置
CN105760400A (zh) 一种基于搜索行为的推送消息排序方法及装置
CN104778237A (zh) 一种基于关键用户的个性化推荐方法和系统
CN106484777A (zh) 一种多媒体数据处理方法以及装置
CN102955810B (zh) 一种网页分类方法和设备
CN105138653A (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN106156372A (zh) 一种互联网网站的分类方法及装置
CN103106262A (zh) 文档分类、支持向量机模型生成的方法和装置
CN106980667B (zh) 一种给文章标注标签的方法和装置
CN105468628A (zh) 一种排序方法及装置
CN106202474A (zh) 一种对象推荐方法和装置
CN104503988A (zh) 搜索方法及装置
CN105373546A (zh) 一种用于知识服务的信息处理方法及系统
CN105022807A (zh) 信息推荐方法及装置
CN107644050A (zh) 一种基于solr的Hbase的查询方法及装置
CN103885977A (zh) 一种网页数据的分类方法、装置和系统
CN103262079A (zh) 检索装置、检索方法、检索程序、及存储该程序的计算机可读取记录介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170822

Termination date: 20180407