CN104376058B

CN104376058B - 用户兴趣模型更新方法及相关装置

Info

Publication number: CN104376058B
Application number: CN201410624042.2A
Authority: CN
Inventors: 涂丹丹; 许可
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2018-04-27
Anticipated expiration: 2034-11-07
Also published as: CN104376058A

Abstract

本发明实施例公开了用户兴趣模型更新方法及相关装置。用户兴趣模型通过概念层次树表示，概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇；方法包括：将用户的操作行为转化为文本，从文本中提取出兴趣关键词；对兴趣关键词聚类，得到至少一个兴趣类；使用聚类得到的兴趣类更新概念层次树。可见，在本发明实施例中，根据用户的操作行为提取兴趣关键词，对新增信息(兴趣关键词)进行聚类，使新增信息不至于杂乱无序得存在于用户兴趣模型中。新增信息即使较多，但聚类后，得到的类别的数目要远小于新增信息的数目，从而可减少对用户兴趣表达的准确度的影响。

Description

用户兴趣模型更新方法及相关装置

技术领域

本发明涉及通信技术领域，具体涉及用户兴趣模型更新方法及相关装置。

背景技术

用户推荐装置可向用户自动推荐可能感兴趣的网站、文章、新闻、商品等推荐信息。当前通信领域的用户推荐装置的推荐过程(例如数据分析平台、推送平台)一般包含用户建模、项目匹配和推荐输出三个阶段。其中，用户兴趣建模在很大程度上决定了推荐的成功率；用户兴趣建模是获取和维护与用户兴趣、需求或习惯相关的知识的过程，其结果将产生一个表示用户特有兴趣和需求的用户兴趣模型。

当用户兴趣发生改变时，用户兴趣模型也需要进行相应的更新。用户兴趣建模更新的一种现有方式是从用户反馈中抽取新信息添加到用户兴趣模型中以更新用户兴趣模型。在增加的新信息的数量比较多的情况下，用户兴趣模型对用户兴趣表达的准确度就会降低，进而向用户推荐的匹配项的精准度就会受到影响。

发明内容

本发明的目的在于提供用户模型更新方法及相关装置，以解决在增加的新信息的数量比较多的情况下，用户兴趣模型对用户兴趣表达的准确度就会降低的问题。

本发明提供如下技术方案：

根据本发明的第一方面，提供用户兴趣模型更新方法，所述用户兴趣模型通过概念层次树结构表示，所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇；

所述方法包括：

将用户的操作行为转化为文本，从文本中提取出关键词，所述关键词为兴趣关键词；

对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

使用聚类得到的兴趣类更新所述概念层次树。

结合第一方面，在第一种可能的实现方式中，所述用户兴趣模型包括短期兴趣模型和长期兴趣模型；所述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类被记录为归属于所述短期兴趣模型；所述概念层次树中的兴趣簇被记录为归属于所述长期兴趣模型，或者，所述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类被记录为归属于所述长期兴趣模型。

结合第一方面或第一方面第一种可能的实现方式，在使用聚类得到的兴趣类更新所述概念层次树之后，所述方法还包括：确定更新后的概念层次树中所述聚类得到的兴趣类所归属的兴趣簇；其中，确定出的兴趣簇表示为增量兴趣簇；使用所述增量兴趣簇更新所述更新后的概念层次树。

结合第一方面第二种可能的实现方式，在第三种可能的实现方式中，每个兴趣类对应有持续时长和关注度，所述关注度由该兴趣类下包含的各兴趣关键词的出现次数所决定，所述持续时长用于表征该兴趣类存在的时间跨度和在所述时间跨度内用户操作行为涉及该兴趣类的频率；所述时间跨度包括用户操作行为首次涉及所述兴趣类的时间与用户操作行为最后一次涉及所述兴趣类的时间。

结合第一方面第三种可能的实现方式，在第四种可能的实现方式中，在所述概念层次树中不存在与所述聚类得到的兴趣类同名的兴趣类时，所述使用聚类得到的兴趣类更新所述概念层次树包括：在所述概念层次树中添加所述聚类得到的兴趣类及其下属的兴趣关键词。

结合第一方面第四种可能的实现方式，在第五种可能的实现方式中，在所述概念层次树中添加所述聚类得到的兴趣类及其下属的兴趣关键词之后，所述方法还包括：将所添加的、所述聚类得到的兴趣类记录为归属于短期兴趣模型。

结合第一方面第三种可能的实现方式，在第六种可能的实现方式中，在所述概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类时，所述使用聚类得到的兴趣类更新所述概念层次树包括：将所述聚类得到的兴趣类与所述同名的兴趣类合并，得到合并后的兴趣类；更新所述合并后的兴趣类对应的持续时长及关注度。

结合第一方面第六种可能的实现方式，在第七种可能的实现方式中，在使用聚类得到的兴趣类更新所述概念层次树之后，所述方法还包括：在合并后的兴趣类的持续时长达到转换阈值时，将持续时长达到转换阈值的所述兴趣类记录为归属于长期兴趣模型。

结合第一方面第三种可能的实现方式，在第八种可能的实现方式中，所述概念层次树中已存在的兴趣簇和所述增量兴趣簇各自均对应关注度，所述已存在的兴趣簇对应的关注度由所述已存在的兴趣簇下包含的各兴趣类的关注度所决定；所述增量兴趣簇对应的关注度由所述增量兴趣簇下包含的各兴趣类的关注度所决定。

结合第一方面第八种可能的实现方式，在第九种可能的实现方式中，在所述更新后的概念层次树中不存在与所述增量兴趣簇同名的兴趣簇时，所述使用所述增量兴趣簇更新所述更新后的概念层次树包括：向所述更新后的概念层次树中添加所述增量兴趣簇。

结合第一方面第八种可能的实现方式，在第十种可能的实现方式中，在所述更新后的概念层次树中存在与所述增量兴趣簇同名的兴趣簇时，所述使用所述增量兴趣簇更新所述更新后的概念层次树包括：将所述增量兴趣簇与同名的兴趣簇合并，得到合并后的兴趣簇；所述增量兴趣簇的关注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。

结合第一方面第十种可能的实现方式，在第十一种可能的实现方式中，所述增量兴趣簇表示为u_new，所述u_new的关注度表示为所述增量兴趣簇对应的同名兴趣簇表示为u_o，所述u_o的关注度表示为合并后的兴趣簇的关注度表示为则T表示衰减因子。

结合第一方面第九种或第十种可能的实现方式，在第十二种可能的实现方式中，在向所述更新后的概念层次树中添加所述增量兴趣簇之后，或者，将所述增量兴趣簇与同名的兴趣簇合并之后，所述方法还包括：去除关注度小于最低关注阈值的兴趣簇。

根据本发明的第二方面，提供一种用户推荐方法，包括：

更新用户兴趣模型；

通过所述用户兴趣模型过滤推荐消息；

将所述推荐消息推荐给用户；

所述用户兴趣模型通过概念层次树结构表示，所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇；

所述更新用户兴趣模型包括：

对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

使用聚类得到的兴趣类更新所述概念层次树。

根据本发明的第三方面，提供一种用户兴趣模型更新装置，所述用户兴趣模型通过概念层次树结构表示，所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇；

所述装置包括：

提取单元，用于将用户的操作行为转化为文本，从文本中提取出关键词，所述关键词为兴趣关键词；

聚类单元，用于对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

第一更新单元，用于使用聚类得到的兴趣类更新所述概念层次树。

结合第三方面，在第一种可能的实现方式中，所述用户兴趣模型包括短期兴趣模型和长期兴趣模型；所述装置还包括第一记录单元和第二记录单元，其中：第一记录单元用于，将所述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类记录为归属于所述短期兴趣模型；第二记录单元用于，将所述概念层次树中的兴趣簇记录为归属于所述长期兴趣模型，或者，将所述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类记录为归属于所述长期兴趣模型。

结合第三方面或第三方面第一种可能的实现方式，在第二种可能的实现方式中，所述装置还包括：确定单元，用于在所述第一更新单元使用聚类得到的兴趣类更新所述概念层次树之后，确定更新后的概念层次树中的兴趣类所归属的兴趣簇；其中，确定出的兴趣簇表示为增量兴趣簇；第二更新单元，用于使用所述增量兴趣簇更新所述更新后的概念层次树。

结合第三方面第二种可能的实现方式，在第三种可能的实现方式中，每个兴趣类对应有持续时长和关注度，所述关注度由该兴趣类下包含的各兴趣关键词的出现次数所决定，所述持续时长用于表征该兴趣类存在的时间跨度和在所述时间跨度内用户操作行为涉及该兴趣类的频率；所述时间跨度包括用户操作行为首次涉及所述兴趣类的时间与用户操作行为最后一次涉及所述兴趣类的时间。

结合第三方面第三种可能的实现方式，在第四种可能的实现方式中，所述第一更新单元用于：在所述概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类时，将所述聚类得到的兴趣类与所述同名的兴趣类合并，得到合并后的兴趣类；更新所述合并后的兴趣类对应的持续时长及关注度。

结合第三方面第四种可能的实现方式，在第五种可能的实现方式中，所述第二记录单元用于：在合并后的兴趣类的持续时长达到转换阈值时，将持续时长达到转换阈值的所述合并后的兴趣类记录为归属于长期兴趣模型。

结合第三方面第三种可能的实现方式，在第六种可能的实现方式中，所述概念层次树中已存在的兴趣簇和所述增量兴趣簇各自均对应关注度，所述已存在的兴趣簇对应的关注度由所述已存在的兴趣簇下包含的各兴趣类的关注度所决定；所述增量兴趣簇对应的关注度由所述增量兴趣簇下包含的各兴趣类的关注度所决定。

结合第三方面第六种可能的实现方式，在第七种可能的实现方式中，所述第二更新单元用于：在所述更新后的概念层次树中不存在与所述增量兴趣簇同名的兴趣簇时，向所述更新后的概念层次树中添加所述增量兴趣簇。

结合第三方面第六种可能的实现方式，在第八种可能的实现方式中，所述第二更新单元用于：在所述更新后的概念层次树中存在与所述增量兴趣簇同名的兴趣簇时，将所述增量兴趣簇与同名的兴趣簇合并，得到合并后的兴趣簇；所述增量兴趣簇的关注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。

结合第三方面第七或第八种可能的实现方式，在第九种可能的实现方式中，还包括：去除单元，用于在所述第二更新单元向所述更新后的概念层次树中添加所述增量兴趣簇之后，或者，在所述第二更新单元将所述增量兴趣簇与同名的兴趣簇合并之后，去除关注度小于最低关注阈值的兴趣簇。

根据本发明的第三方面，提供一种用户推荐装置，包括：

用户兴趣模型更新装置，用于更新用户兴趣模型；

过滤装置，用于通过所述用户兴趣模型过滤推荐消息；

推荐装置，用于将所述推荐消息推荐给用户；

所述用户兴趣模型更新装置包括：

可见，在本发明实施例中，根据用户的操作行为提取兴趣关键词，同时对新增信息(兴趣关键词)进行聚类(归类)，使新增信息不至于杂乱无序得存在于用户兴趣模型中。新增信息即使较多，但聚类后，得到的类别的数目要远小于新增信息的数目，从而可减少对用户兴趣表达的准确度的影响。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的通用计算机结构示例图；

图1b为本发明实施例提供的用户兴趣模型示例图；

图2a-2c、图5a-5c为本发明实施例提供的用户兴趣模型更新流程图；

图3为本发明实施例提供的概念层次树叶节点、父节点示例图；

图4a-4b、图6、图8、图9为本发明实施例提供的概念层次树结构示例图；

图7为本发明实施例提供的增量兴趣簇示意图；

图10-13为本发明实施例提供的用户兴趣模型更新装置结构示例图；

图14为本发明实施例提供的用户兴趣模型更新装置或用户推荐装置通用硬件结构示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

项目匹配阶段将以用户兴趣模型为依据，运用各种推荐技术寻找出与其相匹配的项目，然后再推荐输出给用户。

当用户兴趣发生改变时，用户兴趣模型也需要进行相应的更新。用户兴趣模型更新的一种现有方式是从用户反馈中抽取新信息添加到用户模型中以更新用户兴趣模型。更具体的，现有用户模型更新可包括直接的信息增补以及涉及权重调整的信息增补两种类型。

其中，前者只是简单地添加了新信息，不会删除或削减无效的旧信息，这样将导致推荐阶段找出错误的匹配项。

后者会适当调整用户模型中新、旧信息的权重，使反映用户最新偏好的新信息在推荐中起到更为重要的作用，同时无效的旧信息将随其权重的不断减小而最终从模型中被删除。但推荐阶段的匹配性能很容易受到被增加的新信息数量的影响。毕竟向用户推荐的匹配项数量是有限的(一般是5-10个)，在增加的新信息的数量比较多的情况下，向用户推荐的匹配项的精准度就会受到影响。

本发明实施例要求保护用户兴趣模型更新方法。

本方法可由基站、数据分析平台、推送平台等执行。更具体的，可由数据分析平台、推送平台等的服务器执行。

上述基站、服务器作为用户兴趣模型更新方法的执行主体，其通用计算机结构如图1a所示，可包括总线、处理器101、存储器102、通信接口103、输入设备104和输出设备105。处理器101、存储器102、通信接口103、输入设备104和输出设备105通过总线相互连接。处理器101执行存储器102中所存放的程序代码，可执行本发明实施例要求保护的用户兴趣模型更新方法。

上述用户兴趣模型通过概念层次树结构表示。

概念层次树是基于本体论方法构建的。树中高层概念是低层概念的概括。

图1b示出了用户兴趣模型(概念层次树)的一个简单的示例性结构，其概念层次由高到低可包括：兴趣簇、兴趣类、兴趣关键词。一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇。

以图1b所示为例，“世界杯”是“国际足联主席”、“乌龙球”、“帽子戏法”等(兴趣关键词)的上层概念；“足球”是“世界杯”、“中超联赛”等(兴趣类)的上层概念，“运动”是“足球”、“篮球”等(兴趣簇)的上层概念。

需要说明的是，兴趣簇之上还可有更上层的兴趣簇。例如，足球这一兴趣簇，其上还有运动这一兴趣簇。或者说，对于运动这一兴趣簇，足球可视为它的兴趣类。

其中，兴趣簇一般可用于表征用户的长期兴趣方向(长期关注的主题)。兴趣关键词和兴趣类一般用于表征用户的短期兴趣方向(即时兴趣)。

在本发明其他实施例中，用户兴趣模型在逻辑上可包括短期兴趣模型和长期兴趣模型。

其中，概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类被记录为归属短期兴趣模型；

而概念层次树中的兴趣簇则被记录为归属于所述长期兴趣模型。

当然，在一些条件下，兴趣类也可由表征短期兴趣方向转变为表征长期兴趣方向(本文后续会进行相关介绍)，则在此情况下，概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类被记录为归属于长期兴趣模型。

采用短期兴趣方向(模型)和长期兴趣方向(模型)来混合表达用户兴趣，可使用户兴趣的表达更为准确。

下面将介绍用户兴趣模型的具体更新(建立)流程。

请参见图2a，用户兴趣模型更新(建立)可包括如下步骤：

S1：将用户所有操作行为转化为文本，从文本中提取关键词(兴趣关键词)。

用户的所有操作行为会被记录，并转化为文本。

以基站这一执行主体为例，用户的通话、短信、上网行为(例如浏览、点击、评分、评论、购买等)均会被记录，并转化为文本。每隔一定时间，基站会进行用户兴趣模型的更新。例如，每周更新一次。此时，会从一周内记录的文本中提取关键词。

如何转化文本，以及如何提取关键词可参考现有的方式，在此不作赘述。

需要说明的是，评分、评论、购买明显表征了用户的即时兴趣，而浏览、点击则相对不明显(因为用户可能只是无目的的浏览、点击)，因此，本实施例采用了显示加隐示的方式采集用户操作信息。

在本发明其他实施例中，还可对提取出的兴趣关键词进行过滤，以过滤掉常见词语，保留重要的词语。

过滤方式可有多种，例如可采用TF-IDF(term frequency–inverse documentfrequency)的计算方法进行过滤。

TF-IDF实际上是TF*IDF，TF(词频，Term Frequency)表示词条(关键词)在文档d中出现的频率，IDF(逆向文件频率，Inverse Document Frequency)体现的是：如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。

TF可通过下式计算：

式中，n_i,j是某词条(t_i)在某一特定文件d_j中的出现次数，而分母则是在文件d_j中所有字词的出现次数之和，i则表示文件d_j中所有字词中的第i个。

IDF可通过下式计算：

其中，|D|表示语料库中的文件总数，|{j:t_i∈d_j}|表示包含词条t_i的文件数目(即n_i.j≠0的文件数目)。若词条t_i不在语料库中，就会导致被除数为零，因此一般情况下使用1+|{j:t_i∈d_j}|。

t_i对应的权重tfidf_ij＝tf_i,j×idf_i。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

可选择tfidf_ij大于阈值的n个兴趣关键词进行后续的聚类。

S2：对提取出的兴趣关键词进行聚类，得到至少一个兴趣类。

为与用户兴趣模型中已存在的兴趣类相区别，可将步骤S2中通过聚类得到的兴趣类称为新增兴趣类。

其中，每一新增兴趣类包含多个提取出的兴趣关键词。无论是已存在的兴趣类还是新增兴趣类，均会对应特征关键词。

上述特征关键词为兴趣类的名称，特征关键词也是所对应的兴趣类中各兴趣关键词的上层概念。

例如，提取出的兴趣关键词包含皇家马德里、小组赛、国际米兰、梅西、面膜、爽肤水、精油。则会对这些兴趣关键词进行聚类。假定得到两个新增兴趣类，其中一个新增兴趣类包含皇家马德里、小组赛、国际米兰、梅西，其特征关键词为“欧冠”。另一个新增兴趣类包含面膜、爽肤水、精油，该新增兴趣类的特征关键词为“护肤”。

请参见图3，在概念层次树中，兴趣关键词为叶节点(或称为儿节点)，其上的父节点(或称为上层节点)为兴趣类，以特征关键词为兴趣类的名称。

在具体实现时，聚类方式有多种。例如，可采用LDA(Latent DirichletAllocation，隐含狄利克雷分配模型)主题聚类、PLSA(概率潜语义分析)主题聚类，根据LDA或PLSA聚类得到的主题，可作为相应兴趣类的特征关键词。

每一兴趣类会对应一个滑动时间窗，滑动时间窗存储的是该兴趣类的持续时长。

持续时长用于表征兴趣类存在的时间跨度和在时间跨度内用户操作行为涉及兴趣类的频率。

更具体的，时间跨度包括用户操作行为首次涉及兴趣类的时间与用户操作行为最后一次(末次)涉及兴趣类的时间。

例如，用户首次看“足球”(兴趣类)比赛的时间是2014年1月1日，末次看的时间是2014年10月10日。那么2014年1月1日至2014年10月10日就是时间跨度。

而在时间跨度内用户操作行为涉及兴趣类的频率，可参考下例进行理解：在时间跨度2014年1月至2014年10月之间，用户看了27场足球比赛，则在上述时间跨度内，用户操作行为涉及“足球”这一兴趣类的频率为3次/月。

或者说，频率也可表征每隔多长时间用户操作行为涉及兴趣类，仍沿用前例，用户在2014年1月至2014年10月之间看了27场足球比赛，则用户的操作行为涉及兴趣类的频次为0.33月/次。

更具体的，新增兴趣类对应的时间跨度可包括在本更新周期内用户操作行为首次涉及兴趣类的时间与用户操作行为最后一次涉及兴趣类的时间。

新增兴趣类对应的在时间跨度内用户操作行为涉及兴趣类的频率可参考下例进行理解：假定时间跨度为7天，用户看了2场足球比赛，则在上述时间跨度内用户操作行为涉及“足球”这一兴趣类的频率为3.5次/天。

同时，每一兴趣类还对应关注度。可使用兴趣类下的兴趣关键词的出现次数计算兴趣类的关注度。最简单的方式就是将兴趣类下包含的各兴趣关键词的出现次数相加，相加结果即为关注度。或者，也可对出现次数进行加权相加，加权相加结果作为关注度，在此不作赘述。

更具体的，新增兴趣类的关注度是本次更新周期内各兴趣关键词的出现次数的相加结果或加权相加结果。

S3：使用新增兴趣类更新概念层次树。

此时，可分两种情况更新。

第一种情况，概念层次树中没有与新增兴趣类同名的兴趣类。例如，新增兴趣类为“欧冠”，而请参见图1b所示的模型，没有“欧冠”这一兴趣类。在第一种情况下，可直接在概念层次树中添加新增兴趣类“欧冠”及其下属的兴趣关键词(请参见图4a)。

新增兴趣类的持续时长如何确定请参见本文前述记载，在此不作赘述。

也即，请参见图2b，在概念层次树中不存在与所述聚类得到的兴趣类同名的兴趣类时，步骤S3可包括：

S31、在概念层次树中添加聚类得到的兴趣类及其下属的兴趣关键词。

第二种情况，概念层次树中已存在与新增兴趣类同名的兴趣类。例如，得到的新增兴趣类的名称为“欧冠”，而概念层次树中已有“欧冠”这一兴趣类。在此种情况下，可将新增兴趣类与概念层次树中的同名兴趣类进行合并，得到合并后的兴趣类，并更新合并后的兴趣类对应的持续时长及关注度。

也即，请参见图2c，在概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类时，步骤S3可包括：

S32、将聚类得到的兴趣类与同名的兴趣类合并，得到合并后的兴趣类；

合并后的兴趣类包含新增兴趣类下属的兴趣关键词，以及同名的兴趣类下属的兴趣关键词。

例如，新增兴趣类中包含兴趣关键词“小组赛”和“皇家马德里”，其同名兴趣类下包含兴趣关键词“小组赛”、“国际米兰”和“梅西”。则合并后的兴趣类下包含“小组赛”、“皇家马德里”“国际米兰”和“梅西”四个兴趣关键词。

S33、更新合并后的兴趣类对应的持续时长及关注度。

更具体的，合并后的兴趣类对应的时间跨度的更新主要是对用户操作行为最后一次(末次)涉及兴趣类的时间进行更新。

例如，概念层次树中已存在“足球”这一兴趣类，其对应的时间跨度为2014年1月1日至2014年8月10日。而新增“足球”兴趣类对应的时间跨度为2014年11月3日至2014年11月9日。则合并后的兴趣类对应的时间跨度为2014年1月1日至2014年11月9日。

至于合并后的兴趣类所对应的“频率”也需重新计算。沿用前例来讲，假定，用户在2014年1月1日至2014年8月10日之间看了27场足球比赛，在2014年11月3日至2014年11月9日之间看了3场足球比赛。则在2014年1月1日至2014年11月9日之间，用户操作行为涉及“足球”这一兴趣类的频率为3次/月。

而合并后的兴趣类对应的关注度，可为新增兴趣类的关注度与同名兴趣类的关注度之和。

此外，还要更新合并后的兴趣类下各兴趣关键词的出现次数。

例如，新增兴趣类(名称为“欧冠”)中，兴趣关键词“小组赛”的出现次数为10。其同名兴趣类中“小组赛”的出现次数为5，则合并后，“小组赛”的出现次数更新为15。

可见，在本发明实施例中，会对新增信息(兴趣关键词)进行聚类(归类)，使新增信息不至于杂乱无序得存在于用户兴趣模型中。新增信息即使较多，但聚类后，得到的类别的数目要远小于新增信息的数目，从而可减少对用户兴趣表达的准确度的影响。

由于兴趣类一般用于表征用户短期兴趣方向，因此，上述步骤S1-S3一般为短期兴趣模型的更新步骤。

在本发明其他实施例中，在步骤S31之后，上述方法还可包括如下步骤：

将所添加的、聚类得到的兴趣类记录为归属于短期兴趣模型。

而若合并后的兴趣类中持续时长达到转换阈值，则合并后的兴趣类可用于表征用户长期兴趣方向。则可将该兴趣类归属于长期兴趣模型。

因此，在本发明其他实施例中，在步骤S33之后，上述方法还可包括如下步骤：

在合并后的兴趣类的持续时长达到转换阈值时，将持续时长达到转换阈值的兴趣类记录为归属于长期兴趣模型。

举例来讲，转换阈值的时间跨度为3年，频率为3次/月。如合并后的兴趣类(欧冠)的时间跨度达到或超过3年，频率达到或超过3次/月。则请参见图4b(图4b被虚线框起来的部分为长期兴趣模型)，则将“欧冠”这一兴趣类归属于长期兴趣模型。

请参见图5a，在本发明其他实施例中，上述所有实施例中的用户兴趣模型更新(建立)还可包括如下步骤：

S4：确定更新后的概念层次树中兴趣类所归属的兴趣簇。

其中，确定出的兴趣簇可称为增量兴趣簇。

在实际应用中，步骤S4可具体包括：

确定更新后的概念层次树中聚类得到的兴趣类所归属的兴趣簇。例如，聚类得到了三个兴趣类“欧冠”、“世界杯”、“护肤”。可确定上述三个兴趣类所归属的兴趣簇。

或者，步骤S4也可具体包括：

确定更新后的概念层次树中的所有兴趣类所归属的兴趣簇。

也即，为“更新后的概念层次树”中各兴趣类重新确定所归属的兴趣簇。

前述提及了，兴趣簇之上还可有更上层的兴趣簇。例如，足球这一兴趣簇，其上还有运动这一兴趣簇。或者说，对于运动这一兴趣簇，足球可视为它的兴趣类。

则步骤S4还可涵盖：确定更新后的概念层次树中同一层次的兴趣簇所归属的上层兴趣簇。

例如，请参见图4b，步骤S4可用于确定“蓝球”、“足球”、“数码”、“IT产业”、“淘宝”这些兴趣簇所归属的上层兴趣簇。

在具体实施时，可采用与步骤S3类似的聚类算法，例如LDA、PLSA对各兴趣类进行聚类，属于同一类的兴趣类构成一个兴趣簇。

也可采用FPGrowth算法。

FPGrowth算法的思想基于项集、支持度。项的集合称为项集，如果项集I的相对支持度满足预定义的最小支持度阈值，则I是频繁项集。

FPGrowth算法原理是：

假定初始项集I＝{a,b,c,d….},可以组成的事务集T＝{ab,ac,cd，abc…..}，事务集中的每一元素为一个子集/事务，每一子集/事务包含初始项集中的至少两个元素。

例如，子集/事务ab包含初始项集I中的a和b，ab表征a和b在同一文本中出现，同理，子集/事务ac表示a和c在同一文本中出现，以此类推。

事务集中子集所包含的项集元素的最大值可表示为N。以事务集T＝{ab,ac,cd，abc}为例，则N＝3。

现要找到集合S，S中的每一元素为一个子集/事务，每一子集/事务包含初始项集I中的至少两个元素，并且，S中的元素在T里出现的频率都达到一定的阈值。

在本实施例中，初始项集中的元素为兴趣类的名称，事务集中的元素来源于系统记录的所有文本。

例如，初始项集I＝{世界杯、欧冠、中超联赛、数码、IT产业、淘宝、亚马逊}，事务集T＝{世界杯欧冠、世界杯中超联赛、世界杯欧冠中超联赛、数码IT产业、淘宝亚马逊}。

第一步：对I集合里的{a,b,c,d..}和事务集T进行判断，从I中筛选出1阶项集，例如子集L1＝{a,c,d,f,h}，L1中的元素在T里出现的频率均达到一定阈值。

举例来讲，项集I＝{世界杯、欧冠、中超联赛、数码、IT产业、淘宝、亚马逊}，事务集T＝{世界杯欧冠、世界杯中超联赛、世界杯欧冠中超联赛、数码IT产业、淘宝亚马逊}，筛选出的L1＝{世界杯、欧冠、数码、IT产业、淘宝、亚马逊}。

第二步：对L1的元素进行组合，生成2阶候选项集H2＝{ac,ad,df,…fh}，对H2在和事务集T进行判断，从H2中筛选达到阈值的2阶项集，例如2阶项集L2＝{ac,df,dh,fh}。L2中的元素在T里的出现频率均达到一定阈值。

仍沿用前例，L1＝{世界杯、欧冠、数码、IT产业、淘宝、亚马逊}，则H2＝{世界杯欧冠、世界杯数码、世界杯IT产业、世界杯淘宝、世界杯亚马逊、欧冠数码、欧冠IT产业、欧冠淘宝、欧冠亚马逊、数码IT产业……}。

筛选出的L2可为{世界杯欧冠、数码IT产业、淘宝亚马逊}。

按上述方法一直类推下去，直到n阶候选项集中筛选不出满足阈值的子集。

这样就找到了所有满足阈值的集合LS，假定LS＝{ac,df,dh,acd,acdh}，则LS作为概率频繁模式项集。

LS中的元素对应的上层概念可作为兴趣簇的名称。这样就把原始项集中的兴趣类归属到了兴趣簇。可通过预设的匹配列表将LS中的元素与上层概念进行匹配，在此不作赘述。

需要说明的是，ac、dh、acd、acdh对应同一个上层概念。

请参见图6，假定图6中的各兴趣簇的名称在经过FPGrowth算法后得到的LS＝{世界杯欧冠中超联赛、世界杯欧冠、欧冠中超联赛、数码IT产业、淘宝亚马逊}，LS中各元素对应的上层概念分别为“足球”、“科技”、“购物”，并且，“足球”是“世界杯欧冠中超联赛”、“世界杯欧冠”和“欧冠中超联赛”的上层概念。

将对应同一上层概念的兴趣类归属于同一兴趣簇，并且，该兴趣簇的名称即为该上层概念。

沿用前例，请参见图7，将对应“足球”的“世界杯”、“欧冠”和“中超联赛”这三个兴趣类归属于一个增量兴趣簇，并且该增量兴趣簇的名称为“足球”；将“数码”和“IT产业”这两个兴趣类归属于一个增量兴趣簇，并且该兴趣簇的名称为“科技”；将“淘宝”和“亚马逊”这两个兴趣类归属于一个增量兴趣簇，并且该兴趣簇的名称为“购物”。

同时，将概率频繁模式项集中不包含的初始项集元素对应的兴趣类剪除。

例如，LS＝{ac,df,dh,acd,acdh}，I＝{a,b,c,d,e,f,g,h,l},则“b”、“g”、“l”并未包含在LS中，需将“b”、“g”、“l”对应的兴趣类进行剪枝。

综上，采用FPGrowth算法所对应的步骤可包括：

将兴趣类的名称作为初始项集中的元素；

获取事务集，所述事务集中的每一元素为一个子集，每一子集包含所述初始项集中的至少两个元素，表征所述至少两个初始项集元素在同一文本中出现；所述事务集中子集所包含的项集元素的最大值为N；

从所述初始项集中筛选出一阶项集，所述一阶项集中的元素在所述事务集中的出现频率均达到预设频率阈值；

将所述一阶项集中的元素进行组合，得到i+1阶侯选集；所述i+1阶侯选集中每一元素为一个子集，每一子集包含所述初始项集中的i+1个元素；i大于等于1，小于等于N；

在所述i+1阶侯选集中存在在所述事务集中的出现频率达到预设频率阈值的元素时，将所述i+1阶侯选集中出现频率均达到预设频率阈值的元素添加至概率频繁模式项集，将i加1，返回将i阶项集中元素进行组合，得到i+1阶侯选集的步骤；

在所述i+1阶侯选集中不存在在所述事务集中的出现频率达到预设频率阈值的元素时，将概率频繁模式项集中的元素对应的上层概念作为增量兴趣簇的名称，将对应同一上层概念的兴趣类归属于同一增量兴趣簇；

将所述概率频繁模式项集中不包含的初始项集元素所对应的兴趣类剪除。

需要说明的是，在概念层次树包含多层兴趣簇时，可直接将各层的兴趣簇名称作为初始项集中的元素，使用FPGrowth算法进行聚类。

S5：使用增量兴趣簇更新上述“更新后的概念层次树”。

考虑下述两种情况：

第一种情况：用户兴趣模型中不存在同名兴趣簇：则在用户兴趣模型(长期兴趣模型)中添加增量兴趣簇。例如，增量兴趣簇为“足球”、“科技”、“购物”，用户兴趣模型中不存在与“足球”、“科技”、“购物”同名的兴趣簇，则可添加这几个兴趣簇，并将相应的兴趣类节点挂在其下(请参见图8)。

也即，请参见图5b，在更新后的概念层次树中不存在与增量兴趣簇同名的兴趣簇时，步骤S5可包括：

S51、向更新后的概念层次树中添加增量兴趣簇。

在本发明其他实施例中，在步骤S51之后还可包括如下步骤：

将添加的兴趣簇记录为归属于长期兴趣模型。

第二种情况：用户兴趣模型(长期兴趣模型)中已存在同名兴趣簇，例如已存在“足球”、“科技”、“购物”这几个节点，则请参见图5c，步骤S5可包括：

S52、将增量兴趣簇与同名的兴趣簇合并，得到合并后的兴趣簇。增量兴趣簇的关注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。

更具体的，所谓的合并，是将增量兴趣簇下属的兴趣类归属于同名兴趣簇之下。

需要说明的是，可能会发生兴趣类改变归属的情况。例如，请参见图9，“数码”这一兴趣类，原与“淘宝”、“亚马逊”一起归属于“购物”。

本次新增了“IT产业”这一兴趣类。并且，在经过FPGrowth算法后，得到的LS为{世界杯欧冠中超联赛、数码IT产业、淘宝亚马逊}。则“数码”这一兴趣类将由归属于“购物”，改为归属于“科技”。

下面将介绍如何计算增量兴趣簇的关注度和合并后的兴趣簇的关注度。

由于增量兴趣簇下属的各兴趣类都有自己的关注度，可将增量兴趣簇下各兴趣类的关注度叠加，将叠加结果作为增量兴趣簇的关注度。

如将增量兴趣簇表示为u_new，将u_new的关注度表示为将已存在的同名兴趣簇表示为u_o，将u_o的关注度表示为将合并后的兴趣簇的关注度表示为

则可通过计算。

式中的T表示衰减因子。

在本发明其他实施例中，T的取值范围可为[0，1]。

而若概念层次树中无同名兴趣簇。例如，没有“足球”这一兴趣簇名称，则可通过计算(对应步骤S51)。

在本发明其他实施例中，仍请参见图5a，上述所有实施例在步骤S51或S52之后(也即步骤S5)，还可包括如下步骤：

S6：从用户模型中去除关注度小于最低关注阈值的兴趣簇。

兴趣簇下的兴趣类、兴趣关键词也一并去除。例如，足球这一兴趣簇被去除了，足球下的世界杯等兴趣类也将一并去除。

在本发明其他实施例中，还可自适应调整长期兴趣模型和短期兴趣模型在个性化推荐系统中所占的比重。

自适应调整可由衰减因子和最低关注阈值的变化触发。

而衰减因子和最低关注阈值依人工设置而变化。

在本发明其他实施例中，上述所有实施例在更新用户兴趣模型时，还可包括如下步骤：

计算长期兴趣模型和短期兴趣模型所占的比重。

更具体的，可采用最小二乘法来确定长期兴趣模型和短期兴趣模型在个性化推荐系统中所占的比重。

最小二乘法的方式如下：

假定短期兴趣模型中共有N个兴趣类，其中第i个兴趣类的关注度为x_i,而第i个兴趣类所归属的兴趣簇的关注度可表示为y_i。需要注意的是，由于可能多个兴趣类对应同一兴趣簇，例如，第1-3个兴趣类分别是世界杯、欧冠、中超联赛，其均对应足球这一兴趣簇，则x₁至x₃对应的y₁至y₃是相等的。

y_i与x_i之间的关系用y_i＝a₀+a₁x_i表示。可通过最小偏差平方和来获取a₀和a₁的具体取值。

最小偏差平方和用公式表示为：

a₀和a₁即为长期兴趣模型和短期兴趣模型在个性化推荐系统中所占的比重。

系统可将a₀和a₁提供给用户作为参考。

用户可参考系统给出的a₀和a₁值，自行输入数值，以调整长期兴趣模型和短期兴趣模型所占的比重。例如，计算得到的a₀等于0.2，a₁等于0.8。用户可根据需要，将a₀调整为0.3，将a₁调整为0.7。

a₀和a₁的用处之一是，在项目匹配阶段查找出匹配项后，将根据比重将匹配项推荐输出给用户。

例如，长期兴趣模型的比重为0.3，短期兴趣模型的比重为0.7，则推荐给用户的匹配项中，有70％的匹配项对应长期兴趣，而30％的匹配项对应短期兴趣。

前述提及了，在持续时长达到阈值时，兴趣类可由表征短期兴趣方向转化为表征长期兴趣方向。除此之外，还可根据用户设置的a₀和a₁将兴趣类由短期兴趣方向转化为长期兴趣方向：由于关注度与出现次数有关，因此，a₀和a₁确定后，可预测某一兴趣类中的兴趣关键词再出现多少次该兴趣类可由表征短期兴趣方向转变为表征长期兴趣，从而将该兴趣类归属于长期兴趣模型。

本发明还要求保护用户推荐方法，本方法可由基站、数据分析平台、推送平台等执行。更具体的，可由数据分析平台、推送平台等的服务器执行。上述基站、服务器等的通用计算机结构可参见图1a。在此不作赘述。

上述用户推荐方法可包括如下步骤：

更新用户兴趣模型；

通过用户兴趣模型过滤推荐消息；

将推荐消息推荐给用户。

其中，上述用户兴趣模型通过概念层次树结构表示，上述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇；

上述更新用户兴趣模型包括：

将用户的操作行为转化为文本，从文本中提取出关键词，上述关键词为兴趣关键词；

对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

使用聚类得到的兴趣类更新上述概念层次树。具体内容请参见本文前述方法部分的描述，在此不作赘述。

本发明实施例所提供的技术方案，同样也适用于用户特征的分析场景。比如根据用户位置轨迹来分析用户的职业特征的分析场景：

通过对用户位置在不同区域类型的移动轨迹，用户兴趣模型(这里可称为用户位置模型)可表征用户所驻留的位置属性，长期兴趣方向(模型)可表征用户的长期驻留区域、短期兴趣方向(模型)以及可表征用户的短期驻留区域，以此可以找到用户的驻留位置特点并判断其职业特征。同时，通过实时更新，也保证了我们对用户职业特征的有效跟踪和刷新。

与之对应，本发明实施例还要求保护用户兴趣模型更新装置。

请参见图10，上述用户兴趣模型更新装置100可包括：

提取单元1，用于将用户的操作行为转化为文本，从文本中提取出关键词，上述关键词为兴趣关键词；

聚类单元2，用于对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

第一更新单元3，用于使用聚类得到的兴趣类更新上述概念层次树。

具体内容请参见本文前述记载，在此不作赘述。

在本发明其他实施例中，上述所有实施例中的用户兴趣模型可包括短期兴趣模型和长期兴趣模型。

请参见图11，在本发明其他实施例中，上述所有实施例中的用户兴趣模型更新装置100还可包括第一记录单元4和第二记录单元5，其中：

第一记录单元4用于，将上述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类记录为归属于上述短期兴趣模型。

第二记录单元5用于，将上述概念层次树中的兴趣簇记录为归属于上述长期兴趣模型，或者，

将上述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类记录为归属于上述长期兴趣模型。

在本发明其他实施例中，请参见图12，上述所有实施例中的用户兴趣模型更新装置100还可包括：

确定单元6，用于在上述第一更新单元3使用聚类得到的兴趣类更新上述概念层次树之后，确定更新后的概念层次树中的兴趣类所归属的兴趣簇；其中，确定出的兴趣簇表示为增量兴趣簇；

第二更新单元7，用于使用上述增量兴趣簇更新上述更新后的概念层次树。

具体内容请参见本文前述记载，在此不作赘述。

每个兴趣类对应有持续时长和关注度，上述关注度由兴趣类下包含的各兴趣关键词的出现次数所决定，上述持续时长用于表征该兴趣类存在的时间跨度和在上述时间跨度内用户操作行为涉及该兴趣类的频率；上述时间跨度包括用户操作行为首次涉及上述兴趣类的时间与用户操作行为最后一次涉及上述兴趣类的时间。

在本发明其他实施例中，在上述使用聚类得到的兴趣类更新上述概念层次树的方面，上述所有实施例中的第一更新单元3可用于：

在上述概念层次树中不存在与上述聚类得到的兴趣类同名的兴趣类时，在上述概念层次树中添加上述聚类得到的兴趣类及其下属的兴趣关键词。

需要说明的是，在上述概念层次树中不存在与上述聚类得到的兴趣类同名的兴趣类时，上述聚类得到的兴趣类表征用户短期兴趣方向。

相应的，在本发明其他实施例中，在将上述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类记录为归属于上述短期兴趣模型的方面，上述所有实施例中的第一记录单元4可用于：

将所添加的、上述聚类得到的兴趣类记录为归属于短期兴趣模型。

或者，在本发明其他实施例中，在上述使用聚类得到的兴趣类更新上述概念层次树的方面，上述所有实施例中的第一更新单元3可用于：

在上述概念层次树中存在与上述聚类得到的兴趣类同名的兴趣类时，将上述聚类得到的兴趣类与上述同名的兴趣类合并，得到合并后的兴趣类；

更新上述合并后的兴趣类对应的持续时长及关注度。

而若合并后的兴趣类的持续时长达到转换阈值，则上述合并后的兴趣类表征用户长期兴趣方向。

相应的，在本发明其他实施例中，在将表征用户长期兴趣方向的兴趣类记录为归属于上述长期兴趣模型的方面，上述所有实施例中的第二记录单元5可用于：

在合并后的兴趣类的持续时长达到转换阈值时，将持续时长达到转换阈值的上述合并后的兴趣类记录为归属于长期兴趣模型。

上述概念层次树中已存在的兴趣簇和上述增量兴趣簇各自均对应关注度，上述已存在的兴趣簇对应的关注度由上述已存在的兴趣簇下包含的各兴趣类的关注度所决定；上述增量兴趣簇对应的关注度由上述增量兴趣簇下包含的各兴趣类的关注度所决定。

在本发明其他实施例中，在上述使用上述增量兴趣簇更新上述更新后的概念层次树的方面，上述所有实施例中的第二更新单元7用于：

在上述更新后的概念层次树中不存在与上述增量兴趣簇同名的兴趣簇时，向上述更新后的概念层次树中添加上述增量兴趣簇。

或者，上述第二更新单元7可用于：

在上述更新后的概念层次树中存在与上述增量兴趣簇同名的兴趣簇时，将上述增量兴趣簇与同名的兴趣簇合并，得到合并后的兴趣簇；上述增量兴趣簇的关注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。

在本发明其他实施例中，请参见图13，上述所有实施例中的用户兴趣模型更新装置100还可包括：

去除单元8，用于在上述第二更新单元7向上述更新后的概念层次树中添加上述增量兴趣簇之后，或者，在上述第二更新单元7将上述增量兴趣簇与同名的兴趣簇合并之后，去除关注度小于最低关注阈值的兴趣簇。

相应的，本发明实施例还要求保护用户推荐装置，该系统可包括过滤装置、推荐装置和前述的用户兴趣模型更新装置。其中：

用户兴趣模型更新装置100，用于更新用户兴趣模型；

过滤装置，用于通过上述用户兴趣模型过滤推荐消息；

推荐装置，用于将上述推荐消息推荐给用户；

上述用户兴趣模型更新装置100的结构可参见图10-13及相关记载，在此不作赘述。

图14示出了上述用户兴趣模型更新装置或用户推荐装置的一种通用计算机系统结构。上述装置可为主机、网关、用户终端(UE)、基站等。

更具体的，上述装置可140包括总线、处理器141、存储器142、通信接口143、输入设备144和输出设备145。处理器141、存储器142、通信接口143、输入设备144和输出设备145通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器141可以是通用处理器，例如通用中央处理器(CPU)、网络处理器(NetworkProcessor，简称NP)、微处理器等，也可以是特定应用集成电路(application-specificintegrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器142中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他应用程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器142可以是只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器等等。

输入设备144可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏等。

输出设备145可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口143可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

在作为用户兴趣模型更新装置时，处理器141执行存储器142中所存放的程序代码，执行以下操作以更新用户兴趣模型：

对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

使用聚类得到的兴趣类更新所述概念层次树。

其中，用户兴趣模型可通过概念层次树结构表示，概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇。

在本发明其他实施例中，上述用户兴趣模型可包括短期兴趣模型和长期兴趣模型。

上述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类被记录为归属于短期兴趣模型；

而概念层次树中的兴趣簇被记录为归属于长期兴趣模型，或者，概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类被记录为归属于长期兴趣模型。

在本发明其他实施例中，上述所有实施例中的处理器141执行存储器142中所存放的程序代码，还可执行以下操作：

在使用聚类得到的兴趣类更新所述概念层次树之后，确定更新后的概念层次树中聚类得到的兴趣类所归属的兴趣簇；其中，确定出的兴趣簇表示为增量兴趣簇；

使用所述增量兴趣簇更新所述更新后的概念层次树。

兴趣类对应持续时长和关注度。其中，关注度由兴趣类下包含的各兴趣关键词的出现次数所决定，持续时长用于表征所述兴趣类存在的时间跨度和在所述时间跨度内用户操作行为涉及所述兴趣类的频率，时间跨度包括用户操作行为首次涉及所述兴趣类的时间与用户操作行为最后一次涉及所述兴趣类的时间。相关描绘请参见本文方法部分的记载，在此不作赘述。

在本发明其他实施例中，在所述概念层次树中不存在与所述聚类得到的兴趣类同名的兴趣类时，上述所有实施例中的处理器141执行存储器142中所存放的程序代码，所执行的操作“使用聚类得到的兴趣类更新所述概念层次树”可具体包括：

在所述概念层次树中添加所述聚类得到的兴趣类及其下属的兴趣关键词。

此外，在本发明其他实施例中，上述所有实施例中的处理器141执行存储器142中所存放的程序代码，还可执行以下操行：

将所添加的、所述聚类得到的兴趣类记录为归属于短期兴趣模型。

在本发明其他实施例中，在所述概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类时，上述所有实施例中的处理器141执行存储器142中所存放的程序代码，所执行的操作“使用聚类得到的兴趣类更新所述概念层次树”可具体包括：

将所述聚类得到的兴趣类与所述同名的兴趣类合并，得到合并后的兴趣类；

更新所述合并后的兴趣类对应的持续时长及关注度。

若合并后的兴趣类的持续时长达到转换阈值，则所述合并后的兴趣类用于表征用户长期兴趣方向。则相应的，在本发明其他实施例中，上述所有实施例中的处理器141执行存储器142中所存放的程序代码，还可执行以下操行：

在合并后的兴趣类的持续时长达到转换阈值时，将持续时长达到转换阈值的所述兴趣类记录为归属于长期兴趣模型。

在本发明其他实施例中，上述所有实施例中的概念层次树中已存在的兴趣簇和所述增量兴趣簇各自均对应关注度，所述已存在的兴趣簇对应的关注度由所述已存在的兴趣簇下包含的各兴趣类的关注度所决定；所述增量兴趣簇对应的关注度由所述增量兴趣簇下包含的各兴趣类的关注度所决定。

在本发明其他实施例中，在所述更新后的概念层次树中不存在与所述增量兴趣簇同名的兴趣簇时，上述所有实施例中的处理器141执行存储器142中所存放的程序代码，所执行的操作“使用所述增量兴趣簇更新所述更新后的概念层次树”可具体包括：

向所述更新后的概念层次树中添加所述增量兴趣簇。

在本发明其他实施例中，在所述更新后的概念层次树中存在与所述增量兴趣簇同名的兴趣簇时，上述所有实施例中的处理器141执行存储器142中所存放的程序代码，所执行的操作“使用所述增量兴趣簇更新所述更新后的概念层次树”可具体包括：

将所述增量兴趣簇与同名的兴趣簇合并，得到合并后的兴趣簇；所述增量兴趣簇的关注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。

在本发明其他实施例中，上述所有实施例中的增量兴趣簇表示为u_new，所述u_new的关注度表示为所述增量兴趣簇对应的同名兴趣簇表示为u_o，所述u_o的关注度表示为合并后的兴趣簇的关注度表示为则T表示衰减因子。

在本发明其他实施例中，在向所述更新后的概念层次树中添加所述增量兴趣簇之后，或者，将所述增量兴趣簇与同名的兴趣簇合并之后，上述所有实施例中的处理器141执行存储器142中所存放的程序代码，还可执行以下操作：

去除关注度小于最低关注阈值的兴趣簇。

而在作为用户推荐装置时，上述处理器141执行存储器142中所存放的程序代码，可执行以下操作：

更新用户兴趣模型；

通过所述用户兴趣模型过滤推荐消息；

将所述推荐消息推荐给用户；

所述更新用户兴趣模型包括：

对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

使用聚类得到的兴趣类更新所述概念层次树。

具体内容请参见本文前述记载，在此不作赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户兴趣模型更新方法，其特征在于，所述用户兴趣模型通过概念层次树结构表示，所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，一个或多个兴趣关键词归属于同一兴趣类，对应同一上层概念的一个或多个兴趣类归属于同一兴趣簇，并且所述一个或多个兴趣类对应的同一上层概念为所述一个或多个兴趣类归属的兴趣簇的名称；所述兴趣簇用于表征用户的长期兴趣方向；

所述方法包括：

对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

使用聚类得到的兴趣类更新所述概念层次树；

确定更新后的概念层次树中所述聚类得到的兴趣类所归属的兴趣簇；其中，确定出的兴趣簇表示为增量兴趣簇；

使用所述增量兴趣簇更新所述更新后的概念层次树。

2.如权利要求1所述方法，其特征在于，

所述用户兴趣模型包括短期兴趣模型和长期兴趣模型；

所述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类被记录为归属于所述短期兴趣模型；

所述概念层次树中的兴趣簇被记录为归属于所述长期兴趣模型，或者，所述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类被记录为归属于所述长期兴趣模型。

3.如权利要求1所述的方法，其特征在于，每个兴趣类对应有持续时长和关注度，所述关注度由该兴趣类下包含的各兴趣关键词的出现次数所决定，所述持续时长用于表征该兴趣类存在的时间跨度和在所述时间跨度内用户操作行为涉及该兴趣类的频率；

所述时间跨度包括用户操作行为首次涉及所述兴趣类的时间与用户操作行为最后一次涉及所述兴趣类的时间。

4.如权利要求3所述方法，其特征在于，在所述概念层次树中不存在与所述聚类得到的兴趣类同名的兴趣类时，所述使用聚类得到的兴趣类更新所述概念层次树包括：

5.如权利要求4所述的方法，其特征在于，

在所述概念层次树中添加所述聚类得到的兴趣类及其下属的兴趣关键词之后，所述方法还包括：

6.如权利要求3所述方法，其特征在于，在所述概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类时，所述使用聚类得到的兴趣类更新所述概念层次树包括：

更新所述合并后的兴趣类对应的持续时长及关注度。

7.如权利要求6所述方法，其特征在于，在更新所述合并后的兴趣类对应的持续时长及关注度之后，所述方法还包括：

8.如权利要求3所述的方法，其特征在于，所述概念层次树中已存在的兴趣簇和所述增量兴趣簇各自均对应关注度，所述已存在的兴趣簇对应的关注度由所述已存在的兴趣簇下包含的各兴趣类的关注度所决定；所述增量兴趣簇对应的关注度由所述增量兴趣簇下包含的各兴趣类的关注度所决定。

9.如权利要求8所述方法，其特征在于，在所述更新后的概念层次树中不存在与所述增量兴趣簇同名的兴趣簇时，所述使用所述增量兴趣簇更新所述更新后的概念层次树包括：

向所述更新后的概念层次树中添加所述增量兴趣簇。

10.如权利要求8所述方法，其特征在于，在所述更新后的概念层次树中存在与所述增量兴趣簇同名的兴趣簇时，所述使用所述增量兴趣簇更新所述更新后的概念层次树包括：

11.如权利要求10所述的方法，其特征在于，所述增量兴趣簇表示为u_new，所述u_new的关注度表示为所述增量兴趣簇对应的同名兴趣簇表示为u_o，所述u_o的关注度表示为合并后的兴趣簇的关注度表示为则T表示衰减因子。

12.如权利要求9或10所述的方法，其特征在于，在向所述更新后的概念层次树中添加所述增量兴趣簇之后，或者，将所述增量兴趣簇与同名的兴趣簇合并之后，所述方法还包括：去除关注度小于最低关注阈值的兴趣簇。

13.一种用户推荐方法，其特征在于，包括：

更新用户兴趣模型；

通过所述用户兴趣模型过滤推荐消息；

将所述推荐消息推荐给用户；

所述用户兴趣模型通过概念层次树结构表示，所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，对应同一上层概念的一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇；并且所述一个或多个兴趣类对应的同一上层概念为所述一个或多个兴趣类归属的兴趣簇的名称；所述兴趣簇用于表征用户的长期兴趣方向；

所述更新用户兴趣模型包括：

对提取出的兴趣关键词进行聚类，得到至少一个兴趣类；

使用聚类得到的兴趣类更新所述概念层次树；

使用所述增量兴趣簇更新所述更新后的概念层次树。

14.一种用户兴趣模型更新装置，其特征在于，所述用户兴趣模型通过概念层次树结构表示，所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，一个或多个兴趣关键词归属于同一兴趣类，对应同一上层概念的一个或多个兴趣类归属于同一兴趣簇，并且所述一个或多个兴趣类对应的同一上层概念，为所述一个或多个兴趣类归属的兴趣簇的名称；所述兴趣簇用于表征用户的长期兴趣方向；

所述装置包括：

第一更新单元，用于使用聚类得到的兴趣类更新所述概念层次树；

确定单元，用于在所述第一更新单元使用聚类得到的兴趣类更新所述概念层次树之后，确定更新后的概念层次树中的兴趣类所归属的兴趣簇；其中，确定出的兴趣簇表示为增量兴趣簇；

第二更新单元，用于使用所述增量兴趣簇更新所述更新后的概念层次树。

15.如权利要求14所述装置，其特征在于，

所述用户兴趣模型包括短期兴趣模型和长期兴趣模型；

所述装置还包括第一记录单元和第二记录单元，其中：

第一记录单元，用于将所述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类记录为归属于所述短期兴趣模型；

第二记录单元，用于将所述概念层次树中的兴趣簇记录为归属于所述长期兴趣模型，或者，将所述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类记录为归属于所述长期兴趣模型。

16.如权利要求15所述的装置，其特征在于，每个兴趣类对应有持续时长和关注度，所述关注度由该兴趣类下包含的各兴趣关键词的出现次数所决定，所述持续时长用于表征该兴趣类存在的时间跨度和在所述时间跨度内用户操作行为涉及该兴趣类的频率；

17.如权利要求16所述的装置，其特征在于，所述第一更新单元用于：

在所述概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类时，将所述聚类得到的兴趣类与所述同名的兴趣类合并，得到合并后的兴趣类；

更新所述合并后的兴趣类对应的持续时长及关注度。

18.如权利要求17所述装置，其特征在于，所述第二记录单元还用于：

在合并后的兴趣类的持续时长达到转换阈值时，将持续时长达到转换阈值的所述合并后的兴趣类记录为归属于长期兴趣模型。

19.如权利要求16所述的装置，其特征在于，所述概念层次树中已存在的兴趣簇和所述增量兴趣簇各自均对应关注度，所述已存在的兴趣簇对应的关注度由所述已存在的兴趣簇下包含的各兴趣类的关注度所决定；所述增量兴趣簇对应的关注度由所述增量兴趣簇下包含的各兴趣类的关注度所决定。

20.如权利要求19所述装置，其特征在于，所述第二更新单元用于：

在所述更新后的概念层次树中不存在与所述增量兴趣簇同名的兴趣簇时，向所述更新后的概念层次树中添加所述增量兴趣簇。

21.如权利要求19所述装置，其特征在于，所述第二更新单元用于：

在所述更新后的概念层次树中存在与所述增量兴趣簇同名的兴趣簇时，将所述增量兴趣簇与同名的兴趣簇合并，得到合并后的兴趣簇；所述增量兴趣簇的关注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。

22.如权利要求20或21所述的装置，其特征在于，还包括：

去除单元，用于在所述第二更新单元向所述更新后的概念层次树中添加所述增量兴趣簇之后，或者，在所述第二更新单元将所述增量兴趣簇与同名的兴趣簇合并之后，去除关注度小于最低关注阈值的兴趣簇。

23.一种用户推荐装置，其特征在于，包括：

用户兴趣模型更新装置，用于更新用户兴趣模型；

过滤装置，用于通过所述用户兴趣模型过滤推荐消息；

推荐装置，用于将所述推荐消息推荐给用户；

所述用户兴趣模型通过概念层次树结构表示，所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词，对应同一上层概念的一个或多个兴趣关键词归属于同一兴趣类，一个或多个兴趣类归属于同一兴趣簇，并且所述一个或多个兴趣类对应的同一上层概念为所述一个或多个兴趣类归属的兴趣簇的名称；所述兴趣簇用于表征用户的长期兴趣方向；

所述用户兴趣模型更新装置包括：