CN104572734B

CN104572734B - 问题推荐方法、装置及系统

Info

Publication number: CN104572734B
Application number: CN201310503499.3A
Authority: CN
Inventors: 冯扬; 李京生; 孙拔群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2019-04-30
Anticipated expiration: 2033-10-23
Also published as: US9875441B2; CN104572734A; WO2015058558A1; US20160239738A1

Abstract

本发明涉及一种问题推荐方法、装置及系统，方法包括：服务器根据用户的短期兴趣、长期兴趣以及人群兴趣构建用户的兴趣向量，用户的兴趣向量中包括多个兴趣项；根据多个兴趣项由待解决问题集合中获取候选推荐问题；根据点击率模型预估所述用户回答候选推荐问题的概率，并根据预估的概率选取待推荐问题；向客户端推荐所述待推荐问题。本发明可以解决现有技术中推荐兴趣滞后的问题，以及推荐结果不全面、结果单一的现象，也可以提高互动问答平台的问题回答率。

Description

问题推荐方法、装置及系统

技术领域

本发明涉及计算机互联网技术领域，特别是涉及一种问题推荐方法、装置及系统。

背景技术

现在越来越多的互动问答社区为广大用户提供了问答互动平台。其特点是：一些用户作为提问者在社区中提出问题，另一些有能力作答的用户以回答者的身份发现并回答这些问题，解决提问者的疑问；而问题和答案会在平台中沉淀下来，形成知识库，可以为后来具有相同问题的“提问者”直接提供解答。在互动问答社区中，每天会有数以十万级的问题被提出，为了能够让这些问题得到快速有效的回答，就需要一种途径让回答者们能及时地发现符合自己兴趣和能力的问题。问题推荐系统的目的就是向有能力的用户推荐符合其兴趣和能力的问题。

现有的问题推荐方法主要有两类：一类是基于用户兴趣匹配的问题推荐方法，另一类是基于点击（CTR，Click Through Rate）预估的问题推荐方法。

如图1所示，基于用户兴趣匹配的问题推荐，利用离线挖掘，通过用户已有的回答来挖掘用户的兴趣；通过兴趣匹配，为用户推荐匹配其兴趣的待解决问题。如图2所示，基于点击预估的问题推荐，通过历史的曝光日志(记录了哪些问题展示给了哪些用户)与回答日志(记录了哪些问题被哪些用户回答过)，离线训练出点击预测模型；在推荐中，利用该模型预测一个待解决问题展示给一个特定用户后被其回答的概率，根据回答概率度对所有待解决问题排序，取TopN作为推荐结果进行展示。

但是，离线挖掘用户兴趣滞后于用户的兴趣变化，推荐结果中无法体现用户的近期行为所反应出来的兴趣迁移。通过离线计算，从用户的历史回答记录中挖掘出来的兴趣是用户的长期兴趣，这种长期兴趣相对稳定，随时间变化慢，反映用户在较长一段时间内的行为所体现出的兴趣点的累积。但是用户的兴趣是会随着时间迁移（发生变化）的，并且越近的行为对于体现用户兴趣变化的作用越大。传统的离线计算的方式往往是通过定时计算来更新用户兴趣模型，无法做到实时捕捉用户兴趣变化，无法挖掘到用户的近期行为而产生的短期兴趣，从而也就无法在推荐结果中迅速体现。

在基于点击预估的问题推荐系统中，由于待解决问题的数量比较多，不可能针对所有的问题进行计算，因此也会采用用户兴趣匹配的方法，首先对待解决问题进行初步的筛选，仅提取出与用户兴趣相匹配的若干问题作为候选，然后再进行回答概率的预估计算。用户兴趣是依靠对其行为数据的挖掘得到的，无论是基于用户兴趣匹配还是基于点击预估的问题推荐，都需要依靠用户兴趣进行问题和用户兴趣的匹配计算。

但是对于一些不活跃用户而言，由于其行为数据非常少（有些甚至没有），那么这部分用户就无法通过挖掘的手段来获取其用户兴趣，也就无法匹配到兴趣相关的问题；此外，有很大一部分的用户即使能够提取到兴趣，也会产生兴趣稀疏的现象，这些用户的兴趣点过于集中，或者兴趣点很偏僻，很少有相关问题切中该兴趣点，也会造成推荐结果不全面、结果单一的现象。

发明内容

本发明的目的在于，提供一种问题推荐方法、装置及系统，可以解决现有技术中的问题。

本发明实施例提供一种问题推荐方法，包括：服务器根据用户的短期兴趣、长期兴趣以及人群兴趣构建所述用户的兴趣向量，所述用户的兴趣向量中包括多个兴趣项；根据所述多个兴趣项由待解决问题集合中获取候选推荐问题；根据所述点击率模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题；以及向所述客户端推荐所述待推荐问题。

本发明实施例提供一种问题推荐装置，包括：兴趣向量计算模块，用于根据用户的短期兴趣、长期兴趣以及人群兴趣构建所述用户的兴趣向量，所述用户的兴趣向量中包括多个兴趣项；候选推荐问题获取模块，用于根据所述多个兴趣项由待解决问题集合中获取候选推荐问题；待推荐问题获取模块，用于根据所述点击率模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题；以及问题推荐模块，用于向所述客户端推荐所述待推荐问题。

本发明实施例提供一种问题推荐系统，包括客户端以及服务器，所述客户端向所述服务器发送问题推荐请求，所述服务器根据问题推荐请求向所述客户端返回待推荐问题。所述服务器包括：提供兴趣向量计算模块，用于计算所述用户的短期兴趣、长期兴趣、人群兴趣以及建立点击率模型，根据所述用户的短期兴趣、长期兴趣以及人群兴趣构建的所述用户的兴趣向量，所述用户的兴趣向量中包括多个兴趣项；候选推荐问题获取模块，用于根据所述多个兴趣项由待解决问题集合中获取候选推荐问题；待推荐问题获取模块，用于根据所述点击率模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题；以及问题推荐模块，用于向所述客户端推荐所述待推荐问题。

本发明所提出的问题推荐方法、装置及系统通过融合用户的短期兴趣、长期兴趣和人群兴趣来构建用户的兴趣向量，并根据用户的兴趣向量中的兴趣项由待解决问题集合中获取候选推荐问题，再根据点击率模型预估用户回答候选推荐问题的概率，根据预估的概率选取待推荐的问题，并向客户端推荐所述待推荐问题，使得推荐的问题既符合用户的兴趣又是用户回答意愿较高的问题，一方面，解决了现有技术中基于用户兴趣匹配的问题推荐方法中推荐兴趣滞后的问题，以及基于点击预估的问题推荐方法中推荐结果不全面、结果单一的现象，另一方面，可以提高互动问答平台的问题回答率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1为现有技术的一种问题推荐方法的原理示意图；

图2为现有技术的另一种问题推荐方法的原理示意图；

图3为本发明第一实施例中的问题推荐方法的流程示意图；

图4为本发明第二实施例中的问题推荐方法的流程示意图；

图5为本发明第二实施例中的问题推荐方法的原理框图；

图6为图4中步骤S21的具体流程示意图；

图7为用户短期兴趣项的循环队列示意图；

图8为图4中步骤S23的具体流程示意图；

图9为图4中步骤S24的具体流程示意图；

图10为候选推荐问题选取的原理框图；

图11为图4中步骤S25的具体流程示意图；

图12为CTR模型训练和CTR预估的原理框图；

图13为本发明第三实施例中的问题推荐装置的结构示意图；

图14为本发明第四实施例中的问题推荐装置的结构示意图；

图15为图14中短期兴趣计算单元的具体结构示意图；

图16为图14中人群兴趣计算单元的具体结构示意图；

图17为图14中点击率模型建立单元的具体结构示意图；

图18为本发明第五实施例中的问题推荐系统的原理框图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的问题推荐方法及系统其具体实施方式、方法、步骤、结构、特征及其功效，详细说明如下。

本发明中提出的问题推荐方法针对背景技术中的问题，通过实时捕获用户的实时回答记录，计算用户的短期兴趣，解决基于用户兴趣匹配的问题推荐方法中推荐兴趣滞后的问题；通过对用户填写的兴趣或历史回答记录进行人口学统计分析，构建人群兴趣模型，补充用户兴趣，解决基于点击预估的问题推荐方法中推荐结果不全面、结果单一的现象；结合用户的长期兴趣、短期兴趣、人群兴趣构建完整的用户兴趣向量，在待解决问题集合中检索候选推荐问题，并以用户回答率为目的进行CTR预估，为用户推荐符合兴趣并且愿意作答的问题，提高互动问答平台的问题回答率。另外，在该问题推荐方法的基础上搭建了问题推荐系统，为互动问答社区平台提供问题推荐服务。

有关本发明的前述及其技术内容、特点及功效，在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

第一实施例

图3为本发明第一实施例的问题推荐方法的流程示意图。请参照图3，本发明实施例中的问题推荐方法包括：

步骤S11：服务器根据用户的短期兴趣、长期兴趣以及人群兴趣构建所述用户的兴趣向量，所述兴趣向量中包括多个兴趣项。

其中，用户的短期兴趣可以根据用户的实时回答记录获得，通过在线计算用户在预定时长内的短期兴趣，快速感知用户行为体现出的兴趣变化。其中，实时回答记录记录了用户在短期内对哪些问题进行了回答，时间的长短可以由设计人员进行设定。短期兴趣反映用户在较短时间段的行为所体现出的兴趣项的累积，具有相对不稳定、随时间和社会热点变化快、兴趣项比较集中等特点。

用户的长期兴趣可以是通过对历史回答记录进行挖掘得到的用户兴趣，也可以根据存储在服务器或数据库中的各种应用(例如QQ或“问问”)的用户档案资料中用户所填写的兴趣获得。长期兴趣可以反映用户在较长时间段内的行为所体现出的兴趣项的累积，具有相对稳定、随时间变化慢、兴趣项比较分散等特点。其中，历史回答记录记录了哪些用户回答过哪些问题。例如，对用户u1推荐了5个问题a、b、c、d、e；对用户u2也推荐了5个问题c、d、e、f、g，那么问题a、b展示(曝光)给了用户u1，问题e、f展示给了用户u2，问题c、d、e同时展示给了用户u1和u2。假设用户u1回答了问题a、c；用户u2回答了问题c、f，那么在历史回答记录中将记录这种回答行为。

用户的人群兴趣可以依据用户的属性将用户划分为若干人群，针对不同人群挖掘长期兴趣，在用户兴趣稀疏的情况下，利用群体性的兴趣去估计用户的个性化兴趣，根据用户所属人群来补充用户兴趣。其中，用户的属性可以包括年龄、性别、行业、教育程度等等。人群兴趣可以反映具有相同属性的用户构成的人群所具有的长期兴趣，是一个人群基体在较长时间段的相似行为所体现出的兴趣项的累积。

通过对不同来源的用户兴趣(包括用户的长期兴趣、用户的短期兴趣以及人群兴趣)进行兴趣融合，构建出完整的用户兴趣向量。

在问题推荐系统中，CTR表示问题被展示后被用户回答的概率。CTR模型可以根据历史回答记录、历史曝光记录，通过CTR模型训练得到。其中，历史曝光记录记录了哪些问题展示给了哪些用户。例如，对用户u1推荐了5个问题a、b、c、d、e；对用户u2也推荐了5个问题c、d、e、f、g，那么问题a、b曝光给了用户u1，问题e、f曝光给了用户u2，问题c、d、e同时曝光给了用户u1和u2，在历史曝光记录中将会记录这种曝光信息，以及在曝光过程中的场景信息（如曝光时间、展示位置、分页、排序等）。

步骤S12：根据所述兴趣向量中的多个兴趣项由待解决问题集合中获取候选推荐问题。

于此步骤中，根据用户兴趣向量中的兴趣项从待解决问题库中检索出与用户兴趣相关的问题，计算检索出的问题与用户兴趣的相关性，提取出其中相关性最高的若干问题作为候选推荐问题。

步骤S13：根据所述点击率模型预估用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题。

具体的，可以针对用户特征、问题特征以及场景特征，利用CTR模型来预测用户回答候选推荐问题的概率，也就是进行CTR预估，并按回答概率的大小进行排序，提取出其中回答概率最高的若干问题作为待推荐问题。

步骤S14：向所述客户端推荐所选取的待推荐问题。

其中，用户的短期兴趣，候选问题检索和CTR预估为在线计算，人群兴趣模型和CTR模型训练为离线计算。

本实施例提出的问题推荐方法通过融合用户的短期兴趣、长期兴趣和人群兴趣来构建用户的兴趣向量，并根据用户的兴趣向量中的兴趣项由待解决问题集合中获取候选推荐问题，再根据点击率模型预估用户回答候选推荐问题的概率，根据预估的概率选取待推荐的问题，并向客户端推荐所述待推荐问题，使得推荐的问题既符合用户的兴趣又是用户回答意愿较高的问题，一方面，解决了现有技术中基于用户兴趣匹配的问题推荐方法中推荐兴趣滞后的问题，以及基于点击预估的问题推荐方法中推荐结果不全面、结果单一的现象，另一方面，可以提高互动问答平台的问题回答率。

第二实施例

图4为本发明第二实施例的问题推荐方法的流程示意图。图5为本发明第二实施例的问题推荐方法的原理框图，请同时参照图4及图5，本发明实施例中的问题推荐方法包括：

步骤S21：根据所述用户在距离当前时间预定时长内的实时回答记录，计算所述用户的短期兴趣。

可以用兴趣向量表示用户的兴趣，用户的短期兴趣可以对应的用短期兴趣向量来表示，根据每个兴趣项(兴趣关键词或兴趣分类)在短期兴趣向量中的权重计算用户的短期兴趣，例如，用C_u来代表用户u的短期兴趣，C_u以表示为：

其中，t_j为一个兴趣项，w_j ^(C)为兴趣项t_j在短期兴趣向量中的权重。计算一个用户的短期兴趣，就是评价短期兴趣向量中各兴趣项的权重。

计算用户的短期兴趣时，主要考虑两个方面的因素：兴趣项的频率以及兴趣项的实效性。短时间内用户回答问题所涉及的兴趣项出现频率越高，则该兴趣项在向量中的权重越大；用户回答问题据当前时间越久，该问题所涉及兴趣项的权重越低（即权重随时间衰减），当这个时间超出一定的阈值，权重降为0。

出于上述两个因素的考虑，请参照图6，具体的，步骤S21可以包括：

步骤S211，获取用户在距离当前时间预定时长内的实时回答记录。

实时回答记录可以由客户端记录的问题回答日志中获取。

步骤S212，根据所述实时回答记录，提取每个问题对应的兴趣项以及回答每个问题的时间，以回答每个问题的时间为所述问题对应的兴趣项的时间戳，以所述兴趣项为元素并根据其对应的时间戳构建循环队列。

在用户的短期兴趣计算中，可以为每个有行为的用户建立一个固定长度L的循环队列，队列每个元素对应一个兴趣项以及该兴趣项的时间戳，并记录最新兴趣项的位置，如图7所示。

当一个用户有新回答行为产生时，会提取该问题对应的兴趣项及行为的时间戳，插入到最新兴趣项的前一个位置（沿时间减少的方向进行插入），并改变最新兴趣项位置（向插入方向移动）。

步骤S213，根据所述循环队列计算每个兴趣项对应的权重。

在计算用户的短期兴趣时，从最新兴趣项位置开始，沿着与插入相反的方向进行遍历，统计兴趣项的频率以及根据时间戳计算权重。

具体的，可以根据每个兴趣项在所述循环队列中的位置，计算每个兴趣项出现在该位置上时的时间衰减函数以及每个兴趣项出现在该位置上时的时间戳与当前时间的时长；根据每个兴趣项出现在该位置上时的时间衰减函数以及每个兴趣项出现在该位置上时的时间戳与当前时间的时长，计算每个兴趣项对应的权重。

其中为兴趣项t_j出现在位置pos上的时间衰减函数，T_j,pos为位置pos上的兴趣项t_j距离当前时间点的时长，常数α和β用于调节时间衰减的幅度和半衰期；τ为兴趣项的有效期阈值。

步骤S214，根据每个兴趣项对应的权重计算所述用户的短期兴趣。

也就是将公式(2)中得到的w_j ^(C)，代入公式(1)来计算用户的短期兴趣C_u。

步骤S22：根据历史回答记录，获取所述用户的长期兴趣。

步骤S23：根据历史回答记录、用户的属性以及与每种用户属性对应的兴趣项出现的概率，计算所述用户的人群兴趣。

请参照图8，步骤S23可以包括：

步骤S231，根据用户的属性组合，将所有用户分为多个不同类型的人群；

步骤S232，计算与用户的属性组合所对应的每个兴趣项出现的概率；

步骤S233，根据所述概率，计算与每种类型的人群对应的兴趣项的权重；

步骤S234，根据所述用户的属性，查找与所述用户对应的人群；

步骤S235，根据该人群对应的兴趣项的权重，计算所述用户的人群兴趣。

具体来讲，每个用户都具有一定的属性，当这些属性取不同值并组合在一起的时候，就构成不同类型的人群（例如：“25～27周岁，男性，大学本科学历、IT从业者”）。人群兴趣建模通过分人群统计兴趣项，构建人群兴趣模型，用来估计当用户属于某特定人群的情况下，最可能具有哪些兴趣项，以及这些兴趣项的权重是多少。

如果用D代表人群兴趣，r_i表示用户的第i个属性取值，模型可以表示为：

D＝{P(t_j|r₁，r₂，...，r_M)|j＝1，2，...N} (3)

P(t_j│r₁,r₂,…,r_M)的含义是当用户属性组合r₁,r₂,…,r_M出现时，兴趣项t_j出现的概率。人群兴趣建模就是对所有的兴趣项建立这样的概率模型，然后建立人群到兴趣项的倒排表，并在倒排表内按概率大小进行排序，过滤掉概率值较低的兴趣项。

直接统计P(t_j│r₁,r₂,…,r_M)非常耗费空间（例如：当兴趣项为百万级，人群有上千个的时候，需要有上十亿的存储单元用于记录兴趣项的频率），但是如果假设用户属性的取值相互独立，则可利用贝叶斯定律来简化模型：

在公式(4)中P(r₁,r₂,…,r_M│t_j)和P(r₁,r₂,…,r_M)为两个联合概率，由于属性之间相互独立，则有：

公式(4)、(5)、(6)中的P(t_j)表示兴趣项t_j的概率，P(r_i│t_j)为在兴趣项t_j出现的条件下第i个属性取值为r_i的条件概率，P(r_i)为第i个属性取值为r_i的概率。P(t_j)、P(r_i│t_j)、P(r_i)均可以直接在历史回答记录中统计得到，然后利用公式(4)计算所有每个属性取值组合下的P(t_j│r₁,r₂,…,r_M)，建立倒排，并进行排序和过滤。

在建立了人群兴趣模型后，对于用户u，只要通过属性信息组合就可以知道其所属人群，用该人群的兴趣项集合构建用户u的人群兴趣向量：

其中D_u表示用户u的人群兴趣向量，w_i ^(D)表示兴趣项t_j在向量中的权重：

步骤S24：根据历史回答记录、历史曝光记录建立点击率模型。

请参照图9，步骤S24可以包括：

步骤S241，将所述历史曝光记录中已被用户回答过的问题标记为正样本，将所述历史曝光记录中未被用户回答过的问题标记为负样本；

步骤S242，提取所有正样本和负样本的特征向量；

步骤S243，利用所述正样本和负样本的特征向量进行点击率模型训练，建立点击率模型。

其中，所述特征向量包括：用户特征向量、问题特征向量以及场景特征向量。

其中，用户特征为用户固有的，随场景变化较小的特征，如用户的长期兴趣分类、用户的长期兴趣关键词、用户的经验值、积分、回答频率等等。

问题特征为问题固有的，随场景变化较小的特征，如问题的分类、问题的关键词、问题的悬赏值、问题的地域性、标题长度等等。

场景特征为随时间和空间变化较大的特征，如问题与用户兴趣的匹配程度、问题命中用户兴趣的类型、推荐该问题的时间等等。

除了特征，另一个重要因素是模型的训练方法。目前常见的方法有逻辑回归（LR,Logistic Regression）、最大熵、决策树等等，优选的，采用逻辑回归（LR,LogisticRegression）方法进行点击率模型训练，并在模型训练过程中，采用随机梯度下降法(SGD,Stochastic Gradient Descent)”对逻辑回归模型的参数进行估计。通过训练样本训练出的CTR模型实际上是一个逻辑回归模型，通过这个模型能够对未知CTR概率的样本进行CTR预估。

具体的，假设逻辑回归中的目标函数为：

其中，X=(x₁,x₂,…,x_n)^T为特征向量，W=(w₁,w₂,…,w_n)^T为特征权重向量，y=+1,y=-1分别表示点击或不点击，p(y=±1)为点击或不点击的概率。

在训练过程中，每个样本的y值(是否点击)，样本的特征向量X已知，需要求一个W使得目标函数最大（即概率最大化），是一个最优化问题，即求一个W使得以下公式成立：

上式中y_i为第i个样本是否被点击（+1或-1），X_i为第i个样本的特征向量。

SGD就是在训练过程中求解上述最优化问题的方法，根据训练样本所估计的参数就是特征向量的权重系数向量W。最终CTR模型用这个权重系数向量来描述。

需要说明的是，上述步骤S21至步骤S24可以同时执行，也可以按顺序执行，本发明的具体实施方式并不以此为限。

步骤S25：根据用户的短期兴趣、长期兴趣以及人群兴趣构建所述用户的兴趣向量，所述兴趣向量中包括多个兴趣项，根据所述多个兴趣项由待解决问题集合中获取候选推荐问题。

请同时参考图10，可以通过向量的线性加权，将所述用户的短期兴趣、长期兴趣以及人群兴趣进行合并，得到用户的兴趣向量S_u：

S_u＝a×A_u+c×C_u+d×D_u (9)

其中，A_u为用户长期兴趣向量，用户长期兴趣向量A_u的加权系数a的范围为0.1≤a≤0.5，用户短期兴趣C_u的向量加权系数c的范围为0.5≤c≤0.8，用户人群兴趣的向量D_u的加权系数d的范围为0.1≤d≤0.5。优选的，a、c、d满足关系c>a>d，也就是说，用户的短期兴趣的向量加权系数>长期兴趣的向量加权系数>人群兴趣的向量加权系数。优选的，a可以为0.2，c可以为0.7，d可以为0.1。

请参照图11，步骤S25还可以包括：

步骤S251，根据所述用户的兴趣向量中的多个兴趣项，计算待解决问题集合中的问题与所述用户的兴趣向量的相关性；

步骤S252，根据相关性对这些问题进行排序；

步骤S253，提取相关性在预定范围内的问题作为所述候选推荐问题。

其中，相关性计算的方法很多（如皮尔逊相关性、欧式距离、BM2.5等），本实施例中优选采用余弦相关性计算方法来计算待解决问题集合中的问题与用户的兴趣向量之间的相关性。假定Q_k为问题k的关键词向量，那么向量Q_k与用户兴趣向量S_u之间夹角的余弦值就是问题k与用户兴趣向量S_u之间的相关性：

步骤S26：根据所述点击率模型预估用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题。

相关问题不一定是用户擅长的、或用户愿意回答的。兴趣相关与用户的回答（或推荐的转换）之间并不存在必然的因果关系。CTR预估方法则是以用户回答率为目标的方法，通过历史问题记录反映出的各个特征（包括用户特征、问题特征、场景特征）与回答之间的相关性，预测一个用户对一个新问题的回答概率。

具体的，请参照图12，可以针对用户特征、问题特征以及场景特征，利用CTR模型来预测用户回答候选推荐问题的概率，也就是进行CTR预估，并按回答概率的大小进行排序，提取出其中回答概率最高的若干问题作为待推荐问题。具体的，可以先提取所述用户、候选推荐问题以及当前场景的特征向量；再利用所述特征向量以及所述点击率模型预估所述用户回答所述候选推荐问题的概率。所述根据预估的概率选取待推荐问题的步骤包括根据预估的概率对候选推荐问题进行排序，提取概率在预定范围内的问题作为所述待推荐问题。

步骤S27：向所述客户端推荐所选取的待推荐问题。

第三实施例

请参见图13，为本发明第三实施例提供的一种问题推荐装置的结构示意图；该装置可以运行于上述实施例中的服务器，该装置30包括：兴趣向量计算模块31、候选推荐问题获取模块32、待推荐问题获取模块33以及问题推荐模块34。

其中，兴趣向量计算模块31用于根据用户的短期兴趣、长期兴趣以及人群兴趣构建所述用户的兴趣向量，所述用户的兴趣向量中包括多个兴趣项；

候选推荐问题获取模块32用于根据所述多个兴趣项由待解决问题集合中获取候选推荐问题；

待推荐问题获取模块33用于根据所述点击率模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题；以及

问题推荐模块34用于向所述客户端推荐所述待推荐问题。

以上各模块可以是由软件代码实现，此时，上述的各模块可存储于存储器内。以上各模块同样可以由硬件例如集成电路芯片实现。

需要说明的是，本发明实施例的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，在此不赘述。

本发明实施例通过融合用户的短期兴趣、长期兴趣和人群兴趣来构建用户的兴趣向量，并根据用户的兴趣向量中的兴趣项由待解决问题集合中获取候选推荐问题，再根据点击率模型预估用户回答候选推荐问题的概率，根据预估的概率选取待推荐的问题，并向客户端推荐所述待推荐问题，使得推荐的问题既符合用户的兴趣又是用户回答意愿较高的问题，一方面，解决了现有技术中基于用户兴趣匹配的问题推荐方法中推荐兴趣滞后的问题，以及基于点击预估的问题推荐方法中推荐结果不全面、结果单一的现象，另一方面，可以提高互动问答平台的问题回答率。

第四实施例

请参见图14，为本发明第四实施例提供的一种问题推荐装置的结构示意图；该装置可以运行于上述实施例中的服务器，该装置40包括：兴趣向量计算模块41、候选推荐问题获取模块42、待推荐问题获取模块43以及问题推荐模块44。

其中，兴趣向量计算模块41用于根据所述用户的短期兴趣、长期兴趣以及人群兴趣构建的所述用户的兴趣向量，所述用户的兴趣向量中包括多个兴趣项；

候选推荐问题获取模块42用于根据所述多个兴趣项由待解决问题集合中获取候选推荐问题；

待推荐问题获取模块43用于根据所述点击率模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题；以及

问题推荐模块44用于向所述客户端推荐所述待推荐问题。

于本实施例中，所述兴趣向量计算模块41可以包括：

短期兴趣计算单元411，用于根据所述用户在距离当前时间预定时长内的实时回答记录，计算所述用户的短期兴趣；

长期兴趣获取单元412，用于根据历史回答记录，获取所述用户的长期兴趣；

人群兴趣计算单元413，用于根据历史回答记录、用户的属性以及与每种用户属性对应的兴趣项出现的概率，计算所述用户的人群兴趣；以及

点击率模型建立单元414，用于根据历史回答记录、历史曝光记录建立点击率模型；

兴趣向量计算单元415，用于通过向量的线性加权，将所述用户的短期兴趣、长期兴趣以及人群兴趣进行合并，得到用户的兴趣向量。

用户短期兴趣的向量加权系数大于用户长期兴趣的向量加权系数，用户长期兴趣的向量加权系数大于用户人群兴趣的向量加权系数，其中，用户短期兴趣的向量加权系数大于等于0.5且小于等于0.8，用户长期兴趣的向量加权系数大于等于0.1且小于等于0.5，用户人群兴趣的向量加权系数大于等于0.1且小于等于0.5。优选的，用户长期兴趣的向量加权系数为0.2，用户短期兴趣的向量加权系数为0.7，用户人群兴趣的向量加权系数为0.1。

于本实施例中，所述候选推荐问题获取模块42包括：

相关性计算单元421，用于根据所述多个兴趣项，计算待解决问题集合中的问题与所述用户的兴趣向量的相关性；

第一排序单元422，用于根据相关性对这些问题进行排序；以及

候选推荐问题选取单元423，用于提取相关性在预定范围内的问题作为所述候选推荐问题。

于本实施例中，所述待推荐问题获取模块43包括：

预估单元431，用于根据所述点击率模型预估所述用户回答所述候选推荐问题的概率；

第二排序单元432，用于根据预估的概率对候选推荐问题进行排序；以及

待推荐问题选取单元433，用于提取概率在预定范围内的问题作为所述待推荐问题。

请参照图15，进一步的，所述短期兴趣计算单元411可以包括：

实时回答记录获取子单元4111，用于获取用户在距离当前时间预定时长内的实时回答记录；

循环队列构建子单元4112，用于根据所述实时回答记录，提取每个问题对应的兴趣项以及回答每个问题的时间，以回答每个问题的时间为所述问题对应的兴趣项的时间戳，以所述兴趣项为元素并根据其对应的时间戳构建循环队列；

第一权重计算子单元4113，用于根据所述循环队列计算每个兴趣项对应的权重；以及

短期兴趣计算子单元4114，用于根据每个兴趣项对应的权重计算所述用户的短期兴趣。

所述第一权重计算子单元4113用于根据每个兴趣项在所述循环队列中的位置，计算每个兴趣项出现在该位置上时的时间衰减函数以及每个兴趣项出现在该位置上时的时间戳与当前时间的时长；根据每个兴趣项出现在该位置上时的时间衰减函数以及每个兴趣项出现在该位置上时的时间戳与当前时间的时长，计算每个兴趣项对应的权重。

请参照图16，进一步的，所述人群兴趣计算单元413可以包括：

人群分类子单元4131，用于根据用户的属性组合，将所有用户分为多个不同类型的人群；

概率计算子单元4132，用于计算与用户的属性组合所对应的每个兴趣项出现的概率；

第二权重计算子单元4133，用于根据所述概率，计算与每种类型的人群对应的兴趣项的权重；

查找子单元4134，用于根据所述用户的属性，查找与所述用户对应的人群；以及

人群兴趣计算子单元4135，用于根据该人群对应的兴趣项的权重，计算所述用户的人群兴趣。

请参照图17，进一步的，所述点击率模型建立单元414可以包括：

样本标记子单元4141，用于将所述历史曝光记录中已被用户回答过的问题标记为正样本，将所述历史曝光记录中未被用户回答过的问题标记为负样本；

特征向量提取子单元4142，用于提取所有正样本和负样本的特征向量；以及

模型训练子单元4143，利用所述正样本和负样本的特征向量进行点击率模型训练，建立点击率模型。

所述特征向量包括：用户特征向量、问题特征向量以及场景特征向量。

第五实施例

请参见图18，为本发明第五实施例提供的一种问题推荐系统的结构示意图；该系统50包括：客户端51及服务端。所述客户端51将用户的回答行为反馈至所述服务端，向所述服务端发送问题推荐请求。

其中，服务端包括离线挖掘服务装置521以及在线推荐服务装置522。

其中，离线挖掘服务装置521用于根据用户的属性、问题回答记录获取用户的长期兴趣、对人群兴趣进行建模、建立CTR模型。

具体的，离线挖掘服务装置521可以对用户进行分析，包括整合用户的属性、挖掘用户的长期兴趣；离线挖掘服务装置521还可以进行问题分析，包括对问题进行文本分析，提取问题关键词、对问题进行分类等；离线挖掘服务装置521还可以对人群兴趣进行建模，包括基于历史回答记录训练人群兴趣模型；离线挖掘服务装置521还可以进行CTR模型训练，包括基于在线部分缓存的特征向量、历史曝光记录以及客户端提供的问题回答记录，训练CTR模型；离线挖掘服务装置521还可以对CTR模型训练及发布，自动评估线上正在使用的CTR模型和新训练生成的模型，判断新模型是否由于线上模型，择优发布。

在线推荐服务装置522用于根据用户在距离当前时间预定时长内的实时回答记录计算用户的短期兴趣，根据人群兴趣建模获取用户的人群兴趣，并根据用户的长期兴趣、短期兴趣、人群兴趣构建用户的兴趣向量，根据兴趣向量中的多个兴趣项由待解决问题集合中获取候选推荐问题，根据CTR模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题，对客户端进行推荐。

具体的，在线推荐服务装置522可以提供短期兴趣服务，包括负责维护用户的近期回答行为，计算用户短期兴趣，并提供咨询；在线推荐服务装置522还可以提供数据服务，包括负责向推荐服务提供用户信息(包括用户的属性和长期兴趣)、问题信息(包括问题的属性、问题的分类以及问题的关键词等)；在线推荐服务装置522还可以提供推荐服务，也就是系统的主服务，针对客户端的推荐请求，检索用户信息、用户的短期兴趣、计算用户人群兴趣、检索候选推荐问题、对候选推荐问题进行CTR预估、排序等，还包括记录特征向量等；在线推荐服务装置522还可以进行推荐代理服务，包括负责处理客户端的请求，向推荐服务提交推荐请求，缓存推荐结果，并对曝光日志进行记录。

在上述系统中，存在两个自反馈机制：一个是短期兴趣的自反馈机制，用户在客户端进行问题回答行为将通过消息总线的方式反馈到短期兴趣服务中，由短期兴趣服务负责维护行为列表，并提供短期兴趣的更新；另一个是CTR模型的自反馈机制，推荐服务、推荐代理服务以及客户端记录的特征向量、曝光问题记录、历史回答记录将自动推送到离线的CTR训练模块，其中90%的样本可以作为训练样本进行CTR模型训练，10%的样本可以作为模型评估的测试样本，在对比新模型与线上模型的预估效果后，自动进行模型的发布。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种问题推荐方法，其特征在于，包括：

根据用户在距离当前时间预定时长内的实时回答记录，计算所述用户的短期兴趣；

根据历史回答记录，获取所述用户的长期兴趣；

根据历史回答记录、用户的属性以及与每种用户属性对应的兴趣项出现的概率，计算所述用户的人群兴趣，以及

根据历史回答记录、历史曝光记录建立点击率模型，其中，所述点击率模型用于预估问题被展示后被用户回答的概率；

根据用户的短期兴趣、长期兴趣以及人群兴趣构建所述用户的兴趣向量，所述用户的兴趣向量中包括多个兴趣项；

根据所述多个兴趣项由待解决问题集合中获取候选推荐问题；

根据点击率模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题；以及

向客户端推荐所述待推荐问题。

2.如权利要求1所述的方法，其特征在于，所述根据所述用户在距离当前时间预定时长内的实时回答记录，计算所述用户的短期兴趣的步骤，包括：

获取用户在距离当前时间预定时长内的实时回答记录；

根据所述实时回答记录，提取每个问题对应的兴趣项以及回答每个问题的时间，以回答每个问题的时间为所述问题对应的兴趣项的时间戳，以所述兴趣项为元素并根据其对应的时间戳构建循环队列；

根据所述循环队列计算每个兴趣项对应的权重；以及

根据每个兴趣项对应的权重计算所述用户的短期兴趣。

3.如权利要求2所述的方法，其特征在于，所述根据所述循环队列计算每个兴趣项对应的权重的步骤，包括：

根据每个兴趣项在所述循环队列中的位置，计算每个兴趣项出现在该位置上时的时间衰减函数以及每个兴趣项出现在该位置上时的时间戳与当前时间的时长；以及

根据每个兴趣项出现在该位置上时的时间衰减函数以及每个兴趣项出现在该位置上时的时间戳与当前时间的时长，计算每个兴趣项对应的权重。

4.如权利要求1所述的方法，其特征在于，所述根据历史回答记录、用户的属性以及与每种用户属性对应的兴趣项出现的概率，计算所述用户的人群兴趣的步骤，包括：

根据用户的属性组合，将所有用户分为多个不同类型的人群；

计算与用户的属性组合所对应的每个兴趣项出现的概率；根据所述概率，计算与每种类型的人群对应的兴趣项的权重；根据所述用户的属性，查找与所述用户对应的人群；以及

根据该人群对应的兴趣项的权重，计算所述用户的人群兴趣。

5.如权利要求1所述的方法，其特征在于，所述根据用户的短期兴趣、长期兴趣以及人群兴趣构建用户的兴趣向量的步骤，包括：

通过向量的线性加权，将所述用户的短期兴趣、长期兴趣以及人群兴趣进行合并，得到用户的兴趣向量。

6.如权利要求5所述的方法，其特征在于，用户短期兴趣的向量加权系数大于用户长期兴趣的向量加权系数，用户长期兴趣的向量加权系数大于用户人群兴趣的向量加权系数，其中，用户短期兴趣的向量加权系数大于等于0.5且小于等于0.8，用户长期兴趣的向量加权系数大于等于0.1且小于等于0.5，用户人群兴趣的向量加权系数大于等于0.1且小于等于0.5。

7.如权利要求1所述的方法，其特征在于，所述根据历史回答记录、历史曝光记录建立点击率模型的步骤，包括：

将所述历史曝光记录中已被用户回答过的问题标记为正样本，将所述历史曝光记录中未被用户回答过的问题标记为负样本；

提取所有正样本和负样本的特征向量；以及

利用所述正样本和负样本的特征向量进行点击率模型训练，建立点击率模型。

8.如权利要求7所述的方法，其特征在于，所述特征向量包括：用户特征向量、问题特征向量以及场景特征向量。

9.如权利要求1所述的方法，其特征在于，根据所述多个兴趣项由待解决问题集合中获取候选推荐问题的步骤，包括：

根据所述多个兴趣项，计算待解决问题集合中的问题与所述用户的兴趣向量的相关性；

根据相关性对这些问题进行排序；以及

提取相关性在预定范围内的问题作为所述候选推荐问题。

10.如权利要求1所述的方法，其特征在于，所述根据点击率模型预估所述用户回答所述候选推荐问题的概率的步骤，包括：

提取所述用户、候选推荐问题以及当前场景的特征向量；

利用所述特征向量以及所述点击率模型预估所述用户回答所述候选推荐问题的概率。

11.如权利要求1所述的方法，其特征在于，所述根据预估的概率选取待推荐问题的步骤包括根据预估的概率对候选推荐问题进行排序，提取概率在预定范围内的问题作为所述待推荐问题。

12.一种问题推荐装置，运行于服务器，其特征在于，包括：

兴趣向量计算模块，用于根据用户的短期兴趣、长期兴趣以及人群兴趣构建所述用户的兴趣向量，所述用户的兴趣向量中包括多个兴趣项，其中，所述兴趣向量计算模块包括：

短期兴趣计算单元，用于根据所述用户在距离当前时间预定时长内的实时回答记录，计算所述用户的短期兴趣，

长期兴趣获取单元，用于根据历史回答记录，获取所述用户的长期兴趣，

人群兴趣计算单元，用于根据历史回答记录、用户的属性以及与每种用户属性对应的兴趣项出现的概率，计算所述用户的人群兴趣，以及

点击率模型建立单元，用于根据历史回答记录、历史曝光记录建立点击率模型，其中，所述点击率模型用于预估问题被展示后被用户回答的概率；

候选推荐问题获取模块，用于根据所述多个兴趣项由待解决问题集合中获取候选推荐问题；

待推荐问题获取模块，用于根据点击率模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题；以及

问题推荐模块，用于向客户端推荐所述待推荐问题。

13.如权利要求12所述的装置，其特征在于，所述短期兴趣计算单元，包括：

实时回答记录获取子单元，用于获取用户在距离当前时间预定时长内的实时回答记录；

循环队列构建子单元，用于根据所述实时回答记录，提取每个问题对应的兴趣项以及回答每个问题的时间，以回答每个问题的时间为所述问题对应的兴趣项的时间戳，以所述兴趣项为元素并根据其对应的时间戳构建循环队列；

第一权重计算子单元，用于根据所述循环队列计算每个兴趣项对应的权重；以及

短期兴趣计算子单元，用于根据每个兴趣项对应的权重计算所述用户的短期兴趣。

14.如权利要求13所述的装置，其特征在于，所述第一权重计算子单元用于根据每个兴趣项在所述循环队列中的位置，计算每个兴趣项出现在该位置上时的时间衰减函数以及每个兴趣项出现在该位置上时的时间戳与当前时间的时长；根据每个兴趣项出现在该位置上时的时间衰减函数以及每个兴趣项出现在该位置上时的时间戳与当前时间的时长，计算每个兴趣项对应的权重。

15.如权利要求12所述的装置，其特征在于，所述人群兴趣计算单元，包括：

人群分类子单元，用于根据用户的属性组合，将所有用户分为多个不同类型的人群；

概率计算子单元，用于计算与用户的属性组合所对应的每个兴趣项出现的概率；

第二权重计算子单元，用于根据所述概率，计算与每种类型的人群对应的兴趣项的权重；

查找子单元，用于根据所述用户的属性，查找与所述用户对应的人群；以及

人群兴趣计算子单元，用于根据该人群对应的兴趣项的权重，计算所述用户的人群兴趣。

16.如权利要求12所述的装置，其特征在于，所述兴趣向量计算模块，还包括：

兴趣向量计算单元，用于通过向量的线性加权，将所述用户的短期兴趣、长期兴趣以及人群兴趣进行合并，得到用户的兴趣向量。

17.如权利要求16所述的装置，其特征在于，用户短期兴趣的向量加权系数大于用户长期兴趣的向量加权系数，用户长期兴趣的向量加权系数大于用户人群兴趣的向量加权系数，其中，用户短期兴趣的向量加权系数大于等于0.5且小于等于0.8，用户长期兴趣的向量加权系数大于等于0.1且小于等于0.5，用户人群兴趣的向量加权系数大于等于0.1且小于等于0.5。

18.如权利要求12所述的装置，其特征在于，所述兴趣向量计算模块还包括点击率模型建立单元，所述点击率模型建立单元包括：

样本标记子单元，用于将所述历史曝光记录中已被用户回答过的问题标记为正样本，将所述历史曝光记录中未被用户回答过的问题标记为负样本；

特征向量提取子单元，用于提取所有正样本和负样本的特征向量；以及模型训练子单元，利用所述正样本和负样本的特征向量进行点击率模型训练，建立点击率模型。

19.如权利要求18所述的装置，其特征在于，所述特征向量包括：用户特征向量、问题特征向量以及场景特征向量。

20.如权利要求12所述的装置，其特征在于，所述候选推荐问题获取模块包括：

相关性计算单元，用于根据所述多个兴趣项，计算待解决问题集合中的问题与所述用户的兴趣向量的相关性；

低于排序单元，用于根据相关性对这些问题进行排序；以及

候选推荐问题选取单元，用于提取相关性在预定范围内的问题作为所述候选推荐问题。

21.如权利要求12所述的装置，其特征在于，所述待推荐问题获取模块包括：

预估单元，用于根据所述点击率模型预估所述用户回答所述候选推荐问题的概率；第二排序单元，用于根据预估的概率对候选推荐问题进行排序；以及

待推荐问题选取单元，用于提取概率在预定范围内的问题作为所述待推荐问题。

22.一种问题推荐系统，包括客户端以及服务端，其特征在于：所述客户端将用户的回答行为反馈至所述服务端，向所述服务端发送问题推荐请求；

所述服务端响应所述客户端的问题推荐请求向所述客户端发送待推荐的问题，其中，所述服务端包括：离线挖掘服务装置以及在线推荐服务装置，所述离线挖掘服务装置用于获取用户的长期兴趣、对人群兴趣进行建模、建立点击率模型，所述在线推荐服务装置用于根据用户在距离当前时间预定时长内的实时回答记录计算用户的短期兴趣，根据人群兴趣建模获取用户的人群兴趣，并根据用户的长期兴趣、短期兴趣、人群兴趣构建用户的兴趣向量，根据兴趣向量中的多个兴趣项由待解决问题集合中获取候选推荐问题，根据点击率模型预估所述用户回答所述候选推荐问题的概率，并根据预估的概率选取待推荐问题，并向所述客户端发送所述待推荐问题。