CN109657048A

CN109657048A - 一种应用于开源问答社区中回答者推荐方法

Info

Publication number: CN109657048A
Application number: CN201910019945.0A
Authority: CN
Inventors: 朱良堃; 廖志芳; 宋炳政
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-04-19

Abstract

本发明公开了一种应用于开源问答社区中回答者推荐方法，属于数据挖掘与知识发现技术领域。本发明提出的回答者推荐方法解决了传统推荐方法精度较低，计算复杂度高等缺点，它首先构建用户‑问题网络来计算每个用户的用户影响力，然后根据问题文本内容来计算问题相似性，最后综合考虑用户影响力，问题相似性和时间影响因素，对回答者进行评分。该方法缩短了开源问答社区中回答者推荐的时间，提高了回答者推荐的精确度。

Description

一种应用于开源问答社区中回答者推荐方法

技术领域

本发明涉及一种应用于开源问答社区中回答者推荐方法，属于数据挖掘与知识发现技术领域。

背景技术

社区问答网站是一种用户可以在其中提出问题，然后由其他用户去回答的社区。社区问答网站的出现，不仅为用户提供了一个快捷的问答方式，同时也成为了特定领域重要的知识储备库，社区问答网站也变得越来越重要。通过使用社区问答网站，用户可以快速找到自己领域的问题和一些答案。没有找到解决自己问题的方法，用户也可以在网站中进行提问，请求具有相关知识的人进行回答。社区问答网站的出现为用户寻找相关领域的知识提供了极大的方便，但是也带来了新的挑战。这之中最重要的一个就是大多数新问题无法在短时间内传递给社区问答网站中适合回答这个问题的用户，导致新问题的答复效率不尽如人意。因此，研究如何在短时间内找到新问题最合适的回答者是非常有必要的。一方面，回答者推荐可以减少提问者的等待时间，提升用户体验。另一方面，用户也更有可能获得一个高质量的答案。传统的推荐方法存在计算复杂度高，精度低，推荐时效性低等特点。因此考虑将用户影响力，问题相似性，答案提交时间等因素加入推荐方法，从而构建出一个新的方法。

发明内容

本发明的目的是为了解决开源问答社区中回答者推荐计算复杂度高，精度较低，时效性低等特点，提出的一种新的基于用户影响力和时间的回答者推荐方法。

为了实现上述目的，本发明的技术方案是：

步骤1：问答数据的筛选和清洗，从原始数据中选取我们所需要的数据。

步骤2：对步骤1中获取的数据进行分析，我们可以得到每个问题以及其对应的答案，然后构建用户- 问题网络，从而计算用户影响力。

步骤3：利用步骤1中获取的问题数据，我们对其进行简单的文本处理，然后可以计算问题之间的相似性，找到相似的问题。

步骤4：结合步骤2与步骤3的用户影响力与问题相似性，再考虑时间因素的影响，对每个回答者进行评分

步骤5：根据步骤4中的回答者评分，选取其中评分高的若干回答者进行推荐。

所述的方法步骤1包括以下步骤：

步骤1.1：因为我们的方法涉及到时间因素，所以要从一段连续的时间段内抽取数据使得数据满足要求。

步骤1.2：选取比较热门的标签下的问答数，这些数据更具代表性。

步骤1.3：从原始数据中获取到相应的数据之后，我们可以根据需要对这些数据进行清洗，清洗数据的目的是为了去掉一些无用的数据，比如没有被回答的问题，或者回答者信息丢失的问题等等。

所述的方法步骤2包括以下步骤：

步骤2.1：用户-问题网络的构建。开源问答社区中用户与问题之间的关系是一个多对多的关系，一个问题可以被多个用户回答，一个用户也可以回答多个问题。所以可以用一个无向加权的异构网络G<V，E> 用来表示用户-问题网络。其中节点V可以是用户节点，也可以表示问题节点，边E分为两种，一种是用户-问题的边，用来表示用户与问题之间的联系，一种是用户-用户的边，用来表示两个用户对相同问题的兴趣关系。

步骤2.2：用户影响力的计算。用户的影响力是通过影响力传播的方式来计算的。首先我们对系统中的每个用户影响力赋予一个初值。假如有N个用户，那么每个用户的影响力都是1/N，然后我们通过用户-问题网络来传播用户影响力，通过迭代计算的方法获取每个用户的影响力。

所述的方法步骤3包括以下步骤：

步骤3.1：问题文本的处理。从原始数据中获取的问题文本通常带有网络符号，标签等跟问题内容无关的数据，我们通过简单的文本处理去除这些无用的信息，然后采用词干提取的方式，提取问题的文本的词干，并且去除其中的停止词。

步骤3.2：文本相似性分析。获取到处理后的问题文本之后，我们可以把问题文本对应成一组向量，然后利用余弦相似度来计算两个问题之间的相似性。

所述的方法步骤4包括以下步骤：

步骤4.1：时间因子的添加。用户很久以前回答的问题跟最近回答的问题所造成的影响肯定不同，简单来说，用户两天回答了一种类型的问题，再度推荐这种类型的问题给他，肯定比推荐一年前他回答的问题类型的问题更好。所以我们针对每个问题，引入时间因子

步骤4.2：用户得分。因为我们考虑了用户影响力，问题相似性，时间因子三方面的影响，我们在用户得分公式中使用这三个因素来评估用户得分。

所述的方法步骤5包括以下步骤：

对于一个新的问题，通过上述步骤的过程得到每个用户对于这个新问题的得分，然后选取得分最高的几位用户进行推荐。

本发明设计了一个基于用户影响力，问题相似度以及时间因素的推荐方法，它首先构建用户-问题网络来计算每个用户的用户影响力，然后根据问题文本内容来计算问题相似性，最后综合考虑用户影响力，问题相似性和时间影响因素，对回答者进行评分。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图对本发明具体实施步骤作进一步详细的说明。

本发明设计了一种应用于开源问答社区中回答者推荐方法通过引入用户影响力，问题相似度以及时间因素缩短了开源问答社区中回答者推荐的时间，提高了回答者推荐的精确度。

本发明包含以下步骤：

步骤1：问答数据的筛选和清洗。以Stack Overflow为例，我们选择2016年1月到2017年4月Stack Overflow中的所有数据，然后我们对其进行统计，筛选出其中标签出现频率最高的15个标签，然后对其下的问题进行提取，获取到我们所需要的数据。然后筛选出回答数量超过5个的问题及其答案，作为我们的初步筛选数据。

步骤2：构建用户-问题网络，并计算用户影响力。在Stack Overflow中，用户与问题之间的关系是多对多的关系。如图3所示。每个问题可以被多个人回答，也可以被一个人回答多次。因此，可以用一个无向加权的异构网络G<V，E>用来表示用户-问题网络。其中节点V可以是用户节点，也可以表示问题节点，边E分为两种，一种是用户-问题的边，用来表示用户与问题之间的联系，一种是用户-用户的边，用来表示两个用户对相同问题的兴趣关系

用户影响力的计算。传统的方法认为网络结构是非加权的，信息传播的过程是平均的。实际上，不同行为构成的边对权威分数传递的影响应该是不一样的。在本文中，我们使用一种不对称的策略来传递用户的权威分数。我们使用传播矩阵来计算每个用户的权威分数，计算过程如下。

U是所有用户的集合，M^Q是一个|U|×|U|的矩阵，用来表示所有用户之间的问答关系网络；R是所有回答者的集合，M^R是一个|R|×|R|的矩阵，用来表示所有回答者之间的兴趣网络。

其中M^RQ表示从回答者到提问者的传播矩阵，M^QR表示从提问者到回答者的传播矩阵，M^RR表示回答者之间的传播矩阵。E_i,j表示回答者兴趣网络中的权重。

我们可以使用向量来存储每个用户的rank分数，R^R代表回答者的rank分数，R^Q代表提问者的rank分数。对于n个用户，我们设定每个用户的初始分数为1/n，然后通过传播矩阵进行权威分数的传播，经过无数次迭代，直到两次传播之间的误差小于一个阈值。其迭代的详细过程如下：

其中λ₁,λ₂是用来调控兴趣网络和问答网络权重的参数，且λ₁+λ₂＝1。

步骤3：问题文本的处理以及相似性分析。在每个问题中，经常会有“the”，“and”，“a”之类的停用词，我们通过使用google code上提供的一个stop word列表对问题文本数据集进行停用词移除。然后对每个问题进行向量空间模型的构建，每个词代表一个维度，每个词的权重计算方法如下：

其中n_t表示词t在一个问题中出现的次数，n_q表示该问题中词的总数，N表示该问题总数，N_t表示出现词t的问题的总数。

通过计算每个词的权重，对每个问题得到一个向量空间模型，然后利用余弦相似度可以得到两个问题之间的相似度，其计算方法如下：

其中s_ij表示第i个问题与第j个问题的相似度，V_i是第i个问题的向量表示，V_j是第j个问题的向量表示。

步骤4：时间因子的添加以及用户得分的计算。时间因子的添加。用户很久以前回答的问题跟最近回答的问题所造成的影响肯定不同，简单来说，用户两天回答了一种类型的问题，再度推荐这种类型的问题给他，肯定比推荐一年前他回答的问题类型的问题更好。所以我们针对每个问题，引入时间因子t_qi

其中t_qi表示第i个问题的权重，t_i表示第i个问题的提出时间，t_e表示系统中最早的问题的提交时间， t_l表示系统中最晚的问题的提交时间。

用户得分。对于用户u对于问题i的得分公式如下：

其中k是与问题i最相似的k个问题的数量，s_ij表示问题j与问题i的相似度，F_uj是控制因子，表示用户u是否回答过问题j，是的话F_uj＝1，否则F_uj＝0。E_u表示用户u的影响力。

步骤5：推荐回答者的选取。对于每个问题，我们可以使用步骤4中的公式得到所有用户对于该问题的评分，然后我们筛选topK个用户作为候选回答者推荐给该问题。

本发明提出的开源问答社区中回答者推荐方法，考虑了用户影响力，增加了推荐的准确性，利用余弦相似度来计算问题之间的相似性，缩短了计算时间，考虑时间因素的影响，增加了推荐的时效性。

附图说明

图1摘要附图

图2本发明实现步骤图

图3用户-问题网络图。

Claims

1.一种应用于开源问答社区中回答者推荐方法，其主要的特点为通过构建用户-问题网络来计算用户影响力；通过问题文本来计算问题之间的相似性；通过考虑时间因子来对答案的重要性进行取舍，增加回答者推荐的时效性。

2.根据权利要求1所述的方法，构建用户-问题网络，通过影响力传播的方式，采用迭代计算方法来计算每个回答者的影响力。

3.根据权利要求1所述的方法，通过问题文本内容进行文本相似度的计算。

4.根据权利要求1所述的方法，考虑到答案的时效性，增加了时间因子来计算回答者的得分，尽可能的推荐近期活跃的回答者。