CN109871439B

CN109871439B - 一种基于深度学习的问答社区问题路由方法

Info

Publication number: CN109871439B
Application number: CN201910122563.0A
Authority: CN
Inventors: 董守斌; 叶超; 董守玲; 胡金龙; 袁华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2020-12-22
Anticipated expiration: 2039-02-18
Also published as: CN109871439A

Abstract

本发明公开了一种基于深度学习的问答社区问题路由方法，包括步骤：1)通过对社区问答的文本内容进行分词，利用词向量技术，获取单词的词向量表示；2)根据用户的历史回答记录，构建用户档案；3)利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型；4)根据步骤3)学习到的模型获取用户特征，进而根据用户特征训练打分模型；5)利用步骤3)学习的户兴趣预测模型、用户能力预测模型、用户响应度预测模型及步骤4)训练的打分模型，进行问题路由。本发明充分考虑到用户回答的评分信息和时间信息，通过单独的深度学习模型分别来预测用户对问题的评分及响应时间，在排序阶段充分利用了用户回答的评分、时间等信息。

Description

一种基于深度学习的问答社区问题路由方法

技术领域

本发明涉及信息检索的技术领域，尤其是指一种基于深度学习的问答社区问题路由方法。

背景技术

随着Web2.0的飞速发展，社区问答(Community Question Answering)系统也逐渐成为一种非常流行而且实用的互联网应用。目前，在互联网上已经出现了很多社区问答系统，这些社区已经积累了大量的用户信息和内容资源，并呈现持续增长的态势。海量的历史数据为社区问答系统的发展带来了许多机遇和挑战。如何利用用户的历史行为数据，挖掘用户的兴趣领域及专业领域，为用户提出的问题推荐可能回答的专家用户，已经成为问答社区领域内的重要研究课题。

问题路由是问答社区的一个典型应用场景，它的目的就是为用户提出的问题推荐可能回答该问题的专家用户。目前，针对该问题的相关技术主要集中以下几类：基于传统的信息检索的方法、基于分类的方法和基于排序学习的方法。随着深度学习的广泛应用，也有很多方法利用深度学习来解决问答社区的问题路由问题。现有基于深度学习的技术方案主要包含以下两类：一类是基于多分类，把所有候选用户id当作类标签，输入用户历史记录文本与问题文本的特征向量，输出回答用户的id；另一类是基于语义相似度，通过深度学习来预测用户历史回答记录文本与问题文本的语义相似度，进而根据相似性进行问题路由。以上方法均只考虑了文本信息，忽略了用户回答的评分信息及回答的时间信息，用户信息利用的不够充分。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于深度学习的问答社区问题路由方法，通过采用深度学习的方法从历史记录中学习用户兴趣、能力、响应速度等特征，进而根据这些用户特征训练排序模型，从而实现问题路由。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习的问答社区问题路由方法，包括以下步骤：

1)通过对社区问答的文本内容进行分词，利用词向量技术，获取单词的词向量表示；

2)根据用户的历史回答记录，构建用户档案；

3)利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型；

4)根据步骤3)学习到的模型获取用户特征，进而根据用户特征训练打分模型；

5)利用步骤3)学习的用户兴趣预测模型、用户能力预测模型、用户响应度预测模型及步骤4)训练的打分模型，进行问题路由。

在步骤1)中，提取社区问题的文本内容，使用常用分词工具进行分词，这样就将数据分解成文档-词的形式；利用词向量工具在数据集上训练得到单词的词向量。

在步骤2)中，根据社区的历史数据，提取用户历史回答的相关信息，包括问题的文本、问题的发布时间、回答的得分和回答的时间，构建用户档案。

在步骤3)中，利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型；

用户兴趣预测模型的训练方式如下：

模型输入为问题文本，经过词嵌入后得到文本中所有单词的词向量；模型隐含层采用CNN，通过卷积核获得卷积层特征；模型输出层采用SoftMax拟合用户的回答概率，用户回答该问题则对应维度为1，否则为0；

用户能力预测模型的训练方式如下：

模型输入为问题文本，经过词嵌入后得到文本中所有单词的词向量，然后将所有单词的词向量求和得到问题的词向量，并将该词向量作为隐含层输入；隐含层采用DNN；输出层采用加权逻辑回归拟合用户回答的评分，未回答用户评分设为0；

用户响应度预测模型的训练方式如下：

模型输入为问题文本，经过词嵌入后得到文本中所有单词的词向量，然后将所有单词的词向量求和得到问题的词向量，并将该词向量作为隐含层输入；隐含层采用DNN；输出层采用加权逻辑回归拟合用户回答问题时间与问题发布时间的间隔的倒数，未回答用户标签设为0。

在步骤4)中，训练模型时的输入特征为用户的兴趣值、能力值和响应度，输出标签为1即用户回答问题，或0即用户未回答；通过有监督的学习方式训练一个打分模型，打分模型包括排序学习、深度学习、概率统计方法、机器学习方法。

在步骤5)中，给定一个新问题，根据步骤3)学习的“用户兴趣预测模型”、“用户能力预测模型”、“用户响应度预测模型”，得到每个用户的兴趣值、能力值和响应度特征，然后将这些特征输入到步骤4)训练的打分模型，得到每个用户的得分，最后根据得分排序，产生推荐用户列表。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明充分考虑到用户回答的评分信息和时间信息，通过单独的深度学习模型分别来预测用户对问题的评分及响应时间。

2、本发明通过深度学习学习到用户的兴趣、能力、响应度等特征，然后再将这些特征作为推荐排序模型的输入去训练排序模型，在排序阶段充分利用了用户回答的评分、时间等信息。

附图说明

图1为本发明方法整体架构图。

图2为用户兴趣预测模型结构图。

图3为用户能力与响应度预测模型结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1至图3所示，本实施例所提供的基于深度学习的问答社区问题路由方法，利用深度学习对用户历史数据建模，训练得到用户的兴趣、能力、响应度等特征；然后根据这些特征训练一个排序打分模型，从而实现将用户提出的问题推荐给合适的专家用户来解答。

下面以StackOverFlow问答社区为例进行具体说明，实例中词向量生成工具选取word2vec，排序模型选取LambdaMART。

实例数据构造说明：

选取StackOverFlow问答社区的某一年数据为标注数据集，用以训练学习模型。选择前半年提问问答总数不少于100的用户作为候选用户。选择下半年候选用户回答过的问题作为训练样本，用于训练排序阶段的打分模型；选取候选用户上半年所有回答的问题作为历史记录，历史记录用于训练预测特征的网络模型。

具体实施步骤如下：

1)数据预处理及词向量生成

选取问题文本去停用词、HTML标签等，经过分词后，文本数据被分解成文档-词的形式，然后利用word2vec工具训练得到预料中每个单词的词向量，词向量维度选为100。

2)根据标注数据集中用户的历史回答记录，构建用户档案；

候选用户历史记录中的每一条回答记录对应一个训练样本，每个样本包含问题的文本、问题发布时间、回答的评分、回答发布时间等信息，所有回答记录构成训练样本集。

3)利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型，具体如下：

用户兴趣预测模型训练：

将分词后的问题文本输入给模型，词嵌入层采用步骤1)中训练好的词向量；输出层对应每个用户id，训练过程选择交叉熵作为损失函数，通过梯度下降及反馈去更新网络权重矩阵。学习好的网络模型保存为“用户兴趣预测模型”。

用户能力预测模型训练：

输入为问题文本，经过词嵌入后得到文本中所有单词的100维词向量,然后将所有单词的词向量求和得到问题的100维词向量，并将该词向量作为隐含层输入；输出对应候选用户对该问题的评分，未回答评分设为0；训练阶段采用加权逻辑回归，以交叉熵作为损失函数，通过梯度下降及反馈去更新网络权重矩阵。预测阶段，使用指数函数e^x作为最终激活函数来估计用户期望的评分数。学习好的网络模型保存为“用户能力预测模型”。

用户响应度预测模型训练：

输入为问题文本，经过词嵌入后得到文本中所有单词的100维词向量,然后将所有单词的词向量求和得到问题的100维词向量，并将该词向量作为隐含层输入；输出对应候选用户对该问题的回答时间与问题发布时间的时间间隔的倒数，未回答设为0；训练阶段采用加权逻辑回归，以交叉熵作为损失函数，通过梯度下降及反馈去更新网络权重矩阵。预测阶段，使用指数函数e^x作为最终激活函数来估计用户期望的响应值。学习好的网络模型保存为“用户响应度预测模型”。

4)根据步骤3)学习到的模型获取用户特征，进而根据用户特征训练打分模型，打分模型包括但不限于：排序学习、深度学习、概率统计方法、机器学习方法等。

本步骤选用的打分模型为LambdaMART，该模型训练的数据格式为：

label qid:docId 0:f1 1:f2 2:f3

其中label为0或1，1表示用户回答了该问题，0表示未回答，docId为问题的id,f1、f2、f3分别为用户的兴趣值、能力值和响应度。每个问题与所有候选用户形成一组样本，所有训练问题与候选用户的笛卡儿积构成整个训练集。

对于每一个训练样本，即一个问题，通过该问题分词后所有单词对应词向量求和得到该问题的100维度向量，将该向量输入给步骤3)训练好的“用户兴趣预测模型”、“用户能力预测模型”和“用户响应度预测模型”，得到所有候选用户对该问题的兴趣值、能力值及响应度；候选用户中回答该问题的用户特征对应的标签为1，否则为0。将所有训练数据输入给LambdaMART排序学习模型，训练得到一个打分模型，用于后续推荐。

对于每个新问题，按照步骤3)中的方式得到所有候选用户的兴趣值、能力值、响应度；将这些特征输入给步骤4)训练的打分模型，得到每个候选用户对于该问题的得分，根据用户的得分对用户排序，推荐top-N用户来回答该问题。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的问答社区问题路由方法，其特征在于，包括以下步骤：

2)根据用户的历史回答记录，构建用户档案；

用户兴趣预测模型的训练方式如下：

模型输入为问题文本，经过词嵌入后得到文本中所有单词的词向量；模型隐含层采用CNN，通过卷积核获得卷积层特征；模型输出层采用SoftMax拟合用户的回答概率，用户回答该问题则为1，否则为0；

用户能力预测模型的训练方式如下：

用户响应度预测模型的训练方式如下：

模型输入为问题文本，经过词嵌入后得到文本中所有单词的词向量，然后将所有单词的词向量求和得到问题的词向量，并将该词向量作为隐含层输入；隐含层采用DNN；输出层采用加权逻辑回归拟合用户回答问题时间与问题发布时间的间隔的倒数，未回答设为0；

2.根据权利要求1所述的一种基于深度学习的问答社区问题路由方法，其特征在于：在步骤1)中，提取社区问题的文本内容，使用常用分词工具进行分词，这样就将数据分解成文档-词的形式；利用词向量工具在数据集上训练得到单词的词向量。

3.根据权利要求1所述的一种基于深度学习的问答社区问题路由方法，其特征在于：在步骤2)中，根据社区的历史数据，提取用户历史回答的相关信息，包括问题的文本、问题的发布时间、回答的得分和回答的时间，构建用户档案。

4.根据权利要求1所述的一种基于深度学习的问答社区问题路由方法，其特征在于：在步骤5)中，给定一个新问题，根据步骤3)学习的“用户兴趣预测模型”、“用户能力预测模型”、“用户响应度预测模型”，得到每个用户的兴趣值、能力值和响应度特征，然后将这些特征输入到步骤4)训练的打分模型，得到每个用户的得分，最后根据得分排序，产生推荐用户列表。