CN109086463B

CN109086463B - 一种基于区域卷积神经网络的问答社区标签推荐方法

Info

Publication number: CN109086463B
Application number: CN201811139465.XA
Authority: CN
Inventors: 刘进; 周平义; 储玮; 李兵; 崔晓晖; 陈旭; 施泽洋; 彭新宇; 赵发凯
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2022-04-29
Anticipated expiration: 2038-09-28
Also published as: CN109086463A

Abstract

本发明涉及一种基于区域卷积神经网络的问答社区标签推荐方法，具体是涉及对问答社区中的问题数据集先进行数据预处理，再通过建立词典生成句向量，在卷积层中，对数据集中的每个问题中的每个单词都进行词嵌入处理，然后用区域卷积神经网络模型对句向量进行训练，最后利用训练完成的模型对问答社区中的新问题进行标签推荐。具有如下突出特点和优点：第一，引入双向循环卷积层，结合单词的上下文对单词进行表示，可以更好的反应句子中单词之间的联系，双向循环结构可以准确抓取单词的上下文；第二，卷积神经网络处理大型图片的能力使得其可以处理较大的数据集；第三，卷积神经网络在图片处理中的迁移性，使得其用在标签推荐中也能有很好的迁移性。

Description

一种基于区域卷积神经网络的问答社区标签推荐方法

技术领域

本发明涉及一种基于区域卷积神经网络的问答社区标签推荐方法。

背景技术

随着互联网的快速发展，越来越多的IT爱好者在互联网上寻求帮助，分享经验，以及学习新技术知识，由此出现了各种开发者问答社区，像StackOverflow和Freeecode这样的软件信息站点可以为全世界的开发者提供信息共享和交流。

为了便于正确的分类和高效的搜索，开发者需要为他们的发布提供标签。然而，标签本质上是一个不协调的过程，不仅取决于开发者对自己帖子的理解，还取决于其他因素，包括开发者的英语技能和对现有帖子的了解。

因此，即使现有的标签已经足够，开发者也不断创建新的标签。最终的效果是，随着时间的推移，越来越多的标签具有严重的冗余性，并有更多的新标签发布，从而导致任何基于标签的算法效率和准确性都会降低。

目前国内外针对问答社区的标签推荐，有基于模糊集合理论，考虑了系统的动态演化的标签推荐方法，有包含多标签排名组件，基于相似度的排名组件和基于标签项的排名组件的标签推荐方法，还有基于贝叶斯推理组件和频率推理组件的标签推荐方法。

上述基于模糊集合理论和相似度排名及贝叶斯推理的方法存在以下不足：

(1)它们应用限制在相对较小的数据集中；

(2)它们是不可扩展的，并且不能够处理问答社区中的连续更新；

(3)它们的召回率和精度指标表现并不理想。

发明内容

本发明的目的在于针对目前问答社区标签推荐方面的不足，提供一种基于区域卷积神经网络的标签推荐方法，对问答社区中的问题数据集先进行数据预处理，再通过建立词典生成句向量，在卷积层中，对数据集中的每个问题中的每个单词都进行词嵌入处理，然后用区域卷积神经网络模型对句向量进行训练，最后利用训练完成的模型对问答社区中的新问题进行标签推荐。

为了达到上述的目的，本发明的构思如下：首先使用scrapy框架从StackOverflow等问答社区上获取问题数据，并用脚本对数据进行清洗，然后对清洗后的数据建立词典并利用词典生成训练集矩阵，利用Mikilovo方法将训练集的矩阵变成三维矩阵，再用区域卷积神经网络模型对句向量进行训练以得到合适的模型参数，最后利用训练得到的模型新问题进行标签推荐。

根据以上构思，本发明采用的一个技术方案是：提供一种基于区域卷积神经网络的问答社区标签推荐方法，其特征在于：包括以下步骤：

步骤1、使用scrapy框架从问答社区上获取问题数据集和标签集；

步骤2、对每条问题数据进行数据清洗，去除问题中的标点符号，多余空格和代码，只留下单词，并将单词全部转化为小写，得到清洗后的数据集data；

步骤3、将数据集data分为规模为n的训练集train和规模为m的测试集test；

步骤4、对训练集train建立词典D：

步骤5、对训练集train中的每一个问题数据建立句向量，对于第j个问题中的第i个单词W_ij将其用W_ij在词典D中的编号来代替，采样如下：

train_j＝[1,2,11,32,35,25,68,37,…,66,89]

步骤6、标签集大小为s_tag，对trainj建立长度为s_tag的向量tagj，将tagj中trainj的标签在标签集中的对应位置的元素置1，其余元素置0，将tagj中的元素追加到trainj的最后；

步骤7、由训练集train词向量可以得到对应的n*k矩阵，其中k为最长的问题的大小与s_tag之和；

步骤8、对训练集trian进行打乱顺序得到训练集t：

步骤9.利用Mikilovo方法将训练集t变成三维矩阵T；

步骤10、构建卷积神经网络模型TagRCNN，包括双向循环结构卷积层、池化层和softmax层；

步骤11、对训练集T进行多轮迭代卷积神经网络训练；

步骤12、利用测试集对模型TagRCNN进行测试，计算召回率准确率和F1-scorel来检验模型TagRCNN的效果，调整参数，重复步骤7-10直到得一个最终卷积神经网络模型TagRCNN。

在上述的一种基于区域卷积神经网络的问答社区标签推荐方法，所述步骤4具体包括

步骤4a、建立字典变量dict；

步骤4b、对于train中的每个词W_i来说，如果W_i没有出现在dict中，则将键值对{W_i:1}加入dict，如果W_i在dict中已存在，则对D中的W_i的值进行更新：{W_i:w+1}；

步骤4c、对dict中的词dicti进行编号得到词典D。

在上述的一种基于区域卷积神经网络的问答社区标签推荐方法，所述步骤10具体包括

步骤10a、对域矩阵T中的每个句子o_i中的单词W_i，其对应的词嵌入向量为e(W_i)，其对应的左右上下文C_l(W_i)和C_r(W_i)可以由W_i-1的词嵌入和左右上下文表示，公式如下：

C_l(W_i)＝f(W^lC_l(W_i))+W^sle(W_i-1))

C_r(W_i)＝f(W^rC_r(W_i+1))+W^sre(W_i+1))

其中W^l是将当前隐藏层转换为下一个隐藏层的矩阵，W^sl是用于将当前单词语义与下一个单词的上下文进行组合的矩阵，f是非线性激活数；

步骤10b、单词W_i的表示x_i由单词W_i以及W_i的左右上下文组成，如下所示：

x_i＝[C_l(W_i):e(W_i):C_r(W_i)]

步骤10c:对x_i应用tanh线性激活函数得到结果y_i:

其中W⁽²⁾是将第二层隐藏层转换为下一个隐藏层的矩阵，b⁽²⁾是第二层隐藏层的偏置；

步骤10d、将

作为第三层最大池化层的输入，选取

中最大的元素作为输出：

步骤10e、将最大池化层的输出经过输出层的处理，得到最终的输出结果

步骤10f、用softmax函数处理

从而得到标签的概率分布P_i，前K个概率最高的标签被推荐给问题o_i，其中概率分布的计算公式如下：

在上述的一种基于区域卷积神经网络的问答社区标签推荐方法，所述步骤12具体包括

步骤12a、计算召回率:对于测试集中的问题testi,其召回率Recall@ki计算方式如下，其中

为模型推荐的标签，tagi为testi原有标签，topK为自定义推荐标签数；

整个测试集的召回率计算方式如下：

步骤12b、计算准确率:对于测试集中的问题testi,其召回率Precision@ki计算方式如下，其中

整个测试集的准确率计算方式如下：

步骤12c、计算F1-score:对于测试集中的问题testi,其F1-score@ki计算方式如下

整个测试集的准确率计算方式如下：

步骤12d、调整模型参数，使得F1-score尽可能的大，召回率尽可能高。

本发明的有益效果是：一种基于区域卷积神经网络的问答社区标签推荐方法与现有的技术相比较，具有如下突出特点和优点：第一，引入双向循环卷积层，结合单词的上下文对单词进行表示，可以更好的反应句子中单词之间的联系，双向循环结构可以准确抓取单词的上下文；第二，卷积神经网络处理大型图片的能力使得其可以处理较大的数据集；第三，卷积神经网络在图片处理中的迁移性，使得其用在标签推荐中也能有很好的迁移性。

附图说明

图1是本发明中区域卷积神经网络的示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步的说明。

1)对域矩阵T中的每个句子o_i中的单词W_i，其对应的词嵌入向量为e(W_i)，其对应的左右上下文C_l(W_i)和C_r(W_i)可以由W_i-1的词嵌入和左右上下文表示，公式如下：

C_l(W_i)＝f(W^lC_l(W_i))+W^sle(W_i-1))

C_r(W_i)＝f(W^rC_r(W_i+1))+W^sre(W_i+1))

其中W^l是将当前隐藏层转换为下一个隐藏层的矩阵，W^sl是用于当前单词语义与下一个单词的上下文进行组合的矩阵。f是非线性激活函数。

2)单词W_i的表示x_i由单词W_i以及W_i的左右上下文组成，如下所示：

x_i＝[C_l(W_i):e(W_i):C_r(W_i)]

3)对x_i应用tanh线性激活函数得到结果y_i:

其中W⁽²⁾是将第二层隐藏层转换为下一个隐藏层的矩阵，b⁽²⁾是第二层隐藏层的偏置。

4)将

作为第三层最大池化层的输入，选取

中最大的元素作为输出：

5)将最大池化层的输出经过输出层的处理，得到最终的输出结果

6)用softmax函数处理

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。