CN112434517A

CN112434517A - 一种结合主动学习的社区问答网站答案排序方法及系统

Info

Publication number: CN112434517A
Application number: CN202011240697.1A
Authority: CN
Inventors: 刘均; 任若清; 曾宏伟; 马昆明
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-03-02
Anticipated expiration: 2040-11-09
Also published as: CN112434517B; US20230035338A1; US11874862B2; WO2022095573A1

Abstract

一种结合主动学习的社区问答网站答案排序方法及系统，排序方法包括步骤S1进行问答数据表征和建模，步骤S2结合主动学习构建训练集以及候选问答对排序关系预测。本发明同时提供了一种结合主动学习的社区问答网站答案排序系统。本发明首先对CQA网站问答数据进行表征和建模，通过长尾因子解决社区数据长尾分布给答案排序带来的干扰，在卷积神经网络中引入注意力机制缓解问答文本间的语义鸿沟问题。然后将主动学习和答案排序相结合，在基于规则自动构建标注训练集外，还构建未标注训练集，在未标注训练集中额外选择样本进行标注，将标注结果合并之后再次训练答案排序模型，从而实现以尽可能低的标注代价换取到尽可能高的模型性能。

Description

一种结合主动学习的社区问答网站答案排序方法及系统

技术领域

本发明涉及互联网技术，具体为一种结合主动学习的社区问答网站答案排序方法及系统。

背景技术

自21世纪以来，以用户为中心的Web2.0技术飞速发展，互联网用户成为拥有网络内容消费者和网络内容生成者双重身份的新时代用户。互联网对用户生成内容(UserGenerate Content，UGC)的支持，使得用户间通过网络可以分享更为复杂、多样的信息，基于此，社区问答(Community Question Answering，CQA)网站应运而生。CQA网站是一类开放的知识信息交流平台，通过自然语言问答形式将有信息需求的用户和乐于分享个人经验知识的用户关联到一起，实现知识信息准确、直接的传递，并支持用户通过点赞、评论等操作表达对问答数据的态度。从2005年第一个CQA网站“Yahoo！Answers”的出现，到至今“StackExchange”、“Quora”、“知乎”、“百度知道”等各类中英文CQA网站的不断出现，吸引了大量用户，成为用户获取信息和分享经验知识的重要渠道。

CQA网站发展至今，用户在系统中获取信息的方式经历了从直接提问到优先搜索的变迁。CQA网站发展初期，没有问答数据积累，有信息需求的用户通常会选择直接提问并等待其他的用户回答，这种方式可以直接获得用户所需信息，但通常等待时间很长，甚至等待很长时间后也没有答案。近年来，CQA网站快速发展，积累了大量问答数据，其中包含着很多相似提问甚至是相同提问，所以大部分用户在提问前会优先基于自己的问题检索CQA网站的历史问答数据，当检索到的历史问答数据无法满足需求时再去提问，从而减少等待时间，提升使用体验。目前主流CQA网站的检索功能一般给用户返回相似问题列表，并分别对每个相似问题的答案根据点赞、评论等数据进行排序。这种方式在一定程度上能够帮助用户进行答案选择，但依然存在问题，例如大量问答数据的浏览和对来自不同相似问题的答案之间的优劣判断造成了用户的认知过载，降低了用户的使用体验。所以，需要对所有相似问题的答案进行统一排序，针对用户的检索目标直接返回已排序的答案列表，帮助用户进行答案选择已成为了研究热点，即CQA网站答案排序任务，也可以称为社区问答任务。然而，CQA网站问答数据的特点给CQA网站答案排序方法的研究造成了困难。首先，CQA网站问答文本长度相差较大，共现词少且分布稀疏，另外，作为用户生成文本，答案文本中包含了大量冗余、噪声甚至是错误信息，加剧了问答文本间的语义鸿沟问题，对文本建模造成了困难；其次，CQA网站相关工作一般会引入基于社区数据计算的社区特征，如基于问题下所有答案总赞同数计算某个答案的赞同数份额，基于用户回答数计算用户平均每个回答所获得的赞同数，这种计算只有在社区数据足够大时才能保证社区特征的准确性。而现实中，CQA网站社区数据呈长尾分布，大量问答数据的社区特征数据很小，导致答案排序模型偏向大量社区特征难以准确反映数据真实水平的问答数据；最后，考虑到CQA网站中问题下正确答案并不唯一，用户对某个答案的评价基于与其他候选答案的比较，所以更适合采用基于答案对的排序方法，即将答案排序问题转换为一系列二分类问题，预测目标问题下任意两个候选答案的排序关系。相较于预测问题和答案间相关性的基于单答案的排序方法，基于答案对的排序方法在训练集标注时需要对任意两个候选答案间的排序关系进行标注，训练集规模增长且标注难度增加。

目前国内外不少CQA网站答案排序相关工作为了降低训练集标注代价采用基于单答案的排序方法，直接对问题和每一个候选答案进行建模，预测问答间相关性，忽略了CQA网站中答案间的排序关系；并且在对CQA网站问答数据进行表征时，没有考虑到问答文本数据间明显的语义鸿沟，也没有考虑到问答社区数据长尾分布给研究带来的干扰。

发明内容

本发明的目的在于针对上述现有技术中CQA网站答案排序时问答文本数据间语义鸿沟以及问答社区数据长尾分布带来的问题，提供一种结合主动学习的社区问答网站答案排序方法及系统，减少答案排序过程中的干扰，降低文本建模的难度以及样本标注代价。

为了实现上述目的，本发明有如下的技术方案：

一种结合主动学习的社区问答网站答案排序方法，包括以下步骤：

S1、问答数据表征和建模：首先抽取问答数据文本特征，将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵；然后基于问答相关社区数据计算问答数据社区特征，通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间，将所述的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征；最后将问答数据社区特征输入QQA-CNN模型将问答数据表征为分布式向量；

S2、结合主动学习构建训练集以及候选问答对排序关系预测：首先对问答数据集进行统计分析，将统计结果形式化为规则，基于规则自动构建初步的标注训练集；然后基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系；最后构建未标注训练集，结合主动学习从中选择额外样本进行人工标注，将标注结果合并进初步的标注训练集再次训练答案排序模型，利用再次训练后的答案排序模型进行社区问答网站答案排序。

优选的，所述的步骤S1首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词，然后利用word2vec分别将文本表示为词向量矩阵。

优选的，所述的步骤S1中问答相关社区数据包括问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数以及用户关注者数；

所述的问题答案数指问题下的答案总数，所述的用户回答数指用户在网站中提供的答案总数，所述的用户关注者数指用户被关注的总人次；所述的答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例，答案赞同份额的计算方式如下：

式中：

表示答案

的赞同份额；

表示答案

获得的赞同数；

表示问题q_i下所有答案的赞同数之和；m_i表示问题q_i下的答案总数；

所述的用户平均赞同数、用户平均喜欢数以及用户答案平均被收藏数分别指的是用户平均每个回答获得的赞同数、喜欢数和被收藏数，其计算方式如下：

式中：uac_i表示用户u_i的回答数；uvc_i表示用户u_i所有回答获得的总赞同数，即用户赞同数；ula_i表示用户u_i的平均喜欢数；ulc_i表示用户u_i所有回答获得的喜欢数总和，即用户喜欢数。

优选的，所述的步骤S1的问题长尾因子和用户长尾因子计算方式如下：

式中：qv_i表示问题q_i下所有答案的赞同数之和，即

m_i为问题下的答案总数；

ω_q＝0.1，φ_q＝0.6均表示问题长尾因子计算参数；

uac_i表示用户u_i的回答数；

ω_u＝0.1，φ_u＝1均表示用户长尾因子计算参数。

优选的，步骤S1中的QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络，以及两个深度网络间的注意力机制模块和特征连接层；针对目标问题的深度网络包括两个卷积层和两个池化层，针对候选答案的深度网络包含三个卷积层和三个池化层，QQA-CNN模型在两个深度网络前、两个池化层间分别引入了两个注意力机制模块，最终在特征连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接，得到CQA网站问答数据的表征。

优选的，所述的卷积层中，QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征；池化层中，QQA-CNN采用两种池化策略，对于中间池化层QQA-CNN模型采取部分池化，即对一定长度窗口内的特征进行平均池化；对于网络中的最后一个池化层，QQA-CNN模型采用全部池化，即对卷积结果在句长维度上进行平均池化；注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重，将结果应用于池化层中进行加权池化，对于目标问题和候选答案文本特征经过卷积层得到的特征图

和

注意力矩阵A计算表达式如下：

式中：|·|表示欧几里得距离；

注意力矩阵A中，在每行和每列上对元素进行求和即为单词的权重。

所述的特征连接层进行特征的合并，包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度，最终通过QQA-CNN模型将问答数据表征为分布式向量。

优选的，所述的步骤S2对问答数据集进行统计分析后，得到三条规则并对其进行形式化；首先，CQA网站中，同一问题下，最佳答案的排名会高于非最佳答案；其次，CQA网站中，同一问题下，非最佳答案间的排名先后顺序没有区别；最后，CQA网站中，目标问题下与目标问题领域相同问题的答案的排名比与目标问题领域不同问题的答案的排名高；

对以上三条规则形式化如下：

其中，m≠1，n≠m，符号＞代表对于目标问题q_i，候选问答对

比候选问答对

的排名高，即排序标签为1，符号

代表对于目标问题q_i，候选问答对

和候选问答对

间没有排序关系，即排序标签为0；

基于形式化得到的三条规则，设计程序自动构建标注训练集L。

优选的，所述的步骤S2答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建，输入包括目标问题和两个候选问答对相关的文本特征和社区特征；

首先，模型将输入的目标问题和两个候选问答对分别组成两个问答三元组，将三元组相关文本特征和社区特征分别输入两个共享参数的QQA-CNN模型得到两个三元组问答数据的特征表示；

然后，将由QQA-CNN模型学习到的问答数据三元组的特征表示输入全连接层，通过非线性映射得到目标问题和候选问答对间的相关性分数，根据目标问题和两个候选问答对间相关性分数的大小输出最终的排序标签；当输出为1时，意味着第一个候选问答对在最终排序中比第二个候选问答对排名高；而当输出为-1时，则结果相反；

答案排序模型的损失函数由铰链损失函数、参数正则项和惩罚项构成如下：

式中：t_i和t_i'表示排序标签为1和-1的问答三元组相关特征集合；u_j和u'_j表示排序标签为0的问答三元组相关特征集合；F(t_i)表示t_i通过QQA-CNN进行表征后输入全连接层得到的相关性分数；y_i表示候选问答对期望的先后排序标签；Φ表示答案排序模型中的所有参数，包括QQA-CNN模型和全连接层中的参数；λ和μ表示答案排序算法超参数，λ＝0.05，μ＝0.01。

优选的，所述的步骤S2未标注训练集根据实际研究目标进行构建，对目标问题，在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题；然后，用相似问题及相似问题下所有答案构建目标问题的候选问答对集；最后，不重复的从目标问题候选问答对集中每次选择两个候选问答对，将目标问题和两个候选问答对分别组成两个三元组，则两个三元组构成的三元组对就是未标注训练集中的一个样本；在自动构建标注训练集外，将主动学习应用于答案排序算法，根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型；查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距，差距越小，信息熵越大，模型预测结果的不准确性越大，具体计算公式如下：

式中：

表示TT_i'中三元组t_i和t_i'排序标签为1的概率；f表示sigmoid函数；rscore(t_i)表示通过答案排序模型得到的三元组t_i的相关性分数；

查询函数在选择样本时结合候选答案间的相似度，最终查询函数如下：

q(TT_i')＝e(TT_i')+β·sim(a_i,a_i')

式中：a_i和a_i'表示两个候选答案的文本特征矩阵；sim表示余弦相似度；β参数决定协调候选答案相似度对最终查询分数的影响，β＝0.1；

将所有目标问题相同的样本的标注分数之和作为目标问题的标注分数，计算表达式如下：

式中：m_i表示目标问题query_i下问答三元组对的数量。

本发明同时提供一种结合主动学习的社区问答网站答案排序系统，包括：

问答数据表征模块，用于抽取问答数据文本特征，将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵；基于问答相关社区数据计算问答数据社区特征，通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间，将得到的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征，并通过将问答数据社区特征输入QQA-CNN模型，使得问答数据表征为分布式向量；

训练集构建与答案排序模块，用于通过对问答数据集进行统计分析，将统计结果形式化为规则，基于规则自动构建初步的标注训练集，基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系，构建未标注训练集，通过结合主动学习从中选择额外的样本进行人工标注，将标注结果合并进初步的标注训练集再次训练答案排序模型，利用再次训练后的答案排序模型进行社区问答网站答案排序。

相较于现有技术，本发明有如下的有益效果：首先对CQA网站问答数据进行表征和建模，通过长尾因子解决社区数据长尾分布给答案排序带来的干扰，在卷积神经网络中引入注意力机制缓解问答文本间的语义鸿沟问题。然后将主动学习和答案排序相结合，在基于规则自动构建标注训练集外，还构建未标注训练集，在未标注训练集中额外选择样本进行标注，将标注结果合并之后再次训练答案排序模型，从而实现以尽可能低的标注代价换取到尽可能高的模型性能。本发明能够对CQA网站中目标问题下的候选答案进行统一排序。

附图说明

图1为本发明QQA-CNN模型的结构示意图；

图2为本发明答案排序模型的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

本发明结合主动学习的社区问答网站答案排序方法可以分为如下2个过程：

(1)问答数据表征和建模，包括3个步骤；

第1步：首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词，然后利用word2vec分别将文本表示为词向量矩阵。

第2步：抽取问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数、用户关注者数作为问答数据社区特征。

问题答案数指问题下的答案总数；用户回答数指用户在网站中提供的答案总数；用户关注者数指用户被关注的总人次。

答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例，计算公式如下：

式中：

表示答案

的赞同份额；

表示答案

获得的赞同数；

表示问题q_i下所有答案的赞同数之和；m_i表示问题q_i下的答案总数。

用户平均赞同数、用户平均喜欢数和用户答案平均被收藏数指用户平均每个回答获得的赞同数、喜欢数和被收藏数，计算公式分别如下：

考虑到社区问答网站中用户回答数和问题下答案总赞同数呈长尾部分，大部分问题下答案总赞同数很少，大部分用户回答数很少，为反映不同问题下答案的答案赞同份额和不用用户的用户平均赞同数等社区特征的计算基数问题下答案总赞同数和用户回答数的差异，提出问题长尾因子和用户长尾因子，计算公式分别如下：

式中：qv_i表示问题q_i下所有答案的赞同数之和，即

m_i为问题下的答案总数；ω_q＝0.1，φ_q＝0.6表示问题长尾因子计算参数；uac_i表示用户u_i的回答数；ω_u＝0.1，φ_u＝1表示用户长尾因子计算参数。

问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间，通过用社区特征乘以长尾因子的结果代替社区特征，以平衡因数据长尾分布给研究带来的影响。

第3步：将目标问题、候选答案和候选答案对应原问题的文本特征和问答数据相关社区特征输入QQA-CNN模型获取问答数据的分布式表示。

QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络，两个深度网络间的注意力机制模块和特征连接层。针对目标问题的深度网络包括两个卷积层和两个池化层，针对候选答案的深度网络包含三个卷积层和三个池化层，QQA-CNN在两个深度网络前两个池化层间分别引入了两个注意力机制模块，最终在连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接，最终得到CQA网站问答数据的表征。

卷积层中，QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征。池化层中，QQA-CNN模型采用两种池化策略，对于中间池化层QQA-CNN模型采取部分池化，即对一定长度窗口内的特征进行平均池化；对于网络中的最后一个池化层，QQA-CNN模型采用全部池化，即对卷积结果在句长维度上进行平均池化。注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重，将结果应用于池化层中进行加权池化，对于目标问题和候选答案文本特征经过卷积层得到的特征图

和

注意力矩阵A计算公式如下：

式中：|·|表示欧几里得距离，注意力矩阵A中，在每行和每列上对元素进行求和即为单词的权重。

QQA-CNN在两个深度神经网络后增加了一个连接层，进行特征的合并，包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度。最终，通过QQA-CNN模型将问答数据表征为分布式向量。

(2)结合主动学习的训练集构建及候选问答对间排序关系预测，包括3个步骤。

第1步：对社区问答网站问答数据集进行统计分析，将得到的结果形式化为规则从而自动构建标注训练集。

对问答数据集进行统计分析后，得到三条规则并对其进行形式化。首先，CQA网站中，同一问题下，最佳答案的排名通常会高于非最佳答案。其次，CQA网站中，同一问题下，非最佳答案间的排名先后顺序没有明显的区别。最后，CQA网站中，目标问题下与目标问题领域相同的问题下的答案的排名比与目标问题领域不同的问题下的答案的排名高。

对以上三条规则形式化如下：

其中，m≠1，n≠m，符号＞代表对于目标问题q_i，候选问答对

比候选问答对

的排名高，即排序标签为1，符号

代表对于目标问题q_i，候选问答对

和候选问答对

间没有明显的排序关系，即排序标签为0。

第2步：基于QQA-CNN模型构建答案排序模型并训练预测任意两个候选答案间的排序关系。

答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建，输入包括目标问题和两个候选问答对相关的文本特征和社区特征。首先，模型将输入的目标问题和两个候选问答对分别组成两个问答三元组，将三元组相关文本特征和社区特征分别输入两个共享参数的QQA-CNN模型得到两个三元组问答数据的特征表示；然后，将由QQA-CNN模型学习到的问答数据三元组的特征表示输入全连接层，通过非线性映射得到目标问题和候选问答对间的相关性分数，根据目标问题和两个候选问答对间相关性分数的大小输出最终的排序标签。当输出为1时，意味着第一个候选问答对在最终排序中应比第二个候选问答对排名高；而当输出为-1时，则结果相反。

式中：t_i和t’_i表示排序标签为1和-1的问答三元组相关特征集合；u_j和u'_j表示排序标签为0的问答三元组相关特征集合；F(t_i)表示t_i通过QQA-CNN进行表征后输入全连接层得到的相关性分数；y_i表示候选问答对期望的先后排序标签；Φ表示答案排序模型中的所有参数，包括了QQA-CNN网络和全连接层中的参数；λ和μ表示答案排序算法超参数，λ＝0.05，μ＝0.01。

第3步：构建未标注样本集，结合主动学习从中选择额外样本进行人工标注，合并进标注训练集进一步训练答案排序模型。

未标注训练集U根据实际研究目标进行构建，对目标问题，在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题；然后，用相似问题及相似问题下所有答案构建目标问题的候选问答对集；最后，不重复的从目标问题候选问答对集中每次选择两个候选问答对，将目标问题和两个候选问答对分别组成两个三元组，则两个三元组构成的三元组对就是未标注训练集中的一个样本。

为降低训练集标注代价，在自动构建标注训练集外，将主动学习应用于答案排序算法，根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型。

查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距，差距越小，信息熵越大，模型预测结果的不准确性越大，具体计算公式如下：

式中：

表示TT_i'中三元组t_i和t’_i排序标签为1的概率；f表示sigmoid函数；rscore(t_i)表示通过答案排序模型得到的三元组t_i的相关性分数。

另外，考虑到社区问答网站中相似问题的优质答案具有一定的相似性，所以查询函数在选择样本时也考虑候选答案间的相似度，最终查询函数如下：

q(TT_i')＝e(TT_i')+β·sim(a_i,a’_i) (14)

式中：a_i和a’_i表示两个候选答案的文本特征矩阵；sim表示余弦相似度；β参数表示协调候选答案相似度对最终查询分数的影响，β＝0.1。

将所有目标问题相同的样本的标注分数之和作为目标问题的标注分数，计算公式如下：

式中：m_i表示目标问题query_i下问答三元组对的数量。

以上所述的仅仅是本发明的较佳实施例，并不用以对本发明的技术方案进行任何限制，本领域技术人员应当理解的是，在不脱离本发明精神和原则的前提下，该技术方案还可以进行若干简单的修改和替换，这些修改和替换也均属于权利要求书所涵盖的保护范围之内。

Claims

1.一种结合主动学习的社区问答网站答案排序方法，其特征在于，包括以下步骤：

2.根据权利要求1所述结合主动学习的社区问答网站答案排序方法，其特征在于：所述的步骤S1首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词，然后利用word2vec分别将文本表示为词向量矩阵。

3.根据权利要求1所述结合主动学习的社区问答网站答案排序方法，其特征在于：所述的步骤S1中问答相关社区数据包括问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数以及用户关注者数；

式中：

表示答案

的赞同份额；

表示答案

获得的赞同数；

4.根据权利要求1所述结合主动学习的社区问答网站答案排序方法，其特征在于，所述的步骤S1的问题长尾因子和用户长尾因子计算方式如下：

式中：qv_i表示问题q_i下所有答案的赞同数之和，即

m_i为问题下的答案总数；

ω_q＝0.1，φ_q＝0.6均表示问题长尾因子计算参数；

uac_i表示用户u_i的回答数；

ω_u＝0.1，φ_u＝1均表示用户长尾因子计算参数。

5.根据权利要求1所述结合主动学习的社区问答网站答案排序方法，其特征在于：所述的步骤S1中的QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络，以及两个深度网络间的注意力机制模块和特征连接层；针对目标问题的深度网络包括两个卷积层和两个池化层，针对候选答案的深度网络包含三个卷积层和三个池化层，QQA-CNN模型在两个深度网络前、两个池化层间分别引入了两个注意力机制模块，最终在特征连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接，得到CQA网站问答数据的表征。

6.根据权利要求5所述结合主动学习的社区问答网站答案排序方法，其特征在于：

所述的卷积层中，QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征；池化层中，QQA-CNN模型采用两种池化策略，对于中间池化层QQA-CNN模型采取部分池化，即对一定长度窗口内的特征进行平均池化；对于网络中的最后一个池化层，QQA-CNN模型采用全部池化，即对卷积结果在句长维度上进行平均池化；注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重，将结果应用于池化层中进行加权池化，对于目标问题和候选答案文本特征经过卷积层得到的特征图

和

注意力矩阵A计算表达式如下：

式中：|·|表示欧几里得距离；

注意力矩阵A中，在每行和每列上对元素进行求和即为单词的权重；

7.根据权利要求1所述结合主动学习的社区问答网站答案排序方法，其特征在于：所述的步骤S2对问答数据集进行统计分析后，得到三条规则并对其进行形式化；首先，CQA网站中，同一问题下，最佳答案的排名会高于非最佳答案；其次，CQA网站中，同一问题下，非最佳答案间的排名先后顺序没有区别；最后，CQA网站中，目标问题下与目标问题领域相同问题的答案的排名比与目标问题领域不同问题的答案的排名高；

对以上三条规则形式化如下：

其中，m≠1，n≠m，符号＞代表对于目标问题q_i，候选问答对

比候选问答对

的排名高，即排序标签为1，符号

代表对于目标问题q_i，候选问答对

和候选问答对

间没有排序关系，即排序标签为0；

8.根据权利要求1所述结合主动学习的社区问答网站答案排序方法，其特征在于：所述的步骤S2答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建，输入包括目标问题和两个候选问答对相关的文本特征和社区特征；

式中：t_i和t′_i表示排序标签为1和-1的问答三元组相关特征集合；u_j和u′_j表示排序标签为0的问答三元组相关特征集合；F(t_i)表示t_i通过QQA-CNN进行表征后输入全连接层得到的相关性分数；y_i表示候选问答对期望的先后排序标签；Φ表示答案排序模型中的所有参数，包括QQA-CNN模型和全连接层中的参数；λ和μ表示答案排序算法超参数，λ＝0.05，μ＝0.01。

9.根据权利要求1所述结合主动学习的社区问答网站答案排序方法，其特征在于：所述的步骤S2未标注训练集根据实际研究目标进行构建，对目标问题，在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题；然后，用相似问题及相似问题下所有答案构建目标问题的候选问答对集；最后，不重复的从目标问题候选问答对集中每次选择两个候选问答对，将目标问题和两个候选问答对分别组成两个三元组，则两个三元组构成的三元组对就是未标注训练集中的一个样本；在自动构建标注训练集外，将主动学习应用于答案排序算法，根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型；查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距，差距越小，信息熵越大，模型预测结果的不准确性越大，具体计算公式如下：

式中：

表示TT′_i中三元组t_i和t′_i排序标签为1的概率；f表示sigmoid函数；rscore(t_i)表示通过答案排序模型得到的三元组t_i的相关性分数；

q(TT′_i)＝e(TT′_i)+β·sim(a_i,a′_i)

式中：a_i和a′_i表示两个候选答案的文本特征矩阵；sim表示余弦相似度；β参数决定协调候选答案相似度对最终查询分数的影响，β＝0.1；

式中：m_i表示目标问题query_i下问答三元组对的数量。

10.一种结合主动学习的社区问答网站答案排序系统，其特征在于，包括：