CN115408603A

CN115408603A - 一种基于多头自注意力机制的在线问答社区专家推荐方法

Info

Publication number: CN115408603A
Application number: CN202210889993.7A
Authority: CN
Inventors: 林耿; 陈颖婷
Original assignee: Minjiang University
Current assignee: Minjiang University
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-29

Abstract

本发明公开了一种基于多头自注意力机制的在线问答社区专家推荐方法，涉及智能推荐技术领域。本发明提出的方法，核心在于构建的问题编码器和用户编码器，问题编码器由卷积神经网络和注意力机制组成，用于处理目标问题和用户历史回答问题，提取问题特征；用户编码器则是利用多头自注意力机制学习用户历史回答序列中隐含的动态兴趣特征，再结合用户的静态兴趣特征，获取用户的综合特征；最后，将输出的目标问题特征和用户综合特征进行相似性计算产生推荐结果，为平台提供准确、个性、实时的推荐服务，提高问题解答率。

Description

一种基于多头自注意力机制的在线问答社区专家推荐方法

技术领域

本发明涉及智能推荐技术领域，特别涉及一种基于多头自注意力机制的在线问答社区专家推荐方法。

背景技术

随着互联网的普及，在线问答社区成为重要的知识共享平台，然而，随着平台数据量的爆发式增长，如何将海量问题有效地推荐给专家用户得到解答是平台面临的严峻挑战。

常用的专家推荐方法主要有链接分析法和文本分析法。链接分析法是通过社区用户的问答关系发现专家，代表方法：网页排序法和超链接主题搜索法。文本分析法则是针对用户的解答记录进行建模，挖掘用户兴趣，计算兴趣标签和问题标签的匹配度，代表方法：概率潜在语义分析模型和潜在狄利克雷特分布主题模型。另外，一些工作将专家推荐问题转化为分类问题，利用机器学习中的决策树和支持向量机来解决问题，可以将多方面的特征应用于专家推荐。上述这些方法的缺点是：1.依赖人工构建的复杂特征质量，阻碍了推荐的可扩展性。2.难以学习到抽象的高阶特征交互信息。3.不能融入图像、文本等异构多源信息，数据挖掘不充分。

近年来，深度学习技术不断发展，其优势在于使机器像人类一样学习并处理复杂问题，通过深度网络结构提取高阶特征交互信息，无需手动构建复杂特征。而在深度学习方法的专家推荐应用中，最为流行的是卷积神经网络(CNN)和循环神经网络(RNN)。CNN擅长学习输入文本的上下文特征信息，利用CNN将用户兴趣和给定问题词嵌入特征表示，再通过软磁层输出结果，预测用户是否专家用户。RNN则是擅长处理时间序列特征，学习序列间的依赖关系，通过将用户历史解答信息抽象为序列信息，输入RNN中捕获用户的动态兴趣变化，该方法的代表模型有长短期记忆网络、门控循环网络等。上述方法的缺点为：1.忽略实际场景下的用户短期兴趣漂移，没有充分考虑用户的个性化需求，这会影响到推荐质量。2.RNN因其特有的顺序结构，只能逐个计算，不能并行计算，且容易丢失序列前端信息，影响到推荐的准确度。因此，现有的专家推荐方法往往忽略用户的动态兴趣变化，不能很好地提取动态兴趣特征，降低了推荐的准确度。

发明内容

本发明要解决的技术问题，在于提供一种基于多头自注意力机制的在线问答社区专家推荐方法，通过多头自注意力机制提取用户的动态兴趣表征，根据用户的历史回答问题序列动态地捕捉用户的短期兴趣变化，为在线问答社区提供准确、个性、实时的专家推荐服务，提高问题解答率。

为了解决上述技术问题，本发明是这样实现的：

一种基于多头自注意力机制的在线问答社区专家推荐方法，包括：问题编码器构建过程、用户编码器构建过程、预测器构建过程、深度学习模型训练过程以及预测过程；

所述问题编码器构建过程包括：对问题进行特征编码，提取问题标题和问题主题中的信息作为问题标签，将其与专家用户的兴趣标签进行匹配；将数据集中的所有问题记录进行训练，构造出问题编码器；

所述用户编码器构建过程包括：对用户的历史回答问题序列和用户关注主题进行特征编码；利用多头自注意力机制从历史回答问题序列中提取用户的动态兴趣特征信息，再从用户关注主题中提取用户的静态兴趣特征信息，将用户的动态兴趣表示向量和静态兴趣表示向量进行拼接，获取用户的综合表示向量；

所述预测器构建过程包括：对给定的问题和邀请用户，通过计算目标问题的表示向量和邀请用户的综合表示向量的相似度，判断当前用户是否会接受该问题的邀请；

所述深度学习模型训练过程包括：采集问答社区的训练数据，通过用户-问题的邀请记录结合用户画像和用户回答记录以及问题的描述信息构建训练样本，样本标签标注为0或1，将专家识别问题转化为分类问题；利用训练样本对模型进行训练，获得训练后的模型；

所述预测过程包括：对给定的问题和邀请用户，通过训练后的模型计算目标问题的表示向量和邀请用户的表示向量的相似度，判断当前用户是否会接受该问题的邀请，从而产生专家推荐结果。

进一步地，所述问题编码器构建过程具体包括：

步骤A1、通过嵌入层，对问题的标题分词，并进行词嵌入表示，将其转换为隐含语义空间的词向量表示；

假设问题标题w中的词为w＝[w₁,w₂,...w_l]，l代表w的长度，转化后的词向量表示为：

W＝embedding(w)＝[W₁,W₂,…,W_l]

步骤A2、利用CNN捕捉局部语义信息学习上下文词的表示；

假设隐含上下文词表示的标题词向量记为c_i，其计算公式为：

c_i＝relu(C×W_[i-M,i+M]+b)

其中，非线性激活函数relu(·)的公式为relu(x)＝max(0,x)，W_[i-M,i+M]指位于i-M和i+M间的词嵌入连接，C和b是卷积神经网络的滤波器参数，M为1；

步骤A3、通过注意力机制来分配标题词的权重；

假设第i个词的注意力权重为a_i，其计算公式为：

α_i＝tanh(v×c_i+v_b)

其中，tanh(·)函数公式为

a_i是注意力机制产生的中间变量，v和v_b是可训练参数；

问题标题的表征向量是由CNN所得的上下文词表示，经由注意力权重加权所得的，其计算公式为

步骤A4、对问题所属主题进行分词，并进行词嵌入表示，将其转换为隐含语义空间的词向量表示；

假设问题主题t中的词为t＝[t₁,t₂,...t_l]，l代表t的长度，转化后的词向量表示为：

T＝embedding(t)＝[T₁,T₂,…,T_l]

步骤A5、对一个问题所属主题的词向量进行全局平均池化，获取平均词向量e_t来表示该问题的主题信息，其计算公式为：

e_t＝V_GAPT

步骤A6、对每个问题，执行上述步骤，产生该问题的标题和所属主题的向量表示，再通过向量拼接产生最终的问题向量表示e，如下式：

e＝[e_w,e_t]。

进一步地，所述用户编码器构建过程具体包括：

步骤B1、挖掘用户的历史回答问题序列信息，先将历史回答问题按时间先后排列；再利用上一节的问题编码器对序列中的每个问题进行处理，获取它们的问题向量表示；最后，得到序列E＝[e₁,e₂,...,e_L]^T，L为序列长度；

步骤B2、多头自注意力机制通过加入位置向量P＝[p_(pos,0)，p_(pos,1)，...，p_(pos,2i)，p_(pos,2i+1)]^T表示给序列中的问题表示向量添加时序信息，得到序列E'＝[e₁',e'₂,...,e'_L]^T，其计算公式为：

E'＝E+P

其中，pos是问题在序列中的位置，取值范围是[0,L]，

d_model即位置向量维度；

步骤B3、把序列E'输入多头自注意力机制网络结构来捕捉用户的动态兴趣变化，得到新的序列Z＝[z₁,z₂,...,z_L]^T，每一个输出元素z_i都是输入元素e_i经过多头自注意力机制学习到的用户动态兴趣表示向量u_d；

步骤B4、通过用户关注的主题学习用户的长期兴趣表示向量；

从用户信息中提取用户关注主题d＝[d₁,d₂,...,d_J]，J表示关注的主题数量，先获取词嵌入表示，再进行全局平均池化，得到用户的静态兴趣表示向量u_s，其计算公式为：

步骤B5、将用户的短期动态兴趣表示向量和长期静态兴趣表示向量进行拼接，获取用户的综合表示向量，如下式：

u_s+d＝[u_s,u_d]。

进一步地，所述步骤B3中，多头自注意力机制网络包括多头自注意力网络层、第一残差连接和层标准化操作层，前馈神经网络层、第二残差连接和层标准化操作层以及全局平均池化层；所述多头自注意力网络层包括h个并行计算的自注意力网络；将所得的序列矩阵全局平均池化，获得用户的动态兴趣表示向量u_d。

进一步地，所述预测器对给定的问题和邀请用户，通过计算目标问题q_x的表示向量e_target和邀请用户u_x的综合表示向量u_s+d的相似度，判断当前用户是否会接受该问题的邀请，相似度计算公式为：

score(u_x,q_x)＝sigmoid(u_s+d ^Te_target)

其中，sigmoid(·)函数的公式为

其结果是取值范围在[0,1]的概率得分。

本发明实施例中提供的技术方案，至少具有如下技术效果或优点：

1、利用卷积神经网络和注意力机制对问题描述信息进行特征提取，卷积神经网络可以准确捕捉词的上下文信息，而注意力机制则对提取的特征赋予不同程度关注度。将两种方法结合构造问题编码器，既补充了预训练模型中遗忘的上下文信息，又强调了问题的重要信息，抑制了无关信息，提高了算法的准确性。

2、采用多头自注意力机制处理用户的历史回答问题序列，动态地捕捉用户历史行为中所蕴含的兴趣变化的特征信息。该结构特性既避免了序列前端信息的丢失，又可以学习丰富的特征信息。另外，结合用户的长期关注主题对应的嵌入表示，作为用户的静态兴趣表征，构造了可有效提取用户动静态兴趣的用户编码器。

3、使用预训练词嵌入模型获取问题主题和问题标题的词嵌入表示。将用户综合兴趣特征和目标问题特征进行点积运算，再通过全连接层获得相似度，产生推荐结果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法的流程示意图；

图2为本发明算法的总体框架示意图；

图3为本发明问题编码器的结构示意图；

图4为本发明用户编码器的结构示意图；

图5为本发明多头自注意力机制网络结构示意图；

图6为本发明多头自注意力层的并行结构示意图。

具体实施方式

本发明实施例通过提供一种基于多头自注意力机制的在线问答社区专家推荐方法，通过多头自注意力机制提取用户的动态兴趣表征，根据用户的历史回答问题序列动态地捕捉用户的短期兴趣变化，为在线问答社区提供准确、个性、实时的专家推荐服务，提高问题解答率。

本发明实施例中的技术方案，总体思路如下：

针对用户的动态兴趣表征提取不足而导致的问答社区专家推荐准确度不足的问题，本发明提出了融合多头自注意力的问答社区专家推荐算法，其整体框架如图2所示，包含三个模块：问题编码器、用户编码器、预测器。在问题侧，采用卷积神经网络CNN和注意力机制Attention相结合的方法来构造问题编码器，来处理目标问题和用户历史回答问题，从问题标题和问题主题中提取对应的问题表征。在用户侧，构造可以同时提取用户静态兴趣和动态兴趣表征的用户编码器，其核心网络层是能捕捉用户动态兴趣的多头自注意力机制层；根据用户历史回答问题序列，采用多头自注意力机制学习序列中所蕴含的动态兴趣表征，然后结合用户的静态兴趣表征，得到用户的综合兴趣表征。最后，通过预测器，将目标问题表征和用户综合表征进行相似性计算产生推荐结果。

通过将问答社区的专家推荐问题定义为问题-用户的匹配问题，目标是通过训练集构建的模型获取问题-用户的匹配度，判断用户是否会接受某个问题的邀请。具体的问题描述为：假设Q表示问题集合，U表示用户集合，问题样本表示为q_x，用户样本表示为u_x，给定问题-邀请用户对为[q_x,u_x]，标签为y_x∈{0,1}，其中0表示用户未接收问题邀请，1表示为用户接收邀请并回答，N个训练样本[q_x,u_x,y_x]即构成训练数据集，利用训练数据集构建模型f，并定义损失函数优化模型，判断用户是否会接受某个问题的邀请，即标签y_x为0或为1。

如图1所示，一种基于多头自注意力机制的在线问答社区专家推荐方法，包括：问题编码器构建过程、用户编码器构建过程、预测器构建过程、深度学习模型训练过程以及预测过程；

在一具体实施例中，各个过程的具体实现如下。

一、问题编码器构建阶段

1)通过嵌入层，对问题的标题分词，并进行词嵌入表示。将其转换为隐含语义空间的词向量表示。假设问题标题w中的词为w＝[w₁,w₂,...w_l]，l代表w的长度，转化后的词向量表示为：

W＝embedding(w)＝[W₁,W₂,…,W_l] (1)

2)利用CNN捕捉局部语义信息学习上下文词的表示。假设隐含上下文词表示的标题词向量记为c_i，其计算公式为：

c_i＝relu(C×W_[i-M,i+M]+b) (2)

其中，非线性激活函数relu(·)的公式为relu(x)＝max(0,x)，W_[i-M,i+M]指位于i-M和i+M间的词嵌入连接，C和b是卷积神经网络的滤波器参数，M为1。

3)通过注意力机制来分配标题词的权重。在一个问题标题中，不同的词有不同的信息量来代表问题。假设第i个词的注意力权重为a_i，其计算公式为：

α_i＝tanh(v×c_i+v_b)(3)

其中，tanh(·)函数公式为

a_i是注意力机制产生的中间变量，v和v_b是可训练参数。

问题标题的表征向量是由CNN所得的上下文词表示c_i，经由注意力权重a_i加权所得的e_w，其计算公式为：

4)对问题所属主题进行分词，并进行词嵌入表示，将其转换为隐含语义空间的词向量表示。假设问题主题t中的词为t＝[t₁,t₂,...t_l]，l代表t的长度，转化后的词向量表示为：

T＝embedding(t)＝[T₁,T₂,...,T_l] (6)

5)对一个问题所属主题的词向量进行全局平均池化，获取平均词向量e_t来表示该问题的主题信息，其计算公式为：

e_t＝V_GAPT (7)

6)对每个问题，执行上述步骤，产生该问题的标题和所属主题的向量表示，再通过向量拼接产生最终的问题向量表示e，如公式(8)所示：

e＝[e_w,e_t] (8)

构建问题编码器的总体流程如图3所示。

二、用户编码器构建阶段

1)挖掘用户的历史回答问题序列信息，先将历史回答问题按时间先后排列；再利用上一节的问题编码器对序列中的每个问题进行处理，获取它们的问题向量表示；最后，得到序列E＝[e₁,e₂,...,e_L]^T，L为序列长度。

2)多头自注意力机制通过加入P＝[p_(pos,0)，p_(pos,1)，...，p_(pos,2i)，p_(pos,2i+1)]^T这种位置向量表示给序列中的问题表示向量添加时序信息，得到序列E'＝[e₁',e'₂,...,e'_L]^T，其计算公式为：

E'＝E+P (10)

其中，pos是问题在序列中的位置，取值范围是[0,L]，

d_model即位置向量维度。

3)把序列E'输入多头自注意力机制网络结构来捕捉用户的动态兴趣变化，得到新的序列Z＝[z₁,z₂,...,z_L]^T，每一个输出元素z_i都是输入元素e_i经过多头自注意力机制学习到的用户动态兴趣表示。如图5所示，多头自注意力机制网络实施例的结构包括了多头自注意力网络层(Multi-Head self-Attention network layer,MHA)、第一残差连接(Residualconnection)和层标准化(Layer normalization)操作层、前馈神经网络层(Feed ForwardNeural network layer,FFN)、第二残差连接和层标准化操作层以及全局平均池化层；其中，将残差连接和层标准化操作层其简记为Add&Norm层。

1多头自注意力网络层(MHA)

MHA层是由h个并行计算的自注意力(self attention)网络组成的，如图6所示。

a.首先初始化三个权重矩阵W_q、W_k、W_v，它们会随着模型训练优化和更新，将权重矩阵分别与矩阵E'相乘，计算得到矩阵Q、K、V，其公式为：

Q＝E'W_q (11)

K＝E'W_k (12)

V＝E'W_v (13)

其中，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，矩阵的每一行分别对应矩阵E'的每个问题表示向量的“查询”、“键”、“值”向量，Q和K的维度相等。

b.计算每个头的自注意力输出head_i，其计算公式为：

其中，softmax(·)函数的作用是将矩阵进行归一化处理，

为缩放因子，作用是使得归一化的结果更稳定，其大小为K的维度。

c.并行地进行h次自注意力的计算，h表示头数，将每个头得到的自注意力矩阵拼接在一起，再乘以权重矩阵W_Y得到最终矩阵Y，其计算公式为：

Y＝MHA(E')＝concat(head₁,head₂,…,head_h)W_Y (15)

其中，concat(·)函数的作用是将所有自注意力输出矩阵横向拼接，W_Y是线性变换矩阵。

2第一Add&Norm层

Add操作：

E'+MHA(E') (16)

Layer Normalization操作：

Y'＝LayerNorm(E'+MHA(E')) (17)

3前馈神经网络层(FFN)

经过第一个全连接层使用relu(·)激活函数，其计算公式为：

F₁＝max(0,Y'*W_Y'+b_Y') (18)

经过第二个全连接层不使用激活函数，其计算公式为

其中，W_Y'和b_Y'为第一个全连接层的权重矩阵和偏置，是可训练参数，而

和

是第二个全连接层的权重矩阵和偏置，也是可训练参数。

4第二个Add&Norm层

Add操作：

E'+FFN(Y') (20)

Layer Normalization操作：

Z＝LayerNorm(E'+FFN(Y')) (21)

最后，将所得的序列矩阵Z全局平均池化，获得用户的动态兴趣表示向量u_d，其计算公式为：

4)用户关注的主题可以学习用户的长期兴趣表示。从用户信息中提取用户关注主题d＝[d₁,d₂,...,d_J]，J表示关注的主题数量，先利用公式(6)获取词嵌入表示D＝[D₁,D₂,...,D_J]，再利用公式(7)全局平均池化，得到用户的静态兴趣表示u_s，其计算公式为：

5)将用户的短期动态兴趣表示向量和长期静态兴趣表示向量进行拼接，获取用户侧的最终表示向量，如公式(24)所示。

u_s+d＝[u_s,u_d] (24)

构建用户编码器的总体流程如图4所示。

三、预测器构建阶段

对给定的问题和邀请用户，通过计算目标问题q_x的表示向量e_target和邀请用户u_x的表示向量u_s+d的相似度，判断当前用户是否会接受该问题的邀请。相似度计算公式为：

score(u_x,q_x)＝sigmoid(u_s+d ^Te_target) (25)

其中，sigmoid(·)函数的公式为

其结果是取值范围在[0,1]的概率得分。

四、深度学习模型训练阶段

1)采集问答社区的训练数据，通过用户-问题的邀请记录结合用户画像和用户回答记录以及问题的描述信息构建训练样本，样本标签标注为0或1，将专家识别问题转化为分类问题，通过所提出的基于多头自注意力机制的CQA专家推荐方法进行智能处理。

2)利用该模型对训练样本进行训练，获得训练后的模型。模型参数设置为：词向量的嵌入维度为64维。CNN的过滤器数量为64，窗口滑动步长为1，窗口大小为3。多头自注意力网络设置为单层结构，有2个head，嵌入矩阵E大小为6×64。在最终的预测器模块中，全连接层结构为4层，其神经元节点大小逐层递减，分别为1024、512、256、128。批处理大小设置为2048，损失函数采用二元交叉熵，学习率为0.00001。

五、预测阶段

对给定的问题和邀请用户，通过训练后的模型计算目标问题的表示向量和邀请用户的表示向量的相似度，判断当前用户是否会接受该问题的邀请，从而产生专家推荐结果。

本发明利用卷积神经网络和注意力机制对问题描述信息进行特征提取，卷积神经网络可以准确捕捉词的上下文信息，而注意力机制则对提取的特征赋予不同程度关注度。将两种方法结合构造问题编码器，既补充了预训练模型中遗忘的上下文信息，又强调了问题的重要信息，抑制了无关信息，提高了算法的准确性；采用多头自注意力机制处理用户的历史回答问题序列，动态地捕捉用户历史行为中所蕴含的兴趣变化的特征信息。该结构特性既避免了序列前端信息的丢失，又可以学习丰富的特征信息。另外，结合用户的长期关注主题对应的嵌入表示，作为用户的静态兴趣表征，构造了可有效提取用户动静态兴趣的用户编码器；使用预训练词嵌入模型获取问题主题和问题标题的词嵌入表示。将用户综合兴趣特征和目标问题特征进行点积运算，再通过全连接层获得相似度，产生推荐结果。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于多头自注意力机制的在线问答社区专家推荐方法，其特征在于，包括：问题编码器构建过程、用户编码器构建过程、预测器构建过程、深度学习模型训练过程以及预测过程；

2.根据权利要求1所述的方法，其特征在于：所述问题编码器构建过程具体包括：

W＝embedding(w)＝[W₁,W₂,…,W_l]

步骤A2、利用CNN捕捉局部语义信息学习上下文词的表示；

c_i＝relu(C×W_[i-M,i+M]+b)

步骤A3、通过注意力机制来分配标题词的权重；

假设第i个词的注意力权重为a_i，其计算公式为：

α_i＝tanh(v×c_i+v_b)

其中，tanh(·)函数公式为

a_i是注意力机制产生的中间变量，v和v_b是可训练参数；

T＝embedding(t)＝[T₁,T₂,…,T_l]

e_t＝V_GAPT

e＝[e_w,e_t]。

3.根据权利要求1所述的方法，其特征在于：所述用户编码器构建过程具体包括：

步骤B2、多头自注意力机制通过加入位置向量P＝[p_(pos,0)，p_(pos,1)，...，p_(pos,2i)，p_(pos,2i+1)]^T表示给序列中的问题表示向量添加时序信息，得到序列E'＝[e′₁,e'₂,...,e'_L]^T，其计算公式为：

E'＝E+P

其中，pos是问题在序列中的位置，取值范围是[0,L]，

d_model即位置向量维度；

u_s+d＝[u_s,u_d]。

4.根据权利要求3所述的方法，其特征在于，所述步骤B3中，多头自注意力机制网络包括多头自注意力网络层、第一残差连接和层标准化操作层，前馈神经网络层、第二残差连接和层标准化操作层以及全局平均池化层；所述多头自注意力网络层包括h个并行计算的自注意力网络；将所得的序列矩阵全局平均池化，获得用户的动态兴趣表示向量u_d。

5.根据权利要求1所述的方法，其特征在于：所述预测器对给定的问题和邀请用户，通过计算目标问题q_x的表示向量e_target和邀请用户u_x的综合表示向量u_s+d的相似度，判断当前用户是否会接受该问题的邀请，相似度计算公式为：

score(u_x,q_x)＝sigmoid(u_s+d ^Te_target)

其中，sigmoid(·)函数的公式为

其结果是取值范围在[0,1]的概率得分。