CN109710741A

CN109710741A - 一种面向在线问答平台的基于深度强化学习的问题标注方法

Info

Publication number: CN109710741A
Application number: CN201811615274.6A
Authority: CN
Inventors: 兰秉良
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-03

Abstract

本发明公开了一种面向在线问答平台的基于深度强化学习的问题标注方法，基于深度神经网络和强化学习技术，构建模型，并在设计模型奖励的时候，在保证标注准确性的同时，创新性地加入衡量问题标签多样性的指标，同时考虑到尾标签效应，即在标注时复杂详细描述的长标签，从而使得标签能更深层次，更详细地描述问题。本发明综合考虑的标签的准确性，多样性，以及减少尾标签效应对问题标注的影响，并通过引入深度神经网络提高了强化学习模型训练的效率和准确性，并且能在一定置信度下保证匹配的误差范围。本发明的方案将能对问答平台中海量和问题和标签进行准确多样的匹配。

Description

一种面向在线问答平台的基于深度强化学习的问题标注方法

技术领域

本发明属于自然语言处理领域，更具体地，涉及一种面向在线问答平台的基于深度强化学习的问题标注方法。

背景技术

随着Web 2.0的发展，Quora1和知乎等社交问答(sQA)网站的发展越来越重要。一方面，类似于基于社区的问答(cQA)网站，它们包括提问的机制，发布答案问题的平台，以及围绕这些信息建立的社区。另一方面，sQA网站突出社交信息，尤其是主题标签之间的联系。例如，在知乎中，用户必须为他们的问题分配至少一个主题标签，并且他们能够遵循他们感兴趣的主题标签，这反过来有益于基于主题的问题路由和浏览。鉴于此，自动为新发布的问题提供正确的主题标签是加强用户体验和内容分发效率的关键。

现有的解决问题标签的任务在技术上主要可以分为两类：基于规则模型和数据驱动模型。前者通常将此问题标记任务视为给定问题与每个候选主题之间的匹配问题。为了估计相似性，手动设计了大量模板和规则，这将耗费大量的人工劳力。至于数据驱动的问题，他们将此任务表述为分类问题，例如char-Convolutional Neural Network(cCNN)和深层次CNN。他们尝试从训练数据中学习规则，以适应新问题，使其更容易实施，并通常实现最佳性能。尽管它们具有重要意义，但它们在实践中并不适用，因为有许多新创建的主题标签，其中的问题样本很少。这是因为有经验的用户可以随时在sQA站点中创建新的主题标签。另外，现有模型依次依赖于密集标记数据，即每个主题标签成千上万个问题，并且它们无法很好地处理实际环境中的任务。

在这样的短文中，有助于弥合问题和标签之间语义鸿沟的有用信息非常稀少。其次，我们观察到问题标签遵循长尾分布，其中大部分标签很少发生。超过98％的标签在两个数据集上出现的次数不超过500次(即0.05％的问题)。我们将这些标签称为“尾标签”和其他常用标签“头标签”。虽然偶然发生，尾部标签是对问题的特定和细粒度描述，其反映更准确的语义，因此对于专家发现，搜索和知识挖掘等更有用。现有的方法对标签多样性的考虑不足，标签所属话题领域的多样化往往能使得问题描述变得更加具体和丰富，因为在推荐给不同专家时能使得问题得到更多元化，更多层次的解决。

发明内容

为解决现有的技术缺陷，本发明公开了一种新的面向在线问答平台的基于深度强化学习的问题标注方法。本发明能有效解决由于标签过多，问题样本很少导致的过拟合问题，并在考虑为问题标注保证准确性的同时，对其标注多样性进行改善。

为解决上述技术问题，本发明的技术方案如下：

一种面向在线问答平台的基于深度强化学习的问题标注方法，包括以下步骤：

S1：利用MDP马尔科夫决策过程对问题构建Q-learning强化学习模型；

S2：搭建深度神经网络优化训练Q值；所述的Q值表示Q-learning强化学习模型中在状态s动作后获取的得分奖励；

S3：利用训练集训练深度强化学习模型；

S4：根据深度强化学习模型输出结果对问题进行标签标注。

在一种优选的方案中，所述的S1中的MDP马尔科夫决策过程定义为Μ＝<S,A,R,P,γ＞，其中，

所述的S表示问题以及其当前所标注的标签的集合，通过下式进行表达：S＝{Q,i₀,i₁...i_t}

式中，所述的t表示当前的状态值，所述的t-1表示上一个状态；所述的Q表示需要打标签的问题，所述的i表示问题对应的标签；

所述的A表示空间，指动作a_t针对智能体的策略π所做出的一个推荐的标签，π是S_t到a_t的一个映射，且每次动作推荐一个标签；

所述的P表示了概率转移矩阵，指智能体采取了a_t动作以后，从S_t转移到S_t+1的概率，所述的智能体表示强化学习的算法主体，与其交互的对象称为环境。智能体通过观察环境，得到环境的状态信息。根据状态信息判断自己该采取的策略并做出相应的动作，环境在接受智能体的动作之后给予奖励，反映动作的好坏，同时智能体的动作对状态产生影响，使接下来观察到的状态信息发生变化，再次决策，得到一系列状态-动作的序列。智能体的目标就是使得在一定时间内的回报累加和最大化，得到一组最优化行为策略。

所述的R表示奖励函数，指智能体在s_t采取了一个动作a_t以后，对标签多样性的评价函数；

所述的γ表示未来动作所得到的奖励对当前状态值的影响程度。

在一种优选的方案中，所述的R通过下式进行表达：

式中，所述的f(i_t)对应的是NDCG值，通过下式进行表达：

所述的rel是该标签的相关性值，所述的i表示标签所在的当前位置大的序号，所述的k为智能体的参考的标签数量，所述的m表示标签所在的当前位置序号；

所述的τ(i_t)对应的是α-NDCG值，是NDCG值的变形，表示标签如果含有新发现的子话题，则α-NDCG值增加；如果含有无关的子话题则α-NDCG值降低，所述的τ(i_t)通过下式进行表达：

所述的NG(i)表示智能体提供的第i个标签所能获得的多样性评估得分，所述的α为影响系数，所述的NG^*(i)标签i在理想情况下的最优得分值。

在一种优选的方案中，所述的Q值通表示在状态s采取动作后能获取的期望得分奖励，Q(s_t,a_t)＝Q(s_t,a_t)+μ[R+γmax_a'Q(s_t+1,a_a+1)-Q(s_t,a_t)]，所述的μ是Q-learning过程中的学习率，所述的max_a'Q(s_t+1,a_a+1)是智能体模拟的下个动作能得到的最大得分值。

在一种优选的方案中，所述的S2包括以下流程：

S2.1：构造深度卷积网络，用于对Q值进行初步计算；通过输入固定格式的问题和标签数据，经卷积层以及全连接层，最后输出每一个标签的预计收益a；

S2.2：构造回放经验池，通过记录训练过程中所有的样本＜s_t,a_t,r_t,s_t+1＞，每一个样本定义为一个经验，存入经验池中，网络学习从经验池中均匀抽出样本进行学习；

S2.3：定义一个实时更新的深度神经网络，记为Q(s,a；θ)，所述的θ为神经网络的网络参数值；另外定义一个与Q(s,a；θ)相同结构的深度神经网络，但是参数相隔时间C从实时更新的深度神经网络中同步一次，记为所述的θ^-为神经网络的网络参数值；所述的C是人为预设值；将定义为TD-target，第一个神经网络的网络更新为：

θ_t+1＝θ_t+μ[R+γmax_a'Q(s',a'；θ^-)-Q(s,a；θ)]▽Q(s,a；θ)。

在一种优选的方案中，所述的S3包括以下流程：

S3.1：初始化一个容量为N的回放经验池D，随机初始化动作价值函数Q，记录其参数为θ；初始化目标动作价值函数记录其参数为θ^-，初始化序列s₁＝x₁，以及预处理序列φ₁＝φ(s₁)，定义训练episode；

S3.2:智能体的动作执行以下内容：

概率ξ：随机选择一个动作a_t；

概率1-ξ：执行动作a_t＝argm_aaxQ(φ(s_t),a；θ)，所述的ξ是人为预设值；

S3.3：观察智能体执行动作a_t后的回报r_t以及下一个数据x_t+1；

S3.4：更新s_t+1＝s_t,a_t,x_t+1,φ_t+1＝φ(s_t+1)，将样本(φ_t,a_t,r_t,φ_t+1)存到经验回放池D中；

S3.5：从D中随机采样一个批次的样本(φ_k,a_k,r_k,φ_k+1)；

S3.6：最佳得分值y_k通过下式进行表达：

S3.7：对参数θ进行(y_k-Q(θ_k,a_k；θ^-))²梯度反转；

S3.8：每C步将目标动作价值函数的网络参数θ^-设置为动作价值函数Q的网络参数θ；

S3.9：若没有完成最大迭代数目，则执行S3.3；否则执行S3.10；

S3.10:若没有结束所有采样序列episode，执行S3.2；否则执行S4。

在一种优选的方案中，所述的S4包括以下流程：

S4.1:输入训练完成的标注策略π，问题Q，候选标签T；

S4.2:初始化候选标签集合；

S4.3:通过标注策略π选择一个标签；

S4.4:更新标签列表，到达下一个状态s_t+1；

S4.5:若标签列表中标签数量未达到要求预设值，执行S4.2。

S4.6:输出标签列表，作为该问题的标签。

与现有技术相比，本发明技术方案的有益效果是：

(1)在为问题进行标签标注的时候，本发明不仅考虑标签标注的准确性，而且还创新性地应用最新理论对标签内容的多样性进行考虑，丰富了问题性质的维度，使得社交问答平台中的问题能更好被利用。

(2)本发明的方法运用Deepmind提出的深度强化学习技术对模型进行建模，速度比传统的Q-Learning强化学习算法要快很多，并且能在一定置信度下保证相似性的误差范围。

(3)本发明减少了尾标签由于其自身数据属性特征导致的难以被问题匹配的情况，使得问题的复杂描述得以被模型重视。

附图说明

图1为本实施例的流程图。

图2为本实施例中S2中深度强化学习网络参数更新说明图。

图3为本实施例中S3中深度强化学习网络中经验池学习说明图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种面向在线问答平台的基于深度强化学习的问题标注方法，包括以下步骤：

S1中的MDP马尔科夫决策过程定义为Μ＝<S,A,R,P,γ＞，其中，

S表示问题以及其当前所标注的标签的集合，通过下式进行表达：S＝{Q,i₀,i₁...i_t}

式中，t表示当前的状态值，t-1表示上一个状态；Q表示需要打标签的问题，i表示问题对应的标签；

A表示空间，指动作a_t针对智能体的策略π所做出的一个推荐的标签，π是S_t到a_t的一个映射，且每次动作推荐一个标签；

P表示了概率转移矩阵，指智能体采取了a_t动作以后，从S_t转移到S_t+1的概率；

R表示奖励函数，指智能体在s_t采取了一个动作a_t以后，对标签多样性的评价函数；R通过下式进行表达：

式中，f(i_t)对应的是NDCG值，通过下式进行表达：

rel是该标签的相关性值，i表示标签所在的当前位置大的序号，k为智能体的参考的标签数量，m表示标签所在的当前位置序号；

τ(i_t)对应的是α-NDCG值，是NDCG值的变形，表示标签如果含有新发现的子话题，则α-NDCG值增加；如果含有无关的子话题则α-NDCG值降低，τ(i_t)通过下式进行表达：

NG(i)表示智能体提供的第i个标签所能获得的多样性评估得分，α为影响系数，NG^*(i)标签i在理想情况下的最优得分值；

γ表示未来动作所得到的奖励对当前状态值的影响程度；

S2：搭建深度神经网络优化训练Q值；Q值通表示在状态s采取动作后能获取的期望得分奖励，Q(s_t,a_t)＝Q(s_t,a_t)+μ[R+γmax_a'Q(s_t+1,a_a+1)-Q(s_t,a_t)]，μ是Q-learning过程中的学习率，max_a'Q(s_t+1,a_a+1)是智能体模拟的下个动作能得到的最大得分值；

如图2所示，S2包括以下流程：

S2.3：定义一个实时更新的深度神经网络，记为Q(s,a；θ)，θ为神经网络的网络参数值；另外定义一个与Q(s,a；θ)相同结构的深度神经网络，但是参数相隔时间C从实时更新的深度神经网络中同步一次，记为θ^-为神经网络的网络参数值；C是人为预设值；将定义为TD-target，第一个神经网络的网络更新为：

θ_t+1＝θ_t+μ[R+γmax_a'Q(s',a'；θ^-)-Q(s,a；θ)]▽Q(s,a；θ)。

S3：利用训练集训练深度强化学习模型；

如图3所示，S3包括以下流程：

S3.2:智能体的动作执行以下内容：

概率ξ：随机选择一个动作a_t；

概率1-ξ：执行动作a_t＝argm_aaxQ(φ(s_t),a；θ)，ξ是人为预设值；

S3.5：从D中随机采样一个批次的样本(φ_k,a_k,r_k,φ_k+1)；

S3.6：最佳得分值y_k通过下式进行表达：

S3.7：对参数θ进行(y_k-Q(θ_k,a_k；θ^-))²梯度反转；

S3.9：若没有完成最大迭代数目，则执行S3.3；否则执行S3.10；

S3.10:若没有结束所有采样序列episode，执行S3.2；否则执行S4

S4：根据深度强化学习模型输出结果对问题进行标签标注；

S4包括以下流程：

S4.1:输入训练完成的标注策略π，问题Q，候选标签T；

S4.2:初始化候选标签集合；

S4.3:通过标注策略π选择一个标签；

S4.4:更新标签列表，到达下一个状态s_t+1；

S4.5:若标签列表中标签数量未达到要求预设值，执行S4.2。

S4.6:输出标签列表，作为该问题的标签。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向在线问答平台的基于深度强化学习的问题标注方法，其特征在于，包括以下步骤：

S3：利用训练集训练深度强化学习模型；

S4：根据深度强化学习模型输出结果对问题进行标签标注。

2.根据权利要求1所述的问题标注方法，其特征在于，所述的S1中的MDP马尔科夫决策过程定义为Μ＝<S,A,R,P,γ＞，其中，

所述的P表示了概率转移矩阵，指智能体采取了a_t动作以后，从S_t转移到S_t+1的概率，所述的智能体表示强化学习的算法主体；

3.根据权利要求2所述的问题标注方法，其特征在于，所述的R通过下式进行表达：

式中，所述的f(i_t)对应的是NDCG值，通过下式进行表达：

4.根据权利要求1至3中任一权利要求所述的问题标注方法，其特征在于，所述的Q值通表示在状态s采取动作后能获取的期望得分奖励，所述的μ是Q-learning过程中的学习率，所述的是智能体模拟的下个动作能得到的最大得分值。

5.根据权利要求4所述的问题标注方法，其特征在于，所述的S2包括以下流程：

6.根据权利要求5所述的问题标注方法，其特征在于，所述的S3包括以下流程：

S3.2:智能体的动作执行以下内容：

概率ξ：随机选择一个动作a_t；

概率1-ξ：执行动作所述的ξ是人为预设值；

S3.5：从D中随机采样一个批次的样本(φ_k,a_k,r_k,φ_k+1)；

S3.6：最佳得分值y_k通过下式进行表达：

S3.7：对参数θ进行(y_k-Q(θ_k,a_k；θ^-))²梯度反转；

S3.9：若没有完成最大迭代数目，则执行S3.3；否则执行S3.10；

S3.10:若没有结束所有采样序列episode，执行S3.2；否则执行S4。

7.根据权利要求6所述的问题标注方法，其特征在于，所述的S4包括以下流程：

S4.1:输入训练完成的标注策略π，问题Q，候选标签T；

S4.2:初始化候选标签集合；

S4.3:通过标注策略π选择一个标签；

S4.4:更新标签列表，到达下一个状态s_t+1；

S4.5:若标签列表中标签数量未达到要求预设值，执行S4.2。

S4.6:输出标签列表，作为该问题的标签。