CN109871439B - 一种基于深度学习的问答社区问题路由方法 - Google Patents

一种基于深度学习的问答社区问题路由方法 Download PDF

Info

Publication number
CN109871439B
CN109871439B CN201910122563.0A CN201910122563A CN109871439B CN 109871439 B CN109871439 B CN 109871439B CN 201910122563 A CN201910122563 A CN 201910122563A CN 109871439 B CN109871439 B CN 109871439B
Authority
CN
China
Prior art keywords
user
question
prediction model
model
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910122563.0A
Other languages
English (en)
Other versions
CN109871439A (zh
Inventor
董守斌
叶超
董守玲
胡金龙
袁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910122563.0A priority Critical patent/CN109871439B/zh
Publication of CN109871439A publication Critical patent/CN109871439A/zh
Application granted granted Critical
Publication of CN109871439B publication Critical patent/CN109871439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的问答社区问题路由方法,包括步骤:1)通过对社区问答的文本内容进行分词,利用词向量技术,获取单词的词向量表示;2)根据用户的历史回答记录,构建用户档案;3)利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型;4)根据步骤3)学习到的模型获取用户特征,进而根据用户特征训练打分模型;5)利用步骤3)学习的户兴趣预测模型、用户能力预测模型、用户响应度预测模型及步骤4)训练的打分模型,进行问题路由。本发明充分考虑到用户回答的评分信息和时间信息,通过单独的深度学习模型分别来预测用户对问题的评分及响应时间,在排序阶段充分利用了用户回答的评分、时间等信息。

Description

一种基于深度学习的问答社区问题路由方法
技术领域
本发明涉及信息检索的技术领域,尤其是指一种基于深度学习的问答社区问题路由方法。
背景技术
随着Web2.0的飞速发展,社区问答(Community Question Answering)系统也逐渐成为一种非常流行而且实用的互联网应用。目前,在互联网上已经出现了很多社区问答系统,这些社区已经积累了大量的用户信息和内容资源,并呈现持续增长的态势。海量的历史数据为社区问答系统的发展带来了许多机遇和挑战。如何利用用户的历史行为数据,挖掘用户的兴趣领域及专业领域,为用户提出的问题推荐可能回答的专家用户,已经成为问答社区领域内的重要研究课题。
问题路由是问答社区的一个典型应用场景,它的目的就是为用户提出的问题推荐可能回答该问题的专家用户。目前,针对该问题的相关技术主要集中以下几类:基于传统的信息检索的方法、基于分类的方法和基于排序学习的方法。随着深度学习的广泛应用,也有很多方法利用深度学习来解决问答社区的问题路由问题。现有基于深度学习的技术方案主要包含以下两类:一类是基于多分类,把所有候选用户id当作类标签,输入用户历史记录文本与问题文本的特征向量,输出回答用户的id;另一类是基于语义相似度,通过深度学习来预测用户历史回答记录文本与问题文本的语义相似度,进而根据相似性进行问题路由。以上方法均只考虑了文本信息,忽略了用户回答的评分信息及回答的时间信息,用户信息利用的不够充分。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度学习的问答社区问题路由方法,通过采用深度学习的方法从历史记录中学习用户兴趣、能力、响应速度等特征,进而根据这些用户特征训练排序模型,从而实现问题路由。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习的问答社区问题路由方法,包括以下步骤:
1)通过对社区问答的文本内容进行分词,利用词向量技术,获取单词的词向量表示;
2)根据用户的历史回答记录,构建用户档案;
3)利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型;
4)根据步骤3)学习到的模型获取用户特征,进而根据用户特征训练打分模型;
5)利用步骤3)学习的用户兴趣预测模型、用户能力预测模型、用户响应度预测模型及步骤4)训练的打分模型,进行问题路由。
在步骤1)中,提取社区问题的文本内容,使用常用分词工具进行分词,这样就将数据分解成文档-词的形式;利用词向量工具在数据集上训练得到单词的词向量。
在步骤2)中,根据社区的历史数据,提取用户历史回答的相关信息,包括问题的文本、问题的发布时间、回答的得分和回答的时间,构建用户档案。
在步骤3)中,利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型;
用户兴趣预测模型的训练方式如下:
模型输入为问题文本,经过词嵌入后得到文本中所有单词的词向量;模型隐含层采用CNN,通过卷积核获得卷积层特征;模型输出层采用SoftMax拟合用户的回答概率,用户回答该问题则对应维度为1,否则为0;
用户能力预测模型的训练方式如下:
模型输入为问题文本,经过词嵌入后得到文本中所有单词的词向量,然后将所有单词的词向量求和得到问题的词向量,并将该词向量作为隐含层输入;隐含层采用DNN;输出层采用加权逻辑回归拟合用户回答的评分,未回答用户评分设为0;
用户响应度预测模型的训练方式如下:
模型输入为问题文本,经过词嵌入后得到文本中所有单词的词向量,然后将所有单词的词向量求和得到问题的词向量,并将该词向量作为隐含层输入;隐含层采用DNN;输出层采用加权逻辑回归拟合用户回答问题时间与问题发布时间的间隔的倒数,未回答用户标签设为0。
在步骤4)中,训练模型时的输入特征为用户的兴趣值、能力值和响应度,输出标签为1即用户回答问题,或0即用户未回答;通过有监督的学习方式训练一个打分模型,打分模型包括排序学习、深度学习、概率统计方法、机器学习方法。
在步骤5)中,给定一个新问题,根据步骤3)学习的“用户兴趣预测模型”、“用户能力预测模型”、“用户响应度预测模型”,得到每个用户的兴趣值、能力值和响应度特征,然后将这些特征输入到步骤4)训练的打分模型,得到每个用户的得分,最后根据得分排序,产生推荐用户列表。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明充分考虑到用户回答的评分信息和时间信息,通过单独的深度学习模型分别来预测用户对问题的评分及响应时间。
2、本发明通过深度学习学习到用户的兴趣、能力、响应度等特征,然后再将这些特征作为推荐排序模型的输入去训练排序模型,在排序阶段充分利用了用户回答的评分、时间等信息。
附图说明
图1为本发明方法整体架构图。
图2为用户兴趣预测模型结构图。
图3为用户能力与响应度预测模型结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1至图3所示,本实施例所提供的基于深度学习的问答社区问题路由方法,利用深度学习对用户历史数据建模,训练得到用户的兴趣、能力、响应度等特征;然后根据这些特征训练一个排序打分模型,从而实现将用户提出的问题推荐给合适的专家用户来解答。
下面以StackOverFlow问答社区为例进行具体说明,实例中词向量生成工具选取word2vec,排序模型选取LambdaMART。
实例数据构造说明:
选取StackOverFlow问答社区的某一年数据为标注数据集,用以训练学习模型。选择前半年提问问答总数不少于100的用户作为候选用户。选择下半年候选用户回答过的问题作为训练样本,用于训练排序阶段的打分模型;选取候选用户上半年所有回答的问题作为历史记录,历史记录用于训练预测特征的网络模型。
具体实施步骤如下:
1)数据预处理及词向量生成
选取问题文本去停用词、HTML标签等,经过分词后,文本数据被分解成文档-词的形式,然后利用word2vec工具训练得到预料中每个单词的词向量,词向量维度选为100。
2)根据标注数据集中用户的历史回答记录,构建用户档案;
候选用户历史记录中的每一条回答记录对应一个训练样本,每个样本包含问题的文本、问题发布时间、回答的评分、回答发布时间等信息,所有回答记录构成训练样本集。
3)利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型,具体如下:
用户兴趣预测模型训练:
将分词后的问题文本输入给模型,词嵌入层采用步骤1)中训练好的词向量;输出层对应每个用户id,训练过程选择交叉熵作为损失函数,通过梯度下降及反馈去更新网络权重矩阵。学习好的网络模型保存为“用户兴趣预测模型”。
用户能力预测模型训练:
输入为问题文本,经过词嵌入后得到文本中所有单词的100维词向量,然后将所有单词的词向量求和得到问题的100维词向量,并将该词向量作为隐含层输入;输出对应候选用户对该问题的评分,未回答评分设为0;训练阶段采用加权逻辑回归,以交叉熵作为损失函数,通过梯度下降及反馈去更新网络权重矩阵。预测阶段,使用指数函数ex作为最终激活函数来估计用户期望的评分数。学习好的网络模型保存为“用户能力预测模型”。
用户响应度预测模型训练:
输入为问题文本,经过词嵌入后得到文本中所有单词的100维词向量,然后将所有单词的词向量求和得到问题的100维词向量,并将该词向量作为隐含层输入;输出对应候选用户对该问题的回答时间与问题发布时间的时间间隔的倒数,未回答设为0;训练阶段采用加权逻辑回归,以交叉熵作为损失函数,通过梯度下降及反馈去更新网络权重矩阵。预测阶段,使用指数函数ex作为最终激活函数来估计用户期望的响应值。学习好的网络模型保存为“用户响应度预测模型”。
4)根据步骤3)学习到的模型获取用户特征,进而根据用户特征训练打分模型,打分模型包括但不限于:排序学习、深度学习、概率统计方法、机器学习方法等。
本步骤选用的打分模型为LambdaMART,该模型训练的数据格式为:
label qid:docId 0:f1 1:f2 2:f3
其中label为0或1,1表示用户回答了该问题,0表示未回答,docId为问题的id,f1、f2、f3分别为用户的兴趣值、能力值和响应度。每个问题与所有候选用户形成一组样本,所有训练问题与候选用户的笛卡儿积构成整个训练集。
对于每一个训练样本,即一个问题,通过该问题分词后所有单词对应词向量求和得到该问题的100维度向量,将该向量输入给步骤3)训练好的“用户兴趣预测模型”、“用户能力预测模型”和“用户响应度预测模型”,得到所有候选用户对该问题的兴趣值、能力值及响应度;候选用户中回答该问题的用户特征对应的标签为1,否则为0。将所有训练数据输入给LambdaMART排序学习模型,训练得到一个打分模型,用于后续推荐。
5)利用步骤3)学习的用户兴趣预测模型、用户能力预测模型、用户响应度预测模型及步骤4)训练的打分模型,进行问题路由。
对于每个新问题,按照步骤3)中的方式得到所有候选用户的兴趣值、能力值、响应度;将这些特征输入给步骤4)训练的打分模型,得到每个候选用户对于该问题的得分,根据用户的得分对用户排序,推荐top-N用户来回答该问题。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度学习的问答社区问题路由方法,其特征在于,包括以下步骤:
1)通过对社区问答的文本内容进行分词,利用词向量技术,获取单词的词向量表示;
2)根据用户的历史回答记录,构建用户档案;
3)利用深度学习根据用户档案分别学习用户兴趣预测模型、用户能力预测模型、用户响应度预测模型;
用户兴趣预测模型的训练方式如下:
模型输入为问题文本,经过词嵌入后得到文本中所有单词的词向量;模型隐含层采用CNN,通过卷积核获得卷积层特征;模型输出层采用SoftMax拟合用户的回答概率,用户回答该问题则为1,否则为0;
用户能力预测模型的训练方式如下:
模型输入为问题文本,经过词嵌入后得到文本中所有单词的词向量,然后将所有单词的词向量求和得到问题的词向量,并将该词向量作为隐含层输入;隐含层采用DNN;输出层采用加权逻辑回归拟合用户回答的评分,未回答用户评分设为0;
用户响应度预测模型的训练方式如下:
模型输入为问题文本,经过词嵌入后得到文本中所有单词的词向量,然后将所有单词的词向量求和得到问题的词向量,并将该词向量作为隐含层输入;隐含层采用DNN;输出层采用加权逻辑回归拟合用户回答问题时间与问题发布时间的间隔的倒数,未回答设为0;
4)根据步骤3)学习到的模型获取用户特征,进而根据用户特征训练打分模型;
5)利用步骤3)学习的用户兴趣预测模型、用户能力预测模型、用户响应度预测模型及步骤4)训练的打分模型,进行问题路由。
2.根据权利要求1所述的一种基于深度学习的问答社区问题路由方法,其特征在于:在步骤1)中,提取社区问题的文本内容,使用常用分词工具进行分词,这样就将数据分解成文档-词的形式;利用词向量工具在数据集上训练得到单词的词向量。
3.根据权利要求1所述的一种基于深度学习的问答社区问题路由方法,其特征在于:在步骤2)中,根据社区的历史数据,提取用户历史回答的相关信息,包括问题的文本、问题的发布时间、回答的得分和回答的时间,构建用户档案。
4.根据权利要求1所述的一种基于深度学习的问答社区问题路由方法,其特征在于:在步骤5)中,给定一个新问题,根据步骤3)学习的“用户兴趣预测模型”、“用户能力预测模型”、“用户响应度预测模型”,得到每个用户的兴趣值、能力值和响应度特征,然后将这些特征输入到步骤4)训练的打分模型,得到每个用户的得分,最后根据得分排序,产生推荐用户列表。
CN201910122563.0A 2019-02-18 2019-02-18 一种基于深度学习的问答社区问题路由方法 Active CN109871439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910122563.0A CN109871439B (zh) 2019-02-18 2019-02-18 一种基于深度学习的问答社区问题路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910122563.0A CN109871439B (zh) 2019-02-18 2019-02-18 一种基于深度学习的问答社区问题路由方法

Publications (2)

Publication Number Publication Date
CN109871439A CN109871439A (zh) 2019-06-11
CN109871439B true CN109871439B (zh) 2020-12-22

Family

ID=66918810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910122563.0A Active CN109871439B (zh) 2019-02-18 2019-02-18 一种基于深度学习的问答社区问题路由方法

Country Status (1)

Country Link
CN (1) CN109871439B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735420B (zh) * 2019-10-14 2022-11-11 百度在线网络技术(北京)有限公司 基于智能音箱的问答方法、装置、智能音箱和介质
CN110909254B (zh) * 2019-10-31 2022-05-03 中山大学 基于深度学习模型针对问答社区进行问题热度预测的方法和系统
CN110825930A (zh) * 2019-11-01 2020-02-21 北京邮电大学 基于人工智能自动识别社区问答论坛中的正确回答的方法
CN111078854B (zh) * 2019-12-13 2023-10-27 北京金山数字娱乐科技有限公司 问答预测模型的训练方法及装置、问答预测方法及装置
CN111126868B (zh) * 2019-12-30 2023-07-04 中南大学 一种道路交通事故发生风险确定方法及系统
CN111581382B (zh) * 2020-04-29 2023-06-30 北京航空航天大学 问答社区中的热门问题的预测方法及系统
CN112100464B (zh) * 2020-10-14 2022-09-02 济南大学 结合动态兴趣与专业知识的问答社区专家推荐方法及系统
CN112800208B (zh) * 2021-01-21 2022-10-18 中国人民解放军国防科技大学 面向问答社区的问题审阅人自动化推荐方法及系统
CN113254782B (zh) * 2021-06-15 2023-05-05 济南大学 问答社区专家推荐方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329967A (zh) * 2017-05-12 2017-11-07 北京邮电大学 基于深度学习的问答系统以及方法
CN108536852A (zh) * 2018-04-16 2018-09-14 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6520513B2 (ja) * 2015-07-17 2019-05-29 富士ゼロックス株式会社 問答情報提供システム、情報処理装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329967A (zh) * 2017-05-12 2017-11-07 北京邮电大学 基于深度学习的问答系统以及方法
CN108536852A (zh) * 2018-04-16 2018-09-14 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于"问题-用户"的网络问答社区专家发现方法研究;龚凯乐等;《图书情报工作》;20161231;第60卷(第24期);第115-121页 *
社交网络中基于用户特征的专家推荐研究;倪振;《中国优秀硕士学位论文全文数据库信息科技辑》;20180215(第02期);I143-18 *

Also Published As

Publication number Publication date
CN109871439A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109871439B (zh) 一种基于深度学习的问答社区问题路由方法
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
CN105260356B (zh) 基于多任务学习的中文交互文本情感与话题识别方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN106777257B (zh) 基于话术的智能对话模型的构建系统及方法
JPH07295989A (ja) データを解析するためのインタプリタを形成する装置
CN117009490A (zh) 基于知识库反馈的生成式大语言模型的训练方法和装置
CN110321421B (zh) 用于网站知识社区系统的专家推荐方法及计算机存储介质
CN111737427B (zh) 融合论坛互动行为与用户阅读偏好的慕课论坛帖推荐方法
Wang et al. Attention-based CNN for personalized course recommendations for MOOC learners
CN112800229B (zh) 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN113065356B (zh) 一种基于语义分析算法的it设备运维故障建议处理方法
CN112528031A (zh) 一种工单智能派发方法和系统
Hamim et al. Student profile modeling using boosting algorithms
CN113536801A (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN113255843B (zh) 演讲稿测评方法及设备
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN108595411A (zh) 一种同主题文本集合中多文本摘要获取方法
CN115080715A (zh) 基于残差结构和双向融合注意力的跨度提取阅读理解方法
CN109033378A (zh) 一种Zero-shot Learning在智能客服系统中的应用方法
CN111583363A (zh) 一种图文新闻的视觉自动生成方法及系统
Spoorthi et al. Automated Resume Classification System Using Ensemble Learning
CN113052497A (zh) 一种基于动静态特征融合学习的服刑人员风险预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant