CN112100464A - 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 - Google Patents
结合动态兴趣与专业知识的问答社区专家推荐方法及系统 Download PDFInfo
- Publication number
- CN112100464A CN112100464A CN202011096689.4A CN202011096689A CN112100464A CN 112100464 A CN112100464 A CN 112100464A CN 202011096689 A CN202011096689 A CN 202011096689A CN 112100464 A CN112100464 A CN 112100464A
- Authority
- CN
- China
- Prior art keywords
- user
- vector
- representation
- question
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了结合动态兴趣与专业知识的问答社区专家推荐方法及系统,包括:获取目标问题数据;将目标问题数据进行向量化表示,得到问题表示向量;将候选用户数据进行向量化表示,得到用户表示向量;基于问题表示向量和用户表示向量,输出推荐的用户。采用深度学习方法,减少人工特征提取的不准确性,更好地编码深层次复杂特征。考虑用户侧信息的动态变化,成功表征用户兴趣动态和专业知识动态。引入词向量进行文本的表示,简化特征处理流程。
Description
技术领域
本申请涉及机器学习及数据挖掘技术领域,特别是涉及结合动态兴趣与专业知识的问答社区专家推荐方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
互联网将全球信息互连形成了信息时代不可或缺的基础信息平台,其中知识分享服务已经成为人们获取信息的主要工具。为了加快互联网知识共享,出现了大量的问答社区。然而,伴随用户急剧增多,平台短时间内积攒了数目巨大、类型多样的问题,远远超过有效回复数,严重降低了用户服务体验。如何将用户提出的问题有效推荐给可能解答的用户,以及挖掘用户感兴趣的问题是这些平台面临的严重挑战。这种情况下,工业界和学术界对以上问题开展了广泛研究,提出了一些针对问答社区的专家推荐方法提高平台解答效率。
现有的大部分工作都将专家推荐问题视为基于内容的推荐任务,基于共现信息抓取用户配置文件和问题之间的相关性,或是基于语言模型或主题模型挖掘用户隐式主题信息。但这些方法无法解决问题和用户配置文件之间存在着复杂语义差异。后续又出现混合模型,考虑针对不同方面进行技术结合,增加更多的有区分度的功能特征。但是所采用的方法依过于赖于人工手动构建特征,而且无法学习到问题内部深层次的复杂结构,而且在数据稀疏和冷启动问题存在的状况下,表征能力极其低下。近年来,以CNN(ConvolutionalNeural Network)、attention注意力机制为代表的深度学习技术不断发展,并且已经成功应用到文本挖掘领域。相比于传统方法,深度模型可以学习到表达力更强的深度复杂语义特征。但是如何使用深度学习方法来更好地处理有关时间序列的动态数据仍是一个富有挑战的任务。
综上,现有的专家推荐技术有以下缺点:
(1)仅关注于用户兴趣与问题内容的匹配,忽视了用户兴趣与专业知识的结合。
(2)匹配结果大多依赖于人工手动构建特征的质量,无法实现内部复杂特征的深度捕捉。
(3)无法感知时序信息的动态变化,无法及时更新数据,表征动态信息。
发明内容
为了解决现有技术的不足,本申请提供了结合动态兴趣与专业知识的问答社区专家推荐方法及系统;多加关注用户兴趣和用户专业知识的时间动态,基于深度学习框架表征数据深层次特征,处理动态序列信息,最终提升模型的推荐性能。
第一方面,本申请提供了结合动态兴趣与专业知识的问答社区专家推荐方法;
结合动态兴趣与专业知识的问答社区专家推荐方法,包括:
获取目标问题数据;
将目标问题数据进行向量化表示,得到问题表示向量;
将候选用户数据进行向量化表示,得到用户表示向量;
基于问题表示向量和用户表示向量,输出推荐的用户。
第二方面,本申请提供了结合动态兴趣与专业知识的问答社区专家推荐系统;
结合动态兴趣与专业知识的问答社区专家推荐系统,包括:
获取模块,其被配置为:获取目标问题数据;
问题向量表示模块,其被配置为:将目标问题数据进行向量化表示,得到问题表示向量;
用户向量表示模块,其被配置为:将候选用户数据进行向量化表示,得到用户表示向量;
输出模块,其被配置为:基于问题表示向量和用户表示向量,输出推荐的用户。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
1.采用深度学习方法,减少人工特征提取的不准确性,更好地编码深层次复杂特征。
2.考虑用户侧信息的动态变化,成功表征用户兴趣动态和专业知识动态。
3.引入词向量进行文本的表示,简化特征处理流程。
4.使用CNN和Attention网络的结合提取全局和局部特征,解决了复杂语义的差异的同时突出重要信息。
5.使用Bi-GRU处理时间动态信息,更加灵活的处理了时序结构。
6.采用五折交叉验证可以更好的拟合数据,提高模型有效性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明中的问题编码器模块的框架图;
图2是本发明中的用户编码器模块的框架图;
图3是判断当前用户是否接受问题邀请的流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了解决背景技术中出现的问题,本发明公开了一种结合用户动态变化的兴趣与专业知识的深度学习问答社区专家推荐方法及系统,首先对样本数据进行预处理,将问题侧数据传入问题编码器,将用户侧数据传入用户编码器,生成各自的表示向量后进行比较,得出专家概率得分。随后然后采用5折交叉验证选择训练集和测试集,每次交叉验证生成一个模型,最后选择效果最好的模型作为本申请最终的专家推荐模型。
实施例一
本实施例提供了结合动态兴趣与专业知识的问答社区专家推荐方法;
结合动态兴趣与专业知识的问答社区专家推荐方法,包括:
S101:获取目标问题数据;
S102:将目标问题数据进行向量化表示,得到问题表示向量;
S103:将候选用户数据进行向量化表示,得到用户表示向量;
S104:基于问题表示向量和用户表示向量,输出推荐的用户。
作为一个或多个实施例,所述S101获取目标问题数据步骤之后,所述S102将目标问题数据进行向量化表示,得到问题表示向量步骤之前,还包括:
将目标问题数据输入到预先训练好的预测模型中;预先训练好的预测模型,包括用户编码器、问题编码器和分类器;所述用户编码器的输出端和问题编码器的输出端均与分类器的输入端连接。
进一步地,所述问题编码器,用于对问题数据进行向量化表示,得到最终的问题表示向量。
进一步地,所述问题编码器,包括:三条并联支路;所述三条并联支路依次是:第一、第二和第三条支路;
第一条支路,包括依次连接的第一词向量化单元、第一卷积神经网络CNN和第一注意力机制模型;
第二条支路,包括依次连接的第二词向量化单元、第二卷积神经网络CNN和第二注意力机制模型;
第三条支路,包括依次连接的第三词向量化单元和全局平均池化层。
进一步地,所述用户编码器,用于对用户数据进行向量化表示,得到最终的用户表示向量。
进一步地,所述问题编码器,包括:三条并联支路;所述三条并联支路依次是:第四、第五和第六条支路;
第四条支路,包括:依次连接的问题编码器、第四词向量化单元和双层Bi-GRU结构;
第五条支路,包括:依次连接的第五词向量化单元和双层Bi-GRU结构;
第六条支路,包括:依次连接的第六词向量化单元和全局平均池化层。
进一步地,所述分类器,包括:依次连接的点积单元、全连接层、Sigmoid层。
作为一个或多个实施例,所述S102中,将目标问题数据进行向量化表示,得到问题表示向量;具体步骤包括:
将问题标题文本信息进行Embedding词向量化,将词向量化后的结果依次经过第一卷积神经网络CNN和第一注意力机制Attention模型,输出问题标题的表示向量;
将问题内容文本信息进行Embedding词向量化,将词向量化后的结果依次经过第二卷积神经网络CNN和第二注意力机制Attention模型,输出问题内容的表示向量;
将问题标签信息进行Embedding词向量化,将词向量化后的结果进行全局平均化,得到问题标签的表示向量;
将问题标题的表示向量、问题内容的表示向量和问题标签的表示向量,进行拼接,得到最终的问题表示向量。
示例性的,问题侧数据是指全部问题的具体文本,包括问题的标题、问题的内容和问题绑定的话题标签。所有进行处理的问题数据均是邀请数据集中出现过的问题数据。因为是问答交流平台,每个提问者会在提出自己问题的同时,会添加问题的标题和对标题的进行具体描述的问题内容,以及设置绑定标签,帮助锁定专家用户对当前问题的关注。问题编码器架构具体如图1所示。
示例性的,将问题标题文本信息进行Embedding词向量化,将词向量化后的结果依次经过第一卷积神经网络CNN和第一注意力机制Attention模型,输出问题标题的表示向量;具体实现方式包括:
首先,运用问题编码器对问题标题信息进行处理,输入原始问题标题文本表示t=[t1,t2...tM]后,使用词向量化函数,将其转化为相应的Embedding词向量表示t'=ζ(t)=[T1,T2...TM],M为标题文本长度。使用CNN捕捉局部上下文信息学习上下文的复杂语义表示;
然后再经过attention注意力网络,对不同的词赋予不同的权重,挑选最具代表性的语义信息Ai,计算方式如下:
αi=tanh(θ×Ci+r),
进一步地,本申请采取预训练好的词向量模型进行Embedding词向量化化。本申请词向量化后的主题标签共100,000个,单词向量共1,760,000个,所有Embedding词向量化后的信息表示维度都为64。
示例性的,将问题内容文本信息进行Embedding词向量化,将词向量化后的结果依次经过第二卷积神经网络CNN和第二注意力机制Attention模型,输出问题内容的表示向量;具体实现方式包括:
示例性的,将问题标签信息进行Embedding词向量化,将词向量化后的结果进行全局平均化,得到问题标签的表示向量;具体实现方式包括:
用户通常绑定多个标签,本申请对首先对所有标签信息g=[g1,g2...gO],O是标签的个数,进行Embedding词向量化处理g'=ζ(g)=[G1,G2...GO]然后进行全局池化平局,得到问题的标签表示qg=VAvgg’。VAvg是池化平均参数矩阵,大小为O·V,V是标签向量的维度。
作为一个或多个实施例,所述S103:将候选用户数据进行向量化表示,得到用户表示向量;具体步骤包括:
对候选用户的历史回答过的问题进行向量化表示,得到用户兴趣动态表示向量;
对候选用户的历史回答过的问题对应的用户回复进行向量化表示,得到用户专业知识动态表示向量;
对候选用户的标签信息进行向量化表示,得到用户长期固定兴趣表示向量;
将用户兴趣动态表示向量、用户专业知识动态表示向量和用户长期固定兴趣表示向量进行拼接,得到最终的用户表示向量。
应理解的,用户侧数据是全部涉及用户ID信息的具体数据从用户记录和用户回答记录中提取。所有进行处理的用户侧数据均是邀请记录中出现过用户ID的用户侧数据。
用户回答问题的时间序列反映了用户兴趣和专业知识变化。此外,用户也会选择一些标签主动展示自己的兴趣,并且用户标签相对固定,很长时间都不会发生变化,可以反应用户长期兴趣。用户编码器分别从序列解答行为和用户标签学习特征向量组成最终的向量表示,架构如图2所示。用户编码器分为用户兴趣动态表示模块、用户长期固定兴趣表示模块和用户专业知识动态表示三个模块,三个模块的训练次序并非唯一固定。
进一步地,所述对候选用户的历史回答过的问题进行向量化表示,得到用户兴趣动态表示向量;具体实现方式为:
对候选用户的历史回答过的问题按照时间先后顺序进行排序,得到历史问题序列;
将历史问题序列输入到问题编码器中,输出历史回答问题的问题向量表示;
对历史回答问题的问题向量表示进行Embedding词向量化;
将词向量化后的序列依次经过双层Bi-GRU结构,得到用户兴趣动态表示向量。
示例性的,所述对候选用户的历史回答过的问题进行向量化表示,得到用户兴趣动态表示向量;具体实现方式为:
用户除了有固定的长期兴趣,部分在短期内也会发生兴趣的漂移,导致兴趣发生动态改变。本申请从问题数据中抓取含有当前待测用户ID的所有回答过的问题记录。将这些历史问题记录按照先后顺序进行排列q=[q1.q2...qK],K是回答过的问题数量,回答时间约久远的排列位置越靠前。然后利用上述的问题编码器对每个问题编码获取它们的向量表示Q’=[Q1,Q2...QK],然后把Q’放入双层Bi-GRU网络,处理动态的兴趣变化。经过第一层Bi-GRU生成所有隐层状态his(s∈[1,K])进行拼接后后,放入第二层Bi-GRU进行更细粒度的动态信息表征,与第一层Bi-GRU不同的是,第二层仅输出最具代表性最后一个隐层状态hiK’,作为给定用户当前的动态兴趣表示us=hiK’。
进一步地,所述对候选用户的历史回答过的问题对应的用户回复进行向量化表示,得到用户专业知识动态表示向量;具体实现方式为:
将候选用户的历史回答过的问题对应的用户回复按照时间先后顺序进行排序,得到历史回复序列;
对历史回复序列进行Embedding词向量化表示;
对词向量化表示的序列依次经过双层Bi-GRU结构,得到用户专业知识动态表示向量。
示例性的,所述对候选用户的历史回答过的问题对应的用户回复进行向量化表示,得到用户专业知识动态表示向量;具体实现方式为:
用户的专业知识也会随时间而动态变化,所涉及的用户历史回答问题对应的用户回复进行排序e=[e1.e2...eK],进行Embedding词向量化表示后依次使用CNN结合Attention网络进行重要语义表征,形成各自的回复表示向量E=[E1.E2...EK],然后按次序放入双层Bi-GRU网络,处理动态的专业知识变化。经过双向的时间序列处理,最终形成用户专业知识动态向量ue=h’iK’。。
进一步地,所述对候选用户的标签信息进行向量化表示,得到用户长期固定兴趣表示向量;具体实现方式为:
对候选用户的标签信息进行Embedding词向量化表示;
对向量化表示后的标签信息进行全局平均池化处理,得到用户长期固定兴趣表示向量。
示例性的,所述对候选用户的标签信息进行向量化表示,得到用户长期固定兴趣表示向量;具体实现方式为:
用户往往有多个固定的长期关注的兴趣话题,本申请从用户配置文件中提取到若干标签gL=[gL 1,gL 2...gL O’],O’是用户关注的标签数量,进行词嵌入化表示gL’=[GL 1,GL 2...GL O’],取全局池化平均得到用户长期固定兴趣表示ul=VL AvggL’。
作为一个或多个实施例,所述S104:基于问题表示向量和用户表示向量,输出推荐的用户;具体步骤包括:
对问题表示向量和用户表示向量进行点积;
将点积结果输入到全连接层;
将全连接层输出结果输入到Sigmoid层,最后输出每个推荐用户的推荐概率得分,将推荐概率得分最高的若干个推荐用户作为最终的推荐专家。
应理解的,基于点积,比较问题向量和用户向量的相似度;将结果输入全连接层,进行重要信息再度提取,减少特征信息的损失。将生成的向量输入Sigmoid层,生成用户成为专家的概率得分。
设置当前问题-用户对(ux,qx)在得到问题表示向量Qx,用户表示向量Ux后,本申请基于点积Ux TQx对问题向量和用户向量进行比较,判断当前用户是否会接受问题的邀请。比较后的结果经过全连接层函数进一步提取稠密信息。最后使用Sigmoid函数将数据结果映射到[0,1]之间,即为用户成为此问题专家的概率得分。计算流程如图3所示,公式表示如下:
进一步地,预先训练好的预测模型;训练过程包括:
构建预测模型;
构建训练集和测试集,所述训练集和测试集均为已知用户成为专家或不成为专家的问题数据和用户数据;
将训练集输入到预测模型中,对预测模型进行训练,采用交叉验证方式分别训练出若干个模型,选择效果最好的模型最为最终的预测模型。
示例性的,采用5折交叉验证方法分别训练出五个模型,选取效果最好的作为最后的用于预测的模型。
进一步地,训练过程中采用早停策略对模型进行优化。
进一步地,所述构建训练集;具体步骤包括:
采集问答交流平台设定时期以内的数据样本;
将采集到的样本进行清洗。
进一步地,将采集到的样本进行清洗,具体步骤包括:
剔除同一个问题多次邀请同一个用户进行回答的重复邀请记录;
剔除用户历史回答问题的时间晚于问题发出邀请的时间的用户历史记录。
选取样本数据集,并对样本进行脏数据清洗处理。
样本集所有数据均来自知乎,本申请选取记录包括:500,000条问题邀请记录,1,931,645条用户记录,18,299,00条问题记录,4,513,735条问题回答记录。问题邀请数据选取完全随机,无特殊人工干预。问题回答记录中包括问题邀请中所提及所有用户的近期的所有回答。
其中问题邀请记录具体包括:邀请问题ID、被邀请的用户ID、邀请创建的时间、邀请是非被回答。值为1表示用户接受邀请并回答,值为0表示邀请没有被回答。
用户记录具体包括:用户ID、用户关注的话题标签。
问题记录具体包括:问题ID、问题创建时间、问题标题信息、问题内容信息、问题绑定的标签。
问题回答记录具体包括:回答ID、问题ID、作者用户ID、回答创建时间、回答具体内容信息。
把其中含有重复邀请的数据进行了剔除,同时为了防止数据穿越现象的存在,也对存在于用户历史回答记录中的历史回答数据中的晚于当前问题下发时间的数据进行了剔除。
进一步地,由于问答交流平台数据稀疏的原因,部分用户数据会不可避免的出现缺失的状况,本申请将缺失的数据进行填充,维度与所处理信息的维度保持一致,填充内容统一为0。
实施例二
本实施例提供了结合动态兴趣与专业知识的问答社区专家推荐系统;
结合动态兴趣与专业知识的问答社区专家推荐系统,包括:
获取模块,其被配置为:获取目标问题数据;
问题向量表示模块,其被配置为:将目标问题数据进行向量化表示,得到问题表示向量;
用户向量表示模块,其被配置为:将候选用户数据进行向量化表示,得到用户表示向量;
输出模块,其被配置为:基于问题表示向量和用户表示向量,输出推荐的用户。
此处需要说明的是,上述获取模块、问题向量表示模块、用户向量表示模块和输出模块对应于实施例一中的步骤S101至S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.结合动态兴趣与专业知识的问答社区专家推荐方法,其特征是,包括:
获取目标问题数据;
将目标问题数据进行向量化表示,得到问题表示向量;
将候选用户数据进行向量化表示,得到用户表示向量;
基于问题表示向量和用户表示向量,输出推荐的用户。
2.如权利要求1所述的方法,其特征是,将目标问题数据进行向量化表示,得到问题表示向量;具体步骤包括:
将问题标题文本信息进行Embedding词向量化,将词向量化后的结果依次经过第一卷积神经网络CNN和第一注意力机制Attention模型,输出问题标题的表示向量;
将问题内容文本信息进行Embedding词向量化,将词向量化后的结果依次经过第二卷积神经网络CNN和第二注意力机制Attention模型,输出问题内容的表示向量;
将问题标签信息进行Embedding词向量化,将词向量化后的结果进行全局平均化,得到问题标签的表示向量;
将问题标题的表示向量、问题内容的表示向量和问题标签的表示向量,进行拼接,得到最终的问题表示向量。
3.如权利要求1所述的方法,其特征是,将候选用户数据进行向量化表示,得到用户表示向量;具体步骤包括:
对候选用户的历史回答过的问题进行向量化表示,得到用户兴趣动态表示向量;
对候选用户的历史回答过的问题对应的用户回复进行向量化表示,得到用户专业知识动态表示向量;
对候选用户的标签信息进行向量化表示,得到用户长期固定兴趣表示向量;
将用户兴趣动态表示向量、用户专业知识动态表示向量和用户长期固定兴趣表示向量进行拼接,得到最终的用户表示向量。
4.如权利要求3所述的方法,其特征是,所述对候选用户的历史回答过的问题进行向量化表示,得到用户兴趣动态表示向量;具体实现方式为:
对候选用户的历史回答过的问题按照时间先后顺序进行排序,得到历史问题序列;
将历史问题序列输入到问题编码器中,输出历史回答问题的问题向量表示;
对历史回答问题的问题向量表示进行Embedding词向量化;
将词向量化后的序列依次经过双层Bi-GRU结构,得到用户兴趣动态表示向量。
5.如权利要求3所述的方法,其特征是,所述对候选用户的历史回答过的问题对应的用户回复进行向量化表示,得到用户专业知识动态表示向量;具体实现方式为:
将候选用户的历史回答过的问题对应的用户回复按照时间先后顺序进行排序,得到历史回复序列;
对历史回复序列进行Embedding词向量化表示;
对词向量化表示的序列依次经过双层Bi-GRU结构,得到用户专业知识动态表示向量。
6.如权利要求3所述的方法,其特征是,所述对候选用户的标签信息进行向量化表示,得到用户长期固定兴趣表示向量;具体实现方式为:
对候选用户的标签信息进行Embedding词向量化表示;
对向量化表示后的标签信息进行全局平均池化处理,得到用户长期固定兴趣表示向量。
7.如权利要求1所述的方法,其特征是,基于问题表示向量和用户表示向量,输出推荐的用户;具体步骤包括:
对问题表示向量和用户表示向量进行点积;
将点积结果输入到全连接层;
将全连接层输出结果输入到Sigmoid层,最后输出每个推荐用户的推荐概率得分,将推荐概率得分最高的若干个推荐用户作为最终的推荐专家。
8.结合动态兴趣与专业知识的问答社区专家推荐系统,其特征是,包括:
获取模块,其被配置为:获取目标问题数据;
问题向量表示模块,其被配置为:将目标问题数据进行向量化表示,得到问题表示向量;
用户向量表示模块,其被配置为:将候选用户数据进行向量化表示,得到用户表示向量;
输出模块,其被配置为:基于问题表示向量和用户表示向量,输出推荐的用户。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011096689.4A CN112100464B (zh) | 2020-10-14 | 2020-10-14 | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011096689.4A CN112100464B (zh) | 2020-10-14 | 2020-10-14 | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100464A true CN112100464A (zh) | 2020-12-18 |
CN112100464B CN112100464B (zh) | 2022-09-02 |
Family
ID=73783402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011096689.4A Active CN112100464B (zh) | 2020-10-14 | 2020-10-14 | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100464B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765326A (zh) * | 2021-01-27 | 2021-05-07 | 西安电子科技大学 | 一种问答社区专家推荐方法、系统及应用 |
CN113254782A (zh) * | 2021-06-15 | 2021-08-13 | 济南大学 | 问答社区专家推荐方法及系统 |
CN113641791A (zh) * | 2021-08-12 | 2021-11-12 | 卓尔智联(武汉)研究院有限公司 | 专家推荐方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN109325132A (zh) * | 2018-12-11 | 2019-02-12 | 平安科技(深圳)有限公司 | 专家知识推荐方法、装置、计算机设备及存储介质 |
CN109871439A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种基于深度学习的问答社区问题路由方法 |
CN111274440A (zh) * | 2020-01-19 | 2020-06-12 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
-
2020
- 2020-10-14 CN CN202011096689.4A patent/CN112100464B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN109325132A (zh) * | 2018-12-11 | 2019-02-12 | 平安科技(深圳)有限公司 | 专家知识推荐方法、装置、计算机设备及存储介质 |
WO2020119063A1 (zh) * | 2018-12-11 | 2020-06-18 | 平安科技(深圳)有限公司 | 专家知识推荐方法、装置、计算机设备及存储介质 |
CN109871439A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种基于深度学习的问答社区问题路由方法 |
CN111274440A (zh) * | 2020-01-19 | 2020-06-12 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
Non-Patent Citations (3)
Title |
---|
张峰铭: "基于文本分析的专家推荐系统研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
慕江林: "一种融合开发者问答社区信息的专家推荐方法", 《现代计算机》 * |
杨欣豫: "基于时间感知的多重图嵌入的用户推荐算法", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765326A (zh) * | 2021-01-27 | 2021-05-07 | 西安电子科技大学 | 一种问答社区专家推荐方法、系统及应用 |
CN113254782A (zh) * | 2021-06-15 | 2021-08-13 | 济南大学 | 问答社区专家推荐方法及系统 |
CN113641791A (zh) * | 2021-08-12 | 2021-11-12 | 卓尔智联(武汉)研究院有限公司 | 专家推荐方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112100464B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100464B (zh) | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 | |
CN110175227B (zh) | 一种基于组队学习和层级推理的对话辅助系统 | |
CN110633373B (zh) | 一种基于知识图谱和深度学习的汽车舆情分析方法 | |
CN109918560A (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN113254782B (zh) | 问答社区专家推荐方法及系统 | |
CN108121702B (zh) | 数学主观题评阅方法及系统 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN108052504B (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN112115352A (zh) | 基于用户兴趣的会话推荐方法及系统 | |
CN111460101B (zh) | 知识点类型的识别方法、装置及处理器 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN114780831A (zh) | 基于Transformer的序列推荐方法及系统 | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN112328778A (zh) | 确定用户特征和模型训练的方法、装置、设备及介质 | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及系统 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN115221864A (zh) | 一种多模态假新闻检测方法及系统 | |
CN113011196B (zh) | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN110390050B (zh) | 一种基于深度语义理解的软件开发问答信息自动获取方法 | |
CN107992482B (zh) | 数学主观题解答步骤的规约方法及系统 | |
CN110909174A (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |