CN107291815A - 基于跨平台标签融合的问答社区推荐方法 - Google Patents

基于跨平台标签融合的问答社区推荐方法 Download PDF

Info

Publication number
CN107291815A
CN107291815A CN201710362466.XA CN201710362466A CN107291815A CN 107291815 A CN107291815 A CN 107291815A CN 201710362466 A CN201710362466 A CN 201710362466A CN 107291815 A CN107291815 A CN 107291815A
Authority
CN
China
Prior art keywords
user
platform
cross
answer
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710362466.XA
Other languages
English (en)
Inventor
彭舰
冯勇领
黄飞虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201710362466.XA priority Critical patent/CN107291815A/zh
Publication of CN107291815A publication Critical patent/CN107291815A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一个跨平台利用标签融合进行兴趣建模的问答社区专家推荐方法。该方法利用跨平台共同用户,通过结合LDA主题模型与word2vec构建标签的词向量,对不同平台文本数据构建标签语义相似度矩阵,生成融合特征空间并得到用户的融合空间模型。相比单一网络的用户模型,跨平台用户模型能更全面覆盖用户不同特性,对用户特征有更清晰的描述。同时综合考虑用户用户的回答能力度及用户跨平台社区影响力,使用基于融合网络的PageRank算法对用户进行权威度评价,再考虑社区反馈对用户进行能力度评价。通过与基准兴趣模型、单一网络用户模型、协同过滤推荐模型等算法进行实验对比,显示出本文提出的算法具有更好的推荐效果。

Description

基于跨平台标签融合的问答社区推荐方法
技术领域
本发明涉及到问答社区的专家推荐研究,是基于跨平台标签融合的专家推荐方法。
背景技术
伴随互联网及信息化的发展,社区问答系统成为用户在网络中获取信息的重要平台,用户可以通过自然语言对自己想了解的内容进行提问,由社区中其他用户进行解答。通过自然语言的交流,使得问答系统可以为用户之间提供很好的知识信息分享,更加方便地满足用户的信息需求。而随着社区问答系统中用户数量的增加,提问的数量也随之增多,社区中许多的问题长时间无法得到解答,或者得到的回答质量不高,根本无法满足问题需求。因此为了提高问答社区的工作效率,我们需要设计合适的推荐系统向社区中的问题推荐合适的回答者,增强用户的社区参与度,提高社区中的内容质量。
目前问答社区中的专家推荐算法一般都是利用单一社区的用户文档或网络结构进行对用户进行建模并推荐,但单一平台的数据通常只包含用户的部分特征,并不能全面地构建用户模型。
发明内容
本发明针对现有推荐算法的不足,利用对跨平台用户数据进行研究,提出了一直基于标签融合的用户兴趣建模方法,并基于此实现问答社区中的专家推荐算法。
首先通过对知乎和微博两个平台的数据进行分析,从微博的社交关系以及知乎社区的问答功能出发,结合LDA主题模型与word2vec对文本标签的语义进行深入挖掘,利用标签语义相似度矩阵设计跨平台的标签融合算法,构建融合的用户兴趣模型。相比单一网络的用户模型,跨平台用户模型能更全面覆盖用户不同特性,对用户特征有更清晰的描述。
同时综合考虑了社区用户的兴趣偏好、回答能力度及影响力实现专家推荐。算法利用用户知乎和微博平台的历史数据,通过标签融合建模方法对知乎专家用户的兴趣进行分析;对跨平台的共同用户构建融合关注关系网络,结合PageRank算法对用户的综合影响力进行分析;同时通过知乎社区的问答反馈机制,分析用户的回答能力度。通过实验结果表明,本文提出的算法具有更好的推荐效果。
本发明的有益效果是:通过跨平台的信息构建用户兴趣模型,能更全面获取用户的兴趣偏好。进而考虑用户在问答社区中的回答能力度及影响力,找出最适合对社区中待回答问题进行解答的用户,进行推荐。降低问答社区中问题的等待回答时间,提高社区运行效率。
附图说明
图1为本发明的主题词选取流程。
图2为本发明的推荐算法流程图。
图3为本发明的带权重关注网络示意图。
具体实施方式
本发明以知乎问答社区为例,研究知乎与微博平台之间的用户特征关系。
通过前两节的分析及数据的处理,我们已经提取到共同用户在两个平台中的兴趣主题,为了得到一个综合的用户兴趣模型,我们需要将两个平台的主题标签进行融合。
在对每个用户不同平台的标签向量进行分析时,由于主题提取算法是通过生成概率对主题进行建模,没有考虑词的语义特征,结果导致部分用户的标签中含有许多相似的词。因此如果直接将两个特征空间的词进行合并,将会使得用户的标签空间过大,同时用户在很多特征词上的值为0,导致数据稀疏问题,对用户的建模产生影响。
于是我们引入语义相似度分析,通过标签映射的思想,对两个主题空间内的主题标签之间进行语义相似度计算,对于相似度高的两个主题标签,选择其中对用户兴趣指代性强,区分度高的词作为特征词,最终构建融合主题空间。
对于每个用户,其知乎标签Rz与微博标签Rw的主题标签相似度矩阵TR定义如下:
其中dij来自两个网络的特征词的相似度:
dij=Sim(wzi,wwj)
其中,wzi代表用户知乎标签中第i个词的词向量,wwj代表用户微博标签中第j个词的词向量,我们通过Word2vec模型进行计算。
本发明将用户的历史问答及微博分词数据作为输入变量进行训练,设每个词的向量维度为n,对于每一个用户,通过训练好的模型对Rz及Rw中的每个词做词向量转化,得到每一个用户的单一平台主题矩阵:
M=[w(t)]
其中t属于Rz或Rw,矩阵中每一行w(t)表示用户的主题标签t的n维词向量。
通过生成每个平台中的主题标签的词向量,便可以通过向量余弦计算两个平台中各标签之间的相似度,计算公式为:
其中ik,jk分布为词向量中每个维度的值。
在得到标签相似度矩阵后,对于相似度高的标签,我们需要在两个词中进行选择,挑出其中更具有代表性的词加入到用户的新主题向量。当两个词相似度并不高时,则将两个词同时加入新主题向量,最终得到的新主题向量即融合后的用户主题向量。算法描述流程如下:
如果某个词在集合中出现的次数较多,则证明该词更加为被大众所接受,比如(爬山,登山),两者的语义相似度很高,假如大部分用户都是使用“爬山”来说明自己的爱好,则“爬山”一词的词频会较“登山”一词更高,因此文档集合中,“爬山”一次能能更好地表示用户的特征,应该给其赋予较高的权重,用来作为该文档的代表。
对于在某个主题分布中的词ti,他的权值表示为该词在各个网络中的权重之和,由于TF值对标签的表示更直观、简洁。因此本文采用改进的TF值进行计算,公式如下:
其中wij是该词ti在网络j中原有的权值,nij是该词在网络j中的词频数,nj表示网络j的所有词数量。
本发明通过空间向量模型来构建用户最终的主题向量,将所有用户的主题分布中的词作为最终的融合主题空间:
TS={tag1,tag2,...,tags}
并将每个用户的标签映射到融合主题空间中,得到每个用户的主题向量:
U={weight1,weight2,...,weights}
s为融合主题空间的大小,weighti为第i个词的权值。
1.对于一个新问题,需要筛选出曾经回答过相关类似问题的人来作为推荐列表,因此本发明通过用户历史回答中的话题标签数据进行筛选。每个问题的话题标签数量为1至5个,对于某个标签,用户在该话题标签下的回答次数多少能反映出用户对该话题相关问题的感兴趣程度。用户回答某个话题标签越多,则用户对该话题的兴趣度越高。
2.对于通过筛选后的用户,需要计算其对新问题的兴趣度。对于用户来说,其回答过的问题一定程度上就是其对某个问题领域的兴趣体现,因此本发明通过用户在社区中的历史回答数据来构建用户的兴趣模型。
本发明将知乎-微博的共同用户与非共同用户分别进行建模,得到各自的主题模型,步骤如下:
1)对所有知乎用户的历史问答数据处理得到用户分词向量,构建每个用户主题标签向量Rz
2)提取其中关联微博的用户集合,使用3.3.2节的算法构建共同用户的微博主题标签向量Rw
3)通过3.4节提出的标签融合算法,对共同用户的知乎主题标签Rz和微博主题标签Rw进行融合,得到融合主题标签空间TS及共同用户的融合主题向量U。
4)统一维度,将非共同用户的主题标签同样映射到标签空间TS中,得到主题向量U′。
对于一个新问题q,用户对其进行回答的兴趣度可以通过该问题的内容特征与用户历史回答的主题特征匹配程度来表示,即该用户主题标签与问题标签的相似度,我们将其定义为sim(u,q)。
3.对于用户回答问题的能力及专业程度我们通过用户历史回答得到的评价来进行评判。在知乎网络中,用户的回答会得到其他用户的“赞同”或“反对”,在同一问题下,用户得到的赞同数越多,通常能表示用户对该问题发表的观点更加受到认可,回答的质量更高。因此我们通过用户u历史回答的平均得赞数Iu来对用户进行能力度的评判:
在问答网络中,热门问题通常会得到更多人的关注,部分回答质量不高的答案也可能会得到很多赞,甚至比某些冷门问题下的高质量答案得到的赞更多。因此,需要消除问题热度带来的得赞数差别。
4.在一个问答网络中,用户的权威度也会体现其回答问题的能力。网络中影响力大的用户普遍具有独特的素质、知识涵养及专业性,因此才能得到整个网络社区的认可。于是我们同样需要考虑用户在网络中的影响力作为专家推荐的因素。
对于专家用户中的跨网络用户,我们需要综合考虑其在知乎和微博社区中的影响力。在微博社交网络中具有较强的“关注-粉丝”关系,而且微博中的大V对信息传播具有重要意义,相关的影响力研究较多。所以本文结合微博网络对共同用户进行影响力分析。
如果单纯使用知乎数据建立关注网络,构建的用户网络稀疏,且不完整。因此我们融合用户的微博关注关系,来丰富用户的关注网络。
如果用户ui在知乎和微博同时关注用户uj,则该用户的受关注程度是跨网络的,比单一网络中的关注更强。但在传统的PageRank中,并不考虑边的权值,因此无法区分出该条边是从单一网络生成还是跨网络生成。因此,本发明改进PageRank算法,设定其中融合边的权值为:
于是得到有向图G′,如图3。

Claims (3)

1.一种跨平台利用标签融合进行兴趣建模的问答社区专家推荐方法,其特征在于利用两个平台中的文本数据,通过标签映射,利用Word2vec模型构建语义相似度矩阵,再对相似度高的两个主题标签,选择其中对用户兴趣指代性强,区分度高的词作为特征词,构建融合主题空间。
2.根据权利1所述的一种基于跨平台标签融合的构建用户兴趣模型方法,其特征在于考虑不同平台的标签语义,构建跨平台用户标签的语义相似度矩阵。
3.根据权利2所述的基于跨平台信息融合的专家推荐方法,其特征在于综合考虑用户对问题的兴趣度、用户的回答能力度及用户跨平台社区影响力。
CN201710362466.XA 2017-05-22 2017-05-22 基于跨平台标签融合的问答社区推荐方法 Pending CN107291815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710362466.XA CN107291815A (zh) 2017-05-22 2017-05-22 基于跨平台标签融合的问答社区推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710362466.XA CN107291815A (zh) 2017-05-22 2017-05-22 基于跨平台标签融合的问答社区推荐方法

Publications (1)

Publication Number Publication Date
CN107291815A true CN107291815A (zh) 2017-10-24

Family

ID=60094450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710362466.XA Pending CN107291815A (zh) 2017-05-22 2017-05-22 基于跨平台标签融合的问答社区推荐方法

Country Status (1)

Country Link
CN (1) CN107291815A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798624A (zh) * 2017-10-30 2018-03-13 北京航空航天大学 一种软件问答社区中的技术标签推荐方法
CN108021616A (zh) * 2017-11-06 2018-05-11 大连理工大学 一种基于循环神经网络的社区问答专家推荐方法
CN108363748A (zh) * 2018-01-26 2018-08-03 南京邮电大学 基于知乎的话题画像系统及话题画像方法
CN108876407A (zh) * 2018-06-28 2018-11-23 联想(北京)有限公司 一种数据处理方法及电子设备
CN109522458A (zh) * 2018-09-26 2019-03-26 王萌 基于区块链网络的知识平台系统及网络问答方法
CN109299366B (zh) * 2018-09-28 2019-07-30 西安交通大学深圳研究院 一种基于内容相似度实时计算的网络数据分类推荐系统
CN110442767A (zh) * 2019-07-31 2019-11-12 腾讯科技(深圳)有限公司 一种确定内容互动平台标签的方法、装置及可读存储介质
CN110909146A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN111274497A (zh) * 2020-01-22 2020-06-12 北京百度网讯科技有限公司 社区推荐及模型训练方法、装置、电子设备及存储介质
CN111291261A (zh) * 2020-01-21 2020-06-16 江西财经大学 融合标签和注意力机制的跨领域推荐方法及其实现系统
CN112231577A (zh) * 2020-11-06 2021-01-15 重庆理工大学 一种融合文本语义向量和神经协同过滤的推荐方法
CN112765326A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 一种问答社区专家推荐方法、系统及应用
CN112989197A (zh) * 2021-03-30 2021-06-18 北京工业大学 一种针对社区问答平台的答者推荐方法
CN113553105A (zh) * 2020-04-23 2021-10-26 百度在线网络技术(北京)有限公司 引导页面的生成方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495860A (zh) * 2011-11-22 2012-06-13 北京大学 基于语言模型的专家推荐方法
CN104424302A (zh) * 2013-09-04 2015-03-18 阿里巴巴集团控股有限公司 一种同类数据对象的匹配方法和装置
WO2015058558A1 (zh) * 2013-10-23 2015-04-30 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495860A (zh) * 2011-11-22 2012-06-13 北京大学 基于语言模型的专家推荐方法
CN104424302A (zh) * 2013-09-04 2015-03-18 阿里巴巴集团控股有限公司 一种同类数据对象的匹配方法和装置
WO2015058558A1 (zh) * 2013-10-23 2015-04-30 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晓鸣: "社区问答系统中的专家发现方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798624A (zh) * 2017-10-30 2018-03-13 北京航空航天大学 一种软件问答社区中的技术标签推荐方法
CN107798624B (zh) * 2017-10-30 2021-09-28 北京航空航天大学 一种软件问答社区中的技术标签推荐方法
CN108021616B (zh) * 2017-11-06 2020-08-14 大连理工大学 一种基于循环神经网络的社区问答专家推荐方法
CN108021616A (zh) * 2017-11-06 2018-05-11 大连理工大学 一种基于循环神经网络的社区问答专家推荐方法
CN108363748B (zh) * 2018-01-26 2021-07-09 南京邮电大学 基于知乎的话题画像系统及话题画像方法
CN108363748A (zh) * 2018-01-26 2018-08-03 南京邮电大学 基于知乎的话题画像系统及话题画像方法
CN108876407A (zh) * 2018-06-28 2018-11-23 联想(北京)有限公司 一种数据处理方法及电子设备
CN108876407B (zh) * 2018-06-28 2022-04-19 联想(北京)有限公司 一种数据处理方法及电子设备
CN109522458A (zh) * 2018-09-26 2019-03-26 王萌 基于区块链网络的知识平台系统及网络问答方法
CN109299366B (zh) * 2018-09-28 2019-07-30 西安交通大学深圳研究院 一种基于内容相似度实时计算的网络数据分类推荐系统
CN110442767A (zh) * 2019-07-31 2019-11-12 腾讯科技(深圳)有限公司 一种确定内容互动平台标签的方法、装置及可读存储介质
CN110442767B (zh) * 2019-07-31 2023-08-18 腾讯科技(深圳)有限公司 一种确定内容互动平台标签的方法、装置及可读存储介质
CN110909146A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN111291261A (zh) * 2020-01-21 2020-06-16 江西财经大学 融合标签和注意力机制的跨领域推荐方法及其实现系统
CN111291261B (zh) * 2020-01-21 2023-05-26 江西财经大学 融合标签和注意力机制的跨领域推荐方法及其实现系统
CN111274497B (zh) * 2020-01-22 2023-08-18 北京百度网讯科技有限公司 社区推荐及模型训练方法、装置、电子设备及存储介质
CN111274497A (zh) * 2020-01-22 2020-06-12 北京百度网讯科技有限公司 社区推荐及模型训练方法、装置、电子设备及存储介质
CN113553105A (zh) * 2020-04-23 2021-10-26 百度在线网络技术(北京)有限公司 引导页面的生成方法和装置
CN112231577A (zh) * 2020-11-06 2021-01-15 重庆理工大学 一种融合文本语义向量和神经协同过滤的推荐方法
CN112231577B (zh) * 2020-11-06 2022-06-03 重庆理工大学 一种融合文本语义向量和神经协同过滤的推荐方法
CN112765326A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 一种问答社区专家推荐方法、系统及应用
CN112989197A (zh) * 2021-03-30 2021-06-18 北京工业大学 一种针对社区问答平台的答者推荐方法

Similar Documents

Publication Publication Date Title
CN107291815A (zh) 基于跨平台标签融合的问答社区推荐方法
Graves et al. Species richness alone does not predict cultural ecosystem service value
Nordström et al. Integrating multiple criteria decision analysis in participatory forest planning: Experience from a case study in northern Sweden
Oh et al. Using recreation specialization to understand multi-attribute management preferences
Stewart et al. A scenario‐based framework for multicriteria decision analysis in water resources planning
Stewart Goal directed benchmarking for organizational efficiency
Stankovic et al. The digital competitiveness of European countries: A multiple-criteria approach.
Al-Ghaith Applying the technology acceptance model to understand social networking sites (SNS) usage: Impact of perceived social capital
Gobster et al. Landscape journal and scholarship in landscape architecture: The next 25 years
CN108829763A (zh) 一种基于深度神经网络的影评网站用户的属性预测方法
CN109871485A (zh) 一种个性化推荐方法及装置
Shafiee et al. Developing sustainable tourism destinations through smart technologies: A system dynamics approach
CN109034960A (zh) 一种基于用户节点嵌入的多属性推断的方法
Sayer Moral economy, the foundational economy and de-carbonisation
Beaudoin et al. Collaborative knowledge mapping to inform environmental policy-making: The case of Canada’s Rideau Canal National Historic Site
Herbst et al. Linking user-perception diversity on ecosystems services to the inception of coastal governance regime transformation
Jonsson et al. How participatory can participatory modeling be? Degrees of influence of stakeholder and expert perspectives in six dimensions of participatory modeling
Puška et al. An assessment of improving the sustainable agro-touristic offer in an emerging country using the integrative approach based on fuzzy logic
Magassy et al. Influence of mode use on level of satisfaction with daily travel routine: a focus on automobile driving in the United States
Turner et al. Navigating institutional challenges: design to enable community participation in social learning for freshwater planning
Nunn Fostering social mobility as a contribution to social cohesion
CN105279180A (zh) 一种基于双向选择的推荐框架
Ghose et al. The economic impact of user-generated content on the Internet: Combining text mining with demand estimation in the hotel industry
CN110069756A (zh) 一种考虑用户评价的资源或服务推荐方法
Ćorluka et al. The temporal dimension of tourist attraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171024