CN109885776A - 开源社区pr评审者可解释推荐模型 - Google Patents
开源社区pr评审者可解释推荐模型 Download PDFInfo
- Publication number
- CN109885776A CN109885776A CN201910143846.3A CN201910143846A CN109885776A CN 109885776 A CN109885776 A CN 109885776A CN 201910143846 A CN201910143846 A CN 201910143846A CN 109885776 A CN109885776 A CN 109885776A
- Authority
- CN
- China
- Prior art keywords
- reviewer
- recommendation
- user
- recommended models
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
对于开源社区Pull Request(PR)Reviewer推荐模型,传统上着重于通过开发新的算法或通过整合新的数据源来提高推荐的预测准确性。本发明主要集中精力研究推荐模型领域的一个未知的方面:解释和透明度。推荐模型需要进一步提高透明度,让用户更加信任和满意。解释对于用户驱动的推荐算法融合的模型来说尤其重要,模型中要以有意义的方式解释推荐来源,用户根据特定方面以及综合排名清单,对被推荐人排名高低的原因有深入的了解,做出最优的决策。
Description
技术领域
本发明为开源社区PR评审者可解释推荐模型,属于数据挖掘与机器学习和大数据可视化领域。
背景技术
对于开源社区PullRequest(PR)Reviewer推荐,传统上着重于通过开发新的算法或通过整合新的数据源来提高推荐的预测准确性。然而,一些研究表明,准确性并不总是与更好的用户体验相关联,向用户有效解释其推荐的能力是推荐模型的另一个重要方面。一个推荐模型能够以使其推理更加透明的方式向用户解释其推荐算法,可以显着地促进用户对推荐模型的信任和推荐结果的满意。一个很好的可解释推荐模型是准确地说明推荐背后的原因,并允许用户正确区分合理的建议和没有充分合理的选择。可以说,解释的最重要的贡献并不是说服用户采用推荐,而是让他们做出更加明确和有效的决定。近年来,研究人员越来越意识到推荐的有效性超出了推荐的准确性。因此,对这些人为因素的研究已经引起了越来越多的兴趣,例如将交互式可视化技术与推荐技术相结合,以支持推荐过程的透明度和可控性。可视化利用视觉表示来促进人类的感知,而交互则强调用户通过与发明的对话来参与到推荐的过程。
发明内容
本发明为开源社区PR评审者可解释推荐模型,该模型具体流程如下:
①当贡献者(用户)提交新的PR时,推荐算法首先分析历史数据,并找到曾经发表过评论的Reviewer。这些Reviewer成为候选推荐人选。
②从历史数据中提取每个Reviewer以前的评论和相应的PR。
③从先前的评论和PR中提取属性值。
④根据该Reviewer评论过的PR属性值计算Reviewer的评分。
⑤我们根据评分对Reviewer进行排序,找到评分靠前的Reviewer,并生成一个推荐列表。
⑥使用可视化交互式图形展示推荐算法,提高推荐模型的透明度。使用户对推荐结果排名深入了解,做最优的决策。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图对本发明具体实施步骤作进一步详细的说明。
本发明构建了开源社区PR评审者可解释推荐模型,将交互式可视化技术与推荐技术相结合,以支持推荐模型的可解释性。具体而言,本发明包含以下步骤:
Step1:基于PR文本相似的推荐相似度计算
文本信息经常在开发人员推荐的bug解决方案中使用。当用户提交PR时,他们会用标题来简要介绍他们所做的代码更改。语义信息在Reviewer推荐中起重要作用。类似的PR通常以类似的方式描述,并且Reviewer可以在类似的PR中发表评论。我们使用PR的“title”和“body”来衡量拉请求之间的文本相似度。对于PR的文本,我们做分词,删除停用词和词干。所有剩余的单词构成词汇。我们使用向量空间模型来表示每个PR作为加权向量。矢量的长度是词汇表中单词的数量。向量中的每个元素都是一个单词,值表示该单词出现在请求标题中的次数。对于PR,其文本向量表示为。对于一个新的PR,我们计算了文本相似度如下所示:
公式(1)对于PR,我们使用余弦相似度来计算和之间的文本相似度。然后,我们计算Reviewer留下评论的PR的总和。如果Reviewer对类似文本新PR提供的评审,则Reviewer将具有较高的文本相似性。
Step2:基于评审网络的推荐相似度计算
开发者评审网络通常用于PR质量预测,bug分类与修复。以前的工作使用评论来建立社交关系,并预测PR合适的Reviewer。一般来说与PR提交者(用户)有共同兴趣的开发者是合适的Reviewer。开发者之间的共同兴趣可以通过Reviewer和贡献者之间的评论关系直接反映出来。我们考虑社会关系属性,并在本节中作基本的介绍。给定新的PRPnew,其贡献者被定义为Cnew。Cset包括在新的PRPnew之前由贡献者Cnew提交的请求。其中Rseti包含Reviewer i曾留下评论的PR的集合,Csetnew∩Rseti包括由贡献者Cnew提交的PR,以及Reviewer Ri曾留下的评论的交集。Csetnew∩Rseti反映了贡献者与Reviewer的共同兴趣。如果Reviewer Ri经常对由贡献者Cnew提交的PR留言,则Reviewer Ri可能对该贡献者感兴趣并且喜欢对他的PR发表评论。Reviewer可以多次对PR发表评论,我们考虑对于PRPj,RevieweRi留下了ni_j个评论。对于对于一个新的PRP new,我们计算Reviewer Ri的社交关系,计算如下:
公式(2)中β评审网络的权重,设置为0.8,k为评审的次数。如果Reviewer之前对贡献者提交的请求留下许多评论,则两者之间有密切的关系。
Step3:综合推荐
两种PR Reviewer推荐算法存在缺陷但互补,所以本发明将两种算法的融合进行混合推荐。由于开源社区的人员流动比较大,只考虑基于PR文本相似度的推荐过于单一,准确度不高。而基于社交网络的推荐存在冷启动问题,为解决以上问题,结合之前的算法,构建混合推荐模型如下:
hybrid(Pnew,Ri)=α×textSimilarity(Pnew,Ri)+(1-α)×relation(Pnew,Ri)(3)
公式(3)中两种推荐算法的权重之和等1,且权重大于零。默认权重分配是通过实验验证之后得到最佳的结果,用户也可以根据自己的喜爱偏好进行算法融合的权重设置,达到用户满意的个性化推荐。
Step4:推荐结果可视化
基于PR文本相似和基于评审网络推荐分别采用词云和桑基图等交互式可视化技术展示,可视化利用视觉可以来促进用户的感知,从而增强推荐模型的可解释性。
附图说明
图1本发明的推荐模型实现步骤图
图2PR文本词云可视化效果展示图
图3基于评审网络推荐的桑基图效果展示图。
Claims (4)
1.开源社区PR评审者可解释推荐模型。针对开源社区Github中pull request(PR)评审者传统的推荐只有推荐结果,用户对推荐结果存在不信任问题,本发明采用可视化技术对推荐结果进行合理的解释,让用户对推荐结果更加信任和满意。
2.根据权利要求1所述的方法,需要提取PR的文本内容,并将PR文本内容以词云的方式解释基于PR文本相似的推荐结果。
3.根据权利要求1所述的方法,需要提取PR提交者和评审者的评审关系,采用桑基图的方式向用户解释提交的PR分别被哪些评审者评审,并且将推荐的评审者在桑基图中高亮显示。
4.根据权利要求1所述的方法,分别计算PR文本相似性和PR评审网络相似性进行综合推荐,并根据推荐算法对推荐结果恰当的解释,因此提高推荐过程中的用户体验和推荐结果的信任度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143846.3A CN109885776A (zh) | 2019-02-27 | 2019-02-27 | 开源社区pr评审者可解释推荐模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143846.3A CN109885776A (zh) | 2019-02-27 | 2019-02-27 | 开源社区pr评审者可解释推荐模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109885776A true CN109885776A (zh) | 2019-06-14 |
Family
ID=66929515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910143846.3A Pending CN109885776A (zh) | 2019-02-27 | 2019-02-27 | 开源社区pr评审者可解释推荐模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885776A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008038A (zh) * | 2019-12-19 | 2020-04-14 | 南京邮电大学 | 一种基于逻辑回归模型的pull request被合并概率的计算方法 |
CN111523037A (zh) * | 2020-04-26 | 2020-08-11 | 上海理工大学 | 一种开源软件开发中Pull Request的评审者推荐方法 |
CN112633321A (zh) * | 2020-11-26 | 2021-04-09 | 北京瑞友科技股份有限公司 | 一种人工智能推荐系统及方法 |
CN112800208A (zh) * | 2021-01-21 | 2021-05-14 | 中国人民解放军国防科技大学 | 面向问答社区的问题审阅人自动化推荐方法及系统 |
-
2019
- 2019-02-27 CN CN201910143846.3A patent/CN109885776A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008038A (zh) * | 2019-12-19 | 2020-04-14 | 南京邮电大学 | 一种基于逻辑回归模型的pull request被合并概率的计算方法 |
CN111008038B (zh) * | 2019-12-19 | 2022-08-02 | 南京邮电大学 | 一种基于逻辑回归模型的pull request被合并概率的计算方法 |
CN111523037A (zh) * | 2020-04-26 | 2020-08-11 | 上海理工大学 | 一种开源软件开发中Pull Request的评审者推荐方法 |
CN111523037B (zh) * | 2020-04-26 | 2023-08-04 | 上海理工大学 | 一种开源软件开发中Pull Request的评审者推荐方法 |
CN112633321A (zh) * | 2020-11-26 | 2021-04-09 | 北京瑞友科技股份有限公司 | 一种人工智能推荐系统及方法 |
CN112800208A (zh) * | 2021-01-21 | 2021-05-14 | 中国人民解放军国防科技大学 | 面向问答社区的问题审阅人自动化推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mehraliyev et al. | Sentiment analysis in hospitality and tourism: a thematic and methodological review | |
Luo et al. | Comparative study of deep learning models for analyzing online restaurant reviews in the era of the COVID-19 pandemic | |
Kim et al. | The impact of hotel customer experience on customer satisfaction through online reviews | |
He et al. | Application of social media analytics: A case of analyzing online hotel reviews | |
Zheng et al. | Identifying unreliable online hospitality reviews with biased user-given ratings: A deep learning forecasting approach | |
Guo et al. | Products ranking through aspect-based sentiment analysis of online heterogeneous reviews | |
CN103870973B (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
CN109885776A (zh) | 开源社区pr评审者可解释推荐模型 | |
CN108763362A (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
Chang et al. | Why customers don’t revisit in tourism and hospitality industry? | |
CN107609960A (zh) | 推荐理由生成方法及装置 | |
CN107038609A (zh) | 一种基于深度学习的商品推荐方法及系统 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
Wang et al. | The recommendation method for hotel selection under traveller preference characteristics: A cloud-based multi-criteria group decision support model | |
CN108334558A (zh) | 一种结合标签和时间因素的协同过滤推荐方法 | |
CN107577782B (zh) | 一种基于异质数据的人物相似度刻画方法 | |
CN106250438A (zh) | 基于随机游走模型的零引用文章推荐方法及系统 | |
Mishra et al. | How delightful is Indian wellness tourism? A netnographic study | |
CN109145085A (zh) | 语义相似度的计算方法及系统 | |
Tayal et al. | Personalized ranking of products using aspect-based sentiment analysis and Plithogenic sets | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
Li et al. | A fuzzy comprehensive evaluation algorithm for analyzing electronic word-of-mouth | |
CN108304509A (zh) | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 | |
CN110070410A (zh) | 一种基于大数据的人口社交分析方法及系统 | |
Cai et al. | An extension of social network group decision-making based on trustrank and personas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190614 |
|
WD01 | Invention patent application deemed withdrawn after publication |