CN109189940A

CN109189940A - 一种基于众包及图谱技术的知识共享服务方法

Info

Publication number: CN109189940A
Application number: CN201811030445.9A
Authority: CN
Inventors: 聂红丽; 窦睿涵; 戴海鹏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-11

Abstract

本发明公开了一种基于众包及图谱技术的知识共享服务方法，包括：步骤1，建立知识图谱，计算出知识图谱中每个知识点的重要性保存在数据库中；步骤2，根据用户发布的题目任务经过语义解析转换为逻辑表达式，在知识图谱中查询到相关的知识点；步骤3，寻找对该任务对应知识点掌握度前Topk的用户并通过众包推荐给这些用户；步骤4，接受该题目任务的若干个用户根据回答时间在该平台上记录下自己的回答；步骤5，发布题目的用户以及浏览该问题的用户根据不同回答者的答案分别对不同回答者的答案进行评分；步骤6，发布题目用户发布的奖励在回答者不超过回答时间的情况下根据发布题目用户对回答的满意度进行权重奖励。

Description

一种基于众包及图谱技术的知识共享服务方法

技术领域

本发明涉及知识共享服务领域，尤其涉及一种基于众包及图谱技术的知识共享服务方法。

背景技术

近年来，随着社会的进步和人们生活水平的提高，人们逐渐进入共享经济时代，小到充电宝，大到房屋，都可以实现共享，知识也不例外。知识共享的本质是以打破不同知识拥有者之间的壁垒为基础，实现知识在一定范围内的自由流动和使用，使组织降低知识获取成本，并有利于知识的应用与创新。

知识共享服务平台中问答系统分为自动问答系统和互动问答系统。自动问答系统主要基于语义匹配进行检索得到答案，互动问答系统采用网络协作的方式提供了一个交流平台，将所有用户组成了一个高效的社会协作网，打破了不同知识拥有者的壁垒，互相解决对方的问题。互动问答系统中完整的问题描述相对于自动问答系统中关键词匹配中更能清晰地表达问题，此外，互动问答系统中允许其他用户回答问题可以解决一些需要推理或者归纳总结的问题。在考研背景下，问题常常是一些不能直接得到答案的问题，往往需要进行推理演算或者归纳总结得到答案的问题，更适用于互动问答系统。另一方面，在当今信息爆炸的时代，网络上充斥着各种各样的知识。一个考研的问题搜索出来的结果可能多种多样，对问题标签分类的不正确可能导致得到的答案完全不符合希望得到解答的学生的需求。

考研背景下的互动问答是一个知识共享平台的潜在应用场景。考研背景下的基于众包及图谱技术的知识共享服务平台正好可以帮助考研的学生在线上随时随地解决自己平时遇到的困难问题，而不用跟辅导老师约时间来解惑，高效方便地解决自己的问题。另一方面，对于学生来说，把问题提出来得到百家之言可以扩宽解题思路，而不是局限于辅导老师的某一种解法，并且共享平台上为某道题设置的奖励比特地请一个辅导老师解答问题花费少很多。综上所述，研究基于众包及图谱技术的知识共享服务平台成了一件非常有意义的事情。

目前的知识共享服务平台主要是通过对问题进行分类标签来得到相关分类标签的用户的解答，对问题分类标签的不合理以及分类标签范围过大等问题会影响知识共享服务的体验。运用知识图谱中细粒度的知识点以及对知识点的掌握度来推荐用户回答问题来改善问题解答的双方的满意度从而达到高效的知识共享。随着知识图谱技术的发展和成熟，研究考研背景下的知识共享服务平台为考研学子提供互动问答，高效、实惠地解决考研学子学习中的问题是符合实际情况的。

发明内容

发明目的：本发明主要针对基于考研背景下的知识共享服务平台，弥补现有知识共享服务平台在此适用背景下的不足，提供一种基于众包及图谱技术的知识共享服务方法。

为了解决上述技术问题，本发明公开了一种基于众包及图谱技术的知识共享服务方法，包括以下步骤：

步骤1，建立一个知识图谱，并计算出知识图谱中每个知识点的重要性，将其保存在图数据库中；

步骤2，将用户发布的题目任务经过语义解析转换为逻辑表达式，在知识图谱中查询到用户发布的题目任务相关的知识点；

步骤3，寻找对步骤2查询到的知识点掌握度前Topk的用户，并通过众包将用户发布的题目任务推荐给这些用户；

步骤4，接受该题目任务的用户根据回答时间，记录下自己的回答；

步骤5，发布题目的用户以及浏览该问题的用户根据不同回答者的答案分别对不同回答者的答案进行评分，评分用于计算回答者对相关知识点的掌握程度；

步骤6，发布题目用户发布奖励金，在回答者不超过回答时间的情况下根据发布题目用户对回答的满意度进行权重奖励。

步骤1包括如下步骤：

步骤1-1，根据当年发布的统考科目的考研大纲或者沿用去年的考研大纲通过KNN算法加CRF模型进行实体抽取，通过共现关联与句法分析发现实体之间的关系进行信息抽取并人工矫正建立一个知识图谱，存储在图数据库中，整个知识图谱呈现一个图的形式，图中的节点表示知识点，图中的边表示知识点之间的关系，每个知识点表示为fact＝(factid,factname,label)，其中factid表示知识点id，factname表示知识点，label表示知识点的标签；每个关系表示为relationship＝(startid,endid,relation,type)，其中startid,endid分别表示关系起始的知识点id和关系中止的知识点id，elation表示是一种具体的属性或者一种具体的关系，type表示具体的属性值或者关系；

步骤1-2，利用PageRank算法计算出知识图谱中每个知识点的重要性，计算每个知识点的重要性公式如下：

其中，PR_i表示知识点i的重要性，M_i表示所有对知识点i有出链的知识点的集合，L(j)是知识点j的出链数目，N是知识点总数，α为一个常数。此处α＝0.85。

步骤2包括如下步骤：

步骤2-1，将用户发布的题目任务进行解析，具体为：通过结巴分词，停用词表去停用词，stanford-postagger词性标注，基于序列标注的依存句法分析，每个任务解析后表示为problem＝(fact₁,relationship₁,fact₂,relationship₂,…fact_n,relationship_n),其中fact_i表示题目任务涉及到的第i个知识点，relationship_i表示第i个知识点和第i+1个知识点之间的关系，i取值为1～n；

步骤2-2，在知识图谱中查找连接步骤2-1解析的知识点及关系的子图并转换为相应的图查询，这些翻译过的图查询被提交给图数据库，图数据库返回问题任务在知识图谱中对应的知识点id以及与知识点及关系相连的知识点id。返回结果表示为probleminfo＝(problemid,factid₁,factid₂,…factid_n)，其中problemid表示题目任务id，factid_i表示题目任务涉及到的第i个知识点的id，i取值为1～n。

步骤3包括如下步骤：

步骤3-1，计算用户对题目任务相关的知识点的掌握度，用户的信息表示为UserInfo＝(userid,masterScore₁,masterScore₂,…masterScore_N)，其中userid表示用户的id，masterScore_N表示用户对知识点N的掌握度，初始时为0，后根据用户回答问题计算对每个知识点的掌握度进行更新。通过知识点id得到用户对知识点i的掌握度masterScore_i；

对每个用户计算对题目任务相关的n个知识点总的掌握度，选择掌握度最大的k个用户，k取值自然数，掌握度E计算公式如下：

其中|P|表示题目任务中包含的知识点个数，masterScore_i表示用户对知识点i的掌握度，PR_i表示知识点i的重要性；

步骤3-2，通过众包将该题目任务推送给这k个对题目任务掌握度较好的用户，用户上线后即能够收到题目任务自愿进行解答，k一般取值为10。

步骤4中，接受到题目任务的用户记录下自己的回答，回答根据时间顺序进行显示。

步骤5包括如下步骤：

步骤5-1，出题人收到回答后对回答者的答案进行评分，每条回答记录表示为record＝(answerid,userid,score)，其中answerid表示回答id，userid表示回答者的id，score表示出题人对该回答的满意程度，score取值集合为{-2,-1,1,2,3}，-2对应非常不满意，-1对应不满意，1对应一般，2对应满意，3对应非常满意；

步骤5-2，浏览问题的用户在看到不同回答者的答案后能够选择点赞或者踩或者什么都不做，对一个回答仅能够采取一种操作，每条回答记录赞数以及踩数，每条回答记录表示为re＝(answerid,supportnum,tramplenum)，其中answerid表示回答id，supportnum表示该回答被点赞的次数，tramplenum表示该回答被踩的次数；

步骤5-3，计算每个回答总的点击数clicknum：

clicknum＝supportnum+tramplenum (3)；

步骤5-4，在问题显示一天后，更新每个回答者对知识点i的掌握度masterScore_i：

其中，masterScore_i'表示记录的用户之前对于知识点i的掌握度。

步骤6包括如下步骤：

步骤6-1，根据出题人对不同回答的满意度，给每个回答赋予一个奖励权重，满足满意度较高的回答权重较大而满意度低的回答权重较小：令maxscore表示出题人对回答评分最高的分数，maxscore＝3；minscore表示出题人对回答评分最低的分数，minscore＝-2；

score表示为出题人对回答i的评分，则出题人对回答i的奖励权重w_i定义为：

w_i是一个随出题人对回答满意度衰减的函数，当出题人对回答i的满意度最低时，它的奖励权重是e^-1.0＝0.368，当出题人对回答i的满意度最高时，它的奖励权重是1.0；

步骤6-2，发布题目用户发布奖励金，根据奖励权重按回答时间将奖励金奖励给回答者，令award表示出题人发布的奖励金，第i个回答者收到的奖励金为award_i：

本发明的思想为：首先平台根据当年发布的统考科目的考研大纲或者沿用去年的考研大纲进行信息抽取建立一个知识图谱；用户发布题目任务后使用图查询在知识图谱中匹配到对应的知识点；然后，寻找对该任务对应知识点掌握度前Topk的用户并通过众包推荐给这些用户；接着，接受该题目任务的若干个用户根据回答时间在该平台上记录下自己的回答；然后，发布题目的用户以及浏览该问题的用户根据不同回答者的答案分别对不同回答者的答案进行评分，评分用于计算回答者对相关知识点的掌握程度；最后，发布题目用户发布的奖励在回答者不超过回答时间的情况下根据发布题目用户对回答的满意度进行权重奖励。

与现有技术相比，本发明具有的有益效果是：

(1)知识图谱是基于考研大纲构建的，知识点是确定的，可信的，科学的。

(2)根据对知识点的掌握度来推荐回答问题的用户，知识点相对于类标签更细粒度，使得出题人更能得到满意的答案。

(3)对回答的奖励是与出题人对回答的评分成正相关的，一定程度上激励了回答者尽可能详细地提供解答，获取高级的评分从而得到高额的奖励。此外，对回答的奖励是隐式地与回答时间有关的，回答的晚极有可能得不到奖励，一定程度上激励了用户尽早回答问题，帮助出题人解答问题。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明方法的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明公开了基于众包及图谱技术的知识共享服务平台，该方法流程图如图1所示，包括以下步骤：

步骤1，平台根据当年发布的统考科目的考研大纲或者沿用去年的考研大纲进行信息抽取建立一个知识图谱，并且利用PageRank算法计算出知识图谱中每个知识点的重要性保存在数据库中。

本发明中，根据当年发布的统考科目的考研大纲或者沿用去年的考研大纲进行信息抽取并人工矫正建立一个知识图谱，知识图谱确定存储于图数据库中。知识点之间由关系连接，整个知识图谱呈现一个图的形式，图中的节点表示知识点，图中的边表示知识点之间的关系。每个知识点表示为fact＝(factid,factname,label)，其中factid表示知识点id，factname表示知识点，label表示知识点的标签。每个关系表示为relationship＝(startid,endid,relation,type),其中startid,endid表示关系起始，中止的知识点id,relation表示是属性还是关系,type表示具体的属性值或者关系。

知识图谱构建后，利用PageRank算法计算出知识图谱中每个知识点的重要性，计算每个知识点的PageRank值公式如下：

其中，M_i表示所有对知识点i有出链的知识点的集合，L(j)是知识点j的出链数目，N是知识点总数，此处α＝0.85。

步骤2，根据用户发布的题目任务经过语义解析转换为逻辑表达式，在知识图谱中查询到更相关的知识点。

本发明中，根据用户发布的题目任务经过语义解析转换为逻辑表达式，在知识图谱中查询到更相关的知识点，分为两步。第一步将题目任务通过自然语言处理技术解析成知识点和关系，每个任务解析后表示为problem＝(fact₁,relationship₁,fact₂,relationship₂,…),其中fact_i表示题目任务涉及到的实体关键字，relationship_i表示实体之间的关系；第二步在知识图谱中查找连接这些知识点及关系的子图并转换为相应的图查询，这些翻译过的图查询被进一步提交给图数据库，返回问题任务在知识图谱中对应的结果或者知识点，问题任务比较简单或者该问题以前已被回答过，可以根据知识点及关系直接查询到结果的直接返回结果，问题任务比较复杂时，知识图谱中只能返回与问题任务相关的知识点。

步骤3，寻找对该任务对应知识点掌握度前Topk的用户并通过众包推荐给这些用户。

本发明中，寻找对题目任务对应知识点掌握度前Topk的用户并通过众包将题目推荐给这些用户，题目任务表示为probleminfo＝(problemid,fact₁,fact₂,…fact_n),其中problemid表示题目任务id，fact₁表示题目任务涉及到的第一个知识点，fact₂表示题目任务涉及到的第2个知识点，后面以此类推。主要分为两步。第一步根据公式(2)计算用户数据库中用户对n个知识点总的掌握度，选择掌握度最大的k个用户；第二步平台通过众包技术将该题目任务推送给k个对题目任务掌握度较好的用户，用户上线后即可收到题目任务自愿进行解答。

掌握度计算公式如下：

其中|P|表示题目任务中包含的知识点个数，MasterScore_i表示用户对知识点i的掌握度,PR_i表示知识点i的重要性。

步骤4，接受该题目任务的若干个用户根据回答时间在该平台上记录下自己的回答。

步骤5，发布题目的用户以及浏览该问题的用户根据不同回答者的答案分别对不同回答者的答案进行评分，评分用于计算回答者对相关知识点的掌握程度。

本发明中，出题人根据不同回答者的答案分别对不同回答者的答案进行五星级评分，浏览该问题的用户对不同的答案进行点赞或者踩，评分用于计算回答者对相关知识点的掌握程度。

出题人收到回答后对回答者的答案进行评分，每条回答记录表示为record＝(answerid,userid,score),其中answerid表示回答id，userid表示回答者的id,score表示出题人对该回答的满意程度，score可能取值为{-2,-1,1,2,3}，分别对应“非常不满意”、“不满意”、“一般”、“满意”和“非常满意”；

浏览问题的用户在看到不同回答者的答案后可以选择点赞或者踩或者什么都不做，对一个回答仅可采取一种操作，每条回答记录总的点赞数以及踩数，每条回答记录表示为re＝(answerid,supportnum,tramplenum)，其中answerid表示回答id，supportnum表示该回答被点赞的次数，tramplenum表示该回答被踩的次数，根据以下公式对每个回答计算总的点击数：

clicknum＝supportnum+tramplenum (3)

在问题显示一天后，更新每个回答者对知识点i的掌握度：

其中，MasterScore′_i表示记录的用户之前对于知识点i的掌握度,PR_i表示知识点i的重要性。

步骤6，发布题目用户发布的奖励在回答者不超过回答时间的情况下根据发布题目用户对回答的满意度进行权重奖励。

本发明中，最后发布题目用户发布的奖励在回答者不超过回答时间限制的情况下根据发布题目用户对回答的满意度进行权重奖励。

首先，根据出题人对不同回答的满意度，给每个回答赋予一个奖励权重，满足满意度较高的回答权重较大而满意度低的回答权重较小，令maxscore表示出题人对回答评分最高的分数(maxscore＝3)，minscore表示出题人对回答评分最低的分数(minscore＝-2)，score表示为出题人对回答i的评分，则出题人对回答i的奖励权重定义为：

然后，出题人发布题目任务时发布的奖励根据奖励权重按回答时间将奖励金奖励给回答者，最后一个得到奖励金的回答者得到的奖励金是剩余的奖励金，极有可能低于奖励权重求得的奖励金，奖励金发送完之后再后面的回答者不会得到奖励金，令award表示出题人发布的奖励金，每个回答者收到的奖励金为：

award_i＝w_i*award (6)

实施例

本实施例首先使用了从互联网上获取的A年的考研大纲进行信息抽取并进行人工矫正建立了知识图谱，并且通过neo4j图数据库自带的浏览器界面上显示出可视化的用户友好的图形式的知识图谱界面，如表1所示为知识图谱基本信息：

表1

label	政治	数学
			知识点数	1015	537
关系数	5413	3306

然后根据PageRank算法离线计算每个知识点的重要性PR值并保存。

使用A年考研的一道政治题进行实验。问题的id已知，将题目任务通过自然语言处理技术解析成知识点和关系，问题解析后表示为problem＝(fact₁,relationship₁,fact₂,relationship₂,fact₃,relationship₃)，其中fact_i＝(factid_i,factname_i,label_i),realationship_i＝(startid_i,endid_i,relation_i,type_i)。

在知识图谱中查找连接这些知识点及关系的子图并转换为相应的图查询，这些翻译过的图查询被进一步提交给图数据库，返回问题任务在知识图谱中对应的结果或者更相关的知识点，表示为probleminfo＝(problemid,fact₁,fact₂,fact₃)。

然后在用户数据库中计算每个用户对fact₁,fact₂,fact₃3个知识点的总的掌握度选取掌握度E最大的10个用户，记录他们的id集合UserID＝{id₁,id₂,…,id₁₀}，并将题目任务发送到这10个用户的信箱。

收到题目任务的用户在上线后可以从信箱中查看推荐题目，并自愿解答题目任务，解答题目任务的用户的回答会显示在题目页面，平台自动记录用户回答题目任务的时间。

出题人在接收到回答后根据回答者的答案进行五星级评分，浏览该问题的用户对不同的答案进行点赞或者踩，每条回答记录表示为record＝(answerid,userid,score,supportnum,tramplenum)。计算每条回答总的点击数clicknum＝supportnum+tramplenum。在问题经过一天时间后，更新回答者对知识点fact₁,fact₂,fact₃的掌握度

平台对于发布一天时间的题目任务进行奖励结算，对于题目任务发布的奖励金award分给各个回答者。首先根据出题人对于不同回答的评分计算不同回答的奖励权重对于题目任务发布一天内的按照时间顺序回答的用户发布奖励金award_i＝w_i*award，最后一个得到奖励金的回答者得到的奖励金是剩余的奖励金，极有可能低于奖励权重求得的奖励金，奖励金发送完之后再后面的回答者不会得到奖励金。

本发明提供了一种基于众包及图谱技术的知识共享服务方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于众包及图谱技术的知识共享服务方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1包括如下步骤：

步骤1-1，建立一个知识图谱，存储在图数据库中，整个知识图谱呈现一个图的形式，图中的节点表示知识点，图中的边表示知识点之间的关系，每个知识点表示为fact＝(factid，factname，label)，其中factid表示知识点id，factname表示知识点，label表示知识点的标签；每个关系表示为relationship＝(startid，endid，relation，type)，其中startid，endid分别表示关系起始的知识点id和关系中止的知识点id，relation表示是一种具体的属性或者一种具体的关系，type表示具体的属性值或者关系；

其中，PR_i表示知识点i的重要性，M_i表示所有对知识点i有出链的知识点的集合，L(j)是知识点j的出链数目，N是知识点总数，α为一个常数。

3.根据权利要求2所述的方法，其特征在于，步骤2包括如下步骤：

步骤2-1，将用户发布的题目任务进行解析，每个任务解析后表示为problem＝(fact₁，relationship₁，fact₂，relationship₂，...fact_n，relationship_n)，其中fact_i表示题目任务涉及到的第i个知识点，relationship_i表示第i个知识点和第i+1个知识点之间的关系，i取值为1～n；

步骤2-2，在知识图谱中查找连接步骤2-1解析的知识点及关系的子图并转换为相应的图查询，这些翻译过的图查询被提交给图数据库，图数据库返回问题任务在知识图谱中对应的知识点id以及与知识点及关系相连的知识点id，返回结果表示为probleminfo＝(problemid，factid₁，factid₂，...factid_n)，其中problemid表示题目任务id，factid_i表示题目任务涉及到的第i个知识点的id，i取值为1~n。

4.根据权利要求3所述的方法，其特征在于，步骤3包括如下步骤：

步骤3-1，计算用户对题目任务相关的知识点的掌握度，用户的信息表示为UserInfo＝(userid，masterScore₁，masterScore₂，...masterScore_N)，其中userid表示用户的id，masterScore_N表示用户对知识点N的掌握度，初始时为0，后根据用户回答问题计算对每个知识点的掌握度进行更新；通过知识点id得到用户对知识点i的掌握度masterScore_i；对每个用户计算对题目任务相关的n个知识点总的掌握度，选择掌握度最大的k个用户，k取值自然数，掌握度E计算公式如下：

步骤3-2，通过众包将该题目任务推送给这k个对题目任务掌握度较好的用户，用户上线后即能够收到题目任务自愿进行解答。

5.根据权利要求4所述的方法，其特征在于，步骤4中，接受到题目任务的用户记录下自己的回答，回答根据时间顺序进行显示。

6.根据权利要求5所述的方法，其特征在于，步骤5包括如下步骤：

步骤5-1，出题人收到回答后对回答者的答案进行评分，每条回答记录表示为record＝(answerid，userid，score)，其中answerid表示回答id，userid表示回答者的id，score表示出题人对该回答的满意程度，score取值集合为{-2，-1，1，2，3}，-2对应非常不满意，-1对应不满意，1对应一般，2对应满意，3对应非常满意；

步骤5-2，浏览问题的用户在看到不同回答者的答案后能够选择点赞或者踩或者什么都不做，对一个回答仅能够采取一种操作，每条回答记录赞数以及踩数，每条回答记录表示为re＝(answerid，supportnum，tramplenum)，其中answerid表示回答id，supportnum表示该回答被点赞的次数，tramplenum表示该回答被踩的次数；

步骤5-3，计算每个回答总的点击数clicknum：

clicknum＝supportnum+tramplenum (3)；

其中，masterScore′_i表示记录的用户之前对于知识点i的掌握度。

7.根据权利要求6所述的方法，其特征在于，步骤6包括如下步骤：