CN111400395A - 一种基于分布式账本的知识图谱众包平台 - Google Patents

一种基于分布式账本的知识图谱众包平台 Download PDF

Info

Publication number
CN111400395A
CN111400395A CN202010097438.1A CN202010097438A CN111400395A CN 111400395 A CN111400395 A CN 111400395A CN 202010097438 A CN202010097438 A CN 202010097438A CN 111400395 A CN111400395 A CN 111400395A
Authority
CN
China
Prior art keywords
graph
auditing
task
audit
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010097438.1A
Other languages
English (en)
Other versions
CN111400395B (zh
Inventor
陈华钧
吴杨
毕祯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010097438.1A priority Critical patent/CN111400395B/zh
Publication of CN111400395A publication Critical patent/CN111400395A/zh
Application granted granted Critical
Publication of CN111400395B publication Critical patent/CN111400395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分布式账本的知识图谱众包平台,包括图数据库和关系数据库,其中,所述图数据库用于存储知识图谱,所述关系数据库用于存储审核者和验收者相关信息,知识图谱的审核任务和验收任务;所述知识图谱众包平台执行以下功能:从所述图数据库中选择未审核的主实体及相关的子图形成审核任务,公布到分布式链上;审核者从分布式链上获得审核任务,对主体及相关的子图进行三元组的审核,并返回审核结果公布到分布链上;验收者从分布链上获得验收任务,对审核结果进行审核验收,形成最终三元组存到图数据库;为所述审核任务和验收任务生成荣誉值,并将所述荣誉值公布到链上以供荣誉值转化为货币进行数据交易。

Description

一种基于分布式账本的知识图谱众包平台
技术领域
本发明属于数据存储与Web领域,具体涉及一种基于分布式账本的知识图谱众包平台。
背景技术
知识图谱近年来受到了工业界极大的重视,在很多领域都有了成功的应用,例如搜索引擎,智能客服,语音机器人等,很多大型知识图谱被逐渐构建起来,例如GoogleKnowledge Graph、以及开放的Freebase、Yago等,知识图谱主要包含实体、关系和三元组,每一个三元组表示一条知识,即两个实体之间存在某一种关系,用(h,r,t)表示,其中h,t分别表示头实体和尾实体,r表示关系,例如(杭州,位于国家是,中国)即表示了“杭州位于中国”这样一条知识。
虽然就知识图谱的构建、查错、补全这类问题,现在已经开发了越来越多的自动化算法,但是其结果始终差强人意,几乎很难应用到实际场景之中。因此更具有实践意义的,能够同时兼顾知识图谱的构建成本、速度的方法,应当是由机器来帮助构建,而由人来审核和修改。针对已有的知识图谱,如何为众包人员构建一个统一的众包平台,让他们实现知识图谱的查错审核等任务是值得探究的问题。
现如今具有类似功能的平台是wikidata,但是其更像一个知识的贡献平台,wikidata的设计初衷是让所有的人都能够编辑和添加其中的知识条目,这样的设计倾向于大而全,而且由于是纯粹的社区参与机制,几乎没有任何管控措施,因此无法期望众包人员能够完成知识图谱审核的任务。
除此之外,传统的知识图谱众包平台无法解决一个问题:用户的互相信任性,继而导致了众包平台没法很好地完成众包的功能。因为使用者会对系统产生不信任。
发明内容
本发明的目的是提供一种基于分布式账本的知识图谱众包平台,由众包人员(知识图谱审核员)、验收员对已经划分成一个个子任务的知识图谱进行的加工和处理,最终形成可用的、噪声较小的知识图谱。
一种基于分布式账本的知识图谱众包平台,包括图数据库和关系数据库,其中,所述图数据库用于存储知识图谱,所述关系数据库用于存储审核者和验收者相关信息,知识图谱的审核任务和验收任务;
所述知识图谱众包平台执行以下功能:
从所述图数据库中选择未审核的主实体及相关的子图形成审核任务,公布到分布式链上;
审核者从分布式链上获得审核任务,对主体及相关的子图进行三元组的审核,并返回审核结果公布到分布链上;
验收者从分布链上获得验收任务,对审核结果进行审核验收,形成最终三元组存到图数据库;
为所述审核任务和验收任务生成荣誉值,并将所述荣誉值公布到链上以供荣誉值转化为货币进行数据交易。
其中,任务分发时,在审核任务表中为未审核的主体及相关的三元组添加一条目,每条目包括主实体Id,至少三个主实体审核记录Id以及三元组审核表Id,其中:
所述主实体审核记录Id用于记录审核者对实体的审核结果;
所述三元组审核表Id用于记录主实体相关的所有三元组的审核记录,三元组审核表中的审核记录表示审核者对三元组的审核结果;
然后,将该审核任务表公布到分布式链上;
其中,任务审核时,审核者获取审核任务表,并根据审核任务表从所述图数据库中获取相应的主实体及相关的三元组组成的子图;
对子图中的主实体Id进行审核,再对子图中的三元组进行审核,完善审核任务表中的主实体审核记录、三元组审核表;
将完善的审核任务表发送至所述关系数据库,并将审核结果公布到分布连上。
其中,任务验收时,验收者从所述关系数据库中获取审核任务表,并对审核任务表中的至少三个实体审核记录和三元组审核表中的三元组的审核记录进行的验证,并生成验收任务表发送至所述关系数据库中保存。
其中,审核者和验收者对三元组的编辑生成的荣誉值会存储到分布式脸上对应的个人账户中,同时产生的账本记录会分布式存储在分布式链上。
其中,验收得到的最终三元组发送至图数据库中,利用最终三元组更新知识图谱。
与现有技术相比,本发明具有的有益效果为:
本发明提供的知识图谱众包平台中,验收者和审核者的每条操作记录被看作是一条账本,被分布式地存储在链上,为所有人共享,确保交易记录真实可信,同时提供的奖励政策,解决了加入机构对该平台不信任的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于分布式账本的知识图谱众包平台执行功能流程图;
图2是实施例提供的任务分发框图;
图3是实施例提供的实体审核流程图;
图4是实施例提供的三元组验收的流程图;
图5是实施例提供的链改众包平台部分功能示意图;
图6是实施例提供的众包平台Web架构;
图7是实施例提供的众包平台数据库E-R图;
图8是实施例提供的链改用户系统图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
受到区块链思想的启发,实施例提供了了一种基于分布式账本的知识图谱众包平台。首先,该知识图谱众包平台的用户系统是一个链改的系统,以ontid(用户注册时的唯一身份标识)进行操作。其次,用户(审核者和验收者)对于知识的操作(审核操作和验收操作)为对应成操作记录,也就是账本,它会被分布式地存储在链上,为所有人共享,确保交易记录真实可信。第三,区块链也不会存在中心的处理系统,不能实施例通过架构不同的结点来去中心化,加入该众包平台的意愿贡献或者处理数据的机构,会架设一个单独的结点,这样解决了加入机构对该平台不信任的问题。
实施例中,将从Web架构以及数据库的设计实现展示一个知识图谱众包平台的构建过程。首先数据库由图数据库和关系型数据库两种数据库组成,其中图数据库负责的是知识图谱的原始结构和最终结构的存储,关系型数据库则负责的是各类型人员的管理,各知识图谱审核任务和验收任务的保存和存储。
实施例中,通过App端存储ontid的形式对用户账户做链改处理;用户的操作会生成荣誉值作为奖励传送到对应链上的账户,而同时产生的账本记录会分布式存储在区块链上;并且区块链的处理系统会分别在不同的机构上架设不同的结点。这样众包不仅使用户积极参与众包平台的运行,也促使更多的机构加入到平台的构建中来。
针对Web架构部分:Web架构由前端和后端配合完成,前端负责各页面的展示,提供给众包人员一个基本的操作环境,后端则提供了众包平台所有的功能接口,包括人员管理、任务申请分发、审核验收结果保存和提交等功能。其中前端页面的展示应当重点放在如何规整的可视化实体及其子图的功能上面。
如图1~8所示,实施例构建的知识图谱众包平台的功能包括:
任务分发阶段:对于一个待审核众包的原始知识图谱,首先将其导入到图数据库中保存,并为其中的每个实体和每个三元组设定唯一的ID号,而任务分发的最小单元,就是知识图谱中的主实体和其相关三元组,以KG4AI知识图谱为例,其保存的是AI学者的学术信息以及论文的学术信息,因此派发任务的时候就以某个AI学者以及其子图、或者某论文及其子图作为一个审核任务。其中何为主实体以及子图的范围是由该知识图谱的Ontology确定的。图2展示了一个Ontology(本体)确定审核单元的例子,其中虚线框为审核单元,也就是主实体及相关的三元组组成的子图。
如图7所示,从图数据库中找到没有人审核的一个主实体,在审核任务表(也是实体审核表)中添加一条目,其中三个主实体审核记录Id分别表示三个审核人对实体的审核结果。三元组审核表Id则表示该主实体的子图中所有的三元组的审核记录。三元组审核表中的审核记录表示三个审核人对该三元组的审核结果。
审核阶段:任务分发的过程将一个实体和其子图作为任务分发给了某个审核人员,为了方便审核人员的信息获取和操作便捷,应当首先将这部分子图进行可视化(以表格或者图的形式展示)。审核人员将执行两项任务:a.确定该实体是否应当属于本知识图谱,比如说如果该实体的介绍中说这个人是个歌手,显然这整个子图就不应该出现在KG4AI中。b.对该实体的相关三元组(也就是图的各边)确定其是否正确,这一步是审核最重要的环节,而且很依赖与审核者自己的经验和获取信息的能力,比如要确定某论文是否发表在AAAI上,有时就需要审核者自己切实的去网上查找相关信息才能做出决策。
在该审核阶段,首先找到审核人要审核的主实体Id,从图数据库中获取子图并可视化,对主实体Id查找实体审核表获取其保存的实体审核记录,对子图所有三元组Id查找三元组审核表获取保存的三元组审核记录,对这些记录也进行可视化。审核人保存的操作类似。
验收阶段:在审核流程中,每个主实体及其子图由3人审核完毕后进入验收流程。验收流程应当由具有验收能力的专业人员进行操作。验收人员可以看见审核条目的审核结果和审核人员意见等等,其视图为子图可视化后加入审核结果。验收人员根据这些信息判断决定接受该三元组或拒绝并修改其为正确的结果,并因此形成最终的三元组。
当发现某主实体的审核任务表中的实体审核记录满3个,且其所有三元组的审核记录也满3个,在验收任务表中添加新项目。验收阶段的各表操作与审核类似,但要更为简单,因为一个子图的审核记录只需要一个验收者进行验收即可。
入库阶段:当验收的流程结束以后,验收完毕的三元组添加进入最终的图数据库中形成最终的知识图谱。
如图5所示,用户的操作的粒度是三元组的级别。以知识的增加为例,在众包平台中,用户可以有编辑实体的功能,在编辑实体的功能可以增添该实体的属性和属性值,通过统计(实体,属性,属性值)可以看作是一个三元组,通过这样的方式统计并且生成一定荣誉值。还可以通过知识问答获得荣誉值。这些荣誉值最终会按照一定的比例转换到链上系统的货币,而使用货币就可以对知识进行交易等操作。最后分布式账本通过ontology的平台去中心化地存储在区块链上。
如图8所示,账户系统通过链改之后,将会以手机App的方式进行注册和登录。手机App上存储用户的唯一标识:ontid。之后通过手机二维码,登录到众包平台系统之中。在用户的操作过程中,会产生一系列操作记录,这些记录也会传到链上系统中。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于分布式账本的知识图谱众包平台,其特征在于,包括图数据库和关系数据库,其中,所述图数据库用于存储知识图谱,所述关系数据库用于存储审核者和验收者相关信息,知识图谱的审核任务和验收任务;
所述知识图谱众包平台执行以下功能:
从所述图数据库中选择未审核的主实体及相关的子图形成审核任务,公布到分布式链上;
审核者从分布式链上获得审核任务,对主体及相关的子图进行三元组的审核,并返回审核结果公布到分布链上;
验收者从分布链上获得验收任务,对审核结果进行审核验收,形成最终三元组存到图数据库;
为所述审核任务和验收任务生成荣誉值,并将所述荣誉值公布到链上以供荣誉值转化为货币进行数据交易。
2.如权利要求1所述的基于分布式账本的知识图谱众包平台,其特征在于,任务分发时,在审核任务表中为未审核的主实体及相关的三元组添加一条目,每条目包括主实体Id,至少三个主实体审核记录Id以及三元组审核表Id,其中:
所述主实体审核记录Id用于记录审核者对实体的审核结果;
所述三元组审核表Id用于记录主实体相关的所有三元组的审核记录,三元组审核表中的审核记录表示审核者对三元组的审核结果;
然后,将该审核任务表公布到分布式链上。
3.如权利要求1所述的基于分布式账本的知识图谱众包平台,其特征在于,任务审核时,审核者获取审核任务表,并根据审核任务表从所述图数据库中获取相应的主实体及相关的三元组组成的子图;
对子图中的主实体Id进行审核,再对子图中的三元组进行审核,完善审核任务表中的主实体审核记录、三元组审核表;
将完善的审核任务表发送至所述关系数据库,并将审核结果公布到分布连上。
4.如权利要求1所述的基于分布式账本的知识图谱众包平台,其特征在于,任务验收时,验收者从所述关系数据库中获取审核任务表,并对审核任务表中的至少三个实体审核记录和三元组审核表中的三元组的审核记录进行的验证,并生成验收任务表发送至所述关系数据库中保存。
5.如权利要求1所述的基于分布式账本的知识图谱众包平台,其特征在于,审核者和验收者对三元组的编辑生成的荣誉值会存储到分布式脸上对应的个人账户中,同时产生的账本记录会分布式存储在分布式链上。
6.如权利要求1所述的基于分布式账本的知识图谱众包平台,其特征在于,验收得到的最终三元组发送至图数据库中,利用最终三元组更新知识图谱。
CN202010097438.1A 2020-02-17 2020-02-17 一种基于分布式账本的知识图谱众包平台 Active CN111400395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097438.1A CN111400395B (zh) 2020-02-17 2020-02-17 一种基于分布式账本的知识图谱众包平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097438.1A CN111400395B (zh) 2020-02-17 2020-02-17 一种基于分布式账本的知识图谱众包平台

Publications (2)

Publication Number Publication Date
CN111400395A true CN111400395A (zh) 2020-07-10
CN111400395B CN111400395B (zh) 2023-06-13

Family

ID=71432677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097438.1A Active CN111400395B (zh) 2020-02-17 2020-02-17 一种基于分布式账本的知识图谱众包平台

Country Status (1)

Country Link
CN (1) CN111400395B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN109189940A (zh) * 2018-09-05 2019-01-11 南京大学 一种基于众包及图谱技术的知识共享服务方法
CN109740622A (zh) * 2018-11-20 2019-05-10 众安信息技术服务有限公司 基于区块链通证奖励方式的图像标注任务众包方法及系统
CN109886810A (zh) * 2019-01-30 2019-06-14 南京邮电大学 众包交易方法及系统、可读存储介质和终端
US20190303790A1 (en) * 2018-03-27 2019-10-03 Oben, Inc. Proof of work based on training of machine learning models for blockchain networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
US20190303790A1 (en) * 2018-03-27 2019-10-03 Oben, Inc. Proof of work based on training of machine learning models for blockchain networks
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN109189940A (zh) * 2018-09-05 2019-01-11 南京大学 一种基于众包及图谱技术的知识共享服务方法
CN109740622A (zh) * 2018-11-20 2019-05-10 众安信息技术服务有限公司 基于区块链通证奖励方式的图像标注任务众包方法及系统
CN109886810A (zh) * 2019-01-30 2019-06-14 南京邮电大学 众包交易方法及系统、可读存储介质和终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨玉基;许斌;胡家威;仝美涵;张鹏;郑莉;: "一种准确而高效的领域知识图谱构建方法", 软件学报 *

Also Published As

Publication number Publication date
CN111400395B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
US20200382391A1 (en) Parallel computational framework and application server for determining path connectivity
KR102574255B1 (ko) 블록체인 상에 저장된 사용자 관련 데이터를 생성하고 추출하기 위한 컴퓨터 구현 시스템 및 방법
Wand et al. Anchoring data quality dimensions in ontological foundations
Rowe et al. Automated social hierarchy detection through email network analysis
US8296317B2 (en) Searchable object network
CN109635221B (zh) 基于区块链的论文发表评审共享方法及系统
CN109074389A (zh) 可信度指标的众包
US20230048225A1 (en) Method and system for recording forward royalties using a distributed ledger
CN109635007B (zh) 一种行为评估方法、装置及相关设备
Zeng et al. Incentive mechanisms in federated learning and a game-theoretical approach
Goswami et al. E-governance: A tendering framework using blockchain with active participation of citizens
US7401090B2 (en) Computer-based business planning processes
KR102061625B1 (ko) 전문가 경력 관리 방법, 장치 및 프로그램
CN112634056A (zh) 快速计算、更新企业股权结构的方法、设备和存储介质
Pullokkaran Analysis of data virtualization & enterprise data standardization in business intelligence
Dupuy Migration in China: To work or to wed?
CN116384815A (zh) 投标对象评审方法、电子设备及存储介质
Spiegel et al. Going it all alone in web entrepreneurship? A comparison of single founders vs. co-founders
Xie et al. Online knowledge sharing in blockchains: towards increasing participation
Kopp et al. Towards the Tokenization of Business Process Models using the Blockchain Technology and Smart Contracts.
CN111400395A (zh) 一种基于分布式账本的知识图谱众包平台
CN110276593A (zh) 对象推荐方法、装置、服务器及存储介质
CN115809901A (zh) 数据资产管理方法、装置、电子设备及存储介质
Betancor et al. Business process and organizational data quality model (BPODQM) for integrated process and data mining
Liu Organized Chinese transnationalism and the institutionalization of business networks: The Singapore Chinese chamber of commerce and industry as a case analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant