CN114637740A - 一种基于知识表示和知识提取的新型图谱平台构建方法 - Google Patents

一种基于知识表示和知识提取的新型图谱平台构建方法 Download PDF

Info

Publication number
CN114637740A
CN114637740A CN202210295748.3A CN202210295748A CN114637740A CN 114637740 A CN114637740 A CN 114637740A CN 202210295748 A CN202210295748 A CN 202210295748A CN 114637740 A CN114637740 A CN 114637740A
Authority
CN
China
Prior art keywords
knowledge
data
graph
platform
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210295748.3A
Other languages
English (en)
Inventor
武婷婷
王海燕
武文娜
冒智慧
赵行前
曾拥华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210295748.3A priority Critical patent/CN114637740A/zh
Publication of CN114637740A publication Critical patent/CN114637740A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于知识表示和知识提取的图谱平台框架构建方法,基于Neo4j实现一套多人协作众包式相关知识领域图谱构建工具,帮助用户进行信息查询和分析处理。构建的知识图谱的智能查询平台包框架包括知识图谱全部实体和关系的查询部分、智能问答部分和信息分析部分。在此框架的基础上,为了方便用户后期的使用,还支持权限等级较高的用户增加、删除、修改图谱的实体和关系。对于知识图谱的管理,知识图谱构建平台在文件管理部分支持图片、文档、视频等内容的上传与下载。同时,为了进一步对图谱数据进行维护,支持图谱结构化数据的批量导入、导出以及知识库的数据备份,通过应用端为用户提供搜索问答能力。

Description

一种基于知识表示和知识提取的新型图谱平台构建方法
技术领域
本发明属于知识图谱领域,具体涉及一种利用知识图谱进行查询、问答和文件管理的构建平台的框架设计。
背景技术
随着2012年谷歌首次正式提出知识图谱这个概念,越来越多的领域开始使用知识图谱,其在搜索、问答系统、推荐系统等领域中发挥了重要作用,同时在金融行业、医疗行业和消费商业行业中的应用非常广泛。
现阶段较多领域采用MySQL进行数据整理及查询,MySQL需要构建表与表之间的关系,并在查询过程中会存在查询信息不全面或者冗余现象,也很难体现实体与实体之间的关系,因此本发明在此基础上进行改进。以MySQL为数据库,结合Neo4j实现相关领域知识图谱。通过该知识图谱,可以获取所需的内容,体现实体与实体之间的关系,使得获取的信息更加全面,且耗时较短,同时还能对图数据库进行增、删、改、查等更新操作,便于数据管理,在此基础上实现问答系统。
发明内容
本发明目的在于整合不同来源和结构的数据,经过数据清洗和数据预处理,提取数据中蕴含的知识实体和关系,结合本发明设计的算法模型,实现相关领域的知识图谱构建、数据检索、图谱文件管理和面向用户需求的问答系统。
一种基于知识表示和知识提取的图谱平台框架构建方法,包括如下步骤:
步骤1,以自底向上的构建方式设计出相关领域知识图谱的架构;
步骤2,获取相关领域数据,根据该数据组成相应的数据集;
步骤3,对数据集进行清洗和预处理,确认数据为该平台所需的数据并对其进行归纳总结,将筛选后的数据以“实体—关系—实体”的形式进行存储,对于备份及后期的知识抽取;
步骤4,通过人工抽取的方式,对处理后的数据集进行实体和实体关系的抽取;
步骤5,根据实体和实体关系构建相关领域知识图谱的图数据库;
步骤6,前端可视化构建该领域知识图谱平台,实现相应的功能。
进一步地,步骤4中,对数据集归纳总结出实体和关系,以实体-关系-实体构成的三元组形式呈现,将三元组作为知识图谱的基本单位和核心。
进一步地,步骤5中,通过整理的数据集为结构化数据,进行人工审核并录入,通过Python中的py2neo包连接Neo4j将相关领域知识的三元组储存在图数据库中,以图的形式展示。
进一步地,步骤6中,使用MySQL创建数据库,储存用户信息和用户权限信息,根据平台所需数据选择属性,并定义其类型,设置表的主键,建立数据所需表格。
进一步地,步骤6中,通过D3.js和Echarts.js对数据进行可视化展示,并实现可视化操作。
进一步地,步骤6中,对知识图谱中的实体和关系进行管理,同时对知识图谱文件备份、导出和导入,具体的操作包括:增删实体、关系操作、同义词管理、知识信息传输、系统导入导出、问答系统。
进一步地,步骤6中,进行系统管理,具体包括:用户管理、角色管理、权限设置、部门管理、日志管理。
进一步地,图谱平台基于flask框架,是一个使用Python编写的Web应用程序框架;使用Neo4j对数据进行图式存储后,通过Neo4j的端口,在平台上对数据进行查询更新的操作。
本发明达到的有益效果为:基于Neo4j实现一套多人协作众包式相关知识领域图谱构建工具,帮助用户进行信息查询和分析处理。构建的知识图谱的智能查询平台包框架包括知识图谱全部实体和关系的查询部分、智能问答部分和信息分析部分。在此框架的基础上,为了方便用户后期的使用,还支持权限等级较高的用户增加、删除、修改图谱的实体和关系。对于知识图谱的管理,知识图谱构建平台在文件管理部分还支持图片、文档、视频等内容的上传与下载。同时,为了进一步对图谱数据进行维护,还支持图谱结构化数据的批量导入、导出以及知识库的数据备份,通过应用端为用户提供搜索问答能力。
附图说明
图1为本发明实施例中的不同身份用户登陆界面。
图2为本发明实施例中的图谱查询界面,包含实体查询、关系查询、维修查询等。
图3为本发明实施例中的知识图谱管理的增删关系功能界面。
图4为本发明实施例中的知识图谱管理的关系操作功能界面。
图5为本发明实施例中的知识图谱管理的知识信息传输功能界面。
图6为本发明实施例中的图数据库的导入、导出、备份界面。
图7为本发明实施例中的用户管理权限的用户管理界面。
图8为本发明实施例中的用户管理权限的角色管理界面。
图9为本发明实施例中的问答机器人界面。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明提出利用知识图谱构建平台来查询、存储知识图谱的设计框架,主要包括:获取相关领域数据,根据该数据组成相应的数据集;对数据集进行清洗和预处理;对处理后的数据进行实体和实体关系的抽取,主要为人工抽取;根据实体和实体关系构建相关领域的知识图谱;前端可视化构建该领域知识图谱平台,实现相应的功能。
根据上述框架,提出各部分的具体框架构建形式,框架主要分为分析功能、基础管理和用户管理三大部分。
所述框架的分析功能,根据发明需求,对相关领域的知识图谱构建平台设计一个架构,包括:
(1)数据层:Neo4j用来构建知识图谱、MySQL通过设计表结构来实现用户信息及权限管理;
(2)服务层:数据获取、数据清洗、数据整理、实体关系属性抽取、数据分析处理、算法服务、问答系统;
(3)应用层:数据获取、数据处理、相关领域知识图谱构建、知识检索、图谱文件管理、面向用户需求的问答系统;
(4)表示层:用户界面、管理者界面。
首先,根据已有的相关领域的信息,收集相关的数据,对其进行数据清洗和预处理。对处理好的数据进行实体关系属性抽取形成三元组形式,通过人工处理成结构化数据,构建图数据库。
对于用户信息和用户权限以及文件管理通过MySQL进行存储。关系型数据库的架构符合范式、完整性规则。
面向用户需求的问答系统,需要进行数据处理,采用人工手段建立相应领域的问答对以便建立相应的问答系统。
所述框架的基础管理,根据建立的知识图谱构建相应的平台,在知识图谱构建平台中将图谱可视化,便于用户的查询和图谱文件的管理。
根据图数据库和知识图谱,使用Echarts.js、D3.js可以实现知识图谱的可视化功能。将多张图片融合到一幅图里,通过CSS布局到网页上,可以减少图片数量,带来速度上的提升。
图谱的增、删、改、查功能依赖于Python中的py2neo包,然后使用cypher语句实现上述功能。
通过JavaScript结合MySQL实现图谱的文件管理,cypher语句与Python可以实现图谱文件的导入导出及备份。
所述框架的用户管理,可根据需求,将用户类型进行分类,显示层可分为用户界面和管理者界面。
用户的具体信息和权限信息存储在MySQL中,根据用户的身份给予不同的权限,关系型数据库中的信息可进行增删改查。用户系统可进行知识图谱查询、图谱文件导入、备份和导出和问答系统。管理者系统可以对知识图谱进行更新操作,对系统用户进行增加和删除,对用户的权限进行设置。
MySQL中建立角色表、用户角色交互表、用户表、角色权限交互表、权限表。用户表属性包括用户ID、用户名、用户密码、创建日期、更新日期、角色名称、标语、地址和部门id等相关信息。建立的表之间存在多对多的关系,需在表中设置相应的主键,以便相互表之间的引用。
本方法首先进行关系型数据库的设计,需要设计用户信息和用户权限表。需要将用户具体信息和权限分类进行分表,同时对于每个表需要定义好需要哪些列,通常对于用户信息,需要角色表、用户角色交互表、用户表、角色权限交互表、权限表。属性包括用户ID、用户名、用户密码、创建日期、更新日期、角色名称、标语、地址和部门id等相关信息。为保证数据的唯一性,每个表都要有一列或多列作为主键,基于主键来生成索引以提高查询的速度,主键还可以用来被其他表作为关系引用。该关系型数据库用于用户管理。
然后对图数据库架构进行设计,确定平台的只适合领域后搜集相关领域现有的知识,主要通过相关的文献数据或网络爬取,对于搜集的文件进行数据清洗和数据预处理。人工抽取出实体关系和属性,将数据整理成三元组形式,即“实体—关系—实体”形式,需进行人工审核确认其为计算机能读取的结构化数据。将Neo4j与Python连接,使用Python中py2neo的包,实现图数据库的批量导入,然后用cypher语句就可以实现对知识图谱的增、删、改、查功能。
接下来是平台前端的设计。本发明设计的前端可视化界面是基于flask框架的,采用CSS、HTML和JavaScript语言,构建知识图谱平台,HTML可用于搭建移动端浏览页面,CSS可以减少HTTP请求次数。通过Python所提供的接口将后端Neo4j数据库连接到前端来进行系统的开发。
该平台具有查询功能,可对知识图谱的实体和关系进行查询,并将知识图谱在前端实现可视化,通过Javascript可视化工具库中的Echarts.js、D3.js实现。知识图谱的文件管理存储在MySQL中,结合Javascript可以在平台中实现。Python语句与cypher语句的结合可以对图谱文件进行导入导出和备份。
本发明用Echarts.js对数据进行可视化展示。Echarts.js是基于Javascript的图表库,可以用来绘制各种各样的图表,如常规的折线图、柱状图、散点图、饼图、K线图,用于统计的盒形图,用于地理数据可视化的地图、热力图、线图,用于关系数据可视化的关系图、treemap、旭日图,多维数据可视化的平行坐标,还有用于 BI 的漏斗图,仪表盘,并且支持图与图之间的混搭。D3.js也可自由设计图表,适合展示丰富多样的图表样式。在构建知识图谱的过程中,通过D3.js和Echarts.js实现前端的可视化操作。
本发明提出的平台框架可以对图数据库进行查询,通过Echarts.js实现知识图谱检索,该平台中可将查询分为全部查询、实体查询和关系查询,同时通过实现基于问答对的问答系统。
对知识图谱中的实体和关系进行管理,同时能对知识图谱文件备份、导出和导入,具体的操作如下:
(1)增删实体:添加实体及属性、删除实体;
(2)关系操作:添加、删除、修改实体关系;
(3)同义词管理:添加、删除同义词;
(4)知识信息传输:上传、下载文件(.csv、.JSON)。
(5)系统导入导出:对图谱文件进行备份、导出和导入。
(6)问答系统,可以通过问答机器人进行提问,获取所需信息。
基于构建的知识图谱平台框架,进行系统管理,具体如下:
(1)用户管理:对用户进行管理和设置;
(2)角色管理:对不同角色的权限进行管理;
(3)权限设置:对所有子菜单的权限进行设置;
(4)部门管理:对用户所在部门进行管理;
(5)日志管理:登录日志以及操作日志的管理。
本发明的构建平台框架中包含基于问答对的问答系统。知识库包含了结构化数据,其中的每一个三元组代表一个知识或某个事实。对于用户提出的问题,需要将自然语言转换为知识库上的结构化查询。首先是自然语言理解模块,采用模板匹配的方法提取问句中的实体等信息词;接下来将其转换成相应的查询,采用SPARQL 语言访问知识图谱,进行数据接口调用及知识图谱调用;候选答案进行消歧、排序,返回最优答案并输出。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (8)

1.一种基于知识表示和知识提取的图谱平台框架构建方法,其特征在于:所述方法包括如下步骤:
步骤1,以自底向上的构建方式设计出相关领域知识图谱的架构;
步骤2,获取相关领域数据,根据该数据组成相应的数据集;
步骤3,对数据集进行清洗和预处理,确认数据为该平台所需的数据并对其进行归纳总结,将筛选后的数据以,实体—关系—实体,的形式进行存储,对于备份及后期的知识抽取;
步骤4,通过人工抽取的方式,对处理后的数据集进行实体和实体关系的抽取;
步骤5,根据实体和实体关系构建相关领域知识图谱的图数据库;
步骤6,前端可视化构建该领域知识图谱平台,实现相应的功能。
2.根据权利要求1所述的一种基于知识表示和知识提取的图谱平台框架构建方法,其特征在于:步骤4中,对数据集归纳总结出实体和关系,以实体-关系-实体构成的三元组形式呈现,将三元组作为知识图谱的基本单位和核心。
3.根据权利要求1所述的一种基于知识表示和知识提取的图谱平台框架构建方法,其特征在于:步骤5中,通过整理的数据集为结构化数据,进行人工审核并录入,通过Python中的py2neo包连接Neo4j将相关领域知识的三元组储存在图数据库中,以图的形式展示。
4.根据权利要求1所述的一种基于知识表示和知识提取的图谱平台框架构建方法,其特征在于:步骤6中,使用MySQL创建数据库,储存用户信息和用户权限信息,根据平台所需数据选择属性,并定义其类型,设置表的主键,建立数据所需表格。
5.根据权利要求1所述的一种基于知识表示和知识提取的图谱平台框架构建方法,其特征在于:步骤6中,通过D3.js和Echarts.js对数据进行可视化展示,并实现可视化操作。
6.根据权利要求1所述的一种基于知识表示和知识提取的图谱平台框架构建方法,其特征在于:步骤6中,对知识图谱中的实体和关系进行管理,同时对知识图谱文件备份、导出和导入,具体的操作包括:增删实体、关系操作、同义词管理、知识信息传输、系统导入导出、问答系统。
7.根据权利要求1所述的一种基于知识表示和知识提取的图谱平台框架构建方法,其特征在于:步骤6中,进行系统管理,具体包括:用户管理、角色管理、权限设置、部门管理、日志管理。
8.根据权利要求1所述的一种基于知识表示和知识提取的图谱平台框架构建方法,其特征在于:图谱平台基于flask框架,是一个使用Python编写的Web应用程序框架;使用Neo4j对数据进行图式存储后,通过Neo4j的端口,在平台上对数据进行查询更新的操作。
CN202210295748.3A 2022-03-24 2022-03-24 一种基于知识表示和知识提取的新型图谱平台构建方法 Pending CN114637740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210295748.3A CN114637740A (zh) 2022-03-24 2022-03-24 一种基于知识表示和知识提取的新型图谱平台构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210295748.3A CN114637740A (zh) 2022-03-24 2022-03-24 一种基于知识表示和知识提取的新型图谱平台构建方法

Publications (1)

Publication Number Publication Date
CN114637740A true CN114637740A (zh) 2022-06-17

Family

ID=81950041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210295748.3A Pending CN114637740A (zh) 2022-03-24 2022-03-24 一种基于知识表示和知识提取的新型图谱平台构建方法

Country Status (1)

Country Link
CN (1) CN114637740A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438271A (zh) * 2022-11-08 2022-12-06 商飞软件有限公司 一种工业机理模型及app的管理系统
CN116302190A (zh) * 2023-03-14 2023-06-23 北京海致星图科技有限公司 一种基于知识图谱平台的新型插件化方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438271A (zh) * 2022-11-08 2022-12-06 商飞软件有限公司 一种工业机理模型及app的管理系统
CN116302190A (zh) * 2023-03-14 2023-06-23 北京海致星图科技有限公司 一种基于知识图谱平台的新型插件化方法
CN116302190B (zh) * 2023-03-14 2023-10-31 北京海致星图科技有限公司 一种基于知识图谱平台的新型插件化方法

Similar Documents

Publication Publication Date Title
US9098530B2 (en) Scalable rendering of large spatial databases
US8965915B2 (en) Assisted query formation, validation, and result previewing in a database having a complex schema
US10268645B2 (en) In-database provisioning of data
CN108027818A (zh) 基于图的查询
US9798813B2 (en) Extensible person container
CN114637740A (zh) 一种基于知识表示和知识提取的新型图谱平台构建方法
CN112527783B (zh) 一种基于Hadoop的数据质量探查系统
US9147040B2 (en) Point-in-time query system
CN111813956A (zh) 知识图谱构建方法、装置、信息穿透方法和系统
US8204895B2 (en) Apparatus and method for receiving a report
Wiseso et al. Performance analysis of Neo4j, MongoDB, and PostgreSQL on 2019 national election big data management database
US20090144222A1 (en) Chart generator for searching research data
CN113326345A (zh) 基于动态本体的知识图谱分析、应用方法、平台及设备
CN112231380A (zh) 采集数据的综合处理方法、系统、存储介质及电子设备
CN114860737B (zh) 教研数据的处理方法、装置、设备及介质
EP4040306A1 (en) Intelligent data enrichment using knowledge graph
US10311049B2 (en) Pattern-based query result enhancement
Kokolaki et al. Facetize: An interactive tool for cleaning and transforming datasets for facilitating exploratory search
Dafei et al. Permission and content management model based on ASP. NET technology and three-layer network architecture
CN113407678A (zh) 知识图谱构建方法、装置和设备
CN113868322B (zh) 一种语义结构解析方法、装置、设备及虚拟化系统、介质
CN113590610B (zh) 一种基于Elastic Search的血缘关系表示方法
Kumar Graph data modeling for political communication on Twitter
Yen et al. Ontology and Presentation of Cultural Heritage Management and Maintenance: A Case Study of Qiong-Lin Settlement in Kinmen
Slomczynski et al. On the Future of Survey Data Harmonization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination