CN111159230A - 数据资源地图的构建方法及装置、存储介质、终端 - Google Patents

数据资源地图的构建方法及装置、存储介质、终端 Download PDF

Info

Publication number
CN111159230A
CN111159230A CN201911206228.5A CN201911206228A CN111159230A CN 111159230 A CN111159230 A CN 111159230A CN 201911206228 A CN201911206228 A CN 201911206228A CN 111159230 A CN111159230 A CN 111159230A
Authority
CN
China
Prior art keywords
data
transaction
map
open
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911206228.5A
Other languages
English (en)
Inventor
汤奇峰
蒋宇一
郭泽卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Data Exchange Corp
Original Assignee
Shanghai Data Exchange Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Data Exchange Corp filed Critical Shanghai Data Exchange Corp
Priority to CN201911206228.5A priority Critical patent/CN111159230A/zh
Publication of CN111159230A publication Critical patent/CN111159230A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种数据资源地图的构建方法及装置、存储介质、终端,所述方法包括:接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;根据数据交易品需求确定政务数据源以及开放数据源;对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;根据订单明细需求确定交易数据源;对所述交易数据源进行抽取,并构建交易数据知识图谱;对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图。本发明方案可以使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源。

Description

数据资源地图的构建方法及装置、存储介质、终端
技术领域
本发明涉及数据处理领域,尤其涉及一种数据资源地图的构建方法及装置、存储介质、终端。
背景技术
在数据处理领域,经常存在数据供方作为对数据进行处理的主体,向他人(如数据需方)提供数据的行为,可以包括与他人分享、互换、提供复本等行为,其中,所述数据是经过合法生成、采集、取得的。数据供方为提供数据的主体,又称为数据提供人,数据需方为接受数据主体,又称为数据接受人。
随着数据需方的需求呈现出多元化、深层化的趋势,亟需一种数据资源地图的构建方法,使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源。
发明内容
本发明解决的技术问题是如何提供一种数据资源地图的构建方法及装置、存储介质、终端,以使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源。
为解决上述技术问题,本发明实施例提供一种数据资源地图的构建方法,包括以下步骤:接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;根据所述数据交易品需求确定政务数据源以及开放数据源;对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;根据所述订单明细需求确定交易数据源;对所述交易数据源进行抽取,并构建交易数据知识图谱;对所述资源知识图谱以及所述交易数据知识图谱进行存储,以得到所述数据资源地图。
可选的,所述数据交易品需求包括数据交易品的概括类别信息;根据数据交易品需求确定政务数据源以及开放数据源包括:根据数据交易品的概括类别信息,采集所述数据交易品涉及的地区信息和行业信息,以作为所述政务数据源;根据数据交易品的概括类别信息,采集所述数据交易品涉及的机构信息、类目信息、所述数据交易品挂载的互联对象,以作为所述开放数据源。
可选的,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据;对所述政务图谱实体数据进行关系抽取,以得到政务图谱实体关系,对所述开放图谱实体数据进行关系抽取,以得到开放图谱实体关系;将所述政务图谱实体数据与所述政务图谱实体关系导入数据库,以构建政务知识图谱,将所述开放图谱实体数据与所述开放图谱实体关系导入数据库,以构建开放知识图谱,其中,所述资源知识图谱包括所述政务知识图谱与所述开放知识图谱。
可选的,所述政务知识图谱包括以下一项或多项:类目、交易品、机构;所述开放知识图谱包括以下一项或多项:地区、行业。
可选的,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据,对所述政务图谱实体数据与所述开放图谱实体数据进行整合,以得到图谱实体数据;对所述图谱实体数据进行关系抽取,以得到图谱实体关系;将所述图谱实体数据与所述图谱实体关系导入数据库以构建所述资源知识图谱。
可选的,采用Excel数据提取方式,对所述政务数据源进行第一数据提取;和/或,采用数据库数据提取方式,对所述开放数据源进行第二数据提取。
可选的,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述资源知识图谱。
可选的,所述文件解析器为PDF文件解析器;采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格包括:采用Camelot库,识别PDF文档中特定页的表格;将从每页识别出的表格拼接成单张适合导入Excel的完整表格。
可选的,所述订单明细需求包括需方、数据交易品的概括类别信息、订单明细信息;根据订单明细需求确定交易数据源包括:根据所述需方,采集需方所属的会员机构;根据所述数据交易品的概括类别信息,采集所述数据交易品挂载的互联对象、所述互联对象的互联对象条件;根据所述订单明细信息,采集所述数据交易品的订单明细参数;根据所述订单明细信息,采集所述数据交易品的工单路由以及工单信息、供方信息。
可选的,对所述交易数据源进行抽取,并构建交易数据知识图谱包括:对所述交易数据源进行第三数据提取,以得到交易数据提取层数据;对所述交易数据提取层数据进行实体抽取,以得到交易图谱实体数据;对所述交易图谱实体数据进行关系抽取,以得到交易图谱实体关系;将所述交易图谱实体数据与所述交易图谱实体关系导入数据库以构建所述交易知识图谱。
可选的,所述交易数据知识图谱包括以下一项或多项:需方、会员机构、数据交易品、互联对象、互连对象条件、订单明细参数、工单路由、工单、订单。
可选的,采用数据库数据提取方式,对所述交易数据源进行第三数据提取。
可选的,对所述交易数据源进行抽取,并构建交易数据知识图谱包括:采用文件解析器对所述交易数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述交易知识图谱。
可选的,所述文件解析器为PDF文件解析器;采用文件解析器对所述交易数据源进行结构化数据抽取,并将抽取出的数据拼接成表格包括:采用Camelot库,识别PDF文档中特定页的表格;将从每页识别出的表格拼接成单张适合导入Excel的完整表格。
可选的,在对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图之前,所述的数据资源地图的构建方法还包括:对所述资源知识图谱以及交易数据知识图谱进行管理操作,以得到更新后的资源知识图谱以及交易数据知识图谱;其中,所述管理操作包括:新增操作、删除操作、属性名变更操作、查找操作。
为解决上述技术问题,本发明实施例提供一种数据资源地图的构建装置,包括:订单接收模块,适于接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;第一数据源确定模块,适于根据数据交易品需求确定政务数据源以及开放数据源;第一知识图谱构建模块,适于对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;第二数据源确定模块,适于根据订单明细需求确定交易数据源;第二知识图谱构建模块,适于对所述交易数据源进行抽取,并构建交易数据知识图谱;资源地图获取模块,适于对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图。
为解决上述技术问题,本发明实施例提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述数据资源地图的构建方法的步骤。
为解决上述技术问题,本发明实施例提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述数据资源地图的构建方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
在本发明实施例中,通过对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱,以及对所述交易数据源进行抽取,并构建交易数据知识图谱,相比于现有技术中,仅能根据数据需方的需求,提供层次单一、内容简单的数据交易品数据,采用本发明实施例的方案,可以提供知识图谱,由于知识图谱不仅包括数据交易品数据,还包括与数据交易品数据关联的更深层级的信息以及各个信息之间的关联关系,层次更加丰富、数据表现更加灵活,因此采用本发明实施例的方案,可以使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源,进而由于据此得到的数据集及其属性或关联信息以图结构存储,为智能搜索与分析提供基础。
进一步,在本发明实施例中,经由数据提取以得到数据提取层数据,然后实体抽取、整合以得到图谱实体数据,进而关系抽取,以得到图谱实体关系,再导入数据库以构建所述资源知识图谱,采用了多重抽取实现知识图谱的构建,相比于现有技术中,仅对数据源进行单一轮次的抽取即得到知识图谱,采用本发明实施例的方式,可以提高知识图谱的准确性和针对性。
进一步,在本发明实施例中,根据数据交易品的概括类别信息,采集所述数据交易品涉及的地区信息、行业信息、机构信息、类目信息、所述数据交易品挂载的互联对象,进而构建资源知识图谱,相比于仅提供数据交易品数据,可以进一步为用户提供更准确、完善的信息。
附图说明
图1是本发明实施例中一种数据资源地图的构建方法的流程图;
图2是本发明实施例中一种政务知识图谱的示意图;
图3是本发明实施例中一种开放知识图谱的示意图;
图4是图1中步骤S13的一种具体实施方式的流程图;
图5是本发明实施例中一种资源知识图谱的示意图;
图6是本发明实施例中一种交易数据知识图谱的示意图;
图7是本发明实施例中一种数据资源地图的构建装置的结构示意图。
具体实施方式
如前所述,在数据处理领域,数据供方作为对数据进行处理的主体,向数据需方提供数据,随着数据需方的需求呈现出多元化、深层化的趋势,现有的数据资源提供较为层次单一、数据简单,难以满足用户需求。
本发明的发明人经过研究发现,在现有技术中,仅能根据数据需方的需求,提供层次单一、内容简单的数据交易品数据,难以满足数据需方的多元化、深层化数据需求。
在本发明实施例中,接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;根据数据交易品需求确定政务数据源以及开放数据源;对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;根据订单明细需求确定交易数据源;对所述交易数据源进行抽取,并构建交易数据知识图谱;对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图。采用上述方案,通过对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱,以及对所述交易数据源进行抽取,并构建交易数据知识图谱,相比于现有技术中,仅能根据数据需方的需求,提供层次单一、内容简单的数据交易品数据,采用本发明实施例的方案,可以提供知识图谱,由于知识图谱不仅包括数据交易品数据,还包括与数据交易品数据关联的更深层级的信息以及各个信息之间的关联关系,层次更加丰富、数据表现更加灵活,因此采用本发明实施例的方案,可以使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源,进而由于据此得到的数据集及其属性或关联信息以图结构存储,为智能搜索与分析提供基础。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,图1是本发明实施例中一种数据资源地图的构建方法的流程图。所述数据资源地图的构建方法可以包括步骤S11至步骤S16:
步骤S11:接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;
步骤S12:根据所述数据交易品需求确定政务数据源以及开放数据源;
步骤S13:对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;
步骤S14:根据所述订单明细需求确定交易数据源;
步骤S15:对所述交易数据源进行抽取,并构建交易数据知识图谱;
步骤S16:对所述资源知识图谱以及所述交易数据知识图谱进行存储,以得到所述数据资源地图。
在步骤S11的具体实施中,所述订单信息可以用于指示数据需方的需求。
所述数据交易品需求可以包括数据交易品的概括类别信息,例如需要的是哪一类数据。
所述订单明细需求可以包括多种订单上体现出的信息,可以包括:需方、数据交易品的概括类别信息、订单明细信息。需要指出的是,订单明细信息用于指示除需方以及数据交易品的概括类别信息之外的用于数据交易的信息,例如数据交易时间、数据交易方式、数据交易费用等。
在步骤S12的具体实施中,根据数据交易品需求确定政务数据源以及开放数据源的步骤可以包括:根据数据交易品的概括类别信息,采集所述数据交易品涉及的地区信息和行业信息,以作为所述开放数据源;根据数据交易品的概括类别信息,采集所述数据交易品涉及的机构信息、类目信息、所述数据交易品挂载的互联对象,以作为所述政务数据源。
其中,数据交易品的概括类别可以视为互联对象的上位概念,每个数据交易品下可挂载多个互联对象,以对数据进行细化。
在具体实施中,可以设置数据项信息采集表组作为采集数据的来源。在本发明实施例的一种具体实施方式中,开放数据和交易数据来源为关系型(mysql)数据库,政务数据的存储形式可以为Excel文件。所以,在数据项信息采集功能中分别设计了mysql数据库数据提取层和Excel数据提取层进行实现。其中表1所示为mysql数据库12张核心数据表。
表1 mysql数据库12张核心数据表
Figure BDA0002296993920000071
Figure BDA0002296993920000081
在步骤S13的具体实施中,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱。
在本发明实施例的一种具体实施方式中,可以分别构建政务知识图谱以及开放知识图谱,然后构成所述资源知识图谱的至少一部分。
具体地,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据;对所述政务图谱实体数据进行关系抽取,以得到政务图谱实体关系,对所述开放图谱实体数据进行关系抽取,以得到开放图谱实体关系;将所述政务图谱实体数据与所述政务图谱实体关系导入数据库,以构建政务知识图谱,将所述开放图谱实体数据与所述开放图谱实体关系导入数据库,以构建开放知识图谱,其中,所述资源知识图谱包括所述政务知识图谱与所述开放知识图谱。
参照图2,图2是本发明实施例中一种政务知识图谱的示意图。所述政务知识图谱可以包括以下一项或多项的数据类型:类目101、交易品102、机构103。
具体地,所述政务知识图谱中的每一项均与信息资源100具有直接或间接的关系,所述信息资源100用于指示所述政务知识图谱的核心概念,例如可以为所述数据交易品。
其中,所述类目101与所述信息资源100具有隶属关系,为所述信息资源100的所属类别。
所述交易品102为所述信息资源100的交易流通情况。
所述机构103为所述信息资源100的开放机构。
需要指出的是,在政务知识图谱中,不仅提供类目101、交易品102、机构103,还将对上述隶属关系、交易流通情况、开放机构等关系进行描述和说明。
在本发明实施例中,通过提供政务知识图谱,相比于仅提供信息资源这一单一数据(例如仅提供数据交易品数据),可以为用户提供更准确、完善的信息。
参照图3,图3是本发明实施例中一种开放知识图谱的示意图。所述开放知识图谱可以包括以下一项或多项:地区111、行业112。
具体地,所述开放知识图谱中的每一项均与信息资源110具有直接或间接的关系,所述信息资源110用于指示所述开放知识图谱的核心概念,例如可以为所述数据交易品。
其中,所述地区111为所述信息资源110的开放地区,用于指示说明所述信息资源110的开放情况。
所述行业112与所述信息资源110具有隶属关系,为所述信息资源110的所属行业。
需要指出的是,在开放知识图谱中,不仅提供地区111、行业112,还将对上述隶属关系、开放情况等关系进行描述和说明。
在本发明实施例中,通过提供开放知识图谱,相比于仅提供信息资源这一单一数据(例如仅提供数据交易品数据),可以为用户提供更准确、完善的信息。
在本发明实施例的另一种具体实施方式中,可以在构建政务知识图谱以及开放知识图谱的过程中对其进行整合,以得到所述资源知识图谱。
参照图4,图4是图1中步骤S13的一种具体实施方式的流程图。对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱的步骤可以包括步骤S21至步骤S24。
步骤S21,数据提取。对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据。
在一种具体实施方式中,如图4所示,可以采用Excel数据提取方式,对所述政务数据源进行第一数据提取,以得到政务数据Excel数据提取层;采用数据库数据提取方式,对所述开放数据源进行第二数据提取,以得到开放数据数据库数据提取层。从而可以针对不同的数据源,选取适当的提取方式,提高提取的有效性。
需要指出的是,还可以采用Excel数据提取方式对开放数据源进行提取,还可以采用数据库数据提取方式对所述政务数据源进行提取。在本发明实施例中,对于提取方式不做限制。
步骤S22,实体抽取。对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据,对所述政务图谱实体数据与所述开放图谱实体数据进行整合,以得到图谱实体数据。
步骤S23,关系抽取。对所述图谱实体数据进行关系抽取,以得到图谱实体关系。
步骤S24,导入数据库。将所述图谱实体数据与所述图谱实体关系导入数据库以构建所述资源知识图谱。
在本发明实施例的一种具体实施方式中,可以选用neo4j数据库,以提高资源知识图谱的质量和稳定性。
需要指出的是,在本发明实施例中,可以采用现有的适当的实体抽取、关系抽取、导入数据库的方式实现图4示出的步骤。
在本发明实施例中,经由数据提取以得到数据提取层数据,然后实体抽取、整合以得到图谱实体数据,进而关系抽取,以得到图谱实体关系,再导入数据库以构建所述资源知识图谱,采用了多重抽取实现知识图谱的构建,相比于现有技术中,仅对数据源进行单一轮次的抽取即得到知识图谱,采用本发明实施例的方式,可以提高知识图谱的准确性和针对性。
参照图5,图5是本发明实施例中一种资源知识图谱的示意图。所述资源知识图谱可以包括以下一项或多项:类目121、交易品122、机构123、地区125、行业124。
需要指出的是,在资源知识图谱中,不仅提供类目121、交易品122、机构123、地区125、行业124,还将对隶属关系、开放情况、交易流通情况、开放机构等关系进行描述和说明。
有关类目121、交易品122、机构123、地区125、行业124的更多详细内容请参照图2及图3中的描述进行执行,此处不再赘述。
在本发明实施例中,通过提供资源知识图谱,相当于提供了整合后的政务知识图谱以及开放知识图谱,有机会扩展出更多关系和细节,可以进一步为用户提供更准确、完善的信息。
继续参照图1,在步骤S13的具体实施中,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱的步骤还可以包括:采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述资源知识图谱。
进一步地,所述文件解析器可以为PDF文件解析器,采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格可以包括:采用Camelot库,识别PDF文档中特定页的表格;将从每页识别出的表格拼接成单张适合导入Excel的完整表格。
具体而言,PDF文档解析可以视为是对PDF文档内表格的识别和提取,具体步骤如下:实验了多个PDF表格识别库后,根据识别效果,采用python自带的Camelot库,识别PDF文档中特定页的表格;将从每页识别出的表格拼接成一张适合导入excel的完整表格;对识别出的表格进一步分析,提取有效字段并导入Excel和mysql数据库中存储。
其模块具体开发流程可以包括:PDF接口文档解析、数据导入MySQL数据库、接口相似度匹配等步骤。
在本发明实施例中,通过设置文档解析器,可以使用户根据不同的应用场景,在图4示出的抽取方法与文档解析器中选择更适当的方式,以提高知识图谱的品质。
继续参照图1,在步骤S14的具体实施中,根据订单明细需求确定交易数据源。
具体地,所述订单明细需求可以包括需方、数据交易品的概括类别信息、订单明细信息;根据订单明细需求确定交易数据源可以包括:根据所述需方,采集需方所属的会员机构;根据所述数据交易品的概括类别信息,采集所述数据交易品挂载的互联对象、所述互联对象的互联对象条件;根据所述订单明细信息,采集所述数据交易品的订单明细参数;根据所述订单明细信息,采集所述数据交易品的工单路由以及工单信息、供方信息。
在具体实施中,可以设置数据项信息采集表组作为采集数据的来源。在本发明实施例的一种具体实施方式中,交易数据来源可以为mysql数据库,其mysql数据库12张核心数据表可以参照前述表1。
在步骤S15的具体实施中,对所述交易数据源进行抽取,并构建交易数据知识图谱。
具体地,对所述交易数据源进行抽取,并构建交易数据知识图谱的步骤可以包括:对所述交易数据源进行第三数据提取,以得到交易数据提取层数据;对所述交易数据提取层数据进行实体抽取,以得到交易图谱实体数据;对所述交易图谱实体数据进行关系抽取,以得到交易图谱实体关系;将所述交易图谱实体数据与所述交易图谱实体关系导入数据库以构建所述交易知识图谱。
在本发明实施例中,根据数据交易品的概括类别信息,采集所述数据交易品涉及的地区信息、行业信息、机构信息、类目信息、所述数据交易品挂载的互联对象,进而构建资源知识图谱,相比于仅提供数据交易品数据,可以进一步为用户提供更准确、完善的信息。
进一步地,可以采用数据库数据提取方式,对所述交易数据源进行第三数据提取。
需要指出的是,具体实施方式可以参照图4示出的构建知识图谱的流程图,此处不再赘述。
参照图6,图6是本发明实施例中一种交易数据知识图谱的示意图。所述交易数据知识图谱可以包括以下一项或多项:需方201、会员机构211、数据交易品202、互联对象212、互连对象条件213、订单明细参数203、工单路由214、工单215、订单210。
具体地,所述交易数据知识图谱中的每一项均与所述交易数据知识图谱的核心概念具有直接或间接的关系,所述交易数据知识图谱的核心概念例如可以为所述订单明细200,还可以为所述订单210。
其中,所述需方201与所述订单明细200可以具有对应关系,订单明细可以含有与所述需方201对应的订单供方。
所述会员机构211可以与所述需方201具有隶属关系,例如所述需方201可以用于指示会员,所述会员机构211可以为所述会员隶属的机构。
所述数据交易品202与所述订单明细200可以具有关联关系。所述互联对象212与所述数据交易品202可以具有隶属关系。其中,数据交易品202的概括类别可以视为互联对象212的上位概念,每个数据交易品202下可挂载多个互联对象212,以对数据进行细化。因此所述互联对象212经由所述数据交易品202,可以与所述订单明细200具有关联关系。
所述互联对象条件213与所述互联对象212可以具有隶属关系,用于指示所述互联对象212的条件。
所述订单明细参数203与所述订单明细200可以具有关联关系,例如可以包括与订单关联的数据交易时间、数据交易方式、数据交易费用等细节信息。
所述工单路由214与订单明细200可以具有隶属关系,以指示完成该订单的派工单的实现路径。
所述工单215也可以称为所述订单的派工单,与所述工单路由214具有隶属关系。所述订单210可以与所述工单215之间有关联关系。
所述订单210可以与所述订单明细200之间具有隶属关系。所述订单明细200所属的订单为所述订单210。所述订单210的订单需方为所述需方201。
需要指出的是,在交易数据知识图谱中,不仅提供需方201、会员机构211、数据交易品202、互联对象212、互连对象条件213、订单明细参数203、工单路由214、工单215、订单210,还将对上述隶属关系、关联关系等关系进行描述和说明。
在本发明实施例中,通过提供交易数据知识图谱,相比于仅提供核心数据这一单一数据(例如仅提供订单明细200或订单210),可以为用户提供更准确、完善的信息。
在本发明实施例的另一种具体实施方式中,对所述交易数据源进行抽取,并构建交易数据知识图谱的步骤可以包括:采用文件解析器对所述交易数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述交易知识图谱。
更进一步地,所述文件解析器可以为PDF文件解析器;采用文件解析器对所述交易数据源进行结构化数据抽取,并将抽取出的数据拼接成表格包括:采用Camelot库,识别PDF文档中特定页的表格;将从每页识别出的表格拼接成单张适合导入Excel的完整表格。
在具体实施中,有关文件解析器的更多详细内容及效果请参照前文描述进行执行,此处不再赘述。
继续参照图1,在步骤S15中,对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图。
在具体实施中,可以采用Elastic Search入库,以提高数据资源地图的质量。
在本发明实施例中,通过对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱,以及对所述交易数据源进行抽取,并构建交易数据知识图谱,相比于现有技术中,仅能根据数据需方的需求,提供层次单一、内容简单的数据交易品数据,采用本发明实施例的方案,可以提供知识图谱,由于知识图谱不仅包括数据交易品数据,还包括与数据交易品数据关联的更深层级的信息以及各个信息之间的关联关系,层次更加丰富、数据表现更加灵活,因此采用本发明实施例的方案,可以使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源。
进一步地,在采用步骤S15对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图之前,所述的数据资源地图的构建方法还可以包括:在本发明实施例中,经由数据提取以得到数据提取层数据,然后实体抽取、整合以得到图谱实体数据,进而关系抽取,以得到图谱实体关系,再导入数据库以构建所述资源知识图谱,采用了多重抽取实现知识图谱的构建,相比于现有技术中,仅对数据源进行单一轮次的抽取即得到知识图谱,采用本发明实施例的方式,可以提高知识图谱的准确性和针对性。其中,所述管理操作包括:新增操作、删除操作、属性名变更操作。
具体地,新增操作可以用于增加某个具有某些属性的节点:
create(:[标签名]{[属性名1]:[属性值1],[属性名2]:[属性值2]})
例如,添加一个属于开放数据标签的节点,属性cata_tags为旅游,属性cata_title为导游,属性city_name为beijing,则:
create(:开放数据{cata_tags:'旅游',cata_title:'导游',city_name:'beijing'})
为某个节点增加属性:
match(m:标签名)where m.属性名1=属性值1set m.属性名2=属性值2
语句解释:通过属性1找到该节点,然后为该节点添加属性2。
具体地,删除操作可以用于删除某个已知id的节点:
match(m:开放数据)where id(m)=538342detach delete m
删除某个具有某些属性的节点:
match(m:开放数据)where m.city_name='beijing'and m.cata_title='导游'detach delete m
注:删除节点的同时会删除节点上的所有关系,请慎重使用。
只删除具有某些属性的节点之间的关系:
match(m:起始节点标签名)-[r:关系名]->(n:结束节点标签名)where m.属性名=属性值and n.属性名=属性值delete r
注:满足条件的关系将全部被删除,由于数据节点中许多属性值相同,因此若只想删除固定两个数据节点之间的关系,建议使用id进行删除
match(m:起始节点标签名)-[r:关系名]->(n:结束节点标签名)where id(m)=123and id(n)=321delete r
具体地,属性名变更操作可以用于修改某个节点的属性值:
match(m:标签名)where m.属性名1=属性值1set m.属性名1=属性值2
具体地,查找操作可以用于查找具有某些属性的节点:
match(m:标签名)where m.属性名=属性值return m;
例如,查找所有city_name为‘beijing‘的开放数据节点:
match(m:开放数据)where m.city_name='beijing'return m。
更进一步地,还可以采用按类别进行混合查询的方式对所述资源知识图谱以及交易数据知识图谱进行管理操作。
在一个具体实施方式中,可以查询某个城市下某个行业的开放数据:
match p=(c:`城市`)<-[:`开放地区`]-(:`开放数据`)-[:`所属行业`]->(i:`行业`)where c.region="上海"and i.name="卫生"return p
match p=(c:`城市`)<-[:`开放地区`]-(:`开放数据`)-[:`所属行业`]->(i:`行业`)where c.region="上海"and i.name=~".*卫生.*"return p
在另一个具体实施方式中,可以查询某个机构下某个类别的政务数据:
match p=(c:`机构`)<-[:`开放机构`]-(:`政务数据`)-[:`所属类别`]->(t:`类目`)where c.code="AC9"and t.name="旅游"return p
更进一步地,还可以采用统计查询的方式对所述资源知识图谱以及交易数据知识图谱进行管理操作。
在一个具体实施方式中,可以查询某个城市下某个行业的开放数据数量:
match(c:`城市`)<-[:`开放地区`]-(n:`开放数据`)-[:`所属行业`]->(i:`行业`)where c.region="上海"and i.name="卫生"return count(n)
在另一个具体实施方式中,可以查询某个机构的政务数据数量:
match(c:`机构`)<-[:`开放机构`]-(n:`政务数据`)where c.code="AC9"return count(n)
更进一步地,还可以采用查询schema的方式对所述资源知识图谱以及交易数据知识图谱进行管理操作。
在一个具体实施方式中,可以查询开放数据:
match p=()<-[:`开放地区`]-()-[:`所属行业`]->()return p limit 1
在另一个具体实施方式中,可以查询政务数据:
match p=()<-[:`开放机构`]-()-[:`所属类别`]->()<-[:`所属类别`]-()-[:`交易流通`]-()return p limit 1
在本发明实施例中,通过对所述资源知识图谱以及交易数据知识图谱进行管理操作,得到更新后的资源知识图谱以及交易数据知识图谱,可以提高数据资源地图的实时性和使用质量,进而由于据此得到的数据集及其属性或关联信息以图结构存储,为智能搜索与分析提供基础。
参照图7,图7是本发明实施例中一种数据资源地图的构建装置的结构示意图。所述数据资源地图的构建装置可以包括:
订单接收模块71,适于接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;
第一数据源确定模块72,适于根据数据交易品需求确定政务数据源以及开放数据源;
第一知识图谱构建模块73,适于对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;
第二数据源确定模块74,适于根据订单明细需求确定交易数据源;
第二知识图谱构建模块75,适于对所述交易数据源进行抽取,并构建交易数据知识图谱;
资源地图获取模块76,适于对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图。
关于该数据资源地图的构建装置的原理、具体实现和有益效果请参照前文及图1至图6示出的关于数据资源地图的构建方法的相关描述,此处不再赘述。
本发明实施例还提供了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述数据资源地图的构建方法的步骤。所述存储介质可以是计算机可读存储介质,例如可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器,还可以包括光盘、机械硬盘、固态硬盘等。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述数据资源地图的构建方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (18)

1.一种数据资源地图的构建方法,其特征在于,包括以下步骤:
接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;
根据所述数据交易品需求确定政务数据源以及开放数据源;
对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;
根据所述订单明细需求确定交易数据源;
对所述交易数据源进行抽取,并构建交易数据知识图谱;
对所述资源知识图谱以及所述交易数据知识图谱进行存储,以得到所述数据资源地图。
2.根据权利要求1所述的数据资源地图的构建方法,其特征在于,所述数据交易品需求包括数据交易品的概括类别信息;
根据数据交易品需求确定政务数据源以及开放数据源包括:
根据数据交易品的概括类别信息,采集所述数据交易品涉及的地区信息和行业信息,以作为所述政务数据源;
根据数据交易品的概括类别信息,采集所述数据交易品涉及的机构信息、类目信息、所述数据交易品挂载的互联对象,以作为所述开放数据源。
3.根据权利要求2所述的数据资源地图的构建方法,其特征在于,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:
对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;
对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据;
对所述政务图谱实体数据进行关系抽取,以得到政务图谱实体关系,对所述开放图谱实体数据进行关系抽取,以得到开放图谱实体关系;
将所述政务图谱实体数据与所述政务图谱实体关系导入数据库,以构建政务知识图谱,将所述开放图谱实体数据与所述开放图谱实体关系导入数据库,以构建开放知识图谱,其中,所述资源知识图谱包括所述政务知识图谱与所述开放知识图谱。
4.根据权利要求3所述的数据资源地图的构建方法,其特征在于,
所述政务知识图谱包括以下一项或多项:类目、交易品、机构;
所述开放知识图谱包括以下一项或多项:地区、行业。
5.根据权利要求2所述的数据资源地图的构建方法,其特征在于,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:
对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;
对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据,对所述政务图谱实体数据与所述开放图谱实体数据进行整合,以得到图谱实体数据;
对所述图谱实体数据进行关系抽取,以得到图谱实体关系;
将所述图谱实体数据与所述图谱实体关系导入数据库以构建所述资源知识图谱。
6.根据权利要求3或5所述的数据资源地图的构建方法,其特征在于,
采用Excel数据提取方式,对所述政务数据源进行第一数据提取;
和/或,
采用数据库数据提取方式,对所述开放数据源进行第二数据提取。
7.根据权利要求2所述的数据资源地图的构建方法,其特征在于,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:
采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;
对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述资源知识图谱。
8.根据权利要求7所述的数据资源地图的构建方法,其特征在于,所述文件解析器为PDF文件解析器;
采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格包括:
采用Camelot库,识别PDF文档中特定页的表格;
将从每页识别出的表格拼接成单张适合导入Excel的完整表格。
9.根据权利要求1所述的数据资源地图的构建方法,其特征在于,所述订单明细需求包括需方、数据交易品的概括类别信息、订单明细信息;
根据订单明细需求确定交易数据源包括:
根据所述需方,采集需方所属的会员机构;
根据所述数据交易品的概括类别信息,采集所述数据交易品挂载的互联对象、所述互联对象的互联对象条件;
根据所述订单明细信息,采集所述数据交易品的订单明细参数;
根据所述订单明细信息,采集所述数据交易品的工单路由以及工单信息、供方信息。
10.根据权利要求9所述的数据资源地图的构建方法,其特征在于,
对所述交易数据源进行抽取,并构建交易数据知识图谱包括:
对所述交易数据源进行第三数据提取,以得到交易数据提取层数据;
对所述交易数据提取层数据进行实体抽取,以得到交易图谱实体数据;
对所述交易图谱实体数据进行关系抽取,以得到交易图谱实体关系;
将所述交易图谱实体数据与所述交易图谱实体关系导入数据库以构建所述交易知识图谱。
11.根据权利要求10所述的数据资源地图的构建方法,其特征在于,
所述交易数据知识图谱包括以下一项或多项:需方、会员机构、数据交易品、互联对象、互连对象条件、订单明细参数、工单路由、工单、订单。
12.根据权利要求10所述的数据资源地图的构建方法,其特征在于,
采用数据库数据提取方式,对所述交易数据源进行第三数据提取。
13.根据权利要求9所述的数据资源地图的构建方法,其特征在于,对所述交易数据源进行抽取,并构建交易数据知识图谱包括:
采用文件解析器对所述交易数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;
对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述交易知识图谱。
14.根据权利要求13所述的数据资源地图的构建方法,其特征在于,所述文件解析器为PDF文件解析器;
采用文件解析器对所述交易数据源进行结构化数据抽取,并将抽取出的数据拼接成表格包括:
采用Camelot库,识别PDF文档中特定页的表格;
将从每页识别出的表格拼接成单张适合导入Excel的完整表格。
15.根据权利要求1所述的数据资源地图的构建方法,其特征在于,在对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图之前,还包括:
对所述资源知识图谱以及交易数据知识图谱进行管理操作,以得到更新后的资源知识图谱以及交易数据知识图谱;
其中,所述管理操作包括:新增操作、删除操作、属性名变更操作、查找操作。
16.一种数据资源地图的构建装置,其特征在于,包括:
订单接收模块,适于接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;
第一数据源确定模块,适于根据数据交易品需求确定政务数据源以及开放数据源;
第一知识图谱构建模块,适于对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;
第二数据源确定模块,适于根据订单明细需求确定交易数据源;
第二知识图谱构建模块,适于对所述交易数据源进行抽取,并构建交易数据知识图谱;
资源地图获取模块,适于对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图。
17.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至15任一项所述数据资源地图的构建方法的步骤。
18.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至15任一项所述数据资源地图的构建方法的步骤。
CN201911206228.5A 2019-11-29 2019-11-29 数据资源地图的构建方法及装置、存储介质、终端 Withdrawn CN111159230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911206228.5A CN111159230A (zh) 2019-11-29 2019-11-29 数据资源地图的构建方法及装置、存储介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911206228.5A CN111159230A (zh) 2019-11-29 2019-11-29 数据资源地图的构建方法及装置、存储介质、终端

Publications (1)

Publication Number Publication Date
CN111159230A true CN111159230A (zh) 2020-05-15

Family

ID=70556314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911206228.5A Withdrawn CN111159230A (zh) 2019-11-29 2019-11-29 数据资源地图的构建方法及装置、存储介质、终端

Country Status (1)

Country Link
CN (1) CN111159230A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737499A (zh) * 2020-07-27 2020-10-02 平安国际智慧城市科技股份有限公司 基于自然语言处理的数据搜索方法及相关设备
CN112598428A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 交易数据的处理方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657065A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 知识图谱处理方法、装置及电子设备
US10296524B1 (en) * 2018-07-27 2019-05-21 Accenture Global Solutions Limited Data virtualization using leveraged semantic knowledge in a knowledge graph
CN110033279A (zh) * 2019-04-04 2019-07-19 银清科技(北京)有限公司 基于知识图谱技术的可疑账户交易确认方法及装置
CN110377648A (zh) * 2018-04-11 2019-10-25 西安邮电大学 一种面向智能制造的多源异构数据分析平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377648A (zh) * 2018-04-11 2019-10-25 西安邮电大学 一种面向智能制造的多源异构数据分析平台
US10296524B1 (en) * 2018-07-27 2019-05-21 Accenture Global Solutions Limited Data virtualization using leveraged semantic knowledge in a knowledge graph
CN109657065A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 知识图谱处理方法、装置及电子设备
CN110033279A (zh) * 2019-04-04 2019-07-19 银清科技(北京)有限公司 基于知识图谱技术的可疑账户交易确认方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴运兵等: "基于多数据源的知识图谱构建方法研究", 《福州大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737499A (zh) * 2020-07-27 2020-10-02 平安国际智慧城市科技股份有限公司 基于自然语言处理的数据搜索方法及相关设备
CN112598428A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 交易数据的处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US10725981B1 (en) Analyzing big data
US7562088B2 (en) Structure extraction from unstructured documents
US9361320B1 (en) Modeling big data
US9183286B2 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
US9870382B2 (en) Data encoding and corresponding data structure
US11449564B2 (en) System and method for searching based on text blocks and associated search operators
US20140046928A1 (en) Query plans with parameter markers in place of object identifiers
US11327985B2 (en) System and method for subset searching and associated search operators
US11449477B2 (en) Systems and methods for context-independent database search paths
WO2019129520A1 (en) Systems and methods for combining data analyses
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
US20230109772A1 (en) System and method for value based region searching and associated search operators
US9158599B2 (en) Programming framework for applications
Wu et al. Processing top-k join queries
US20190129981A1 (en) Asynchronous distributed data cleansing
Vajk et al. Automatic NoSQL schema development: A case study
CN113190687A (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN111159230A (zh) 数据资源地图的构建方法及装置、存储介质、终端
CN114416848A (zh) 基于数据仓库的数据血缘关系处理方法及装置
US11386155B2 (en) Filter evaluation in a database system
CN113626427B (zh) 一种基于规则引擎的主题检索方法和系统
US9158818B2 (en) Facilitating identification of star schemas in database environments
CN117874246A (zh) 知识图谱的构建方法、装置、终端设备及存储介质
Jeevangekar et al. Design and Implementation of a NoSQL Database for Decision Support in R&D Management
Chowdary et al. Minning Frequent Patterns, Associations and Correlations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200515

WW01 Invention patent application withdrawn after publication