CN113468340A - 一种产业知识图谱的构建系统及构建方法 - Google Patents
一种产业知识图谱的构建系统及构建方法 Download PDFInfo
- Publication number
- CN113468340A CN113468340A CN202110722540.0A CN202110722540A CN113468340A CN 113468340 A CN113468340 A CN 113468340A CN 202110722540 A CN202110722540 A CN 202110722540A CN 113468340 A CN113468340 A CN 113468340A
- Authority
- CN
- China
- Prior art keywords
- data
- event
- database
- upstream
- downstream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 31
- 238000011144 upstream manufacturing Methods 0.000 claims abstract description 81
- 238000013500 data storage Methods 0.000 claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 230000001360 synchronised effect Effects 0.000 claims abstract description 7
- 230000008859 change Effects 0.000 claims description 57
- 238000000034 method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 14
- 238000011161 development Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013479 data entry Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 239000000047 product Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- -1 service field Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了本发明提供了一种产业知识图谱的构建系统及构建方法,构建系统包括数据采集单元、数据处理单元、数据存储单元、数据应用单元。数据存储单元包括基础数据仓库、过滤模块、领域数据仓库。基础数据仓库存储一级结构化数据;过滤模块根据产业类型对一级结构化数据过滤,得到与产业类型相关的二级结构化数据发送至领域数据仓库。领域数据仓库依据内设有上游数据库、数据同步模块、n个不同类型的下游数据库。通过设计产业知识图谱的构建系统,经数据同步模块可以把上游数据库的结构化数据实时同步到n个不同类型的下游数据库内,使得产业知识图谱可以支撑复杂的业务场景,并提供了稳定高效的数据存储与查询服务。
Description
技术领域
本发明属于知识图谱技术领域,涉及一种产业知识图谱的构建系统及构建方法。
背景技术
知识图谱是大数据时代的重要知识表示方式,其本质是一种大规模的语义网络,机器基于知识网络实现认知智能,主要体现在精准分析、智慧搜索、智能推荐、智能解释、自然人机交互和深层关系推理等各方面。
目前人们在构建产业知识图谱数据系统时,存在操作繁琐,难以实现多种类型数据库的统一处理,无法通过共享开放技术来方便人们使用和缩短产业知识图谱的创建时间,从而降低了系统工作效率。
鉴于此,我们提出并设计了产业知识图谱的构建系统、方法、装置,用以克服上述问题。
发明内容
针对现有技术中提到的知识图谱系统操作繁琐、数据库类型单一、数据同步效率低的问题,本发明提出了一种产业知识图谱的构建系统及构建方法,其可以解决产业知识图谱构建的技术局限性,提高整个构建系统的稳定性和功能多样性,大大提高了数据的同步效率,扩大了知识图谱构建系统的泛用性。
实现发明目的的技术方案如下:
第一方面,本发明提供了一种产业知识图谱的构建系统,包括数据采集单元、数据处理单元、数据存储单元、数据应用单元。
其中,数据存储单元包括基础数据仓库、过滤模块、领域数据仓库。
基础数据仓库用于存储数据处理单元输出的一级结构化数据。
过滤模块用于根据产业类型对一级结构化数据过滤,将与产业类型相关的二级结构化数据发送至领域数据仓库。
领域数据仓库依据接收的二级结构化数据形成并输出数据变更事件。领域数据仓库内设有上游数据库、数据同步模块、n个不同类型的下游数据库,上游数据库接收二级结构化数据,并经数据同步模块镜像复制至各下游数据库内。
通过设计产业知识图谱的构建系统,特别是对数据存储单元进行设计,能够实现上游数据库的二级结构化数据经数据同步模块实时同步到多个不同类型的下游数据库内,使得产业知识图谱可以支撑复杂的业务场景,并提供了稳定高效的数据存储与查询服务。
进一步的,上述数据存储单元中,数据同步模块包括数据上游事件生产者、事件分发列队、数据下游事件消费者,下游数据库包括多个类型的下游数据库。
数据上游生产者用于接收二级结构化数据,解析并实时生成数据变更事件,将数据变更事件推送给事件分发列队。
事件分发列队基于开源的消息队列,实现将数据变更事件发送给与数据下游事件消费者对应的列队。
数据下游事件消费者接收数据变更事件,并将数据变更事件同步至与其对应的下游数据库内。
优选的,上述数据存储单元中,基础数据仓库用于将一级结构化数据以关系型数据库、搜索引擎、图数据库中的一种或几种方式存储。
n个下游数据库中,n≥3,且下游数据库包括关系型数据库、搜索引擎、图数据库。
其中,上述数据采集单元包括规则开发模块、智能调度模块、采集监控模块。
规则开发模块具有一键采集功能,用于自动生成采集规则。
智能调度模块用于优化爬虫的调度频率和数量,实现数据采集时爬虫节点的调度。
采集监控模块内嵌有多种数据提取方法,用以实现采集并下载站点中指定的数据内容,获得非结构化数据文本或半结构化数据文本。
其中,上述数据处理单元用于接收并处理数据采集单元输出的非结构化数据文本或半结构化数据文本,形成一级结构化数据。
数据处理单元包括数据计算模块、文本抽取模块,数据计算模块用于根据任务量弹性分配计算资源并计算流式数据和批式数据,文本抽取模块用于从非结构化数据文本或半结构化数据文本中提取特征信息并输出一级结构化数据。
其中,上述产业知识图谱的构建系统还包括数据运营单元,数据运营单元包括智能审核模块和数据录入模块。
智能审核模块内嵌有识别模型,用于对数据存储单元内的一级结构化数据进行审核及修复。
数据录入模块用于手动录入数据,并存储至基础数据仓库内或领域数据仓库,实现数据的补充完善一级结构化数据或二级结构化数据。
第二方面,本发明提供了一种产业知识图谱的构建方法,应用于上述的构建系统构建产业知识图谱,包括以下步骤:
采集并获取非结构化数据文本或半结构化数据文本;
提取非结构化数据文本或半结构化数据文本中的信息,打上产业特定标签并输出一级结构化数据;
根据产业类型对一级结构化数据过滤,得到与产业相关的二级结构化数据,并存储至上游数据库内;
上游数据库内二级结构化数据实时同步至n个不同类型的下游数据库;
用户查询并调用下游数据库内的二级结构化数据。
本发明的提供的产业知识图谱的构建方法,可以实现上游数据库与n个下游数据库之间数据的实时同步,大大提高了数据的同步效率。
进一步的,上述上游数据库内二级结构化数据实时同步至若n个不同类型的下游数据库,包括以下步骤:
将存储在上游数据库内的二级结构化数据变更并写入二进制日志中;
数据上游事件生产者模拟上游数据库的交互协议,同步上游数据库内的二级结构化数据,并生成数据变更事件;
事件分发列队基于开源的消息队列,实现将数据变更事件发送给与数据下游事件消费者对应的列队;
将列队内的数据变更事件同步至与数据下游事件消费者对应的下游数据库。
进一步的,上述数据上游事件生产者模拟上游数据库的交互协议,同步上游数据库内的二级结构化数据,并生成数据变更事件,包括以下步骤:
数据上游事件生产者模拟上游数据库的交互协议,将自己伪装成上游数据库,并向上游数据库发送请求协议;
上游数据库接收请求协议,将写入二级结构化数据的二进制日志推送给数据上游事件生产者;
数据上游事件生产者解析二进制日志内的二级结构化数据,并实时生成数据变更事件。
进一步的,上述事件分发列队基于开源的消息队列,实现将数据变更事件发送给与数据下游事件消费者对应的列队,包括以下步骤:
消息交换机接收数据上游事件生产者发送的数据变更事件;
消息交换机依据路由关键字,将数据变更事件转发给与数据下游事件消费者匹配的列队;
列队接收并缓存数据变更事件,将数据变更事件发送给数据下游事件消费者;
数据下游事件消费者接收到数据变更事件后,将确认字符ACK发送至消息列队;
消息列队收到确认字符ACK后,删除缓存的数据变更事件。
第三方面,本发明还提供了一种存储介质,存储介质包括存储的程序,程序执行第二方面内的产业知识图谱的构建方法。
第四方面,本发明还提供了一种电子设备,电子设备包括处理器、以及与处理器连接的存储器、总线。处理器、存储器通过总线完成相互间的通信,处理器用于调用存储器中的程序指令,以执行第二方面内的产业知识图谱的构建方法。
与现有技术相比,本发明的有益效果是:
1.本发明设计的产业知识图谱的构建系统及构建方法,通过对数据存储单元进行设计,可以实现把上游数据库的结构化数据经数据同步模块实时同步到多个不同类型的下游数据库内,使得产业知识图谱可以支撑复杂的业务场景,并提供了稳定高效的数据存储与查询服务。
2.基础数据仓库内存储有很多一级结构化数据,通过在基础数据仓库和领域数据仓库之间设置的过滤模块,根据产业类型对一级结构化数据过滤,提取与产业相关的数据形成二级结构化数据至领域数据仓库内,使得数据下游事件消费者获得数据更加精准。
3.数据运营单元支持图谱数据的人工运营审核,通过智能审核模块能够快速发现问题,帮助完成快速数据审核和修复工作,在提升一级结构化数据或二级结构化数据质量的同时积累半监督学习标注数据,能够提升结构化数据文本抽取模型的准确性;同时,通过数据录入模块,能够将数据采集单元没有采集到的数据,通过手动方式录入到数据存储单元内,完善产业数据。
4.由于数据采集单元采集定向站点的指定内容,因此通过规则开发模块开发的一键采集功能,能够自动生成采集规则,节省后期规则开发的人力资源,提升开发工作的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明为了更清楚地说明本发明实施例或现有技术中的技术方案,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明产业知识图谱的构建系统的示意图;
图2为具体实施方式中同步模块架构图及二级结构化数据同步示意图;
图3为具体实施方式中基于RabbitMQ实现的事件分发队列架构图示意图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
在本实施例的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明创造的限制。
此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
第一方面,本具体实施方式提供了一种产业知识图谱的构建系统,如图1所示,包括数据采集单元、数据处理单元、数据存储单元、数据应用单元。
其中,如图1所示,数据采集单元的主要功能是定向监控并采集海量站点上指定发布的内容,包括规则开发模块、智能调度模块、采集监控模块。
规则开发模块用于自动生成采集规则,由于产业知识图片的构建是从定向站点指定内容采集,所以为了节省后期规则开发的人力资源,提升开发工作的效率,使规则开发模块具有一键采集功能。
采集监控模块主要负责站点的指定数据内容的采集下载,为支持对数据以多种方式进行提取,实现灵活精准地定位目标内容。优选在采集监控模块内嵌有多种数据提取方法,例如,在采集监控模块内内嵌有关键词截取、正则表达式、XPath等提取方法,实现采集并下载站点中指定的数据内容,获得非结构化数据文本或半结构化数据文本。
为保证了资源的弹性扩展又满足了实时监控需求,在数据采集单元内设置智能调度模块,使其负责爬虫节点的调度工作,优化爬虫的调度频率和数量,实现基于海量监控场景下数据采集时爬虫节点的调度。
其中,如图1所示,数据处理单元用于接收数据采集单元输出的非结构化数据文本或半结构化数据文本,从非结构化数据或半结构化数据内提取特征信息,形成一级结构化数据,以支持大规模数据提取工作,包括数据计算模块、文本抽取模块。
数据计算模块用于根据任务量弹性分配计算资源,支持计算流式数据和批式数据。
文本抽取模块主要从非结构化数据文本或半结构化数据文本中提取特征信息并输出一级结构化数据,其给一级结构化数据上打上特定的标签以,完成标签工程。
其中,数据存储单元支持图谱数据以多种方式进行存储,包括关系型数据库,搜索引擎及图数据库,以支撑上层应用的灵活调用。如图1所示,数据存储单元包括基础数据仓库、过滤模块、领域数据仓库。
基础数据仓库是基础数据存储的主要场所,产业中各种数据都可以存储在基础数据仓库内,其存储节点可弹性扩展。基础数据仓库用于存储数据处理单元输出的一级结构化数据,且将结构化数据以关系型数据库、搜索引擎、图数据库中的一种或多种方式存储。
过滤模块用于根据产业类型对一级结构化数据过滤,将与产业类型相关的二级结构化数据发送至领域数据仓库。
领域数据仓库用于依据接收的二级结构化数据形成并输出数据变更事件。领域数据仓库内设有上游数据库、数据同步模块、n个不同类型的下游数据库,上游数据库接收二级结构化数据,并经数据同步模块镜像复制至各下游数据库内,领域数据仓库融合了平台运营数据的领域数据存储的主要场所。
如图1所示,本具体实施方式的领域数据仓库中设有上游数据库、数据同步模块、n个不同类型的下游数据库。数据同步模块(也可称之为横向架构单元)将二级结构化数据镜像复制至不同类型的下游数据库内,实现了存储在不同介质中数据上游向数据下游的实时同步。下游数据库中,n≥3,即领域数据仓库至少有3个不同类型的下游数据库。在本具体实施方式中,至少包括关系型数据库、搜索引擎、图数据库3种类型的下游数据库。上游数据库接收二级结构化数据,并经数据同步模块镜像复制至各下游数据库内。
具体的,如图2所示,上述数据同步模块包括数据上游事件生产者、事件分发列队、数据下游事件消费者三部分,数据上游生产者用于接收二级结构化数据,解析并实时生成数据变更事件,将数据变更事件推送给事件分发列队;事件分发列队基于开源的消息队列,实现将数据变更事件发送给与数据下游事件消费者对应的列队;数据下游事件消费者接收数据变更事件,并将数据变更事件同步至与其对应的下游数据库内。
其中,如图1所示,上述数据应用单元为数据应用的出口,一般以数据接口方式进行输出。数据应用单元内设有数据查询模块,本实例通过自创的查询语法,封装数据存储细节,提供Restful和GraphQL等查询方式。
更优的,如图1所示,上述产业知识图谱的构建系统还包括数据运营单元,数据运营单元包括智能审核模块和数据录入模块。智能审核模块内嵌有识别模型,用于对数据存储单元内的一级结构化数据进行审核及修复。数据录入模块用于手动录入数据,并存储至基础数据仓库内或领域数据仓库,实现数据的补充完善一级结构化数据或二级结构化数据。
通过设计产业知识图谱的构建系统,通过在数据存储单元的基础数据仓库内设置数据同步模块,可以把上游数据库的结构化数据实时同步到多个不同类型的下游数据库内,使得产业知识图谱可以支撑复杂的业务场景,并提供了稳定高效的数据存储与查询服务。
第二方面,本发明提供了一种产业知识图谱的构建方法,应用于上述的构建系统构建产业知识图谱,包括以下步骤:
S1、采集并获取非结构化数据文本或半结构化数据文本。
S2、提取非结构化数据文本或半结构化数据文本中的信息,打上产业特定标签并输出一级结构化数据。
S3、根据产业类型对一级结构化数据过滤,得到与产业相关的二级结构化数据,并存储至上游数据库内。
S4、上游数据库内二级结构化数据实时同步至n个不同类型的下游数据库,包括以下步骤:
S41、将存储在上游数据库内的二级结构化数据变更并写入二进制日志中;
S42、数据上游事件生产者模拟上游数据库的交互协议,同步上游数据库内的二级结构化数据,并生成数据变更事件,如图2所示,包括以下步骤:
S421、数据上游事件生产者模拟上游数据库的交互协议,将自己伪装成上游数据库,并向上游数据库发送请求协议;
S422、上游数据库接收请求协议,将写入二级结构化数据的二进制日志推送给数据上游事件生产者;
S423、数据上游事件生产者解析二进制日志内的二级结构化数据,并实时生成数据变更事件。
S43、事件分发列队基于开源的消息队列,实现将数据变更事件发送给与数据下游事件消费者对应的列队,如图3所示,包括以下步骤:
S431、消息交换机接收数据上游事件生产者发送的数据变更事件;
S432、消息交换机依据路由关键字,将数据变更事件转发给与数据下游事件消费者匹配的列队;
S433、列队接收并缓存数据变更事件,将数据变更事件发送给数据下游事件消费者;
S434、数据下游事件消费者接收到数据变更事件后,将确认字符ACK发送至消息列队;
S435、消息列队收到确认字符ACK后,删除缓存的数据变更事件。
S44、将列队内的数据变更事件同步至与数据下游事件消费者对应的下游数据库。
S5、用户查询并调用下游数据库内的二级结构化数据。
以下通过具体的实例对上述软件产业的知识图谱构建方法进行说明。
第一步,数据采集单元采集并获取软件产业的非结构化数据文本或半结构化数据文本,并将非结构化数据文本或半结构化数据文本发送至数据处理单元。
其中规则开发模块自动生成数据采集规则;采集监控模块根据数据采集规则,嵌入关键词截取、正则表达式、XPath等提取方法采集数据;智能调度模块基于监控场景,优化爬虫的调度频率和数量。在本步骤中,由于数据的采集方法、爬虫的调度方法均是采用现有已公开的方法,因此,在此不再进行赘述。
第二步,数据处理单元对接收的软件产业的非结构化数据文本或半结构化数据文本进行处理。
采用文本抽取模块提取非结构化数据文本或半结构化数据文本中的信息,打上特定标签形成并输出结构化数据文本。同时,在信息提取过程中,通过数据计算模块计算数据处理任务的调度,实现资源的合理分配。在本步骤中,由于文本信息的提取、处理任务的调度均是采用现有已公开的方法,因此,在此不再进行赘述。
第三步,数据存储单元中数据过滤模块根据软件产业的类型,对一级结构化数据过滤,将一级结构化数据中与软件产业关联性大的数据提取后形成二级结构化数据,并存储至领域数据仓库的上游数据库内,经数据同步模块实现数据上游至数据下游的同步(镜像复制)。数据同步模块包括数据上游事件生产者(以下简称生产者)、事件分发列队、数据下游事件消费者(以下简称消费者)三部分。
例如,在软件产业知识图谱的构建过程中,存储在基础数据仓库内的一级结构化数据,包括企业工商信息、企业官网、认证资质、风险和费用、标讯数据、国民经济分类等的企业基本信息数据;包括产品品目、服务领域、产品/方案、成功案例等的企业产品能力数据;包括高端人才占比、人才结构占比、高学历人才占比、证书、年龄层级、学习与成长维度、性别占比等的企业人才能力数据;包括客户类型、服务区域等的企业市场能力数据;包括前沿技术能力等的企业前沿技术能力数据等数据。
在软件产业图谱构建时,由于有些数据与软件产业的关联性小,因此经过过滤模块对其进行截留,只将与企业基本信息、企业产品能力、企业人才能力、企业市场能力、企业前沿技术能力等相关的数据提取后形成二级结构化数据。
本实例中,如图2及图3所示,上游数据库以关系型数据库MySQL,配置生产者连接MySQL数据库Master;下游数据库以基于MySQL实现的关系型数据库(下游数据库A)、基于Neo4j实现的图数据库(下游数据库B)、基于Elasticsearch实现的搜索引擎(下游数据库C)三个类型;配置消费者A、消费者B、消费者C分别连接下游数据库A、下游数据库B、下游数据库C;消费者A、消费者B、消费者C分别创建各自的队列(队列A、队列B和队列C);配置消息交换机采用直接交换模式(direct exchange),消息交换机中各队列的路由关键字就是队列的名字(队列A、队列B、队列C),并绑定消息交换机。
以下对数据上游至数据下游的同步过程进行说明,如图2及图3所示:
(1).存储在上游数据库内的二级结构化数据变更并写入二进制日志中;如图2所示,生产者模拟MySQL slave的交互协议,把自己伪装为MySQLslave,向MySQL master发送dump协议生产者向Master发送dump请求协议;
(2).如图2所示,MySQL master收到dump请求协议后,将含有二级结构化数据的二进制日志bin log推送给生产者。
(3).如图3所示,生产者解析bin log,生成数据变更事件,并将数据变更事件作为消息(message)推送给RabbitMQ消息交换机(此时,如果变更的数据为关系型,则路由关键字设为队列A;如果变更的数据为图,则路由关键字设为队列B;如果变更的数据为索引,则路由关键字设为队列C),消息交换机根据消息(message)中的路由关键字(Routing Key),发送至对应的队列,例如,路由关键字为队列A,消息就发送至队列A,队列A将消息发送至消费者A。
(4).消费者(A或B或C)收到消息,发送ACK给对应的队列(Queue)。队列收到ACK,删除消息。此时,如果消费者因为某些原因没有发送ACK给队列,队列会停止发送消息给消费者。
如果是消费者A收到消息,则根据消息解析该变更事件的具体操作,例如,如果是增加数据,调用insert语句操作下游数据库A;如果是删除数据,调用delete语句操作下游数据库A;如果是修改数据,调用update语句操作下游数据库A,这样下游数据库A的数据同步完成。
如果是消费者B收到消息,则根据消息解析该变更事件的具体操作,例如,如果录入是增加数据,调用create语句操作下游数据库B;如果是删除数据,调用delete语句操作下游数据库B;如果是修改数据,调用set语句操作下游数据库B,这样下游数据库B的数据同步完成。
如果是消费者C收到消息,则根据消息解析该变更事件的具体操作,例如,如果是增加数据,调用PUT语句操作下游数据库C;如果是删除数据,调用DELETE语句操作下游数据库C;如果是修改数据,调用POST语句操作下游数据库C,这样下游数据库C的数据同步完成。
在本步骤中,当产业知识图谱的构建系统中设有数据运营单元时,数据运营单元还要为数据存储单元提供审核功能及数据补充完善功能,即支持图谱数据的人工运营审核,在提升数据质量的同时积累半监督学习标注数据,用于提升文本抽取模型的准确性,具体的,数据运营单元的智能审核模块通过嵌入的识别模型能够快速发现提取问题,帮助完成快速数据审核和修复工作。数据录入模块用于手动录入数据,并存储至基础数据仓库内或领域数据仓库,实现数据的补充完善一级结构化数据或二级结构化数据。
第四步,上游数据库Master至任一个下游数据库的数据实现了实时同步后,数据应用单元开放接口给用户调用领域数据仓库。其中数据应用单元内的数据查询模块参考SQL、DSL、Cypher等常用查询语句的语法规则,抽象了其中的核心部分,简化了语法,便于用户灵活查询。
第三方面,本发明还提供了一种存储介质,存储介质包括存储的程序,程序执行第二方面内的产业知识图谱的构建方法。
第四方面,本发明还提供了一种电子设备,电子设备包括处理器、以及与处理器连接的存储器、总线。处理器、存储器通过总线完成相互间的通信,处理器用于调用存储器中的程序指令,以执行第二方面内的产业知识图谱的构建方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.一种产业知识图谱的构建系统,包括数据采集单元、数据处理单元、数据存储单元、数据应用单元,其特征在于:所述数据存储单元包括基础数据仓库、过滤模块、领域数据仓库;
所述基础数据仓库用于存储所述数据处理单元输出的一级结构化数据;
所述过滤模块用于根据产业类型对一级结构化数据过滤,将与产业类型相关的二级结构化数据发送至所述领域数据仓库;
所述领域数据仓库依据接收的二级结构化数据形成并输出数据变更事件;所述领域数据仓库内设有上游数据库、数据同步模块、n个不同类型的下游数据库,所述上游数据库接收二级结构化数据,并经所述数据同步模块镜像复制至各下游数据库内。
2.根据权利要求1所述的构建系统,其特征在于:所述数据同步模块包括数据上游事件生产者、事件分发列队、数据下游事件消费者;
所述数据上游生产者用于接收二级结构化数据,解析并实时生成数据变更事件,将数据变更事件推送给所述事件分发列队;
所述事件分发列队基于开源的消息队列,实现将数据变更事件发送给与数据下游事件消费者对应的列队;
所述数据下游事件消费者接收数据变更事件,并将数据变更事件同步至与其对应的下游数据库内。
3.根据权利要求2所述的构建系统,其特征在于:所述基础数据仓库用于将一级结构化数据以关系型数据库、搜索引擎、图数据库中的一种或几种方式存储;
n个所述下游数据库中,n≥3,所述下游数据库包括关系型数据库、搜索引擎、图数据库。
4.根据权利要求1所述的构建系统,其特征在于:所述数据采集单元包括规则开发模块、智能调度模块、采集监控模块;
所述规则开发模块具有一键采集功能,用于自动生成采集规则;
所述智能调度模块用于优化爬虫的调度频率和数量,实现数据采集时爬虫节点的调度;
所述采集监控模块内嵌有多种数据提取方法,用以实现采集并下载站点中指定的数据内容,获得非结构化数据文本或半结构化数据文本。
5.根据权利要求1所述的构建系统,其特征在于:所述数据处理单元用于接收并处理所述数据采集单元输出的非结构化数据文本或半结构化数据文本,形成一级结构化数据;
所述数据处理单元包括数据计算模块、文本抽取模块,所述数据计算模块用于根据任务量弹性分配计算资源并计算流式数据和批式数据,所述文本抽取模块用于从非结构化数据文本或半结构化数据文本中提取特征信息并输出一级结构化数据。
6.根据权利要求1~5任一项所述的构建系统,其特征在于:产业知识图谱的构建系统还包括数据运营单元,所述数据运营单元包括智能审核模块和数据录入模块;
所述智能审核模块内嵌有识别模型,用于对所述数据存储单元内的一级结构化数据进行审核及修复;
所述数据录入模块用于手动录入数据,并存储至所述基础数据仓库或所述领域数据仓库内。
7.一种产业知识图谱的构建方法,应用于权利要求1~6任一项所述的构建系统构建产业知识图谱,其特征在于:包括以下步骤:
采集并获取非结构化数据文本或半结构化数据文本;
提取非结构化数据文本或半结构化数据文本中的信息,打上产业特定标签并输出一级结构化数据;
根据产业类型对一级结构化数据过滤,得到与产业相关的二级结构化数据,并存储至上游数据库内;
上游数据库内二级结构化数据实时同步至n个不同类型的下游数据库;
用户查询并调用下游数据库内的二级结构化数据。
8.根据权利要求7所述的产业知识图谱的构建方法,其特征在于:上游数据库内二级结构化数据实时同步至n个不同类型的下游数据库,包括以下步骤:
将存储在上游数据库内的二级结构化数据变更并写入二进制日志中;
数据上游事件生产者模拟上游数据库的交互协议,同步上游数据库内的二级结构化数据,并生成数据变更事件;
事件分发列队基于开源的消息队列,实现将数据变更事件发送给与数据下游事件消费者对应的列队;
将列队内的数据变更事件同步至与数据下游事件消费者对应的下游数据库。
9.根据权利要求8所述的产业知识图谱的构建方法,其特征在于:数据上游事件生产者模拟上游数据库的交互协议,同步上游数据库内的二级结构化数据,并生成数据变更事件,包括以下步骤:
数据上游事件生产者模拟上游数据库的交互协议,将自己伪装成上游数据库,并向上游数据库发送请求协议;
上游数据库接收请求协议,将写入二级结构化数据的二进制日志推送给数据上游事件生产者;
数据上游事件生产者解析二进制日志内的二级结构化数据,并实时生成数据变更事件。
10.根据权利要求8所述的产业知识图谱的构建方法,其特征在于:事件分发列队基于开源的消息队列,实现将数据变更事件发送给与数据下游事件消费者对应的列队,包括以下步骤:
消息交换机接收数据上游事件生产者发送的数据变更事件;
消息交换机依据路由关键字,将数据变更事件转发给与数据下游事件消费者匹配的列队;
列队接收并缓存数据变更事件,将数据变更事件发送给数据下游事件消费者;
数据下游事件消费者接收到数据变更事件后,将确认字符ACK发送至消息列队;
消息列队收到确认字符ACK后,删除缓存的数据变更事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722540.0A CN113468340B (zh) | 2021-06-28 | 2021-06-28 | 一种产业知识图谱的构建系统及构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722540.0A CN113468340B (zh) | 2021-06-28 | 2021-06-28 | 一种产业知识图谱的构建系统及构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468340A true CN113468340A (zh) | 2021-10-01 |
CN113468340B CN113468340B (zh) | 2024-05-07 |
Family
ID=77873440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110722540.0A Active CN113468340B (zh) | 2021-06-28 | 2021-06-28 | 一种产业知识图谱的构建系统及构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468340B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028651A (zh) * | 2023-03-28 | 2023-04-28 | 南京万得资讯科技有限公司 | 一种支持本体和数据增量更新的知识图谱构建系统及方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
US20180218066A1 (en) * | 2017-01-31 | 2018-08-02 | Unifi Software, Inc. | Method and system for information retreival |
CN108520073A (zh) * | 2018-04-13 | 2018-09-11 | 深圳壹账通智能科技有限公司 | 风控数据整合方法、装置、设备及计算机可读存储介质 |
CN111241177A (zh) * | 2019-12-31 | 2020-06-05 | 中国联合网络通信集团有限公司 | 数据采集方法、系统及网络设备 |
CN111581398A (zh) * | 2020-05-13 | 2020-08-25 | 河南八六三软件股份有限公司 | 一种构建知识图谱的方法 |
CN111708895A (zh) * | 2020-05-28 | 2020-09-25 | 北京赛博云睿智能科技有限公司 | 一种知识图谱系统的构建方法及装置 |
CN112000748A (zh) * | 2020-07-14 | 2020-11-27 | 北京神州泰岳智能数据技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112035449A (zh) * | 2020-07-22 | 2020-12-04 | 大箴(杭州)科技有限公司 | 数据处理方法及装置、计算机设备、存储介质 |
CN112214611A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种企业知识图谱的构建系统和方法 |
CN112395410A (zh) * | 2021-01-13 | 2021-02-23 | 北京智源人工智能研究院 | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 |
CN112699251A (zh) * | 2021-03-23 | 2021-04-23 | 中国信息通信研究院 | 数据聚合方法、装置、电子设备及存储介质 |
CN112990575A (zh) * | 2021-03-17 | 2021-06-18 | 北京思睿云智信息科技有限公司 | 基于知识图谱的产业发展路径预测方法及其装置 |
-
2021
- 2021-06-28 CN CN202110722540.0A patent/CN113468340B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
US20180218066A1 (en) * | 2017-01-31 | 2018-08-02 | Unifi Software, Inc. | Method and system for information retreival |
CN108520073A (zh) * | 2018-04-13 | 2018-09-11 | 深圳壹账通智能科技有限公司 | 风控数据整合方法、装置、设备及计算机可读存储介质 |
CN111241177A (zh) * | 2019-12-31 | 2020-06-05 | 中国联合网络通信集团有限公司 | 数据采集方法、系统及网络设备 |
CN111581398A (zh) * | 2020-05-13 | 2020-08-25 | 河南八六三软件股份有限公司 | 一种构建知识图谱的方法 |
CN111708895A (zh) * | 2020-05-28 | 2020-09-25 | 北京赛博云睿智能科技有限公司 | 一种知识图谱系统的构建方法及装置 |
CN112000748A (zh) * | 2020-07-14 | 2020-11-27 | 北京神州泰岳智能数据技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112035449A (zh) * | 2020-07-22 | 2020-12-04 | 大箴(杭州)科技有限公司 | 数据处理方法及装置、计算机设备、存储介质 |
CN112214611A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种企业知识图谱的构建系统和方法 |
CN112395410A (zh) * | 2021-01-13 | 2021-02-23 | 北京智源人工智能研究院 | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 |
CN112990575A (zh) * | 2021-03-17 | 2021-06-18 | 北京思睿云智信息科技有限公司 | 基于知识图谱的产业发展路径预测方法及其装置 |
CN112699251A (zh) * | 2021-03-23 | 2021-04-23 | 中国信息通信研究院 | 数据聚合方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
宋伟;张游杰;: "基于环境信息融合的知识图谱构建方法", 计算机系统应用, no. 06, 15 June 2020 (2020-06-15) * |
张肃;许慧;: "基于知识图谱的企业知识服务模型构建研究", 情报科学, no. 08, 31 July 2020 (2020-07-31) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028651A (zh) * | 2023-03-28 | 2023-04-28 | 南京万得资讯科技有限公司 | 一种支持本体和数据增量更新的知识图谱构建系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113468340B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107819824B (zh) | 一种城市数据开放与信息服务系统及服务方法 | |
CN105138661B (zh) | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 | |
CN110941612B (zh) | 基于关联数据的自治数据湖构建系统及方法 | |
CN106934014B (zh) | 一种基于Hadoop的网络数据挖掘与分析平台及其方法 | |
CN102426609B (zh) | 一种基于MapReduce编程架构的索引生成方法和装置 | |
CN103631882B (zh) | 基于图挖掘技术的语义化业务生成系统和方法 | |
CN109710703A (zh) | 一种血缘关系网络的生成方法及装置 | |
EP2874077A2 (en) | Stateless database cache | |
CN107103064B (zh) | 数据统计方法及装置 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
CN103279543B (zh) | 海量图数据上的路径模式查询系统 | |
CN105787058B (zh) | 一种用户标签系统及基于用户标签系统的数据推送系统 | |
CN102999563A (zh) | 基于资源描述框架的网络资源语义检索方法及系统 | |
CN103279546B (zh) | 图数据查询方法 | |
CN111813956A (zh) | 知识图谱构建方法、装置、信息穿透方法和系统 | |
CN109815254A (zh) | 基于大数据的跨地域任务调度方法及系统 | |
CN107169862B (zh) | 一种银行不良客户存款自动追踪系统 | |
CN109783484A (zh) | 基于知识图谱的数据服务平台的构建方法及系统 | |
CN110659283A (zh) | 数据标签处理方法、装置、计算机设备及存储介质 | |
CN111143468B (zh) | 基于mpp分布式技术的多数据库数据管理方法 | |
CN114661832A (zh) | 一种基于数据质量的多模态异构数据存储方法及系统 | |
CN102945270B (zh) | 并行化分布式网络舆情数据管理方法及系统 | |
CN110198327A (zh) | 一种数据传输方法及相关设备 | |
CN113468340B (zh) | 一种产业知识图谱的构建系统及构建方法 | |
CN112150042A (zh) | 一种基于“微应用微服务”架构的规划评审管理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |