CN113779312A - 一种基于知识图谱的非结构化电网数据处理方法及装置 - Google Patents
一种基于知识图谱的非结构化电网数据处理方法及装置 Download PDFInfo
- Publication number
- CN113779312A CN113779312A CN202111075577.5A CN202111075577A CN113779312A CN 113779312 A CN113779312 A CN 113779312A CN 202111075577 A CN202111075577 A CN 202111075577A CN 113779312 A CN113779312 A CN 113779312A
- Authority
- CN
- China
- Prior art keywords
- data
- unstructured
- module
- processing
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000004140 cleaning Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000007405 data analysis Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 7
- 231100000279 safety data Toxicity 0.000 claims description 5
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
- G06F16/8365—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
- G06F16/8373—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的非结构化电网数据处理方法及装置,涉及知识图谱领域,针对现有的非结构化电网数据的处理方法处理效果差,存在查询效果慢的问题,现提出如下方案,其包括以下步骤:S1、先将非结构化数据进行导出,并进行初步的数据检索,S2、将检索出的数据进行清洗,S3、将清洗后的数据进行进一步的分析转换,使非结构化数据转换成可以识别的结构化数据,S4、将初始数据库中数据导出,并进行整合,S5、将整合后的数据与转换的结构化数据进行相似度对比,S6、对转换对比后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除。本发明结构简单,使用方便,提高了非结构化数据的处理效果,提高查询效率。
Description
技术领域
本发明涉及知识图谱领域,尤其涉及一种基于知识图谱的非结构化电网数据处理方法及装置。
背景技术
非结构化数据是一种数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,广泛存在与计算机的数据库中,非结构化数据的数量远远大于结构化数据,非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解,非结构化数据的提取与检索都十分困难,需要对非结构化数据进行处理,但现有非结构化电网数据的处理方法处理效果差,存在查询效果慢的问题,因此,为了解决此类问题,我们提出了一种基于知识图谱的非结构化电网数据处理方法及装置。
发明内容
本发明提出的一种基于知识图谱的非结构化电网数据处理方法及装置,解决了现有的非结构化电网数据的处理方法处理效果差,存在查询效果慢的问题。
为了实现上述目的,本发明采用了如下技术方案:
一种基于知识图谱的非结构化电网数据处理方法,包括以下步骤:
S1、先将非结构化数据进行导出,并进行初步的数据检索;
S2、将检索出的数据进行清洗;
S3、将清洗后的数据进行进一步的分析转换,使非结构化数据转换成可以识别的结构化数据;
S4、将初始数据库中数据导出,并进行整合;
S5、将整合后的数据与转换的结构化数据进行相似度对比;
S6、对转换对比后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除;
S7、对处理后的数据进行数据分类,并上传到成品数据库中,通过云存储平台进行备份储存。
优选的,所述非结构化数据库中包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等。
优选的,所述S7中的数据分类包括法规数据、合同数据、以及安全数据,并将分类后的数据进行统一整合。
优选的,所述S3与S4为并列步骤,可同步进行。
一种基于知识图谱的非结构化电网数据处理装置,包括以下:
非结构化数据库,用于储存原始的非结构化数据,并通过适配器将非结构化数据导出,所述非结构化数据库与数据检索模块相连;
数据检索模块,用于对非结构化数据库中的非结构化数据进行检索收集,所述数据检索模块与数据清洗模块连接;
数据清洗模块,用于将数据检索模块检索出的数据进行清洗整理,所述数据清洗模块与数据分析引擎连接;
数据分析引擎,用于对数据清洗模块清洗整理后的数据进行分析,所述数据分析引擎与数据转换器连接;
数据转换器,用于对非结构化数据中的非数值数据转换为数值数据,将非结构化数据转换为结构化数据,所述数据转换器与相似度计算模块连接;
初始数据库,用于储存现有资料中的结构化数据,所述初始数据库与数据整合模块相连;
数据整合模块,用于对初始数据库中的数据进行整合,所述数据整合模块与相似度计算模块相连接;
相似度计算模块,用于将转换后的数据与初始数据库中整合后的结构化数据进行相似度对比以及相似度计算,并进行数据提取,所述相似度计算模块与数据分类模块和数据处理模块相连接。
优选的,一种基于知识图谱的非结构化电网数据处理装置,还包括:
所述数据分类模块用于对数据进行分类,所述数据分类模块与成品数据库连接;
成品数据库,用于储存分类后的数据,所述成品数据库与云存储平台连接;
云储存平台,用于对成品数据库中的数据文件进行备份。
优选的,所述数据检索模块包括翻译器、优化器以及执行器;
所述翻译器,用于翻译查询请求并生成查询表达式;
所述优化器,用于优化查询表达式,得到优化过的查询计划;
所述执行器,用于选择最优的查询计划执行,得到查询结果。
优选的,,所述数据分类模块包括对电网数据中的法规数据、合同数据以及安全数据等数据的分类与整合。
优选的,所述数据处理模块,用于对进行过相似度计算后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除。
本发明的有益效果为:
通过将电网非结构化数据进行清洗,对非结构化数据进行剔除,使数据检索的准确性提高,同时通过相似度对比,提取出最符合要求的数据,减小搜索误差,提高对非结构化数据的处理效率,同时对处理后的非结构化数据进行分类,对电网数据进行整理,方便后续数据的提取与使用。
综上所述,该发明结构简单,使用方便,提高了非结构化数据的处理效果,提高查询效率,解决了现有的非结构化电网数据的处理方法处理效果差,存在查询效果慢的问题。
附图说明
图1为本发明所述的一种基于循环神经网络的知识图谱构建方法创建方法流程图。
图2为本发明所述的一种基于循环神经网络的知识图谱构建装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
参照图1所示,一种基于知识图谱的非结构化电网数据处理方法,包括以下步骤:
S1、先将非结构化数据进行导出,并进行初步的数据检索;
S2、将检索出的数据进行清洗;
S3、将清洗后的数据进行进一步的分析转换,使非结构化数据转换成可以识别的结构化数据;
S4、将初始数据库中数据导出,并进行整合;
S5、将整合后的数据与转换的结构化数据进行相似度对比;
S6、对转换对比后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除;
S7、对处理后的数据进行数据分类,并上传到成品数据库中,通过云存储平台进行备份储存。
所述非结构化数据库中包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等。
所述S7中的数据分类包括法规数据、合同数据、以及安全数据,并将分类后的数据进行统一整合。
所述S3与S4为并列步骤,可同步进行。
实施例2
参照图2所示,一种基于知识图谱的非结构化电网数据处理装置,包括以下:
非结构化数据库,用于储存原始的非结构化数据,并通过适配器将非结构化数据导出,所述非结构化数据库与数据检索模块相连;
数据检索模块,用于对非结构化数据库中的非结构化数据进行检索收集,所述数据检索模块与数据清洗模块连接;所述数据检索模块包括翻译器、优化器以及执行器;
所述翻译器,用于翻译查询请求并生成查询表达式;
所述优化器,用于优化查询表达式,得到优化过的查询计划;
所述执行器,用于选择最优的查询计划执行,得到查询结果;
数据清洗模块,用于将数据检索模块检索出的数据进行清洗整理,所述数据清洗模块与数据分析引擎连接;
数据分析引擎,用于对数据清洗模块清洗整理后的数据进行分析,所述数据分析引擎与数据转换器连接;
数据转换器,用于对非结构化数据中的非数值数据转换为数值数据,将非结构化数据转换为结构化数据,所述数据转换器与相似度计算模块连接;
初始数据库,用于储存现有资料中的结构化数据,所述初始数据库与数据整合模块相连;
数据整合模块,用于对初始数据库中的数据进行整合,所述数据整合模块与相似度计算模块相连接;
相似度计算模块,用于将转换后的数据与初始数据库中整合后的结构化数据进行相似度对比以及相似度计算,并进行数据提取,所述相似度计算模块与数据分类模块和数据处理模块相连接,所述数据分类模块用于对数据进行分类,所述数据分类模块与成品数据库连接;成品数据库,用于储存分类后的数据,所述成品数据库与云存储平台连接;云储存平台,用于对成品数据库中的数据文件进行备份。
所述数据分类模块包括对电网数据中的法规数据、合同数据以及安全数据等数据的分类与整合。
所述数据处理模块,用于对进行过相似度计算后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除。
本发明在具体使用过程中,先通过适配器将非结构化数据库中的非结构化电网数据导出,然后通过翻译器翻译查询请求并生成查询表达式,然后通过优化器优化查询表达式,得到优化过的查询计划,然后通过执行器,用于选择最优的查询计划执行,得到查询结果,从而对非结构化数据库中的非结构化数据进行检索收集,然后通过数据清洗模块将数据检索模块检索出的数据进行清洗整理,并将清洗整理后的数据通过数据分析引擎进行分析,然后通过数据转换器对非结构化数据中的非数值数据转换为数值数据,将非结构化数据转换为结构化数据,通过将初始数据库中的结构化数据进行导出并整合,然后通过相似度计算模块用于将转换后的数据与初始数据库中整合后的结构化数据进行相似度对比以及相似度计算,并进行数据提取,然后通过数据处理模块对进行过相似度计算后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除,同时将提取后的数据通过数据分类模块用于对数据进行分类,分类完毕后通过成品数据库储存分类后的数据,并通过云储存平台对成品数据库中的数据文件进行备份即可。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于知识图谱的非结构化电网数据处理方法,其特征在于,包括以下步骤:
S1、先将非结构化数据进行导出,并进行初步的数据检索;
S2、将检索出的数据进行清洗;
S3、将清洗后的数据进行进一步的分析转换,使非结构化数据转换成可以识别的结构化数据;
S4、将初始数据库中数据导出,并进行整合;
S5、将整合后的数据与转换的结构化数据进行相似度对比;
S6、对转换对比后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除;
S7、对处理后的数据进行数据分类,并上传到成品数据库中,通过云存储平台进行备份储存。
2.根据权利要求1所述的一种基于知识图谱的非结构化电网数据处理方法,其特征在于,所述非结构化数据库中包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频、视频信息。
3.根据权利要求1所述的一种基于知识图谱的非结构化电网数据处理方法,其特征在于,所述S7中的数据分类包括法规数据、合同数据、以及安全数据,并将分类后的数据进行统一整合。
4.根据权利要求1所述的一种基于知识图谱的非结构化电网数据处理方法,其特征在于,所述S3与S4为并列步骤,可同步进行。
5.一种基于知识图谱的非结构化电网数据处理装置,其特征在于,应用于上述权利要求1-4任一项所述的基于知识图谱的非结构化电网数据处理方法,包括以下:
非结构化数据库,用于储存原始的非结构化数据,并通过适配器将非结构化数据导出,所述非结构化数据库与数据检索模块相连;
数据检索模块,用于对非结构化数据库中的非结构化数据进行检索收集,所述数据检索模块与数据清洗模块连接;
数据清洗模块,用于将数据检索模块检索出的数据进行清洗整理,所述数据清洗模块与数据分析引擎连接;
数据分析引擎,用于对数据清洗模块清洗整理后的数据进行分析,所述数据分析引擎与数据转换器连接;
数据转换器,用于对非结构化数据中的非数值数据转换为数值数据,将非结构化数据转换为结构化数据,所述数据转换器与相似度计算模块连接;
初始数据库,用于储存现有资料中的结构化数据,所述初始数据库与数据整合模块相连;
数据整合模块,用于对初始数据库中的数据进行整合,所述数据整合模块与相似度计算模块相连接;
相似度计算模块,用于将转换后的数据与初始数据库中整合后的结构化数据进行相似度对比以及相似度计算,并进行数据提取,所述相似度计算模块与数据分类模块和数据处理模块相连接。
6.根据权利要求5所述的一种基于知识图谱的非结构化电网数据处理装置,其特征在于,还包括:
所述数据分类模块用于对数据进行分类,所述数据分类模块与成品数据库连接。
7.根据权利要6所述的一种基于知识图谱的非结构化电网数据处理装置,其特征在于,所述成品数据库,用于储存分类后的数据,所述成品数据库与云存储平台连接;
云储存平台,用于对成品数据库中的数据文件进行备份。
8.根据权利要求5所述的一种基于知识图谱的非结构化电网数据处理装置,其特征在于,所述数据检索模块包括翻译器、优化器以及执行器;
所述翻译器,用于翻译查询请求并生成查询表达式;
所述优化器,用于优化查询表达式,得到优化过的查询计划;
所述执行器,用于选择最优的查询计划执行,得到查询结果。
9.根据权利要求5所述的一种基于知识图谱的非结构化电网数据处理方法及装置,其特征在于,所述数据分类模块包括对电网数据中的法规数据、合同数据以及安全数据的分类与整合。
10.根据权利要求5所述的一种基于知识图谱的非结构化电网数据处理方法及装置,其特征在于,所述数据处理模块,用于对进行过相似度计算后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111075577.5A CN113779312B (zh) | 2021-09-14 | 2021-09-14 | 一种基于知识图谱的非结构化电网数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111075577.5A CN113779312B (zh) | 2021-09-14 | 2021-09-14 | 一种基于知识图谱的非结构化电网数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779312A true CN113779312A (zh) | 2021-12-10 |
CN113779312B CN113779312B (zh) | 2024-05-31 |
Family
ID=78843687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111075577.5A Active CN113779312B (zh) | 2021-09-14 | 2021-09-14 | 一种基于知识图谱的非结构化电网数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779312B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383290A (zh) * | 2023-03-22 | 2023-07-04 | 中国华能集团有限公司北京招标分公司 | 一种数据泛化解析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446296A (zh) * | 2018-09-10 | 2019-03-08 | 上海勋立信息科技有限公司 | 一种海量非结构化数据处理方法和装置 |
CN111723215A (zh) * | 2020-06-19 | 2020-09-29 | 国家计算机网络与信息安全管理中心 | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 |
CN112463926A (zh) * | 2020-12-07 | 2021-03-09 | 广东电网有限责任公司佛山供电局 | 一种数据检索/智能问答方法、装置、存储介质 |
CN113205186A (zh) * | 2021-05-31 | 2021-08-03 | 深圳供电局有限公司 | 一种二次设备巡检知识图谱架构及二次设备智能巡检方法 |
-
2021
- 2021-09-14 CN CN202111075577.5A patent/CN113779312B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446296A (zh) * | 2018-09-10 | 2019-03-08 | 上海勋立信息科技有限公司 | 一种海量非结构化数据处理方法和装置 |
CN111723215A (zh) * | 2020-06-19 | 2020-09-29 | 国家计算机网络与信息安全管理中心 | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 |
CN112463926A (zh) * | 2020-12-07 | 2021-03-09 | 广东电网有限责任公司佛山供电局 | 一种数据检索/智能问答方法、装置、存储介质 |
CN113205186A (zh) * | 2021-05-31 | 2021-08-03 | 深圳供电局有限公司 | 一种二次设备巡检知识图谱架构及二次设备智能巡检方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383290A (zh) * | 2023-03-22 | 2023-07-04 | 中国华能集团有限公司北京招标分公司 | 一种数据泛化解析方法 |
CN116383290B (zh) * | 2023-03-22 | 2023-10-31 | 中国华能集团有限公司北京招标分公司 | 一种数据泛化解析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113779312B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570171B (zh) | 一种基于语义的科技情报处理方法及系统 | |
CN115048464A (zh) | 用户操作行为数据的检测方法、装置及电子设备 | |
KR102345410B1 (ko) | 빅데이터 지능형 수집 방법 및 장치 | |
CN113779312B (zh) | 一种基于知识图谱的非结构化电网数据处理方法及装置 | |
CN115132366A (zh) | 基于健康医疗大数据标准库的多源数据处理方法与系统 | |
CN102903126A (zh) | 一种视频图像纹理特征提取和结构化描述的系统和方法 | |
CN107943937B (zh) | 一种基于司法公开信息分析的债务人资产监控方法及系统 | |
Benny et al. | Hadoop framework for entity resolution within high velocity streams | |
CN112395292B (zh) | 一种数据特征提取、匹配方法及装置 | |
CN114185875A (zh) | 一种基于云计算的大数据统一分析处理系统 | |
CN105868381A (zh) | 用于农业信息服务的知识库检索系统 | |
CN113449173A (zh) | 一种基于特征采样的信息技术提取系统 | |
CN113032653A (zh) | 一种基于大数据的舆情监测平台 | |
KR20110026154A (ko) | 시맨틱 메타데이터를 통한 인터넷 상의 개인 특성 및 행위 분석 기술 | |
TW202207109A (zh) | 工程專案文件管理方法與系統 | |
CN117909440B (zh) | 智能档案索引与检索系统 | |
Xiang et al. | A flexible method for converting non-relational text data to relational data for data acquisition of equipment operation | |
CN116628216A (zh) | 基于非结构化数据的知识图谱构建方法 | |
CN115640758B (zh) | 一种基于知识构建的三维模型数模质检方法 | |
CN112612888B (zh) | 一种用于对文本文件进行智能聚类的方法及系统 | |
CN112417220A (zh) | 一种异构数据的整合方法 | |
CN115794875A (zh) | 一种支持时序数据存储的图数据库系统和融合存储方法 | |
CN114756609A (zh) | 一种异构资源的整合方法 | |
CN117893146A (zh) | 一种集客opex项目工作量审计模型应用方法 | |
CN115062093A (zh) | 一种基于核电厂PaaS平台的数据沉淀方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |