CN111125300A - 一种基于知识图谱信息数据智能分析系统 - Google Patents
一种基于知识图谱信息数据智能分析系统 Download PDFInfo
- Publication number
- CN111125300A CN111125300A CN202010058724.7A CN202010058724A CN111125300A CN 111125300 A CN111125300 A CN 111125300A CN 202010058724 A CN202010058724 A CN 202010058724A CN 111125300 A CN111125300 A CN 111125300A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- knowledge
- graph
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 238000004140 cleaning Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims 2
- 238000000034 method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据检索分析技术领域,尤其为一种基于知识图谱信息数据智能分析系统,包括数据采集单元、数据处理单元、知识图谱单元和索引单元;所述数据采集单元与数据处理单元连接,用于采集与目标数据有关联的的大量相关数据;所述数据处理单元与知识图谱单元连接,用于对数据采集单元采集的大量数据进行清洗、提取和关键词分类等操作。本发明通过对大量数据进行清洗、提取和按照关键词进行分类后,可以得到有效数据,然后有效数据按照关键词生成知识图谱树状图,因此可以将有效数据清晰明了展示出,方便直接获取目标数据和与目标数据相关的数据,节省了数据检索时间,然后对数据之间的关联性进行分析,可以对目标数据的准确性进行判断。
Description
技术领域
本发明涉及数据检索分析技术领域,具体为一种基于知识图谱信息数据智能分析系统。
背景技术
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
在目前的大数据时代,想要得到目标数据,需要筛选大量的无效信息,同时还需要对筛选后的信息进行不断的精简、检索后才能得到想要的目标数据,因此给目标数据的获取带来不便,本发明在借助知识图谱的情况下,提出一种基于知识图谱信息数据智能分析系统,可以高效性并准确的得到目标数据,并且可以分析得到与目标数据有关联的数据,从而可以及时获取到有效的目标数据,节约了数据检索时间。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于知识图谱信息数据智能分析系统,解决了上述背景技术中提出的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于知识图谱信息数据智能分析系统,包括数据采集单元、数据处理单元、知识图谱单元和索引单元;
所述数据采集单元与数据处理单元连接,用于采集与目标数据有关联的的大量相关数据;
所述数据处理单元与知识图谱单元连接,用于对数据采集单元采集的大量数据进行清洗、提取和关键词分类等操作;
所述知识图谱单元与数据处理单元连接,用于根据数据处理单元处理后的数据为样本,构建样本数据之间的连接关系树状图,通过数据关系之间关联性生成预置数据知识图谱,并将相应的数据信息储存在相应的数据知识图谱的数据枝节点下;
所述索引单元与知识图谱单元连接,用于根据目标数据的关键词来检索数据知识图谱,可以得到相应的目标数据的数据枝节点。
作为本发明的一种优选技术方案,所述数据处理单元包括数据清洗提取模块、数据分类模块和数据关键词模块;
所述数据清洗提取模块用于将大量数据中的无关数据进行清洗并将有用数据提取出;
所述数据分类模块用于根据数据关键词模块内置的关键词、关键词从属关系将数据进行分类;
所述数据关键词模块用于设置所要得到目标数据的关键词,并将设置好关键词之间的从属关系。
作为本发明的一种优选技术方案,所述数据清洗提取模块中设置清洗数据库,所述清洗数据库中存储有需要清洗的数据属性、来源和类型。
作为本发明的一种优选技术方案,所述知识图谱单元包括知识图谱构建模块、知识图谱分析模块和知识图谱内容模块;
所述知识图谱构建模块用于根据数据关键词模块设置关键词生成所有关于关键词的数据枝节点;并根据关键词之间的从属关系,将低等级关键词对应数据枝节点的设置在高等级关键词对应的数据枝节点之下;然后根据关键词之间的关联性来将相应的数据枝节点进行连接;最后生成初步知识图谱树状图;
所述知识图谱分析模块用于根据每个数据枝节点对应的数据内容,将出现相同内容和关键词的数据枝节点之间连接,完善知识图谱树状图;
所述知识图谱内容模块用于根据数据分类模块分好的数据内容按照不同关键词对应的数据枝节点将数据内容存储在每个数据枝节点下。
作为本发明的一种优选技术方案,所述知识图谱单元还包括知识图谱精简模块,所述知识图谱精简单元用于一个高等级数据枝节点和与其对应的低等级数据之间的数据内容进行精简。
作为本发明的一种优选技术方案,所述知识图谱单元还包括知识图谱设置模块,其用于手动修改指示图谱树状图内容、增添数据枝节点和修改数据枝节点之间的关系。
作为本发明的一种优选技术方案,所述索引单元包括包括检索模块和分析模块;
所述检索模块用于输入所要获取目标数据的关键词,然后得到关于目标数据相对应应的数据枝节点;
所述分析模块用于对目标数据的数据枝节点进行分析,得到与该数据枝节点相对应的数据枝节点,并对与目标数据相关联的数据内与目标数据之间的关联性强度进行分析。
(三)有益效果
与现有技术相比,本发明提供了一种基于知识图谱信息数据智能分析系统,具备以下有益效果:该基于知识图谱信息数据智能分析系统,通过对大量数据进行清洗、提取和按照关键词进行分类后,可以得到有效数据,然后有效数据按照关键词生成知识图谱树状图,因此可以将有效数据清晰明了展示出,方便直接获取目标数据和与目标数据相关的数据,节省了数据检索时间,然后对数据之间的关联性进行分析,可以对目标数据的准确性进行判断,避免错误数据的干扰。
附图说明
图1为本发明系统原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1,本发明提供以下技术方案:一种基于知识图谱信息数据智能分析系统,包括数据采集单元、数据处理单元、知识图谱单元和索引单元。
数据采集单元与数据处理单元连接,用于采集与目标数据有关联的的大量相关数据,本发明主要针对在大量数据的情况下筛选出有用的目标数据,因此目标数据主要为文本信息和一些EXCEL表格信息等,因此数据采集单元具有多种获取的数据的方式,可以通过PC、网页等方式获取大量数据,最后将数据导入进数据处理单元内即可。
数据处理单元与知识图谱单元连接,用于对数据采集单元采集的大量数据进行清洗、提取和关键词分类等操作;数据处理单元包括数据清洗提取模块、数据分类模块和数据关键词模块;数据清洗提取模块用于将大量数据中的无关数据进行清洗并将有用数据提取出,数据清洗提取模块中设置清洗数据库,清洗数据库中存储有需要清洗的数据属性、来源和类型,其中清洗数据库内部的内容可以不断的完善,数据清洗提取模块主要将一些多余无用的数据信息清除掉,避免无关数据对目标数据的获取造成干扰;数据分类模块用于根据数据关键词模块内置的关键词、关键词从属关系将数据进行分类;数据关键词模块用于设置所要得到目标数据的关键词,并将设置好关键词之间的从属关系。
知识图谱单元与数据处理单元连接,用于根据数据处理单元处理后的数据为样本,构建样本数据之间的连接关系树状图,通过数据关系之间关联性生成预置数据知识图谱,并将相应的数据信息储存在相应的数据知识图谱的数据枝节点下;知识图谱单元包括知识图谱构建模块、知识图谱分析模块和知识图谱内容模块;知识图谱构建模块用于根据数据关键词模块设置关键词生成所有关于关键词的数据枝节点;并根据关键词之间的从属关系,将低等级关键词对应数据枝节点的设置在高等级关键词对应的数据枝节点之下;然后根据关键词之间的关联性来将相应的数据枝节点进行连接;最后生成初步知识图谱树状图;知识图谱分析模块用于根据每个数据枝节点对应的数据内容,将出现相同内容和关键词的数据枝节点之间连接,完善知识图谱树状图;知识图谱内容模块用于根据数据分类模块分好的数据内容按照不同关键词对应的数据枝节点将数据内容存储在每个数据枝节点下;知识图谱单元还包括知识图谱精简模块,知识图谱精简单元用于一个高等级数据枝节点和与其对应的低等级数据之间的数据内容进行精简;知识图谱单元还包括知识图谱设置模块,其用于手动修改指示图谱树状图内容、增添数据枝节点和修改数据枝节点之间的关系。
索引单元与知识图谱单元连接,用于根据目标数据的关键词来检索数据知识图谱,可以得到相应的目标数据的数据枝节点;索引单元包括包括检索模块和分析模块;检索模块用于输入所要获取目标数据的关键词,然后得到关于目标数据相对应应的数据枝节点;分析模块用于对目标数据的数据枝节点进行分析,得到与该数据枝节点相对应的数据枝节点,并对与目标数据相关联的数据内与目标数据之间的关联性强度进行分析。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于知识图谱信息数据智能分析系统,其特征在于:包括数据采集单元、数据处理单元、知识图谱单元和索引单元;
所述数据采集单元与数据处理单元连接,用于采集与目标数据有关联的的大量相关数据;
所述数据处理单元与知识图谱单元连接,用于对数据采集单元采集的大量数据进行清洗、提取和关键词分类等操作;
所述知识图谱单元与数据处理单元连接,用于根据数据处理单元处理后的数据为样本,构建样本数据之间的连接关系树状图,通过数据关系之间关联性生成预置数据知识图谱,并将相应的数据信息储存在相应的数据知识图谱的数据枝节点下;
所述索引单元与知识图谱单元连接,用于根据目标数据的关键词来检索数据知识图谱,可以得到相应的目标数据的数据枝节点。
2.根据权利要求1所述的一种基于知识图谱信息数据智能分析系统,其特征在于:所述数据处理单元包括数据清洗提取模块、数据分类模块和数据关键词模块;
所述数据清洗提取模块用于将大量数据中的无关数据进行清洗并将有用数据提取出;
所述数据分类模块用于根据数据关键词模块内置的关键词、关键词从属关系将数据进行分类;
所述数据关键词模块用于设置所要得到目标数据的关键词,并将设置好关键词之间的从属关系。
3.根据权利要求2所述的一种基于知识图谱信息数据智能分析系统,其特征在于:所述数据清洗提取模块中设置清洗数据库,所述清洗数据库中存储有需要清洗的数据属性、来源和类型。
4.根据权利要求2所述的一种基于知识图谱信息数据智能分析系统,其特征在于:所述知识图谱单元包括知识图谱构建模块、知识图谱分析模块和知识图谱内容模块;
所述知识图谱构建模块用于根据数据关键词模块设置关键词生成所有关于关键词的数据枝节点;并根据关键词之间的从属关系,将低等级关键词对应数据枝节点的设置在高等级关键词对应的数据枝节点之下;然后根据关键词之间的关联性来将相应的数据枝节点进行连接;最后生成初步知识图谱树状图;
所述知识图谱分析模块用于根据每个数据枝节点对应的数据内容,将出现相同内容和关键词的数据枝节点之间连接,完善知识图谱树状图;
所述知识图谱内容模块用于根据数据分类模块分好的数据内容按照不同关键词对应的数据枝节点将数据内容存储在每个数据枝节点下。
5.根据权利要求4所述的一种基于知识图谱信息数据智能分析系统,其特征在于:所述知识图谱单元还包括知识图谱精简模块,所述知识图谱精简单元用于一个高等级数据枝节点和与其对应的低等级数据之间的数据内容进行精简。
6.根据权利要求4所述的一种基于知识图谱信息数据智能分析系统,其特征在于:所述知识图谱单元还包括知识图谱设置模块,其用于手动修改指示图谱树状图内容、增添数据枝节点和修改数据枝节点之间的关系。
7.根据权利要求1所述的一种基于知识图谱信息数据智能分析系统,其特征在于:所述索引单元包括包括检索模块和分析模块;
所述检索模块用于输入所要获取目标数据的关键词,然后得到关于目标数据相对应应的数据枝节点;
所述分析模块用于对目标数据的数据枝节点进行分析,得到与该数据枝节点相对应的数据枝节点,并对与目标数据相关联的数据内与目标数据之间的关联性强度进行分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010058724.7A CN111125300A (zh) | 2020-01-19 | 2020-01-19 | 一种基于知识图谱信息数据智能分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010058724.7A CN111125300A (zh) | 2020-01-19 | 2020-01-19 | 一种基于知识图谱信息数据智能分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111125300A true CN111125300A (zh) | 2020-05-08 |
Family
ID=70489828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010058724.7A Pending CN111125300A (zh) | 2020-01-19 | 2020-01-19 | 一种基于知识图谱信息数据智能分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125300A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859969A (zh) * | 2020-07-20 | 2020-10-30 | 航天科工智慧产业发展有限公司 | 数据分析方法及装置、电子设备、存储介质 |
CN111930967A (zh) * | 2020-10-13 | 2020-11-13 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
CN112328837A (zh) * | 2020-10-28 | 2021-02-05 | 北京鸿腾智能科技有限公司 | 数据展示方法、装置、设备及存储介质 |
CN112418452A (zh) * | 2020-11-19 | 2021-02-26 | 杭州闪援车管家汽车服务有限公司 | 一种基于互联网的养车拼单方法、服务器及系统 |
CN113378564A (zh) * | 2021-04-30 | 2021-09-10 | 上海适享文化传播有限公司 | 垂直领域细分场景结合知识图谱的分词方法 |
CN116432965A (zh) * | 2023-04-17 | 2023-07-14 | 北京正曦科技有限公司 | 基于知识图谱的岗位能力分析方法及树状图生成方法 |
CN116738009A (zh) * | 2023-08-09 | 2023-09-12 | 北京谷器数据科技有限公司 | 一种对数据进行归档回溯的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644062A (zh) * | 2017-08-29 | 2018-01-30 | 广州思涵信息科技有限公司 | 一种基于知识图谱的知识内容权重分析系统及方法 |
-
2020
- 2020-01-19 CN CN202010058724.7A patent/CN111125300A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644062A (zh) * | 2017-08-29 | 2018-01-30 | 广州思涵信息科技有限公司 | 一种基于知识图谱的知识内容权重分析系统及方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859969A (zh) * | 2020-07-20 | 2020-10-30 | 航天科工智慧产业发展有限公司 | 数据分析方法及装置、电子设备、存储介质 |
CN111859969B (zh) * | 2020-07-20 | 2024-05-03 | 航天科工智慧产业发展有限公司 | 数据分析方法及装置、电子设备、存储介质 |
CN111930967A (zh) * | 2020-10-13 | 2020-11-13 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
CN111930967B (zh) * | 2020-10-13 | 2021-02-09 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
CN112328837A (zh) * | 2020-10-28 | 2021-02-05 | 北京鸿腾智能科技有限公司 | 数据展示方法、装置、设备及存储介质 |
CN112418452A (zh) * | 2020-11-19 | 2021-02-26 | 杭州闪援车管家汽车服务有限公司 | 一种基于互联网的养车拼单方法、服务器及系统 |
CN113378564A (zh) * | 2021-04-30 | 2021-09-10 | 上海适享文化传播有限公司 | 垂直领域细分场景结合知识图谱的分词方法 |
CN116432965A (zh) * | 2023-04-17 | 2023-07-14 | 北京正曦科技有限公司 | 基于知识图谱的岗位能力分析方法及树状图生成方法 |
CN116432965B (zh) * | 2023-04-17 | 2024-03-22 | 北京正曦科技有限公司 | 基于知识图谱的岗位能力分析方法及树状图生成方法 |
CN116738009A (zh) * | 2023-08-09 | 2023-09-12 | 北京谷器数据科技有限公司 | 一种对数据进行归档回溯的方法 |
CN116738009B (zh) * | 2023-08-09 | 2023-11-21 | 北京谷器数据科技有限公司 | 一种对数据进行归档回溯的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125300A (zh) | 一种基于知识图谱信息数据智能分析系统 | |
Zhou et al. | Semantic-aware event link reasoning over industrial knowledge graph embedding time series data | |
Soibelman et al. | Management and analysis of unstructured construction data types | |
Yan et al. | KnowIME: a system to construct a knowledge graph for intelligent manufacturing equipment | |
CN111078868A (zh) | 基于知识图谱分析的装备试验体系规划决策的方法及系统 | |
CN108304382B (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及系统 | |
KR100800460B1 (ko) | 웹 온톨로지 검색/분류 시스템 및 방법 | |
CN112784591A (zh) | 数据的处理方法、装置、电子设备和存储介质 | |
CN111767334A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN113792153A (zh) | 问答推荐方法及其装置 | |
CN113779261B (zh) | 知识图谱的质量评价方法、装置、计算机设备及存储介质 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN112836067B (zh) | 基于知识图谱的智能搜索方法 | |
Ge et al. | A Novel Chinese Domain Ontology Construction Method for Petroleum Exploration Information. | |
Gu | Integration and optimization of ancient literature information resources based on big data technology | |
CN114077652A (zh) | 一种基于多维数据立方体的数据处理方法及电子装置 | |
Li et al. | Swvbil-crf: Selectable word vectors-based bilstm-crf power defect text named entity recognition | |
CN112100395A (zh) | 一种专家合作可行性分析方法 | |
CN115618007A (zh) | 基于知识图谱的监察数据分析系统 | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
CN113688120A (zh) | 数据仓库的质量检测方法、装置和电子设备 | |
CN113032653A (zh) | 一种基于大数据的舆情监测平台 | |
CN109635281B (zh) | 业务导图中更新节点的方法和装置 | |
Yang et al. | Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200508 |