CN113779272A - 基于知识图谱的数据处理方法、装置、设备及存储介质 - Google Patents
基于知识图谱的数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113779272A CN113779272A CN202111079263.2A CN202111079263A CN113779272A CN 113779272 A CN113779272 A CN 113779272A CN 202111079263 A CN202111079263 A CN 202111079263A CN 113779272 A CN113779272 A CN 113779272A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- model
- sample
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 172
- 238000012360 testing method Methods 0.000 claims abstract description 122
- 238000012549 training Methods 0.000 claims abstract description 102
- 238000012795 verification Methods 0.000 claims abstract description 83
- 238000011156 evaluation Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 31
- 230000000694 effects Effects 0.000 claims description 29
- 238000010801 machine learning Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 238000007405 data analysis Methods 0.000 claims description 15
- 238000003066 decision tree Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000010200 validation analysis Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000007794 visualization technique Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008520 organization Effects 0.000 description 9
- 238000007418 data mining Methods 0.000 description 7
- 206010063385 Intellectualisation Diseases 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术领域,公开了基于知识图谱的数据处理方法、装置、设备及存储介质,获取原始数据,并对所述原始数据进行预处理,形成训练数据集、验证数据集和测试数据集;对所述训练数据集进行训练,构建样本特征模型;采用所述验证数据集对所述样本特征模型的有效性进行验证;采用所述测试数据集对验证后的所述样本特征模型进行数据预测,并根据所述数据预测的测试结果对所述样本特征模型进行评估;根据所述样本特征模型的评估结果进行模型调优,得到数据特征模型;将待处理数据输入所述数据特征模型中,得到结果数据,并根据所述结果数据构建知识图谱,将所述知识图谱可视化输出至用户的Web端;本发明提高了数据处理效率和准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于知识图谱的数据处理方法、装置、设备及存储介质。
背景技术
近年来,随着移动互联、大数据、云计算等现代信息技术的发展,企业面临着海量的大数据,目前基于人工智能的分析技术主要是从机器学习方面开展的大数据分析技术研究,分为大数据聚类、大数据关联分析、大数据分类和大数据预测几类技术,通过大量数据的训练,机器学习能够总结出事件之间的相关性;虽然人工智能技术是大数据分析的利器,但面临大数据问题时,数据处理的的难度进一步加大,无法对数据进行全面地、综合地分析,且无法,满足数据关联性的处理需求,因此无法提取出有效的、辅助的信息,降低了数据的价值。
发明内容
有鉴于此,有必要针对数据处理的的难度进一步加大的问题,提供一种基于知识图谱的数据处理方法、装置、设备及存储介质。
一种基于知识图谱的数据处理方法,包括以下步骤:获取原始数据,并对所述原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,所述预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;对所述训练数据集进行训练,构建样本特征模型;采用所述验证数据集对所述样本特征模型的有效性进行验证;采用所述测试数据集对验证后的所述样本特征模型进行数据预测,并根据所述数据预测的测试结果对所述样本特征模型进行评估;根据所述样本特征模型的评估结果进行模型调优,得到数据特征模型;将待处理数据输入所述数据特征模型中,得到结果数据,并根据所述结果数据构建知识图谱,将所述知识图谱可视化输出至用户的Web端。
在其中一个实施例中,从数据库中提取结果数据,并对所述结果数据进行集成、转换处理,得到待解析数据;基于动态本体模型构建知识图谱,所述知识图谱是用于构建数据实体、实体属性及实体关系的知识体系,知识图谱的节点为数据处理的关键概念,节点之间由一个或多个关系建立的通路称为路径;根据所述知识图谱采用可视化方法进行数据处理,得到数据处理有效的数据结论;对得到的所述数据处理有效的数据结论采用知识树、图谱等多种形式展示;通过自动更新方式输入新数据,对知识图谱进行增量式的动态更新。
在其中一个实施例中,获取所述待解析数据,并对所述待解析数据进行解析,得到语义信息,根据对象、关系、属性的定义,构建动态本体模型,抽取实体之间的关系;基于所述动态本体模型,构建知识图谱,所述知识图谱用于对所述结果数据进行分析。
在其中一个实施例中,对所述语义信息进行信息抽取处理,所述信息抽取过程包括实体抽取、关系抽取、属性抽取;对信息抽取处理后的所述语义信息利用所述动态本体模型进行知识融合和知识加工,获取知识图谱。
在其中一个实施例中,可视化展示数据处理的分析路径和推导过程。
在其中一个实施例中,提取所述训练数据集中训练样本;对所述训练数据集中训练样本进行特征识别,得到目标特征集合和属性特征集合,并根据所述目标特征集合和所述属性特征集合,对所述训练数据集中训练样本进行特征标签的标注;获取预设的机器学习模型,根据与所述目标特征集合和所述属性特征集合中对应的特征向量,对所述预设的机器学习模型进行训练,得到样本特征模型。
在其中一个实施例中,提取所述验证数据集中验证样本,所述验证样本包括验证子数据和预期结果值;将所述验证样本中的验证子数据输入所述样本特征模型中,得到实际结果值;根据所述实际结果值和预期结果值,确定所述验证样本的残差,并判断所述验证样本的残差是否在预设的阈值范围内;若所述验证样本的残差不在预设的阈值范围内,则将所述样本特征模型淘汰;若所述验证样本的残差在预设的阈值范围内,则所述样本特征模型验证有效,并加入有效模型集合。
在其中一个实施例中,提取所述测试数据集中测试样本,所述测试样本包括测试子数据;将所述测试样本中的测试子数据输入验证后的所述样本特征模型中进行数据预测,得到预测测试结果;根据所述预测测试结果,评估所述样本特征模型的性能指标,所述性能指标包括准确率、精准率和召回率。
在其中一个实施例中,计算所述准确率的公式为:P=(TP+TN)/(TP+FP+FN+TN),计算所述精准率的公式为:R=(TP)/(TP+FP),计算所述召回率的公式为:F1=(2×P×R)/(P+R),式中TP为所述预测测试结果中预测正确的正例数,所述TN为所述预测测试结果中预测正确的负例数,所述FP为所述预测测试结果中预测错误的正例数,FN为所述预测测试结果中预测错误的负例数。
在其中一个实施例中,获取所述样本特征模型的评估结果,并根据所述评估结果判断所述样本特征模型效果是否达到预设效果;若所述样本特征模型效果达到预设效果,则采用梯度提升决策树算法对所述样本特征模型进行调优,得到数据特征模型;其中,梯度提升决策树算法中设F(x,P)为目标分类函数,P为参数集,函数表达式为如下格式:
式中,h(x;α)表示基函数,α={α1,α2,...αm}。
在其中一个实施例中,获取待处理数据,并将所述待处理数据输入所述数据特征模型中,通过所述数据特征模型对所述待处理数据进行数据处理,并生成结果数据,所述数据处理包括数据整合、数据分类、数据分析和/或数据预测,结果数据包括结构化数据、半结构化数据和/或非结构化数据;提取所述结果数据,并将所述结果数据存储于数据库中,所述数据库包括ORACLE和/或MySQL;根据所述结果数据确定对应的知识图谱,并将所述知识图谱存储于Neo4j数据库中;采用Flask框架将所述Neo4j数据库中存储的所述知识图谱可视化展示于用户的Web端。
一种基于知识图谱的数据处理装置,所述基于知识图谱的数据处理装置包括:预处理模块,用于获取原始数据,并对所述原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,所述预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;训练模块,用于对所述训练数据集进行训练,构建样本特征模型;验证模块,用于采用所述验证数据集对所述样本特征模型的有效性进行验证;评估模块,用于采用所述测试数据集对验证后的所述样本特征模型进行数据预测,并根据所述数据预测的测试结果对所述样本特征模型进行评估;调优模块,用于根据所述样本特征模型的评估结果进行模型调优,得到数据特征模型;输出模块,用于将待处理数据输入所述数据特征模型中,得到结果数据,并根据所述结果数据构建知识图谱,将所述知识图谱可视化输出至用户的Web端。
一种基于知识图谱的数据处理设备,所述基于知识图谱的数据处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于知识图谱的数据处理设备执行上述所述的基于知识图谱的数据处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的基于知识图谱的数据处理方法的步骤。
上述基于知识图谱的数据处理方法、装置、设备及存储介质,获取原始数据,并对所述原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,所述预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;对所述训练数据集进行训练,构建样本特征模型;采用所述验证数据集对所述样本特征模型的有效性进行验证;采用所述测试数据集对验证后的所述样本特征模型进行数据预测,并根据所述数据预测的测试结果对所述样本特征模型进行评估;根据所述样本特征模型的评估结果进行模型调优,得到数据特征模型;将待处理数据输入所述数据特征模型中,得到结果数据,并根据所述结果数据构建知识图谱,将所述知识图谱可视化输出至用户的Web端;本发明建立了一个集数据组织和管理、智能数据分析和挖掘等为一体的且基于知识图谱的数据处理平台,提高了数据处理效率和准确率,且保证了效率和精度之间的平衡;同时通过可视化技术实现数据处理全方位、立体展示,实现智能化、简单化、直观化,方便用户从海量的数据中获取有效的信息;通过知识图谱增强数据处理前后关联性。
附图说明
图1为本发明基于知识图谱的数据处理方法的第一个实施例示意图;
图2为本发明基于知识图谱的数据处理方法的第二个实施例示意图;
图3为本发明基于知识图谱的数据处理方法的第三个实施例示意图;
图4为本发明基于知识图谱的数据处理方法的第四个实施例示意图;
图5为本发明基于知识图谱的数据处理方法的第五个实施例示意图;
图6为本发明基于知识图谱的数据处理方法的第六个实施例示意图;
图7为本发明基于知识图谱的数据处理装置的一个实施例示意图;
图8为本发明基于知识图谱的数据处理设备的一个实施例示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
知识图谱以实体、概念以及属性作为基本组成单位,通过实体与实体、实体与属性之间的关系,来构成类似于网状的结构化知识库,便于信息的检索和知识的推理;虽然人工智能技术是大数据分析的利器,但面临大数据问题时,数据处理的的难度进一步加大,无法对数据进行全面地、综合地分析,且无法,满足数据关联性的处理需求,因此无法提取出有效的、辅助的信息,降低了数据的价值;为此本发明针对数据处理的的难度进一步加大的问题,提供一种基于知识图谱的数据处理方法、装置、设备及存储介质。
作为一个较好的实施例,如图1所示,一种基于知识图谱的数据处理方法,用于数据处理,该基于知识图谱的数据处理方法包括以下步骤:
步骤101、获取原始数据,并对原始数据进行预处理,形成训练数据集、验证数据集和测试数据集;
可以理解的是,本发明的执行主体可以为基于知识图谱的数据处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,通过服务器获取大量的原始数据,对原始数据进行预处理,由于获取数据存在缺失(空值)、数据噪声(异常值)、数据冗余、数据格式等各种问题,不能直接用于数据分析,所以需要对数据进行预处理,原始数据预处理的好坏也会直接影响机器学习的效果;预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理,标准化处理包括最大-最小标准化、Z-score标准化、按小数定标标准化,数据清洗处理包括数据缺失值处理冗余处理、数据异常处理、数据类型转换,数据噪声处理指数据中存在着异常值或者错误值,处理数据噪声可以通过分箱、聚类、回归的方式进行解决,处理数据噪声的过程即是数据平滑的过程;原始数据预处理完成后,按照一定的比例形成训练数据集、验证数据集和测试数据集,通常训练数据集所占比例较大;由于训练数据集可对模型进行训练,验证数据集可对模型进行验证,测试数据集可对模型进行评估测试,因此,将原始数据的数据集分为训练数据集、验证数据集和测试数据集可提高模型识别的准确率。
步骤102、对训练数据集进行训练,构建样本特征模型;
本实施例中,对训练数据集进行训练,训练数据集用于模型拟合的数据样本,在训练过程中对训练误差进行梯度下降,进行学习,可训练权重参数,构建样本特征模型,使得模型能有最优的表现。
步骤103、采用验证数据集对样本特征模型的有效性进行验证;
本实施例中,验证数据集是用于验证模型有效性的样本集合,在训练数据集上训练结束后,通过验证数据集比较判断各个模型是否有效。
步骤104、采用测试数据集对验证后的样本特征模型进行数据预测,并根据数据预测的测试结果对样本特征模型进行评估;
本实施例中,测试数据集是用于测试模型性能的样本集合,通过测试数据集来比较判断各个模型的性能,测试数据集对验证后的样本特征模型进行数据预测,得到测试结果,根据测试结果对样本特征模型进行性能评估,即评估样本特征模型的性能指标。
步骤105、根据样本特征模型的评估结果进行模型调优,得到数据特征模型;
本实施例中,在测试数据集对样本特征模型进行测试后,得到评估结果,根据评估结果对样本特征模型进行模型调优,使得选择出一个最合适的模型,并且能够设定好最优的参数,以便达到效率和精度的平衡,从而确定出数据特征模型。
步骤106、将待处理数据输入数据特征模型中,得到结果数据,并根据结果数据构建知识图谱,将知识图谱可视化输出至用户的Web端。
本实施例中,服务器获取待处理数据,可以是通过云端下载的数据或各种通过其他设备导入的数据等,本实施例对此不做限定,将待处理数据输入数据特征模型中,得到结果数据,根据结果数据构建知识图谱。
步骤1061、从数据库中提取结果数据,并对结果数据进行集成、转换处理,得到待解析数据;
步骤1062、基于动态本体模型构建知识图谱,知识图谱是用于构建数据实体、实体属性及实体关系的知识体系,知识图谱的节点为数据处理的关键概念,节点之间由一个或多个关系建立的通路称为路径;
步骤1063、根据知识图谱采用可视化方法进行数据处理,得到数据处理有效的数据结论;对得到的数据处理有效的数据结论采用知识树、图谱等多种形式展示;
步骤1064、通过自动更新方式输入新数据,对知识图谱进行增量式的动态更新。
本实施例中,根据知识图谱采用可视化方法进行数据处理,得到数据处理有效的数据结论,即数据处理时可视化展示其分析路径和推导过程,数据分析结果的全方位、立体展示;知识图谱是互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,更加接近于人类的认知思维,使得数据更直观化;通过采用知识树、图谱等多种形式展示,知识图谱能够很好地与人的逻辑思维能力相结合,实现决策行为的智能化、简单化、直观化,方便用户从海量的数据中获得有效的、辅助的信息,实现全新的数据处理与分析方式;由于知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程,通过自动更新方式输入新数据,对知识图谱进行增量式的动态更新;从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层。数据层的更新主要是新增或更新实体、关系和属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗余等问题)等多方面因素。
步骤1065、获取待解析数据,并对待解析数据进行解析,得到语义信息,根据对象、关系、属性的定义,构建动态本体模型,抽取实体之间的关系;
步骤1066、基于动态本体模型,构建知识图谱,知识图谱用于对结果数据进行分析。
本实施例中,对象是指任何被建模的事物,属性是指对象的品质,关系是指概念之间的关联,而本体可以被理解成特定领域规范概念集及其逻辑关系的描述,本体为特定领域中的信息提供了一个基本的分类框架,同时也为特定领域中的信息之间的关联性提供了一定程度的逻辑描述,使得特定领域中的信息资源能够在本体描述的框架上组织成一个有机的整体。
步骤1067、对语义信息进行信息抽取处理,信息抽取过程包括实体抽取、关系抽取、属性抽取;
步骤1068、对信息抽取处理后的语义信息利用动态本体模型进行知识融合和知识加工,获取知识图谱。
本实施例中,信息抽取是构建知识图谱的第一步,它自动化地从结构化数据、半结构化数据和/或非结构化数据中抽取实体、关系以及实体属性等结构化信息;实体抽取指从文本数据集中自动识别出命名实体,实体抽取通常包括实体边界识别和确定实体类别两部分,关系抽取包括有监督的学习方法、半监督的学习方法、无监督的学习方法,属性抽取的目标是从不同信息源中采集特定实体的属性信息,属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画;对信息抽取处理后的语义信息利用动态本体模型进行知识融合和知识加工,获取知识图谱;信息抽取结果中可能出现大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合,知识融合包括实体链接和知识合并两个部分,实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作;知识合并是在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入,包括合并外部知识库和合并关系数据库,通过知识融合可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量;通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素。再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而,事实不等于知识,要想获得结构化、网络化的知识体系,还需要经历知识加工的过程;知识加工由本体构建、知识推理和质量评估三个部分构成,本体是同一领域内不同主体之间进行交流、连通的语义基础,其主要呈现树状结构,相邻的层次节点或概念之间具有严格的“IsA”关系,本体可通过人工编辑的方式手动构建,也可通过数据驱动自动构建;知识推理是经过推理建立实体间的新关联,从而拓展和丰富知识网络;质量评估可以对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量。
本发明实施例中,获取原始数据,并对原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;对训练数据集进行训练,构建样本特征模型;采用验证数据集对样本特征模型的有效性进行验证;采用测试数据集对验证后的样本特征模型进行数据预测,并根据数据预测的测试结果对样本特征模型进行评估;根据样本特征模型的评估结果进行模型调优,得到数据特征模型;将待处理数据输入数据特征模型中,得到结果数据,并根据结果数据构建知识图谱,将知识图谱可视化输出至用户的Web端;本发明建立了一个集数据组织和管理、智能数据分析和挖掘等为一体的且基于知识图谱的数据处理平台,提高了数据处理效率和准确率,且保证了效率和精度之间的平衡;同时通过可视化技术实现数据处理全方位、立体展示,实现智能化、简单化、直观化,方便用户从海量的数据中获取有效的信息;通过知识图谱增强数据处理前后关联性。
请参阅图2,本发明实施例中基于知识图谱的数据处理方法的第二个实施例包括:
步骤201、提取训练数据集中训练样本;
本实施例中,训练数据集中至少包括一个训练样本,训练数据集用于模型拟合的数据样本,在训练过程中对训练误差进行梯度下降,进行学习,可训练权重参数。
步骤202、对训练数据集中训练样本进行特征识别,得到目标特征集合和属性特征集合,并根据目标特征集合和属性特征集合,对训练数据集中训练样本进行特征标签的标注;
本实施例中,将训练样本中的数据按照比例进行分层次划分,将某个特定特征设定为目标特征值,则进行特征识别时,将该特定特征及其相关特征归集于目标特征集合中,将除去特定特征及其相关特征的其余特征归集于属性特征集合中;为了便于特征识别,服务器根据目标特征集合和属性特征集合,对训练数据集中训练样本进行特征标签的标注。
步骤203、获取预设的机器学习模型,根据与目标特征集合和属性特征集合中对应的特征向量,对预设的机器学习模型进行训练,得到样本特征模型。
本实施例中,服务器获取预设的机器学习模型,可以是空白的机器学习模型,通过机器学习模型中包含的机器学习算法可以直接根据目标特征集合和/或属性特征集合的特征矩阵中每一条特征向量对应的特征训练,从而获得样本特征模型,使得模型能有最优的表现。
本发明实施例中,通过提取训练数据集中训练样本,对训练数据集中训练样本进行特征识别,得到目标特征集合和属性特征集合,并根据目标特征集合和属性特征集合,对训练数据集中训练样本进行特征标签的标注,获取预设的机器学习模型,根据与目标特征集合和属性特征集合中对应的特征向量,对预设的机器学习模型进行训练,得到样本特征模型;本发明对机器学习模型采用训练数据集进行初步训练,便于后续建立一个集数据组织和管理、智能数据分析和挖掘等为一体的且基于知识图谱的数据处理平台,提高数据处理效率和准确率。
请参阅图3,本发明实施例中基于知识图谱的数据处理方法的第三个实施例包括:
步骤301、提取验证数据集中验证样本;
步骤302、将验证样本中的验证子数据输入样本特征模型中,得到实际结果值;
本实施例中,验证样本包括验证子数据和预期结果值,将验证样本中的验证子数据输入样本特征模型中,得到实际结果值,即模型输出的结果,而预期结果值是预先设定好的,用于与实际结果值进行比较。
步骤303、根据实际结果值和预期结果值,确定验证样本的残差,并判断验证样本的残差是否在预设的阈值范围内;
本实施例中,残差在数理统计中是指实际观察值与估计值(拟合值)之间的差,这里是指实际结果值和预期结果值之间的差,即验证样本的残差,预设的阈值范围是预先设定好的验证模型是否有效的标准,根据场景不同有不同的设定标准,用于对模型的有效性进行判断,若符合预设的阈值范围则执行步骤305,反之执行步骤304。
步骤304、若验证样本的残差不在预设的阈值范围内,则将样本特征模型淘汰;
步骤305、若验证样本的残差在预设的阈值范围内,则样本特征模型验证有效,并加入有效模型集合。
本发明实施例中,通过提取验证数据集中验证样本,将验证样本中的验证子数据输入样本特征模型中,得到实际结果值,根据实际结果值和预期结果值,确定验证样本的残差,并判断验证样本的残差是否在预设的阈值范围内,若验证样本的残差不在预设的阈值范围内,则将样本特征模型淘汰,若验证样本的残差在预设的阈值范围内,则样本特征模型验证有效,并加入有效模型集合;本发明采用验证数据集对训练得到的样本特征模型进行验证,筛选出有效的样本特征模型,便于后续建立一个集数据组织和管理、智能数据分析和挖掘等为一体的且基于知识图谱的数据处理平台,提高数据处理效率和准确率。
请参阅图4,本发明实施例中基于知识图谱的数据处理方法的第四个实施例包括:
步骤401、提取测试数据集中测试样本;
步骤402、将测试样本中的测试子数据输入验证后的样本特征模型中进行数据预测,得到预测测试结果;
本实施例中,测试数据集用来评估模最终模型的能力,测试样本包括测试子数据,将测试样本中的测试子数据输入验证后的样本特征模型中进行数据预测,得到预测测试结果,即得到由样本特征模型得到的数据处理结果。
步骤403、根据预测测试结果,评估样本特征模型的性能指标。
本实施例中,性能指标包括准确率、精准率和召回率,可以理解的是处理这三种性能指标外,还可以包括FPR(FRP被称作是假报警率,表示的是负的预测为正的概率,值越小越好)、TPR(TPR被称作是命中率,表示的是正的预测正确的概率,值越大越好),本实施例对此不做限定;
计算准确率的公式为:P=(TP+TN)/(TP+FP+FN+TN),TP为预测测试结果中预测正确的正例数,TN为预测测试结果中预测正确的负例数,FP为预测测试结果中预测错误的正例数,FN为预测测试结果中预测错误的负例数;准确率表示预测正确的个数占总个数的百分比,但是当真实数据中不同类型数据分布及其不均衡时,准确率不具有参考性;计算精准率的公式为:R=(TP)/(TP+FP),TP、TN、FP和FN同准确率,精确率是针对判断结果而言的,其意义为在被所有判断为正的样本中实际为正样本的概率,精确率代表对正样本结果中的判断准确程度,准确率则代表整体的判断准确程度;计算召回率的公式为:F1=(2×P×R)/(P+R),TP、TN、FP和FN同准确率,是针对原样本而言的,其含义是在实际为正的样本中被判断为正样本的概率。
本发明实施例中,通过提取测试数据集中测试样本,将测试样本中的测试子数据输入验证后的样本特征模型中进行数据预测,得到预测测试结果,根据预测测试结果,评估样本特征模型的性能指标;本发明采用测试数据集对有效的样本特征模型评估准确率、精准率和召回率等性能指标,给后面模型调优提供方向,便于后续建立一个集数据组织和管理、智能数据分析和挖掘等为一体的且基于知识图谱的数据处理平台,提高数据处理效率和准确率。
请参阅图5,本发明实施例中基于知识图谱的数据处理方法的第五个实施例包括:
步骤501、获取样本特征模型的评估结果,并根据评估结果判断样本特征模型效果是否达到预设效果;
本实施例中,服务器获取样本特征模型的评估结果,服务器判断评估结果是否达到预设效果,若达到预设效果,则执行步骤502,若未达到预设效果,则将样本特征模型淘汰,这里的预设效果是由用户预先设定模型所需要达到的具体值、具体范围或函数关系等,根据场景不同有不同的设定标准。
步骤502、若样本特征模型效果达到预设效果,则采用梯度提升决策树算法对样本特征模型进行调优,得到数据特征模型;
梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来作为最终决策树模型的预测结果;本实施例中,在迭代过程中的每一步,梯度提升决策树算法都能创建一个沿着梯度斜率最大的方向降低损失的学习器来修补已有模型的不足,设F(x,P)为目标分类函数,P为参数集,函数表达式为如下格式:
式中,h(x;α)表示基函数,α={α1,α2,...αm},每个函数h(x;α)表示一棵小的回归树,回归树中αm表示树的划分变量,划分位置和每棵树中叶子结点的均值等;需要补充说明的是,本实施例中基函数为回归树,判断其性能的指标为基尼(Gini)不纯度,基尼不纯度表示在样本集合中一个随机选中的样本被分错的概率。基尼不纯度越小,则这个指标特征的选择性越好,基尼不纯度的表达式如下:
式中,K为数据集中样本类型数量,pk为第k类样本的数量占总样本数量的比例。
步骤503、将待处理数据输入数据特征模型中,得到结果数据,并根据结果数据构建知识图谱,将知识图谱可视化输出至用户的Web端。
本实施例中,步骤503与第一实施例中的步骤106类似,此处不再赘述。
本发明实施例中,通过获取样本特征模型的评估结果,并根据评估结果判断样本特征模型效果是否达到预设效果,若样本特征模型效果达到预设效果,则采用梯度提升决策树算法对样本特征模型进行调优,得到数据特征模型;本发明建立了一个集数据组织和管理、智能数据分析和挖掘等为一体的且基于知识图谱的数据处理平台,提高了数据处理效率,且保证了效率和精度之间的平衡。
请参阅图6,本发明实施例中基于知识图谱的数据处理方法的第六个实施例包括:
步骤601、获取待处理数据,并将待处理数据输入数据特征模型中,通过数据特征模型对待处理数据进行数据处理,并生成结果数据;
本实施例中,待处理数据为需要进行处理的数据,待处理数据可以是包括各种类型的数据,例如:文本数据、语音数据、图像数据等,上述待处理数据可以是通过云端下载的数据或各种通过其他设备导入的数据等,本实施例对此不做限定;数据处理包括数据整合、数据分类、数据分析和/或数据预测,除了所述的四种数据处理方式,还可以包括其他数据处理方式,本实施例对此不做限定;结果数据包括结构化数据、半结构化数据和/或非结构化数据;结构化数据指关系模型数据,即以关系数据库表形式管理的数据;半结构化数据指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等;非结构化数据指没有固定模式的数据,如WORD、PDF、PPT、EXL,各种格式的图片、视频等。
步骤602、提取结果数据,并将结果数据存储于数据库中;
本实施例中,数据库包括ORACLE和/或MySQL,除这两种数据库外,也可以包括其他数据库,例如HBase、Redis等,数据库用于海量数据的存储于管理,具有高性能、高并发、易扩展、高效数据存储及管理特点。
步骤603、根据结果数据确定对应的知识图谱,并将知识图谱存储于Neo4j数据库中;
本实施例中,根据结果数据确定对应的知识图谱,知识图谱通常使用三元组的形式来表示,即G=(E,R,S),其中E={e1,e2,e3,…,en}是知识库中的实体集合,共包含|E|种不同的实体;R={r1,r2,…,rn}是知识库中的关系集合,共包含|R|种不同关系;代表知识库中的三元组集合。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联;知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。
步骤604、采用Flask框架将Neo4j数据库中存储的知识图谱可视化展示于用户的Web端。
本实施例中,采用了Flask框架进行开发,此框架将页面操作和后台数据交互分离开,降低了代码的耦合性。Flask自带开发服务器,当用户需要获取知识图谱时,通过发起请求,在Neo4j数据库中找到对应的知识图谱,完成后台数据的处理,获取到知识图谱后,由Flask返回响应数据给浏览器,最后浏览器将处理返回的结果显示给用户的Web端。
本发明实施例中,通过将待处理数据输入数据特征模型中进行数据处理,生成结果数据并存储于数据库中,根据结果数据确定对应的知识图谱,并将知识图谱存储于Neo4j数据库中,采用Flask框架将Neo4j数据库中存储的知识图谱可视化展示于用户的Web端;本发明运用数据特征模型对待处理数据的相关数据进行整合、分析等,并通过通过可视化技术实现数据处理全方位、立体展示,实现智能化、简单化、直观化,方便用户从海量的数据中获取有效的信息;通过知识图谱增强数据处理前后关联性,实现智能查询、智能报表、评价体系、预测分析、优化模式等功能。
请参阅图7,提出了一种基于知识图谱的数据处理装置,基于知识图谱的数据处理装置包括:
预处理模块701,用于获取原始数据,并对原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;
训练模块702,用于对训练数据集进行训练,构建样本特征模型;
验证模块703,用于采用验证数据集对样本特征模型的有效性进行验证;
评估模块704,用于采用测试数据集对验证后的样本特征模型进行数据预测,并根据数据预测的测试结果对样本特征模型进行评估;
调优模块705,用于根据样本特征模型的评估结果进行模型调优,得到数据特征模型;
输出模块706,用于将待处理数据输入数据特征模型中,得到结果数据,并根据结果数据构建知识图谱,将知识图谱可视化输出至用户的Web端。
本发明实施例中,获取原始数据,并对原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;对训练数据集进行训练,构建样本特征模型;采用验证数据集对样本特征模型的有效性进行验证;采用测试数据集对验证后的样本特征模型进行数据预测,并根据数据预测的测试结果对样本特征模型进行评估;根据样本特征模型的评估结果进行模型调优,得到数据特征模型;将待处理数据输入数据特征模型中,得到结果数据,并根据结果数据构建知识图谱,将知识图谱可视化输出至用户的Web端;本发明建立了一个集数据组织和管理、智能数据分析和挖掘等为一体的且基于知识图谱的数据处理平台,提高了数据处理效率和准确率,且保证了效率和精度之间的平衡;同时通过可视化技术实现数据处理全方位、立体展示,实现智能化、简单化、直观化,方便用户从海量的数据中获取有效的信息;通过知识图谱增强数据处理前后关联性。
上面图7从模块化功能实体的角度对本发明实施例中的基于知识图谱的数据处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于知识图谱的数据处理设备进行详细描述。
图8是本发明实施例提供的一种基于知识图谱的数据处理设备的结构示意图,该基于知识图谱的数据处理设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于知识图谱的数据处理设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在基于知识图谱的数据处理设备800上执行存储介质830中的一系列指令操作。
基于知识图谱的数据处理设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的基于知识图谱的数据处理设备结构并不构成对本申请提供的基于知识图谱的数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
一种基于知识图谱的数据处理设备以实现以下基于知识图谱的数据处理方法,具体包括:获取原始数据,并对原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;对训练数据集进行训练,构建样本特征模型;采用验证数据集对样本特征模型的有效性进行验证;采用测试数据集对验证后的样本特征模型进行数据预测,并根据数据预测的测试结果对样本特征模型进行评估;根据样本特征模型的评估结果进行模型调优,得到数据特征模型;将待处理数据输入数据特征模型中,得到结果数据,并根据结果数据构建知识图谱,将知识图谱可视化输出至用户的Web端。
在一个实施例中,从数据库中提取结果数据,并对结果数据进行集成、转换处理,得到待解析数据;基于动态本体模型构建知识图谱,知识图谱是用于构建数据实体、实体属性及实体关系的知识体系,知识图谱的节点为数据处理的关键概念,节点之间由一个或多个关系建立的通路称为路径;根据知识图谱采用可视化方法进行数据处理,得到数据处理有效的数据结论;对得到的数据处理有效的数据结论采用知识树、图谱等多种形式展示;通过自动更新方式输入新数据,对知识图谱进行增量式的动态更新。
在一个实施例中,获取待解析数据,并对待解析数据进行解析,得到语义信息,根据对象、关系、属性的定义,构建动态本体模型,抽取实体之间的关系;基于动态本体模型,构建知识图谱,知识图谱用于对结果数据进行分析。
在一个实施例中,对语义信息进行信息抽取处理,信息抽取过程包括实体抽取、关系抽取、属性抽取;对信息抽取处理后的语义信息利用动态本体模型进行知识融合和知识加工,获取知识图谱。
在一个实施例中,可视化展示数据处理的分析路径和推导过程。
在一个实施例中,提取训练数据集中训练样本;对训练数据集中训练样本进行特征识别,得到目标特征集合和属性特征集合,并根据目标特征集合和属性特征集合,对训练数据集中训练样本进行特征标签的标注;获取预设的机器学习模型,根据与目标特征集合和属性特征集合中对应的特征向量,对预设的机器学习模型进行训练,得到样本特征模型。
在一个实施例中,提取验证数据集中验证样本,验证样本包括验证子数据和预期结果值;将验证样本中的验证子数据输入样本特征模型中,得到实际结果值;根据实际结果值和预期结果值,确定验证样本的残差,并判断验证样本的残差是否在预设的阈值范围内;若验证样本的残差不在预设的阈值范围内,则将样本特征模型淘汰;若验证样本的残差在预设的阈值范围内,则样本特征模型验证有效,并加入有效模型集合。
在一个实施例中,提取测试数据集中测试样本,测试样本包括测试子数据;将测试样本中的测试子数据输入验证后的样本特征模型中进行数据预测,得到预测测试结果;根据预测测试结果,评估样本特征模型的性能指标,性能指标包括准确率、精准率和召回率。
在一个实施例中,计算准确率的公式为:P=(TP+TN)/(TP+FP+FN+TN),计算精准率的公式为:R=(TP)/(TP+FP),计算召回率的公式为:F1=(2×P×R)/(P+R),式中TP为预测测试结果中预测正确的正例数,TN为预测测试结果中预测正确的负例数,FP为预测测试结果中预测错误的正例数,FN为预测测试结果中预测错误的负例数。
在一个实施例中,获取样本特征模型的评估结果,并根据评估结果判断样本特征模型效果是否达到预设效果;若样本特征模型效果达到预设效果,则采用梯度提升决策树算法对样本特征模型进行调优,得到数据特征模型;其中,梯度提升决策树算法中设F(x,P)为目标分类函数,P为参数集,函数表达式为如下格式:
式中,h(x;α)表示基函数,α={α1,α2,...αm}。
在一个实施例中,获取待处理数据,并将待处理数据输入数据特征模型中,通过数据特征模型对待处理数据进行数据处理,并生成结果数据,数据处理包括数据整合、数据分类、数据分析和/或数据预测,结果数据包括结构化数据、半结构化数据和/或非结构化数据;提取结果数据,并将结果数据存储于数据库中,数据库包括ORACLE和/或MySQL;根据结果数据确定对应的知识图谱,并将知识图谱存储于Neo4j数据库中;采用Flask框架将Neo4j数据库中存储的知识图谱可视化展示于用户的Web端。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行以下基于知识图谱的数据处理方法的步骤:获取原始数据,并对原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;对训练数据集进行训练,构建样本特征模型;采用验证数据集对样本特征模型的有效性进行验证;采用测试数据集对验证后的样本特征模型进行数据预测,并根据数据预测的测试结果对样本特征模型进行评估;根据样本特征模型的评估结果进行模型调优,得到数据特征模型;将待处理数据输入数据特征模型中,得到结果数据,并根据结果数据构建知识图谱,将知识图谱可视化输出至用户的Web端。
在一个实施例中,从数据库中提取结果数据,并对结果数据进行集成、转换处理,得到待解析数据;基于动态本体模型构建知识图谱,知识图谱是用于构建数据实体、实体属性及实体关系的知识体系,知识图谱的节点为数据处理的关键概念,节点之间由一个或多个关系建立的通路称为路径;根据知识图谱采用可视化方法进行数据处理,得到数据处理有效的数据结论;对得到的数据处理有效的数据结论采用知识树、图谱等多种形式展示;通过自动更新方式输入新数据,对知识图谱进行增量式的动态更新。
在一个实施例中,获取待解析数据,并对待解析数据进行解析,得到语义信息,根据对象、关系、属性的定义,构建动态本体模型,抽取实体之间的关系;基于动态本体模型,构建知识图谱,知识图谱用于对结果数据进行分析。
在一个实施例中,对语义信息进行信息抽取处理,信息抽取过程包括实体抽取、关系抽取、属性抽取;对信息抽取处理后的语义信息利用动态本体模型进行知识融合和知识加工,获取知识图谱。
在一个实施例中,可视化展示数据处理的分析路径和推导过程。
在一个实施例中,提取训练数据集中训练样本;对训练数据集中训练样本进行特征识别,得到目标特征集合和属性特征集合,并根据目标特征集合和属性特征集合,对训练数据集中训练样本进行特征标签的标注;获取预设的机器学习模型,根据与目标特征集合和属性特征集合中对应的特征向量,对预设的机器学习模型进行训练,得到样本特征模型。
在一个实施例中,提取验证数据集中验证样本,验证样本包括验证子数据和预期结果值;将验证样本中的验证子数据输入样本特征模型中,得到实际结果值;根据实际结果值和预期结果值,确定验证样本的残差,并判断验证样本的残差是否在预设的阈值范围内;若验证样本的残差不在预设的阈值范围内,则将样本特征模型淘汰;若验证样本的残差在预设的阈值范围内,则样本特征模型验证有效,并加入有效模型集合。
在一个实施例中,提取测试数据集中测试样本,测试样本包括测试子数据;将测试样本中的测试子数据输入验证后的样本特征模型中进行数据预测,得到预测测试结果;根据预测测试结果,评估样本特征模型的性能指标,性能指标包括准确率、精准率和召回率。
在一个实施例中,计算准确率的公式为:P=(TP+TN)/(TP+FP+FN+TN),计算精准率的公式为:R=(TP)/(TP+FP),计算召回率的公式为:F1=(2×P×R)/(P+R),式中TP为预测测试结果中预测正确的正例数,TN为预测测试结果中预测正确的负例数,FP为预测测试结果中预测错误的正例数,FN为预测测试结果中预测错误的负例数。
在一个实施例中,获取样本特征模型的评估结果,并根据评估结果判断样本特征模型效果是否达到预设效果;若样本特征模型效果达到预设效果,则采用梯度提升决策树算法对样本特征模型进行调优,得到数据特征模型;其中,梯度提升决策树算法中设F(x,P)为目标分类函数,P为参数集,函数表达式为如下格式:
式中,h(x;α)表示基函数,α={α1,α2,...αm}。
在一个实施例中,获取待处理数据,并将待处理数据输入数据特征模型中,通过数据特征模型对待处理数据进行数据处理,并生成结果数据,数据处理包括数据整合、数据分类、数据分析和/或数据预测,结果数据包括结构化数据、半结构化数据和/或非结构化数据;提取结果数据,并将结果数据存储于数据库中,数据库包括ORACLE和/或MySQL;根据结果数据确定对应的知识图谱,并将知识图谱存储于Neo4j数据库中;采用Flask框架将Neo4j数据库中存储的知识图谱可视化展示于用户的Web端。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (14)
1.一种基于知识图谱的数据处理方法,其特征在于,所述基于知识图谱的数据处理方法包括以下步骤:
获取原始数据,并对所述原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,所述预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;
对所述训练数据集进行训练,构建样本特征模型;
采用所述验证数据集对所述样本特征模型的有效性进行验证;
采用所述测试数据集对验证后的所述样本特征模型进行数据预测,并根据所述数据预测的测试结果对所述样本特征模型进行评估;
根据所述样本特征模型的评估结果进行模型调优,得到数据特征模型;
将待处理数据输入所述数据特征模型中,得到结果数据,并根据所述结果数据构建知识图谱,将所述知识图谱可视化输出至用户的Web端。
2.根据权利要求1所述的基于知识图谱的数据处理方法,其特征在于,所述根据所述结果数据构建知识图谱,将所述知识图谱可视化输出至用户的Web端,包括:
从数据库中提取结果数据,并对所述结果数据进行集成、转换处理,得到待解析数据;
基于动态本体模型构建知识图谱,所述知识图谱是用于构建数据实体、实体属性及实体关系的知识体系,知识图谱的节点为数据处理的关键概念,节点之间由一个或多个关系建立的通路称为路径;
根据所述知识图谱采用可视化方法进行数据处理,得到数据处理有效的数据结论;
对得到的所述数据处理有效的数据结论采用知识树、图谱等多种形式展示;
通过自动更新方式输入新数据,对知识图谱进行增量式的动态更新。
3.根据权利要求2所述的基于知识图谱的数据处理方法,其特征在于,所述基于所述动态本体模型构建知识图谱,包括:
获取所述待解析数据,并对所述待解析数据进行解析,得到语义信息,根据对象、关系、属性的定义,构建动态本体模型,抽取实体之间的关系;
基于所述动态本体模型,构建知识图谱,所述知识图谱用于对所述结果数据进行分析。
4.根据权利要求3所述的基于知识图谱的数据处理方法,其特征在于,所述基于所述动态本体模型,构建知识图谱,包括:
对所述语义信息进行信息抽取处理,所述信息抽取过程包括实体抽取、关系抽取、属性抽取;
对信息抽取处理后的所述语义信息利用所述动态本体模型进行知识融合和知识加工,获取知识图谱。
5.根据权利要求2所述的基于知识图谱的数据处理方法,其特征在于,所述采用可视化方法进行数据处理,包括:可视化展示数据处理的分析路径和推导过程。
6.根据权利要求1所述的基于知识图谱的数据处理方法,其特征在于,所述对所述训练数据集进行训练,构建样本特征模型,包括:
提取所述训练数据集中训练样本;
对所述训练数据集中训练样本进行特征识别,得到目标特征集合和属性特征集合,并根据所述目标特征集合和所述属性特征集合,对所述训练数据集中训练样本进行特征标签的标注;
获取预设的机器学习模型,根据与所述目标特征集合和所述属性特征集合中对应的特征向量,对所述预设的机器学习模型进行训练,得到样本特征模型。
7.根据权利要求1所述的基于知识图谱的数据处理方法,其特征在于,所述采用所述验证数据集对所述样本特征模型的有效性进行验证,包括:
提取所述验证数据集中验证样本,所述验证样本包括验证子数据和预期结果值;
将所述验证样本中的验证子数据输入所述样本特征模型中,得到实际结果值;
根据所述实际结果值和预期结果值,确定所述验证样本的残差,并判断所述验证样本的残差是否在预设的阈值范围内;
若所述验证样本的残差不在预设的阈值范围内,则将所述样本特征模型淘汰;
若所述验证样本的残差在预设的阈值范围内,则所述样本特征模型验证有效,并加入有效模型集合。
8.根据权利要求1所述的基于知识图谱的数据处理方法,其特征在于,所述采用所述测试数据集对验证后的所述样本特征模型进行数据预测,并根据所述数据预测的测试结果对所述样本特征模型进行评估,包括:
提取所述测试数据集中测试样本,所述测试样本包括测试子数据;
将所述测试样本中的测试子数据输入验证后的所述样本特征模型中进行数据预测,得到预测测试结果;
根据所述预测测试结果,评估所述样本特征模型的性能指标,所述性能指标包括准确率、精准率和召回率。
9.根据权利要求8所述的基于知识图谱的数据处理方法,其特征在于,所述根据所述预测测试结果,评估所述样本特征模型的性能指标,所述性能指标包括准确率、精准率和召回率,包括:
计算所述准确率的公式为:P=(TP+TN)/(TP+FP+FN+TN),计算所述精准率的公式为:R=(TP)/(TP+FP),计算所述召回率的公式为:F1=(2×P×R)/(P+R),式中TP为所述预测测试结果中预测正确的正例数,所述TN为所述预测测试结果中预测正确的负例数,所述FP为所述预测测试结果中预测错误的正例数,FN为所述预测测试结果中预测错误的负例数。
11.根据权利要求1所述的基于知识图谱的数据处理方法,其特征在于,所述将待处理数据输入所述数据特征模型中,得到结果数据,并根据所述结果数据构建知识图谱,将所述知识图谱可视化输出至用户的Web端,包括:
获取待处理数据,并将所述待处理数据输入所述数据特征模型中,通过所述数据特征模型对所述待处理数据进行数据处理,并生成结果数据,所述数据处理包括数据整合、数据分类、数据分析和/或数据预测,结果数据包括结构化数据、半结构化数据和/或非结构化数据;
提取所述结果数据,并将所述结果数据存储于数据库中,所述数据库包括ORACLE和/或MySQL;
根据所述结果数据确定对应的知识图谱,并将所述知识图谱存储于Neo4j数据库中;
采用Flask框架将所述Neo4j数据库中存储的所述知识图谱可视化展示于用户的Web端。
12.一种基于知识图谱的数据处理装置,其特征在于,所述基于知识图谱的数据处理装置包括:
预处理模块,用于获取原始数据,并对所述原始数据进行预处理,形成训练数据集、验证数据集和测试数据集,所述预处理至少包括标准化处理、数据清洗处理和/或数据噪声处理;
训练模块,用于对所述训练数据集进行训练,构建样本特征模型;
验证模块,用于采用所述验证数据集对所述样本特征模型的有效性进行验证;
评估模块,用于采用所述测试数据集对验证后的所述样本特征模型进行数据预测,并根据所述数据预测的测试结果对所述样本特征模型进行评估;
调优模块,用于根据所述样本特征模型的评估结果进行模型调优,得到数据特征模型;
输出模块,用于将待处理数据输入所述数据特征模型中,得到结果数据,并根据所述结果数据构建知识图谱,将所述知识图谱可视化输出至用户的Web端。
13.一种基于知识图谱的数据处理设备,其特征在于,所述基于知识图谱的数据处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于知识图谱的数据处理设备执行如权利要求1-11中任一项所述的基于知识图谱的数据处理方法的步骤。
14.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述的基于知识图谱的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111079263.2A CN113779272B (zh) | 2021-09-15 | 2021-09-15 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111079263.2A CN113779272B (zh) | 2021-09-15 | 2021-09-15 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779272A true CN113779272A (zh) | 2021-12-10 |
CN113779272B CN113779272B (zh) | 2024-01-26 |
Family
ID=78843887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111079263.2A Active CN113779272B (zh) | 2021-09-15 | 2021-09-15 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779272B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398492A (zh) * | 2021-12-24 | 2022-04-26 | 森纵艾数(北京)科技有限公司 | 一种在数字领域的知识图谱构建方法、终端及介质 |
CN114820074A (zh) * | 2022-05-16 | 2022-07-29 | 郑州简信软件科技有限公司 | 基于机器学习的目标用户群体预测模型构建方法 |
CN115098784A (zh) * | 2022-07-18 | 2022-09-23 | 李圣刚 | 一种数据挖掘方法及数据挖掘系统 |
CN115374106A (zh) * | 2022-07-15 | 2022-11-22 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据智能分级方法 |
CN115396929A (zh) * | 2022-08-15 | 2022-11-25 | 中国联合网络通信集团有限公司 | 性能数据的预测方法、装置及存储介质 |
CN116684452A (zh) * | 2023-08-04 | 2023-09-01 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的知识中台构建方法及系统 |
CN117076810A (zh) * | 2023-10-12 | 2023-11-17 | 睿至科技集团有限公司 | 一种基于人工智能的互联网大数据处理系统及方法 |
CN117217392A (zh) * | 2023-11-07 | 2023-12-12 | 中国电子科技集团公司第十五研究所 | 一种通用装备保障需求的确定方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906892A (zh) * | 2021-03-08 | 2021-06-04 | 南京航空航天大学 | 一种基于深度学习与知识图谱的设备故障智能诊断方法 |
CN112989004A (zh) * | 2021-04-09 | 2021-06-18 | 苏州爱语认知智能科技有限公司 | 面向知识图谱问答的查询图排序方法及系统 |
CN113268603A (zh) * | 2021-05-08 | 2021-08-17 | 大箴(杭州)科技有限公司 | 一种新闻舆情知识图谱的构建方法及装置、介质、设备 |
-
2021
- 2021-09-15 CN CN202111079263.2A patent/CN113779272B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906892A (zh) * | 2021-03-08 | 2021-06-04 | 南京航空航天大学 | 一种基于深度学习与知识图谱的设备故障智能诊断方法 |
CN112989004A (zh) * | 2021-04-09 | 2021-06-18 | 苏州爱语认知智能科技有限公司 | 面向知识图谱问答的查询图排序方法及系统 |
CN113268603A (zh) * | 2021-05-08 | 2021-08-17 | 大箴(杭州)科技有限公司 | 一种新闻舆情知识图谱的构建方法及装置、介质、设备 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398492A (zh) * | 2021-12-24 | 2022-04-26 | 森纵艾数(北京)科技有限公司 | 一种在数字领域的知识图谱构建方法、终端及介质 |
CN114398492B (zh) * | 2021-12-24 | 2022-08-30 | 森纵艾数(北京)科技有限公司 | 一种在数字领域的知识图谱构建方法、终端及介质 |
CN114820074A (zh) * | 2022-05-16 | 2022-07-29 | 郑州简信软件科技有限公司 | 基于机器学习的目标用户群体预测模型构建方法 |
CN115374106A (zh) * | 2022-07-15 | 2022-11-22 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据智能分级方法 |
CN115374106B (zh) * | 2022-07-15 | 2023-05-26 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据智能分级方法 |
CN115098784A (zh) * | 2022-07-18 | 2022-09-23 | 李圣刚 | 一种数据挖掘方法及数据挖掘系统 |
CN115396929A (zh) * | 2022-08-15 | 2022-11-25 | 中国联合网络通信集团有限公司 | 性能数据的预测方法、装置及存储介质 |
CN116684452A (zh) * | 2023-08-04 | 2023-09-01 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的知识中台构建方法及系统 |
CN116684452B (zh) * | 2023-08-04 | 2023-10-03 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的知识中台构建方法及系统 |
CN117076810A (zh) * | 2023-10-12 | 2023-11-17 | 睿至科技集团有限公司 | 一种基于人工智能的互联网大数据处理系统及方法 |
CN117217392A (zh) * | 2023-11-07 | 2023-12-12 | 中国电子科技集团公司第十五研究所 | 一种通用装备保障需求的确定方法及装置 |
CN117217392B (zh) * | 2023-11-07 | 2024-01-09 | 中国电子科技集团公司第十五研究所 | 一种通用装备保障需求的确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113779272B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113779272B (zh) | 基于知识图谱的数据处理方法、装置、设备及存储介质 | |
CN113723632B (zh) | 一种基于知识图谱的工业设备故障诊断方法 | |
WO2021103492A1 (zh) | 一种企业经营风险预测方法和系统 | |
CN112612902A (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
CN111597347B (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN108959395B (zh) | 一种面向多源异构大数据的层次约减联合清洗方法 | |
CN114003791B (zh) | 基于深度图匹配的医疗数据元自动化分类方法及系统 | |
CN113656805B (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN105045875A (zh) | 个性化信息检索方法及装置 | |
CN116610816A (zh) | 一种基于图卷积神经网络的人员画像知识图谱分析方法及系统 | |
CN113742396B (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN113987199A (zh) | 一种规范自动解译的bim智能审图方法、系统和介质 | |
CN118411059B (zh) | 一种高校业务数据处理方法、系统、介质及设备 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级系统 | |
CN116484025A (zh) | 漏洞知识图谱构建方法、评估方法、设备及存储介质 | |
CN117290404A (zh) | 一种主配网故障处理方法快速检索实用方法及系统 | |
CN117633518B (zh) | 一种产业链构建方法及系统 | |
Dutta et al. | Big data architecture for environmental analytics | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
CN112835797A (zh) | 一种基于程序中间结构特征的蜕变关系预测方法 | |
CN114816979B (zh) | 一种基于聚类分析和决策树算法的软件缺陷预测方法 | |
US11941020B2 (en) | Displaying query results using machine learning model-determined query results visualizations | |
Pan et al. | Sequential design command prediction using BIM event logs | |
Pan et al. | An Intelligent Framework for Log Anomaly Detection Based on Log Template Extraction | |
CN112579667B (zh) | 数据驱动的发动机多学科知识机器学习方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |