CN115309906A - 一种基于知识图谱技术的数据智能分类技术 - Google Patents
一种基于知识图谱技术的数据智能分类技术 Download PDFInfo
- Publication number
- CN115309906A CN115309906A CN202211137143.8A CN202211137143A CN115309906A CN 115309906 A CN115309906 A CN 115309906A CN 202211137143 A CN202211137143 A CN 202211137143A CN 115309906 A CN115309906 A CN 115309906A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- classified
- feature
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 43
- 239000008280 blood Substances 0.000 claims abstract description 20
- 210000004369 blood Anatomy 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 29
- 238000007726 management method Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013523 data management Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱技术的数据智能分类技术,通过血缘关系构建知识图谱,并根据社群发现算法,将待分类的数据划分为若干群组;提取若干群组中每个群组的第一特征;对现有族群进行特征提取,获得每个群组的第二特征;根据聚类算法构建特征匹配模型,并将第一特征与第二特征进行匹配,根据匹配结果对待分类数据进行自动分类;通过用户进行人工纠偏,分析数据分类的准确性以及关键控制点;基于以上对数据信息的分类及分析,持续完善对机器的学习,不断提高数据分类的准确度,并降低由人工分类耗费的成本与精力。
Description
技术领域
本发明涉及增强数据管理领域,特别是涉及一种基于知识图谱技术的数据智能分类技术。
背景技术
数据分类分级管理,是目前被公认为行之有效的数据管理手段,但是数据的分类,目前仍然是通过人工方式进行数据划分,而人工划分数据的方式常常会使数据出现很多纰漏,并且也会耗费大量的时间与精力成本,使数据管理产生较大的不便,同时也在降低数据治理的智能化进程。
随着大数据在各行各业的广泛渗透,其种类和形式也越来越多样化,因此,对于数据的分类分级管理成为现阶段的研究热点,通常情况下,数据具有内容要素种类差距大,数据来源广泛的特点,因此,对其进行分类时,主要是要对数据之间的内在关系进行准确识别,以此作为数据分类的基础,但是由于多源数据包含的数据内容以及结构更加多样化,其特征差异也较大,因此,在对其进行分类时,难度也比较大。
发明内容
本发明提供一种基于知识图谱技术的数据智能分类技术,以解决现有技术中存在的上述问题。
与现有技术相比,本发明具有以下优点:
本发明提供的技术方案为:
本申请提供了一种基于知识图谱技术的分类技术,包括:
步骤S100,基于数据血缘关系构建知识图谱,并通过知识图谱的社群发现算法,将待分类数据划分为若干个群组;提取若干个群组中每个群组的第一特征;
步骤S200,对现有族群进行特征提取,获得每个族群的第二特征;
步骤S300,基于机器学习聚类算法构建特征匹配模型,基于所述特征匹配模型对第一特征和第二特征进行匹配,根据匹配结果对待分类数据进行自动分类。
可选的,所述步骤S300包括:
基于机器学习聚类算法将第二特征与第一特征进行匹配,若匹配成功,将该匹配成功的群组中所有待分类数据划分为相应的现有族群中;若匹配不成功,对待分类数据进行进一步细化划分,形成若干个细化群组,提取每个细化群组的第三特征,将第三特征与第一特征进行匹配,若匹配成功,将该细化群组中所有待分类数据划分为对应的族群中,若匹配不成功,则重复对待分类数据的进一步细化划分的步骤,直至将待分类数据全部自动分类至现有的族群中。
可选的,所述步骤S300之后还包括:
步骤S400,通过用户进行人工纠偏,分析数据信息分类的准确性以及关键控制点;
步骤S500,基于以上对数据信息的分类及分析,将分类及分析结果作为机器学习分类算法的优化因素输入至所述特征匹配模型。
可选的,所述步骤S100中,基于知识图谱的社群发现算法,将待分类数据划分为若干个群组,包括:
知识图谱架构:知识图谱的架构分为逻辑结构与体系结构,其中,逻辑结构主要包括数据层和模式层;
知识图谱构建方式:运用自底向上的构建方式,首先从公开的连接中提取实体,然后将置信度较高的实体添加到知识库中,再构建顶层本体;
数据信息采集:通过获取数据,结合社群发现算法,以手工和半自动化的方式,进行数据采集,经过知识抽取、知识融合形成统一的知识数据信息,并划分为若干个群组。
具体的,在上述步骤中,还包括;
步骤S100包括:计算待分类数据的唯一值、最大值、最小值、类型、关联的标准,根据已构建的数据血缘关系,使用图发现算法,对待分类数据进行聚类,形成新的群组。
步骤S200包括:对现有族群分类的数据,系统将提取出现有族群分类下的数据的总体特征,设定为第二特征。
可选的,所述步骤S300中,基于机器学习分类算法构建特征匹配模型,包括:
对大量未知标注的数据族群,按数据的内在相似性将数据族群划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;
通过聚类算法中的模块度对数据族群进行划分判定,根据判定结果预测数据划分的标准是否符合用户要求;
将数据族群划分好后构成特征匹配模型,通过第一特征与第二特征的匹配,进行机器智能分类。
可选的,所述步骤S500中,对数据信息的分类及分析,包括:
用户在元数据管理过程中,从数据源的待选区选择一批未分类的数据,系统机器在经过学习后,根据血缘关系,在是否应用选项框中点击确定,将对数据在基于算法的条件下进行自动分类,然后,用户根据分类结果,进行微调,微调得出的结果同时也会作为下一步分类的特征输入。
可选的,所述已构建的血缘关系,包括:
溯源分析:由各类数据构成的血缘关系作为实际数据的管理,通过支撑、分析数据,将开发过程中的各类溯源进行分析,并判断问题的影响;
构建数据网络:通过实现对数据的血缘识别、发现,构建成为数据网络;
数据血缘关系可视化:通过可视化将规则、流向分布显示在图像上的不同位置,并起到追溯数据溯源、评估数据价值、数据质量评估的作用。
可选的,所述用户在元数据管理活动中,可选择一批未分类的数据,系统将自动对数据在基于算法的条件下进行自动分类,包括:
对数据的特征进行准确提取,通过对提取结果进行深度学习,实现对待分类数据的自动分类,根据深度学习的结果,分别从数据内容特征及结构两个方面实现对数据的自动分类,通过寻找与数据内容特征差异最小的数据类别,判断其对应的分类结构,计算待分类数据学习结果中的最优映射。
可选的,所述对数据的特征进行准确提取,包括:
当收集到有效的数据信息后,系统机器将数据信息按照一定的字段规则保存到数据库中,数据库中保存的数据有:被标注的样本数据、测试数据、正确被分类的结果数据,和未被分类的离群数据;
接下来系统机器获取数据库中的样本数据,通过对样本数据的训练学习构建出分类模型,用于后续分类处理;
分类模型对采集到的数据信息进行预处理过程,通过特征提取手段找到数据信息的特征词,进行分类,并判断出数据信息属于正确被分类的数据还是未被分类的离群数据;
若数据属于未被分类的离群数据,则需要将离散数据信息推送至管理层,供管理层的分析,管理人员通过查看系统推送消息将离群数据进行归类。
可选的,所述通过聚类算法中的模块度对刻画的数据集进行划分,包括:
在通过对数据的训练学习并构建特征匹配模型后,通过系统机器测试类别之间的相似度以及类别的区分能力,在类别区分能力好的情况下,继续测试构建特征匹配模型的好坏,如果构建模型不够理想,则需要对模型重新作出调整,调整对象为聚类算法中模块度的参数,根据模块度刻画数据集划分的优劣以及运用图团体检测方法,对模块度进行评价,并测试出系统机器的分类成果。
相比于现有技术,本发明提供了一种基于知识图谱的数据智能分类技术,基于知识图谱的群算法、结合机器学习的聚类算法,对现有的数据进行智能的分类,用户在元数据管理的活动中,可选择一批未分类的数据,系统将自动将数据基于算法进行分类,同时,用户根据分类结果,进行微调即人工纠偏,微微调得出的结果同时也会作为下一步分类的特征输入,持续进行学习完善,不断提高数据的精准度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中提供的一种基于知识图谱技术的数据智能分类技术结构示意图;
图2为本发明实施例中提供的一种基于知识图谱技术的数据智能分类技术流程示意图;
图3为本发明实施例中提供的一种基于知识图谱技术的数据智能分类技术界面示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本发明保护的范围。
参照图1,本发明实施例提供了一种基于知识图谱技术的数据智能分类技术,包括以下步骤:
步骤S100,基于数据血缘关系构建知识图谱,并通过知识图谱的社群发现算法,将待分类数据划分为若干个群组;提取若干个群组中每个群组的第一特征。
在本实施例中,知识图谱的构建过程包括:
知识图谱架构:知识图谱的架构分为逻辑结构与体系结构,其中,逻辑结构主要包括数据层和模式层;
知识图谱构建方式:运用自底向上的构建方式,首先从公开的连接中提取实体,然后将置信度较高的实体添加到知识库中,再构建顶层本体;
数据信息采集:通过获取数据,结合社群发现算法,以手工和半自动化的方式,进行数据采集,经过知识抽取、知识融合形成统一的知识数据信息。
上述技术方案的有益效果为:知识图谱用于迅速描述世界中的概念及其相互关系,通过聚合大量数据信息,实现数据的快速响应与推理。自底向上的构建方式可以对实体进行组织归纳,形成底层概念,再逐步向上抽象,形成上层概念,该构建方式基于现有标准转换成数据可视模式。最后经过数据信息的采集实现数据信息之间的合并构建成为知识图谱,应用于各行各业中。
步骤S200:对现有族群进行特征提取,获得每个族群的第二特征;
具体地,在本步骤中,对聚类算法进行数据挖掘,包括:对大量未知标注的数据族群,按数据的内在相似性将数据族群划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。将数据族群划分好后构成特征匹配模型,通过第一特征与第二特征的匹配,进行机器智能分类。
在通过对数据的训练学习并构特征匹配模型后,通过系统机器测试类别之间的相似度以及类别的区分能力,在类别区分能力好的情况下,继续测试构建特征匹配模型的好坏,如果构建模型不够理想,则需要对模型重新作出调整,调整对象为聚类算法中模块度的参数,根据聚类算法中的模块度刻画数据集划分的优劣以及运用图团体检测方法,对模块度进行评价,模块度越大,数据集划分效果越好,最后测试出系统机器的分类成果。
在本实施例中,模块度刻画数据集划分的优劣,根据图团体检测方法,对于模块度的评价标准可以使用以下公式:
根据图团体检测方法,对于模块度的评价标准可以使用以下公式:
其中,L代表数据集中边的数量,N表示定点数量,Aij代表真实的顶点i和j之间的边数,ki表示顶点i的度,kj代表顶点j的度,可以通过将每一行每一列的项相加起来而得到;
kikj相乘再除以2L表示该网络是随机分配的时候顶点i和j之间的预期边数;
当在定点i和j之间存在一个非预期边是得到的值更高;
上述方案的有益效果为:通过聚类算法,对不同类别数据点间的相似度计算,可以使距离和相似度比较容易的定义,限制很少,并且不需要预先制定聚类数,并能够发现类的层次关系。通过模块度对数据集的划分,根据图团体检测的方法,该方法可以产生最高模块性分数的聚类效果良好,并通过模块性的改变来对数据进行融合。
参照图2,图2为本申请中数据智能分类的流程图,步骤S100和步骤S200还包括:
步骤S100包括:计算待分类数据的唯一值、最大值、最小值、类型、关联的标准,根据已构建的数据血缘关系,使用社群发现算法,对待分类数据进行聚类,形成新的群组。
步骤S200包括:对现有族群分类的数据,系统将提取出现有族群分类下的数据的总体特征,设定为第二特征。
具体地,根据已构建的血缘关系,包括:
溯源分析:由各类数据构成的血缘关系作为实际数据的管理,通过支撑、分析数据,将开发过程中的各类溯源进行分析,并判断问题的影响;
构建数据网络:通过实现对数据的血缘识别、发现,构建成为数据网络;
数据血缘关系可视化:通过可视化将规则、流向分布显示在图像上的不同位置,并起到追溯数据溯源、评估数据价值、数据质量评估的作用。
进一步地,使用社群发现算法,进行聚类,形成新的群组,包括以下步骤A1~A2:
步骤A1:将每个节点划分为与此节点邻接节点所在的网络中,以使得模块度的值不断变大;
步骤A2:将划分出来的网络聚类成一个点,根据步骤A1生成的网络结构重新构造一个网络,并重复以上过程,直到网络中的结构不再改变为止。
上述方案的有益效果为:通过血缘追踪,可以获得结果数据的来源信息,更新数据时能够反映原始数据库的变化,查看数据在数据流中的变化过程。通过提取分类数据的总体特征,并与群组进行匹配,经过多次群组数据的匹配,提高数据的准确性与可靠性。
步骤S300:基于机器学习聚类算法构建特征匹配模型,基于所述特征匹配模型对第一特征和第二特征进行匹配,根据匹配结果对待分类数据进行自动分类。
具体地,步骤S300包括:
基于机器学习聚类算法将第二特征与第一特征进行匹配,若匹配成功,将该匹配成功的群组中所有待分类数据划分为相应的现有族群中;若匹配不成功,对待分类数据进行进一步细化划分,形成若干个细化群组,提取每个细化群组的第三特征,将第三特征与第一特征进行匹配,若匹配成功,将该细化群组中所有待分类数据划分为对应的族群中,若匹配不成功,则重复对待分类数据的进一步细化划分的步骤,直至将待分类数据全部自动分类至现有的族群中。
上述方案的有益效果为:通过将族群的数据进行重复划分,并进行匹配,可以形成一套划分规则与划分模块,机器在学习前几类的划分模块后可以对接下来的数据信息进行更加准确的划分,最后完成对所有数据信息的分类分群。
步骤S400,通过用户进行人工纠偏,分析数据信息分类的准确性以及关键控制点;
步骤S500,基于以上对数据信息的分类及分析,将分类及分析结果作为机器学习分类算法的优化因素输入至所述特征匹配模型。
参照图3,图3为基于知识图谱技术的数据智能分类技术的界面示意图,在基于血缘维护的条件下,将数据进行智能分类,用户在元数据管理过程中,从数据源的待选区选择一批未分类的数据,数据分为表名称、中文名称、算法推荐/sql脚本解析三种分类,系统机器在经过学习后,根据血缘关系,在是否应用选项框中点击确定,将对数据在基于算法的条件下进行自动分类,然后,用户根据分类结果,进行微调,将微调得出的结果作为新的分类特征输入到特征匹配模型中。
进一步地,用户在元数据管理活动中,可选择一批未分类的数据,将对数据在基于算法的条件下进行自动分类,包括:
对数据的特征进行准确提取,通过对提取结果进行深度学习,实现对待分类数据的自动分类,根据深度学习的结果,分别从数据内容特征及结构两个方面实现对数据的自动分类,通过寻找与数据内容特征差异最小的数据类别,判断其对应的分类结构,计算待分类数据学习结果中的最优映射。
在本实施例中,从数据内容特征及结构两个方面实现对数据的自动分类,包括:
根据携带的数据信息的权重以及偏置变量对其特征进行计算,可表示为:
ωp=f(ap+b)
其中,待分类数据为p∈Rn,a表示数据携带信息的权重,b表示数据的偏置参数,Rn表示其所在数据域范围,f表示激活函数。ωp和Sp分别表示其内容特征和结构特征。SIMM(*)表示不同数据域结构的相似性,通过上述两式得到待分类数据的特征,将两式与深度学习结果进行映射寻优,表示公式为:
其中,Tω表示深度学习得到的多源数据间的内容特征,Ts表示多源数据间的结构特征,当sim(ωc,Tω)为最大值,且sim(Sω,Ts)也为最大值时,则认为该数据的分类结果与Tω所在的类别一致,以此实现对数据集的自动分类。
进一步地,对数据的特征进行准确提取,包括:
当收集到有效的数据信息后,系统机器将数据信息按照一定的字段规则保存到数据库中,数据库中保存的数据有:被标注的样本数据、测试数据、正确被分类的结果数据,和未被分类的离群数据;
接下来系统机器获取数据库中的样本数据,通过对样本数据的训练学习构建出分类模型,用于后续分类处理;
分类模型对采集到的数据信息进行预处理过程,通过特征提取手段找到数据信息的特征词,进行分类,并判断出数据信息属于正确被分类的数据还是未被分类的离群数据;
若数据属于未被分类的离群数据,则需要将离散数据信息推送至管理层,供管理层的分析,管理人员通过查看系统推送消息将离群数据进行归类。
上述技术方案的有益效果为:通过知识图谱的社群发现算法,可以把异构中的数据信息结构化,并构建数据信息之间的关联,通过构造的数据图,支撑数据的挖掘和分析,结合机器学习的聚类算法,作为一个单独的工具以发现数据库中分布的深层信息,并概括出每一类的特点,最后对现有的数据进行智能分群分类,并可以通过人工纠偏,使机器在学习分类时在下一次可以做到更准确的分类。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于知识图谱技术的数据智能分类技术,其特征在于,包括以下骤;
步骤S100,基于数据血缘关系构建知识图谱,并通过知识图谱的社群发现算法,将待分类数据划分为若干个群组;提取若干个群组中每个群组的第一特征;
步骤S200,对现有族群进行特征提取,获得每个族群的第二特征;
步骤S300,基于机器学习聚类算法构建特征匹配模型,基于所述特征匹配模型对第一特征和第二特征进行匹配,根据匹配结果对待分类数据进行自动分类。
2.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,所述步骤S300包括:
基于机器学习聚类算法将第二特征与第一特征进行匹配,若匹配成功,将该匹配成功的群组中所有待分类数据划分为相应的现有族群中;若匹配不成功,对待分类数据进行进一步细化划分,形成若干个细化群组,提取每个细化群组的第三特征,将第三特征与第一特征进行匹配,若匹配成功,将该细化群组中所有待分类数据划分为对应的族群中,若匹配不成功,则重复对待分类数据的进一步细化划分的步骤,直至将待分类数据全部自动分类至现有的族群中。
3.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,所述步骤S300之后还包括:
步骤S400,通过用户进行人工纠偏,分析数据信息分类的准确性以及关键控制点;
步骤S500,基于以上对数据信息的分类及分析,将分类及分析结果作为机器学习分类算法的优化因素输入至所述特征匹配模型。
4.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,所述步骤S100中,通过知识图谱的社群发现算法,将待分类数据划分为若干个群组,包括:
知识图谱架构:知识图谱的架构分为逻辑结构与体系结构,其中,逻辑结构主要包括数据层和模式层;
知识图谱构建方式:运用自底向上的构建方式,首先从公开的连接中提取实体,然后将置信度较高的实体添加到知识库中,再构建顶层本体;
数据信息采集:通过获取数据,结合社群发现算法,以手工和半自动化的方式,进行数据采集,经过知识抽取、知识融合形成统一的知识数据信息,并划分为若干个群组。
5.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,包括;
步骤S100包括:计算待分类数据的唯一值、最大值、最小值、类型、关联的标准,根据已构建的数据血缘关系,使用社群发现算法,对待分类数据进行聚类,根据聚类算法形成新的族群;
步骤S200包括:,对现有族群分类的数据,系统将提取出现有族群分类下的数据的总体特征,设定为第二特征。
6.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,所述步骤S300中,基于机器学习分类算法构建特征匹配模型,包括:
对大量未知标注的数据族群,按数据的内在相似性将数据族群划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;
通过聚类算法中的模块度对数据族群进行划分判定,根据判定结果预测数据划分的标准是否符合用户要求;
将数据族群划分好后构成特征匹配模型,通过第一特征与第二特征的匹配,进行机器智能分类。
7.根据权利要求3所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,所述步骤S500中,对数据信息的分类及分析,包括:
用户在元数据管理过程中,从数据源的待选区选择一批未分类的数据,系统机器在经过学习后,根据血缘关系,在是否应用选项框中点击确定,在基于算法的条件下对数据进行自动分类,然后,用户根据分类结果,进行微调,将微调得出的结果作为新的分类特征输入到特征匹配模型中。
8.根据权利要求5所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,所述已构建的血缘关系,包括:
溯源分析:由各类数据构成的血缘关系作为实际数据的管理,通过支撑、分析数据,将开发过程中的各类溯源进行分析,并判断问题的影响;
构建数据网络:通过实现对数据的血缘识别、发现,构建成为数据网络;
数据血缘关系可视化:通过可视化将规则、流向分布显示在图像上的不同位置,并起到追溯数据溯源、评估数据价值、数据质量评估的作用。
9.根据权利要求7所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,所述将对数据在基于算法的条件下进行自动分类,包括:
当收集到有效的数据信息后,系统机器将数据信息按照一定的字段规则保存到数据库中,数据库中保存的数据有:被标注的样本数据、测试数据、正确被分类的结果数据和未被分类的离群数据;
系统机器获取数据库中的样本数据,通过对样本数据的训练学习构建出分类模型,用于后续分类处理;
分类模型对采集到的数据信息进行预处理过程,通过特征提取手段找到数据信息的特征词,进行分类,并判断出数据信息属于正确被分类的数据还是未被分类的离群数据;
若数据属于未被分类的离群数据,则需要将离散数据信息推送至管理层,供管理层的分析,管理人员通过查看系统推送消息将离群数据进行归类。
10.根据权利要求6所述的一种基于知识图谱技术的数据智能分类技术,其特征在于,所述通过聚类算法中的模块度对刻画的数据族群进行划分,包括:
在通过对数据的训练学习并构建特征匹配模型后,通过系统机器测试类别之间的相似度以及类别的区分能力,在类别区分能力好的情况下,继续测试构建特征匹配模型的好坏,如果构建模型不够理想,则需要对模型重新作出调整,调整对象为聚类算法中模块度的参数,根据模块度刻画数据集划分的优劣以及运用图团体检测方法,对模块度进行评价,并测试出系统机器的分类成果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211137143.8A CN115309906B (zh) | 2022-09-19 | 2022-09-19 | 一种基于知识图谱技术的数据智能分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211137143.8A CN115309906B (zh) | 2022-09-19 | 2022-09-19 | 一种基于知识图谱技术的数据智能分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115309906A true CN115309906A (zh) | 2022-11-08 |
CN115309906B CN115309906B (zh) | 2023-06-13 |
Family
ID=83866651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211137143.8A Active CN115309906B (zh) | 2022-09-19 | 2022-09-19 | 一种基于知识图谱技术的数据智能分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115309906B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738009A (zh) * | 2023-08-09 | 2023-09-12 | 北京谷器数据科技有限公司 | 一种对数据进行归档回溯的方法 |
CN117710152A (zh) * | 2024-02-02 | 2024-03-15 | 山东鑫光节能科技有限公司 | 一种基于聚类集成分析的光伏设备运行管理系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956628A (zh) * | 2016-05-13 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 数据分类方法和用于数据分类的装置 |
CN113127645A (zh) * | 2021-04-09 | 2021-07-16 | 厦门渊亭信息科技有限公司 | 大规模知识图谱本体自动抽取方法、终端设备及存储介质 |
CN113220878A (zh) * | 2021-05-06 | 2021-08-06 | 西安电子科技大学 | 一种基于知识图谱的ocr识别结果分类方法 |
DE102020208041A1 (de) * | 2020-06-29 | 2021-12-30 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Befüllen eines Knowledge-Graphen mittels strategischen Datensplits |
CN114764865A (zh) * | 2021-01-04 | 2022-07-19 | 腾讯科技(深圳)有限公司 | 数据分类模型训练方法、数据分类方法和装置 |
CN114817454A (zh) * | 2022-02-18 | 2022-07-29 | 北京邮电大学 | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 |
CN114817572A (zh) * | 2022-05-07 | 2022-07-29 | 上海外高桥造船有限公司 | 基于知识图谱的知识分类方法、系统、设备及介质 |
CN115017238A (zh) * | 2022-06-17 | 2022-09-06 | 泉州市大鲨鱼智造数字科技有限公司 | 一种可动态预测的数据流量检测分类方法 |
-
2022
- 2022-09-19 CN CN202211137143.8A patent/CN115309906B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956628A (zh) * | 2016-05-13 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 数据分类方法和用于数据分类的装置 |
DE102020208041A1 (de) * | 2020-06-29 | 2021-12-30 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Befüllen eines Knowledge-Graphen mittels strategischen Datensplits |
CN114764865A (zh) * | 2021-01-04 | 2022-07-19 | 腾讯科技(深圳)有限公司 | 数据分类模型训练方法、数据分类方法和装置 |
CN113127645A (zh) * | 2021-04-09 | 2021-07-16 | 厦门渊亭信息科技有限公司 | 大规模知识图谱本体自动抽取方法、终端设备及存储介质 |
CN113220878A (zh) * | 2021-05-06 | 2021-08-06 | 西安电子科技大学 | 一种基于知识图谱的ocr识别结果分类方法 |
CN114817454A (zh) * | 2022-02-18 | 2022-07-29 | 北京邮电大学 | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 |
CN114817572A (zh) * | 2022-05-07 | 2022-07-29 | 上海外高桥造船有限公司 | 基于知识图谱的知识分类方法、系统、设备及介质 |
CN115017238A (zh) * | 2022-06-17 | 2022-09-06 | 泉州市大鲨鱼智造数字科技有限公司 | 一种可动态预测的数据流量检测分类方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738009A (zh) * | 2023-08-09 | 2023-09-12 | 北京谷器数据科技有限公司 | 一种对数据进行归档回溯的方法 |
CN116738009B (zh) * | 2023-08-09 | 2023-11-21 | 北京谷器数据科技有限公司 | 一种对数据进行归档回溯的方法 |
CN117710152A (zh) * | 2024-02-02 | 2024-03-15 | 山东鑫光节能科技有限公司 | 一种基于聚类集成分析的光伏设备运行管理系统 |
CN117710152B (zh) * | 2024-02-02 | 2024-05-28 | 山东鑫光节能科技有限公司 | 一种基于聚类集成分析的光伏设备运行管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115309906B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115309906A (zh) | 一种基于知识图谱技术的数据智能分类技术 | |
Chen et al. | Personalized QoS-aware web service recommendation and visualization | |
US10013636B2 (en) | Image object category recognition method and device | |
US8045800B2 (en) | Active segmentation for groups of images | |
CN103117903B (zh) | 上网流量异常检测方法及装置 | |
CN110688549B (zh) | 一种基于知识体系图谱构建的人工智能分类方法与系统 | |
CN113360616A (zh) | 自动问答处理方法、装置、设备及存储介质 | |
CN109189876B (zh) | 一种数据处理方法及装置 | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
CN108304479B (zh) | 一种基于图结构过滤的快速密度聚类双层网络推荐方法 | |
CN108647729A (zh) | 一种用户画像获取方法 | |
Obaid et al. | Semantic web and web page clustering algorithms: a landscape view | |
Krivosheev et al. | Detecting and preventing confused labels in crowdsourced data | |
Wilkins et al. | Comparison of five clustering algorithms to classify phytoplankton from flow cytometry data | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
Liang et al. | Performance evaluation of document structure extraction algorithms | |
CN116883035A (zh) | 一种基于用户分群统计的业务匹配方法 | |
CN115691702A (zh) | 一种化合物可视化分类方法及系统 | |
CN114529096A (zh) | 基于三元闭包图嵌入的社交网络链路预测方法及系统 | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
Andrae et al. | Soft clustering analysis of galaxy morphologies: a worked example with SDSS | |
Gou et al. | Effective and efficient community search with graph embeddings | |
Nazari et al. | A new hierarchical clustering algorithm with intersection points | |
CN117575011B (zh) | 一种基于大数据的客户数据管理方法及系统 | |
Li et al. | Temporal dynamics clustering for analyzing cell behavior in mobile networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |