CN115309906A

CN115309906A - 一种基于知识图谱技术的数据智能分类技术

Info

Publication number: CN115309906A
Application number: CN202211137143.8A
Authority: CN
Inventors: 金震; 张京日; 穆宇浩
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-11-08
Anticipated expiration: 2042-09-19
Also published as: CN115309906B

Abstract

本发明公开了一种基于知识图谱技术的数据智能分类技术，通过血缘关系构建知识图谱，并根据社群发现算法，将待分类的数据划分为若干群组；提取若干群组中每个群组的第一特征；对现有族群进行特征提取，获得每个群组的第二特征；根据聚类算法构建特征匹配模型，并将第一特征与第二特征进行匹配，根据匹配结果对待分类数据进行自动分类；通过用户进行人工纠偏，分析数据分类的准确性以及关键控制点；基于以上对数据信息的分类及分析，持续完善对机器的学习，不断提高数据分类的准确度，并降低由人工分类耗费的成本与精力。

Description

一种基于知识图谱技术的数据智能分类技术

技术领域

本发明涉及增强数据管理领域，特别是涉及一种基于知识图谱技术的数据智能分类技术。

背景技术

数据分类分级管理，是目前被公认为行之有效的数据管理手段，但是数据的分类，目前仍然是通过人工方式进行数据划分，而人工划分数据的方式常常会使数据出现很多纰漏，并且也会耗费大量的时间与精力成本，使数据管理产生较大的不便，同时也在降低数据治理的智能化进程。

随着大数据在各行各业的广泛渗透，其种类和形式也越来越多样化，因此，对于数据的分类分级管理成为现阶段的研究热点，通常情况下，数据具有内容要素种类差距大，数据来源广泛的特点，因此，对其进行分类时，主要是要对数据之间的内在关系进行准确识别，以此作为数据分类的基础，但是由于多源数据包含的数据内容以及结构更加多样化，其特征差异也较大，因此，在对其进行分类时，难度也比较大。

发明内容

本发明提供一种基于知识图谱技术的数据智能分类技术，以解决现有技术中存在的上述问题。

与现有技术相比，本发明具有以下优点：

本发明提供的技术方案为：

本申请提供了一种基于知识图谱技术的分类技术，包括：

步骤S100，基于数据血缘关系构建知识图谱，并通过知识图谱的社群发现算法，将待分类数据划分为若干个群组；提取若干个群组中每个群组的第一特征；

步骤S200，对现有族群进行特征提取，获得每个族群的第二特征；

步骤S300，基于机器学习聚类算法构建特征匹配模型，基于所述特征匹配模型对第一特征和第二特征进行匹配，根据匹配结果对待分类数据进行自动分类。

可选的，所述步骤S300包括：

基于机器学习聚类算法将第二特征与第一特征进行匹配，若匹配成功，将该匹配成功的群组中所有待分类数据划分为相应的现有族群中；若匹配不成功，对待分类数据进行进一步细化划分，形成若干个细化群组，提取每个细化群组的第三特征，将第三特征与第一特征进行匹配，若匹配成功，将该细化群组中所有待分类数据划分为对应的族群中，若匹配不成功，则重复对待分类数据的进一步细化划分的步骤，直至将待分类数据全部自动分类至现有的族群中。

可选的，所述步骤S300之后还包括：

步骤S400，通过用户进行人工纠偏，分析数据信息分类的准确性以及关键控制点；

步骤S500，基于以上对数据信息的分类及分析，将分类及分析结果作为机器学习分类算法的优化因素输入至所述特征匹配模型。

可选的，所述步骤S100中，基于知识图谱的社群发现算法，将待分类数据划分为若干个群组，包括：

知识图谱架构：知识图谱的架构分为逻辑结构与体系结构，其中，逻辑结构主要包括数据层和模式层；

知识图谱构建方式：运用自底向上的构建方式，首先从公开的连接中提取实体，然后将置信度较高的实体添加到知识库中，再构建顶层本体；

数据信息采集：通过获取数据，结合社群发现算法，以手工和半自动化的方式，进行数据采集，经过知识抽取、知识融合形成统一的知识数据信息，并划分为若干个群组。

具体的，在上述步骤中，还包括；

步骤S100包括：计算待分类数据的唯一值、最大值、最小值、类型、关联的标准，根据已构建的数据血缘关系，使用图发现算法，对待分类数据进行聚类，形成新的群组。

步骤S200包括：对现有族群分类的数据，系统将提取出现有族群分类下的数据的总体特征，设定为第二特征。

可选的，所述步骤S300中，基于机器学习分类算法构建特征匹配模型，包括：

对大量未知标注的数据族群，按数据的内在相似性将数据族群划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小；

通过聚类算法中的模块度对数据族群进行划分判定，根据判定结果预测数据划分的标准是否符合用户要求；

将数据族群划分好后构成特征匹配模型，通过第一特征与第二特征的匹配，进行机器智能分类。

可选的，所述步骤S500中，对数据信息的分类及分析，包括：

用户在元数据管理过程中，从数据源的待选区选择一批未分类的数据，系统机器在经过学习后，根据血缘关系，在是否应用选项框中点击确定，将对数据在基于算法的条件下进行自动分类，然后，用户根据分类结果，进行微调，微调得出的结果同时也会作为下一步分类的特征输入。

可选的，所述已构建的血缘关系，包括：

溯源分析：由各类数据构成的血缘关系作为实际数据的管理，通过支撑、分析数据，将开发过程中的各类溯源进行分析，并判断问题的影响；

构建数据网络：通过实现对数据的血缘识别、发现，构建成为数据网络；

数据血缘关系可视化：通过可视化将规则、流向分布显示在图像上的不同位置，并起到追溯数据溯源、评估数据价值、数据质量评估的作用。

可选的，所述用户在元数据管理活动中，可选择一批未分类的数据，系统将自动对数据在基于算法的条件下进行自动分类，包括：

对数据的特征进行准确提取，通过对提取结果进行深度学习，实现对待分类数据的自动分类，根据深度学习的结果，分别从数据内容特征及结构两个方面实现对数据的自动分类，通过寻找与数据内容特征差异最小的数据类别，判断其对应的分类结构，计算待分类数据学习结果中的最优映射。

可选的，所述对数据的特征进行准确提取，包括：

当收集到有效的数据信息后，系统机器将数据信息按照一定的字段规则保存到数据库中，数据库中保存的数据有：被标注的样本数据、测试数据、正确被分类的结果数据，和未被分类的离群数据；

接下来系统机器获取数据库中的样本数据，通过对样本数据的训练学习构建出分类模型，用于后续分类处理；

分类模型对采集到的数据信息进行预处理过程，通过特征提取手段找到数据信息的特征词，进行分类，并判断出数据信息属于正确被分类的数据还是未被分类的离群数据；

若数据属于未被分类的离群数据，则需要将离散数据信息推送至管理层，供管理层的分析，管理人员通过查看系统推送消息将离群数据进行归类。

可选的，所述通过聚类算法中的模块度对刻画的数据集进行划分，包括：

在通过对数据的训练学习并构建特征匹配模型后，通过系统机器测试类别之间的相似度以及类别的区分能力，在类别区分能力好的情况下，继续测试构建特征匹配模型的好坏，如果构建模型不够理想，则需要对模型重新作出调整，调整对象为聚类算法中模块度的参数，根据模块度刻画数据集划分的优劣以及运用图团体检测方法，对模块度进行评价，并测试出系统机器的分类成果。

相比于现有技术，本发明提供了一种基于知识图谱的数据智能分类技术，基于知识图谱的群算法、结合机器学习的聚类算法，对现有的数据进行智能的分类，用户在元数据管理的活动中，可选择一批未分类的数据，系统将自动将数据基于算法进行分类，同时，用户根据分类结果，进行微调即人工纠偏，微微调得出的结果同时也会作为下一步分类的特征输入，持续进行学习完善，不断提高数据的精准度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中提供的一种基于知识图谱技术的数据智能分类技术结构示意图；

图2为本发明实施例中提供的一种基于知识图谱技术的数据智能分类技术流程示意图；

图3为本发明实施例中提供的一种基于知识图谱技术的数据智能分类技术界面示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例，都属于本发明保护的范围。

参照图1，本发明实施例提供了一种基于知识图谱技术的数据智能分类技术，包括以下步骤：

步骤S100，基于数据血缘关系构建知识图谱，并通过知识图谱的社群发现算法，将待分类数据划分为若干个群组；提取若干个群组中每个群组的第一特征。

在本实施例中，知识图谱的构建过程包括：

数据信息采集：通过获取数据，结合社群发现算法，以手工和半自动化的方式，进行数据采集，经过知识抽取、知识融合形成统一的知识数据信息。

上述技术方案的有益效果为：知识图谱用于迅速描述世界中的概念及其相互关系，通过聚合大量数据信息，实现数据的快速响应与推理。自底向上的构建方式可以对实体进行组织归纳，形成底层概念，再逐步向上抽象，形成上层概念，该构建方式基于现有标准转换成数据可视模式。最后经过数据信息的采集实现数据信息之间的合并构建成为知识图谱，应用于各行各业中。

步骤S200：对现有族群进行特征提取，获得每个族群的第二特征；

具体地，在本步骤中，对聚类算法进行数据挖掘，包括：对大量未知标注的数据族群,按数据的内在相似性将数据族群划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。将数据族群划分好后构成特征匹配模型，通过第一特征与第二特征的匹配，进行机器智能分类。

在通过对数据的训练学习并构特征匹配模型后，通过系统机器测试类别之间的相似度以及类别的区分能力，在类别区分能力好的情况下，继续测试构建特征匹配模型的好坏，如果构建模型不够理想，则需要对模型重新作出调整，调整对象为聚类算法中模块度的参数，根据聚类算法中的模块度刻画数据集划分的优劣以及运用图团体检测方法，对模块度进行评价，模块度越大，数据集划分效果越好，最后测试出系统机器的分类成果。

在本实施例中，模块度刻画数据集划分的优劣，根据图团体检测方法，对于模块度的评价标准可以使用以下公式：

根据图团体检测方法，对于模块度的评价标准可以使用以下公式：

其中，L代表数据集中边的数量，N表示定点数量，A_ij代表真实的顶点i和j之间的边数,k_i表示顶点i的度,k_j代表顶点j的度，可以通过将每一行每一列的项相加起来而得到；

k_ik_j相乘再除以2L表示该网络是随机分配的时候顶点i和j之间的预期边数；

代表了该数据集的真实结构和随机组合时的预期结构之间的差，当A_ij为1时，且

很小的时候，其返回值最高；

当在定点i和j之间存在一个非预期边是得到的值更高；

是克罗内克δ函数,C_i表示i的聚类，C_j表示j的聚类，i，j两个参数相等则返回1，不相等返回0，即若顶点i，j属于同一聚类，则

返回1，Q代表数据集的模块度，模块度越大，划分的结果越好。

上述方案的有益效果为：通过聚类算法，对不同类别数据点间的相似度计算，可以使距离和相似度比较容易的定义，限制很少，并且不需要预先制定聚类数，并能够发现类的层次关系。通过模块度对数据集的划分，根据图团体检测的方法，该方法可以产生最高模块性分数的聚类效果良好，并通过模块性的改变来对数据进行融合。

参照图2，图2为本申请中数据智能分类的流程图，步骤S100和步骤S200还包括：

步骤S100包括：计算待分类数据的唯一值、最大值、最小值、类型、关联的标准，根据已构建的数据血缘关系，使用社群发现算法，对待分类数据进行聚类，形成新的群组。

具体地，根据已构建的血缘关系，包括：

进一步地，使用社群发现算法，进行聚类，形成新的群组，包括以下步骤A1～A2：

步骤A1：将每个节点划分为与此节点邻接节点所在的网络中，以使得模块度的值不断变大；

步骤A2：将划分出来的网络聚类成一个点，根据步骤A1生成的网络结构重新构造一个网络，并重复以上过程，直到网络中的结构不再改变为止。

上述方案的有益效果为：通过血缘追踪，可以获得结果数据的来源信息，更新数据时能够反映原始数据库的变化，查看数据在数据流中的变化过程。通过提取分类数据的总体特征，并与群组进行匹配，经过多次群组数据的匹配，提高数据的准确性与可靠性。

步骤S300：基于机器学习聚类算法构建特征匹配模型，基于所述特征匹配模型对第一特征和第二特征进行匹配，根据匹配结果对待分类数据进行自动分类。

具体地，步骤S300包括：

上述方案的有益效果为：通过将族群的数据进行重复划分，并进行匹配，可以形成一套划分规则与划分模块，机器在学习前几类的划分模块后可以对接下来的数据信息进行更加准确的划分，最后完成对所有数据信息的分类分群。

参照图3，图3为基于知识图谱技术的数据智能分类技术的界面示意图，在基于血缘维护的条件下，将数据进行智能分类，用户在元数据管理过程中，从数据源的待选区选择一批未分类的数据，数据分为表名称、中文名称、算法推荐/sql脚本解析三种分类，系统机器在经过学习后，根据血缘关系，在是否应用选项框中点击确定，将对数据在基于算法的条件下进行自动分类，然后，用户根据分类结果，进行微调，将微调得出的结果作为新的分类特征输入到特征匹配模型中。

进一步地，用户在元数据管理活动中，可选择一批未分类的数据，将对数据在基于算法的条件下进行自动分类，包括：

在本实施例中，从数据内容特征及结构两个方面实现对数据的自动分类，包括：

根据携带的数据信息的权重以及偏置变量对其特征进行计算，可表示为：

ω_p＝f(ap+b)

其中，待分类数据为p∈Rⁿ，a表示数据携带信息的权重，b表示数据的偏置参数，Rⁿ表示其所在数据域范围，f表示激活函数。ω_p和S_p分别表示其内容特征和结构特征。SIMM(*)表示不同数据域结构的相似性，通过上述两式得到待分类数据的特征，将两式与深度学习结果进行映射寻优，表示公式为:

其中，T_ω表示深度学习得到的多源数据间的内容特征，T_s表示多源数据间的结构特征，当sim(ω_c,T_ω)为最大值，且sim(S_ω,T_s)也为最大值时，则认为该数据的分类结果与T_ω所在的类别一致，以此实现对数据集的自动分类。

进一步地，对数据的特征进行准确提取，包括：

上述技术方案的有益效果为：通过知识图谱的社群发现算法，可以把异构中的数据信息结构化，并构建数据信息之间的关联，通过构造的数据图，支撑数据的挖掘和分析，结合机器学习的聚类算法，作为一个单独的工具以发现数据库中分布的深层信息，并概括出每一类的特点，最后对现有的数据进行智能分群分类，并可以通过人工纠偏，使机器在学习分类时在下一次可以做到更准确的分类。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于知识图谱技术的数据智能分类技术，其特征在于，包括以下骤；

2.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，所述步骤S300包括：

3.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，所述步骤S300之后还包括：

4.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，所述步骤S100中，通过知识图谱的社群发现算法，将待分类数据划分为若干个群组，包括：

5.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，包括；

步骤S100包括：计算待分类数据的唯一值、最大值、最小值、类型、关联的标准，根据已构建的数据血缘关系，使用社群发现算法，对待分类数据进行聚类，根据聚类算法形成新的族群；

步骤S200包括：，对现有族群分类的数据，系统将提取出现有族群分类下的数据的总体特征，设定为第二特征。

6.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，所述步骤S300中，基于机器学习分类算法构建特征匹配模型，包括：

7.根据权利要求3所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，所述步骤S500中，对数据信息的分类及分析，包括：

用户在元数据管理过程中，从数据源的待选区选择一批未分类的数据，系统机器在经过学习后，根据血缘关系，在是否应用选项框中点击确定，在基于算法的条件下对数据进行自动分类，然后，用户根据分类结果，进行微调，将微调得出的结果作为新的分类特征输入到特征匹配模型中。

8.根据权利要求5所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，所述已构建的血缘关系，包括：

9.根据权利要求7所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，所述将对数据在基于算法的条件下进行自动分类，包括：

当收集到有效的数据信息后，系统机器将数据信息按照一定的字段规则保存到数据库中，数据库中保存的数据有：被标注的样本数据、测试数据、正确被分类的结果数据和未被分类的离群数据；

系统机器获取数据库中的样本数据，通过对样本数据的训练学习构建出分类模型，用于后续分类处理；

10.根据权利要求6所述的一种基于知识图谱技术的数据智能分类技术，其特征在于，所述通过聚类算法中的模块度对刻画的数据族群进行划分，包括：