CN116257760B

CN116257760B - 一种数据划分方法、系统、设备及计算机可读存储介质

Info

Publication number: CN116257760B
Application number: CN202310526511.6A
Authority: CN
Inventors: 曹其春; 董刚; 胡克坤; 晁银银; 王斌强; 杨宏斌
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-11
Anticipated expiration: 2043-05-11
Also published as: CN116257760A

Abstract

本发明公开了一种数据划分方法、系统、设备及计算机可读存储介质，涉及数据处理技术领域，获取目标数据集；基于数据的标签信息将目标数据集划分为第一数据集及第二数据集；基于数据的特征信息将第一数据集划分为目标数量的初始子数据集；确定各个初始子数据集的中心数据；确定第二数据集中至少一个第二数据与至少一个中心数据间的关联等级，关联等级基于第二数据与中心数据间关联的数据个数确定；对于第二数据，将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中，得到目标子数据集；实现了对目标数据集进行特征信息均衡及关联均衡的划分，数据划分效果好。

Description

一种数据划分方法、系统、设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，更具体地说，涉及一种数据划分方法、系统、设备及计算机可读存储介质。

背景技术

当前，在对数据集进行划分时，可以根据数据集中数据的特征信息及数据间的关联来将数据集划分为相应的子数据集，然而，当数据集中存在无特征信息的数据时，难以将数据集划分为均衡的子数据集，使得数据划分的均衡性较差。

综上所述，如何提高数据划分的均衡性是目前本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种数据划分方法，其能在一定程度上解决如何提高数据划分的均衡性的技术问题。本发明还提供了一种数据划分系统、设备及计算机可读存储介质。

根据本公开实施例的第一方面，提供一种数据划分方法，包括：

获取目标数据集；

基于数据的标签信息将所述目标数据集划分为第一数据集及第二数据集；

基于数据的特征信息将所述第一数据集划分为目标数量的初始子数据集；

确定各个所述初始子数据集的中心数据；

确定所述第二数据集中至少一个第二数据与至少一个所述中心数据间的关联等级，所述关联等级基于所述第二数据与所述中心数据间关联的数据个数确定；

对于所述第二数据集中的所述第二数据，将与所述第二数据对应且等级最低的所述关联等级作为所述第二数据的目标关联等级，将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的所述初始子数据集中，得到目标子数据集。

在一示例性实施例中，所述基于数据的特征信息将所述第一数据集划分为目标数量的初始子数据集，包括：

基于所述特征信息，计算所述第一数据集中第一数据间的相似度值；

基于所述相似度值，将所述第一数据划分为所述目标数量的所述初始子数据集。

在一示例性实施例中，所述基于所述相似度值，将所述第一数据划分为所述目标数量的所述初始子数据集，包括：

获取相似度合并阈值；

将所述相似度值小于所述相似度合并阈值的所述第一数据进行合并，得到对应的待选子数据集；

判断所述待选子数据集的数量是否小于所述目标数量；

若所述待选子数据集的数量小于所述目标数量，则增大所述相似度合并阈值，返回执行所述将所述相似度值小于所述相似度合并阈值的所述第一数据进行合并，得到对应的待选子数据集及之后的步骤；

若所述待选子数据集的数量等于所述目标数据，则将所述待选子数据集作为所述初始子数据集。

在一示例性实施例中，所述获取相似度合并阈值，包括：

将所述相似度值的最小值作为所述相似度合并阈值。

在一示例性实施例中，所述增大所述相似度合并阈值，包括：

确定所述相似度值间的最小差值；

基于所述最小差值增大所述相似度合并阈值。

在一示例性实施例中，所述基于所述特征信息，计算所述第一数据集中第一数据间的相似度值，包括：

基于所述特征信息，计算所述第一数据集中所述第一数据间的欧氏距离值。

在一示例性实施例中，所述基于所述特征信息，计算所述第一数据集中所述第一数据间的欧氏距离值，包括：

通过欧氏距离计算公式，基于所述特征信息，计算所述第一数据集中所述第一数据间的所述欧氏距离值；

所述欧氏距离计算公式包括：

；

其中，表示所述第一数据集中第/>个所述第一数据；/>表示所述第一数据集中第个所述第一数据；/>表示/>的第/>个所述特征信息的值；/>表示/>的第/>个所述特征信息的值；/>表示所述特征信息的总个数值；/>表示/>与/>间的所述欧氏距离值。

对于所述第一数据集中的任两个所述第一数据，若两个所述第一数据间存在关联，则基于所述特征信息，计算两个所述第一数据间的所述相似度值。

在一示例性实施例中，所述确定各个所述初始子数据集的中心数据，包括：

对于每个所述初始子数据集，将所述初始子数据集中关联关系最多的数据作为对应的所述中心数据。

在一示例性实施例中，所述确定所述第二数据集中至少一个第二数据与至少一个所述中心数据间的关联等级，包括：

对于至少一个所述第二数据及至少一个所述中心数据，确定所述第二数据与所述中心数据间关联的数据个数值，将所述数据个数值与1的和值作为对应的所述关联等级。

在一示例性实施例中，所述将与所述第二数据对应且等级最低的所述关联等级作为所述第二数据的目标关联等级，包括：

若所述第二数据的所述关联等级唯一，则将与所述第二数据对应的所述关联等级作为所述目标关联等级。

在一示例性实施例中，所述将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的所述初始子数据集中，包括：

若所述第二数据的所述关联等级有多个最小值，则将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的且数据个数值最小的所述初始子数据集中。

若所述第二数据的所述关联等级有多个且最小值唯一，则直接将与所述第二数据对应且值最小的所述关联等级作为所述目标关联等级。

在一示例性实施例中，对于所述第二数据集中的所述第二数据，将与所述第二数据对应且等级最低的所述关联等级作为所述第二数据的目标关联等级，将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的所述初始子数据集中，得到目标子数据集，包括：

以每个所述中心数据为坐标原点建立对应的同心圆坐标系；

对于所述第二数据集中的所述第二数据，将与所述第二数据对应且等级最低的所述关联等级作为所述目标关联等级，将所述目标关联等级转换为对应的半径值，并将所述第二数据对应的坐标点添加至所述半径值对应的所述同心圆坐标系中；

对于每个所述同心圆坐标系，将所述同心圆坐标系对应的所有数据作为所述目标子数据集。

在一示例性实施例中，所述对将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的所述初始子数据集中，得到目标子数据集之后，还包括：

基于所述目标子数据集对目标神经网络模型进行训练。

在一示例性实施例中，所述基于数据的标签信息将所述目标数据集划分为第一数据集及第二数据集，包括：

将所述目标数据集中存在训练标签的数据作为所述第一数据集；

将所述目标数据集中除所述第一数据集之外的数据作为所述第二数据集。

在一示例性实施例中，所述目标神经网络模型包括图神经网络。

根据本公开实施例的第二方面，提供一种数据划分系统，包括：

获取模块，用于获取目标数据集；

第一确定模块，用于基于数据的标签信息将所述目标数据集划分为第一数据集及第二数据集；

第一划分模块，用于基于数据的特征信息将所述第一数据集划分为目标数量的初始子数据集；

第二确定模块，用于确定各个所述初始子数据集的中心数据；

第三确定模块，用于确定所述第二数据集中至少一个第二数据与至少一个所述中心数据间的关联等级，所述关联等级基于所述第二数据与所述中心数据间关联的数据个数确定；

第二划分模块，用于对于所述第二数据集中的所述第二数据，将与所述第二数据对应且等级最低的所述关联等级作为所述第二数据的目标关联等级，将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的所述初始子数据集中，得到目标子数据集。

根据本公开实施例的第三方面，提供一种数据划分设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一所述数据划分方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述数据划分方法的步骤。

本发明提供的一种数据划分方法，获取目标数据集；基于数据的标签信息将目标数据集划分为第一数据集及第二数据集；基于数据的特征信息将第一数据集划分为目标数量的初始子数据集；确定各个初始子数据集的中心数据；确定第二数据集中至少一个第二数据与至少一个中心数据间的关联等级，关联等级基于第二数据与中心数据间关联的数据个数确定；对于第二数据集中的第二数据，将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中，得到目标子数据集。本发明中，可以先基于特征信息将第一数据集划分为目标数量的初始子数据集，使得初始子数据集间可以实现特征信息均衡；之后可以根据第二数据与初始子数据集的中心数据间的关联等级，将第二数据划分至等级最低的关联等级对应的初始子数据集中，得到目标子数据集，使得目标子数据集可以实现关联关系均衡，最终实现对目标数据集进行特征信息均衡及关联关系均衡的划分。本发明提供的一种数据划分系统、设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种数据划分方法的第一示意图；

图2为本发明实施例提供的一种数据划分方法的第二示意图；

图3为本发明实施例提供的一种数据划分方法的第三示意图；

图4为本发明实施例提供的一种数据划分方法的第四示意图；

图5为同心圆坐标系示意图；

图6为将第二节点对应的坐标点添加至数据个数值最小的同心圆坐标系中的第一示意图；

图7为将第二节点对应的坐标点添加至数据个数值最小的同心圆坐标系中的第二示意图；

图8为本发明实施例提供的一种数据划分系统的结构示意图；

图9为本发明实施例提供的一种数据划分设备的结构示意图；

图10为本发明实施例提供的一种数据划分设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种数据划分方法的第一示意图。

本发明实施例提供的一种数据划分方法，可以包括以下步骤：

步骤S101：获取目标数据集。

可以理解的是，可以先获取目标数据集，所获取的目标数据集中的数据自身存在特征信息，且数据间存在关联关系，目标数据集中数据的数量及类型等可以根据实际需要确定，比如目标数据集中的数据可以为论文、视频或音乐等，为了便于理解，假设目标数据集中的数据为论文，则相应的数据的特征信息可以为论文中的关键字等，数据间的关联关系可以为论文间的引用关系等；再假设目标数据集中的数据为视频，则相应的数据的特征信息可以为视频的类型、剧情简介、演员信息等，数据间的关联关系可以为视频的参演者均为同一演员等，本发明在此不做具体限定。

步骤S102：基于数据的标签信息将目标数据集划分为第一数据集及第二数据集。

可以理解的是，在获取目标数据集之后，便可以基于数据的标签信息将目标数据集划分为第一数据集及第二数据集，换言之，本发明中的目标数据集可以根据数据的标签信息间的差异被划分为第一数据集和第二数据集，比如将有标签信息的数据划分为第一数据集，将无标签信息的数据划分为第二数据集等，且标签信息的类型可以根据具体应用场景来确定，以由用于模型训练的论文组成的目标数据集为例，数据的标签信息可以为训练标签，而以由视频组成的目标数据集为例，数据的标签信息则可以为用户对视频的喜好程度等。

步骤S103：基于数据的特征信息将第一数据集划分为目标数量的初始子数据集。

可以理解的是，在基于数据的标签信息将目标数据集划分为第一数据集及第二数据集之后，便可以基于数据的特征信息将第一数据集划分为目标数量的初始子数据集，比如将特征信息相似的第一数据集划分到第一个初始子数据集中等，以实现初始子数据集间的特征信息均衡。需要说明的是，数据的特征信息的类型可以根据实际需要确定，比如论文的特征信息可以为将词在标题和摘要中的嵌入量平均得到的128维特征向量，视频的特征信息可以为视频的类型、时长、核心事件、大小、质量等。

步骤S104：确定各个初始子数据集的中心数据。

可以理解的是，在基于数据的特征信息将第一数据集划分为目标数量的初始子数据集之后，便可以确定各个初始子数据集的中心数据，以便后续基于该中心数据对第二数据集进行划分。

步骤S105：确定第二数据集中至少一个第二数据与至少一个中心数据间的关联等级，关联等级基于第二数据与中心数据间关联的数据个数确定。

可以理解的是，在基于中心数据将第二数据集划分至初始子数据集的过程中，可以先确定第二数据集中至少一个第二数据与至少一个中心数据间的关联等级，比如确定第二数据集中每个第二数据与每个中心数据间的关联等级等，且该关联等级基于第二数据与中心数据间关联的数据个数确定。

不难理解，由上述描述可知，本发明的目标数据集中的数据存在特征信息，此外，当两个数据存在联系时，比如两个数据的内容存在关联时等，两个数据间便存在关联，所以本发明的目标数据集中的数据间还存在关联关系，在此基础上，当多个数据间存在关联关系时，便可以确定出相应的关联等级，以数据A-数据B-数据C的关联关系为例，可以数据B与数据A的关联等级确定为1，将数据C与数据A的关联等级确定为2等。

步骤S106：对于第二数据集中的第二数据，将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中，得到目标子数据集。

可以理解的是，在确定第二数据集中每个第二数据与每个中心数据间的关联等级之后，对于第二数据集中的每个第二数据，便可以将第二数据划分至等级最低的关联等级对应的初始子数据集中，得到目标子数据集，具体的，对于第二数据集中的第二数据，可以将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中，得到目标子数据集，需要说明的是，因为等级最低意味着第二数据与中心数据间的关联最深，所以本发明会将每个第二数据划分至关联最深的初始子数据集中，得到关联均衡的目标子数据集，最终实现对目标数据集进行特征信息均衡及关联关系均衡划分。

需要说明的是，在得到目标子数据集之后，便完成了对目标数据集的均衡划分，最终得到的目标子数据集可以根据需要来应用在不同的应用场景中，比如在目标数据集为论文组成的数据集时，可以应用目标子数据集对神经网络模型进行训练；而在目标数据集为视频数据集时，目标子数据集可以用于对用户进行视频推荐等，为便于理解，假设需要在视频库中为用户推荐动漫视频，则可以将视频库作为目标视频集，将动漫作为视频的标签信息，相应的，在视频推荐过程中，可以将目标视频集划分为有动漫标签的第一视频集及没有动漫标签的第二视频集，再根据视频的特征信息将第一视频集划分为目标数量的初始子视频集，以得到不同特征信息的视频组成的各个子视频集，确定各个初始子视频集的中心视频，确定第二视频集中至少一个第二视频与至少一个中心视频间的关联等级，将第二视频划分至等级最低的关联等级对应的初始子视频集中，得到目标子视频集，这样目标子视频中既包含动漫标签的目标视频，又包含与该目标视频相近的其他视频，最后再将目标子视频集中的视频推送给用户的话，可以提高视频推荐的多样性；本发明在此不对目标子数据集的应用做具体限定。

本发明提供的一种数据划分方法，获取目标数据集；基于数据的标签信息将目标数据集划分为第一数据集及第二数据集；基于数据的特征信息将第一数据集划分为目标数量的初始子数据集；确定各个初始子数据集的中心数据；确定第二数据集中至少一个第二数据与至少一个中心数据间的关联等级，关联等级基于第二数据与中心数据间关联的数据个数确定；对于第二数据集中的第二数据，将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中，得到目标子数据集。本发明中，可以先基于特征信息将第一数据集划分为目标数量的初始子数据集，使得初始子数据集间可以实现特征信息均衡；之后可以根据第二数据与初始子数据集的中心数据间的关联等级，将第二数据划分至等级最低的关联等级对应的初始子数据集中，得到目标子数据集，使得目标子数据集可以实现关联关系均衡，最终实现对目标数据集进行特征信息均衡及关联关系均衡的划分。

请参阅图2，图2为本发明实施例提供的一种数据划分方法的第二示意图。

步骤S201：获取目标数据集。

步骤S202：基于数据的标签信息将目标数据集划分为第一数据集及第二数据集。

步骤S203：基于特征信息，计算第一数据集中第一数据间的相似度值；

步骤S204：获取相似度合并阈值；

步骤S205：将相似度值小于相似度合并阈值的第一数据进行合并，得到对应的待选子数据集；

步骤S206：判断待选子数据集的数量是否小于目标数量；若待选子数据集的数量小于目标数量，则执行步骤S207；若待选子数据集的数量等于目标数据，则执行步骤S208。

步骤S207：增大相似度合并阈值，返回执行步骤S205。

步骤S208：将待选子数据集作为初始子数据集，执行步骤S209。

可以理解的是，在基于数据的特征信息将第一数据集划分为目标数量的初始子数据集的过程中，可以先基于特征信息，计算第一数据集中第一数据间的相似度值；再基于相似度值，将第一数据划分为目标数量的初始子数据集，以将特征信息相似的第一数据划分在一个子数据集中。

在可示例性应用场景中，在基于相似度值，将第一数据划分为目标数量的初始子数据集的过程中，可以先获取相似度合并阈值；再将相似度值小于相似度合并阈值的第一数据进行合并，得到对应的待选子数据集；判断待选子数据集的数量是否小于目标数量；若待选子数据集的数量小于目标数量，则增大相似度合并阈值，返回执行将相似度值小于相似度合并阈值的第一数据进行合并，得到对应的待选子数据集及之后的步骤；若待选子数据集的数量等于目标数据，则将待选子数据集作为初始子数据集，以快速得到初始子数据集中。

需要说明的是，相似度合并阈值可以根据具体应用场景来灵活确定，比如可以由用户自行确定，当然也可以根据相似度值来确定，比如可以将相似度值的最小值作为相似度合并阈值。相应的，增大相似度合并阈值的过程也可以根据相似度值来确定，具体的，可以先确定相似度值间的最小差值；再基于最小差值增大相似度合并阈值，比如可以将相似度合并阈值与最小差值的和值作为新的相似度合并阈值等。

在可示例性应用场景中，在基于特征信息，计算第一数据集中第一数据间的相似度值的过程中，可以基于特征信息，计算第一数据集中第一数据间的欧氏距离值，以将欧氏距离值作为相似度值来快速对第一数据集进行划分。需要说明的是，在基于特征信息，计算第一数据集中第一数据间的欧氏距离值的过程中，为了降低相似度值的计算和存储开销，可以通过欧氏距离计算公式，基于特征信息，计算第一数据集中第一数据间的欧氏距离值；

所述欧氏距离计算公式包括：

；

其中，表示第一数据集中第/>个第一数据；/>表示第一数据集中第/>个第一数据；表示/>的第/>个特征信息的值；/>表示/>的第/>个特征信息的值；/>表示特征信息的总个数值；/>表示/>与/>间的欧氏距离值。

还需说明的是，为了进一步降低相似度值的计算和存储开销，在基于特征信息，计算第一数据集中第一数据间的相似度值的过程中，对于第一数据集中的任两个第一数据，若两个第一数据间存在关联，则再基于特征信息，计算两个第一数据间的相似度值。相应的，若两个第一数据间不存在关联，则可以不计算两个第一数据间的相似度值。

步骤S209：确定各个初始子数据集的中心数据。

步骤S210：确定第二数据集中每个第二数据与每个中心数据间的关联等级，关联等级基于第二数据与中心数据间关联的数据个数确定。

步骤S211：对于第二数据集中的每个第二数据，将第二数据划分至等级最低的关联等级对应的初始子数据集中，得到目标子数据集。

请参阅图3，图3为本发明实施例提供的一种数据划分方法的第三示意图。

步骤S301：获取目标数据集。

步骤S302：基于数据的标签信息将目标数据集划分为第一数据集及第二数据集。

步骤S303：基于数据的特征信息将第一数据集划分为目标数量的初始子数据集。

步骤S304：对于每个初始子数据集，将初始子数据集中关联关系最多的数据作为对应的中心数据。

可以理解的是，在确定各个初始子数据集的中心数据的过程中，对于每个初始子数据集，可以将初始子数据集中关联关系最多的数据作为对应的中心数据，以便于后续快速确定第二数据与中心数据间的关联等级。

步骤S305：对于至少一个第二数据及至少一个中心数据，确定第二数据与中心数据间关联的数据个数值，将数据个数值与1的和值作为对应的关联等级。

可以理解的是，在确定第二数据集中至少一个第二数据与至少一个中心数据间的关联等级的过程中，对于第二数据及中心数据，可以确定第二数据与中心数据间关联的数据个数值，将数据个数值与1的和值作为对应的关联等级，比如第二数据A与中心数据B直接关联，也即第二数据A-中心数据B，则第二数据A与中心数据B间的关联等级为（0+1=1），再比如第二数据A通过第二数据C与中心数据B关联，也即中心数据B-第二数据C-第二数据A，则第二数据A与中心数据B间的关联等级为（1+1=2）。

步骤S306：对于第二数据集中的每个第二数据，若第二数据的关联等级唯一，则将第二数据划分至关联等级对应的初始子数据集中，得到目标子数据集；若第二数据的关联等级有多个最小值，则将等级最低的关联等级对应的初始子数据作为候选子数据集，将第二数据划分至数据个数值最小的候选子数据集中，得到目标子数据集；若第二数据的关联等级有多个且最小值唯一，则将第二数据直接划分至等级最低的关联等级对应的初始子数据集中，得到目标子数据集。

可以理解的是，在将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级的过程中，若第二数据的关联等级唯一，则可以将与第二数据对应的关联等级作为目标关联等级。

可以理解的是，在将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中的过程中，若第二数据的关联等级有多个最小值，则可以将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的且数据个数值最小的初始子数据集中，得到目标子数据集，以实现目标子数据集间的数据量均衡。

可以理解的是，在将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级的过程中，若第二数据的关联等级有多个且最小值唯一，则可以直接将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级。

在可示例性应用场景中，对于第二数据集中的每个第二数据，将第二数据划分至等级最低的关联等级对应的初始子数据集中，得到目标子数据集的过程中，还可以以每个中心数据为坐标原点建立对应的同心圆坐标系；对于第二数据集中的每个第二数据，将关联等级转换为对应的半径值，并将第二数据对应的坐标点添加至值最小的半径值对应的同心圆坐标系中，具体的，可以直接将与第二数据对应且等级最低的关联等级作为目标关联等级，将目标关联等级转换为对应的半径值，并将第二数据对应的坐标点添加至值最小的半径值对应的同心圆坐标系中；对于每个同心圆坐标系，将同心圆坐标系对应的所有数据作为目标子数据集。以借助同心圆坐标系来清楚、准确的将第二数据划分至初始子数据集中。

请参阅图4，图4为本发明实施例提供的一种数据划分方法的第四示意图。

步骤S401：获取目标数据集。

步骤S402：基于数据的标签信息将目标数据集划分为第一数据集及第二数据集。

步骤S403：基于数据的特征信息将第一数据集划分为目标数量的初始子数据集。

步骤S404：确定各个初始子数据集的中心数据。

步骤S405：确定第二数据集中至少一个第二数据与至少一个中心数据间的关联等级，关联等级基于第二数据与中心数据间关联的数据个数确定。

步骤S406：对于第二数据集中的第二数据，将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中，得到目标子数据集。

步骤S407：基于目标子数据集对目标神经网络模型进行训练。

可以理解的是，考虑到神经网络模型的训练对数据集的均衡划分有需求，所以本发明在对于第二数据集中的第二数据，将第二数据划分至等级最低的关联等级对应的初始子数据集中，得到目标子数据集之后，还可以基于目标子数据集对目标神经网络模型进行训练。在此过程中，当基于数据的标签信息将目标数据集划分为第一数据集及第二数据集时，可以将目标数据集中存在训练标签的数据作为第一数据集；将目标数据集中除第一数据集之外的数据作为第二数据集等。

在可示例性应用场景中，目标数据集的类型可以根据实际需要确定，比如目标数据集可以包括图学习基准数据集，比如可以为ogbn-papers100M数据集，该ogbn-papers100M数据集指的是论文引用网络，有向图，包括1.11亿篇论文，表示arxiv上计算机科学论文之间的引用关系，节点表示论文，边表示论文的引用关系，每篇论文都有一个将词在标题和摘要中的嵌入量平均得到128维特征向量。此外，目标神经网络模型的类型也可以根据实际需要确定，比如目标神经网络模型可以包括图神经网络（Graph Neural Network，GNN）等。

为了便于理解本发明提供的数据划分方法，现结合基于ogbn-papers100M数据集对图神经网络进行训练的过程进行描述。在图神经网络对ogbn-papers100M数据集的图节点分类中，可以采用minibatch的训练方式，其可以将图数据的整张大图进行采样成多个子图，用子图的结构去近似整张图的效果，而这就需要相应的算法来对整张大图进行采样，目前图划分的算法如kmeans、kmeans++等是根据节点的特征之间的欧氏距离作为判定依据，把相近的节点归为一个子图中，但对于后续的训练来说，如果一个子图中分布的训练标签的节点较少或者没有，这个在训练时计算loss值很小或者为空，无法传播梯度信息，于训练是无意义的。此外，实际在基于ogbn-papers100M数据集训练图神经网络时，采用了图划分的方式，把大图划分成1000份，每个子图约11万个节点，但是每个子图中的训练节点数量从0-3000不等，对于训练节点在子图上的分布是不均衡的，使得图神经网络的训练效果较差。而本发明的数据划分方法用于ogbn-papers100M数据集的图划分后，可以包括以下步骤：

获取ogbn-papers100M数据集对应的目标图，其目标图指代一种广义的抽象结构，用来表示一堆实体和它们之间的关系。实体被叫作图的节点，而实体和实体之间的关系构成了图的边。一个图 G = {V, E}包含一个节点集合V 和一个边的集合E。且顶点v的度是指与它相关联的边的条数，记作deg(v)，在有向图中，顶点的度等于该顶点的入度与出度之和，其中顶点v的入度是以v为终点的有向边的条数，记作 indev(v)；顶点v的出度是以v为起始点的有向边的条数，记作 outdev(v)。因此dev(v)=indev(v)+outdev(v)。需要注意的是，对于无向图，顶点的度等于该顶点的入度和出度，即dev(v)=indev(v)=outdev(v)。

将目标图中存在训练标签的节点作为训练节点，得到1207179个训练节点，将不存在训练标签的节点作为其余节点，得到109852777个其余节点。

基于数据的特征信息，计算训练节点中第一节点间的欧氏距离值。

将相似度值的最小值作为相似度合并阈值。

将欧氏距离值小于欧氏距离合并阈值的第一节点进行合并，得到对应的待选子节点集。

判断待选子节点集的数量M是否小于目标数量K；若M小于K，则确定相似度值间的最小差值，将相似度合并阈值与最小差值的和值作为新的相似度合并阈值，返回执行将欧氏距离值小于欧氏距离合并阈值的第一节点进行合并，得到对应的待选子节点集及之后的步骤；若M等于K，则将待选子节点集作为初始子节点集。

对于每个初始子节点集，将初始子节点集中度数最大的数据作为对应的中心节点。

对于其余节点中的每个第二节点及每个中心节点，确定由中心节点到第二节点的最小边线数，将该最小边线数作为第二节点与中心节点间的关联等级。

以每个中心节点为坐标原点建立对应的同心圆坐标系，如图5所示，其中的0、1、2、3分别表示对应圆到坐标原点的距离。

对于每个第二节点，将关联等级转换为对应的半径值，比如直接将关联等级的值作为半径值等；若第二节点的关联等级唯一，则将第二节点对应的坐标点添加至关联等级对应的同心圆坐标系中；若第二节点的关联等级有多个最小值，则将等级最低的关联等级对应的同心圆坐标系作为候选同心圆坐标系，将第二节点对应的坐标点添加至数据个数值最小的候选同心圆坐标系中，得到目标同心圆坐标系，如图6所示，此时半径3上的节点被划分到右边的同心圆坐标系中；若第二节点的关联等级有多个且最小值唯一，则将第二节点对应的坐标点直接添加至等级最低的关联等级对应的同心圆坐标系中，得到目标同心圆坐标系，如图7所示，此时半径3上的节点被划分到左边的同心圆坐标系中。

对于每个目标同心圆坐标系，将目标同心圆坐标系对应的所有节点转换为目标子图。

基于目标子图对图神经网络进行训练。

由上述过程可知，本发明可以将训练节点作为子图中心点进行划分，可以消除子图中训练数据不均衡的问题，可以以邻接关系为距离依据聚合其余节点，可以很好的保存节点间的邻接关系，提升网络在大规模数据集上的训练性能。

请参阅图8，图8为本发明实施例提供的一种数据划分系统的结构示意图。

本发明实施例提供的一种数据划分系统，可以包括：

获取模块101，用于获取目标数据集；

第一确定模块102，用于基于数据的标签信息将目标数据集划分为第一数据集及第二数据集；

第一划分模块103，用于基于数据的特征信息将第一数据集划分为目标数量的初始子数据集；

第二确定模块104，用于确定各个初始子数据集的中心数据；

第三确定模块105，用于确定第二数据集中至少一个第二数据与至少一个中心数据间的关联等级，关联等级基于第二数据与中心数据间关联的数据个数确定；

第二划分模块106，用于对于第二数据集中的第二数据，将与第二数据对应且等级最低的关联等级作为第二数据的目标关联等级，将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中，得到目标子数据集。

本发明实施例提供的一种数据划分系统，第一划分模块可以包括：

第一计算单元，用于基于特征信息，计算第一数据集中第一数据间的相似度值；

第一划分单元，用于基于相似度值，将第一数据划分为目标数量的初始子数据集。

本发明实施例提供的一种数据划分系统，第一划分单元可以具体用于：获取相似度合并阈值；将相似度值小于相似度合并阈值的第一数据进行合并，得到对应的待选子数据集；判断待选子数据集的数量是否小于目标数量；若待选子数据集的数量小于目标数量，则增大相似度合并阈值，返回执行将相似度值小于相似度合并阈值的第一数据进行合并，得到对应的待选子数据集及之后的步骤；若待选子数据集的数量等于目标数据，则将待选子数据集作为初始子数据集。

本发明实施例提供的一种数据划分系统，第一划分单元可以具体用于：将相似度值的最小值作为相似度合并阈值。

本发明实施例提供的一种数据划分系统，第一划分单元可以具体用于：确定相似度值间的最小差值；基于最小差值增大相似度合并阈值。

本发明实施例提供的一种数据划分系统，第一计算单元可以具体用于：基于特征信息，计算第一数据集中第一数据间的欧氏距离值。

本发明实施例提供的一种数据划分系统，第一计算单元可以具体用于：通过欧氏距离计算公式，基于特征信息，计算第一数据集中第一数据间的欧氏距离值；

欧氏距离计算公式包括：

；

本发明实施例提供的一种数据划分系统，第一计算单元可以具体用于：对于第一数据集中的任两个第一数据，若两个第一数据间存在关联，则基于特征信息，计算两个第一数据间的相似度值。

本发明实施例提供的一种数据划分系统，第二确定模块可以包括：

第一确定单元，用于对于每个初始子数据集，将初始子数据集中关联关系最多的数据作为对应的中心数据。

本发明实施例提供的一种数据划分系统，第三确定模块可以包括：

第二确定单元，用于对于至少一个第二数据及至少一个中心数据，确定第二数据与中心数据间关联的数据个数值，将数据个数值与1的和值作为对应的关联等级。

本发明实施例提供的一种数据划分系统，第二划分模块可以包括：

第二划分单元，用于若第二数据的关联等级唯一，则将与第二数据对应的关联等级作为目标关联等级。

第三划分单元，用于若第二数据的关联等级有多个最小值，则将第二数据划分至目标关联等级对应的中心数据所在的且数据个数值最小的初始子数据集中。

第四划分单元，用于若第二数据的关联等级有多个且最小值唯一，则直接将与第二数据对应且值最小的关联等级作为目标关联等级。

第五划分单元，用于以每个中心数据为坐标原点建立对应的同心圆坐标系；对于第二数据集中的第二数据，将与第二数据对应且等级最低的关联等级作为目标关联等级，将目标关联等级转换为对应的半径值，并将第二数据对应的坐标点添加至半径值对应的同心圆坐标系中。

本发明实施例提供的一种数据划分系统，还可以包括：

训练模块，用于第二划分模块将第二数据划分至目标关联等级对应的中心数据所在的初始子数据集中，得到目标子数据集之后，基于目标子数据集对目标神经网络模型进行训练。

本发明实施例提供的一种数据划分系统，第一确定模块可以包括：

第三确定单元，用于将目标数据集中存在训练标签的数据作为第一数据集；将目标数据集中除第一数据集之外的数据作为第二数据集。

本发明实施例提供的一种数据划分系统，目标神经网络模型可以包括图神经网络。

本发明还提供了一种数据划分设备及计算机可读存储介质，其均具有本发明实施例提供的一种数据划分方法具有的对应效果。请参阅图9，图9为本发明实施例提供的一种数据划分设备的结构示意图。

本发明实施例提供的一种数据划分设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如上任一实施例所描述数据划分方法的步骤。

请参阅图10，本发明实施例提供的另一种数据划分设备中还可以包括：与处理器202连接的输入端口203，用于传输外界输入的命令至处理器202；与处理器202连接的显示单元204，用于显示处理器202的处理结果至外界；与处理器202连接的通信模块205，用于实现数据划分设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等；通信模块205所采用的通信方式包括但不局限于移动高清链接技术（HML）、通用串行总线（USB）、高清多媒体接口（HDMI）、无线连接：无线保真技术（WiFi）、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。

本发明实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上任一实施例所描述数据划分方法的步骤。

本发明所涉及的计算机可读存储介质包括随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本发明实施例提供的数据划分系统、设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的数据划分方法中对应部分的详细说明，在此不再赘述。另外，本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据划分方法，其特征在于，包括：

获取目标数据集，所述目标数据集中的数据包括论文；

基于数据的标签信息将所述目标数据集划分为第一数据集及第二数据集，所述标签信息包括训练标签；

基于数据的特征信息将所述第一数据集划分为目标数量的初始子数据集，所述特征信息包括将词在标题和摘要中的嵌入量平均后得到的128维特征向量；

确定各个所述初始子数据集的中心数据；

2.根据权利要求1所述的方法，其特征在于，所述基于数据的特征信息将所述第一数据集划分为目标数量的初始子数据集，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述相似度值，将所述第一数据划分为所述目标数量的所述初始子数据集，包括：

获取相似度合并阈值；

判断所述待选子数据集的数量是否小于所述目标数量；

4.根据权利要求3所述的方法，其特征在于，所述获取相似度合并阈值，包括：

将所述相似度值的最小值作为所述相似度合并阈值。

5.根据权利要求3所述的方法，其特征在于，所述增大所述相似度合并阈值，包括：

确定所述相似度值间的最小差值；

基于所述最小差值增大所述相似度合并阈值。

6.根据权利要求3所述的方法，其特征在于，所述基于所述特征信息，计算所述第一数据集中第一数据间的相似度值，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述特征信息，计算所述第一数据集中所述第一数据间的欧氏距离值，包括：

所述欧氏距离计算公式包括：

；

其中，表示所述第一数据集中第/>个所述第一数据；/>表示所述第一数据集中第/>个所述第一数据；/>表示/>的第/>个所述特征信息的值；/>表示/>的第/>个所述特征信息的值；/>表示所述特征信息的总个数值；/>表示/>与/>间的所述欧氏距离值。

8.根据权利要求2所述的方法，其特征在于，所述基于所述特征信息，计算所述第一数据集中第一数据间的相似度值，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述确定各个所述初始子数据集的中心数据，包括：

10.根据权利要求9所述的方法，其特征在于，所述确定所述第二数据集中至少一个第二数据与至少一个所述中心数据间的关联等级，包括：

11.根据权利要求10所述的方法，其特征在于，所述将与所述第二数据对应且等级最低的所述关联等级作为所述第二数据的目标关联等级，包括：

12.根据权利要求10所述的方法，其特征在于，所述将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的所述初始子数据集中，包括：

13.根据权利要求10所述的方法，其特征在于，所述将与所述第二数据对应且等级最低的所述关联等级作为所述第二数据的目标关联等级，包括：

14.根据权利要求10所述的方法，其特征在于，对于所述第二数据集中的所述第二数据，将与所述第二数据对应且等级最低的所述关联等级作为所述第二数据的目标关联等级，将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的所述初始子数据集中，得到目标子数据集，包括：

以每个所述中心数据为坐标原点建立对应的同心圆坐标系；

15.根据权利要求1所述的方法，其特征在于，所述对将所述第二数据划分至所述目标关联等级对应的所述中心数据所在的所述初始子数据集中，得到目标子数据集之后，还包括：

基于所述目标子数据集对目标神经网络模型进行训练。

16.根据权利要求15所述的方法，其特征在于，所述基于数据的标签信息将所述目标数据集划分为第一数据集及第二数据集，包括：

17.根据权利要求15所述的方法，其特征在于，所述目标神经网络模型包括图神经网络。

18.一种数据划分系统，其特征在于，包括：

获取模块，用于获取目标数据集，所述目标数据集中的数据包括论文；

第一确定模块，用于基于数据的标签信息将所述目标数据集划分为第一数据集及第二数据集，所述标签信息包括训练标签；

第一划分模块，用于基于数据的特征信息将所述第一数据集划分为目标数量的初始子数据集，所述特征信息包括将词在标题和摘要中的嵌入量平均后得到的128维特征向量；

19.一种数据划分设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至17任一项所述数据划分方法的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述数据划分方法的步骤。