CN116863179A

CN116863179A - 基于深度学习的无监督数据划分方法

Info

Publication number: CN116863179A
Application number: CN202310945140.5A
Authority: CN
Inventors: 陈思竹; 王浩博
Original assignee: Sichuan Honghe Digital Intelligence Group Co ltd
Current assignee: Sichuan Honghe Digital Intelligence Group Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-10

Abstract

本发明涉及信息处理技术。本发明的目的是要解决目前数据划分方法中数据划分效果较差的问题，提供了一种用于深度学习的数据划分方法及可读存储介质，其技术方案可概括为：对所获取的图像进行预处理及提取图像的特征，将各图像的特征组合成一个特征空间；使用K‑means算法对特征空间中的各特征进行聚类，将聚类为一类的各特征对应的图像划分为同一类型的数据集。本发明的有益效果是，减少人工参与，适用于图像数据划分。

Description

基于深度学习的无监督数据划分方法

技术领域

本申请涉及信息处理技术，特别涉及用于深度学习的数据划分方法及可读存储介质。

背景技术

在对图像处理进行的深度学习的模型训练中，数据的划分方式非常重要，若相同数据全部划分在同一种类型的数据集里时，模型往往在当前数据上会存在严重的欠拟合或过拟合，从而导致模型的泛化能力交差。因此需要将同一场景中的数据划分在一起，不同场景的数据分开，以保证在后续的模型训练的数据处理阶段中，可以依据不同的场景将数据划分到不同的类型中，然后将不同类型的数据集同时划分在训练集和测试集中，保证模型在训练过程中能够拟合得到更好的结果，获得更好的泛化性。

目前的数据划分方法一般有两种：

一种是人工划分，即通过人工对数据进行筛选和分类。但这种方式存在工作量大较大的问题，例如在人工对数据进行划分时，当数据的场景较多时，人工难以找到以往分配的同类型文件夹，或因为分类出的文件夹数量较多而导致工作量大，且人工划分时，会因为人为因素导致划分错误，使得数据划分的过程中质量不高。

另一种是通过常用的CV（Computer Vision，计算机视觉）库进行提取，从而将相似的图像划分为一类。但这种方式的错误率较高，因为在使用CV库进行数据划分时，由于CV对像素信息较为敏感，当同一场景下的图片的前景发生变化时，很容易就将其划分成不同的类别，或者一个类型中只能找到几张最相似的图片，导致划分过细，泛化性较差。

因此，现有技术中存在数据划分效果较差的问题。

发明内容

本申请的目的是要解决目前数据划分方法中数据划分效果较差的问题，提供了一种用于深度学习的数据划分方法及可读存储介质。

本申请解决上述技术问题采用的技术方案中，第一方面提供了一种用于深度学习的数据划分方法，包括以下步骤：

步骤1、对所获取的图像进行预处理及提取图像的特征，将各图像的特征组合成一个特征空间；

步骤2、使用K-means算法对特征空间中的各特征进行聚类，将聚类为一类的各特征对应的图像划分为同一类型的数据集。

具体的，为提供一种预处理及提取图像的特征的方法，则步骤1中，所述对所获取的图片进行预处理及提取图像的特征，包括：

对所获取的图片进行特征提取，并对所提取的特征进行缩放及归一化，使得各特征均为同一预设维数的图像特征。

进一步的，为细化特征提取，则所述对所获取的图像进行特征提取，包括：

分别将所获取的图像送入预训练模型，以进行特征提取。

具体的，为提供一个较为符合要求的图像特征，则所述预设维数为512维。

再进一步的，为细化步骤2，则步骤2包括：

步骤201、使用K-means算法，将特征空间中的特征划分为不同的簇；

步骤202、将同一簇内各特征对应的图像分入同一文件夹，根据所划分的簇，将各特征对应的图像分入对应文件夹，得到各类型的数据集。

再进一步的，为细化步骤201，则步骤202中，所述使用K-means算法，将特征空间中的特征划分为不同的簇时，采用误差平方和来动态调整阈值，进而得到最优的簇空间距离及簇间平均距离，并选择使用平均距离从迅速变化到缓慢降低的阈值作为最优的K值，获取该K值划分出的不同的簇，作为最终划分出的各簇。

具体的，为细化误差平方和，则所述误差平方和的计算方式为：

其中，SSE是指误差平方和，Ci是指第i个簇，p是Ci中的样本点，mi是Ci的质心，即Ci中所有样本的均值。

再进一步的，由于在使用K-means算法，将特征空间中的特征划分为不同的簇前，采用误差平方和来动态调整阈值时，一般会限定一个大致的簇范围，以减少迭代次数及缩短计算时间，则所述使用K-means算法，将特征空间中的特征划分为不同的簇前，还将簇范围预设为预设范围。

具体的，为提供一个较为可行的簇范围，则所述预设范围为10-50。

本申请解决上述技术问题采用的技术方案中，第二方面提供了一种可读存储介质，所述可存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述用于深度学习的数据划分方法。

本申请的有益效果是，在本申请方案中，先利用图像特征提取，并形成特征空间，再使用K-means算法对各特征空间进行聚类划分，从而能够按照场景对各图像进行划分，解决了因为数据划分不合理导致的深度学习模型欠拟合或者过拟合的问题，另外，由于人工只需输入图像，不需要人工参与划分，工作量大大减少的同时也提高了划分效率及准确度。

附图说明

图1是本申请实施例第一方面提供的用于深度学习的数据划分方法的示意性流程图。

具体实施方式

为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1示出了本申请实施例第一方面提供的用于深度学习的数据划分方法的示意性流程图，作为示例而非限定，该用于深度学习的数据划分方法包括以下步骤：

步骤1、对所获取的图像进行预处理及提取图像的特征，将各图像的特征组合成一个特征空间。

可以理解的是，该用于深度学习的数据划分方法中，将图像特征提取与K-means等多个技术相融合，能够按照聚类对各图像进行划分，而聚类为一类的各特征一般都对应为一个场景，因此也就实现了按照场景对各图像进行划分的功能。且根据该方法可见，其是通过计算机程序实现的，也就减少了人工参与，减少了人工工作量的同时也提升了数据划分的效率及准确度。

另外，上述实施例中所提及的提取图像的特征的方法为现有技术中较为成熟的技术，此处不再详述。

为提供一种预处理及提取图像的特征的方法，在一些实施例中，其步骤1中，对所获取的图片进行预处理及提取图像的特征，可包括：

可以理解的是，上述实施例中，对所提取的特征进行缩放及归一化的目的在于，使得各特征均为同一预设维数的图像特征，从而方便后续计算处理，且同一预设维数的图像特征之间还能够尽量提高划分时的准确性。

为细化特征提取，在一些实施例中，对所获取的图像进行特征提取，可包括：

分别将所获取的图像送入预训练模型，以进行特征提取。

可以理解的是，上述实施例中的预训练模型即为特征提取模型，此为现有技术中较为成熟的技术，此处不再详述。

为提供一个较为符合要求的图像特征，在一些实施例中，预设维数优选为512维。

可以理解的是，这样可使得所提取的图像特征较为清晰，便于提高划分时的准确度。但预设维数又不易过高，因为过高的预设维数会增加系统处理负担，极大的增加处理时间。

为细化步骤2，则在一些实施例中，步骤2可包括：

可以理解的是，由于本发明实施例中，每个图像对应一个特征，则只需要对各特征划分完成，即可得到对应的图像划分。

为细化步骤201，则在一些实施例中，步骤202中，使用K-means算法，将特征空间中的特征划分为不同的簇时，采用误差平方和来动态调整阈值，进而得到最优的簇空间距离及簇间平均距离，并选择使用平均距离从迅速变化到缓慢降低的阈值作为最优的K值，获取该K值划分出的不同的簇，作为最终划分出的各簇。

可以理解的是，上述实施例中，对所使用的K-means算法进行了一定限定，这是因为在实施过程中，并不能提前知晓应划分出多少个簇（即K值），因此优选采用动态调整阈值的方式，而采用误差平方和的方式来动态调整阈值的目的在于尽量减少人为参与，可完全由系统进行实现。

在一些实施例中，为细化误差平方和，则误差平方和的计算方式为：

可以理解的是，此为误差平方和的常用公式，此处不再详述。

由于在使用K-means算法，将特征空间中的特征划分为不同的簇前，采用误差平方和来动态调整阈值时，一般会限定一个大致的簇范围，以减少迭代次数及缩短计算时间，则在一些实施例中，使用K-means算法，将特征空间中的特征划分为不同的簇前，还将簇范围预设为预设范围。

为提供一个较为可行的簇范围，则在一些实施例中，预设范围可为10-50。

该预设范围可根据实际情况进行设置，此值仅为举例说明。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例第二方面提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述用于深度学习的数据划分方法。

需要说明的是，上述装置/单元/模块之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.用于深度学习的数据划分方法，其特征在于，包括以下步骤：

2.如权利要求1所述的用于深度学习的数据划分方法，其特征在于，步骤1中，所述对所获取的图片进行预处理及提取图像的特征，包括：

3.如权利要求2所述的用于深度学习的数据划分方法，其特征在于，所述对所获取的图像进行特征提取，包括：

分别将所获取的图像送入预训练模型，以进行特征提取。

4.如权利要求2所述的用于深度学习的数据划分方法，其特征在于，所述预设维数为512维。

5.如权利要求1-4任一项所述的用于深度学习的数据划分方法，其特征在于，所述步骤2包括：

6.如权利要求5所述的用于深度学习的数据划分方法，其特征在于，步骤202中，所述使用K-means算法，将特征空间中的特征划分为不同的簇时，采用误差平方和来动态调整阈值，进而得到最优的簇空间距离及簇间平均距离，并选择使用平均距离从迅速变化到缓慢降低的阈值作为最优的K值，获取该K值划分出的不同的簇，作为最终划分出的各簇。

7.如权利要求6所述的用于深度学习的数据划分方法，其特征在于，所述误差平方和的计算方式为：

8.如权利要求6所述的用于深度学习的数据划分方法，其特征在于，所述使用K-means算法，将特征空间中的特征划分为不同的簇前，还将簇范围预设为预设范围。

9.如权利要求8所述的用于深度学习的数据划分方法，其特征在于，所述预设范围为10-50。

10.可读存储介质，其特征在于，所述可存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述用于深度学习的数据划分方法。