CN117390515B

CN117390515B - 基于深度学习和SimHash的数据分类方法及系统

Info

Publication number: CN117390515B
Application number: CN202311441807.4A
Authority: CN
Inventors: 洪明睿; 刘德志
Original assignee: Jiangsu Jun Hua Domain Information Security Technology Ltd By Share Ltd
Current assignee: Jiangsu Jun Hua Domain Information Security Technology Ltd By Share Ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-04-12
Anticipated expiration: 2043-11-01
Also published as: CN117390515A

Abstract

本发明公开了基于深度学习和SimHash的数据分类方法及系统，包括：准备数据集并划分为训练集、验证集和测试集；对原始数据进行数据预处理；使用深度学习模型对预处理后的数据进行特征提取，得到特征向量；将特征向量输入基于SimHash创新的算法得到哈希编码；将哈希编码作为深度学习模型的输入，使用优化算法训练深度学习模型；重复以上两步，直至达到预设的迭代次数或准确率要求，则停止训练；使用测试集对训练好的深度学习模型进行测试，评估分类的准确率和性能。本发明通过结合深度学习和SimHash算法的快速哈希特性并加以改进，进一步提高了哈希值精度和数据分类的性能，实现了大规模数据的快速、精确分类。

Description

基于深度学习和SimHash的数据分类方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及基于深度学习和SimHash的数据分类方法及系统。

背景技术

随着大数据时代的到来，数据量呈爆炸性增长，数据分类技术在各个领域得到了广泛应用。传统的数据分类方法通常依赖于手工设计的特征，难以处理复杂多变的实际问题，如何在海量数据中快速、精确地分类成为亟待解决的问题。

现有的数据分类方法主要存在以下缺点：在处理高维度数据时，传统的分类方法可能会遇到性能下降的问题，这是因为高维度数据具有更多的特征和更复杂的结构，需要更复杂的模型和算法来处理，因此对高维度数据的处理能力有限；特征提取是数据分类中的关键步骤之一，传统的特征提取方法可能无法充分挖掘数据的内在特征，导致分类的准确性下降，因此特征提取的准确性不足；不同的数据类型(如文本、图像、音频等)需要针对性地使用不同的分类方法。传统的分类方法可能无法适应各种类型的数据，导致分类效果不佳，因此对不同类型数据的适应性有限；传统的分类方法可能需要大量的计算资源和时间来处理大规模数据，这可能导致分类过程变得缓慢和不可扩展，因此对大规模数据的处理效率低下；传统的分类方法可能无法处理未知类型的数据，导致分类的准确性下降，因此对未知类型数据的分类能力有限。

传统的数据分类方法通常基于特征提取和分类器设计，然而这些方法在处理复杂和多变的数据时，往往难以获得理想的分类效果。近年来，深度学习技术的发展为数据分类提供了新的解决方案，但是如何将深度学习与传统的数据特征提取方法相结合，以提高数据分类的准确率和效率，仍然是一个技术难题。

发明内容

针对传统数据分类方法对大规模数据分类效率低下的问题，提出了基于深度学习和SimHash的数据分类方法及系统，基于传统的SimHash进行创新，进一步提高了哈希值精度，通过结合深度学习强大的特征学习和SimHash算法的快速哈希特性，实现了对大规模数据的快速、精确分类。

为了实现上述目的，本发明通过如下的技术方案来实现：

第一方面，本发明提供基于深度学习和SimHash的数据分类方法，所述方法包括以下步骤：

S1：准备数据集，将所述数据集划分为训练集、验证集和测试集；

S2：对所述数据集中的所有原始数据进行数据预处理，所述数据预处理包括归一化、去除噪声，以及填充或截断；

S3：使用深度学习模型对预处理后的数据进行特征提取，得到特征向量；

S4：将所述特征向量输入到基于SimHash创新的算法中，得到哈希编码；

S5：将所述哈希编码作为深度学习模型的输入，使用优化算法训练所述深度学习模型；

S6：重复执行步骤S4-步骤S5，直至达到预设的迭代次数或准确率要求，则停止训练；

S7：使用测试集对训练好的深度学习模型进行测试，评估分类的准确率和性能。

作为本发明的一种优选方案，所述数据预处理包括归一化、去除噪声，以及填充或截断，具体为：

归一化：采用min-max归一化方法，对所述数据集中的原始数据进行归一化处理，将原始数据映射到[0，1]的范围内，以使得所有数据具有相同的比例尺；min-max归一化公式如下：

式中，x为原始数据，x₁为归一化后的数据，min和max分别为原始数据中的最小值和最大值；

去除噪声：使用滤波器或统计方法去除原始数据中的噪声，所述滤波器包括均值滤波器或中位数滤波器中的一种，所述均值滤波器的公式为：

所述中位数滤波器的公式为：

式中，x(p)为第p个去除噪声前的原始数据，x₂为去除噪声后的数据，ω为滤波器的窗口大小；

填充或截断：对原始数据进行填充或截断操作，以统一数据标准，所述填充包括均值填充或零填充，所述均值填充公式为：

所述零填充公式为：

x₃＝0；

所述截断公式为：

x₃＝max(min(x，u)，l)；

式中，x(g)为第g个填充前的原始数据，G为填充数目；x₃为填充或截断后的数据；u为截断的上限，l为截断的下限。

作为本发明的一种优选方案，所述深度学习模型包括CNN模型或LSTM模型中的一种；对于CNN模型，使用卷积层对图像数据进行特征提取；对于LSTM模型，使用LSTM层对序列数据进行特征提取；将最终得到的特征向量表示为x′∈R^d，其中R表示实数集，d为特征向量的维度。

作为本发明的一种优选方案，所述基于SimHash创新的算法具体包括：

使用阈值法对特征向量进行二进制分解，将所述特征向量分解为n个二进制位，每个二进制位表示特征向量中一个元素的取值情况，阈值法分解的公式如下：

式中，x′_i表示特征向量x′的第i个元素；

根据每个二进制位的取值情况，计算出一个权重，表示该特征在数据中的重要程度，计算公式为：

w_i＝|x′_i|；

式中，w_i表示第i个二进制位的权重；

将每个二进制位的权重进行累加，生成一个哈希值h，计算公式为：

式中，b_i为第i个二进制位的取值；

对哈希值进行加权平均，生成最终的哈希值h，计算公式表示为：

式中，h_j为第j个哈希值，m为哈希值h的数量；

根据最终的哈希值h’，使用桶排序算法对特征向量x′对应的原始数据x进行分类，得到哈希编码，公式如下：

C_k＝{x|h′(x)∈(k-1，k)}；

式中，C_k表示第k个类别，h’(x)为原始数据x的最终的哈希值。

作为本发明的一种优选方案，所述使用优化算法训练所述深度学习模型，具体包括：

将哈希编码作为输入，通过训练好的深度学习模型进行预测，输出分类结果；

根据分类结果和真实标签之间的差异，使用类似SGD的优化算法不断更新所述深度学习模型的权重和偏置；所述类似SGD的优化算法包括动量法、Adagrad、RMSProp、Adadelta以及Adam。

作为本发明的一种优选方案，所述步骤S7具体包括：

将测试数据输入到训练好的深度学习模型中，输出分类结果；

根据所述分类结果和真实标签之间的差异，计算分类准确率；

达到预设次数且分类准确率满足预设要求时，结束测试流程。

第二方面，本发明提供基于深度学习和SimHash的数据分类系统，所述系统包括：

数据集划分模块，用于将准备好的数据集划分为训练集、验证集和测试集；

数据预处理模块，用于对所述数据集中的所有原始数据进行数据预处理，所述数据预处理包括归一化、去除噪声，以及填充或截断；

特征提取模块，用于使用深度学习模型对预处理后的数据进行特征提取，得到特征向量；

模型训练模块，用于将所述特征向量输入到基于SimHash创新的算法中，得到哈希编码，将所述哈希编码作为深度学习模型的输入，使用优化算法训练所述深度学习模型；重复以上步骤，直至达到预设的迭代次数或准确率要求，则停止训练；

模型测试模块，用于使用测试集对训练好的深度学习模型进行测试，评估分类的准确率和性能；

所述基于SimHash创新的算法具体包括：

式中，x′_i表示特征向量x′的第i个元素；

w_i＝|x′_i|；

式中，w_i表示第i个二进制位的权重；

式中，b_i为第i个二进制位的取值；

对哈希值进行加权平均，生成最终的哈希值h’，计算公式表示为：

式中，h_j为第j个哈希值，m为哈希值h的数量；

C_k＝{x|h′(x)∈(k-1，k)}；

式中，C_k表示第k个类别，h’(x)为数据x的最终的哈希值。

第三方面，本发明提供一种设备，所述设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当一个或多个所述程序被一个或多个所述处理器执行时实现如上所述的基于深度学习和SimHash的数据分类方法。

第四方面，本发明提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的基于深度学习和SimHash的数据分类方法。

与现有技术相比，本发明的有益效果是：本发明通过深度神经网络进行特征提取，能够深入挖掘数据样本的复杂特征，并将学习到的特征输入基于SimHash创新的算法输出映射为哈希值，不仅考虑了特征向量的二进制分解，还结合了频率、位置等其他特征，从而能够更全面的捕捉数据样本的内在特征，提高哈希值的精度和数据分类的性能；本发明通过迁移虚席，可以将预训练的模型应用于其他任务，从而提高数据分类的效率；通过使用预训练的模型和结合深度神经网络和其他特征，可以减少模型的训练时间和计算资源的使用，从而降低数据分类的成本；本发明在海量数据的精确分类方面做到了全面、深入、准确、效率高以及成本低，通过对深度神经网络和其他特征的结合使用，以及对SimHash算法的创新，可以为技术人员提供一种新的思路和方法，从而推动相关领域的技术进步。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本发明实施例中的方法流程图；

图2为本发明实施例中的系统模块化结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明聚焦于海量数据的精确分类问题，利用深度学习模型对预处理后的数据进行特征提取，得到特征向量，并将得到的特征向量输入基于SimHash创新的算法输出映射为哈希值，通过比较不同数据样本的哈希值来衡量不同数据样本之间的相似性，并将它们分配到相应的类别中。再将哈希编码作为深度学习模型的输入，使用类似SGD的优化算法来训练这个深度学习模型，直到达到预设的迭代次数和准确率要求。实验结果表明，该方法在处理图像、文本等不同类型的数据上取得了良好的效果，具有广泛的应用前景。

如图1所示，为本发明的一个实施例，该实施例提供了基于深度学习和SimHash的数据分类方法，以解决现有技术对大规模数据分类效率低下的问题。

包括以下步骤：

S1：准备数据集，将数据集划分为训练集、验证集和测试集。

S2：对数据集中的所有原始数据进行数据预处理，以统一数据标准并提高特征提取的准确性；数据预处理包括归一化、去除噪声，以及填充或截断等等；

在一个具体的实施例中，数据预处理具体为：

归一化：可以采用min-max归一化方法，对数据集中的原始数据进行归一化处理，将原始数据映射到[0，1]的范围内，以使得所有数据具有相同的比例尺；min-max归一化公式如下：

去除噪声：使用滤波器或统计方法去除原始数据中的噪声，滤波器包括均值滤波器、中位数滤波器等，其中均值滤波器的公式为：

中位数滤波器的公式为：

填充或截断：根据具体需求，对原始数据进行填充或截断操作，以统一数据标准，填充包括均值填充、零填充等，其中均值填充公式为：

零填充公式为：

x₃＝0；

截断公式为：

x₃＝max(min(x，u)，l)；

式中，x(g)为第g个填充前的原始数据，G为填充数目；x₃为填充或截断后的数据；u为截断的上限，l为截断的下限；

以上步骤中，归一化、去除噪声，以及填充或截断的选取或实施顺序可根据实际应用需求确定。

深度学习模型包括CNN模型、LSTM模型等；对于CNN模型，可以使用卷积层对图像数据进行特征提取；对于LSTM模型，可以使用LSTM层对序列数据进行特征提取；将最终得到的特征向量表示为x′∈R^d，其中R表示实数集，d为特征向量的维度；

S4：将特征向量输入到基于SimHash创新的算法中，得到哈希编码；

现有的SimHash算法很难做到对大量数据进行精确分类，通过深度神经网络进行特征提取，可以学习到数据样本的更复杂的特征，并将学习到的特征输入到基于SimHash创新的算法中映射为哈希值，可以提高哈希值的精度，从而提高数据分类的性能；

在一个具体的实施例中，基于SimHash创新的算法具体包括：

使用阈值法对特征向量进行二进制分解，将特征向量x′∈R^d分解为n个二进制位，每个二进制位表示特征向量中一个元素的取值情况，阈值法分解的公式如下：

式中，x′_i表示特征向量x′的第i个元素；

w_i＝|x′_i|；

式中，w_i表示第i个二进制位的权重；

式中，b_i为第i个二进制位的取值；

式中，h_j为第j个哈希值，m为哈希值h的数量；

根据最终的哈希值h’，使用桶排序算法对特征向量x′对应的原始数据x进行分类，根据哈希值将数据分配到不同的桶中，每个桶代表一个类别，得到哈希编码，公式如下：

C_k＝{x|h′(x)∈(k-1，k)}；

S5：将哈希编码作为深度学习模型的输入，使用优化算法训练深度学习模型；

在其中一个实施例中，步骤S5具体包括：

根据分类结果和真实标签之间的差异，使用类似SGD的优化算法不断更新深度学习模型的权重和偏置，逐步优化深度学习模型的性能，提高分类的准确性。

类似SGD的优化算法包括动量法、Adagrad、RMSProp、Adadelta以及Adam。

S6：重复执行步骤S4-步骤S5，直至达到预设的迭代次数或准确率要求，则停止训练。

S7：使用测试集对训练好的深度学习模型进行测试，评估分类的准确率和性能；

在其中一个实施例中，步骤S7具体包括：

根据分类结果和真实标签之间的差异，计算分类准确率；

如图2所示，为本发明的另一实施例，该实施例提供了基于深度学习和SimHash的数据分类系统，包括：

数据预处理模块，用于对数据集中的所有原始数据进行数据预处理，数据预处理包括归一化、去除噪声，以及填充或截断；

模型训练模块，用于将特征向量输入到基于SimHash创新的算法中，得到哈希编码，将哈希编码作为深度学习模型的输入，使用优化算法训练深度学习模型；重复以上步骤，直至达到预设的迭代次数或准确率要求，则停止训练；

基于SimHash创新的算法具体包括：

使用阈值法对特征向量进行二进制分解，将特征向量分解为n个二进制位，每个二进制位表示特征向量中一个元素的取值情况，阈值法分解的公式如下：

式中，x′_i表示特征向量x′的第i个元素；

w_i＝|x′_i|；

式中，w_i表示第i个二进制位的权重；

式中，b_i为第i个二进制位的取值；

式中，h_j为第j个哈希值，m为哈希值h的数量；

C_k＝{x|h′(x)∈(k-1，k)}；

式中，C_k表示第k个类别，h’(x)为数据x的最终的哈希值。

本发明的实施例还提供一种设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行时实现如上所述的基于深度学习和SimHash的数据分类方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现，计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。该存储介质可以是只读存储器，磁盘或光盘等。因此，本发明的实施例还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如上所述的基于深度学习和SimHash的数据分类方法。

综上所述，本发明通过深度神经网络进行特征提取，能够深入挖掘数据样本的复杂特征，并将学习到的特征输入基于SimHash创新的算法输出映射为哈希值，不仅考虑了特征向量的二进制分解，还结合了频率、位置等其他特征，从而能够更全面的捕捉数据样本的内在特征，提高哈希值的精度和数据分类的性能；本发明通过迁移虚席，可以将预训练的模型应用于其他任务，从而提高数据分类的效率；通过使用预训练的模型和结合深度神经网络和其他特征，可以减少模型的训练时间和计算资源的使用，从而降低数据分类的成本；本发明在海量数据的精确分类方面做到了全面、深入、准确、效率高以及成本低，通过对深度神经网络和其他特征的结合使用，以及对SimHash算法的创新，可以为技术人员提供一种新的思路和方法，从而推动相关领域的技术进步。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.基于深度学习和SimHash的数据分类方法，其特征在于，所述方法包括以下步骤：

S1：准备数据集，对文本、图像和音频类型的数据进行分类，将所述数据集划分为训练集、验证集和测试集；

S2：对所述数据集中的所有原始数据进行数据预处理，所述数据预处理包括归一化、去除噪声，以及填充或截断，具体为：

归一化：采用min-max归一化方法，对所述数据集中的原始数据进行归一化处理，将原始数据映射到[0,1]的范围内，以使得所有数据具有相同的比例尺；min-max归一化公式如下：

；

式中，x为原始数据，x ₁为归一化后的数据，min和max分别为原始数据中的最小值和最大值；

；

所述中位数滤波器的公式为：

；

式中，x(p)为第p个去除噪声前的原始数据，x ₂为去除噪声后的数据，为滤波器的窗口大小；

；

所述零填充公式为：

；

所述截断公式为：

；

式中，x(g)为第g个填充前的原始数据，G为填充数目；x ₃为填充或截断后的数据；u为截断的上限，l为截断的下限；

所述深度学习模型包括CNN模型或LSTM模型中的一种；对于CNN模型，使用卷积层对图像数据进行特征提取；对于LSTM模型，使用LSTM层对序列数据进行特征提取；将最终得到的特征向量表示为，其中R表示实数集，d为特征向量的维度；

所述基于SimHash创新的算法具体包括：

；

式中，表示特征向量/>的第i个元素；

；

式中，w _i表示第i个二进制位的权重；

；

式中，b _i为第i个二进制位的取值；

对哈希值进行加权平均，生成最终的哈希值h ^’，计算公式表示为：

；

式中，h _j为第j个哈希值，m为哈希值h的数量；

根据最终的哈希值h ^’，使用桶排序算法对特征向量对应的原始数据x进行分类，得到哈希编码，公式如下：

；

式中，C _k表示第k个类别，h ^’(x)为原始数据x的最终的哈希值；

所述使用优化算法训练所述深度学习模型，具体包括：

根据分类结果和真实标签之间的差异，使用类似SGD的优化算法不断更新所述深度学习模型的权重和偏置；所述类似SGD的优化算法包括动量法、Adagrad、RMSProp、Adadelta以及Adam；

所述步骤S7具体包括：

2.根据权利要求1所述的基于深度学习和SimHash的数据分类方法的数据分类系统，其特征在于，所述系统包括：

模型训练模块，用于将所述特征向量输入到基于SimHash创新的算法中，得到哈希编码，将所述哈希编码作为深度学习模型的输入，使用优化算法训练所述深度学习模型，直至达到预设的迭代次数或准确率要求，则停止训练；

所述基于SimHash创新的算法具体包括：

；

式中，表示特征向量/>的第i个元素；

；

式中，w _i表示第i个二进制位的权重；

；

式中，b _i为第i个二进制位的取值；

；

式中，h _j为第j个哈希值，m为哈希值h的数量；

；

式中，C _k表示第k个类别，h ^’(x)为数据x的最终的哈希值。

3.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当一个或多个所述程序被一个或多个所述处理器执行时实现如权利要求1所述的基于深度学习和SimHash的数据分类方法。

4.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1所述的基于深度学习和SimHash的数据分类方法。