CN117390515B - 基于深度学习和SimHash的数据分类方法及系统 - Google Patents

基于深度学习和SimHash的数据分类方法及系统 Download PDF

Info

Publication number
CN117390515B
CN117390515B CN202311441807.4A CN202311441807A CN117390515B CN 117390515 B CN117390515 B CN 117390515B CN 202311441807 A CN202311441807 A CN 202311441807A CN 117390515 B CN117390515 B CN 117390515B
Authority
CN
China
Prior art keywords
data
deep learning
classification
learning model
simhash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311441807.4A
Other languages
English (en)
Other versions
CN117390515A (zh
Inventor
洪明睿
刘德志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Jun Hua Domain Information Security Technology Ltd By Share Ltd
Original Assignee
Jiangsu Jun Hua Domain Information Security Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Jun Hua Domain Information Security Technology Ltd By Share Ltd filed Critical Jiangsu Jun Hua Domain Information Security Technology Ltd By Share Ltd
Priority to CN202311441807.4A priority Critical patent/CN117390515B/zh
Publication of CN117390515A publication Critical patent/CN117390515A/zh
Application granted granted Critical
Publication of CN117390515B publication Critical patent/CN117390515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深度学习和SimHash的数据分类方法及系统,包括:准备数据集并划分为训练集、验证集和测试集;对原始数据进行数据预处理;使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;将特征向量输入基于SimHash创新的算法得到哈希编码;将哈希编码作为深度学习模型的输入,使用优化算法训练深度学习模型;重复以上两步,直至达到预设的迭代次数或准确率要求,则停止训练;使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能。本发明通过结合深度学习和SimHash算法的快速哈希特性并加以改进,进一步提高了哈希值精度和数据分类的性能,实现了大规模数据的快速、精确分类。

Description

基于深度学习和SimHash的数据分类方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及基于深度学习和SimHash的数据分类方法及系统。
背景技术
随着大数据时代的到来,数据量呈爆炸性增长,数据分类技术在各个领域得到了广泛应用。传统的数据分类方法通常依赖于手工设计的特征,难以处理复杂多变的实际问题,如何在海量数据中快速、精确地分类成为亟待解决的问题。
现有的数据分类方法主要存在以下缺点:在处理高维度数据时,传统的分类方法可能会遇到性能下降的问题,这是因为高维度数据具有更多的特征和更复杂的结构,需要更复杂的模型和算法来处理,因此对高维度数据的处理能力有限;特征提取是数据分类中的关键步骤之一,传统的特征提取方法可能无法充分挖掘数据的内在特征,导致分类的准确性下降,因此特征提取的准确性不足;不同的数据类型(如文本、图像、音频等)需要针对性地使用不同的分类方法。传统的分类方法可能无法适应各种类型的数据,导致分类效果不佳,因此对不同类型数据的适应性有限;传统的分类方法可能需要大量的计算资源和时间来处理大规模数据,这可能导致分类过程变得缓慢和不可扩展,因此对大规模数据的处理效率低下;传统的分类方法可能无法处理未知类型的数据,导致分类的准确性下降,因此对未知类型数据的分类能力有限。
传统的数据分类方法通常基于特征提取和分类器设计,然而这些方法在处理复杂和多变的数据时,往往难以获得理想的分类效果。近年来,深度学习技术的发展为数据分类提供了新的解决方案,但是如何将深度学习与传统的数据特征提取方法相结合,以提高数据分类的准确率和效率,仍然是一个技术难题。
发明内容
针对传统数据分类方法对大规模数据分类效率低下的问题,提出了基于深度学习和SimHash的数据分类方法及系统,基于传统的SimHash进行创新,进一步提高了哈希值精度,通过结合深度学习强大的特征学习和SimHash算法的快速哈希特性,实现了对大规模数据的快速、精确分类。
为了实现上述目的,本发明通过如下的技术方案来实现:
第一方面,本发明提供基于深度学习和SimHash的数据分类方法,所述方法包括以下步骤:
S1:准备数据集,将所述数据集划分为训练集、验证集和测试集;
S2:对所述数据集中的所有原始数据进行数据预处理,所述数据预处理包括归一化、去除噪声,以及填充或截断;
S3:使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;
S4:将所述特征向量输入到基于SimHash创新的算法中,得到哈希编码;
S5:将所述哈希编码作为深度学习模型的输入,使用优化算法训练所述深度学习模型;
S6:重复执行步骤S4-步骤S5,直至达到预设的迭代次数或准确率要求,则停止训练;
S7:使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能。
作为本发明的一种优选方案,所述数据预处理包括归一化、去除噪声,以及填充或截断,具体为:
归一化:采用min-max归一化方法,对所述数据集中的原始数据进行归一化处理,将原始数据映射到[0,1]的范围内,以使得所有数据具有相同的比例尺;min-max归一化公式如下:
式中,x为原始数据,x1为归一化后的数据,min和max分别为原始数据中的最小值和最大值;
去除噪声:使用滤波器或统计方法去除原始数据中的噪声,所述滤波器包括均值滤波器或中位数滤波器中的一种,所述均值滤波器的公式为:
所述中位数滤波器的公式为:
式中,x(p)为第p个去除噪声前的原始数据,x2为去除噪声后的数据,ω为滤波器的窗口大小;
填充或截断:对原始数据进行填充或截断操作,以统一数据标准,所述填充包括均值填充或零填充,所述均值填充公式为:
所述零填充公式为:
x3=0;
所述截断公式为:
x3=max(min(x,u),l);
式中,x(g)为第g个填充前的原始数据,G为填充数目;x3为填充或截断后的数据;u为截断的上限,l为截断的下限。
作为本发明的一种优选方案,所述深度学习模型包括CNN模型或LSTM模型中的一种;对于CNN模型,使用卷积层对图像数据进行特征提取;对于LSTM模型,使用LSTM层对序列数据进行特征提取;将最终得到的特征向量表示为x′∈Rd,其中R表示实数集,d为特征向量的维度。
作为本发明的一种优选方案,所述基于SimHash创新的算法具体包括:
使用阈值法对特征向量进行二进制分解,将所述特征向量分解为n个二进制位,每个二进制位表示特征向量中一个元素的取值情况,阈值法分解的公式如下:
式中,x′i表示特征向量x′的第i个元素;
根据每个二进制位的取值情况,计算出一个权重,表示该特征在数据中的重要程度,计算公式为:
wi=|x′i|;
式中,wi表示第i个二进制位的权重;
将每个二进制位的权重进行累加,生成一个哈希值h,计算公式为:
式中,bi为第i个二进制位的取值;
对哈希值进行加权平均,生成最终的哈希值h,计算公式表示为:
式中,hj为第j个哈希值,m为哈希值h的数量;
根据最终的哈希值h’,使用桶排序算法对特征向量x′对应的原始数据x进行分类,得到哈希编码,公式如下:
Ck={x|h′(x)∈(k-1,k)};
式中,Ck表示第k个类别,h’(x)为原始数据x的最终的哈希值。
作为本发明的一种优选方案,所述使用优化算法训练所述深度学习模型,具体包括:
将哈希编码作为输入,通过训练好的深度学习模型进行预测,输出分类结果;
根据分类结果和真实标签之间的差异,使用类似SGD的优化算法不断更新所述深度学习模型的权重和偏置;所述类似SGD的优化算法包括动量法、Adagrad、RMSProp、Adadelta以及Adam。
作为本发明的一种优选方案,所述步骤S7具体包括:
将测试数据输入到训练好的深度学习模型中,输出分类结果;
根据所述分类结果和真实标签之间的差异,计算分类准确率;
达到预设次数且分类准确率满足预设要求时,结束测试流程。
第二方面,本发明提供基于深度学习和SimHash的数据分类系统,所述系统包括:
数据集划分模块,用于将准备好的数据集划分为训练集、验证集和测试集;
数据预处理模块,用于对所述数据集中的所有原始数据进行数据预处理,所述数据预处理包括归一化、去除噪声,以及填充或截断;
特征提取模块,用于使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;
模型训练模块,用于将所述特征向量输入到基于SimHash创新的算法中,得到哈希编码,将所述哈希编码作为深度学习模型的输入,使用优化算法训练所述深度学习模型;重复以上步骤,直至达到预设的迭代次数或准确率要求,则停止训练;
模型测试模块,用于使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能;
所述基于SimHash创新的算法具体包括:
使用阈值法对特征向量进行二进制分解,将所述特征向量分解为n个二进制位,每个二进制位表示特征向量中一个元素的取值情况,阈值法分解的公式如下:
式中,x′i表示特征向量x′的第i个元素;
根据每个二进制位的取值情况,计算出一个权重,表示该特征在数据中的重要程度,计算公式为:
wi=|x′i|;
式中,wi表示第i个二进制位的权重;
将每个二进制位的权重进行累加,生成一个哈希值h,计算公式为:
式中,bi为第i个二进制位的取值;
对哈希值进行加权平均,生成最终的哈希值h’,计算公式表示为:
式中,hj为第j个哈希值,m为哈希值h的数量;
根据最终的哈希值h’,使用桶排序算法对特征向量x′对应的原始数据x进行分类,得到哈希编码,公式如下:
Ck={x|h′(x)∈(k-1,k)};
式中,Ck表示第k个类别,h’(x)为数据x的最终的哈希值。
第三方面,本发明提供一种设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个所述程序被一个或多个所述处理器执行时实现如上所述的基于深度学习和SimHash的数据分类方法。
第四方面,本发明提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的基于深度学习和SimHash的数据分类方法。
与现有技术相比,本发明的有益效果是:本发明通过深度神经网络进行特征提取,能够深入挖掘数据样本的复杂特征,并将学习到的特征输入基于SimHash创新的算法输出映射为哈希值,不仅考虑了特征向量的二进制分解,还结合了频率、位置等其他特征,从而能够更全面的捕捉数据样本的内在特征,提高哈希值的精度和数据分类的性能;本发明通过迁移虚席,可以将预训练的模型应用于其他任务,从而提高数据分类的效率;通过使用预训练的模型和结合深度神经网络和其他特征,可以减少模型的训练时间和计算资源的使用,从而降低数据分类的成本;本发明在海量数据的精确分类方面做到了全面、深入、准确、效率高以及成本低,通过对深度神经网络和其他特征的结合使用,以及对SimHash算法的创新,可以为技术人员提供一种新的思路和方法,从而推动相关领域的技术进步。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本发明实施例中的方法流程图;
图2为本发明实施例中的系统模块化结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明聚焦于海量数据的精确分类问题,利用深度学习模型对预处理后的数据进行特征提取,得到特征向量,并将得到的特征向量输入基于SimHash创新的算法输出映射为哈希值,通过比较不同数据样本的哈希值来衡量不同数据样本之间的相似性,并将它们分配到相应的类别中。再将哈希编码作为深度学习模型的输入,使用类似SGD的优化算法来训练这个深度学习模型,直到达到预设的迭代次数和准确率要求。实验结果表明,该方法在处理图像、文本等不同类型的数据上取得了良好的效果,具有广泛的应用前景。
如图1所示,为本发明的一个实施例,该实施例提供了基于深度学习和SimHash的数据分类方法,以解决现有技术对大规模数据分类效率低下的问题。
包括以下步骤:
S1:准备数据集,将数据集划分为训练集、验证集和测试集。
S2:对数据集中的所有原始数据进行数据预处理,以统一数据标准并提高特征提取的准确性;数据预处理包括归一化、去除噪声,以及填充或截断等等;
在一个具体的实施例中,数据预处理具体为:
归一化:可以采用min-max归一化方法,对数据集中的原始数据进行归一化处理,将原始数据映射到[0,1]的范围内,以使得所有数据具有相同的比例尺;min-max归一化公式如下:
式中,x为原始数据,x1为归一化后的数据,min和max分别为原始数据中的最小值和最大值;
去除噪声:使用滤波器或统计方法去除原始数据中的噪声,滤波器包括均值滤波器、中位数滤波器等,其中均值滤波器的公式为:
中位数滤波器的公式为:
式中,x(p)为第p个去除噪声前的原始数据,x2为去除噪声后的数据,ω为滤波器的窗口大小;
填充或截断:根据具体需求,对原始数据进行填充或截断操作,以统一数据标准,填充包括均值填充、零填充等,其中均值填充公式为:
零填充公式为:
x3=0;
截断公式为:
x3=max(min(x,u),l);
式中,x(g)为第g个填充前的原始数据,G为填充数目;x3为填充或截断后的数据;u为截断的上限,l为截断的下限;
以上步骤中,归一化、去除噪声,以及填充或截断的选取或实施顺序可根据实际应用需求确定。
S3:使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;
深度学习模型包括CNN模型、LSTM模型等;对于CNN模型,可以使用卷积层对图像数据进行特征提取;对于LSTM模型,可以使用LSTM层对序列数据进行特征提取;将最终得到的特征向量表示为x′∈Rd,其中R表示实数集,d为特征向量的维度;
S4:将特征向量输入到基于SimHash创新的算法中,得到哈希编码;
现有的SimHash算法很难做到对大量数据进行精确分类,通过深度神经网络进行特征提取,可以学习到数据样本的更复杂的特征,并将学习到的特征输入到基于SimHash创新的算法中映射为哈希值,可以提高哈希值的精度,从而提高数据分类的性能;
在一个具体的实施例中,基于SimHash创新的算法具体包括:
使用阈值法对特征向量进行二进制分解,将特征向量x′∈Rd分解为n个二进制位,每个二进制位表示特征向量中一个元素的取值情况,阈值法分解的公式如下:
式中,x′i表示特征向量x′的第i个元素;
根据每个二进制位的取值情况,计算出一个权重,表示该特征在数据中的重要程度,计算公式为:
wi=|x′i|;
式中,wi表示第i个二进制位的权重;
将每个二进制位的权重进行累加,生成一个哈希值h,计算公式为:
式中,bi为第i个二进制位的取值;
对哈希值进行加权平均,生成最终的哈希值h’,计算公式表示为:
式中,hj为第j个哈希值,m为哈希值h的数量;
根据最终的哈希值h’,使用桶排序算法对特征向量x′对应的原始数据x进行分类,根据哈希值将数据分配到不同的桶中,每个桶代表一个类别,得到哈希编码,公式如下:
Ck={x|h′(x)∈(k-1,k)};
式中,Ck表示第k个类别,h’(x)为原始数据x的最终的哈希值。
S5:将哈希编码作为深度学习模型的输入,使用优化算法训练深度学习模型;
在其中一个实施例中,步骤S5具体包括:
将哈希编码作为输入,通过训练好的深度学习模型进行预测,输出分类结果;
根据分类结果和真实标签之间的差异,使用类似SGD的优化算法不断更新深度学习模型的权重和偏置,逐步优化深度学习模型的性能,提高分类的准确性。
类似SGD的优化算法包括动量法、Adagrad、RMSProp、Adadelta以及Adam。
S6:重复执行步骤S4-步骤S5,直至达到预设的迭代次数或准确率要求,则停止训练。
S7:使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能;
在其中一个实施例中,步骤S7具体包括:
将测试数据输入到训练好的深度学习模型中,输出分类结果;
根据分类结果和真实标签之间的差异,计算分类准确率;
达到预设次数且分类准确率满足预设要求时,结束测试流程。
如图2所示,为本发明的另一实施例,该实施例提供了基于深度学习和SimHash的数据分类系统,包括:
数据集划分模块,用于将准备好的数据集划分为训练集、验证集和测试集;
数据预处理模块,用于对数据集中的所有原始数据进行数据预处理,数据预处理包括归一化、去除噪声,以及填充或截断;
特征提取模块,用于使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;
模型训练模块,用于将特征向量输入到基于SimHash创新的算法中,得到哈希编码,将哈希编码作为深度学习模型的输入,使用优化算法训练深度学习模型;重复以上步骤,直至达到预设的迭代次数或准确率要求,则停止训练;
模型测试模块,用于使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能;
基于SimHash创新的算法具体包括:
使用阈值法对特征向量进行二进制分解,将特征向量分解为n个二进制位,每个二进制位表示特征向量中一个元素的取值情况,阈值法分解的公式如下:
式中,x′i表示特征向量x′的第i个元素;
根据每个二进制位的取值情况,计算出一个权重,表示该特征在数据中的重要程度,计算公式为:
wi=|x′i|;
式中,wi表示第i个二进制位的权重;
将每个二进制位的权重进行累加,生成一个哈希值h,计算公式为:
式中,bi为第i个二进制位的取值;
对哈希值进行加权平均,生成最终的哈希值h’,计算公式表示为:
式中,hj为第j个哈希值,m为哈希值h的数量;
根据最终的哈希值h’,使用桶排序算法对特征向量x′对应的原始数据x进行分类,得到哈希编码,公式如下:
Ck={x|h′(x)∈(k-1,k)};
式中,Ck表示第k个类别,h’(x)为数据x的最终的哈希值。
本发明的实施例还提供一种设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行时实现如上所述的基于深度学习和SimHash的数据分类方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现,计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。该存储介质可以是只读存储器,磁盘或光盘等。因此,本发明的实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如上所述的基于深度学习和SimHash的数据分类方法。
综上所述,本发明通过深度神经网络进行特征提取,能够深入挖掘数据样本的复杂特征,并将学习到的特征输入基于SimHash创新的算法输出映射为哈希值,不仅考虑了特征向量的二进制分解,还结合了频率、位置等其他特征,从而能够更全面的捕捉数据样本的内在特征,提高哈希值的精度和数据分类的性能;本发明通过迁移虚席,可以将预训练的模型应用于其他任务,从而提高数据分类的效率;通过使用预训练的模型和结合深度神经网络和其他特征,可以减少模型的训练时间和计算资源的使用,从而降低数据分类的成本;本发明在海量数据的精确分类方面做到了全面、深入、准确、效率高以及成本低,通过对深度神经网络和其他特征的结合使用,以及对SimHash算法的创新,可以为技术人员提供一种新的思路和方法,从而推动相关领域的技术进步。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (4)

1.基于深度学习和SimHash的数据分类方法,其特征在于,所述方法包括以下步骤:
S1:准备数据集,对文本、图像和音频类型的数据进行分类,将所述数据集划分为训练集、验证集和测试集;
S2:对所述数据集中的所有原始数据进行数据预处理,所述数据预处理包括归一化、去除噪声,以及填充或截断,具体为:
归一化:采用min-max归一化方法,对所述数据集中的原始数据进行归一化处理,将原始数据映射到[0,1]的范围内,以使得所有数据具有相同的比例尺;min-max归一化公式如下:
式中,x为原始数据,x 1为归一化后的数据,minmax分别为原始数据中的最小值和最大值;
去除噪声:使用滤波器或统计方法去除原始数据中的噪声,所述滤波器包括均值滤波器或中位数滤波器中的一种,所述均值滤波器的公式为:
所述中位数滤波器的公式为:
式中,x(p)为第p个去除噪声前的原始数据,x 2为去除噪声后的数据,为滤波器的窗口大小;
填充或截断:对原始数据进行填充或截断操作,以统一数据标准,所述填充包括均值填充或零填充,所述均值填充公式为:
所述零填充公式为:
所述截断公式为:
式中,x(g)为第g个填充前的原始数据,G为填充数目;x 3为填充或截断后的数据;u为截断的上限,l为截断的下限;
S3:使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;
所述深度学习模型包括CNN模型或LSTM模型中的一种;对于CNN模型,使用卷积层对图像数据进行特征提取;对于LSTM模型,使用LSTM层对序列数据进行特征提取;将最终得到的特征向量表示为,其中R表示实数集,d为特征向量的维度;
S4:将所述特征向量输入到基于SimHash创新的算法中,得到哈希编码;
所述基于SimHash创新的算法具体包括:
使用阈值法对特征向量进行二进制分解,将所述特征向量分解为n个二进制位,每个二进制位表示特征向量中一个元素的取值情况,阈值法分解的公式如下:
式中,表示特征向量/>的第i个元素;
根据每个二进制位的取值情况,计算出一个权重,表示该特征在数据中的重要程度,计算公式为:
式中,w i 表示第i个二进制位的权重;
将每个二进制位的权重进行累加,生成一个哈希值h,计算公式为:
式中,b i 为第i个二进制位的取值;
对哈希值进行加权平均,生成最终的哈希值h ,计算公式表示为:
式中,h j 为第j个哈希值,m为哈希值h的数量;
根据最终的哈希值h ,使用桶排序算法对特征向量对应的原始数据x进行分类,得到哈希编码,公式如下:
式中,C k 表示第k个类别,h (x)为原始数据x的最终的哈希值;
S5:将所述哈希编码作为深度学习模型的输入,使用优化算法训练所述深度学习模型;
所述使用优化算法训练所述深度学习模型,具体包括:
将哈希编码作为输入,通过训练好的深度学习模型进行预测,输出分类结果;
根据分类结果和真实标签之间的差异,使用类似SGD的优化算法不断更新所述深度学习模型的权重和偏置;所述类似SGD的优化算法包括动量法、Adagrad、RMSProp、Adadelta以及Adam;
S6:重复执行步骤S4-步骤S5,直至达到预设的迭代次数或准确率要求,则停止训练;
S7:使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能;
所述步骤S7具体包括:
将测试数据输入到训练好的深度学习模型中,输出分类结果;
根据所述分类结果和真实标签之间的差异,计算分类准确率;
达到预设次数且分类准确率满足预设要求时,结束测试流程。
2.根据权利要求1所述的基于深度学习和SimHash的数据分类方法的数据分类系统,其特征在于,所述系统包括:
数据集划分模块,用于将准备好的数据集划分为训练集、验证集和测试集;
数据预处理模块,用于对所述数据集中的所有原始数据进行数据预处理,所述数据预处理包括归一化、去除噪声,以及填充或截断;
特征提取模块,用于使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;
模型训练模块,用于将所述特征向量输入到基于SimHash创新的算法中,得到哈希编码,将所述哈希编码作为深度学习模型的输入,使用优化算法训练所述深度学习模型,直至达到预设的迭代次数或准确率要求,则停止训练;
模型测试模块,用于使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能;
所述基于SimHash创新的算法具体包括:
使用阈值法对特征向量进行二进制分解,将所述特征向量分解为n个二进制位,每个二进制位表示特征向量中一个元素的取值情况,阈值法分解的公式如下:
式中,表示特征向量/>的第i个元素;
根据每个二进制位的取值情况,计算出一个权重,表示该特征在数据中的重要程度,计算公式为:
式中,w i 表示第i个二进制位的权重;
将每个二进制位的权重进行累加,生成一个哈希值h,计算公式为:
式中,b i 为第i个二进制位的取值;
对哈希值进行加权平均,生成最终的哈希值h ,计算公式表示为:
式中,h j 为第j个哈希值,m为哈希值h的数量;
根据最终的哈希值h ,使用桶排序算法对特征向量对应的原始数据x进行分类,得到哈希编码,公式如下:
式中,C k 表示第k个类别,h (x)为数据x的最终的哈希值。
3.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个所述程序被一个或多个所述处理器执行时实现如权利要求1所述的基于深度学习和SimHash的数据分类方法。
4.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1所述的基于深度学习和SimHash的数据分类方法。
CN202311441807.4A 2023-11-01 2023-11-01 基于深度学习和SimHash的数据分类方法及系统 Active CN117390515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311441807.4A CN117390515B (zh) 2023-11-01 2023-11-01 基于深度学习和SimHash的数据分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311441807.4A CN117390515B (zh) 2023-11-01 2023-11-01 基于深度学习和SimHash的数据分类方法及系统

Publications (2)

Publication Number Publication Date
CN117390515A CN117390515A (zh) 2024-01-12
CN117390515B true CN117390515B (zh) 2024-04-12

Family

ID=89438981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311441807.4A Active CN117390515B (zh) 2023-11-01 2023-11-01 基于深度学习和SimHash的数据分类方法及系统

Country Status (1)

Country Link
CN (1) CN117390515B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115316A (ja) * 2014-12-18 2016-06-23 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 処理装置、処理方法、推測装置、推測方法、およびプログラム
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法
CN108427738A (zh) * 2018-03-01 2018-08-21 中山大学 一种基于深度学习的快速图像检索方法
WO2020107840A1 (zh) * 2018-11-28 2020-06-04 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
CN113326390A (zh) * 2021-08-03 2021-08-31 中国海洋大学 基于深度特征一致哈希算法的图像检索方法
CN114491115A (zh) * 2022-02-17 2022-05-13 重庆邮电大学 一种基于深度哈希的多模型融合的集成图像检索方法
CN114996493A (zh) * 2022-05-30 2022-09-02 国网四川省电力公司眉山供电公司 一种基于数据清除消冗的电力场景图像数据筛选方法
CN115662462A (zh) * 2022-09-23 2023-01-31 金陵科技学院 采用局部敏感哈希的声源分离方法、装置及存储介质
CN116595457A (zh) * 2023-06-26 2023-08-15 南阳理工学院 基于残差网络的e2lsh眼角膜疾病分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337375A1 (en) * 2013-05-07 2014-11-13 Exeray Inc. Data search and storage with hash table-based data structures
US20220083822A1 (en) * 2020-09-11 2022-03-17 Actapio, Inc. Classification apparatus, classification method, a non-transitory computer-readable storage medium

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115316A (ja) * 2014-12-18 2016-06-23 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 処理装置、処理方法、推測装置、推測方法、およびプログラム
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法
CN108427738A (zh) * 2018-03-01 2018-08-21 中山大学 一种基于深度学习的快速图像检索方法
WO2020107840A1 (zh) * 2018-11-28 2020-06-04 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
CN113326390A (zh) * 2021-08-03 2021-08-31 中国海洋大学 基于深度特征一致哈希算法的图像检索方法
CN114491115A (zh) * 2022-02-17 2022-05-13 重庆邮电大学 一种基于深度哈希的多模型融合的集成图像检索方法
CN114996493A (zh) * 2022-05-30 2022-09-02 国网四川省电力公司眉山供电公司 一种基于数据清除消冗的电力场景图像数据筛选方法
CN115662462A (zh) * 2022-09-23 2023-01-31 金陵科技学院 采用局部敏感哈希的声源分离方法、装置及存储介质
CN116595457A (zh) * 2023-06-26 2023-08-15 南阳理工学院 基于残差网络的e2lsh眼角膜疾病分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度哈希的集成图像检索算法研究;单宏远;中国优秀硕士学位论文全文数据库 信息科技辑;20220525;正文第10-50页 *
基于深度学习的服装图像检索方法;陈双等;计算机系统应用;20190315;第229-234页 *

Also Published As

Publication number Publication date
CN117390515A (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN112101190B (zh) 一种遥感图像分类方法、存储介质及计算设备
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
CN114241779B (zh) 一种城市快速路交通流短时预测方法、计算机及存储介质
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN111160191A (zh) 一种视频关键帧提取方法、装置及存储介质
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN113139570A (zh) 一种基于最优混合估值的大坝安全监测数据补全方法
CN111598460A (zh) 土壤重金属含量的监测方法、装置、设备及存储介质
CN117390515B (zh) 基于深度学习和SimHash的数据分类方法及系统
CN113839799A (zh) 一种告警关联规则挖掘方法及装置
CN115358473A (zh) 基于深度学习的电力负荷预测方法及预测系统
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
CN114328923A (zh) 一种基于多任务双边分支网络的引文意图分类方法
CN114492174A (zh) 一种全生命周期盾构掘进参数预测方法及装置
JP2021124949A (ja) 機械学習モデル圧縮システム、プルーニング方法及びプログラム
CN114821206B (zh) 基于对抗互补特征的多模态图像融合分类方法与系统
CN117251574B (zh) 一种基于多特征数据融合的文本分类提取方法及系统
US20240054369A1 (en) Ai-based selection using cascaded model explanations
CN114510715B (zh) 模型的功能安全测试方法、装置、存储介质及设备
Khoram et al. TOCO: A framework for compressing neural network models based on tolerance analysis
Fan et al. 3d object modeling and recognition via online hierarchical pitman-yor process mixture learning
CN117639790A (zh) 配电网新型源荷资源时序概率场景生成和高保真压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant