CN112100453B - 一种字符串分布统计方法、系统、设备及计算机存储介质 - Google Patents

一种字符串分布统计方法、系统、设备及计算机存储介质 Download PDF

Info

Publication number
CN112100453B
CN112100453B CN201910527246.7A CN201910527246A CN112100453B CN 112100453 B CN112100453 B CN 112100453B CN 201910527246 A CN201910527246 A CN 201910527246A CN 112100453 B CN112100453 B CN 112100453B
Authority
CN
China
Prior art keywords
file
dimension reduction
character string
string distribution
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910527246.7A
Other languages
English (en)
Other versions
CN112100453A (zh
Inventor
刘彦南
郭开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201910527246.7A priority Critical patent/CN112100453B/zh
Publication of CN112100453A publication Critical patent/CN112100453A/zh
Application granted granted Critical
Publication of CN112100453B publication Critical patent/CN112100453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种字符串分布统计方法、系统、设备及计算机存储介质,获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果;对原始文件进行降维处理,得到相应的降维文件;基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。本申请提供的字符串分布统计方法,在获取训练样本集后,先对原始文件进行降维,再基于降维文件对机器学习模型进行训练,减少了输入给机器学习模型的训练样本的个数,避免了训练样本个数过大时降低机器学习模型的训练效率。本申请提供的字符串分布统计系统、设备及计算机可读存储介质也解决了相应技术问题。

Description

一种字符串分布统计方法、系统、设备及计算机存储介质
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种字符串分布统计方法、系统、设备及计算机存储介质。
背景技术
随着服务器、计算机、智能设备等设备的发展,设备所能执行的功能越来越丰富,以服务器为例,服务器在接收到新信息时,可能对新信息进行处理,比如进行信息提取、信息统计等,在此过程中,服务器需要对新信息中的字符串进行分布统计。
现有的一种字符串分布统计方法是:基于训练样本集训练预设的机器学习模型,训练样本集中包含原始文件及原始文件对应的字符串分布统计结果,再基于训练好的机器学习模型对目标文件进行分布统计。
然而,现有的一种字符串分布统计方法中,在训练样本集中原始文件的总个数大于预设临界值时,会使得机器学习模型的训练速度过于缓慢,影响字符串分布统计方法的处理效率。
综上所述,如何提高字符串分布统计方法的处理效率是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种字符串分布统计方法,其能在一定程度上解决如何提高字符串分布统计方法的处理效率的技术问题。本申请还提供了一种字符串分布统计系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种字符串分布统计方法,包括:
获取训练样本集,所述训练样本集中包含预设数量的原始文件及每个所述原始文件的字符串分布统计结果;
对所述原始文件进行降维处理,得到相应的降维文件;
基于所述降维文件及对应的所述字符串分布统计结果训练预设的机器学习模型,以基于训练好的所述机器学习模型对目标文件进行字符串分布统计。
优选的,所述对所述原始文件进行降维处理,得到降维文件,包括:
计算每个所述原始文件的哈希值;
对所有的所述哈希值进行降维处理,得到所述降维文件。
优选的,所述计算每个所述原始文件的哈希值,包括:
计算每个所述原始文件的MD5值。
优选的,所述对所有的所述哈希值进行降维处理,包括:
通过Hashing Trick算法对所有的所述哈希值进行降维处理。
优选的,所述对所有的所述哈希值进行降维处理,包括:
通过PCA算法对所有的所述哈希值进行降维处理。
优选的,所述计算每个所述原始文件的哈希值之后,还包括:
建立并保存所述原始文件与所述原始文件对应的哈希值间的对应关系。
优选的,所述基于所述降维文件及对应的所述字符串分布统计结果训练预设的机器学习模型,包括:
通过TF-IDF方法对所述降维文件进行向量化处理,得到向量化文件;
基于所述向量化文件及对应的所述字符串分布统计结果训练预设的所述机器学习模型。
优选的,所述基于所述向量化文件及对应的所述字符串分布统计结果训练预设的所述机器学习模型,包括:
通过LSA算法对所述向量化文件进行处理,得到处理文件;
基于所述处理文件及对应的所述字符串分布统计结果训练预设的所述机器学习模型。
一种字符串分布统计系统,包括:
第一获取模块,用于获取训练样本集,所述训练样本集中包含预设数量的原始文件及每个所述原始文件的字符串分布统计结果;
第一降维模块,用于对所述原始文件进行降维处理,得到相应的降维文件;
第一训练模块,用于基于所述降维文件及对应的所述字符串分布统计结果训练预设的机器学习模型,以基于训练好的所述机器学习模型对目标文件进行字符串分布统计。
一种字符串分布统计设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一所述字符串分布统计方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述字符串分布统计方法的步骤。
本申请提供的一种字符串分布统计方法,获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果;对原始文件进行降维处理,得到相应的降维文件;基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。本申请提供的一种字符串分布统计方法,在获取训练样本集后,并不是直接应用训练样本集对机器学习模型进行训练,而是先对原始文件进行降维,再基于降维文件对机器学习模型进行训练,减少了输入给机器学习模型的训练样本的个数,而机器学习模型中特征向量的长度等于降维文件的总个数,所以也减少了机器学习模型中特征向量的长度,避免了训练样本个数过大时降低机器学习模型的训练效率。本申请提供的一种字符串分布统计系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种字符串分布统计方法的第一流程图;
图2为本申请实施例提供的一种字符串分布统计方法的第二流程图;
图3为以字符串特征为例的Hashing Trick原理图;
图4为本申请实施例提供的一种字符串分布统计方法的第三流程图;
图5为本申请实施例提供的一种字符串分布统计系统的结构示意图;
图6为本申请实施例提供的一种字符串分布统计设备的结构示意图;
图7为本申请实施例提供的一种字符串分布统计设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着服务器、计算机、智能设备等设备的发展,设备所能执行的功能越来越丰富,以服务器为例,服务器在接收到新信息时,可能对新信息进行处理,比如进行信息提取、信息统计等,在此过程中,服务器需要对新信息中的字符串进行分布统计。现有的一种字符串分布统计方法是:基于训练样本集训练预设的机器学习模型,训练样本集中包含原始文件及原始文件对应的字符串分布统计结果,再基于训练好的机器学习模型对目标文件进行分布统计。然而,现有的一种字符串分布统计方法中,在训练样本集中原始文件的总个数大于预设临界值时,会使得机器学习模型的训练速度过于缓慢,影响字符串分布统计方法的处理效率。本申请提供的一种字符串分布统计方法可以提高字符串分布统计方法的处理效率。
请参阅图1,图1为本申请实施例提供的一种字符串分布统计方法的第一流程图。
本申请实施例提供的一种字符串分布统计方法,可以包括以下步骤:
步骤S101:获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果。
实际应用中,可以先获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果。预设数量的具体数值可以根据实际需要确定;原始文件及原始文件的字符串分布统计结果的类型也可以根据实际需要确定,比如原始文件可以为待分类主题的原始文件,原始文件的字符串分布统计结果可以为待分类主题的主题字符串等。
步骤S102:对原始文件进行降维处理,得到相应的降维文件。
实际应用中,在获取训练样本集后,便可以对原始文件进行降维处理,得到相应的降维文件。由于降维处理会使得多个原始文件映射成同一个降维文件,所以降维文件的数量会小于原始文件的数量,也即降维文件的数量会小于预设数量;对原始文件进行降维处理的算法可以根据实际需要确定。
步骤S103:基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。
实际应用中,在得到降维文件后,便可以基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,由于降维文件的数量小于原始文件的数量,所以在基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型时,可以减少输入给机器学习模型的文件数量,提高机器学习模型的训练速度和学习能力,进而提高字符串分布统计方法的处理效率。
应当指出,对机器学习模型进行训练时,可以先将降维文件输入至机器学习模型,然后获得机器学习模型对降维文件的字符串提取结果;判断字符串提取结果与降维文件的字符串分布统计结果的误差是否在要求范围内,若是,则调整机器学习模型的权重值,返回将降维文件输入至机器学习模型的步骤,直至字符串提取结果与降维文件的字符串分布统计结果的误差在要求范围内后,将机器学习模型作为训练好的机器学习模型。
本申请提供的一种字符串分布统计方法,获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果;对原始文件进行降维处理,得到相应的降维文件;基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。本申请提供的一种字符串分布统计方法,在获取训练样本集后,并不是直接应用训练样本集对机器学习模型进行训练,而是先对原始文件进行降维,再基于降维文件对机器学习模型进行训练,减少了输入给机器学习模型的训练样本的个数,而机器学习模型中特征向量的长度等于降维文件的总个数,所以也减少了机器学习模型中特征向量的长度,避免了训练样本个数过大时降低机器学习模型的训练效率。
请参阅图2,图2为本申请实施例提供的一种字符串分布统计方法的第二流程图。
本申请实施例提供的一种字符串分布统计方法可以包括以下步骤:
步骤S201:获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果。
步骤S202:计算每个原始文件的哈希值,对所有的哈希值进行降维处理,得到降维文件。
实际应用中,在对原始文件进行降维处理,得到相应的降维文件时,为了提高降维效率,进而提高整个字符串分布统计方法的运行效率,可以先计算每个原始文件的哈希值,然后对所有的哈希值进行降维处理,得到降维文件。具体的,在计算每个原始文件的哈希值时,可以计算每个原始文件的MD5(MD5Message-Digest Algorithm)值,当然也可以计算每个原始文件的MD2值、MD4值等,本申请在此不做具体限定。应当指出,本申请所涉及的MD5、MD4和MD2均为消息摘要算法;其中,MD2由Rivest在1989年开发,在MD2算法中,首先对信息进行数据补位,使信息的字节长度是16的倍数,然后,以一个16位的检验和追加到信息末尾,并且根据这个新产生的信息计算出散列值;MD74由Rivest在1990年开发,MD4算法同样需要填补信息以确保信息的比特位长度减去448后能被512整除(信息比特位长度mod 512=448),然后,一个以64位二进制表示的信息的最初长度被添加进来,信息被处理成512位迭代结构的区块,而且每个区块要通过三个不同步骤的处理;MD5由Rivest在1991年开发,MD5在MD4的基础上增加了"安全-带子"(safety-belts)的概念,虽然MD5比MD4复杂度大一些,但却更为安全,MD5由四个和MD4设计有少许不同的步骤组成,在MD5算法中,信息-摘要的大小和填充的必要条件与MD4完全相同。
具体应用场景中,对所有的哈希值进行降维处理时,可以通过Hashing Trick算法对所有的哈希值进行降维处理。具体的,在通过Hashing Trick(散列技巧)算法对所有的哈希值进行降维处理时,可以先定义一个与Hashing Trick算法对应的哈希表,借助哈希表来对哈希值进行降维处理,应当指出,哈希表的维度便为机器学习模型训练时所应用的字符串的特征向量的维度。由于Hashing Trick算法是对文件做多对一的映射,所以映射后的文件数量小于映射前的文件数据,比如,对于第i个原始文件,计算MD5值后,在哈希表查找到其对应的位置为p;对于第j个原始文件,计算MD5值后,在哈希表查找到其对应的位置也为p,那么第i和第j个原始文件对应的词频就可以相加合并,相当于减少了原始文件的数量。在使用Hashing Trick算法对所有的哈希值进行降维处理时,假设Hashing Trick算法将第i个MD5值映射到了哈希表中的位置p,则第i个MD5值的词频值Φ(i)将累加到Hashing Trick后的文件集合p的词频值上,即/>经Hashing Trick运算后的特征仍是一个无偏的估计,不会导致某些哈希位置的值过大,请参阅图3,图3为以字符串特征为例的Hashing Trick原理图。
具体应用场景中,在对所有的哈希值进行降维处理时,还可以通过PCA(principalcomponents analysis,主成分分析)算法对所有的哈希值进行降维处理。当然,还可以采用ICA(Independent Component Analysis,独立成分分析)、LDA(Linear DiscriminantAnalysis,线性判别分析)、LLE(Locality Preserving Projection,局部线性嵌入)、LPP(Locality Preserving Projection,局部保持映射)等降维算法对所有的哈希值进行降维处理等,本申请在此不做具体限定。
具体应用场景中,在计算每个原始文件的哈希值之后,还可以建立并保存原始文件与原始文件对应的哈希值间的对应关系。这样,便可以将每个原始文件的哈希值作为该原始文件的标识信息等,便于借助哈希值对原始文件进行标识、管理等。
步骤S203:基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。
本实施例中相关步骤的描述请参阅上述实施例,本申请在此不做具体限定。
请参阅图4,图4为本申请实施例提供的一种字符串分布统计方法的第三流程图。
本申请实施例提供的一种字符串分布统计方法可以包括以下步骤:
步骤S301:获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果。
步骤S302:对原始文件进行降维处理,得到相应的降维文件。
步骤S303:通过TF-IDF方法对降维文件进行向量化处理,得到向量化文件。
步骤S304:基于向量化文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。
实际应用中,在基于降维文件对机器学习模型进行训练时,为了便于机器学习模型对降维文件进行识别、处理等,可以采用TF-IDF(term frequency-inverse documentfrequency,词频-逆文本频率指数)方法将降维文件转换为向量化文件,再基于向量化文件对机器学习模型进行训练。应当指出,在通过TF-IDF方法对降维文件进行向量化处理时,可以先采用One-Hot编码对降维文件进行编码,得到编码文件,再通过TF-IDF方法对编码文件进行向量化处理;当然也可以采用其他编码方式对降维文件进行编码,本申请在此不做具体限定。本申请所涉及的Ohe-Hot编码又称为一位有效编码,其原理是采用N位状态寄存器来对N个字符串进行编码,每个字符串都有独立的寄存器位,并且任意时候只有一位有效;One-Hot编码是分类变量作为二进制向量的表示,其首先将分类值映射到整数值,然后,将每个整数值被表示为二进制向量,在此过程中,除了整数的索引之外,其它值都是零值,而整数的索引值被标记为1。以字符串集合[apple,orange]为例,使用one-hot编码对该字符串集合进行编码后得到的编码文件为[1,0]和[0,1]向量形式的文件。
具体应用场景中,在基于向量化文件及对应的字符串分布统计结果训练预设的机器学习模型时,为了减少向量化文件中冗余和无效的特征,可以先通过LSA(latentsemantic analysis,潜在语义分析)算法对向量化文件进行处理,得到处理文件;基于处理文件及对应的字符串分布统计结果训练预设的机器学习模型。本申请所涉及的LSA算法是一种自然语言处理中用到的方法,其通过“矢量语义空间”来描述文件样本与字符串之间的关系;其原理是,如果两个字符串多次出现在同一文件样本中,则这两个字符串在语义上具有相似性。
本申请还提供了一种字符串分布统计系统,其具有本申请实施例提供的一种字符串分布统计方法具有的对应效果。请参阅图5,图5为本申请实施例提供的一种字符串分布统计系统的结构示意图。
本申请实施例提供的一种字符串分布统计系统,可以包括:
第一获取模块101,用于获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果;
第一降维模块102,用于对原始文件进行降维处理,得到相应的降维文件;
第一训练模块103,用于基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。
本申请实施例提供的一种字符串分布统计系统中,第一降维模块可以包括:
第一计算子模块,用于计算每个原始文件的哈希值;
第一降维子模块,用于对所有的哈希值进行降维处理,得到降维文件。
本申请实施例提供的一种字符串分布统计系统中,第一计算子模块可以包括:
第一计算单元,用于计算每个原始文件的MD5值。
本申请实施例提供的一种字符串分布统计系统中,第一降维子模块可以包括:
第一降维单元,用于通过Hashing Trick算法对所有的哈希值进行降维处理。
本申请实施例提供的一种字符串分布统计系统中,第一降维子模块可以包括:
第二降维单元,用于通过PCA算法对所有的哈希值进行降维处理。
本申请实施例提供的一种字符串分布统计系统中,还可以包括:
第一建立模块,用于第一计算子模块计算每个原始文件的哈希值之后,建立并保存原始文件与原始文件对应的哈希值间的对应关系。
本申请实施例提供的一种字符串分布统计系统中,第一训练模块可以包括:
第一处理子模块,用于通过TF-IDF方法对降维文件进行向量化处理,得到向量化文件;
第一训练子模块,用于基于向量化文件及对应的字符串分布统计结果训练预设的机器学习模型。
本申请实施例提供的一种字符串分布统计系统中,第一训练子模块可以包括:
第一处理单元,用于通过LSA算法对向量化文件进行处理,得到处理文件;
第一训练单元,用于基于处理文件及对应的字符串分布统计结果训练预设的机器学习模型。
本申请还提供了一种字符串分布统计设备及计算机可读存储介质,其均具有本申请实施例提供的一种字符串分布统计方法具有的对应效果。请参阅图6,图6为本申请实施例提供的一种字符串分布统计设备的结构示意图。
本申请实施例提供的一种字符串分布统计设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行存储器201中存储的计算机程序时实现如下步骤:
获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果;
对原始文件进行降维处理,得到相应的降维文件;
基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。
本申请实施例提供的一种字符串分布统计设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行存储器中存储的计算机程序时具体实现如下步骤:计算每个原始文件的哈希值;对所有的哈希值进行降维处理,得到降维文件。
本申请实施例提供的一种字符串分布统计设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行存储器中存储的计算机程序时具体实现如下步骤:计算每个原始文件的MD5值。
本申请实施例提供的一种字符串分布统计设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行存储器中存储的计算机程序时具体实现如下步骤:通过Hashing Trick算法对所有的哈希值进行降维处理。
本申请实施例提供的一种字符串分布统计设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行存储器中存储的计算机程序时具体实现如下步骤:通过PCA算法对所有的哈希值进行降维处理。
本申请实施例提供的一种字符串分布统计设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行存储器中存储的计算机程序时具体实现如下步骤:计算每个原始文件的哈希值之后,建立并保存原始文件与原始文件对应的哈希值间的对应关系。
本申请实施例提供的一种字符串分布统计设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行存储器中存储的计算机程序时具体实现如下步骤:通过TF-IDF方法对降维文件进行向量化处理,得到向量化文件;基于向量化文件及对应的字符串分布统计结果训练预设的机器学习模型。
本申请实施例提供的一种字符串分布统计设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行存储器中存储的计算机程序时具体实现如下步骤:通过LSA算法对向量化文件进行处理,得到处理文件;基于处理文件及对应的字符串分布统计结果训练预设的机器学习模型。
请参阅图7,本申请实施例提供的另一种字符串分布统计设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现字符串分布统计设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接:无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果;
对原始文件进行降维处理,得到相应的降维文件;
基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时具体实现如下步骤:计算每个原始文件的哈希值;对所有的哈希值进行降维处理,得到降维文件。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时具体实现如下步骤:计算每个原始文件的MD5值。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时具体实现如下步骤:通过Hashing Trick算法对所有的哈希值进行降维处理。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时具体实现如下步骤:通过PCA算法对所有的哈希值进行降维处理。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时具体实现如下步骤:计算每个原始文件的哈希值之后,建立并保存原始文件与原始文件对应的哈希值间的对应关系。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时具体实现如下步骤:通过TF-IDF方法对降维文件进行向量化处理,得到向量化文件;基于向量化文件及对应的字符串分布统计结果训练预设的机器学习模型。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时具体实现如下步骤:通过LSA算法对向量化文件进行处理,得到处理文件;基于处理文件及对应的字符串分布统计结果训练预设的机器学习模型。
本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本申请实施例提供的一种字符串分布统计系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的一种字符串分布统计方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种字符串分布统计方法,其特征在于,包括:
获取训练样本集,所述训练样本集中包含预设数量的原始文件及每个所述原始文件的字符串分布统计结果;
对所述原始文件进行降维处理,得到相应的降维文件;
基于所述降维文件及对应的所述字符串分布统计结果训练预设的机器学习模型,以基于训练好的所述机器学习模型对目标文件进行字符串分布统计;
其中,所述对所述原始文件进行降维处理,得到降维文件,包括:
计算每个所述原始文件的哈希值;
对所有的所述哈希值进行降维处理,得到所述降维文件;所述降维处理包括将所述哈希值相同的所述原始文件对应的词频相加合并,以减少所述原始文件的数量。
2.根据权利要求1所述的方法,其特征在于,所述计算每个所述原始文件的哈希值,包括:
计算每个所述原始文件的MD5值。
3.根据权利要求1所述的方法,其特征在于,所述对所有的所述哈希值进行降维处理,包括:
通过Hashing Trick算法对所有的所述哈希值进行降维处理。
4.根据权利要求1所述的方法,其特征在于,所述对所有的所述哈希值进行降维处理,包括:
通过PCA算法对所有的所述哈希值进行降维处理。
5.根据权利要求1所述的方法,其特征在于,所述计算每个所述原始文件的哈希值之后,还包括:
建立并保存所述原始文件与所述原始文件对应的哈希值间的对应关系。
6.根据权利要求1所述的方法,其特征在于,所述基于所述降维文件及对应的所述字符串分布统计结果训练预设的机器学习模型,包括:
通过TF-IDF方法对所述降维文件进行向量化处理,得到向量化文件;
基于所述向量化文件及对应的所述字符串分布统计结果训练预设的所述机器学习模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述向量化文件及对应的所述字符串分布统计结果训练预设的所述机器学习模型,包括:
通过LSA算法对所述向量化文件进行处理,得到处理文件;
基于所述处理文件及对应的所述字符串分布统计结果训练预设的所述机器学习模型。
8.一种字符串分布统计系统,其特征在于,包括:
第一获取模块,用于获取训练样本集,所述训练样本集中包含预设数量的原始文件及每个所述原始文件的字符串分布统计结果;
第一降维模块,用于对所述原始文件进行降维处理,得到相应的降维文件;
第一训练模块,用于基于所述降维文件及对应的所述字符串分布统计结果训练预设的机器学习模型,以基于训练好的所述机器学习模型对目标文件进行字符串分布统计;
其中,所述第一降维模块包括:
第一计算子模块,用于计算每个所述原始文件的哈希值;
第一降维子模块,用于对所有的所述哈希值进行降维处理,得到所述降维文件;所述降维处理包括将所述哈希值相同的所述原始文件对应的词频相加合并,以减少所述原始文件的数量。
9.一种字符串分布统计设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述字符串分布统计方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述字符串分布统计方法的步骤。
CN201910527246.7A 2019-06-18 2019-06-18 一种字符串分布统计方法、系统、设备及计算机存储介质 Active CN112100453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910527246.7A CN112100453B (zh) 2019-06-18 2019-06-18 一种字符串分布统计方法、系统、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910527246.7A CN112100453B (zh) 2019-06-18 2019-06-18 一种字符串分布统计方法、系统、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112100453A CN112100453A (zh) 2020-12-18
CN112100453B true CN112100453B (zh) 2024-05-28

Family

ID=73748879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910527246.7A Active CN112100453B (zh) 2019-06-18 2019-06-18 一种字符串分布统计方法、系统、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112100453B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948829B (zh) * 2021-03-03 2023-11-03 深信服科技股份有限公司 文件查杀方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133253A (zh) * 2015-12-31 2017-09-05 达索系统公司 基于预测模型的推荐
CN107204991A (zh) * 2017-07-06 2017-09-26 深信服科技股份有限公司 一种服务器异常检测方法及系统
CN109359439A (zh) * 2018-10-26 2019-02-19 北京天融信网络安全技术有限公司 软件检测方法、装置、设备及存储介质
CN109670182A (zh) * 2018-12-21 2019-04-23 合肥工业大学 一种基于文本哈希向量化表示的海量极短文本分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
US8484148B2 (en) * 2009-05-28 2013-07-09 Microsoft Corporation Predicting whether strings identify a same subject
US8452718B2 (en) * 2010-06-10 2013-05-28 Tokyo Electron Limited Determination of training set size for a machine learning system
US9635089B2 (en) * 2014-12-31 2017-04-25 Verizon Patent And Licensing Inc. Auto suggestion in search with additional properties
US20180373722A1 (en) * 2017-06-26 2018-12-27 Acronis International Gmbh System and method for data classification using machine learning during archiving
US10657525B2 (en) * 2017-06-27 2020-05-19 Kasisto, Inc. Method and apparatus for determining expense category distance between transactions via transaction signatures

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133253A (zh) * 2015-12-31 2017-09-05 达索系统公司 基于预测模型的推荐
CN107204991A (zh) * 2017-07-06 2017-09-26 深信服科技股份有限公司 一种服务器异常检测方法及系统
CN109359439A (zh) * 2018-10-26 2019-02-19 北京天融信网络安全技术有限公司 软件检测方法、装置、设备及存储介质
CN109670182A (zh) * 2018-12-21 2019-04-23 合肥工业大学 一种基于文本哈希向量化表示的海量极短文本分类方法

Also Published As

Publication number Publication date
CN112100453A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
KR101801075B1 (ko) 데이터를 판독하고 기록하기 위한 방법, 장치 및 시스템
CN108197324B (zh) 用于存储数据的方法和装置
CN111510718B (zh) 通过图像文件的块间差异提高压缩率的方法及系统
CN108027713A (zh) 用于固态驱动器控制器的重复数据删除
CN107919943A (zh) 二进制数据的编码、解码方法和装置
CN110245469A (zh) 网页的水印生成方法、水印解析方法、装置及存储介质
CN112527752A (zh) 数据压缩方法、装置、计算机可读存储介质及电子设备
CN112035706A (zh) 编码、解码方法、计算机设备及可读存储介质
CN111522574B (zh) 差分包生成方法及相关设备
CN111064471A (zh) 数据处理方法、装置及电子设备
CN112100453B (zh) 一种字符串分布统计方法、系统、设备及计算机存储介质
CN116894457B (zh) 深度学习模型的网络权重存取方法
CN107832341B (zh) Agnss用户去重统计方法
CN116610731B (zh) 一种大数据分布式存储方法、装置、电子设备及存储介质
CN117370488A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN103975593B (zh) 基于三维模型压缩而生成重复性结构发现的比特流的方法和设备
JP2021033994A (ja) テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN116842012A (zh) 一种Redis集群的分片存储方法、装置、设备及存储介质
US20220171926A1 (en) Information processing method, storage medium, and information processing device
CN115935909A (zh) 一种文件生成方法、装置及电子设备
CN106095360B (zh) 基于调色板的图像处理方法和图像处理装置
CN112597071B (zh) 数据存储方法、获取方法、装置、电子设备以及介质
CN114244912B (zh) 数据传输方法、装置、计算机设备及存储介质
CN110504973A (zh) 文件压缩、解压方法和装置
CN113609313A (zh) 数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant