CN113934813A - 一种样本数据划分的方法、系统、设备及可读存储介质 - Google Patents

一种样本数据划分的方法、系统、设备及可读存储介质 Download PDF

Info

Publication number
CN113934813A
CN113934813A CN202010674339.5A CN202010674339A CN113934813A CN 113934813 A CN113934813 A CN 113934813A CN 202010674339 A CN202010674339 A CN 202010674339A CN 113934813 A CN113934813 A CN 113934813A
Authority
CN
China
Prior art keywords
sample data
data
types
sample
dividing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010674339.5A
Other languages
English (en)
Inventor
鲁威
刘�东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202010674339.5A priority Critical patent/CN113934813A/zh
Publication of CN113934813A publication Critical patent/CN113934813A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种样本数据划分的方法,包括:获取样本数据,并对样本数据进行特征提取,得到对应的特征;根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中;按照预设比例对每个数据类型的样本数据进行划分,得到训练集和测试集。本申请通过对样本数据进行特征提取,然后根据特征对样本数据进行聚类处理得到数据类型,提高了样本数据划分类别的效率;通过按照预设比例对每个数据类型的样本数据进行划分,保证了训练集和测试集中类型的多样性,避免了划分后的训练集和测试集出现类型不平衡的情况,进而提高了训练得到的模型的泛化能力。本申请同时还提供了一种样本数据划分的系统、设备及可读存储介质,具有上述有益效果。

Description

一种样本数据划分的方法、系统、设备及可读存储介质
技术领域
本申请涉及样本处理领域,特别涉及一种样本数据划分的方法、系统、设备及可读存储介质。
背景技术
机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能中最具智能特征,最前沿的研究领域之一。自20世纪80年代以来,机器学习作为实现人工智能的途径,在人工智能界引起了广泛的兴趣,特别是近十几年来,机器学习领域的研究工作发展很快,它已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。
在机器学习过程中,为了达到最优性能,需要利用训练集训练模型,得到最佳的模型参数,并利用测试集对训练好的模型参数进行性能评估。目前对训练集和测试集划分的方式大致有两种,一种为乱序后按一定比例划分的方式,另一种为分层等比例划分,然而,第一种划分方式导致训练集和测试集存在标签不一致和类型不平衡的问题,第二种划分方式同样存在类型不平衡问题,都会导致模型在训练阶段中无法学习到所有类型样本的特征,导致模型的泛化能力差。
因此,如何避免划分后的训练集和测试集出现类型不平衡的情况,进而提高模型的泛化能力是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种样本数据划分的方法、系统、设备及可读存储介质,用于避免划分后的训练集和测试集出现类型不平衡的情况,进而提高模型的泛化能力。
为解决上述技术问题,本申请提供一种样本数据划分的方法,该方法包括:
获取样本数据,并对所述样本数据进行特征提取,得到对应的特征;
根据所述特征对所述样本数据进行聚类处理将所述样本数据划分至不同的数据类型中;
按照预设比例对每个所述数据类型的样本数据进行划分,得到训练集和测试集。
可选的,对所述样本数据进行特征提取,得到对应的特征,包括:
根据每一个词在所有样本数据中的出现次数计算该词对应的词频;
根据所述样本数据的总数和所有样本数据中出现该词的样本数据的个数计算该词的逆文档频率;
根据所述词频和所述逆文档频率计算该词对应的重要程度值;
根据每一样本数据中各个词的重要程度值生成该样本数据的特征。
可选的,根据所述特征对所述样本数据进行聚类处理将所述样本数据划分至不同的数据类型中,包括:
选定预设数目的数据类型,并初始化每一数据类型对应的簇中心;
分别计算各特征与每一簇中心之间的距离,并将该特征对应样本数据划分至与该特征距离最近的簇中心所代表的数据类型中;
根据最新划分的数据类型中的所有样本数据重新更新所述簇中心;
重复执行分别计算各特征与每一簇中心之间的距离的步骤及后续所有步骤直至所有所述数据类型的簇中心不变,得到数据类型的样本数据。
可选的,所述样本数据包括正样本数据和负样本数据,所述数据类型包括正数据类型和负数据类型;
根据所述特征对所述样本数据进行聚类处理将所述样本数据划分至不同的数据类型中,包括:
根据所述特征对所述正样本数据进行聚类处理将所有正样本数据划分至不同的正数据类型中,并对所述负样本数据进行聚类处理将所有负样本数据划分至不同的负数据类型中。
可选的,所述按照预设比例对每个所述数据类型的样本数据进行划分,得到训练集和测试集,包括:
按照第一预设比例将每一所述正数据类型中的样本数据划分为训练子集和测试子集;
按照第二预设比例将每一所述负数据类型中的样本数据划分为训练子集和测试子集;
结合所有所述正数据类型中的训练子集和所有所述负数据类型中的训练子集得到所述训练集,并结合所有所述正数据类型中的测试子集和所有所述负数据类型中的测试子集得到所述测试集。
可选的,在将所述样本数据划分至所述特征对应的数据类型中之后,还包括:
若所述数据类型中的所有样本数据的数量小于阈值,则输出数据扩充的提示信息,以使用户对所述数据类型中的样本数据进行数据扩充。
可选的,在将所述样本数据划分至所述特征对应的数据类型中之后,还包括:
若所述数据类型中的所有样本数据的数量小于阈值,则输出请求人工分析的提示信息,以使用户针对所述稀有数据类型的样本数据进行分析。
本申请还提供一种样本数据划分的系统,该系统包括:
特征提取模块,用于获取样本数据,并对所述样本数据进行特征提取,得到对应的特征;
聚类模块,用于根据所述特征对所述样本数据进行聚类处理将所述样本数据划分至不同的数据类型中;
划分模块,用于按照预设比例对每个所述数据类型的样本数据进行划分,得到训练集和测试集。
本申请还提供一种样本数据划分设备,该样本数据划分设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述样本数据划分的方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述样本数据划分的方法的步骤。
本申请所提供样本数据划分的方法,包括:获取样本数据,并对样本数据进行特征提取,得到对应的特征;根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中;按照预设比例对每个数据类型的样本数据进行划分,得到训练集和测试集。
本申请所提供的技术方案,通过对样本数据进行特征提取,得到对应的特征,然后根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中,提高了样本数据划分类别的效率;通过按照预设比例对每个数据类型的样本数据进行划分,保证了训练集和测试集中类型的多样性,避免了划分后的训练集和测试集出现类型不平衡的情况,进而提高了训练得到的模型的泛化能力。本申请同时还提供了一种样本数据划分的系统、设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种样本数据划分的方法的流程图;
图2为图1所提供的一种样本数据划分的方法中S102的一种实际表现方式的流程图;
图3为本申请实施例所提供的一种样本数据划分的系统的结构图;
图4为本申请实施例所提供的另一种样本数据划分的系统的结构图;
图5为本申请实施例所提供的一种样本数据划分设备的结构图。
具体实施方式
本申请的核心是提供一种样本数据划分的方法、系统、设备及可读存储介质,用于避免划分后的训练集和测试集出现类型不平衡的情况,进而提高模型的泛化能力。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前对训练集和测试集划分的方式大致有两种:
一种为乱序后按一定比例划分的方式,即将训练集所有数据打乱顺序后按设定的比例划分为训练集和测试集,这种划分方式简单,但存在着两点问题,一是标签不平衡,即划分后的训练集和测试集正负比例和原来样本中不一致,例如可能存在着训练集正样本比例过多,而测试集正样本比例过少的问题;二是类型不平衡,即同一标签下不同类型的样本数据数量相差很大,划分训练测试集时容易将数据划分不均匀,可能将类型较少的数据全部划分到测试集中,导致训练集中没有该类型的数据。
另一种为分层等比例划分的方式,即分别对不同标签样本按按设定的比例划分为训练集和测试集,确保训练集,测试集中各类别样本的比例与原始数据集中相同,例如原始样本正负比例为5:5,则训练集测试集中正负样本的比例也为5:5。这种划分方式能够解决第一种划分方式中标签不平衡的问题,但还是存在类型不平衡问题。
上述两种划分方式都无法保证相同标签下数据类型的划分平衡,例如病毒文件有很多类型,其中后门病毒很多,勒索病毒相对较少,上述两种划分方式都可能导致勒索病毒攻击类型全部划分至测试集中,而训练集中没有勒索病毒攻击类型,导致模型在训练阶段无法学习到勒索病毒的特征;故本申请提供了一种样本数据划分的方法,用于解决上述问题。
请参考图1,图1为本申请实施例所提供的一种样本数据划分的方法的流程图。
其具体包括如下步骤:
S101:获取样本数据,并对样本数据进行特征提取,得到对应的特征;
在本步骤中,对样本数据进行特征提取,得到对应的特征的目的在于对得到的特征进行聚类处理得到数据类型,并将样本数据划分至特征对应的数据类型中,进而完成对样本数据的分类;
可选的,这里提到的样本数据既可以通过用户输入的方式获取,也可以通过连接到服务器指定位置下载得到,本申请对样本数据的获取方式不做具体限定;
可选的,这里提到的特征可以包括特征向量和特征序列,当该特征为特征序列时,这里提到的对样本数据进行特征提取,得到对应的特征,其具体可以为通过词法分析对样本数据进行分析,并将生成的单词序列作为样本数据的特征序列;
可选的,当该特征为特征向量时,这里提到的对样本数据进行特征提取,得到对应的特征,其具体可以通过执行如下步骤实现:
根据每一个词在所有样本数据中的出现次数计算该词对应的词频;
根据样本数据的总数和所有样本数据中出现该词的样本数据的个数计算该词的逆文档频率;
根据词频和逆文档频率计算该词对应的重要程度值;
根据每一样本数据中各个词的重要程度值生成该样本数据的特征。
可选的,在一个具体实施例中,上述实施例具体可以为:
根据第i个词在第j个样本数据中的出现次数计算第i个词在第j个样本数据中的词频;
根据样本数据的总数和所有样本数据中出现第i个词的样本数据的个数计算第i个词的逆文档频率;
根据词频和逆文档频率计算第i个词在第j个样本数据中的重要程度值;
根据第j个样本数据中每个词的重要程度值生成第j个样本数据的特征。
这里提到的重要程度值用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,本申请实施例通过根据样本数据中每个词的重要程度值生成样本数据的特征,提高了特征提取的精度,进而使得到的样本数据的数据类型更为精确,更进一步的保证了训练集和测试集中类型的多样性。
S102:根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中;
可选的,这里提到的根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中,其具体可以为通过预设聚类算法根据特征对样本数据进行聚类处理得到数据类型,该预设聚类算法可以包括但不限于K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的最大期望聚类算法、凝聚层次聚类算法、图团体检测算法;
可选的,这里提到的根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中,其具体也可以通过执行图2所示的步骤实现,下面结合图2进行说明,图2为图1所提供的一种样本数据划分的方法中S102的一种实际表现方式的流程图,其具体包括如下步骤:
S201:选定预设数目的数据类型,并初始化每一数据类型对应的簇中心;
S202:分别计算各特征与每一簇中心之间的距离,并将该特征对应样本数据划分至与该特征距离最近的簇中心所代表的数据类型中;
S203:根据最新划分的数据类型中的所有样本数据重新更新簇中心;
重复执行步骤S202至步骤S203,直至所有数据类型的簇中心不变,得到数据类型的样本数据。
基于上述实施例,本申请通过选定预设数目的数据类型,并初始化每一数据类型对应的簇中心,然后分别计算各特征与每一簇中心之间的距离,并将该特征对应样本数据划分至与该特征距离最近的簇中心所代表的数据类型中,再根据最新划分的数据类型中的所有样本数据重新更新簇中心,直至所有类簇的簇中心不变时,得到了每一数据类型的样本数据,使得样本数据的划分精度得到提高。
可选的,现有技术中在对样本数据进行扩充时通常使用人工标注法和半监督法进行扩充,然而人工标注法在面对大规模样本量时成本过高,而且无法解决类型不平衡的问题;
半监督法,即为通过使用一小批已经标好的数据进行训练,然后使用训练好的模型预测未标记数据的标签,调整阈值,对模型预测得到的黑样本再人工筛选(一般情况下,白样本有很多,不需要筛选扩充),再将黑样本加入训练集,训练,再筛选,循环直到数据比例到达一个可接接受的范围。半监督法虽然缩小了人工筛选的范围提高了效率,但是涉及到模型训练迭代,如果模型较大,训练等待的时间会更长,成本也难以接受;而且同样不能较好的解决类型不平衡,扩充的样本可能是已有的数据量较大类型的数据;基于此,本申请还可以针对此于样本数据过少但同样重要的数据类别进行针对性数据扩充,即在将样本数据划分至特征对应的数据类型中之后,还可以执行如下步骤:
若数据类型中的所有样本数据的数量小于阈值,则输出数据扩充的提示信息,以使用户对数据类型中的样本数据进行数据扩充。
具体的,用户可以通过生成稀有数据类型的样本数据、获取历史稀有数据类型的样本数据等方式进行针对性数据扩充。
可选的,基于存在着样本数据过少但同样重要的数据类别的情况,此时通过机器学习可能无法学习到该类特征,还可以通过人工分析的方式获取到该类特征,即在将样本数据划分至特征对应的数据类型中之后,还可以执行如下步骤:
若数据类型中的所有样本数据的数量小于阈值,则输出请求人工分析的提示信息,以使用户针对稀有数据类型的样本数据进行分析。
具体的,用户可以针对稀有数据类型的样本数据进行人工分析得到其特征,然后针对性的对其进行改进。比病毒为例,如果某个新型病毒爆发,起初这种类型的数据较少,得到该簇的数据也很少,此时可以在捕获后对其进行人工分析,针对性的提取特征后,模型能更好的对其进行分类。
可选的,这里提到的样本数据可以包括正样本数据和负样本数据,该数据类型可以包括正数据类型和负数据类型;
在此基础上,由于正样本数据和负样本数据中所包含的数据类型不一致,因此需要将正负样本分别聚类,即这里提到的根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中,其具体可以为:
根据特征对正样本数据进行聚类处理将所有正样本数据划分至不同的正数据类型中,并对负样本数据进行聚类处理将所有负样本数据划分至不同的负数据类型中。
S103:按照预设比例对每个数据类型的样本数据进行划分,得到训练集和测试集。
可选的,当样本数据包括正样本数据和负样本数据时,这里提到的按照预设比例对每个数据类型的样本数据进行划分,得到训练集和测试集,其具体可以为:
按照第一预设比例将每一正数据类型中的样本数据划分为训练子集和测试子集;
按照第二预设比例将每一负数据类型中的样本数据划分为训练子集和测试子集;
结合所有正数据类型中的训练子集和所有负数据类型中的训练子集得到训练集,并结合所有正数据类型中的测试子集和所有负数据类型中的测试子集得到测试集。
其中,第一预设比例和第二预设比例可以相同也可以不同。
可选的,在得到训练集和测试集之后,还可以执行如下步骤完成对预设机器学习模型的训练和测试:
利用训练集对预设机器学习模型进行训练;
利用测试集对训练后的预设机器学习模型进行测试。
进一步的,这里提到的预设机器学习模型可以包括LightGBM机器学习模型、XGBoost机器学习模型、RNN深度学习模型、CNN深度学习模型中的至少一项;
在一个具体实施例中,当需要对WebShell进行脚本检测、病毒查杀或网页篡改时,在得到训练集和测试集之后,可以利用训练集对预设机器学习模型进行训练,并利用测试集对训练后的预设机器学习模型进行测试;
这里提到的WebShell为一种以网页文件形式存在的命令执行程序,也称为后门文件,是黑客入侵网站采用的重要手段,通常以asp、php、jsp或者cgi等网页文件形式存在。
基于上述技术方案,本申请所提供的一种样本数据划分的方法,通过对样本数据进行特征提取,得到对应的特征,然后根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中,提高了样本数据划分类别的效率;通过按照预设比例对每个数据类型的样本数据进行划分,保证了训练集和测试集中类型的多样性,避免了划分后的训练集和测试集出现类型不平衡的情况,进而提高了训练得到的模型的泛化能力。
请参考图3,图3为本申请实施例所提供的一种样本数据划分的系统的结构图。
该系统可以包括:
特征提取模块100,用于获取样本数据,并对样本数据进行特征提取,得到对应的特征;
聚类模块200,用于根据特征对样本数据进行聚类处理将样本数据划分至不同的数据类型中;
划分模块300,用于按照预设比例对每个数据类型的样本数据进行划分,得到训练集和测试集。
请参考图4,图4为本申请实施例所提供的另一种样本数据划分的系统的结构图。
该特征提取模块100可以包括:
第一计算子模块,用于根据每一个词在所有样本数据中的出现次数计算该词对应的词频;
第二计算子模块,用于根据样本数据的总数和所有样本数据中出现该词的样本数据的个数计算该词的逆文档频率;
第三计算子模块,用于根据词频和逆文档频率计算该词对应的重要程度值;
生成子模块,用于根据每一样本数据中各个词的重要程度值生成该样本数据的特征。
该聚类模块200可以包括:
选定子模块,用于选定预设数目的数据类型,并初始化每一数据类型对应的簇中心;
第一划分子模块,用于分别计算各特征与每一簇中心之间的距离,并将该特征对应样本数据划分至与该特征距离最近的簇中心所代表的数据类型中;
更新子模块,用于根据最新划分的数据类型中的所有样本数据重新更新簇中心;
重复子模块,用于重复执行分别计算各特征与每一簇中心之间的距离的步骤及后续所有步骤直至所有数据类型的簇中心不变,得到数据类型的样本数据。
该样本数据可以包括正样本数据和负样本数据,数据类型可以包括正数据类型和负数据类型;
在此基础上,该聚类模块200可以包括:
聚类子模块,用于根据特征对正样本数据进行聚类处理将所有正样本数据划分至不同的正数据类型中,并对负样本数据进行聚类处理将所有负样本数据划分至不同的负数据类型中。
该划分模块300可以包括:
第二划分子模块,用于按照第一预设比例将每一正数据类型中的样本数据划分为训练子集和测试子集;
第三划分子模块,用于按照第二预设比例将每一负数据类型中的样本数据划分为训练子集和测试子集;
结合子模块,用于结合所有正数据类型中的训练子集和所有负数据类型中的训练子集得到训练集,并结合所有正数据类型中的测试子集和所有负数据类型中的测试子集得到测试集。
该系统还可以包括:
第一输出模块,用于在将样本数据划分至特征对应的数据类型中之后,若数据类型中的所有样本数据的数量小于阈值,则输出数据扩充的提示信息,以使用户对数据类型中的样本数据进行数据扩充。
该系统还可以包括:
第二输出模块,用于在将样本数据划分至特征对应的数据类型中之后,若数据类型中的所有样本数据的数量小于阈值,则输出请求人工分析的提示信息,以使用户针对稀有数据类型的样本数据进行分析。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
请参考图5,图5为本申请实施例所提供的一种样本数据划分设备的结构图。
该样本数据划分设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对装置中的一系列指令操作。更进一步地,处理器522可以设置为与存储介质530通信,在样本数据划分设备500上执行存储介质530中的一系列指令操作。
样本数据划分设备500还可以包括一个或一个以上电源525,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述图1至图2所描述的样本数据划分的方法中的步骤由样本数据划分设备基于该图5所示的结构实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种样本数据划分的方法、系统、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种样本数据划分的方法,其特征在于,包括:
获取样本数据,并对所述样本数据进行特征提取,得到对应的特征;
根据所述特征对所述样本数据进行聚类处理将所述样本数据划分至不同的数据类型中;
按照预设比例对每个所述数据类型的样本数据进行划分,得到训练集和测试集。
2.根据权利要求1所述的方法,其特征在于,对所述样本数据进行特征提取,得到对应的特征,包括:
根据每一个词在所有样本数据中的出现次数计算该词对应的词频;
根据所述样本数据的总数和所有样本数据中出现该词的样本数据的个数计算该词的逆文档频率;
根据所述词频和所述逆文档频率计算该词对应的重要程度值;
根据每一样本数据中各个词的重要程度值生成该样本数据的特征。
3.根据权利要求1所述的方法,其特征在于,根据所述特征对所述样本数据进行聚类处理将所述样本数据划分至不同的数据类型中,包括:
选定预设数目的数据类型,并初始化每一数据类型对应的簇中心;
分别计算各特征与每一簇中心之间的距离,并将该特征对应样本数据划分至与该特征距离最近的簇中心所代表的数据类型中;
根据最新划分的数据类型中的所有样本数据重新更新所述簇中心;
重复执行分别计算各特征与每一簇中心之间的距离的步骤及后续所有步骤直至所有所述数据类型的簇中心不变,得到数据类型的样本数据。
4.根据权利要求1所述的方法,其特征在于,所述样本数据包括正样本数据和负样本数据,所述数据类型包括正数据类型和负数据类型;
根据所述特征对所述样本数据进行聚类处理将所述样本数据划分至不同的数据类型中,包括:
根据所述特征对所述正样本数据进行聚类处理将所有正样本数据划分至不同的正数据类型中,并对所述负样本数据进行聚类处理将所有负样本数据划分至不同的负数据类型中。
5.根据权利要求4所述的方法,其特征在于,所述按照预设比例对每个所述数据类型的样本数据进行划分,得到训练集和测试集,包括:
按照第一预设比例将每一所述正数据类型中的样本数据划分为训练子集和测试子集;
按照第二预设比例将每一所述负数据类型中的样本数据划分为训练子集和测试子集;
结合所有所述正数据类型中的训练子集和所有所述负数据类型中的训练子集得到所述训练集,并结合所有所述正数据类型中的测试子集和所有所述负数据类型中的测试子集得到所述测试集。
6.根据权利要求1所述的方法,其特征在于,在将所述样本数据划分至所述特征对应的数据类型中之后,还包括:
若所述数据类型中的所有样本数据的数量小于阈值,则输出数据扩充的提示信息,以使用户对所述数据类型中的样本数据进行数据扩充。
7.根据权利要求1所述的方法,其特征在于,在将所述样本数据划分至所述特征对应的数据类型中之后,还包括:
若所述数据类型中的所有样本数据的数量小于阈值,则输出请求人工分析的提示信息,以使用户针对所述稀有数据类型的样本数据进行分析。
8.一种样本数据划分的系统,其特征在于,包括:
特征提取模块,用于获取样本数据,并对所述样本数据进行特征提取,得到对应的特征;
聚类模块,用于根据所述特征对所述样本数据进行聚类处理将所述样本数据划分至不同的数据类型中;
划分模块,用于按照预设比例对每个所述数据类型的样本数据进行划分,得到训练集和测试集。
9.一种样本数据划分设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述样本数据划分的方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述样本数据划分的方法的步骤。
CN202010674339.5A 2020-07-14 2020-07-14 一种样本数据划分的方法、系统、设备及可读存储介质 Pending CN113934813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010674339.5A CN113934813A (zh) 2020-07-14 2020-07-14 一种样本数据划分的方法、系统、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010674339.5A CN113934813A (zh) 2020-07-14 2020-07-14 一种样本数据划分的方法、系统、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113934813A true CN113934813A (zh) 2022-01-14

Family

ID=79274030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010674339.5A Pending CN113934813A (zh) 2020-07-14 2020-07-14 一种样本数据划分的方法、系统、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113934813A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024045989A1 (zh) * 2022-08-31 2024-03-07 京东方科技集团股份有限公司 图网络数据集的处理方法、装置、电子设备、程序及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024045989A1 (zh) * 2022-08-31 2024-03-07 京东方科技集团股份有限公司 图网络数据集的处理方法、装置、电子设备、程序及介质

Similar Documents

Publication Publication Date Title
CN109165249B (zh) 数据处理模型构建方法、装置、服务器和用户端
US11676043B2 (en) Optimizing hierarchical classification with adaptive node collapses
US20200265119A1 (en) Site-specific anomaly detection
CN110705255B (zh) 检测语句之间的关联关系的方法和装置
CN109063478A (zh) 可移植的可执行文件的病毒检测方法、装置、设备及介质
CN115563610B (zh) 入侵检测模型的训练方法、识别方法和装置
US20230005572A1 (en) Molecular structure acquisition method and apparatus, electronic device and storage medium
CN117709435B (zh) 大语言模型的训练方法、代码生成方法、设备及存储介质
CN112131578A (zh) 攻击信息预测模型的训练方法、装置、电子设备及存储介质
CN109829302A (zh) Android恶意应用家族分类方法、装置与电子设备
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN108985052A (zh) 一种恶意程序识别方法、装置和存储介质
Gao et al. Malware detection using attributed CFG generated by pre-trained language model with graph isomorphism network
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
Fonseca et al. Model-agnostic approaches to handling noisy labels when training sound event classifiers
CN117134958B (zh) 用于网络技术服务的信息处理方法及系统
CN113934813A (zh) 一种样本数据划分的方法、系统、设备及可读存储介质
CN117708815A (zh) 一种基于精简行为图的安卓恶意软件检测方法
CN112765606A (zh) 恶意代码同源性分析方法和装置及设备
Jere et al. Principal component properties of adversarial samples
CN111667018A (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
US11609936B2 (en) Graph data processing method, device, and computer program product
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN116994674A (zh) 处理药物数据的方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination