CN111143554A - 基于大数据平台的数据采样方法及装置 - Google Patents

基于大数据平台的数据采样方法及装置 Download PDF

Info

Publication number
CN111143554A
CN111143554A CN201911256165.4A CN201911256165A CN111143554A CN 111143554 A CN111143554 A CN 111143554A CN 201911256165 A CN201911256165 A CN 201911256165A CN 111143554 A CN111143554 A CN 111143554A
Authority
CN
China
Prior art keywords
data
field
sampling
sampled
symbol combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911256165.4A
Other languages
English (en)
Other versions
CN111143554B (zh
Inventor
毛恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongying Youchuang Information Technology Co Ltd
Original Assignee
Zhongying Youchuang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongying Youchuang Information Technology Co Ltd filed Critical Zhongying Youchuang Information Technology Co Ltd
Priority to CN201911256165.4A priority Critical patent/CN111143554B/zh
Publication of CN111143554A publication Critical patent/CN111143554A/zh
Application granted granted Critical
Publication of CN111143554B publication Critical patent/CN111143554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于大数据平台的数据采样方法及装置,该方法包括:判断当前采样是否为对待采样数据集的初次采样;根据判断结果从待采样数据集中随机抽取第一指定数量的第一数据;获取第一数据中每条数据的字段特征,字段特征包括字段数量特征、字符编码特征、字段存储空间特征、字段位置特征和/或分隔符特征;对第一数据中每条数据的字段特征进行标准化处理,得到第二数据;利用聚类算法对第二数据进行聚类处理,从每一类中抽取至少一条第二数据,得到第三数据;如果当前采样是对待采样数据集的初次采样,则将第三数据作为采样数据。本申请可以在数据采样过程中,考虑数据之间存在的差异,获取反映完整数据集中数据结构的数据。

Description

基于大数据平台的数据采样方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于大数据平台的数据采样方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
大数据平台中存储海量数据,数据来源复杂,留存时间长,导致同一份数据存储中,不同时段写入的数据的结构可能存在很大的差异,例如,字段数量不同、字段顺序不同或数据编码方式不同等。除了数据结构可能存在差异意外,还可能写入的数据本身存在较大差异,比如部分字段在前一个时段中有值,在后一个时段中为空等。
在大数据平台与下游系统对接时,经常需要给下游系统提供若干样本数据,以使下游系统在开发调测期间能够对大数据平台中的数据结构具有比较清晰的了解。而当前大数据平台采集样本数据的方法一般有如下三种:一是从最老的数据中随机抽取若干条数据;二是从最新的数据中随机抽取若干条数据;三是从完整数据集中随机抽取若干条数据。上述三种方法在采样过程中,基本没有考虑数据之间可能差异化较大,随机采样得到的数据具有不确定性,难以获取到反映完整数据集中数据结构与内容的数据。
发明内容
本申请实施例提供一种基于大数据平台的数据采样方法,用以在数据采样过程中,考虑数据之间存在的差异,获取反映完整数据集中数据结构的数据,该方法包括:
判断当前采样是否为对待采样数据集的初次采样;根据判断结果从待采样数据集中随机抽取第一指定数量的第一数据;获取第一数据中每条数据的字段特征,所述字段特征包括字段数量特征、字符编码特征、字段存储空间特征、字段位置特征和/或分隔符特征;对第一数据中每条数据的所述字段特征进行标准化处理,得到第二数据;利用聚类算法对第二数据进行聚类处理,从每一类中抽取至少一条第二数据,得到第三数据;如果当前采样是对待采样数据集的初次采样,则将第三数据作为采样数据。
本申请实施例还提供一种基于大数据平台的数据采样装置,用以在数据采样过程中,考虑数据之间存在的差异,获取反映完整数据集中数据结构的数据,该装置包括:
判断模块,用于判断当前采样是否为对待采样数据集的初次采样;采样模块,用于根据判断模块的判断结果从待采样数据集中随机抽取第一指定数量的第一数据;获取模块,用于获取采样模块采集的第一数据中每条数据的字段特征,所述字段特征包括字段数量特征、字符编码特征、字段存储空间特征、字段位置特征和/或分隔符特征;处理模块,用于对获取模块获取的第一数据中每条数据的所述字段特征进行标准化处理,得到第二数据;处理模块,还用于利用聚类算法对第二数据进行聚类处理,从每一类中抽取至少一条第二数据,得到第三数据;采样模块,还用于当判断模块判断当前采样是对待采样数据集的初次采样时,将处理模块得到的第三数据作为采样数据。
本申请实施例中,考虑到对待采样数据集中所有数据提取字段特征以及聚类处理的计算量过大,先从待采样数据集中抽取第一数据,提取第一数据中每条数据的字段特征,再对标准化字段特征后得到的数据进行聚类处理,以使字段特征相似的数据聚集为一类,最后从每一类数据中均抽取一定数量的数据作为采样数据。这样抽取得到的采样数据能够反映每一类字段特征,充分考虑了不同数据字段特征之间的差异,获取到反映完整数据集中数据结构的采样数据。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例中一种基于大数据平台的数据采样方法的流程图;
图2为本申请实施例中一种基于大数据平台的数据采样装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本申请实施例做进一步详细说明。在此,本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。
本申请实施例中提供了一种基于大数据平台的数据采样方法,如图1所示,该方法包括步骤101至步骤106:
步骤101、判断当前采样是否为对待采样数据集的初次采样。
在本申请实施例中,可以设定每一次采样都进行记录,根据记录来判断当前采样是否为对待采样数据集的初次采样。
或者,还可以根据采样装置中是否保存有从待采样数据集获取到的采样数据来判断当前采样是否为对待采样数据集的初次采样。为了便于查询采样装置中是否存储有前一次采样的采样数据,可以在大数据平台中,给每一个可能需要采样的数据集划分采样数据存储区域,如样本池,将每一次采样的数据保存至该存储区域中,如果该存储区域中保存有采样数据,则确定当前采样不是对待采样数据集的初次采样;否则,则当前采样是对待采样数据集的初次采样。
步骤102、根据判断结果从待采样数据集中随机抽取第一指定数量的第一数据。
其中,第一指定数量可以由用户自行设置,不同待采样数据集中抽取第一数据的第一指定数量可以相同或不同。如果待采样数据集中的数据量较大,则可以设置较大的第一指定数量;相反的,如果待采样数据集中的数量较少,则可以设置较小的第一指定数量。
判断结果包括当前采样是对待采样数据集的初次采样以及当前采样不是对待采样数据集的初次采样。
如果当前采样是对待采样数据集的初次采样,则从待采样数据集的所有数据中,随机抽取第一指定数量的第一数据。
如果当前采样不是对待采样数据集的初次采样,则判断当前待采样数据集中数据相对于前一次采样时数据集中数据是否存在增量数据。如果存在增量数据,则从增量数据中随机抽取第一指定数量的第一数据;如果不存在增量数据,则从待采样数据集的所有数据中,随机抽取第一指定数量的第一数据。也就是说,对于同一个待采样数据集,如果在前一次采样与当前采样之间,待采样数据集中新增了数据,则从新增的增量数据中抽取第一指定数量的第一数据;如果前一次采样的待采样数据集中数据与当前采样的待采样数据集中数据相同,则从待采样数据集的所有数据中抽取第一指定数量的第一数据。
步骤103、获取第一数据中每条数据的字段特征。
其中,字段特征包括字段数量特征、字符编码特征、字段存储空间特征、字段位置特征和/或分隔符特征。
需要说明的是,含字段schema信息的数据,如json、xml、orc等格式的数据,中不包含分隔符,因此对于含字段schema信息的数据,获取其字段数量特征、字符编码特征、字段存储空间特征和字段位置特征,无需获取其分隔符特征;对于不含字段schema信息的数据中包含分隔符,且需要借助分隔符特征确定字段数量特征,因此,获取字段数量特征、字符编码特征、字段存储空间特征、字段位置特征和分隔符特征。
字段数量特征即为数据包含的字段的数量,对于不含字段schema信息的数据,通过分隔符的个数+1来计算字段的数量,对于含字段schema信息的数据,直接读取schema中记载的字段名、字段详情等信息,并根据上述信息统计字段数量。
字符编码特征包括不同编码类型的字符对应的字节长度。字段对应的编码类型包括长编码、变长编码等,其中,长编码包括GBK和ASCII等,变长编码包括UTF8等。不同编码类型的字符对应的字节长度不同,例如,一个纯GBK编码、英文也使用全角字符的字段,所有字符都是2个字节长度;一个GBK中文与半角英文混编的字段,部分字符是2个字节长度,部分ASCII码的字符只有1个字节长度;一个UTF8编码的字段,部分中文字符是3个字节长度,部分ASCII码是1个字节长度,部分其他语言字符可能是2个字节长度。
字段存储空间特征为字段占用的存储空间,其可以根据字段中包含的不同字符对应的字节长度的加和来计算。
字段位置特征包括空字段所在位置、不为空字段所在位置和/或不存在字段位置。需要说明的是,在一条数据中,可能所有字段都存在且不为空;可能某些字段不为空,其余字段为空;还可能某些字段不为空,其余字段不存在;还可能某些字段不为空,某些字段为空,剩余字段不存在。
分隔符特征包括分隔符的类别及分隔符的个数。
其中,分隔符的类别根据如下步骤进行确定:
①、从每条数据中解析出现至少一次的单个符号或符号组合,确定解析出的单个符号或符号组合在当前数据中的实际出现次数。有些数据中可能解析得到单个符号,例如数据“a,b,c,d,e”,对其解析得到单个符号“,”,其实际出现次数为4;有些数据可能同时解析得到单个符号和符号组合,例如,对于数据“asd_sd$!$_sd_al$!$al”,可以解析得到符号组合“$!$”(实际出现次数为2),以及单个符号“$”(实际出现次数为4)和“!”(实际出现次数为2),根据该条数据,不能确定分隔符是其中哪一个,需要对“$!$”、“$”和“!”按照优先级进行排序后选择其中一个或多个作为分隔符。
需要说明的是,由于软件系统的命名的特殊性,单个下划线“_”不被解析为分隔符,而会被作为字母,而当下划线“_”与其他符号连续出现,组成连续的符号组合时,该包含下划线“_”的符号组合被解析为分隔符,如“$_$”被解析为分隔符。
②、当同时解析得到单个符号和符号组合时,判断符号组合中是否存在与单个符号相同的符号。
如果存在,则将符号组合的实际出现次数乘以包含的相同单个符号的数量,作为符号组合的理论出现次数;将单个符号的实际出现次数作为理论出现次数。例如,对于数据“asd_sd$$_sd_al$$al”,解析得到符号组合“$$”(实际出现次数为2)和单个符号“$”(实际出现次数为4),而“$$”中包含两个“$”,则将“$$”的实际出现次数乘以2作为理论出现次数,即“$!$”的理论出现次数为4,“$”的理论出现次数为4。
当解析得到的符号组合中包含两个及以上单个符号时,两两比较符号组合与单个分隔符的优先级,也就两两确定符号组合和单个分隔符的理论出现次数。示例性的,对于“asd_sd$!$_sd_al$!$al”,解析得到的符号组合“”中同时包含单个符号“$”和“!”,而“$!$”中包含两个“$”,当比较“$!$”和“$”的优先级时,将“$!$”的实际出现次数乘以2作为理论出现次数,即“$!$”的理论出现次数为4,“$”的理论出现次数为4;当比较“$!$”和“!”的优先级时,“$!$”的理论出现次数为2,“!”的理论出现次数为2。在单个字符和符号组合的理论出现次数相同的情况下,优先级可以按照包含单个字符数多的字符组合的优先级高于包含单个字符数少的字符组合的优先级高于单个字符组合的优先级来确定,也就是说“$!$”的包含3个单个字符,多于包含1个字符的“$”和“!”,可以确定优先级由高到低的顺序为“$!$”、“$”、“!”。
如果不存在,则将符号组合和单个符号的实际出现次数作为理论出现次数。
③、当没有同时解析得到单个符号和符号组合时,将单个符号或符号组合的实际出现次数作为理论出现次数;
④、按照理论出现次数的大小确定单个符号和符号组合的优先级高低,其中,理论出现次数越多,优先级越高;如果理论出现次数相同,则按照包含符号数量多少来确定优先级高低,包含的符号数量越多,则优先级越高,包含的符号数量相同,则优先级相同。例如对于数据“asd_sd$!$_sd_al$!$al”,其优先级由高到低的排序依次为“$!$”、“$”、“!”。
⑤、按照优先级由高到低的顺序选择第二指定数量的单个符号和/或符号组合作为不同类别的分隔符。
其中,第二指定数量可以由用户自行设定。另外,考虑到出现同优先级的分隔符在实用场景中出现很少,只是少量数据的话,不论怎么设计都不会对后续的采样过程产生太大影响,因此可以同时选择所有分隔符作为当前数据的分隔符解析结果。
例如,如果指定数量为2,则选择“$!$”和“$”作为数据“asd_sd$!$_sd_al$!$al”中存在的分隔符;或者,可以选择所有分隔符“$!$”、“$”和“!”作为数据中存在的分隔符。
由于不含字段schema信息的数据需要根据分隔符的个数计算字段数量,当确定一条数据中含有多个分隔符时,无法准确判断该条数据的字段数量。在这种情况下,通过该组数据确定多组字段特征,每组字段特征的分隔符类别与字段数量均不相同。
步骤104、对第一数据中每条数据的字段特征进行标准化处理,得到第二数据。
对当前处理的数据(如第一数据或第四数据)的字段特征进行标准化处理,包括如下处理方式:
①、计算当前处理的数据的字段数量与所有数据的字段数量的标准差。
标准差的计算方法为现有技术,在此不再赘述。
②、将不同编码类型的字符对应的字节长度以及字段存储空间分别进行归一化处理。
归一化处理的方法同样为现有技术,不再赘述。
③、将空字段位置、不为空字段位置和不存在字段位置,以及不同类别的分隔符分别设置不同预设值。
例如,将空字段设置为0,将不为空的字段设置为1,将不存在的字段设为-1;将不同类别的分隔符分别设为0,1,2等,如将分隔符“$!$”设为0,“,”设为1,“$”设为2。需要说明的是,是将所有数据中所有类别的所有分隔符统一设置预设值,所有分隔符中不同分隔符设置的预设值不同。
标准化处理的过程是将数据的字段特征以一组数字来进行表示,该组数字中包含有所有字段特征标准化后的数值,其中,所有数据标准化后得到的数字的位数相同。需要注意的是,不同数据包含的字段有多有少,按照所有数据中包含字段数量最多的数据来设置数字位数,比如说,最多的字段数量是5,则标准化后的数字与字段数量对应的位数为5,有3个字段的数据,则将数据的前3个字段,按照字段位置特征设置预设值,后2个字段按照“不存在字段位置”设置预设值。此外,含字段schema信息的数据中不含有分隔符,则其标准化后的数字的分隔符位按照“不存在分隔符”设置预设值。
这样处理后得到的数字就方便了后续聚类处理的进行。
步骤105、利用聚类算法对第二数据进行
聚类处理,从每一类中抽取至少一条第二数据,得到第三数据。
可以使用的聚类算法包括K-means算法,设待聚类处理的数据(如第二数据或第五数据)为X条,聚类处理的步骤如下所示:
①、从X条数据中随机选择Y条数据,作为中心点;
②、计算X条数据中每条数据与各个中心点的欧氏距离,并将其划至距离最短的中心点分类下;
③、分别计算这Y个分类的平均值,作为新的Y个中心点;
④、重复上述步骤②和步骤③,直到中心点不再变化为止;
⑤、在每个分类中,按照离中心点由近到远的顺序,分别抽取出至少一条数据,作为本次聚类处理得到的数据。
由于聚类算法是现有技术中已成熟的算法,因此,对于步骤①~⑤的具体实现方法,在此不再赘述。
步骤106、如果当前采样是对待采样数据集的初次采样,则将第三数据作为采样数据。
如果当前采样不是对待采样数据的初次采样,则合并第三数据与前一次采样的数据,作为第四数据;获取第四数据中每条数据的字段特征;对第四数据中每条数据的字段特征进行标准化处理,得到第五数据;利用聚类算法对第五数据进行聚类处理,从每一类中抽取至少一条第五数据;将抽取的所有第五数据作为采样数据。
这样每一次将当前采样得到的第三数据与前一次采样的数据进行合并,再分析合并后的数据的字段特征,再对标准化处理后的字段特征进行聚类处理,在从中每一类中提取一部分数据作为新的采样数据,这样不断迭代使保存的采样数据能够反映最新的待采样数据集中数据的字段特征,保证了采样数据的时效性。
本申请实施例中,考虑到对待采样数据集中所有数据提取字段特征以及聚类处理的计算量过大,先从待采样数据集中抽取第一数据,提取第一数据中每条数据的字段特征,再对标准化字段特征后得到的数据进行聚类处理,以使字段特征相似的数据聚集为一类,最后从每一类数据中均抽取一定数量的数据作为采样数据。这样抽取得到的采样数据能够反映每一类字段特征,充分考虑了不同数据字段特征之间的差异,获取到反映完整数据集中数据结构的采样数据。
本申请实施例还提供一种基于大数据平台的数据采样装置,如图2所示,该装置200包括判断模块201、采样模块202、获取模块203和处理模块204。
其中,判断模块201,用于判断当前采样是否为对待采样数据集的初次采样。
采样模块202,用于根据判断模块201的判断结果从待采样数据集中随机抽取第一指定数量的第一数据。
获取模块203,用于获取采样模块202采集的第一数据中每条数据的字段特征,字段特征包括字段数量特征、字符编码特征、字段存储空间特征、字段位置特征和/或分隔符特征。
处理模块204,用于对获取模块203获取的第一数据中每条数据的字段特征进行标准化处理,得到第二数据。
处理模块204,还用于利用聚类算法对第二数据进行聚类处理,从每一类中抽取至少一条第二数据,得到第三数据。
采样模块202,还用于当判断模块201判断当前采样是对待采样数据集的初次采样时,将处理模块得到的第三数据作为采样数据。
在本申请实施例的一种实现方式中,采样模块202,用于:
如果当前采样是对待采样数据集的初次采样,则从待采样数据集的所有数据中,随机抽取第一指定数量的第一数据;
如果当前采样不是对待采样数据集的初次采样,则判断当前待采样数据集中数据相对于前一次采样时数据集中数据是否存在增量数据;
如果存在增量数据,则从增量数据中随机抽取第一指定数量的第一数据;
如果不存在增量数据,则从待采样数据集的所有数据中,随机抽取第一指定数量的第一数据。
在本申请实施例的一种实现方式中,当判断模块201判断当前采样不是对待采样数据的初次采样时,采样模块202,还用于:
合并第三数据与前一次采样的数据,作为第四数据;
获取第四数据中每条数据的字段特征;
对第四数据中每条数据的字段特征进行标准化处理,得到第五数据;
利用聚类算法对第五数据进行聚类处理,从每一类中抽取至少一条第五数据;
将抽取的所有第五数据作为采样数据。
在本申请实施例的一种实现方式中,分隔符特征包括分隔符的类别及分隔符的个数;字符编码特征包括不同编码类型的字符对应的字节长度;字段位置特征包括空字段位置、不为空字段位置和/或不存在字段位置。
在本申请实施例的一种实现方式中,获取模块203根据如下方法确定分隔符的类别:
从每条数据中解析出现至少一次的单个符号或符号组合,确定解析出的单个符号或符号组合在当前数据中的实际出现次数;
当同时解析得到单个符号和符号组合时,判断符号组合中是否存在与单个符号相同的符号;如果存在,则将符号组合的实际出现次数乘以包含的相同单个符号的数量,作为符号组合的理论出现次数;将单个符号的实际出现次数作为理论出现次数;如果不存在,则将符号组合和单个符号的实际出现次数作为理论出现次数;
当没有同时解析得到单个符号和符号组合时,将单个符号或符号组合的实际出现次数作为理论出现次数;
按照理论出现次数的大小确定单个符号和符号组合的优先级高低,其中,理论出现次数越多,优先级越高;如果理论出现次数相同,则按照包含符号数量多少来确定优先级高低,包含的符号数量越多,则优先级越高,包含的符号数量相同,则优先级相同;
按照优先级由高到低的顺序选择第二指定数量的单个符号和/或符号组合作为不同类别的分隔符。
在本申请实施例的一种实现方式中,处理模块204,用于:
计算当前处理的数据的字段数量与所有数据的字段数量的标准差;
将不同编码类型的字符对应的字节长度以及字段存储空间分别进行归一化处理;
将空字段位置、不为空字段位置和不存在字段位置,以及不同类别的分隔符或不存在分隔符分别设置不同预设值。
本申请实施例中,考虑到对待采样数据集中所有数据提取字段特征以及聚类处理的计算量过大,先从待采样数据集中抽取第一数据,提取第一数据中每条数据的字段特征,再对标准化字段特征后得到的数据进行聚类处理,以使字段特征相似的数据聚集为一类,最后从每一类数据中均抽取一定数量的数据作为采样数据。这样抽取得到的采样数据能够反映每一类字段特征,充分考虑了不同数据字段特征之间的差异,获取到反映完整数据集中数据结构的采样数据。
本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现权利要求步骤101至步骤106任一方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有执行步骤101至步骤106任一方法的计算机程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种基于大数据平台的数据采样方法,其特征在于,所述方法包括:
判断当前采样是否为对待采样数据集的初次采样;
根据判断结果从待采样数据集中随机抽取第一指定数量的第一数据;
获取第一数据中每条数据的字段特征,所述字段特征包括字段数量特征、字符编码特征、字段存储空间特征、字段位置特征和/或分隔符特征;
对第一数据中每条数据的所述字段特征进行标准化处理,得到第二数据;
利用聚类算法对第二数据进行聚类处理,从每一类中抽取至少一条第二数据,得到第三数据;
如果当前采样是对待采样数据集的初次采样,则将第三数据作为采样数据。
2.根据权利要求1所述的方法,其特征在于,根据判断结果从待采样数据集中随机抽取第一指定数量的第一数据,包括:
如果当前采样是对待采样数据集的初次采样,则从待采样数据集的所有数据中,随机抽取第一指定数量的第一数据;
如果当前采样不是对待采样数据集的初次采样,则判断当前待采样数据集中数据相对于前一次采样时数据集中数据是否存在增量数据;
如果存在增量数据,则从增量数据中随机抽取第一指定数量的第一数据;
如果不存在增量数据,则从待采样数据集的所有数据中,随机抽取第一指定数量的第一数据。
3.根据权利要求2所述的方法,其特征在于,如果当前采样不是对待采样数据的初次采样,则所述方法还包括:
合并第三数据与前一次采样的数据,作为第四数据;
获取第四数据中每条数据的字段特征;
对第四数据中每条数据的所述字段特征进行标准化处理,得到第五数据;
利用聚类算法对第五数据进行聚类处理,从每一类中抽取至少一条第五数据;
将抽取的所有第五数据作为采样数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述分隔符特征包括分隔符的类别及分隔符的个数;所述字符编码特征包括不同编码类型的字符对应的字节长度;所述字段位置特征包括空字段位置、不为空字段位置和/或不存在字段位置。
5.根据权利要求4所述的方法,其特征在于,所述分隔符的类别根据如下方法进行确定:
从每条数据中解析出现至少一次的单个符号或符号组合,确定解析出的单个符号或符号组合在当前数据中的实际出现次数;
当同时解析得到单个符号和符号组合时,判断符号组合中是否存在与单个符号相同的符号;如果存在,则将符号组合的实际出现次数乘以包含的相同单个符号的数量,作为符号组合的理论出现次数;将单个符号的实际出现次数作为理论出现次数;如果不存在,则将符号组合和单个符号的实际出现次数作为理论出现次数;
当没有同时解析得到单个符号和符号组合时,将单个符号或符号组合的实际出现次数作为理论出现次数;
按照理论出现次数的大小确定单个符号和符号组合的优先级高低,其中,理论出现次数越多,优先级越高;如果理论出现次数相同,则按照包含符号数量多少来确定优先级高低,包含的符号数量越多,则优先级越高,包含的符号数量相同,则优先级相同;
按照优先级由高到低的顺序选择第二指定数量的单个符号和/或符号组合作为不同类别的分隔符。
6.根据权利要求4所述的方法,其特征在于,对当前处理的数据的字段特征进行标准化处理,包括:
计算当前处理的数据的字段数量与所有数据的字段数量的标准差;
将不同编码类型的字符对应的字节长度以及字段存储空间分别进行归一化处理;
将空字段位置、不为空字段位置和不存在字段位置,以及不同类别的分隔符或不存在分隔符分别设置不同预设值。
7.一种基于大数据平台的数据采样装置,其特征在于,所述装置包括:
判断模块,用于判断当前采样是否为对待采样数据集的初次采样;
采样模块,用于根据判断模块的判断结果从待采样数据集中随机抽取第一指定数量的第一数据;
获取模块,用于获取采样模块采集的第一数据中每条数据的字段特征,所述字段特征包括字段数量特征、字符编码特征、字段存储空间特征、字段位置特征和/或分隔符特征;
处理模块,用于对获取模块获取的第一数据中每条数据的所述字段特征进行标准化处理,得到第二数据;
处理模块,还用于利用聚类算法对第二数据进行聚类处理,从每一类中抽取至少一条第二数据,得到第三数据;
采样模块,还用于当判断模块判断当前采样是对待采样数据集的初次采样时,将处理模块得到的第三数据作为采样数据。
8.根据权利要求7所述的装置,其特征在于,采样模块,用于:
如果当前采样是对待采样数据集的初次采样,则从待采样数据集的所有数据中,随机抽取第一指定数量的第一数据;
如果当前采样不是对待采样数据集的初次采样,则判断当前待采样数据集中数据相对于前一次采样时数据集中数据是否存在增量数据;
如果存在增量数据,则从增量数据中随机抽取第一指定数量的第一数据;
如果不存在增量数据,则从待采样数据集的所有数据中,随机抽取第一指定数量的第一数据。
9.根据权利要求8所述的装置,其特征在于,当判断模块判断当前采样不是对待采样数据的初次采样时,采样模块,还用于:
合并第三数据与前一次采样的数据,作为第四数据;
获取第四数据中每条数据的字段特征;
对第四数据中每条数据的所述字段特征进行标准化处理,得到第五数据;
利用聚类算法对第五数据进行聚类处理,从每一类中抽取至少一条第五数据;
将抽取的所有第五数据作为采样数据。
10.根据权利要求7至9任一项所述的装置,其特征在于,所述分隔符特征包括分隔符的类别及分隔符的个数;所述字符编码特征包括不同编码类型的字符对应的字节长度;所述字段位置特征包括空字段位置、不为空字段位置和/或不存在字段位置。
11.根据权利要求10所述的装置,其特征在于,所述获取模块根据如下方法确定所述分隔符的类别:
从每条数据中解析出现至少一次的单个符号或符号组合,确定解析出的单个符号或符号组合在当前数据中的实际出现次数;
当同时解析得到单个符号和符号组合时,判断符号组合中是否存在与单个符号相同的符号;如果存在,则将符号组合的实际出现次数乘以包含的相同单个符号的数量,作为符号组合的理论出现次数;将单个符号的实际出现次数作为理论出现次数;如果不存在,则将符号组合和单个符号的实际出现次数作为理论出现次数;
当没有同时解析得到单个符号和符号组合时,将单个符号或符号组合的实际出现次数作为理论出现次数;
按照理论出现次数的大小确定单个符号和符号组合的优先级高低,其中,理论出现次数越多,优先级越高;如果理论出现次数相同,则按照包含符号数量多少来确定优先级高低,包含的符号数量越多,则优先级越高,包含的符号数量相同,则优先级相同;
按照优先级由高到低的顺序选择第二指定数量的单个符号和/或符号组合作为不同类别的分隔符。
12.根据权利要求10所述的装置,其特征在于,处理模块,用于:
计算当前处理的数据的字段数量与所有数据的字段数量的标准差;
将不同编码类型的字符对应的字节长度以及字段存储空间分别进行归一化处理;
将空字段位置、不为空字段位置和不存在字段位置,以及不同类别的分隔符或不存在分隔符分别设置不同预设值。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一所述方法的计算机程序。
CN201911256165.4A 2019-12-10 2019-12-10 基于大数据平台的数据采样方法及装置 Active CN111143554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911256165.4A CN111143554B (zh) 2019-12-10 2019-12-10 基于大数据平台的数据采样方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911256165.4A CN111143554B (zh) 2019-12-10 2019-12-10 基于大数据平台的数据采样方法及装置

Publications (2)

Publication Number Publication Date
CN111143554A true CN111143554A (zh) 2020-05-12
CN111143554B CN111143554B (zh) 2024-03-12

Family

ID=70517873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911256165.4A Active CN111143554B (zh) 2019-12-10 2019-12-10 基于大数据平台的数据采样方法及装置

Country Status (1)

Country Link
CN (1) CN111143554B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113726591A (zh) * 2021-07-28 2021-11-30 中盈优创资讯科技有限公司 一种适用于NetFlow报文分发时的二次采样方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040010497A1 (en) * 2001-06-21 2004-01-15 Microsoft Corporation Clustering of databases having mixed data attributes
CN105787282A (zh) * 2016-03-24 2016-07-20 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统
CN107341135A (zh) * 2017-05-24 2017-11-10 中国科学院信息工程研究所 一种面向通用文本格式的解析方法及工具
CN107480134A (zh) * 2017-07-28 2017-12-15 国信优易数据有限公司 一种数据处理方法和系统
CN108021540A (zh) * 2017-11-09 2018-05-11 中国科学院信息工程研究所 一种面向Hadoop的通用文本格式的解析方法及工具
US20180314722A1 (en) * 2017-04-28 2018-11-01 Microsoft Technology Licensing, Llc Parser for Schema-Free Data Exchange Format
CN109086444A (zh) * 2018-08-17 2018-12-25 吉林亿联银行股份有限公司 一种数据标准化方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040010497A1 (en) * 2001-06-21 2004-01-15 Microsoft Corporation Clustering of databases having mixed data attributes
CN105787282A (zh) * 2016-03-24 2016-07-20 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统
US20180314722A1 (en) * 2017-04-28 2018-11-01 Microsoft Technology Licensing, Llc Parser for Schema-Free Data Exchange Format
CN107341135A (zh) * 2017-05-24 2017-11-10 中国科学院信息工程研究所 一种面向通用文本格式的解析方法及工具
CN107480134A (zh) * 2017-07-28 2017-12-15 国信优易数据有限公司 一种数据处理方法和系统
CN108021540A (zh) * 2017-11-09 2018-05-11 中国科学院信息工程研究所 一种面向Hadoop的通用文本格式的解析方法及工具
CN109086444A (zh) * 2018-08-17 2018-12-25 吉林亿联银行股份有限公司 一种数据标准化方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
潘乔;裴昌幸;: "用于高速IPv6网络流量抽样测量的算法", 西安电子科技大学学报 *
鲁均云;李星毅;施化吉;马素琴;: "基于内码序值聚类的相似重复记录检测方法", 计算机应用研究 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113726591A (zh) * 2021-07-28 2021-11-30 中盈优创资讯科技有限公司 一种适用于NetFlow报文分发时的二次采样方法
CN113726591B (zh) * 2021-07-28 2023-02-21 中盈优创资讯科技有限公司 一种适用于NetFlow报文分发时的二次采样方法

Also Published As

Publication number Publication date
CN111143554B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN107122342B (zh) 文本编码识别方法和装置
CN109684374B (zh) 一种时间序列数据的键值对的提取方法及装置
CN115221012B (zh) 一种日志的聚类解析方法、装置及设备
CN111143554A (zh) 基于大数据平台的数据采样方法及装置
CN112069305B (zh) 数据筛选方法、装置及电子设备
CN112395854B (zh) 一种标准要素的一致性检验方法
CN113680046A (zh) 网格类数据的存储方法、装置、电子设备及存储介质
CN116703631A (zh) 对账数据处理方法及装置
CN115859932A (zh) 一种日志模板提取方法、装置、电子设备及存储介质
CN115796146A (zh) 一种文件对比方法及装置
CN111859896B (zh) 配方文档检测方法、装置、计算机可读介质及电子设备
CN113419720A (zh) 一种面向源代码的缩写词扩展必要性自动判定方法
CN109785099B (zh) 一种自动对业务数据信息进行处理的方法及系统
CN113420146A (zh) 素材的品牌识别方法及装置
CN110968690B (zh) 词语的聚类划分方法和装置、设备以及存储介质
CN112217896A (zh) 一种json报文转换方法以及相关装置
CN113064634A (zh) 一种对代码克隆进行同源检测的方法
CN112686029A (zh) 用于数据库审计系统的sql新语句识别方法及装置
CN110797082A (zh) 基因测序数据的存储读取方法及系统
CN112948646B (zh) 数据识别方法和装置
CN114154001B (zh) 虚假媒体内容挖掘与识别的方法和系统
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备
CN117973402B (zh) 文本转换的预处理方法和装置、存储介质及电子设备
CN114548060B (zh) 优化表单生成方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant