CN107122395A - 数据抽样方法和装置 - Google Patents
数据抽样方法和装置 Download PDFInfo
- Publication number
- CN107122395A CN107122395A CN201710145152.4A CN201710145152A CN107122395A CN 107122395 A CN107122395 A CN 107122395A CN 201710145152 A CN201710145152 A CN 201710145152A CN 107122395 A CN107122395 A CN 107122395A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- property
- particular attribute
- remaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据抽样方法和装置,其中,该方法包括:获取多条数据;根据多条数据中每一条数据的一个或多个属性值对多条数据进行分层,其中,每一条数据的一个或多个属性值中包括至少一个特定属性值,特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,其余属性值为一条数据中除特定属性值之外的其他属性值;从每一层数据中抽取至少一条数据作为抽样数据。本发明解决了由于传统数据抽样的分层标准是抽样数据中的明显属性,造成无法对隐藏的属性进行分层,影响抽样结果的准确性的技术问题。
Description
技术领域
本发明涉及数据抽样领域,具体而言,涉及数据抽样的方法和装置。
背景技术
目前,现有技术的数据抽样方法需要对抽样数据的领域知识有一定了解,通过所了解的领域知识作为分层抽样的标准,比如,在一张统计用户信息的excel数据表格中,直接用该数据表中显示的某些列,即使用“性别”、“年龄”、“身高”等属性作为分层的标准,“性别”、“年龄”、“身高”等这些属性就是已知的领域知识。
所以上述现有技术中数据抽样方法存在两个问题:
1)在对某组数据的领域知识不了解或者了解有限的情况下,无法进行准确的数据抽样。
2)无法根据隐藏的属性来进行数据分层,此不足将会影响数据抽样的应用范围。例如,无法在上述excel表格中的已知属性“身高”、“体重”等数据中,得知其数据的隐藏属性“兴趣点”“购买力”等。
针对现有技术中存在数据抽样方法分层不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种数据抽样方法和装置。以解决现有技术中存在数据抽样方法分层不准确的问题。
根据本发明实施例的一个方面,提供了一种数据抽样方法,包括:获取多条数据;根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;从每一层数据中抽取至少一条数据作为抽样数据。
进一步地,上述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的包括:所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习中的聚类分析算法得到的。
进一步地,根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层之前,所述方法还包括:根据所述每一条数据的所述其余属性值中的部分或全部进行机器学习得到所述至少一个特定属性值。
进一步地,根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层包括:获取所述每一条数据的所有属性值的优先级;根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值;根据筛选出的所述一个或多个属性值对所述多条数据进行分层。
进一步地,获取所述每一条数据的所有属性值的优先级包括:根据对每一条数据的其余属性值中的部分或全部进行机器学习时的聚类标准确定优先级或者根据每一条数据的所有属性值确定优先级。
根据本发明的另一方面,提供了一种数据抽样装置,包括:获取单元,用于获取多条数据;分层单元,用于根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;第一抽取单元,用于从每一层数据中抽取至少一条数据作为抽样数据。
进一步地,所述分层单元包括:聚类分析模块,用于所述数据的其余属性值中的部分或全部进行机器学习得到所述特定属性值。
进一步地,所述分层单元包括:第一获取模块,用于根据所述每一条数据的所述其余属性值中的部分或全部进行机器学习得到所述至少一个特定属性值。
进一步地,所述分层单元包括:第二获取模块,用于获取所述每一条数据的所有属性值的优先级;筛选模块,用于根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值;分层模块,用于根据筛选出的所述一个或多个属性值对所述多条数据进行分层。
进一步地,所述第二获取模块包括:优先级确定模块,用于根据对每一条数据的其余属性值中的部分或全部进行机器学习时的聚类标准确定优先级或者根据每一条数据的所有属性值确定优先级。
根据本发明的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述方法。
在本发明实施例中,采用获取多条数据;根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;从每一层数据中抽取至少一条数据作为抽样数据的方式。通过本实施例,解决现有技术中存在数据抽样方法分层不准确的问题,使得分层更加细致准确。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限。在附图中:
图1是根据本发明实施例的一种数据抽样方法的流程图;
图2是根据本发明实施例的一种数据抽样装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种数据抽样方法,图1是根据本发明实施例的一种数据抽样方法的流程图。如图1所示,该方法包括步骤如下:
步骤S102:获取多条数据;
步骤S104:根据获取的多条数据中每一条数据的一个或多个属性值对获取的多条数据进行分层;其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;
步骤S106:从每一层数据中抽取至少一条数据作为抽样数据。
下面举例对上述步骤进行说明:
表1是根据本发明实施例的一种数据抽样方法的待分层数据表,如表1所示,在该数据表中,有10名客户,每一横排代表一条数据(即一个客户的数据),每一条数据有很多列,既有很多属性,比如“Gender”、“Height”、“Age”、“City”等,数据的每一个属性都有对应的属性值,每一条数据均由多个属性值构成。比如“ID”为“1”的第一条数据的属性值有“1”、“165”、“55”、“1”、“1”,分别对应的属性为:“Gender”、“Height”、“Age”、“City”、“Occupation”。
表1
将表1中所示的数据表中属性值通过机器学习得到特定属性值,如表2学习后的数据表所示,特定属性值是表中的“cluster”。
表2是根据本发明实施例的一种数据抽样方法的补充特定属性值数据表。根据表2中多条数据中每一条客户的数据的属性值对客户进行聚类,每一条客户的数据的属性值可以为一个,也可以为多个,比如,可以使用“cluster”属性下对应的每个客户的属性值对客户进行聚类,也可以使用“cluster”、“Age”、“city”等属性对客户进行聚类(分层)。
表2
表3是本发明实施例的一种数据抽样方法下运用抽样工具处理后的数据表,对客户进行聚类后,数据表如表3所示,在该数据表中,数据被分为四层数据,第一层数据包括:“ID”为“1”、“2”、“3”的数据组;第二层数据包括:“ID”为“4”、“5”的数据组;第三层数据包括:“ID”为“6”、“9”、“10”的数据组;第四层数据包括:“ID”为“7”、“8”的数据组。分别从第一层数据中抽取“ID”为“2”的样板数据;从第二层数据中抽取“ID”为“5”的样板数据;从第三层数据中抽取“ID”为“9”的样样板数据;从第四层数据中抽取“ID”为“7”的样板数据。
表3
由上可见,本实施例的数据抽样方法通过在分层时运用特定属性值进行分层,解决了现有技术中存在数据抽样方法分层不准确的问题,该分层方式不仅考虑到已有的属性值还考虑到隐藏属性值对分层的影响,从而进行了合理的分层,使分层更加准确和细致,并且使每一分层中客户的性质更为相似,客户的代表性更加合理和准确,客户的代表是指用其中一个客户去代表一类客户,而传统的数据抽样方法的结果,如表4所示,表4是根据本发明实施例的传统分层下的结果数据表。表4中传统数据抽样分层标准选取为excel表格第二列“Gender”,因此在该数据表中,数据被分为两层数据,第一层包括:“ID”为“1”、“2”、“3”、“4”、“5”的数据组,第二层包括:“ID”为“6”、“7”、“8”、“9”、“10”的数据组。而数据抽样分别从两层数据中抽取了“ID”为“5”和“ID”为“7”的数据组,“ID”为“5”和“ID”为“7”的数据分别是每层客户数据中年龄最小的客户数据,可见,传统的数据抽样方法仅仅能够粗略的对数据进行聚类(分层),无法考虑其他属性,比如年龄、城市和职业等综合因素对客户分层的影响,所以传统的数据抽样方法无法使用隐藏的属性对数据表进行分层,影响抽样结果的准确性及代表性。上述步骤中的某条数据的特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,该机器学习的方式可以有多种,第一种可选地实施方式是使用聚类分析算法对该数据的其余属性值中的部分或全部进行学习,得到特定属性值;第二种可选地实施方式是使用基于实例的算法对该数据的其余属性值中的部分或全部进行学习,得到特定属性值;第三种可选地实施方式是使用贝叶斯方法对该数据的其余属性值中的部分或全部进行学习,得到特定属性值。
表4
数据表中属性有多种,但是并不是每一种属性都作为分层的标准,在选取一些属性作为分层标准的同时势必会忽略另一些属性,这些被忽略的属性为隐藏属性,在一个可选的实施方式中,可以对数据表中已知的属性值进行分析,将数据表中全部的已知的属性值通过机器学习得到特定属性值,该特定属性值代表了全部已知的属性值,也包括那些被忽略的属性,在一种可选的实施方式中,可以将特定属性值作为分层的最佳标准,然后在特定属性值指定的空间下将数据划分为若干抽样单位,从而提高数据抽样的代表性。比如,如表2所示,表2中的“cluster”是特定属性值,“cluster”是由已知的所有属性值得到的,已知的所有属性值在图中为“Age”、“Gender”、“Height”、“City”和“Occupation”,还可以为图中没有显示的其他属性值。将“cluster”作为分层的最佳标准进行分层,然后在每一层中进行抽样。
在另一种可选的实施方式中,将原有的属性值和特定属性值共同作为分层抽样的标准。比如,如表2所示,将“cluster”同“Age”、“Gender”、“Height”、“City”和“Occupation”中的任选的属性值共同进行分层。上述例子可以是针对在属性已知的情况进行的分层抽样方法,比如,在一张统计用户信息的excel数据表格中,直接用该数据表中显示的某些列,即使用“性别”、“年龄”、“身高”等属性作为分层的标准,“性别”、“年龄”、“身高”等这些属性就是已知的领域知识。在没有领域知识,或领域知识有限的情况下也可以通过无监督机器学习得到特定属性值,然后根据特定属性值对数据进行聚类。下面举例进行说明:
比如,一条数据为“date21date3monthxyz”,如果对于该条数据没有像上述统计用户信息的excel数据表格中有已知的列(属性),此时,在本实施例可以运用无监督机器学习算法直接对数据进行分析,也就是对该条数据进行聚类分析,以便找到该条数据的属性,每一类别即为该条数据的属性,经过聚类分析后可能将该条数据中“date”、“Month”、“XYZ”作为该条数据的属性,该属性可以作为数据抽样的分层标准。
再比如,有三条数据分别是“I love apple”、“He want to eat apple”、“He hateorange”,对每一条数据可以先进行分词处理,得到“i”、“love”、“apple”“he”、“want”、“eat”、“hate”、“orange”这些属性值,然后根据这些分词进行聚类分析。
在获得特定属性值之后,将原有的属性值和特定属性值共同作为分层抽样的标准时,可以进行优先级的筛选。即获取所述每一条数据的所有属性值的优先级;根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值;根据筛选出的所述一个或多个属性值对所述多条数据进行分层。优先级可以根据需要自行设定,比如,根据对每一条数据的其余属性值中的部分或全部进行机器学习时的聚类标准确定优先级,也可以以最能代表数据特征的属性作为最高优先级,优先级还可以是根据聚类分析算法的划分标准选择的,即选择在聚类分析算法中,将聚类分析结果划分更为准确的划分标准作为高的优先级。
通过进一步地对数据属性值的优先级进行筛选,得到分层抽样的最佳分层标准,提高了每一层的区分度,从而使抽样结果的更加准确。
当比较特定属性值和其他属性值之间的优先级时,存在两种情况,第一种情况:优先级高的属性值是其他属性值;第二种情况:优先级高的属性值是特定属性值。
优先级高的特定属性值可以与优先级其次的其他属性值共同作为分层的标准,也可以单独作为分层的标准。本发明实施例还提供了一种数据抽样装置。该装置可以通过获取单元22、分层单元24、抽取单元26实现其功能。需要说明的是,本发明实施例的一种数据抽样装置可以用于执行本发明实施例所提供的一种数据抽样方法,本发明实施例的一种数据抽样方法也可以通过本发明实施例所提供的一种数据抽样装置来执行。
图2是根据本发明实施例的一种数据抽样装置的示意图,如图2所示,一种数据抽样装置包括:
获取单元22,用于获取多条数据;
分层单元24,连接获取单元22,用于根据获取单元22中每一条数据的一个或多个属性值对多条数据进行分层,其中,每一条数据的一个或多个属性值中包括至少一个特定属性值,特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,其余属性值为一条数据中除特定属性值之外的其他属性值;
抽取单元26,连接分层单元,用于根据分层单元的分层结果中抽取至少一条数据作为抽样数据。
在一个可选的实施方式中,分层单元24包括:聚类分析模块,用于数据的其余属性值中的部分或全部进行机器学习得到特定属性值。
在一个可选的实施方式中,分层单元24包括:第一获取模块,用于根据每一条数据的其余属性值中的部分或全部进行机器学习得到至少一个特定属性值。
在一个可选的实施方式中,分层单元24包括:第二获取模块,用于获取每一条数据的所有属性值的优先级;筛选模块,用于根据每一个属性值的优先级从所有属性值中筛选出一个或多个属性值;分层模块,用于根据筛选出的一个或多个属性值对多条数据进行分层。
在一个可选的实施方式中,第二获取模块包括:优先级确定模块,用于根据对每一条数据的其余属性值中的部分或全部进行机器学习时的聚类标准确定优先级或者根据每一条数据的所有属性值确定优先级。
在采用了根据包含特定属性值的一个或多个属性值对多条数据进行分层,从每一层数据中进行抽样。以达到对隐藏的属性进行分层,进而使抽样结果更具有准确性。这不同于现有抽样装置:分层标准是抽样数据的某些明显属性值。从而实现了提高抽样结果准确性的技术效果。
本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据抽样方法,其特征在于,包括:
获取多条数据;
根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;
从每一层数据中抽取至少一条数据作为抽样数据。
2.根据权利要求1所述的方法,其特征在于,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的包括:
所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习中的聚类分析算法得到的。
3.根据权利要求1所述的方法,其特征在于,在根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层之前,所述方法还包括:
根据所述每一条数据的所述其余属性值中的部分或全部进行机器学习得到所述至少一个特定属性值。
4.根据权利要求1所述的方法,其特征在于,根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层包括:
获取所述每一条数据的所有属性值的优先级;
根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值;
根据筛选出的所述一个或多个属性值对所述多条数据进行分层。
5.根据权利要求4所述的方法,其特征在于,获取所述每一条数据的所有属性值的优先级包括:
根据对每一条数据的其余属性值中的部分或全部进行机器学习时的聚类标准确定优先级或者根据每一条数据的所有属性值确定优先级。
6.一种数据抽样装置,其特征在于,包括:
获取单元,用于获取多条数据;
分层单元,用于根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;
抽取单元,用于从每一层数据中抽取至少一条数据作为抽样数据。
7.根据权利要求6所述的装置,其特征在于,所述分层单元,包括:
聚类分析模块,用于所述数据的其余属性值中的部分或全部进行机器学习得到所述特定属性值。
8.根据权利要求6所述的装置,其特征在于,所述分层单元,包括:
第一获取模块,用于根据所述每一条数据的所述其余属性值中的部分或全部进行机器学习得到所述至少一个特定属性值。
9.根据权利要求6所述的装置,其特征在于,所述分层单元,包括:
第二获取模块,用于获取所述每一条数据的所有属性值的优先级;
筛选模块,用于根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值;
分层模块,用于根据筛选出的所述一个或多个属性值对所述多条数据进行分层。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1-5任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710145152.4A CN107122395B (zh) | 2017-03-10 | 2017-03-10 | 数据抽样方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710145152.4A CN107122395B (zh) | 2017-03-10 | 2017-03-10 | 数据抽样方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122395A true CN107122395A (zh) | 2017-09-01 |
CN107122395B CN107122395B (zh) | 2021-02-26 |
Family
ID=59718023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710145152.4A Active CN107122395B (zh) | 2017-03-10 | 2017-03-10 | 数据抽样方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122395B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460161A (zh) * | 2018-03-30 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 分层抽样方法、装置和计算机设备 |
CN108776707A (zh) * | 2018-06-17 | 2018-11-09 | 复旦大学 | 针对探索性查询的高效抽样方法 |
CN109033236A (zh) * | 2018-07-04 | 2018-12-18 | 中国农业银行股份有限公司 | 一种数据抽样方法及装置 |
CN110750569A (zh) * | 2019-10-17 | 2020-02-04 | 北京锐安科技有限公司 | 数据提取方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102175209A (zh) * | 2010-12-07 | 2011-09-07 | 北京师范大学 | 历史遥感产品数据支持下的作物种植面积测量高效抽样方法 |
CN102985923A (zh) * | 2010-06-28 | 2013-03-20 | 阿尔卡特朗讯 | 高维分层抽样 |
CN104156403A (zh) * | 2014-07-24 | 2014-11-19 | 中国软件与技术服务股份有限公司 | 一种基于聚类的大数据常态模式提取方法及系统 |
US20160085790A1 (en) * | 2014-09-22 | 2016-03-24 | Ca, Inc. | Stratified sampling of log records for approximate full-text search |
-
2017
- 2017-03-10 CN CN201710145152.4A patent/CN107122395B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102985923A (zh) * | 2010-06-28 | 2013-03-20 | 阿尔卡特朗讯 | 高维分层抽样 |
CN102175209A (zh) * | 2010-12-07 | 2011-09-07 | 北京师范大学 | 历史遥感产品数据支持下的作物种植面积测量高效抽样方法 |
CN104156403A (zh) * | 2014-07-24 | 2014-11-19 | 中国软件与技术服务股份有限公司 | 一种基于聚类的大数据常态模式提取方法及系统 |
US20160085790A1 (en) * | 2014-09-22 | 2016-03-24 | Ca, Inc. | Stratified sampling of log records for approximate full-text search |
Non-Patent Citations (3)
Title |
---|
_阿狸姑娘等: ""分层抽样法"", 《HTTPS://BAIKE.BAIDU.COM/HISTORY/分层抽样法/4773465/116914070》 * |
刘红英: ""关于多目标分层抽样方法及其应用研究"", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 * |
宋巍等: ""用户隐藏属性推断研究综述"", 《小型微型计算机系统 》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460161A (zh) * | 2018-03-30 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 分层抽样方法、装置和计算机设备 |
CN108776707A (zh) * | 2018-06-17 | 2018-11-09 | 复旦大学 | 针对探索性查询的高效抽样方法 |
CN108776707B (zh) * | 2018-06-17 | 2021-07-23 | 复旦大学 | 针对探索性查询的抽样方法 |
CN109033236A (zh) * | 2018-07-04 | 2018-12-18 | 中国农业银行股份有限公司 | 一种数据抽样方法及装置 |
CN110750569A (zh) * | 2019-10-17 | 2020-02-04 | 北京锐安科技有限公司 | 数据提取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107122395B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122395A (zh) | 数据抽样方法和装置 | |
CN104215623B (zh) | 面向多行业检测的激光拉曼光谱智能化辨识方法及系统 | |
Chien et al. | A system for online detection and classification of wafer bin map defect patterns for manufacturing intelligence | |
CA2773194C (en) | Displaying relationships between electronically stored information to provide classification suggestions via inclusion | |
CN102110122B (zh) | 一种建立样本图片索引表和图片过滤、搜索方法及装置 | |
CN110188641A (zh) | 图像识别和神经网络模型的训练方法、装置和系统 | |
CN107368700A (zh) | 基于计算云平台的微生物多样性交互分析系统及其方法 | |
CN108229323A (zh) | 布控方法和装置、电子设备、计算机存储介质 | |
CN104866831B (zh) | 特征加权的人脸识别算法 | |
CN110222782A (zh) | 基于密度聚类的有监督二分类数据分析方法及系统 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
WO2016057000A1 (en) | Customs tariff code classification | |
DE102015214060A1 (de) | System und Verfahren zur Bereitstellung eines Rezeptes | |
CN106649363A (zh) | 数据查询方法及装置 | |
CN106933883A (zh) | 基于检索日志的兴趣点常用检索词分类方法、装置 | |
CN108647729A (zh) | 一种用户画像获取方法 | |
CN112101574A (zh) | 一种机器学习有监督模型解释方法、系统及设备 | |
CN107958270A (zh) | 类别识别方法、装置、电子设备及计算机可读存储介质 | |
CN105786810B (zh) | 类目映射关系的建立方法与装置 | |
CN106447385A (zh) | 数据处理方法和装置 | |
Nieves et al. | Computing the relevant colors that describe the color palette of paintings | |
Jia et al. | Social network clustering and visualization using hierarchical edge bundles | |
Zujovic et al. | Effective and efficient subjective testing of texture similarity metrics | |
CN116862434A (zh) | 一种基于大数据的材料数据管理系统及方法 | |
CN107194727A (zh) | 基于Kano模型的用户需求因子表征及提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |