CN110674165A - 采样率调整的方法、装置、存储介质和终端设备 - Google Patents

采样率调整的方法、装置、存储介质和终端设备 Download PDF

Info

Publication number
CN110674165A
CN110674165A CN201810719394.4A CN201810719394A CN110674165A CN 110674165 A CN110674165 A CN 110674165A CN 201810719394 A CN201810719394 A CN 201810719394A CN 110674165 A CN110674165 A CN 110674165A
Authority
CN
China
Prior art keywords
data
sampling
storage
sampled
sampling rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810719394.4A
Other languages
English (en)
Inventor
余韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810719394.4A priority Critical patent/CN110674165A/zh
Publication of CN110674165A publication Critical patent/CN110674165A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出一种采样率调整的方法、装置、存储介质和终端设备,其中,所述方法包括:根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;根据所述预估指标对所述采样率进行评估;以及根据评估结果,确定是否调整所述采样率。采用本发明,可以分区采样、减少存储空间的浪费。

Description

采样率调整的方法、装置、存储介质和终端设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种采样率调整的方法、装置、存储介质和终端设备。
背景技术
随着数据采集技术的进步和数据存储介质的成本下降,企业对行为数据的积累愈发迅速,某些企业的数据规模每天可高达PB(petabyte,千万亿字节)数量级。行为数据是记录机体的行为和在行为发生时环境的观察报告。一条行为数据的记录通常由主体、客体、时间、环境、程度等多个要素构成。行为数据在经过收集、清洗、计算以及格式转换等处理之后,可以以表格的形式存储到一张或多张事实数据表中。这种表格通常包含数十到上百个维度或指标列,在多个维度或指标上进行筛选、分组、聚合、连接等计算,并结合企业其他维度表是企业进行数据分析的常用方法。数据分析是一项探索性很强的工作,往往需要通过不断地试错,渐进式地分析才能得到分析结果。因而数据分析过程中对数据查询的响应速度有一定的要求。
业内的数据查询系统包括Hive、SparkSQL或Impala等,其在性能方面已经做了大量的优化。然而,在现实计算资源有限的情况下,其在规定时间内所能处理的数据量仍然是受限的。数据分析往往需要选择时间跨度长短不一的历史数据进行分。当选择的时间跨度很大时,数据系统的响应速度往往跟不上精度的需求。此时要求系统提供一种机制在分析速度和精度间提供分析人员选择。通常,分析系统会让分析人员在数据分析时选择采样率,以便其在分析速度和精度间找到平衡。
在数据查询时,采样率调整的方案普遍采用如下方案来解决:
(1)随机数据块采样。将数据以固定大小分块的形式存储在分析系统中。在查询时,根据用户选择的采样率随机调取部分数据块进行查询,并将计算得到的指标按采样率进行还原,以还原真实的指标数据。
(2)冗余多份采样数据。按照不同的采样率预先进行数据采样,并将采样到的数据存入与采样率相对应的数据表中。在查询时,根据用户选择的采样率,选择与采样率相对应的数据表进行查询。
但是,上述方案也仍存在不足之处:
1、对于方案(1)来说,由于其不了解数据的分布,采样到的数据存在某些维度上没有均匀采样的现象,导致分析这些维度时指标的计算与整体存在偏差,对于某些指标的计算,甚至还会放大该指标,不适合用于分析行为数据。
2、对于方案(2)来说,虽然可以克服采样不均的问题,适合用于分析行为数据,但是会带来存储空间上的浪费。例如,当提供用户32种采样率的选择时,需要存储相对于采样率的32份的数据。在采样的数据量较大的情况下,此方案会消耗大量的存储资源。
发明内容
本发明实施例提供一种采样率调整的方法、装置、存储介质和终端设备,以解决或缓解现有技术中的以上一个或多个技术问题。
第一方面,本发明实施例提供了一种采样率调整的方法,包括:
根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;
对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;以及
根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;
根据所述预估指标对所述采样率进行评估;以及
根据评估结果,确定是否调整所述采样率。
结合第一方面,在第一方面的第一种实施方式中,根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区,包括:
根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量;以及
根据预设的采样规则和所述需要查询的存储分区的数量,从所述待采样数据的所有存储分区中确定出需要查询的存储分区。
结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量,包括:
通过向上取整函数,计算所述采样率与所述待采样数据的存储分区总数的乘积,获得所述需要查询的存储分区的数量。
结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,所述方法还包括:
根据所述需要查询的存储分区的数量和所述存储分区总数,计算所述采样率。
结合第一方面的第一种实施方式,在第一方面的第四种实施方式中,根据所述预估指标对选择的采样率进行评估,包括:
获取所述待采样数据的真实指标;以及
根据所述真实指标和所述预估指标,评估所述选择的采样率。
结合第一方面的第一种实施方式,在第一方面的第五种实施方式中,所述方法还包括:
对待存储数据的标识进行哈希计算,获得对应的哈希值;以及
根据待存储数据对应的哈希值和所述存储分区总数,将所述待存储数据存储于相应的存储分区中。
第二方面,本发明实施例提供一种采样率调整的装置,包括:
存储分区确定模块,用于根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;其中,所述待采样数据是按照各自对应的哈希值存储在所述存储分区中;
采样指标获取模块,用于对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;以及
采样还原模块,用于根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;
采样率评估模块,用于根据所述预估指标对所述采样率进行评估;以及
采样率调整模块,用于根据评估结果,确定是否调整所述采样率。
结合第二方面,在第二方面的第一种实施方式中,所述存储分区确定模块包括:
分区数量计算单元,用于根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量;以及
查询分区确定单元,用于根据预设的采样规则和所述需要查询的存储分区的数量,从所述待采样数据的所有存储分区中确定出需要查询的存储分区。
结合第二方面,在第二方面的第二种实施方式中,所述分区数量计算单元,具体用于:通过向上取整函数,计算所述采样率与所述待采样数据的存储分区总数的乘积,获得所述需要查询的存储分区的数量。
结合第二方面,在第二方面的第三种实施方式中,所述装置还包括:
哈希计算模块,用于对待存储数据的标识进行哈希计算,获得对应的哈希值;以及
数据存储模块,用于根据待存储数据对应的哈希值和所述存储分区总数,将所述待存储数据存储于相应的存储分区中。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,采样率调整的结构中包括处理器和存储器,所述存储器用于采样率调整的装置执行上述第一方面中采样率调整的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述采样率调整的装置还可以包括通信接口,用于采样率调整的装置与其他设备或通信网络通信。
第三方面,本发明实施例还提供一种计算机可读存储介质,用于采样率调整的装置所用的计算机软件指令,其中包括用于执行上述第一方面的采样率调整的方法所涉及的程序。
上述技术方案中的其中一个技术方案具有如下优点或有益效果:
本发明实施例通过提供通过采样分区的方式,根据采样率进行数据采样,可以获得采样指标来进行还原和评估,进而根据评估结果调整采样率。相比现有技术的多个采样率同时进行采样率并比较选择采样率的方案,采样分区的方式可以减少存储空间的浪费。
上述技术方案中的其中一个技术方案个有如下优点或有益效果:
本发明实施例通过获知待采样数据的存储分区总数,以及待采样数据的经哈希运算进行存储,可以将待采样数据均匀分布在存储分区中。如此,在采样时可以均匀采样,提高采样还原的准确度,方便评估和调整采样率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1是本发明提供的采样率调整的方法的一个实施例的流程示意图;
图2是本发明提供的需要查询的存储分区的确定过程的一个实施例的流程示意图;
图3是本发明提供的采样率评估过程的一个实施例的流程示意图;
图4是本发明提供的存储数据的过程的一个实施例的流程示意图;
图5和图6是本发明实施例提供的推送项目的配图方法的应用示例的示意图;
图7是本发明提供的推送项目的配图装置的一个实施例的结构示意图;
图8是本发明提供的终端设备的一个实施例的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
请参阅图1,本发明实施例提供了一种采样率调整的方法,可以应用于终端设备。终端设备可以包括计算机、智能手机、平板等。终端设备可以包括数据仓库、用户行为分析系统或BI(Business Intelligence,商业智能)系统等,可以用来存储数据并提供查询服务。本实施例包括步骤S100至步骤S500,具体如下:
S100,根据采样率和待采样数据的存储分区总数,从待采样数据的所有存储分区中确定出需要查询的存储分区。
在本实施例中,可以在终端设备中提供采样率调整页面,通过采样率调整面输入或选择采样率。例如,页面可以提供默认的若干个互不相同的采样率,方便测试人员选择。为了提高选择的多样性,页面还可以提供自定义输入框,测试人员可以通过自定义输入框输入其需要评估的采样率。以及测试人员可以在页面中选择其需要采样的数据。数据可以包括用户行为数据、具体信息记录等。例如,搜索日志、网站浏览热度等。数据可以分区存储在存储系统中。假设数据存储在100个存储分区中,存储分区总数为100。此100个存储分区可以按编号或预设地址顺序排列。
S200,对需要查询的存储分区进行数据采样,获得待采样数据的采样指标。
示例性地,如果数据是搜索日志,则数据采样的过程可以包括采样搜索日志以获取搜索信息,以及根据搜索信息得到采样指标。采样指标是指基于此时的采样率采样得到的一个指标,例如,在10%的采样率下获得某个网站的浏览热度或某个新闻的点击情况等。
S300,根据采样指标和采样率进行采样还原,获得待采样数据的预估指标。
在本实施例中,采样还原是指将采样计算得到的采样指标除以采样率以获得的一个预估指标的过程。如此,在进行指标测试时,不需要测试人员对所有的数据都进行查询来得到一个指标。可以有效地提高指标测试的效率。
S400,根据预估指标对采样率进行评估。
在本实施例中,预估指标是基于采样到的部分数据进行计算,其有可能与真实指标之间的存在误差,而采样率可以影响此误差。因而需要根据预估指标的偏差情况进行比较。
S500,根据评估结果,确定是否调整采样率。
本发明实施例通过提供通过采样分区的方式,根据采样率进行数据采样,可以获得采样指标来进行还原和评估,进而根据评估结果调整采样率。相比现有技术的多个采样率同时进行采样率并比较选择采样率的方案,采样分区的方式可以减少存储空间的浪费。
在一种可能实现方式中,如图2所示,上述步骤A100的需要查询的存储分区的确定过程,可以包括:
S110,根据采样率和待采样数据的存储分区总数,计算需要查询的存储分区的数量。
S120,根据预设的采样规则和需要查询的存储分区的数量,从待采样数据的所有存储分区中确定出需要查询的存储分区。
示例性地,如果测试人员提供的采样率为12.5%,数据的存储分区总数为100,则将采样率12.5%与存储分区总数为100相乘,得到12.5个查询分区。但是数据采样过程是一个分区一个分区进行采样的,则如果计算得到的需要查询的存储分区的数量不为整数时,需要对此数量进行取整,取整函数可以包括向下取整函数或向上取整函数。接前例,如果得到12.5个查询分区,可以采用向上取整函数据,得到13个查询分区。如此可以加快查询速度,不需要在一个分区内再进行细分查询。
在本实施例中,假设需要查询的存储分区的数据为13个,预设的采样规则可以包括从分区号最小的13个存储分区中进行数据采样、从分区号最大的13个存储分区中进行数据采样。
在一种可能的实现方式中,本发明实施例需要根据真实的采样率来计算采样率还原,得到预估指标。其中,真实的采样的计算过程可以包括:根据需要查询的存储分区的数量和存储分区总数,计算采样率。
接上例,如果计算得到的查询分区的数量不为整数,且对此数量进行取整了,则说明此时真实的采样率是不等于测试人员输入的采样率。在进行采样还原时,需要计算真实的采样率来进行采样还原的计算,可以确定采样还原的指标的准确度。如果需要查询的存储分区的数量为13个,存储分区总数为100,则将13除以100,得到真实的采样率为13%。真实的采样率为13%用于采样还原计算。
在一种可能的实现方式中,如图3所示,上述步骤S400的采样率评估过程,可以包括:
S410,获取待采样数据的真实指标。
S420,根据真实指标和预估指标,评估选择的采样率。
示例性地,假设采样指标为网站一天的浏览热度。如果采样率为10%和经数据采样得到的采样指标为1万,即当前对总数据中的10%的数据进行统计得到的浏览热度为1万,则通过计算得到预估指标为10万,即可以根据总数据中的10%的数据对应的指标反推得到“假设根据总数据进行统计,则计算得到的估算浏览热度应该是10万”。如此,相应的真实指标是“根据总数据进行统计,得到的实际浏览热度”。如果经实际统计得到的实际浏览热度为11万,则实际浏览热度与估算浏览热度相差了1万。
在一种可能的实现方中,如图4所示,本实施例还包括在存储分区中存储数据的过程,此过程可以包括:
S610,对待存储数据的标识进行哈希计算,获得对应的哈希值。
S620,根据待存储数据对应的哈希值和存储分区总数,将待存储数据存储于相应的存储分区中。
示例性地,如果存储分区总数100,分区编号可以从0至99进行编号;如果待存储数据包括3个,待存储数据的标识通常是互不相同,例如,此3个待存储数据的标识分为ID1、ID2和ID3。利用标识进行哈希计算,便于数据存储的均匀分区。如果哈希计算过程分别为:hash(ID1)%100=3、hash(ID1)%100=25和hash(ID3)%100=37,则确定可以存储数据的存储分区的编号为:3、25和37。以及可以将数据ID1存储于存储分区3、数据ID2存储于分区25以及数据ID3存储于分区37。
请参阅图5和图6,其是本发明实施例提供的采样率调整的方法的一个应用示例的示意图。本应用示例包括存储部分和查询部分,如下:
1、存储部分:
首先,本实施例对每一个待存储数据的主体标识分别进行hash,使其便于均匀采样。然后,根据计算得到hash值,将数据按照确定性规则均分到n个分区中。最后,数据就在系统中被均匀地存在n个分区中,每个分区都包含1/n的数据,分区的编号从0到n-1。
具体地,可以参见图6,图中的数据包括uid1、uid2和uid3,系统中包括8个存储分区,并按编号0至7排序。根据哈希计算得到数据uid1可以存储在编号为0的存储分区中、数据uid2可以存储在编号为3的存储分区中以及数据uid3可以存储在编号为6的存储分区中。
2、查询部分:
当进行数据查询时,根据用户选择的采样率p和存储分区总数n,计算出需要查询的分区数m,
Figure BDA0001718300890000091
其中,
Figure BDA0001718300890000092
为向上取整函数的符号。然后,选择分区号最小的m个分区进行数据查询。最后以真实采样率
Figure BDA0001718300890000093
进行指标的采样还原计算。虽然真实采样率可能略大于用户选择的p,但选择采样率的目的是加速查询而非按该采样率精确采样,所以,按真实采样率
Figure BDA0001718300890000095
进行采样也是可以满足分析产品的需求。可以参见图6,以采样率50%进行采样,将采样到的数据提计算机(computer)进行计算。
请参阅图7,本发明实施例提供一种采样率调整的装置,包括:
存储分区确定模块100,用于根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;其中,所述待采样数据是按照各自对应的哈希值存储在所述存储分区中;
采样指标获取模块200,用于对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;以及
采样还原模块300,用于根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;
采样率评估模块400,用于根据所述预估指标对所述采样率进行评估;以及
采样率调整模块500,用于根据评估结果,确定是否调整所述采样率。
在一种可能的实现方式中,所述存储分区确定模块包括:
分区数量计算单元,用于根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量;以及
查询分区确定单元,用于根据预设的采样规则和所述需要查询的存储分区的数量,从所述待采样数据的所有存储分区中确定出需要查询的存储分区。
在一种可能的实现方式中,所述分区数量计算单元,具体用于:通过向上取整函数,计算所述采样率与所述待采样数据的存储分区总数的乘积,获得所述需要查询的存储分区的数量。
在一种可能的实现方式中,所述装置还包括:
哈希计算模块,用于对待存储数据的标识进行哈希计算,获得对应的哈希值;以及
数据存储模块,用于根据待存储数据对应的哈希值和所述存储分区总数,将所述待存储数据存储于相应的存储分区中。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,采样率调整的结构中包括处理器和存储器,所述存储器用于采样率调整的装置执行上述第一方面中采样率调整的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述采样率调整的装置还可以包括通信接口,用于采样率调整的装置与其他设备或通信网络通信。
本发明实施例还提供一种采样率调整的终端设备,如图8所示,该设备包括:存储器21和处理器22,存储器21内存储有可在处理器22上的计算机程序。处理器22执行计算机程序时实现上述实施例中的采样率调整的方法。存储器21和处理器22的数量可以为一个或多个。
该设备还包括:
通信接口23,用于处理器22与外部设备之间的通信。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器21、处理器22和通信接口23独立实现,则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23集成在一块芯片上,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种采样率调整的方法,其特征在于,包括:
根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;
对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;
根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;
根据所述预估指标对所述采样率进行评估;以及
根据评估结果,确定是否调整所述采样率。
2.如权利要求1所述的采样率调整的方法,其特征在于,根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区,包括:
根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量;以及
根据预设的采样规则和所述需要查询的存储分区的数量,从所述待采样数据的所有存储分区中确定出需要查询的存储分区。
3.如权利要求2所述的采样率调整的方法,其特征在于,根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量,包括:
通过向上取整函数,计算所述采样率与所述待采样数据的存储分区总数的乘积,获得所述需要查询的存储分区的数量。
4.如权利要求3所述的采样率调整的方法,其特征在于,所述方法还包括:
根据所述需要查询的存储分区的数量和所述存储分区总数,计算所述采样率。
5.如权利要求1所述的采样率调整的方法,其特征在于,根据所述预估指标对选择的采样率进行评估,包括:
获取所述待采样数据的真实指标;以及
根据所述真实指标和所述预估指标,评估所述选择的采样率。
6.如权利要求1所述的采样率调整的方法,其特征在于,所述方法还包括:
对待存储数据的标识进行哈希计算,获得对应的哈希值;以及
根据待存储数据对应的哈希值和所述存储分区总数,将所述待存储数据存储于相应的存储分区中。
7.一种采样率调整的装置,其特征在于,包括:
存储分区确定模块,用于根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;其中,所述待采样数据是按照各自对应的哈希值存储在所述存储分区中;
采样指标获取模块,用于对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;
采样还原模块,用于根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;
采样率评估模块,用于根据所述预估指标对所述采样率进行评估;以及
采样率调整模块,用于根据评估结果,确定是否调整所述采样率。
8.如权利要求7所述的采样率调整的装置,其特征在于,所述存储分区确定模块包括:
分区数量计算单元,用于根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量;以及
查询分区确定单元,用于根据预设的采样规则和所述需要查询的存储分区的数量,从所述待采样数据的所有存储分区中确定出需要查询的存储分区。
9.如权利要求8所述的采样率调整的装置,其特征在于,所述分区数量计算单元,具体用于:通过向上取整函数,计算所述采样率与所述待采样数据的存储分区总数的乘积,获得所述需要查询的存储分区的数量。
10.如权利要求7所述的采样率调整的装置,其特征在于,所述装置还包括:
哈希计算模块,用于对待存储数据的标识进行哈希计算,获得对应的哈希值;以及
数据存储模块,用于根据待存储数据对应的哈希值和所述存储分区总数,将所述待存储数据存储于相应的存储分区中。
11.一种实现采样率调整的终端设备,其特征在于,所述终端设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的采样率调整的方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的采样率调整的方法。
CN201810719394.4A 2018-07-03 2018-07-03 采样率调整的方法、装置、存储介质和终端设备 Pending CN110674165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810719394.4A CN110674165A (zh) 2018-07-03 2018-07-03 采样率调整的方法、装置、存储介质和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810719394.4A CN110674165A (zh) 2018-07-03 2018-07-03 采样率调整的方法、装置、存储介质和终端设备

Publications (1)

Publication Number Publication Date
CN110674165A true CN110674165A (zh) 2020-01-10

Family

ID=69065640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810719394.4A Pending CN110674165A (zh) 2018-07-03 2018-07-03 采样率调整的方法、装置、存储介质和终端设备

Country Status (1)

Country Link
CN (1) CN110674165A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966733A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 热点知识生成方法及装置
US20230289343A1 (en) * 2018-10-15 2023-09-14 Ocient Holdings LLC Allocating partitions for executing operations of a query

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235201A1 (en) * 2007-03-22 2008-09-25 Microsoft Corporation Consistent weighted sampling of multisets and distributions
CN102722557A (zh) * 2012-05-29 2012-10-10 南京大学 一种相同数据块的自适应识别方法
WO2016106592A1 (zh) * 2014-12-30 2016-07-07 华为技术有限公司 一种特征信息分析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235201A1 (en) * 2007-03-22 2008-09-25 Microsoft Corporation Consistent weighted sampling of multisets and distributions
CN102722557A (zh) * 2012-05-29 2012-10-10 南京大学 一种相同数据块的自适应识别方法
WO2016106592A1 (zh) * 2014-12-30 2016-07-07 华为技术有限公司 一种特征信息分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
@小浩: "Hive分区和桶的概念", 《博客园》 *
胡春春: "《统计学》", 31 July 2017, 北京理工大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230289343A1 (en) * 2018-10-15 2023-09-14 Ocient Holdings LLC Allocating partitions for executing operations of a query
US11977548B2 (en) * 2018-10-15 2024-05-07 Ocient Holdings LLC Allocating partitions for executing operations of a query
CN111966733A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 热点知识生成方法及装置
CN111966733B (zh) * 2020-08-18 2024-05-28 中国银行股份有限公司 热点知识生成方法及装置

Similar Documents

Publication Publication Date Title
US10402427B2 (en) System and method for analyzing result of clustering massive data
US9213715B2 (en) De-duplication with partitioning advice and automation
EP3299972B1 (en) Efficient query processing using histograms in a columnar database
US9558045B2 (en) Realizing graph processing based on the MapReduce architecture
US10114845B2 (en) Efficiently estimating compression ratio in a deduplicating file system
US7853770B2 (en) Storage system, data relocation method thereof, and recording medium that records data relocation program
CN110750529B (zh) 数据处理方法、装置、设备及存储介质
US10198455B2 (en) Sampling-based deduplication estimation
US9275068B2 (en) De-duplication deployment planning
CN108932257A (zh) 多维度数据的查询方法及装置
US20150286661A1 (en) Database capacity estimation for database sizing
CN110674165A (zh) 采样率调整的方法、装置、存储介质和终端设备
CN113761185A (zh) 主键提取方法、设备及存储介质
CN117235069A (zh) 索引创建方法、数据查询方法、装置、设备及存储介质
CN116226515B (zh) 一种搜索结果排序方法、装置、电子设备和存储介质
Bhat et al. Queueing and related models
CN113780666A (zh) 一种缺失值的预测方法及装置、可读存储介质
US20180068005A1 (en) Distributed computation of percentile statistics for multidimensional data sets
CN113094415B (zh) 数据抽取方法、装置、计算机可读介质及电子设备
Kleerekoper et al. A scalable implementation of information theoretic feature selection for high dimensional data
CN110019771B (zh) 文本处理的方法及装置
CN112906723A (zh) 一种特征选择的方法和装置
CN112364007B (zh) 基于数据库的海量数据交换方法、装置、设备和存储介质
CN112115316A (zh) 一种分箱方法、装置、电子设备及存储介质
CN116821099A (zh) 一种数据库优化方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination