CN108628889A - 基于时间片的数据抽样方法、系统和装置 - Google Patents
基于时间片的数据抽样方法、系统和装置 Download PDFInfo
- Publication number
- CN108628889A CN108628889A CN201710168786.1A CN201710168786A CN108628889A CN 108628889 A CN108628889 A CN 108628889A CN 201710168786 A CN201710168786 A CN 201710168786A CN 108628889 A CN108628889 A CN 108628889A
- Authority
- CN
- China
- Prior art keywords
- data
- timeslice
- sampling
- choose
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Complex Calculations (AREA)
Abstract
本发明提供一种基于时间片的数据抽样方法、系统和装置,所述方法包括:将任务时间分片成多个时间片的集合S={S1,S2,...,Si,...,SL},其中1≤i≤L,L为大于1的整数;选取所述多个时间片中的一个时间片Si;从所选取的时间片Si中选取数据,作为抽样结果。根据本发明所述的数据抽样方法、系统和装置,有助于使用较少的计算资源和较短的时间而完成大量数据的抽样操作,从而优化数据抽样在大数据中的应用。
Description
技术领域
本发明涉及计算机及软件技术领域,特别地涉及一种基于时间片 的数据抽样方法、系统和装置。
背景技术
目前的电子商务领域中,随着互联网技术的飞速发展,大数据的 分析技术已经成为行业关注的焦点。目前,对于大数据的分析主要通 过异步的任务计算获取期望的结果,对于大量的机器智能尚不能很好 分析的数据,只能通过抽样技术进行人工分析。一方面,针对大数据 的抽样要保证样本的随机分布,但在不进行遍历的情况下,很难进行 随机抽样。另一方面,对于大数据系统,要尽量高效地完成抽样,保 证算法的效率,使用少的资源在较短时间内完成抽样操作。
因此在现有技术中,一般采用基于随机数的抽样方法或蓄水池算 法来对数据进行抽样。
基于随机数的抽样方法的基本思路在于,首先构造一个数据池, 将所有的数据有序地放入该数据池中,数据池中的数据连续存储。数 据池例如MySQL关系数据库或者内存数组,通过连续自增ID或者 Index索引数据。抽样时,系统自动生成一个随机数,命中相应的ID 或者Index,抽取对应的数据放入结果集中。当数据量较小时,此方案 实现简单,抽样效率高,在实践中被广泛应用。当数据量增大时,想 要在内存中构建一个这样的数据池完全不可行,一般需要配合数据库 进行存储管理,并且构建连续的顺序索引。另外,传统的关系型数据 库能够很方便的生成连续顺序索引,但是数据量过大时性能较差,一 般使用分库分表的技术扩展支持;NoSQL数据库能很好的支持数据, 但是要生成连续顺序索引需要额外的ID系统配合。综上,此方案在大 数据抽样中,使用成本较高、实现难度较大,一般不建议采用。
使用蓄水池算法的数据抽样方法的基本思路在于,通过遍历数据, 实现数据的随机抽样。此方法中,首先构造一个结果池,池的大小等 于要抽样的数据量的大小。通过遍历数据,将前k个数据放入结果池中, k到N的数据k+i按照k/(k+i)的概率与结果池的数据进行随机置换。此 方案对存储要求较低,实现简单,配合一般的NoSQL数据库,能够很 方便的实现数据的随机抽样。但是需要对整体数据进行遍历,数据量 较大时,全量遍历数据是非常耗时的操作,而且需要消耗大量的计算 资源。
发明内容
有鉴于此,本发明提供一种基于时间片的数据抽样方法、系统和 装置,能够在不进行全量的数据遍历的情况下,对非均匀分布的数据, 尽可能保证抽样结果在整个样本空间的均匀分布;有助于使用较少的 计算资源和较短的时间而完成大量数据的抽样操作,从而优化数据抽 样在大数据中的应用。
为实现上述目的,根据本发明的一个方面,提供了一种方法,包 括以下步骤:将任务时间分片成多个时间片的集合S={S1,S2,…,Si,…,SL}, 其中1≤i≤L,L为大于1的整数;选取所述多个时间片中的一个时间 片Si;从所选取的时间片Si中选取数据,作为抽样结果。
可选地,选取所述多个时间片中的一个时间片Si的步骤,包括:对 所述多个时间片中的每个时间片Si,估算单位时间数据密度;利用所估 算的单位时间数据密度,计算数据落在第i个时间片之前的时间内的概 率P(i)=P(t<Si);生成随机浮点数X;选取满足P(i)<X≤P(i+1)的 时间片Si。
可选地,估算单位时间数据密度的步骤包括:在每个时间片Si中, 使用最开始若干时间长度内的数据量,估计Si中的单位时间数据密度。
可选地,从所选取的时间片Si中选取数据的步骤,包括:在Si中随 机选取一个时间段;遍历所选取的时间段内的所有数据,从中选取一 个数据作为抽样结果。
可选地,所述方法,进一步包括:重复选取一个时间片,并且从 所选取的时间片中选取数据,作为多个抽样结果。
根据本发明的另一个方面,提供了一种基于时间片的数据抽样的 系统,包括:数据采集模块,所述数据采集模块被配置为采集原始数 据;抽样模块,所述抽样模块被配置为:将任务时间分片成多个时间 片的集合S={S1,S2,…,Si,…,SL};选取所述多个时间片中的一个时间片Si; 从所选取的时间片Si中选取数据,作为抽样结果;以及,结果存取模块,所述结果存取模块被配置为将抽样结果进行存储。
可选地,所述数据采集模块被进一步配置为按时间序列索引存储 原始数据。
可选地,选取所述多个时间片中的一个时间片Si的步骤,包括:对 所述多个时间片中的每个时间片Si,估算单位时间数据密度;利用所估 算的单位时间数据密度,计算数据落在第i个时间片之前的时间内的概 率P(i)=P(t<Si);生成随机浮点数X;选取满足P(i)<X≤P(i+1)的 时间片Si。
可选地,估算单位时间数据密度的步骤包括:在每个时间片Si中, 使用最开始若干时间长度内的数据量,估计Si中的单位时间数据密度。
可选地,从所选取的时间片Si中选取数据的步骤,包括:在Si中随 机选取一个时间段;遍历所选取的时间段内的所有数据,从中选取一 个数据作为抽样结果。
可选地,所述抽样模块被进一步配置为:重复选取一个时间片, 并且从所选取的时间片中选取数据,作为多个抽样结果。
根据本发明的另一个方面,提供了一种基于时间片的数据抽样的 电子装置,包括:至少一个处理器;以及,与所述至少一个处理器通 信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行 的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处 理器能够执行前述根据本发明的方面所述的方法。
根据本发明的另一个方面,提供了一种非暂态计算机可读存储介 质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令, 所述计算机指令用于使所述计算机执行前述根据本发明的方面所述的 方法。
根据本发明的技术方案,能够有助于使用较少的计算资源和较短 的时间而完成大量数据的抽样操作,从而优化数据抽样在大数据中的 应用。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是一天内数据系统的数据访问曲线的示例;
图2是根据本发明的实施例的基于时间片的数据抽样方法的流程 图;
图3是根据本发明的实施方式的能够实现基于时间片的数据抽样 的系统的框图;
图4是根据本发明的实施方式的能够实现基于时间片的数据抽样 的方法的电子装置的硬件结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施方式做出说明,其中包括本 发明实施方式的各种细节以助于理解,应当将它们认为仅仅是示范性 的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施 方式做出各种改变和修改,而不会背离本发明的范围和精神。同样, 为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是一天内数据系统的数据访问曲线的示例。如图1所示,可 以看出,系统在每个单位时间采集到的数据量按一定的规律分布,呈 现出不规则的起伏变化。在离线的数据采样过程中,如果我们按单位 时间进行随机的数据抽取,最终采集到的数据则会均匀地分布在指定 的时间段内,而非符合真实的数据分布。
为此,本发明采取基于时间片的数据抽样方法。本发明中,数据 抽样包含两个步骤:
首先,需要构建数据分布的密度函数D(t)。
在状态连续变化的系统中,将某个较小时间段T分成M个单位时 间{T1,T2,…,Ti,…,TM},记第i个单位时间内的数据个数为Sum(i),其中 i=1,2,…,M。简记作Ti∈T。
在某个较小时间段Δt内,对于Ti,Tj∈T∈Δt,满足Sum(Ti)≈ Sum(Tj)。则在T={T1,T2,…,Ti,…,TM}时间段内,定义数据密度函数D(T):
一般的互联网大数据量的系统中,数据分布皆符合以上情况。当 数据量足够大时,我们可以使用Δt中某段较短时间内的数据密度表示整 个Δt内的数据密度。选取T={T1,T2,…,Ti,…,TM}时间段内的前k个单位 时间{T1,T2,…,Tk}来估计整个Δt中的数据密度函数的公式描述为:
其中有k<M,且通常有k<<M。例如,假设我们以秒为单位进行 数据密度的统计,可以选取k=3,M=300,每5分钟内的数据密度可以 取该段时间前3s的数据总量进行计算得到。
在构建了密度函数之后,可以进行基于时间维度的数据抽样方法。
根据(2)中构建的密度函数D0(t),取合适的T,将抽样任务的时 间段进行等距分割成L份,得到若干个时间片的集合 S={S1,S2,…,Si,…,SL},每个时间分片记作Si,对应公式(1)中的时段 T。时间分片的数量为L,需要抽取的样本数量为N。L>N,且优选地, L>>N。
最终抽样结果按一定的规律分布在S中,令D(i)表示时间片Si的数 据密度,则有样本落在Si中的概率P(Si)描述为:
其中i∈{1,2,…,L}
综上,对于每一次独立的抽样操作,原始的抽样过程即可分两步 完成:①先从时间分片集合S中随机抽取一个时间片Si;②从Si中随机选 取一个单位时间时段T,遍历此单位时间段内的所有数据,等概率随机 选取一个样本数据作为单次抽样的结果。此处的单位时间指一段时间, 例如1秒、1分或者其他维度的切分。
前文描述的为选取一个样本的过程。不断重复以上过程N次,分别 完成对N个样本的选取。
图2是根据本发明的实施例的基于时间片的数据抽样方法的流程 图。根据图2,描述根据本发明的实施例的抽样过程。
如图2所示,首先,在步骤S201,系统100获取抽样任务。
在步骤S202中,根据抽样任务的起止时间,和抽样数量N,估算 合适的时间分片长度T。其中,时间段T可以分成M个单位时间 T={T1,T2,…,Ti,…,TM}。可以根据任务时间和数据量的大小选取“单位 时间”。例如,数据量较大的系统中,单位时间一般以秒或者毫秒计, 数据量少可以调大度量单位,否则抽中此段时间内可能没有数据。其 中,可根据实际抽样样本的时间分布跨度酌情选择T。关于T的长度, 例如,可以选取5分钟。
在步骤S203中,将抽样任务起止时间段按T进行分片成L个时间 段S={S1,S2,…,Si,…,SL},如上所述,其中每个时间片Si的长度为 T={T1,T2,…,Ti,…,TM}。需要保证时间的分片数量L远大于需要抽到的 样本量N,以保证足够的随机性。
在步骤S204,对于每个时间分片Si,参考前述公式(2),取其前 若干个单位时间计算数据密度D(i)。以取前3个单位时间为例,则采用 T1、T2、T3中的数据量来计算时长为M个单位时间(即,T)的整个时 间分片Si中的数据密度。单位时间的定义如前所述,可以是几秒或者几 毫秒,或更长等。
在步骤S205,在针对i=1,2,…,L计算了数据密度D(i)之后,代入 上述公式(3),针对每个时间片Si,计算其样本分布概率P(Si)。
在步骤S206,对于每个时间分片Si,根据P(Si)计算数据分布在 t<Min(Si)时间段内的概率P(i),即即样本落在Si之 前的某个时间点的概率。此后,设定计数器计数n=0,其代表已经抽样 的数据个数。
在步骤S207,判断当前已经抽样的数据个数是否尚未满足抽样任 务的要求,即是否满足n<N。若否(S207:N),则转到S215。若是 (S207:Y),则转到S208。
在步骤S208,生成一个0~1之间的随机浮点数X。
在步骤S209,根据在步骤S208中生成的随机浮点数X,选中时间 片Si,使得P(i)<X≤P(i+1),其中,P(i)的含义如前所述,描述的是 从起始时间到时间片Si之前的数据的概率,i∈{1,2,…,L},并为方便表 述,令P(L+1)=1。注意,由于P(i+1)即等于P(i)加上样本落在Si中 的概率,对i∈{1,2,…,L}均有0≤P(i)<P(i+1)≤1;随机生成一个0~1 之间的随机数,则必然有且只有一个i满足此式。
在步骤S210,随机生成一个整数m,使得0<m≤M。此时选定了 时间片Si中的单位时间段Tm,也即,在接下来的步骤S211-S214中, 开始单次抽样操作。
首先,在步骤S211,在步骤S209中选中的时间分片Si中,对第m 个单位时间段Tm(图中简称为“Si-Tm”)内的所有数据K= {K1,K2,…Kj,..}中的第一个数据K1,计抽样结果RS=K1。
在步骤S212,对于单位时间Tm内的第j个数据,随机生成一个0~1之 间的数字Rj。
在步骤S213,若Rj≤1/j,则令RS=Kj。
在步骤S214,确定是否已经遍历时间分片Si中第m个单位时间段 (即Tm)内的所有数据K={K1,K2,…Kj,..}。如果否(S214:N),过 程返回到步骤S212,对下一个Kj重复步骤S212、S213。
如果已经遍历了Si-Tm内的所有数据(S214:Y),则此时对时间 分片Si的单次抽样完成,当前RS的值即为单次抽样的结果。此时递增 计数器的值n,表示完成了一次抽样。此时,过程返回到步骤S207, 确定是否完成了所有的抽样。
在步骤S215,N轮抽样已经完成,已获取任务所需的N个抽样数 据,输出最终抽样结果,过程结束。
图3是根据本发明实施方式的能够实现基于时间片的数据抽样的 系统300的框图。如图3所示,系统300主要包括数据采集模块310、 任务管理模块320和抽样与结果存取模块330。
数据采集模块310主要负责原始数据的收集,按时间序列索引存 储,并提供适配接口按索引进行数据的读取操作。在数据采集模块310 中,使用HBASE作为大数据存储的一种数据库实现,从数据源收集的 数据以时间序列生成RowKey存储在HBASE中。
任务管理模块320包括任务管理模块和规则引擎模块,主要负责 创建抽样任务,配置抽样规则。抽样任务描述要抽样的数据集,抽样 的起止时间段,最终期望的抽样结果数据量,以及其他的业务规则。 如图3所示,任务管理模块320接收由配置管理员350在系统中创建 的抽样任务和指定的抽样规则。
抽样与结果存取模块330主要负责按照任务管理模块配置的规则 进行抽样,并由结果存取模块对抽样结果进行存储,以便进行后续的 人工处理。例如是指对样本进行标注等,此处主要是数据能被其他模 块读取访问。
根据本发明的实施例,本发明还提供了一种电子装置和一种可读 存储介质。
根据本发明的实施例的电子装置包括:至少一个处理器;以及, 与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有 可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执 行,以使所述至少一个处理器执行本发明所提供的数据抽样的方法。
本发明的非暂态计算机可读存储介质,所述非暂态计算机可读存 储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发 明所提供的数据抽样的方法。
图4是根据本发明的实施方式的能够实现基于时间片的数据抽样 的方法的电子装置的硬件结构示意图。如图4所示,该电子装置包括: 一个或多个存储器41以及处理器42,图4中以一个处理器42为例。 其中,存储器41即为本发明所提供的非暂态计算机可读存储介质。
能够实现数据抽样的方法的电子装置还可以包括:输入装置43和 输出装置44。
存储器41、处理器42、输入装置43和输出装置44可以通过总线 或者其他方式连接,图4中以通过总线连接为例。
存储器41作为一种非暂态计算机可读存储介质,可用于存储非暂 态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中 的数据抽样的方法对应的程序指令/模块(例如,图3所示的数据采集 模块310、任务管理模块320和抽样与结果存取模块330)。处理器42 通过运行存储在存储器41中的非暂态软件程序、指令以及模块,从而 执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中 的数据抽样的方法。
存储器41可以包括存储程序区和存储数据区,其中,存储程序区 可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存 储根据数据抽样的装置的使用所创建的数据等。此外,存储器41可以 包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个 磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施 例中,存储器41可选包括相对于处理器42远程设置的存储器,这些 远程存储器可以通过网络连接至数据抽样的装置。上述网络的实例包 括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可接收输入的数字或字符信息(例如,图3中由配置 管理员350创建的抽样任务和指定的抽样规则等),以及产生与数据 抽样的装置的用户设置以及功能控制有关的键信号输入。输出装置44 可输出数据,例如如前文所述的抽样结果数据。输出装置44也可包括 显示屏等显示装置。
所述一个或者多个模块存储在所述存储器41中,当被所述一个或 者多个处理器42执行时,执行上述任意方法实施例中的数据抽样的方 法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应 的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参 见本发明实施例所提供的方法。
根据本发明实施例的技术方案,可以实现基于时间概率密度的抽 样方法,在不进行全量的数据遍历的情况下,对非均匀分布的数据, 尽可能保证抽样结果在整个样本空间的均匀分布;该方案提高抽样的 效率,节省计算资源,为大数据的抽样提供一套通用的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域 技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种 各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内 所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (13)
1.一种基于时间片的数据抽样方法,其特征在于,包括以下步骤:
将任务时间分片成多个时间片的集合S={S1,S2,…,Si,…,SL},其中1≤i≤L,L为大于1的整数;
选取所述多个时间片中的一个时间片Si;
从所选取的时间片Si中选取数据,作为抽样结果。
2.根据权利要求1所述的方法,其特征在于,选取所述多个时间片中的一个时间片Si的步骤,包括:
对所述多个时间片中的每个时间片Si,估算单位时间数据密度;
利用所估算的单位时间数据密度,计算数据落在第i个时间片之前的时间内的概率P(i)=P(t<Si),其中1≤i≤L,并令P(L+1)=1;
生成随机浮点数X;
选取满足P(i)<X≤P(i+1)的时间片Si。
3.根据权利要求2所述的方法,其特征在于,估算单位时间数据密度的步骤包括:在每个时间片Si中,使用最开始若干时间长度内的数据量,估计Si中的单位时间数据密度。
4.根据权利要求1所述的方法,其特征在于,从所选取的时间片Si中选取数据的步骤,包括:
在Si中随机选取一个时间段;
遍历所选取的时间段内的所有数据,从中选取一个数据作为抽样结果。
5.根据权利要求1所述的方法,其特征在于,进一步包括:
重复选取一个时间片,并且从所选取的时间片中选取数据,作为多个抽样结果。
6.一种基于时间片的数据抽样的系统,其特征在于,包括:
数据采集模块,所述数据采集模块被配置为采集原始数据;
抽样模块,所述抽样模块被配置为:将任务时间分片成多个时间片的集合S={S1,S2,…,Si,…,SL};选取所述多个时间片中的一个时间片Si;从所选取的时间片Si中选取数据,作为抽样结果;以及,
结果存取模块,所述结果存取模块被配置为将抽样结果进行存储。
7.根据权利要求6所述的系统,其特征在于,所述数据采集模块被进一步配置为按时间序列索引存储原始数据。
8.根据权利要求6所述的系统,其特征在于,选取所述多个时间片中的一个时间片Si的步骤,包括:
对所述多个时间片中的每个时间片Si,估算单位时间数据密度;
利用所估算的单位时间数据密度,计算数据落在第i个时间片之前的时间内的概率P(i)=P(t<Si),其中1≤i≤L,并令P(L+1)=1;;
生成随机浮点数X;
选取满足P(i)<X≤P(i+1)的时间片Si。
9.根据权利要求6所述的系统,其特征在于,估算单位时间数据密度的步骤包括:在每个时间片Si中,使用最开始若干时间长度内的数据量,估计Si中的单位时间数据密度。
10.根据权利要求6所述的系统,其特征在于,从所选取的时间片Si中选取数据的步骤,包括:
在Si中随机选取一个时间段;
遍历所选取的时间段内的所有数据,从中选取一个数据作为抽样结果。
11.根据权利要求6所述的系统,其特征在于,所述抽样模块被进一步配置为:重复选取一个时间片,并且从所选取的时间片中选取数据,作为多个抽样结果。
12.一种电子装置,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
13.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710168786.1A CN108628889B (zh) | 2017-03-21 | 2017-03-21 | 基于时间片的数据抽样方法、系统和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710168786.1A CN108628889B (zh) | 2017-03-21 | 2017-03-21 | 基于时间片的数据抽样方法、系统和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108628889A true CN108628889A (zh) | 2018-10-09 |
CN108628889B CN108628889B (zh) | 2021-05-25 |
Family
ID=63687212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710168786.1A Active CN108628889B (zh) | 2017-03-21 | 2017-03-21 | 基于时间片的数据抽样方法、系统和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108628889B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990928A (zh) * | 2021-05-10 | 2021-06-18 | 南开大学 | 一种可监管的匿名法定数字货币发行与流通方法 |
CN113688159A (zh) * | 2021-09-08 | 2021-11-23 | 京东科技控股股份有限公司 | 一种数据抽取方法与装置 |
CN113868230A (zh) * | 2021-10-20 | 2021-12-31 | 重庆邮电大学 | 一种基于Spark计算框架的大表连接优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799682A (zh) * | 2012-05-10 | 2012-11-28 | 中国电力科学研究院 | 一种海量数据预处理方法及其系统 |
CN103793416A (zh) * | 2012-10-31 | 2014-05-14 | 华东师范大学 | 一种对等网络中分布无关的数据管理方法 |
CN104346399A (zh) * | 2013-08-06 | 2015-02-11 | 中国中医科学院西苑医院 | 基于pk-pd的中药复方物质基础数据分析方法 |
CN105426441A (zh) * | 2015-11-05 | 2016-03-23 | 华中科技大学 | 一种时间序列自动预处理方法 |
-
2017
- 2017-03-21 CN CN201710168786.1A patent/CN108628889B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799682A (zh) * | 2012-05-10 | 2012-11-28 | 中国电力科学研究院 | 一种海量数据预处理方法及其系统 |
CN103793416A (zh) * | 2012-10-31 | 2014-05-14 | 华东师范大学 | 一种对等网络中分布无关的数据管理方法 |
CN104346399A (zh) * | 2013-08-06 | 2015-02-11 | 中国中医科学院西苑医院 | 基于pk-pd的中药复方物质基础数据分析方法 |
CN105426441A (zh) * | 2015-11-05 | 2016-03-23 | 华中科技大学 | 一种时间序列自动预处理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990928A (zh) * | 2021-05-10 | 2021-06-18 | 南开大学 | 一种可监管的匿名法定数字货币发行与流通方法 |
CN113688159A (zh) * | 2021-09-08 | 2021-11-23 | 京东科技控股股份有限公司 | 一种数据抽取方法与装置 |
CN113688159B (zh) * | 2021-09-08 | 2024-04-05 | 京东科技控股股份有限公司 | 一种数据抽取方法与装置 |
CN113868230A (zh) * | 2021-10-20 | 2021-12-31 | 重庆邮电大学 | 一种基于Spark计算框架的大表连接优化方法 |
CN113868230B (zh) * | 2021-10-20 | 2024-06-04 | 重庆邮电大学 | 一种基于Spark计算框架的大表连接优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108628889B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
Shah et al. | A framework for social media data analytics using Elasticsearch and Kibana | |
WO2020011068A1 (zh) | 用于执行机器学习过程的方法和系统 | |
CN107871166B (zh) | 针对机器学习的特征处理方法及特征处理系统 | |
CN107273979B (zh) | 基于服务级别来执行机器学习预测的方法及系统 | |
US11544633B2 (en) | Method for cleaning up background application, storage medium, and electronic device | |
US9361343B2 (en) | Method for parallel mining of temporal relations in large event file | |
CN113435602A (zh) | 确定机器学习样本的特征重要性的方法及系统 | |
CN104598557A (zh) | 数据栅格化、用户行为分析的方法和装置 | |
CN106407381B (zh) | 一种基于人工智能的推送信息的方法和装置 | |
US9754015B2 (en) | Feature rich view of an entity subgraph | |
CN111125519B (zh) | 用户行为预测方法、装置、电子设备以及存储介质 | |
CN108628889A (zh) | 基于时间片的数据抽样方法、系统和装置 | |
JP6232522B2 (ja) | 計算機及びグラフデータ生成方法 | |
CN114205690A (zh) | 流量预测、模型训练方法及装置、电子设备、存储介质 | |
CN112257868A (zh) | 构建和训练用于预测客流量的集成预测模型的方法及装置 | |
US11538048B1 (en) | Predictively identifying activity subscribers | |
CN109657071B (zh) | 词汇预测方法、装置、设备和计算机可读存储介质 | |
CN109643307B (zh) | 流处理系统和方法 | |
CN111767435B (zh) | 用户行为分析方法及装置 | |
Rizki et al. | Spark-based in-memory DEM creation from 3D LiDAR point clouds | |
CN114118411A (zh) | 图像识别网络的训练方法、图像识别方法及装置 | |
US11238357B2 (en) | Generating computationally-efficient representations of large datasets | |
Wu et al. | Streaming Approach to In Situ Selection of Key Time Steps for Time‐Varying Volume Data | |
CN110415006B (zh) | 广告点击率预估方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |