CN104615763B - 中间表更新方法及装置 - Google Patents

中间表更新方法及装置 Download PDF

Info

Publication number
CN104615763B
CN104615763B CN201510080692.XA CN201510080692A CN104615763B CN 104615763 B CN104615763 B CN 104615763B CN 201510080692 A CN201510080692 A CN 201510080692A CN 104615763 B CN104615763 B CN 104615763B
Authority
CN
China
Prior art keywords
list item
extraction
middle table
data processing
business data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510080692.XA
Other languages
English (en)
Other versions
CN104615763A (zh
Inventor
董铭
孙勇义
刘生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510080692.XA priority Critical patent/CN104615763B/zh
Publication of CN104615763A publication Critical patent/CN104615763A/zh
Application granted granted Critical
Publication of CN104615763B publication Critical patent/CN104615763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种中间表更新方法及装置。其中,所述方法包括:获取业务数据处理任务对基础表和/或中间表中数据的提取记录;根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;根据所述表项调整方案更新所述中间表的表项。本发明实施例提供的技术方案,以智能的方式,来获取业务数据处理任务对基础表和/或中间表中数据的提取情况,并据此动态调整中间表中的表项,使得中间表的表项和规模可以达到较佳的平衡点,从而提高了中间表调整的及时性和准确性。

Description

中间表更新方法及装置
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及中间表更新方法及装置。
背景技术
随着计算机技术与移动互联网技术的蓬勃发展,各种数据呈爆炸式增长。一些设备每天需要处理的数据量可以达到T(10的12次方)级别,甚至P级别(10的15次方)。在现有的数据处理模式中,原始数据作为基础数据,通常均会被存储在基础表中。但是,在后续基于基础数据执行相关业务处理的过程中,往往需要先对基础数据进行聚合等处理操作,以提取出基础数据中所隐含的为后续业务处理所需的数据,进而再处理产生业务数据。一般情况下,提取基础数据或中间数据,再产生一项业务数据的过程由一个业务数据处理任务实现。
随着业务数据需求的增多,业务数据处理任务也越来越多,如果所有的业务数据处理任务都以基础表作为数据源,从其中所存储的基础数据开始计算,那么在计算过程中,将会消耗很大的带宽和资源。为此,现有技术预先对基础表中的基础数据进行了某种程度上的聚合,产生了一些中间表(DATAMART),直接供下游的业务数据处理任务进行处理以得到业务数据,从而减少对原始数据的读取和计算操作,节省带宽和资源。其中,中间表中的数据包括从基础表中提取的部分数据,或者对所提取的部分数据进行处理生成的中间数据。
然而,如果中间表中涵盖的数据量少,则会无法有效满足业务数据处理任务的提取需求;如果中间表涵盖的数据量大,又会使得中间表的规模过大,既占用存储空间,也无法有效提高数据的处理效率。为得到合适的中间表,现有技术主要依靠人工经验来设计中间表,但由于数据量巨大,所以中间表的调整周期过长,不及时、准确率不高。
发明内容
本发明实施例提供一种中间表更新方法及装置,以提高中间表调整的及时性和准确性。
一方面,本发明实施例提供了一种中间表更新方法,该方法包括:
获取业务数据处理任务对基础表和/或中间表中数据的提取记录;
根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;
根据所述表项调整方案更新所述中间表的表项。
另一方面,本发明实施例还提供了一种中间表更新装置,该装置包括:
提取记录获取单元,用于获取业务数据处理任务对基础表和/或中间表中数据的提取记录;
表项调整方案确定单元,用于根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;
中间表项更新单元,用于根据所述表项调整方案更新所述中间表的表项。
本发明实施例提供的技术方案,以智能的方式,来获取业务数据处理任务对基础表和/或中间表中数据的提取情况,并据此动态调整中间表中的表项,使得中间表的表项和规模可以达到较佳的平衡点,从而提高了中间表调整的及时性和准确性。
附图说明
图1是本发明实施例一提供的一种中间表更新方法的流程示意图;
图2是本发明实施例三提供的一种中间表更新方法的流程示意图;
图3是本发明实施例三提供的中间表更新方法所适用的网络架构示意图;
图4是本发明实施例四提供的一种中间表更新装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种中间表更新方法的流程示意图。本实施例可应用于由用于存储基础表和中间表的物理设备,以及执行业务数据处理任务的物理设备所构成的数据处理系统。其中,对于基础表和中间表而言,其可以以数据库的形式,被存储在同一台物理设备中,也可被存储在不同物理设备中;业务数据处理任务可以是由并列的不同类型的业务数据处理子任务组成,且每种业务数据处理子任务的个数为至少一个,不同的业务数据处理子任务可由不同的物理设备(例如,服务器)所负责执行。每个业务数据处理子任务,用于从基础表和中间表中提取数据并进行处理得到相应的业务数据。
本实施例提供的中间表更新方法,可由中间表更新装置执行,所述装置由软件实现。其中,中间表更新装置可作为独立的软件产品,而被设置在位于上述数据处理系统之外的第三方物理设备上,通过与数据处理系统之间的数据交互,实现对数据处理系统中中间表的更新。或者,中间表更新装置作为上述数据处理系统内的一部分软件模块,而被内置在数据处理系统内的一台物理设备中,以实现对数据处理系统中中间表的更新。参见图1,本实施例提供的中间表更新方法具体包括如下:
S110、获取业务数据处理任务对基础表和/或中间表中数据的提取记录。
在本实施例中,基础表和中间表均可包含有多条数据记录,每条数据记录可被视为一个键值对,其中键值对中键(key)为表项名称,值(value)为表项上的数值。中间表中的数据包括从基础表中提取的部分数据,或者对所提取的部分数据进行处理生成的中间数据。
例如,下表1给出了一种基础表:
表1
PC 手机 平板电脑 北京 上海 深圳
第一网页 数值1 数值4 数值7 数值10 数值13 数值16
第二网页 数值2 数值5 数值8 数值11 数值14 数值17
第三网页 数值3 数值6 数值9 数值12 数值15 数值18
第K网页 数值K1 数值K2 数值K3 数值K4 数值K5 数值K6
参见上述表1,该表中包含有K(为大于3的自然数)条数据记录,每条数据记录包括:网页分别在PC机、手机、平板电脑、北京、上海、深圳(对应于键值对中的键)这6个表项上的点击量(对应于键值对中的值)。显然,这6个表项是根据网页在不同终端类型和不同地域上的点击量两个维度所设置的。
例如,对于表1中的第2条数据记录,该条数据记录描述了第二网页分别在PC机、手机、平板电脑、北京、上海、深圳这6个表项上的点击量依次为:数值2、数值5、数值8、数值11、数值14和数值17。
下表2给出了一种中间表:
表2
手机 平板电脑 北京
第一网页 数值4 数值7 数值10
第二网页 数值5 数值8 数值11
第三网页 数值6 数值9 数值12
第K网页 数值K2 数值K3 数值K4
当然,本领域的普通技术人员应理解,为方便描述本实施例所提供的技术方案,上述表1和表2仅是作为一种示例加以阐述。在实际执行当中,基础表和中间表中的数据记录的条数,以及表项的数目,往往会远大于上述表1和表2所示的情况。
在本实施例中,业务数据处理任务负责从基础表和/或中间表中提取数据并进行处理得到业务数据。业务数据处理任务至少包括如下两种类型的任务:用于根据单次的业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第一种业务数据处理任务(例如,Adhoc业务数据处理任务);用于按照设定周期和/或设定业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第二种业务数据处理任务(例如,例行业务数据处理任务)。
如果业务数据处理任务可以预先获知基础表和中间表的表项,则业务数据处理任务可先根据提取需求和所获取的基础表和中间表的表项,确定应该从基础表中获取哪些基础数据,从中间表中获取哪些中间数据,然后根据确定结果,向基础表和/或中间表发出对应的查询指令进行数据提取。如果业务数据处理任务未能预先获知基础表和中间表的表项,则业务数据处理任务可根据提取需求,先在中间表中查询并获取中间数据;如果中间表未覆盖能够满足提取需求的中间数据,则在基础表中查询并获取基础数据。因此,在本实施例中,提取记录可包括下述至少一项记录:
业务数据处理任务根据提取需求,在基础表中查询并获取基础数据的记录;
业务数据处理任务根据提取需求,在中间表中查询并获取中间数据的记录;
业务数据处理任务根据提取需求查询中间表,如果中间表不存在满足提取需求的中间数据,则根据提取需求在基础表中查询并获取基础数据的记录。
示例性的,根据提取需求,在任意表中查询并获取数据的记录可包括:业务数据处理任务在每次获取数据时,所针对的数据源的标识、表项、获取数据的时间节点、获取数据所耗费的时长等信息。其中,数据源可以是基础表或者中间表。例如,在上述表1查询并获取数据的一条记录为:“Initial Table”、“手机”、“2015年1月1日8:00”、“5s”。该项记录表明:在2015年1月1日8:00这一时间节点,获取了一次基础表中“手机”这一表项的数据,所耗费的时长为0.5秒。
需要说明的是,在本实施例中,业务数据处理任务对基础表和/或中间表中数据的提取记录,可由业务数据处理任务本身加以监测和存储,并将该提取记录作为反馈流的一部分进行输出,进而中间表更新装置可直接从该输出中得到包含有提取记录的反馈流。或者,由中间表更新装置实时监测业务数据处理任务对基础表和/或中间表中数据的提取情况,进而得到提取记录。本实施例对此不作限定。
S120、根据获取的提取记录,按照设定规则确定中间表的表项调整方案。
在获取到提取记录之后,可对所获取到的提取记录进行统计分析,以得到业务数据处理任务对基础表中表项的提取频次,和/或,对中间表中表项的提取频次。进而,可根据统计分析结果,确定中间表的表项调整方案。示例性的,根据统计分析结果,确定中间表的表项调整方案,可具体包括:当对基础表中某一表项的统计分析结果满足设定的表项添加条件时,可将该表项作为中间表中的待添加表项;和/或,当对中间表中某一表项的统计分析结果满足设定的表项删除条件时,可将该表项作为中间表中的待删除表项。
当然,在对所获取到的提取记录进行统计分析的结果中,还可包括:业务数据处理任务对基础表中表项的提取时间。当该时间超出设定的提取时长时,可将该表项作为中间表中的待添加表项。在本实施例中,业务数据处理任务对任意表Q中表项qx的提取,指的是:业务数据处理任务对表项qx在表Q中的数据的提取,相应的提取时间指的是:业务数据处理任务获取表项qx在表Q中的数据所耗费的时长。例如:针对上述表1,业务数据处理任务提取的“手机”这一表项在表1中的数据如下:
手机
第一网页 数值4
第二网页 数值5
第三网页 数值6
第K网页 数值K2
S130、根据表项调整方案更新中间表的表项。
在得到表项调整方案之后,也即确定了中间表中的待添加表项和待删除表项之后,可据此来更新中间表的表项。在本实施例的一种具体实现方式中,中间更新装置独立于数据处理系统而存在,相应的更新中间表的表项过程可具体为:根据表项调整方案生成表项调整指令,发送至数据处理系统,以使得数据处理系统根据该表项调整指令,完成对中间表表项的更新。示例性的,表项调整指令可包含两个字段,其中一个字段的内容包括中间表中的待添加表项,另一个字段的内容包括中间表中的待删除表项。在本实施例的另一种具体实现方式中,中间更新装置内置于数据处理系统,相应的更新中间表的表项过程可具体为:中间更新装置直接根据表项调整方案,完成对中间表表项的更新。
本实施例提供的技术方案,以智能的方式,来获取业务数据处理任务对基础表和/或中间表中数据的提取情况,并据此动态调整中间表中的表项,使得中间表的表项和规模可以达到较佳的平衡点,从而提高了中间表调整的及时性和准确性。
实施例二
本实施例在上述实施例一的基础上,对“根据所述提取记录,按照设定规则确定所述中间表的表项调整方案”的操作作进一步优化,并增加了“修改表项调整方案”、“生成中间表调整建议或中间表更新方法中所涉及的设定规则的调整建议”的操作,以更好的实现对中间表的更新操作,使得更新后的中间表的表项和规模更加的合理,便于业务数据处理任务快速读取,加快业务数据处理任务的执行速度,节省带宽和资源。
由于业务数据处理任务通常是按照如下规则,来实现对基础表和中间表中数据的获取操作:如果中间表中存储有能够满足提取需求的中间数据,则直接在中间表中进行查询和获取,否则在基础表中查询并获取基础数据。由此可见,业务数据处理任务针对基础表中一些表项所提取的数据,很可能在中间表中并未加以存储,因此可将这些表项作为待添加到中间表中的新表项。然而,如果不对这些表项加以选择的添加,又有可能造成中间表的数据量十分庞大,进而会大大降低业务数据处理任务对中间表的查询和获取速度。
为此,在本实施例的一种具体实施方式中,根据业务数据处理任务对基础表中数据的提取记录,按照设定规则确定中间表的表项调整方案,包括:根据提取记录,统计基础表中表项的提取频次;将提取频次达到第一预设值的表项,作为中间表的待添加表项。
并且,考虑到随着业务数据处理任务的更新变化,对中间表中一些表项的提取次数可能会越来越少,也即这些表项在中间表中的数据趋于老化。为了使得中间表所存储的数据,始终是为业务数据处理任务所频繁提取的数据,优化业务数据处理任务对中间表数据的提取效率,在本实施例的另一种具体实施方式中,根据业务数据处理任务对中间表中数据的提取记录,按照设定规则确定中间表的表项调整方案,包括:根据提取记录,统计中间表中表项的提取频次;将提取频次低于第二预设值的表项,作为中间表的待删除表项。
在本发明实施例中,可以是人工根据经验值在中间表更新装置出厂时,预先配置好第一预设值和第二预设值。通常情况下,第二预设值小于第一预设值。在中间表更新装置每隔设定时间执行中间表更新方法的过程中,第一预设值和第二预设值可以是固定不变的,也可以是基于已执行过的对中间表的更新结果而不断被优化的。
提取频次可以为提取频率,或者,直接为在设定时间段内的提取次数。提取频率的统计分析过程,具体为:统计业务数据处理任务在设定时间段内对表中表项的提取次数;将所统计的提取次数除以设定时间段,作为业务数据处理任务对该表中表项的提取频率。在本实施例中,设定时间段可以是最近1周内,或者最近3天,等。例如,业务数据处理任务在最近1周内,对实施例一所述的表1中“北京”这一表项的提取次数为420次,则相应的提取频率为:420次/7天=60次/天。
当然,为使得最终得到的中间表的表项和规模更加合理,可同时结合上述两种具体实施方式,确定出一个中间表的表项调整方案,进而据此来更新中间表的表项。
在上述技术方案的基础上,考虑到可能会存在调整后新中间表的规模过大而导致业务数据处理任务对新中间表的查询和提取效率十分低下,故在根据提取记录,按照设定规则确定中间表的表项调整方案之后,本实施例提供的中间表更新方法,还可包括:
根据表项调整方案,预算调整后新中间表的容量大小;
如果容量大小超出表容量预设值,则修改表项调整方案,直至预算的新中间表容量大小低于表容量预设值。
示例性的,根据表项调整方案,预算调整后新中间表的容量大小,包括:预算所确定的各个待添加表项在基础表中的所有数据,计算这些数据的数据量,作为第一容量;预算所确定的各个待删除表项在中间表中的所有数据,计算这些数据的数据量,作为第二容量;将第一容量与第二容量的差值,与调整前中间表的容量相加,作为调整后新中间表的容量大小。
修改表项调整方案,包括:减少中间表的待添加表项,和/或,增加中间表的待删除表项。具体的减少和/或增加方式,可以是随机方式,也可以是根据一些影响因素所设计的一种方式。
示例性的,可根据业务数据处理任务对基础表中待添加表项的提取频次,来确定需在表项调整方案中删除的待添加表项,例如,可以将提取频次最低的待添加表项进行删除;和/或,可根据业务数据处理任务对中间表中非待添加表项(除待添加表项之外的其他表项)的提取频次,来确定新的待删除表项,例如,可以将提取频次最低的非待添加表项,作为中间表的一个新的待删除表项。
当然,还可根据待添加表项在基础表中的数据量,来具体确定所要减少的待添加表项,例如,可以将在基础表中的数据量最大的待添加表项进行删除;和/或,可根据非待添加表项在中间表中的数据量,来确定新的待删除表项,例如,可以将在中间表中的数据量最大的非待添加表项,作为中间表的一个新的待删除表项。
本领域的普通技术人员应理解,还可综合考虑提取频次和数据量这两种影响因素,来设计如何减少待添加表项和/或增加待删除表项的具体实现方式,以对本次所确定的表项调整方案进行修改,直至预算的新中间表容量大小低于表容量预设值。
在上述技术方案的基础上,本实施例提供的中间表更新方法,还可包括:
监测业务数据处理任务从基础表和中间表中提取数据并进行处理得到业务数据所耗费的时间;
根据所监测到的时间,产生中间表调整建议或设定规则的调整建议。
示例性的,如果监测到业务数据处理任务从中间表中提取数据并进行处理得到业务数据所耗费的时间,大于设定的第一时间阈值,则表明当前中间表规模过大,不利于业务数据处理任务对中间表中数据的提取,产生如下中间表调整建议:需减小中间表的容量;或者,产生设定规则的调整建议:需增大设定规则中第一预设值和/或第二预设值。
反之,如果监测到业务数据处理任务从基础表中提取数据并进行处理得到业务数据所耗费的时间,大于设定的第二时间阈值,则表明当前中间表规模过小,使得业务数据处理任务往往在中间表中查询不到能够满足提取需求的中间数据,而总是要花费较长时间,频繁的从基础表中提取基础数据,为此可产生如下中间表调整建议:需增大中间表的容量;或者,产生设定规则的调整建议:需减小设定规则中第一预设值和/或第二预设值。
实施例三
图2是本发明实施例三提供的一种中间表更新方法的流程示意图。本实施例以上述所有实施例为基础,提供一优选实施例。本实施例所提供的中间表更新方法,由中间表更新装置执行。所述装置作为独立的软件产品,而被设置在位于数据处理系统之外的第三方物理设备中,通过与数据处理系统之间的数据交互,实现对数据处理系统中中间表的更新。
如图3所示,本实施例所适用的网络架构包括:数据处理系统和中间表更新装置所在的物理设备。
具体的,数据处理系统包括一个或多个物理设备,分别用于:存放基础表31;存放中间表32;执行Adhoc业务数据处理任务33;以及,执行例行业务数据处理任务34。
中间表更新装置所在的物理设备由两部分组成,包括统计中心35和智能建表组件36。参见图2,本实施例提供的中间表更新方法具体包括如下操作:
S210、统计中心从业务数据处理任务获取反馈流,其中反馈流包括业务数据处理任务对基础表和中间表中数据的提取记录。
其中,业务数据处理任务包括Adhoc业务数据处理任务和例行业务数据处理任务。所述提取记录为:业务数据处理任务根据提取需求查询中间表,如果中间表不存在满足提取需求的中间数据,则根据提取需求在基础表中查询并获取基础数据的记录。
S220、统计中心根据提取记录,统计基础表中表项的提取频次,将提取频次达到第一预设值的表项,作为中间表的待添加表项,添加至表项调整方案中。
S230、统计中心根据提取记录,统计中间表中表项的提取频次,将提取频次低于第二预设值的表项,作为中间表的待删除表项,添加至表项调整方案中。
S240、统计中心根据表项调整方案,预算调整后新中间表的容量大小。
S250、如果所述容量大小超出表容量预设值,则:统计中心修改表项调整方案,直至预算的新中间表容量大小低于表容量预设值。
S260、智能建表组件根据修改后的表项调整方案更新中间表的表项。
在本实施例中,S220和S230的执行顺序可以互换。
在上述技术方案的基础上,还包括:统计中心监测业务数据处理任务从基础表和中间表中提取数据并进行处理得到业务数据所耗费的时间;
根据所监测到的时间,产生中间表调整建议或所述设定规则的调整建议。
在现有技术中,对中间表的设计,往往掺入了很多的人力来完成。这就需要设计人员对业务足够熟悉,并梳理各个业务之间的逻辑,通常比较复杂;同时,如果业务需求发生变化,对应的中间表也需要动态改变,仅靠人工不足以支撑这些需求,对中间表的开发周期比较长,因此需要对中间表的更新实现自动化。
本实施例提供的技术方案,可通过反馈流获知业务数据处理任务对基础表和中间表中数据的提取记录,并基于对提取记录的统计分析结果得到中间表的表项调整方案,进而根据该表项调整方案结合现有的中间表,智能地产出表项和规模可以达到较佳平衡点的新的中间表,供业务数据处理任务使用,从而提高了中间表调整的及时性和准确性。
实施例四
图4是本发明实施例四提供的一种中间表更新装置的结构示意图。参见图4,该装置的结构具体如下:
提取记录获取单元410,用于获取业务数据处理任务对基础表和/或中间表中数据的提取记录;
表项调整方案确定单元420,用于根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;
中间表项更新单元430,用于根据所述表项调整方案更新所述中间表的表项。
示例性的,所述表项调整方案确定单元420包括待添加项确定子单元4201,用于:
根据所述提取记录,统计所述基础表中表项的提取频次;
将提取频次达到第一预设值的表项,作为所述中间表的待添加表项。
示例性的,所述表项调整方案确定单元420包括待删除项确定子单元4202,用于:
根据所述提取记录,统计所述中间表中表项的提取频次;
将所述提取频次低于第二预设值的表项,作为所述中间表的待删除表项。
在上述技术方案的基础上,本实施例提供的中间表更新装置还包括表项调整方案修改单元440,用于:
根据所述表项调整方案确定单元420得到的表项调整方案,预算调整后新中间表的容量大小;
如果所述容量大小超出表容量预设值,则修改所述表项调整方案,直至预算的新中间表容量大小低于表容量预设值。
在上述技术方案的基础上,本实施例提供的中间表更新装置还包括调整建议生成单元450,用于:
监测所述业务数据处理任务从所述基础表和所述中间表中提取数据并进行处理得到业务数据所耗费的时间;
根据所监测到的时间,产生中间表调整建议或所述设定规则的调整建议。
在上述技术方案的基础上,所述提取记录包括下述至少一项记录:
业务数据处理任务根据提取需求,在所述基础表中查询并获取基础数据的记录;
业务数据处理任务根据提取需求,在所述中间表中查询并获取中间数据的记录;
业务数据处理任务根据提取需求查询所述中间表,如果所述中间表不存在满足所述提取需求的中间数据,则根据所述提取需求在所述基础表中查询并获取基础数据的记录;
所述业务数据处理任务至少包括如下两种类型的任务:
用于根据单次的业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第一种业务数据处理子任务;
用于按照设定周期和/或设定业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第二种业务数据处理子任务。
上述产品可执行本发明任意实施例所提供的中间表更新方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种中间表更新方法,其特征在于,包括:
获取业务数据处理任务对基础表和/或中间表中数据的提取记录;
根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;
根据所述表项调整方案,预算调整后新中间表的容量大小;
如果所述容量大小超出表容量预设值,则修改所述表项调整方案,直至预算的新中间表容量大小低于表容量预设值;
其中,修改所述表项调整方案包括如下至少一种:
根据业务数据处理任务对基础表中待添加表项的提取频次,来确定需在表项调整方案中删除的待添加表项;
根据业务数据处理任务对中间表中除待添加表项之外的非待添加表项的提取频次,来确定新的待删除表项;
根据待添加表项在基础表中的数据量,来具体确定所要减少的待添加表项;
根据非待添加表项在中间表中的数据量,来确定新的待删除表项;
根据所述表项调整方案更新所述中间表的表项。
2.根据权利要求1所述的方法,其特征在于,根据所述提取记录,按照设定规则确定所述中间表的表项调整方案,包括:
根据所述提取记录,统计所述基础表中表项的提取频次;
将提取频次达到第一预设值的表项,作为所述中间表的待添加表项。
3.根据权利要求1所述的方法,其特征在于,根据所述提取记录,按照设定规则确定所述中间表的表项调整方案,包括:
根据所述提取记录,统计所述中间表中表项的提取频次;
将所述提取频次低于第二预设值的表项,作为所述中间表的待删除表项。
4.根据权利要求1-3中任一项所述的方法,其特征在于,还包括:
监测所述业务数据处理任务从所述基础表和所述中间表中提取数据并进行处理得到业务数据所耗费的时间;
根据所监测到的时间,产生中间表调整建议或所述设定规则的调整建议。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述提取记录包括下述至少一项记录:
业务数据处理任务根据提取需求,在所述基础表中查询并获取基础数据的记录;
业务数据处理任务根据提取需求,在所述中间表中查询并获取中间数据的记录;
业务数据处理任务根据提取需求查询所述中间表,如果所述中间表不存在满足所述提取需求的中间数据,则根据所述提取需求在所述基础表中查询并获取基础数据的记录;
所述业务数据处理任务至少包括如下两种类型的任务:
用于根据单次的业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第一种业务数据处理子任务;
用于按照设定周期和/或设定业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第二种业务数据处理子任务。
6.一种中间表更新装置,其特征在于,包括:
提取记录获取单元,用于获取业务数据处理任务对基础表和/或中间表中数据的提取记录;
表项调整方案确定单元,用于根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;
表项调整方案修改单元,用于:
根据所述表项调整方案确定单元得到的表项调整方案,预算调整后新中间表的容量大小;
如果所述容量大小超出表容量预设值,则修改所述表项调整方案,直至预算的新中间表容量大小低于表容量预设值;
其中,修改所述表项调整方案包括如下至少一种:
根据业务数据处理任务对基础表中待添加表项的提取频次,来确定需在表项调整方案中删除的待添加表项;
根据业务数据处理任务对中间表中除待添加表项之外的非待添加表项的提取频次,来确定新的待删除表项;
根据待添加表项在基础表中的数据量,来具体确定所要减少的待添加表项;
根据非待添加表项在中间表中的数据量,来确定新的待删除表项;
中间表项更新单元,用于根据所述表项调整方案更新所述中间表的表项。
7.根据权利要求6所述的装置,其特征在于,所述表项调整方案确定单元包括待添加项确定子单元,用于:
根据所述提取记录,统计所述基础表中表项的提取频次;
将提取频次达到第一预设值的表项,作为所述中间表的待添加表项。
8.根据权利要求6所述的装置,其特征在于,所述表项调整方案确定单元包括待删除项确定子单元,用于:
根据所述提取记录,统计所述中间表中表项的提取频次;
将所述提取频次低于第二预设值的表项,作为所述中间表的待删除表项。
9.根据权利要求6-8中任一项所述的装置,其特征在于,还包括调整建议生成单元,用于:
监测所述业务数据处理任务从所述基础表和所述中间表中提取数据并进行处理得到业务数据所耗费的时间;
根据所监测到的时间,产生中间表调整建议或所述设定规则的调整建议。
10.根据权利要求6-8中任一项所述的装置,其特征在于,所述提取记录包括下述至少一项记录:
业务数据处理任务根据提取需求,在所述基础表中查询并获取基础数据的记录;
业务数据处理任务根据提取需求,在所述中间表中查询并获取中间数据的记录;
业务数据处理任务根据提取需求查询所述中间表,如果所述中间表不存在满足所述提取需求的中间数据,则根据所述提取需求在所述基础表中查询并获取基础数据的记录;
所述业务数据处理任务至少包括如下两种类型的任务:
用于根据单次的业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第一种业务数据处理子任务;
用于按照设定周期和/或设定业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第二种业务数据处理子任务。
CN201510080692.XA 2015-02-13 2015-02-13 中间表更新方法及装置 Active CN104615763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510080692.XA CN104615763B (zh) 2015-02-13 2015-02-13 中间表更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510080692.XA CN104615763B (zh) 2015-02-13 2015-02-13 中间表更新方法及装置

Publications (2)

Publication Number Publication Date
CN104615763A CN104615763A (zh) 2015-05-13
CN104615763B true CN104615763B (zh) 2018-02-13

Family

ID=53150205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510080692.XA Active CN104615763B (zh) 2015-02-13 2015-02-13 中间表更新方法及装置

Country Status (1)

Country Link
CN (1) CN104615763B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649341B (zh) * 2015-10-30 2021-02-26 方正国际软件(北京)有限公司 一种数据处理方法及装置
CN106446046B (zh) * 2016-08-31 2019-09-13 山东威尔数据股份有限公司 一种在关系数据库中及时快速分析记录的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639839A (zh) * 2008-07-30 2010-02-03 中兴通讯股份有限公司 一种基于临时表的多归档文件查询方法
CN102521252A (zh) * 2011-11-17 2012-06-27 四川长虹电器股份有限公司 一种远程数据的访问方法
CN103207919A (zh) * 2013-04-26 2013-07-17 北京亿赞普网络技术有限公司 一种MongoDB集群快速查询计算的方法及装置
CN103761255A (zh) * 2013-12-27 2014-04-30 北京集奥聚合网络技术有限公司 NoSQL方式数据存储的优化方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239389B2 (en) * 2008-09-29 2012-08-07 International Business Machines Corporation Persisting external index data in a database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639839A (zh) * 2008-07-30 2010-02-03 中兴通讯股份有限公司 一种基于临时表的多归档文件查询方法
CN102521252A (zh) * 2011-11-17 2012-06-27 四川长虹电器股份有限公司 一种远程数据的访问方法
CN103207919A (zh) * 2013-04-26 2013-07-17 北京亿赞普网络技术有限公司 一种MongoDB集群快速查询计算的方法及装置
CN103761255A (zh) * 2013-12-27 2014-04-30 北京集奥聚合网络技术有限公司 NoSQL方式数据存储的优化方法及系统

Also Published As

Publication number Publication date
CN104615763A (zh) 2015-05-13

Similar Documents

Publication Publication Date Title
CN107515878B (zh) 一种数据索引的管理方法及装置
US20080222634A1 (en) Parallel processing for etl processes
CN106547784B (zh) 一种数据拆分存储方法及装置
CN103678647A (zh) 一种实现信息推荐的方法及系统
CN107729423B (zh) 一种大数据处理方法及装置
CN112396462B (zh) 基于Clickhouse的人群圈选方法及装置
CN108415964A (zh) 数据表查询方法、装置、终端设备及存储介质
WO2017092444A1 (zh) 基于Hadoop的日志数据挖掘方法及系统
CN110377611B (zh) 积分排名的方法及装置
CN107291770A (zh) 一种分布式系统中海量数据的查询方法及装置
CN108108490B (zh) Hive表扫描方法、装置、计算机设备及存储介质
CN116662376B (zh) 数据查询方法、装置、电子设备及存储介质
CN113010312A (zh) 一种超参数调优方法、装置及存储介质
CN104615763B (zh) 中间表更新方法及装置
CN114820080A (zh) 基于人群流转的用户分群方法、系统、装置及介质
CN108664492B (zh) 一种向用户推送内容的方法、装置、电子设备和存储介质
CN104123303A (zh) 一种提供数据的方法及装置
CN110334067B (zh) 一种稀疏矩阵压缩方法、装置、设备及存储介质
CN106326295B (zh) 语义数据的存储方法及装置
Guo et al. Parallelizing the extraction of fresh information from online social networks
CN115827646A (zh) 索引配置方法、装置和电子设备
CN106933873A (zh) 一种跨平台数据查询方法和设备
CN115563160A (zh) 数据处理方法、装置、计算机设备和计算机可读存储介质
CN110909072A (zh) 一种数据表建立方法、装置及设备
CN111831425B (zh) 一种数据处理方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant