CN103902745B - 数据采集方法、装置和系统 - Google Patents

数据采集方法、装置和系统 Download PDF

Info

Publication number
CN103902745B
CN103902745B CN201310170699.1A CN201310170699A CN103902745B CN 103902745 B CN103902745 B CN 103902745B CN 201310170699 A CN201310170699 A CN 201310170699A CN 103902745 B CN103902745 B CN 103902745B
Authority
CN
China
Prior art keywords
data
data acquisition
overhead
acquisition channel
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310170699.1A
Other languages
English (en)
Other versions
CN103902745A (zh
Inventor
向勇
黄平
刘波
刘春�
陈翀
陈康
张青
胡军军
乐建兵
谢晓军
王保中
黄铭琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201310170699.1A priority Critical patent/CN103902745B/zh
Publication of CN103902745A publication Critical patent/CN103902745A/zh
Application granted granted Critical
Publication of CN103902745B publication Critical patent/CN103902745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种数据采集方法、装置和系统。其中在数据采集方法中,当接收到数据采集请求时,进行采集请求初始化处理。在满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道,启动所述L个数据采集通道进行数据采集。从而通过实时自动调节数据采集通道以保证数据采集对数据库的负载影响在规定范围内,由此可在确保负载受控的情况下,提高数据采集效率和自适用性。

Description

数据采集方法、装置和系统
技术领域
本发明涉及通信领域,特别涉及一种数据采集方法、装置和系统。
背景技术
在大数据时代,数据规模爆炸式增长,数据库中的数据,动辄数百G,甚至高达几十T。在很多情况下,我们需要将这些数据按照指定条件从数据库中导出来,采集生成文本文件。在这个过程中,数据操作人员最关心的就是数据的导出性能、对数据库服务器的影响,以及导出自适应能力等。
目前,数据库数据采集,按照采集部署模式,可以分为“远程采集”和“本地采集”两大类。前者是指在目标服务器上远程访问数据库,读取数据直接写入到目标文件中;后者是指在数据库服务器上访问数据库,采集数据生成文件后传回目标服务器。
而这两种模式中,都存在一些问题和不足之处:
1)对数据库服务器的负载影响不能根据用户所希望的那样自动调节控制;
2)在“本地采集”模式中,需要占用较大的本地磁盘空间。当数据规模比较大时,数据库服务器通常不具备这样的条件;同时,这种模式下,整个流程为串行方式,需要先在数据库服务器上生成完整文件后才能将文件传回目标服务器,并行度不高,导致总体数据采集时间变长。
3)在“远程采集”模式中,由于无法对数据进行压缩等处理,需要占用较多的网络资源,当数据规模庞大时,对网络造成较大冲击。而且传输时间较长。同时,这种模式下,不具备断点恢复能力;
4)无论是“本地采集”还是“远程采集”,都不支持根据待采集数据规模自动调节采集并行度。
发明内容
本发明要解决的技术问题是提供一种数据采集方法、装置和系统。通过评估通道能力,根据系统当前状况确定数据采集通道数量,从而可在保证负载受控的情况下,提高数据采集效率和自适应性。
根据本发明的一个方面,提供一种数据采集方法,包括:
当接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU(Central ProcessingUnit,中央处理单元)开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比;
判断是否满足采集条件;
当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数;
根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L;
根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道;
启动所述L个数据采集通道进行数据采集。
根据本发明的另一方面,提供一种数据采集装置,包括:
接收单元,用于接收数据采集请求;
初始化处理单元,用于在接收单元接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比;
第一识别单元,用于判断是否满足采集条件;
并发通道计算单元,用于根据第一识别单元的判断结果,当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数;
选择单元,用于根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L;
分配单元,用于根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道;
启动单元,用于启动所述L个数据采集通道进行数据采集。
根据本发明的另一方面,提供一种数据采集系统,包括数据采集装置,数据压缩装置和数据发送装置,其中:
数据采集装置,为上述任一实施例涉及的数据采集装置;
数据压缩装置,用于将所述数据采集装置采集的数据进行压缩;
数据发送装置,用于将经过压缩的数据发送给目标服务器。
本发明通过当接收到数据采集请求时,进行采集请求初始化处理。
在满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道,启动所述L个数据采集通道进行数据采集。从而通过实时自动调节数据采集通道以保证数据采集对数据库的负载影响在规定范围内,由此可在确保负载受控的情况下,提高数据采集效率和自适用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据采集方法一个实施例的示意图。
图2为本发明修正处理一个实施例的示意图。
图3为本发明暂停处理数据采集通道一个实施例的示意图。
图4为本发明数据采集装置一个实施例的示意图。
图5为本发明数据采集装置另一实施例的示意图。
图6为本发明修正单元一个实施例的示意图。
图7为本发明数据采集装置又一实施例的示意图。
图8为本发明数据采集系统一个实施例的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明数据采集方法一个实施例的示意图。优选的,该实施例的方法步骤由数据采集装置执行。
步骤101,当接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比。
步骤102,判断是否满足采集条件。
步骤103,当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数。
步骤104,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L。
步骤105,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道。
步骤106,启动所述L个数据采集通道进行数据采集。
基于本发明上述实施例涉及的数据采集方法,通过当接收到数据采集请求时,进行采集请求初始化处理。在满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道,启动所述L个数据采集通道进行数据采集。从而通过实时自动调节数据采集通道以保证数据采集对数据库的负载影响在规定范围内,由此可在确保负载受控的情况下,提高数据采集效率和自适用性。
例如,从数据库中读取一定数量(如1万条)的样本记录(记录采集开始、结束时间,以及CPU开销等),然后在内存中压缩这些记录数据(记录压缩开始、结束时间,以及CPU开销等),最后将压缩后的数据传到数据接收模块(记录传输开始、结束时间,以及CPU开销等)。这样,我们就获取到数据读取、数据压缩和数据传输这三主要个阶段的时间开销和CPU资源开销信息。然后再根据这些信息,计算各通道之间的适配比。
优选的,上述启动所述L个数据采集通道进行数据采集的步骤之后,还包括对数据采集通道的数目进行修正处理。
图2为本发明修正处理一个实施例的示意图。优选的,该实施例的方法步骤可由修正单元来执行。
步骤201,检测第L个数据采集通道实际对应的数据采集量。
步骤202,判断所述数据采集量是否大于预定数据采集量。
步骤203,若实际对应的数据采集量大于预定数据采集量,将第L个数据采集通道实际对应的数据采集量修改为预定数据采集量,将实际对应的数据采集量中除去预定数据采集量的部分按预定标准分配给新增加的数据采集通道。
步骤204,启动新增加的数据采集通道。
例如,一张数据库表的准确记录数是1986529,通过抽样方式得到的数据量为1200000。假如经过通道匹配计算,启动第1-5个采集通道(每个通道采集的数据范围分别为[1-240000],[240001-480000],[480001-720000],[720001-960000],[960001-结尾])并行读取数据库记录,那么,第5个采集通道实际负责的数据范围为[960001-1986529],即1026529条记录,远大于其他采集通道负责的240000条记录。如果不进行修正,则第5个采集通道会明显导致整个采集任务耗时拖长。因此,就需要增加新的通道来分担第5个通道承担的采集数据范围,以避免整体时间被拖长的现象。
图3为本发明暂停处理数据采集通道一个实施例的示意图。优选的,根据当前CPU开销的具体情况,可考虑暂停或恢复数据采集通道。
步骤301,在对数据采集通道的数目进行修正处理后,定期检测当前CPU开销是否大于第一开销阈值或小于第二开销阈值。
步骤302,若当前CPU开销大于第一开销阈值,则暂停至少一个数据采集通道,使得当前CPU开销小于第一开销阈值。
步骤303,若当前CPU开销小于第二开销阈值,则在暂停的数据采集通道中启动至少一个暂停的数据采集通道,使得当前CPU开销大于第二开销阈值。
大于第一开销阈值意味着负载超过限制,小于第二开销阈值意味着有空闲资源,由此可有效利用系统资源。
优选的,上述根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比的步骤包括:
数据采集通道、数据压缩通道和数据传输通道的适配比等于采集样本数据阶段的时间开销、对样本数据进行压缩阶段的时间开销、和将压缩后的样本数据发送给目标服务器阶段的时间开销之间的比值。
例如,数据采集耗时10秒,数据压缩耗时5秒,数据传输耗时2.5秒。那么,适配比可以设置为4:2:1,也就是启动4个数据采集通道,2个数据压缩通道和1个传输通道来完成该采集任务。
优选的,上述判断是否满足采集条件的步骤包括:
判断当前CPU开销小于采集启动门限;
若当前CPU开销小于采集启动门限,则执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤。
例如,若当前CPU开销大于85%,则此时不适于进行数据采集。
优选的,若当前CPU开销小于采集启动门限,还进一步判断当前时间是否处于指定的时间范围内;
若当前时间处于指定的时间范围内,则执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤。
例如,可限制每天只有0:00~8:00进行批量数据采集请求,以保证其它时段数据库业务的正常使用。
优选的,上述根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤包括:
其中函数为向下取整函数。
例如,当前CPU开销为20%,数据采集的CPU开销最大,为5%,则可以由此计算出当前最大的并发通道数为16个。
优选的,上述根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L的步骤包括:
选择数据采集通道的数目L、数据压缩通道的数目M和数据传输通道的数目N,使得L:M:N=所述适配比,同时L+M+N小于最大并发通道数。
例如,若适配比可以设置为4:2:1,则可设置8个数据采集通道、4个数据压缩通道和2个数据传输通道,通道总数为14个,小于最大并发通道数16。
图4为本发明数据采集装置一个实施例的示意图。如图4所示,数据采集装置包括:
接收单元401,用于接收数据采集请求。
初始化处理单元402,用于在接收单元接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比。
第一识别单元403,用于判断是否满足采集条件。
并发通道计算单元404,用于根据第一识别单元403的判断结果,当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数。
选择单元405,用于根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L。
分配单元406,用于根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道。
启动单元407,用于启动所述L个数据采集通道进行数据采集。
基于本发明上述实施例涉及的数据采集装置,通过当接收到数据采集请求时,进行采集请求初始化处理。在满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道,启动所述L个数据采集通道进行数据采集。从而通过实时自动调节数据采集通道以保证数据采集对数据库的负载影响在规定范围内,由此可在确保负载受控的情况下,提高数据采集效率和自适用性。
图5为本发明数据采集装置另一实施例的示意图。与图4所示实施例相比,在图5所示实施例中,还包括修正单元501,用于在启动单元启动所述L个数据采集通道进行数据采集后,对数据采集通道的数目进行修正处理。
图6为本发明修正单元一个实施例的示意图。如图6所示,修正单元包括:
检测模块601,用于检测第L个数据采集通道实际对应的数据采集量。
判断模块602,用于判断所述数据采集量是否大于预定数据采集量。
修正模块603,用于根据判断模块602的判断结果,若实际对应的数据采集量大于预定数据采集量,将第L个数据采集通道实际对应的数据采集量修改为预定数据采集量,将实际对应的数据采集量中除去预定数据采集量的部分按预定标准分配给新增加的数据采集通道。
启动模块604,用于启动新增加的数据采集通道。
图7为本发明数据采集装置又一实施例的示意图。与图5所示实施例相比,在图7所示实施例中,该装置还包括:
第二识别单元701,用于在修正单元对数据采集通道的数目进行修正处理后,定期检测当前CPU开销是否大于第一开销阈值或小于第二开销阈值。
暂停单元702,用于根据第二识别单元701的检测结果,若当前CPU开销大于第一开销阈值,则暂停至少一个数据采集通道,使得当前CPU开销小于第一开销阈值。
恢复单元703,用于根据第二识别单元701的检测结果,若当前CPU开销小于第二开销阈值,则在暂停的数据采集通道中启动至少一个暂停的数据采集通道,使得当前CPU开销大于第二开销阈值。
优选的,数据采集通道、数据压缩通道和数据传输通道的适配比等于采集样本数据阶段的时间开销、对样本数据进行压缩阶段的时间开销、和将压缩后的样本数据发送给目标服务器阶段的时间开销之间的比值。
优选的,第一识别单元具体判断当前CPU开销小于采集启动门限,若当前CPU开销小于采集启动门限,则指示并发通道计算单元执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的操作。
优选的,第一识别单元还用于在当前CPU开销小于采集启动门限时,还进一步判断当前时间是否处于指定的时间范围内;若当前时间处于指定的时间范围内,则指示并发通道计算单元执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的操作。
优选的,并发通道计算单元具体利用下式计算最大并发通道数;
其中函数为向下取整函数。
优选的,选择单元具体选择数据采集通道的数目L、数据压缩通道的数目M和数据传输通道的数目N,使得L:M:N=所述适配比,同时L+M+N小于最大并发通道数。
图8为本发明数据采集系统一个实施例的示意图。如图8所示,数据采集系统包括数据采集装置801,数据压缩装置802和数据发送装置803。其中:
数据采集装置801,为图4-图7任一实施例涉及的数据采集装置。数据压缩装置802,用于将所述数据采集装置采集的数据进行压缩。数据发送装置803,用于将经过压缩的数据发送给目标服务器。
优选的,数据压缩装置802在内存中进行数据压缩,这样可有效减小磁盘I/O操作,而且可有效降低传输的数据量和网络带宽占用。
本发明通过自动调节采集并发通道以保证采集装置对数据库的负载影响在规定的范围内,通过本发明,可在保证负载受控的情况下,提高数据采集效率和自适应性。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (17)

1.一种数据采集方法,其特征在于,包括:
当接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比;
判断是否满足采集条件;
当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数;
根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L;
根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道;
启动所述L个数据采集通道进行数据采集。
2.根据权利要求1所述的方法,其特征在于,启动所述L个数据采集通道进行数据采集的步骤之后,还包括:
对数据采集通道的数目进行修正处理,其中:
检测第L个数据采集通道实际对应的数据采集量;
判断所述数据采集量是否大于预定数据采集量;
若实际对应的数据采集量大于预定数据采集量,将第L个数据采集通道实际对应的数据采集量修改为预定数据采集量,将实际对应的数据采集量中除去预定数据采集量的部分按预定标准分配给新增加的数据采集通道;
启动新增加的数据采集通道。
3.根据权利要求2所述的方法,其特征在于:
对数据采集通道的数目进行修正处理的步骤之后,还包括:
定期检测当前CPU开销是否大于第一开销阈值或小于第二开销阈值;
若当前CPU开销大于第一开销阈值,则暂停至少一个数据采集通道,使得当前CPU开销小于第一开销阈值;
若当前CPU开销小于第二开销阈值,则在暂停的数据采集通道中启动至少一个暂停的数据采集通道,使得当前CPU开销大于第二开销阈值。
4.根据权利要求1-3中任一项所述的方法,其特征在于:
根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比的步骤包括:
数据采集通道、数据压缩通道和数据传输通道的适配比等于采集样本数据阶段的时间开销、对样本数据进行压缩阶段的时间开销、和将压缩后的样本数据发送给目标服务器阶段的时间开销之间的比值。
5.根据权利要求1-3中任一项所述的方法,其特征在于:
判断是否满足采集条件的步骤包括:
判断当前CPU开销小于采集启动门限;
若当前CPU开销小于采集启动门限,则执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤。
6.根据权利要求5所述的方法,其特征在于:
若当前CPU开销小于采集启动门限,还进一步判断当前时间是否处于指定的时间范围内;
若当前时间处于指定的时间范围内,则执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤。
7.根据权利要求1-3中任一项所述的方法,其特征在于:
根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤包括:
其中函数为向下取整函数。
8.根据权利要求1-3中任一项所述的方法,其特征在于:
根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L的步骤包括:
选择数据采集通道的数目L、数据压缩通道的数目M和数据传输通道的数目N,使得L:M:N=所述适配比,同时L+M+N小于最大并发通道数。
9.一种数据采集装置,其特征在于,包括:
接收单元,用于接收数据采集请求;
初始化处理单元,用于在接收单元接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比;
第一识别单元,用于判断是否满足采集条件;
并发通道计算单元,用于根据第一识别单元的判断结果,当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数;
选择单元,用于根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L;
分配单元,用于根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道;
启动单元,用于启动所述L个数据采集通道进行数据采集。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括修正单元,用于在启动单元启动所述L个数据采集通道进行数据采集后,对数据采集通道的数目进行修正处理,其中,修正单元包括:
检测模块,用于检测第L个数据采集通道实际对应的数据采集量;
判断模块,用于判断所述数据采集量是否大于预定数据采集量;
修正模块,用于根据判断模块的判断结果,若实际对应的数据采集量大于预定数据采集量,将第L个数据采集通道实际对应的数据采集量修改为预定数据采集量,将实际对应的数据采集量中除去预定数据采集量的部分按预定标准分配给新增加的数据采集通道;
启动模块,用于启动新增加的数据采集通道。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二识别单元,用于在修正单元对数据采集通道的数目进行修正处理后,定期检测当前CPU开销是否大于第一开销阈值或小于第二开销阈值;
暂停单元,用于根据第二识别单元的检测结果,若当前CPU开销大于第一开销阈值,则暂停至少一个数据采集通道,使得当前CPU开销小于第一开销阈值;
恢复单元,用于根据第二识别单元的检测结果,若当前CPU开销小于第二开销阈值,则在暂停的数据采集通道中启动至少一个暂停的数据采集通道,使得当前CPU开销大于第二开销阈值。
12.根据权利要求9-11中任一项所述的装置,其特征在于:
数据采集通道、数据压缩通道和数据传输通道的适配比等于采集样本数据阶段的时间开销、对样本数据进行压缩阶段的时间开销、和将压缩后的样本数据发送给目标服务器阶段的时间开销之间的比值。
13.根据权利要求9-11中任一项所述的装置,其特征在于:
第一识别单元具体判断当前CPU开销小于采集启动门限,若当前CPU开销小于采集启动门限,则指示并发通道计算单元执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的操作。
14.根据权利要求13所述的装置,其特征在于:
第一识别单元还用于在当前CPU开销小于采集启动门限时,还进一步判断当前时间是否处于指定的时间范围内;若当前时间处于指定的时间范围内,则指示并发通道计算单元执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的操作。
15.根据权利要求9-11中任一项所述的装置,其特征在于:
并发通道计算单元具体利用下式计算最大并发通道数;
其中函数为向下取整函数。
16.根据权利要求9-11中任一项所述的装置,其特征在于:
选择单元具体选择数据采集通道的数目L、数据压缩通道的数目M和数据传输通道的数目N,使得L:M:N=所述适配比,同时L+M+N小于最大并发通道数。
17.一种数据采集系统,其特征在于,包括数据采集装置,数据压缩装置和数据发送装置,其中:
数据采集装置,为权利要求9-16中任一项涉及的数据采集装置;
数据压缩装置,用于将所述数据采集装置采集的数据进行压缩;
数据发送装置,用于将经过压缩的数据发送给目标服务器。
CN201310170699.1A 2012-12-26 2013-05-10 数据采集方法、装置和系统 Active CN103902745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310170699.1A CN103902745B (zh) 2012-12-26 2013-05-10 数据采集方法、装置和系统

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN2012105742441 2012-12-26
CN201210574244 2012-12-26
CN201210574244.1 2012-12-26
CN201310170699.1A CN103902745B (zh) 2012-12-26 2013-05-10 数据采集方法、装置和系统

Publications (2)

Publication Number Publication Date
CN103902745A CN103902745A (zh) 2014-07-02
CN103902745B true CN103902745B (zh) 2017-02-08

Family

ID=50994067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310170699.1A Active CN103902745B (zh) 2012-12-26 2013-05-10 数据采集方法、装置和系统

Country Status (1)

Country Link
CN (1) CN103902745B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105553937B (zh) * 2015-12-03 2018-12-07 华为技术有限公司 数据压缩的系统和方法
CN107730705B (zh) * 2017-10-10 2020-01-14 深圳怡化电脑股份有限公司 起止点数据、连续数据采集方法、装置、设备及存储介质
CN109039826B (zh) * 2018-08-29 2019-06-25 南京星邺汇捷网络科技有限公司 数据采集方法、装置及电子设备
CN109624772B (zh) * 2018-11-21 2021-11-05 国电科技新能源(深圳)有限公司 一种充电桩运营管理方法及充电桩
CN113162946A (zh) * 2021-05-11 2021-07-23 彭松英 一种基于云计算与云存储的通信信息传输系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530897A (en) * 1993-10-01 1996-06-25 International Business Machines Corporation System for dynamic association of a variable number of device addresses with input/output devices to allow increased concurrent requests for access to the input/output devices
CN102033149A (zh) * 2009-09-17 2011-04-27 特克特朗尼克公司 用于测量仪器的混合信号采集系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530897A (en) * 1993-10-01 1996-06-25 International Business Machines Corporation System for dynamic association of a variable number of device addresses with input/output devices to allow increased concurrent requests for access to the input/output devices
CN102033149A (zh) * 2009-09-17 2011-04-27 特克特朗尼克公司 用于测量仪器的混合信号采集系统

Also Published As

Publication number Publication date
CN103902745A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103902745B (zh) 数据采集方法、装置和系统
CN112162865B (zh) 服务器的调度方法、装置和服务器
CN104102543B (zh) 一种云计算环境中负载调整的方法和装置
CN106156115B (zh) 一种资源调度方法及装置
US8140915B2 (en) Detecting apparatus, system, program, and detecting method
CN104639626B (zh) 一种多级负载预测与云资源弹性配置方法与监控配置系统
CN103902442B (zh) 一种云软件健康度评测方法及系统
CN103441906A (zh) 基于自主计算的代理缓存集群异常检测系统
CN102916908B (zh) 网络应用中的带宽优化方法及系统
CN106506266B (zh) 基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法
CN103502944B (zh) 虚拟机内存调整方法和设备
CN102981951A (zh) 云测试开发平台及云测试开发方法
CN109981416A (zh) 一种区块链性能检测方法与系统
CN106407052B (zh) 一种检测磁盘的方法及装置
CN104182278B (zh) 一种判定计算机硬件资源繁忙程度的方法和装置
CN106557400A (zh) 设备中动态数据收集的方法以及相应的设备
CN101713997A (zh) 风力涡轮机的状态监测方法和系统
CN106970841A (zh) 一种基于云计算的资源限制及动态调整方法
CN108809760A (zh) 数据采样系统中采样周期的控制方法和装置
CN105988909A (zh) 一种实时监控系统及方法以及移动终端
CN107579858A (zh) 云主机的告警方法及装置、通信系统
CN102737093A (zh) 数据存储装置和数据存储方法
CN112527448A (zh) 基于openstack的动态负载调整方法及其系统
CN104391879A (zh) 层次聚类的方法及装置
CN109634803A (zh) 一种上报设备异常的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant