CN106843908A - 数据综合采集方法及系统 - Google Patents

数据综合采集方法及系统 Download PDF

Info

Publication number
CN106843908A
CN106843908A CN201710130440.2A CN201710130440A CN106843908A CN 106843908 A CN106843908 A CN 106843908A CN 201710130440 A CN201710130440 A CN 201710130440A CN 106843908 A CN106843908 A CN 106843908A
Authority
CN
China
Prior art keywords
data file
target data
address
collection
thread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710130440.2A
Other languages
English (en)
Inventor
梁凯
曹晖
张泽晨
王冬
王津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sino Innovation Investment Development Co Ltd
Original Assignee
Beijing Sino Innovation Investment Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sino Innovation Investment Development Co Ltd filed Critical Beijing Sino Innovation Investment Development Co Ltd
Priority to CN201710130440.2A priority Critical patent/CN106843908A/zh
Publication of CN106843908A publication Critical patent/CN106843908A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1847File system types specifically adapted to static storage, e.g. adapted to flash memory or SSD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4482Procedural

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据综合采集方法及系统。数据综合采集方法包括:读取配置文件信息,并将配置文件信息加载到内存中,配置文件信息包括采集地址、采集频率、采集协议、匹配规则和目标地址;根据配置文件信息创建线程;登录目标地址或采集地址所在的远程主机;执行线程包括:根据采集地址获取数据文件列表,数据文件列表包括多个待采集的数据文件;根据匹配规则过滤数据文件列表,获取目标数据文件列表,目标数据文件列表包括多个目标数据文件;确定目标数据文件对应的采集协议;按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址。本发明可减少人力成本、适应不同环境下的数据文件传输,以及提高数据交互效率。

Description

数据综合采集方法及系统
技术领域
本发明涉及数据采集领域,具体地,涉及一种数据综合采集方法及系统。
背景技术
目前,主要是以人工手动录入的方式来采集通信系统不同类型的数据源。这种数据采集方式的成本高,无法适应不同环境下的数据文件传输,且数据交互效率低下。
发明内容
本发明实施例的主要目的在于提供一种数据综合采集方法,以减少人力成本,适应不同环境下的数据文件传输,以及提高数据交互效率。
为了实现上述目的,本发明实施例提供一种数据综合采集方法,包括:
读取配置文件信息,并将配置文件信息加载到内存中,其中,配置文件信息包括采集地址、采集频率、采集协议、匹配规则和目标地址;
根据配置文件信息创建线程;
登录目标地址或采集地址所在的远程主机;
执行线程,包括:
根据采集地址获取数据文件列表,数据文件列表包括多个待采集的数据文件;
根据匹配规则过滤数据文件列表,获取目标数据文件列表,目标数据文件列表包括多个目标数据文件;
确定目标数据文件对应的采集协议;
按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址。
在其中一种实施例中,配置文件信息还包括:线程的处理指令;
执行线程,具体包括:根据线程的处理指令,获取线程或发送线程;
在获取线程时,采集地址位于远程主机,目标地址位于本地主机;
在发送线程时,采集地址位于本地主机,目标地址位于远程主机。
在其中一种实施例中,配置文件信息还包括临时地址;
按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址,具体包括:
按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至临时地址;
比较存储在临时地址中的目标数据文件与存储在采集地址中的目标数据文件的大小;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址。
在其中一种实施例中,配置文件信息还包括:文件解压缩规则;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,具体包括:
在获取线程时,当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据文件解压缩规则,对临时地址中的目标数据文件进行压缩处理或减压处理,并按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过压缩处理或减压处理的目标数据文件。
在其中一种实施例中,配置文件信息还包括:文件改名规则;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,具体包括:
在获取线程时,当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据文件改名规则,更改临时地址中的目标数据文件的文件名称,并按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过改名的目标数据文件。
在其中一种实施例中,根据配置文件信息创建线程,还包括:根据配置文件信息创建线程后,创建索引文件;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,具体包括:
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据索引文件,对临时地址中的目标数据文件进行文件查重处理,并按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过文件查重处理的目标数据文件。
在其中一种实施例中,按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址,还包括:
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址之后,对目标数据文件列表进行数据备份,并生成数据采集成功信息,将数据采集成功信息存储在日志中;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小不相等时,生成异常报警信息,并将异常报警信息存储在日志中。
在其中一种实施例中,配置文件信息还包括:远程主机的用户账号和密码;
登录目标地址或采集地址所在的远程主机,具体包括:
根据远程主机的用户账号和密码,登录目标地址或采集地址所在的远程主机。
本发明实施例还提供一种数据综合采集系统,包括:
配置文件读取模块,用于读取配置文件信息,并将配置文件信息加载到内存中,其中,配置文件信息包括采集地址、采集频率、采集协议、匹配规则和目标地址;
线程创建模块,用于根据配置文件信息创建线程;
登录模块,用于登录目标地址或采集地址所在的远程主机;
线程执行模块,用于执行线程,包括:
数据文件列表获取模块,用于根据采集地址获取数据文件列表,数据文件列表包括多个待采集的数据文件;
过滤模块,用于根据匹配规则过滤数据文件列表,获取目标数据文件列表,目标数据文件列表包括多个目标数据文件;
映射模块,用于确定目标数据文件对应的采集协议;
数据移动模块,用于按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址。
在其中一种实施例中,配置文件信息还包括:线程的处理指令;
线程执行模块具体用于:根据线程的处理指令,获取线程或发送线程;
在获取线程时,采集地址位于远程主机,目标地址位于本地主机;
在发送线程时,采集地址位于本地主机,目标地址位于远程主机。
在其中一种实施例中,配置文件信息还包括临时地址;
数据移动模块包括:
临时地址移动模块,用于按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至临时地址;
比较模块,用于比较存储在临时地址中的目标数据文件与存储在采集地址中的目标数据文件的大小;
目标地址移动模块,用于当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址。
在其中一种实施例中,还包括:解压模块;
配置文件信息还包括:文件解压缩规则;
解压模块用于:在线程执行模块获取线程,并且临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据文件解压缩规则,对临时地址中的目标数据文件进行压缩处理或减压处理;
目标地址移动模块还用于:按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过压缩处理或减压处理的目标数据文件。
在其中一种实施例中,还包括:改名模块;
配置文件信息还包括:文件改名规则;
改名模块用于:在线程执行模块获取线程,并且临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据文件改名规则,更改临时地址中的目标数据文件的文件名称;
目标地址移动模块还用于:按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过改名的目标数据文件。
在其中一种实施例中,还包括:
查重模块,用于:
在线程创建模块根据配置文件信息创建线程后,创建索引文件;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据索引文件,对临时地址中的目标数据文件进行文件查重处理,生成经过文件查重处理的目标数据文件;
目标地址移动模块还用于:按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过文件查重处理的目标数据文件。
在其中一种实施例中,还包括:
备份模块,用于:当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址之后,对目标数据文件列表进行数据备份,并生成数据采集成功信息,将数据采集成功信息存储在日志中;
报警模块,用于:当临时地址中的目标数据文件与采集地址中的目标数据文件大小不相等时,生成异常报警信息,并将异常报警信息存储在日志中。
在其中一种实施例中,配置文件信息还包括:远程主机的用户账号和密码;
登录模块具体用于:
根据远程主机的用户账号和密码,登录目标地址或采集地址所在的远程主机。
借助于上述技术方案,本发明实施例的数据综合采集方法及系统可减少人力成本、适应不同环境下的数据文件传输,以及提高数据交互效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中数据综合采集方法的流程图;
图2是本发明实施例中步骤107的具体流程图;
图3是本发明实施例的功能示意图。
图4是本发明实施例的数据综合采集系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于目前主要是以人工手动录入的方式来采集通信系统不同类型的数据源,这种数据采集方式成本高,无法适应不同环境下的数据文件传输,且数据交互效率低下,本发明实施例提供一种数据综合采集方法,可减少人力成本、适应不同环境下的数据文件传输,以及提高数据交互效率。以下结合附图对本发明进行详细说明。
图1是本发明实施例中数据综合采集方法的流程图。如图1所示,数据综合采集方法包括:
步骤101:读取配置文件信息,并将配置文件信息加载到内存中,其中,配置文件信息包括采集地址、采集频率、采集协议、匹配规则和目标地址。
步骤102:根据配置文件信息创建线程。
步骤103:登录目标地址或采集地址所在的远程主机。
步骤104:根据采集地址获取数据文件列表,数据文件列表包括多个待采集的数据文件。
步骤105:根据匹配规则过滤数据文件列表,获取目标数据文件列表,目标数据文件列表包括多个目标数据文件。
步骤106:确定目标数据文件对应的采集协议。
步骤107:按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址。
其中,步骤104至步骤107为执行线程的步骤。具体实施时,配置文件信息还包括线程的处理指令。在执行线程时,可根据线程的处理指令,获取线程或发送线程。在获取线程时,本地主机从远程主机中获取待采集的目标数据文件,采集地址位于远程主机,目标地址位于本地主机;在发送线程时,本地主机向远程主机发送待采集的目标数据文件,采集地址位于本地主机,目标地址位于远程主机。
实施例中,配置文件信息还可以包括远程主机的用户账号和密码。在执行步骤103时,可以根据远程主机的用户账号和密码,登录目标地址或采集地址所在的远程主机。
实施例中,在执行步骤104时,可以在获取数据文件列表后,令数据文件列表中的待采集的数据文件按时间排序。然后,再根据匹配规则过滤排序后的数据文件列表。例如,当匹配规则为:获取文件名称的首字母为“a”的文件时,会将文件名称的首字母为“a”的文件作为目标数据文件存入目标数据文件列表中。
待采集的数据文件包括:计费文件、开通文件、870平台文件、流控平台文件和增值业务文件。其中,计费文件对应的采集协议为SFTP协议,开通文件对应的采集协议为SFTP协议、870平台文件对应的采集协议为FTP协议、流控平台文件对应的采集协议为SFTP协议,增值业务文件对应的采集协议为FTP协议,执行数据综合采集方法的系统会根据采集协议采集相应的文件。
配置文件信息还可以包括临时地址。图2是本发明实施例中步骤107的具体流程图。如图2所示,步骤107具体包括:
步骤201:按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至临时地址。
步骤202:比较存储在临时地址中的目标数据文件与存储在采集地址中的目标数据文件的大小。
步骤203:当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址。
其中,临时地址和目标地址位于同一个主机上。当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,表明已将采集地址中的数据文件成功转移到了临时地址中;否则会生成异常报警信息,并将异常报警信息存储在日志中供工作人员查看。
实施例中,配置文件信息还可以包括文件解压缩规则。在获取线程时,步骤203可以具体包括:当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据文件解压缩规则,对临时地址中的目标数据文件进行压缩处理或减压处理,并按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址。其中,临时地址中的目标数据文件列表包括多个经过压缩处理或减压处理的目标数据文件。
实施例中,配置文件信息还可以包括文件改名规则。在获取线程时,步骤203可以具体包括:当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据文件改名规则,更改临时地址中的目标数据文件的文件名称,并按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址。其中,临时地址中的目标数据文件列表包括多个经过改名的目标数据文件。
依据文件解压缩规则对目标数据文件进行统一的压缩处理或减压处理,以及依据文件改名规则统一更改目标数据文件的文件名称,均可以统一被采集的目标数据文件的格式。将统一格式的目标数据文件移动到目标地址中,方便了工作人员对目标数据文件的处理。
实施例中,步骤102还可以包括:在根据配置文件信息创建线程后,创建索引文件。步骤203可以包括:当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据索引文件,对临时地址中的目标数据文件进行文件查重处理,并按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址。其中,临时地址中的目标数据文件列表包括多个经过文件查重处理的目标数据文件。
具体实施时,当临时地址中的目标数据文件与索引文件一一对应时,表明临时地址中的目标数据文件没有被重复采集,这时会按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址;当临时地址中的目标数据文件与索引文件之间存在差异时,表明有目标数据文件被重复采集,这时会在删除被重复采集的目标数据文件后,形成新的目标数据文件列表,并将新形成的目标数据文件列表移动并存储至目标地址中。
实施例中,步骤107还可以包括:当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址之后,对目标数据文件列表进行数据备份,并生成数据采集成功信息,将数据采集成功信息存储在日志中,供工作人员查看。
基于同一发明构思,本发明实施例中还提供了一种数据综合采集系统,由于该系统解决问题的原理与数据综合采集方法相似,因此该系统的实施可以参见方法的实施,重复之处不再赘述。
图4是本发明实施例的数据综合采集系统结构框图。如图4所示,数据综合采集系统包括:
配置文件读取模块,用于读取配置文件信息,并将配置文件信息加载到内存中,其中,配置文件信息包括采集地址、采集频率、采集协议、匹配规则和目标地址;
线程创建模块,用于根据配置文件信息创建线程;
登录模块,用于登录目标地址或采集地址所在的远程主机;
线程执行模块,用于执行线程,包括:
数据文件列表获取模块,用于根据采集地址获取数据文件列表,数据文件列表包括多个待采集的数据文件;
过滤模块,用于根据匹配规则过滤数据文件列表,获取目标数据文件列表,目标数据文件列表包括多个目标数据文件;
映射模块,用于确定目标数据文件对应的采集协议;
数据移动模块,用于按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址。
实施例中,配置文件信息还包括:线程的处理指令;线程执行模块具体用于:根据线程的处理指令,获取线程或发送线程;在获取线程时,采集地址位于远程主机,目标地址位于本地主机;在发送线程时,采集地址位于本地主机,目标地址位于远程主机。
实施例中,配置文件信息还包括临时地址;数据移动模块包括:临时地址移动模块,用于按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至临时地址;比较模块,用于比较存储在临时地址中的目标数据文件与存储在采集地址中的目标数据文件的大小;目标地址移动模块,用于当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址。
实施例中,还包括:解压模块;配置文件信息还包括:文件解压缩规则;解压模块用于:在线程执行模块获取线程,并且临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据文件解压缩规则,对临时地址中的目标数据文件进行压缩处理或减压处理;目标地址移动模块还用于:按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过压缩处理或减压处理的目标数据文件。
实施例中,还包括:改名模块;配置文件信息还包括:文件改名规则;改名模块用于:在线程执行模块获取线程,并且临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据文件改名规则,更改临时地址中的目标数据文件的文件名称;目标地址移动模块还用于:按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过改名的目标数据文件。
实施例中,还包括:查重模块,用于:在线程创建模块根据配置文件信息创建线程后,创建索引文件;当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据索引文件,对临时地址中的目标数据文件进行文件查重处理,生成经过文件查重处理的目标数据文件;目标地址移动模块还用于:按照采集频率和临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址,临时地址中的目标数据文件列表包括多个经过文件查重处理的目标数据文件。
实施例中,还包括:备份模块,用于:当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照采集频率和目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至目标地址之后,对目标数据文件列表进行数据备份,并生成数据采集成功信息,将数据采集成功信息存储在日志中;报警模块,用于:当临时地址中的目标数据文件与采集地址中的目标数据文件大小不相等时,生成异常报警信息,并将异常报警信息存储在日志中。
实施例中,配置文件信息还包括:远程主机的用户账号和密码;登录模块具体用于:根据远程主机的用户账号和密码,登录目标地址或采集地址所在的远程主机。
图3是本发明实施例的功能示意图。如图3所示,目标地址位于数据存储设备中,数据存储设备包括多个磁盘存储介质,磁盘存储介质可以为U盘、硬盘、光盘或磁盘阵列等。
实现数据综合采集方法的数据综合采集系统包括采集协议层和业务功能层。其中,采集协议层中包括多个采集协议交互模块,用于确定目标数据文件对应的采集协议,依据采集协议采集相应的数据文件。业务功能层中包括配置信息模块、数据校验模块、数据分拣模块、移动模块、数据备份模块和报警监控模块。其中,配置信息模块中包括所有配置文件信息;数据校验模块用于依据配置信息模块中的匹配规则过滤数据文件列表,形成目标数据文件列表,依据配置信息模块中的文件解压缩规则对目标数据文件进行压缩处理或减压处理,以及依据文件改名规则更改目标数据文件的文件名称;数据分拣模块包括创建的索引文件,用于对目标数据文件进行文件查重处理;移动模块用于按照采集频率和目标数据文件对应的采集协议,将目标数据文件列表移动并存储至目标地址;数据备份模块用于对目标数据文件列表进行数据备份,报警监控模块用于在临时地址中的目标数据文件与采集地址中的目标数据文件大小不相等时,生成异常报警信息。
具体实施时,配置信息模块可以包括:配置文件读取模块、线程创建模块和登录模块;采集协议交互模块可以包括:数据文件列表获取模块和映射模块;数据校验模块可以包括:过滤模块、解压模块和改名模块;数据分拣模块可以包括:查重模块;移动模块可以包括:数据移动模块;数据备份模块可以包括:备份模块;以及,报警监控模块可以包括报警模块。
实施例中,当目标数据文件存储到目标地址后,与数据存储设备交互的外围系统可以访问数据存储设备以完成数据交互。例如,当外围系统为计费系统时,目标数据文件为计费文件,计费系统可以从数据存储设备中快速获得经过校验、格式统一的计费文件,加快了数据的交互效率。
综上,本发明实施例的数据综合采集方法及系统可减少人力成本、适应不同环境下的数据文件传输,以及提高数据交互效率。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种数据综合采集方法,其特征在于,包括:
读取配置文件信息,并将所述配置文件信息加载到内存中,其中,所述配置文件信息包括采集地址、采集频率、采集协议、匹配规则和目标地址;
根据所述配置文件信息创建线程;
登录所述目标地址或所述采集地址所在的远程主机;
执行所述线程,包括:
根据所述采集地址获取数据文件列表,所述数据文件列表包括多个待采集的数据文件;
根据所述匹配规则过滤所述数据文件列表,获取目标数据文件列表,所述目标数据文件列表包括多个目标数据文件;
确定所述目标数据文件对应的采集协议;
按照所述采集频率和所述目标数据文件对应的采集协议,将所述目标数据文件列表移动并存储至所述目标地址。
2.根据权利要求1所述的数据综合采集方法,其特征在于,
所述配置文件信息还包括:线程的处理指令;
执行所述线程,具体包括:根据所述线程的处理指令,获取所述线程或发送所述线程;
在获取所述线程时,所述采集地址位于所述远程主机,所述目标地址位于本地主机;
在发送所述线程时,所述采集地址位于所述本地主机,所述目标地址位于所述远程主机。
3.根据权利要求2所述的数据综合采集方法,其特征在于,
所述配置文件信息还包括临时地址;
按照所述采集频率和所述目标数据文件对应的采集协议,将所述目标数据文件列表移动并存储至所述目标地址,具体包括:
按照所述采集频率和所述目标数据文件对应的采集协议,将所述目标数据文件列表移动并存储至所述临时地址;
比较存储在临时地址中的目标数据文件与存储在采集地址中的目标数据文件的大小;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照所述采集频率和所述目标数据文件对应的采集协议,将临时地址中的所述目标数据文件列表移动并存储至所述目标地址。
4.根据权利要求3所述的数据综合采集方法,其特征在于,
所述配置文件信息还包括:文件解压缩规则;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照所述采集频率和所述目标数据文件对应的采集协议,将临时地址中的所述目标数据文件列表移动并存储至所述目标地址,具体包括:
在获取所述线程时,当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据所述文件解压缩规则,对临时地址中的目标数据文件进行压缩处理或减压处理,并按照所述采集频率和所述临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至所述目标地址,所述临时地址中的目标数据文件列表包括多个经过压缩处理或减压处理的目标数据文件。
5.根据权利要求3所述的数据综合采集方法,其特征在于,
所述配置文件信息还包括:文件改名规则;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照所述采集频率和所述目标数据文件对应的采集协议,将临时地址中的所述目标数据文件列表移动并存储至所述目标地址,具体包括:
在获取所述线程时,当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据所述文件改名规则,更改临时地址中的目标数据文件的文件名称,并按照所述采集频率和所述临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至所述目标地址,所述临时地址中的目标数据文件列表包括多个经过改名的目标数据文件。
6.根据权利要求3所述的数据综合采集方法,其特征在于,
根据所述配置文件信息创建线程,还包括:根据所述配置文件信息创建线程后,创建索引文件;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照所述采集频率和所述目标数据文件对应的采集协议,将临时地址中的所述目标数据文件列表移动并存储至所述目标地址,具体包括:
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据所述索引文件,对临时地址中的目标数据文件进行文件查重处理,并按照所述采集频率和所述临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至所述目标地址,所述临时地址中的目标数据文件列表包括多个经过文件查重处理的目标数据文件。
7.根据权利要求3所述的数据综合采集方法,其特征在于,按照所述采集频率和所述目标数据文件对应的采集协议,将所述目标数据文件列表移动并存储至所述目标地址,还包括:
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照所述采集频率和所述目标数据文件对应的采集协议,将临时地址中的所述目标数据文件列表移动并存储至所述目标地址之后,对所述目标数据文件列表进行数据备份,并生成数据采集成功信息,将所述数据采集成功信息存储在日志中;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小不相等时,生成异常报警信息,并将所述异常报警信息存储在所述日志中。
8.根据权利要求1所述的数据综合采集方法,其特征在于,
所述配置文件信息还包括:远程主机的用户账号和密码;
登录目标地址或采集地址所在的远程主机,具体包括:
根据所述远程主机的用户账号和密码,登录目标地址或采集地址所在的远程主机。
9.一种数据综合采集系统,其特征在于,包括:
配置文件读取模块,用于读取配置文件信息,并将所述配置文件信息加载到内存中,其中,所述配置文件信息包括采集地址、采集频率、采集协议、匹配规则和目标地址;
线程创建模块,用于根据所述配置文件信息创建线程;
登录模块,用于登录所述目标地址或所述采集地址所在的远程主机;
线程执行模块,用于执行所述线程,包括:
数据文件列表获取模块,用于根据所述采集地址获取数据文件列表,所述数据文件列表包括多个待采集的数据文件;
过滤模块,用于根据所述匹配规则过滤所述数据文件列表,获取目标数据文件列表,所述目标数据文件列表包括多个目标数据文件;
映射模块,用于确定所述目标数据文件对应的采集协议;
数据移动模块,用于按照所述采集频率和所述目标数据文件对应的采集协议,将所述目标数据文件列表移动并存储至所述目标地址。
10.根据权利要求9所述的数据综合采集系统,其特征在于,
所述配置文件信息还包括:线程的处理指令;
线程执行模块具体用于:根据所述线程的处理指令,获取所述线程或发送所述线程;
在获取所述线程时,所述采集地址位于所述远程主机,所述目标地址位于本地主机;
在发送所述线程时,所述采集地址位于所述本地主机,所述目标地址位于所述远程主机。
11.根据权利要求10所述的数据综合采集系统,其特征在于,
所述配置文件信息还包括临时地址;
所述数据移动模块包括:
临时地址移动模块,用于按照所述采集频率和所述目标数据文件对应的采集协议,将所述目标数据文件列表移动并存储至所述临时地址;
比较模块,用于比较存储在临时地址中的目标数据文件与存储在采集地址中的目标数据文件的大小;
目标地址移动模块,用于当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照所述采集频率和所述目标数据文件对应的采集协议,将临时地址中的所述目标数据文件列表移动并存储至所述目标地址。
12.根据权利要求11所述的数据综合采集系统,其特征在于,还包括:解压模块;
所述配置文件信息还包括:文件解压缩规则;
所述解压模块用于:在线程执行模块获取所述线程,并且临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据所述文件解压缩规则,对临时地址中的目标数据文件进行压缩处理或减压处理;
所述目标地址移动模块还用于:按照所述采集频率和所述临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至所述目标地址,所述临时地址中的目标数据文件列表包括多个经过压缩处理或减压处理的目标数据文件。
13.根据权利要求11所述的数据综合采集系统,其特征在于,还包括:改名模块;
所述配置文件信息还包括:文件改名规则;
所述改名模块用于:在线程执行模块获取所述线程,并且临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据所述文件改名规则,更改临时地址中的目标数据文件的文件名称;
所述目标地址移动模块还用于:按照所述采集频率和所述临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至所述目标地址,所述临时地址中的目标数据文件列表包括多个经过改名的目标数据文件。
14.根据权利要求11所述的数据综合采集系统,其特征在于,还包括:
查重模块,用于:
在线程创建模块根据所述配置文件信息创建线程后,创建索引文件;
当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,根据所述索引文件,对临时地址中的目标数据文件进行文件查重处理,生成经过文件查重处理的目标数据文件;
所述目标地址移动模块还用于:按照所述采集频率和所述临时地址中的目标数据文件对应的采集协议,将临时地址中的目标数据文件列表移动并存储至所述目标地址,所述临时地址中的目标数据文件列表包括多个经过文件查重处理的目标数据文件。
15.根据权利要求11所述的数据综合采集系统,其特征在于,还包括:
备份模块,用于:当临时地址中的目标数据文件与采集地址中的目标数据文件大小相等时,按照所述采集频率和所述目标数据文件对应的采集协议,将临时地址中的所述目标数据文件列表移动并存储至所述目标地址之后,对所述目标数据文件列表进行数据备份,并生成数据采集成功信息,将所述数据采集成功信息存储在日志中;
报警模块,用于:当临时地址中的目标数据文件与采集地址中的目标数据文件大小不相等时,生成异常报警信息,并将所述异常报警信息存储在所述日志中。
16.根据权利要求9所述的数据综合采集系统,其特征在于,
所述配置文件信息还包括:远程主机的用户账号和密码;
所述登录模块具体用于:
根据所述远程主机的用户账号和密码,登录目标地址或采集地址所在的远程主机。
CN201710130440.2A 2017-03-07 2017-03-07 数据综合采集方法及系统 Pending CN106843908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710130440.2A CN106843908A (zh) 2017-03-07 2017-03-07 数据综合采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710130440.2A CN106843908A (zh) 2017-03-07 2017-03-07 数据综合采集方法及系统

Publications (1)

Publication Number Publication Date
CN106843908A true CN106843908A (zh) 2017-06-13

Family

ID=59137270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710130440.2A Pending CN106843908A (zh) 2017-03-07 2017-03-07 数据综合采集方法及系统

Country Status (1)

Country Link
CN (1) CN106843908A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150610A (zh) * 2018-08-29 2019-01-04 深圳市未来交互信息技术有限公司 基于规则适配的网络事件采集方法
CN109657167A (zh) * 2018-11-29 2019-04-19 彩讯科技股份有限公司 数据采集方法、装置、服务器及存储介质
CN110570167A (zh) * 2019-08-28 2019-12-13 珠海格力智能装备有限公司 工程项目文件管理方法和系统
CN111338795A (zh) * 2020-02-18 2020-06-26 中国联合网络通信集团有限公司 数据处理方法及设备
CN112615821A (zh) * 2020-12-05 2021-04-06 江苏秉信科技有限公司 一种基于跨安全区实时远程信息采集方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1713592A (zh) * 2004-06-27 2005-12-28 华为技术有限公司 一种通用数据采集的实现方法
CN105471969A (zh) * 2015-11-17 2016-04-06 国家电网公司 电网数据处理云平台系统
CN106292578A (zh) * 2016-07-29 2017-01-04 湖南永清水务有限公司 一种污水处理厂运营数据采集传输系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1713592A (zh) * 2004-06-27 2005-12-28 华为技术有限公司 一种通用数据采集的实现方法
CN105471969A (zh) * 2015-11-17 2016-04-06 国家电网公司 电网数据处理云平台系统
CN106292578A (zh) * 2016-07-29 2017-01-04 湖南永清水务有限公司 一种污水处理厂运营数据采集传输系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150610A (zh) * 2018-08-29 2019-01-04 深圳市未来交互信息技术有限公司 基于规则适配的网络事件采集方法
CN109150610B (zh) * 2018-08-29 2021-05-04 深圳市未来交互信息技术有限公司 基于规则适配的网络事件采集方法
CN109657167A (zh) * 2018-11-29 2019-04-19 彩讯科技股份有限公司 数据采集方法、装置、服务器及存储介质
CN109657167B (zh) * 2018-11-29 2023-11-21 彩讯科技股份有限公司 数据采集方法、装置、服务器及存储介质
CN110570167A (zh) * 2019-08-28 2019-12-13 珠海格力智能装备有限公司 工程项目文件管理方法和系统
CN111338795A (zh) * 2020-02-18 2020-06-26 中国联合网络通信集团有限公司 数据处理方法及设备
CN112615821A (zh) * 2020-12-05 2021-04-06 江苏秉信科技有限公司 一种基于跨安全区实时远程信息采集方法

Similar Documents

Publication Publication Date Title
CN106843908A (zh) 数据综合采集方法及系统
CN104217290A (zh) 一种档案管理系统
CN103793298A (zh) 实现Android手机信息读取的方法
CN105607960A (zh) 文件系统目录树修复方法和装置
CN104253706B (zh) 一种数据库管理平台的监控方法和装置
CN107391112A (zh) 一种文件版本检测方法及其专用装置
CN103886491A (zh) 一种基于ios操作系统的手机网络发票系统
CN105912636A (zh) 一种基于Map/Reduce的ETL数据处理方法和装置
CN103729169A (zh) 用于确定待迁移文件范围的方法和装置
CN103955783A (zh) 低压载波安装现场信息采集方法
CN105224358A (zh) 一种云计算下软件自动打包部署的系统及方法
CN109614203A (zh) 一种基于应用数据仿真的安卓应用云数据取证分析系统及方法
CN107329806A (zh) 一种开发环境构建方法及装置
CN106682461A (zh) 一种采用计算机验证码技术的大数据分析系统
CN111048164A (zh) 一种医学大数据长期保存系统
CN110009289A (zh) 一种集中地址派件的方法及系统
CN103942123B (zh) 一种反向数据抓取实现云容灾备份的方法及系统
CN105975599A (zh) 一种监测网站的页面埋点的方法和装置
CN103489068A (zh) 一种钢瓶流转状态监控系统及方法
CN107395429A (zh) 云数据中心中管理虚拟机的方法和装置
CN104484782A (zh) 扫描数据的处理方法及装置
CN106845257A (zh) 一种等保分析方法及等保分析系统
CN107273401A (zh) 应用程序数据文件的管理方法、移动设备及存储装置
CN102495897A (zh) 印鉴卡智能管控系统及方法
CN102520996A (zh) 嵌入式设备中跨平台通用升级镜像信息生成及升级方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613