CN114415953B - 一种对数据源进行数据采集的方法和装置 - Google Patents

一种对数据源进行数据采集的方法和装置 Download PDF

Info

Publication number
CN114415953B
CN114415953B CN202210006056.2A CN202210006056A CN114415953B CN 114415953 B CN114415953 B CN 114415953B CN 202210006056 A CN202210006056 A CN 202210006056A CN 114415953 B CN114415953 B CN 114415953B
Authority
CN
China
Prior art keywords
data
acquisition
collector
center
application service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210006056.2A
Other languages
English (en)
Other versions
CN114415953A (zh
Inventor
祁凯
鲁伟
袁帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Wuhan Fiberhome Technical Services Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Wuhan Fiberhome Technical Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd, Wuhan Fiberhome Technical Services Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN202210006056.2A priority Critical patent/CN114415953B/zh
Publication of CN114415953A publication Critical patent/CN114415953A/zh
Application granted granted Critical
Publication of CN114415953B publication Critical patent/CN114415953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种对数据源进行数据采集的方法和装置,方法包括:数据源侧设置应用服务和数据采集器,应用服务分别耦合对应的数据采集器,数据采集器采集对应的应用服务的数据;大数据侧设置数据存储中心、配置中心和监控中心,数据采集器获取配置中心的远程配置文件,数据采集器应用远程配置文件后,数据采集器将采集到的数据发送到数据存储中心;数据采集器的采集过程中计算采集效率指标,同时监控中心对数据传输过程进行监控。本发明的数据采集过程或采集点行为可控。通过对数据采集器的配置项进行修改,可控制数据采集器的行为,可以提供大数据的数据源采集方式,提高数据采集效率,拓展数据采集能力。

Description

一种对数据源进行数据采集的方法和装置
技术领域
本发明属于通信技术领域,更具体地,涉及一种对数据源进行数据采集的方法和装置。
背景技术
随着当下网络的迅速发展以及信息化在社会上的不断深入,对于网络的管理要求提高,在技术上的选择应用服务也越来越重要。其中大数据处理技术与传统的数据处理技术不同,也可以说是在传统的数据处理技术基础上的一种革新。大数据处理技术保证了信息传递过程中的效率、信息的准确性、扩大了管理资源还保证了网络在运行过程中的安全性和可靠性,在通信网管中有着很大的应用服务价值。
如图1所示,传统的数据采集方式,各种应用服务在运行过程中会产生各种数据,这些数据直接写在本地磁盘。大数据侧需要采集这些数据,可以通过一些专门的数据采集组件(比如Apache Flume),读取各个服务存储在本地磁盘的数据后,再把读取到的数据写到大数据侧的数据存储单元,以供给大数据业务分析使用。
而大数据系统的核心问题之一就是数据采集收集,需要把有价值的数据高效安全的收集到大数据系统中,作为提供大数据系统其他业务能力的基础。在采集数据和应用服务耦合时,若想要更改采集数据的组装格式,需要在应用服务内修改再发布。传统方式下,数据采集的效率低,需要先把数据写本地磁盘,再监听本地磁盘上的文件变更,再把数据批量写到大数据存储单元,数据流转流程长,导致数据展示不够及时;通过监听本地磁盘文件的方式,在文件滚动或变更时,处理逻辑复杂,尤其在Windows平台上监听文件滚动切换很难实现。若有多个服务数据通过统一的采集通道进行采集时遇到数据洪峰,采集通道的负载压力很高,有宕机的风险。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种对数据源进行数据采集的方法和装置,其目的在于通过数据采集器直接获得数据源侧的数据,由此解决目前数据源测的数据只能本地落盘后才能被采集,采集效率低下的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种对数据源进行数据采集的方法,方法包括:
数据源侧设置应用服务和数据采集器,所述应用服务分别耦合对应的所述数据采集器,所述数据采集器采集对应的所述应用服务的数据;
大数据侧设置数据存储中心、配置中心和监控中心,所述数据采集器获取所述配置中心的远程配置文件,所述数据采集器应用所述远程配置文件后,所述数据采集器将采集到的数据发送到所述数据存储中心;
所述数据采集器的采集过程中计算采集效率指标,同时所述监控中心对数据传输过程进行监控。
作为对上述方案进一步的完善和补充,本发明还包括以下附加技术特征。
优选地,所述应用服务设置在所述数据采集器上层,所述数据采集器至少分配初始化接口、数据采集接口和服务销毁接口与所述应用服务耦合。
优选地,所述数据采集器获取所述配置中心的远程配置文件,具体方法包括:
所述应用服务启动时,初始化所述数据采集器;
所述数据采集器按照初始配置设置后,将初始配置缓存在所述数据采集器本地;
所述数据采集器内设置监听中心,所述监听中心监听大数据侧所述配置中心的配置文件是否发生变化;
若所述监听中心收到所述配置中心的配置文件发生变更的消息,所述监听中心获取所述配置中心的远程配置文件并缓存到所述数据采集器的本地,所述数据采集器从所述初始配置变更为远程配置。
优选地,所述数据采集器按所述远程配置文件的要求将数据发送到所述数据存储中心,具体方法包括:
所述远程配置文件中对所述应用服务的数据进行预设标记,
所述数据采集器在采集数据过程中根据所述应用服务的数据标记进行逻辑判断和执行。
优选地,方法还包括在采集过程中所述数据采集器计算采集效率指标,方法包括:
所述数据采集器预设采集效率指标的时间;
所述数据采集器判断所述数据采集器的采集过程是否达到预设时间;
若达到预设时间,所述数据采集器执行采集效率计算逻辑,并计算所述数据采集器自身的采集效率指标,将采集效率指标计算结果发送至所述监控中心;
所述监控中心根据所述采集效率指标调整预设时间内所述数据采集器的资源配比。
优选地,方法还包括所述监控中心对所述数据采集器进行监控,所述应用服务在运行过程中产生的数据交给对应的所述数据采集器时,若发生数据发送异常情况,所述数据采集器上报异常告警到所述监控中心,并结束采集任务。
优选地,所述数据采集器的所述监听中心将采集效率指标计算结果发送到指定的监控接受地址。
优选地,所述应用服务主动调用所述数据采集器的所述数据发送接口,将数据发送至所述数据采集器中。
优选地,数据源侧的所述数据采集器与所述应用服务的逻辑适配。
第二方面,本发明还提供了一种对数据源进行数据采集的装置,所述装置包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的对数据源进行数据采集的方法。
第三方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的对数据源进行数据采集的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
1、本发明提供的一种对数据源进行数据采集的方法中,应用服务在运行过程中产生数据后不再写本地磁盘,数据采集器使用实时采集数据的方式,直接将采集的数据发送消息中间件(Message Queue,简称MQ)中,数据采集器按大数据侧的远程配置要求将消息中间件的数据发送到大数据侧的数据存储中心,采集效率提高,且本发明中采用消息队列的处理方式避免了数据洪峰引发的宕机风险。
2、本发明的数据采集过程或采集点行为可控。通过对数据采集器的配置项进行修改,可控制数据采集器的行为,可以提供大数据的数据源采集方式,提高数据采集效率,拓展数据采集能力。数据采集器对数据源产生的数据进行高效、灵活可控和可监视的采集,使得数据能安全及时的到达大数据侧数据存储单元。
3、本发明的数据采集过程对采集效率指标实时监控。通过在数据采集器采集过程中实时计算采集效率指标,把采集监控指标发送到数据监控中心,可实现采集过程中的采集效率等指标实时监控,异常信息实时监控等,提高了数据采集效率。
附图说明
图1是目前通用的数据采集模型示意图;
图2是本实施例一中数据源进行数据采集的方法流程示意图;
图3是本实施例一中数据源进行数据采集的模型示意图;
图4是本实施例二中数据源进行数据采集的装置示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明的描述中,术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不应当理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
实施例一:
如图1所示,是目前通用的数据采集模型,主要采集应用服务的运行日志,大数据侧和数据源侧两者之间通过数据采集通道传输数据,大数据侧主要功能聚焦在数据分析和挖掘上,所以不和处理业务的数据源侧同处一个机器上,数据源测的应用服务数据只能先储存在应用服务的本地磁盘或本地其他存储介质,等待落盘后数据源侧再进行数据采集。通用的数据采集方式,各种应用服务在运行过程中会产生的数据直接写在本地磁盘,大数据侧需要通过专门的数据采集组件(比如Apache Flume)采集数据,数据采集组件读取各个应用服务存储在本地磁盘的数据后,再把读取到的数据通过数据采集通道写入大数据侧的数据存储单元,以供给大数据侧的业务分析使用。
目前通用的数据采集方法中,若想要更改采集数据的组装格式,需要在应用服务内修改再发布。并且采集效率低,应用服务需要先把数据写本地磁盘,再把数据批量写到大数据侧的数据存储单元,数据流转流程长,导致数据展示不够及时。若通过监听本地磁盘文件的方式,在文件滚动或变更时,处理逻辑复杂,尤其在Windows平台上监听文件滚动切换很难实现。多个应用服务数据通过统一的采集通道进行采集,当遇到数据洪峰时,采集通道的负载压力很高,有宕机的风险。
如图3所示,本实施例一中使用的数据采集模型,未改变大数据侧和数据源侧的系统边界,在数据采集模型中将数据采集器独立出来,成为应用服务数据源内部的一个组件,相比于采集落盘日志(采集数据并且将数据存入磁盘或其他存储介质)而言,应用服务数据源侧和数据采集器耦合在一起,提高了数据采集器的数据传输效率。本实施例一中使用的数据采集模型实现数据采集器的行为可以被实时远程控制,数据采集器可以实时查询和监控采效率指标。
为了通过数据采集器直接获得数据源侧的数据,由此解决目前数据源测的数据只能本地落盘后才能被采集的问题,本实施例一提供一种对数据源进行数据采集的方法,如图2所示,方法包括以下步骤:
S101:数据源侧设置应用服务和数据采集器,所述应用服务分别耦合对应的所述数据采集器,所述数据采集器采集对应的所述应用服务的数据。
数据源侧的各个应用服务持有一个对应的数据采集器,应用服务在运行过程中产生数据后不再写本地磁盘,数据采集器使用实时采集数据的方式,直接将采集的数据发送消息中间件(Message Queue,简称MQ)中,采集器按配置要求将消息中间件的数据发送到大数据侧的数据存储中心。应用服务数据源是通过主动调用数据采集器的采集接口来采集数据。
数据采集器这种使用实时采集数据的方式,致使应用服务与数据采集器两个模块依赖性强、耦合性高,数据采集器只能与应用服务同时运行。
S102:大数据侧设置数据存储中心、配置中心和监控中心,所述数据采集器获取所述配置中心的远程配置文件,所述数据采集器应用所述远程配置文件后,所述数据采集器将采集到的数据发送到所述数据存储中心。
数据采集器内部会有各种各样的配置形式,比如数据组装格式、数据存储目的地等,这些配置通过订阅大数据侧的配置中心从而获取最新的配置。
S103:所述数据采集器的采集过程中计算采集效率指标,同时所述监控中心对数据传输过程进行监控。
在采集过程中数据采集器可以计算自身的采集效率指标,若效率太低可以主动上报给大数据侧的监控中心,同时大数据侧的监控中心可以对数据传输过程主动进行实时监控,一旦发现数据传输过程有异常,便可立即停止数据传输。
本实施例一提供的一种对数据源进行数据采集的方法,在数据采集过程或采集点行为可控。数据采集器的配置项可以进行远程修改,数据采集器的行为可控制,可以提供大数据的数据源采集方式,提高数据采集效率,拓展数据采集能力。数据采集器对数据源产生的数据进行高效、灵活可控和可监视的采集,使得数据能安全及时的到达大数据侧数据存储单元。同时,在数据采集过程对采集效率指标实时监控。通过在数据采集器采集过程中实时计算采集效率指标,把采集监控指标发送到数据监控中心,可实现采集过程中的采集效率等指标实时监控,异常信息实时监控等,提高了数据采集效率。
本实施例一中,为了在应用服务和数据采集对数据采集过程进行分类控制,结合本发明实施例,还存在一种优选的实现方案,具体的,所述应用服务设置在所述数据采集器上层,所述数据采集器至少分配初始化接口、数据采集接口和服务销毁接口与所述应用服务耦合。
初始化接口可以对数据采集器进行配置初始化,数据采集接口用于采集应用服务的数据,服务销毁接口对数据采集器内部使用到的资源进行释放,例如内存释放。
本实施例一中,为了及时更改采集数据的组装格式,结合本发明实施例,还存在一种优选的实现方案,具体的,所述数据采集器获取所述配置中心的远程配置文件,具体方法包括:
所述应用服务启动时,初始化所述数据采集器;
所述数据采集器按照初始配置设置后,将初始配置缓存在所述数据采集器本地;
所述数据采集器内设置监听中心,所述监听中心监听大数据侧所述配置中心的配置文件是否发生变化;
若所述监听中心收到所述配置中心的配置文件发生变更的消息,所述监听中心获取所述配置中心的远程配置文件并缓存到所述数据采集器的本地,所述数据采集器从所述初始配置变更为远程配置。
本实施例一中,数据远侧的数据采集器设置监听中心对大数据侧的配置中心进行监听,一旦监听中心发现配置中心的配置发生改变(比如管理人员对配置中心的配置项进行更改),数据采集器就会感知到该配置项发生更改,此时数据采集器获取所述配置中心的远程配置文件,并且对新的配置进行逻辑适配。比如之前配置的数据输出格式“时间,数据主键,数据类型,数据内容”,现在把它改成“时间,数据类型,数据主键,数据内容”。对于这两种不同的配置,采集数据的输出格式有明显的不同。
本实施例一中,为了区分数据采集器上采集到的数据以便于后续进行不同的处理方法,结合本发明实施例,还存在一种优选的实现方案,具体的,所述数据采集器按所述远程配置文件的要求将数据发送到所述数据存储中心,具体方法包括:
所述远程配置文件中对所述应用服务的数据进行预设标记,
所述数据采集器在采集数据过程中根据所述应用服务的数据标记进行逻辑判断和执行。
不需要设计不同的数据采集器对应不同的应用服务,通过配置文件的更改控制数据采集器的部分行为,比如通过配置不同的标记来标识把采集数据通过消息中间件(Message Queue,简称MQ)发送到大数据侧的数据存储中心或直接存储到大数据测的分布式文件系统。数据采集器会对此标记标识进行逻辑判断和执行不同的分支。
本实施例一中,为了监控数据采集器的执行情况,以便调整预设时间内所述数据采集器的资源配比。结合本发明实施例,还存在一种优选的实现方案,具体的,方法还包括在采集过程中所述数据采集器计算采集效率指标,具体包括:
所述数据采集器预设采集效率指标的时间;
所述数据采集器判断所述数据采集器的采集过程是否达到预设时间;
若达到预设时间,所述数据采集器执行采集效率计算逻辑,并计算所述数据采集器自身的采集效率指标,将采集效率指标计算结果发送至所述监控中心;
所述监控中心根据所述采集效率指标调整预设时间内所述数据采集器的资源配比。
本实施例一中,先判断数据采集器是否到计算采集效率时间,如果到采集效率时间,就执行采集效率计算逻辑。如果未到计算采集效率时间,一直等待,直到需要计算采集效率为止。
采集效率是采集效率指标的一种,例如每分钟采集了多少条数据。
采集效率指标可以有多种,例如每秒采集了多少条数据(TPS),或者一段时间内一共采集了多少条数据,或者每采集100条数据需要耗费多长时间等,这些效率指标是可以根据业务需要来计算。
为了实时获得数据采集器的数据采集情况,比如数据采集器在某段时间采集的数据比较多,那么后续的处理逻辑可能需要增加资源处理采集来的数据。再比如在某段时间频繁发生采集异常,那么可能需要排查数据源端或数据处理接受端是否出现故障等。
例如发现某一时间段内数据采集器的数据堆积比较严重,采集效率指标下降,后续可以通过人为的修改配置中心的配置文件进行调整,增加资源处理采集来的数据,提高数据采集器的采集效率。
数据采集器的采集效率还可以用于分析数据的洪峰时间,若在某一固定时间内数据采集器的数据堆积比较严重,可以在该固定时间内增加数据采集器的数量,提高数据采集器的采集效率。
本实施例一中,为了提高数据采集的可靠性,结合本发明实施例,还存在一种优选的实现方案,具体的,如图3所示,方法还包括所述监控中心对所述数据采集器进行监控,所述应用服务在运行过程中产生的数据交给对应的所述数据采集器时,若发生数据发送异常情况,所述数据采集器上报异常告警到所述监控中心,并结束采集任务。
大数据侧的监控中心可以对数据传输过程主动进行实时监控,一旦发现数据传输过程有异常,便可立即停止数据传输。
本实施例一中,为了对数据采集情况进行实时监控,结合本发明实施例,还存在一种优选的实现方案,具体的,如图3所示,所述数据采集器的所述监听中心将采集效率指标计算结果发送到指定的监控接受地址。
实时监控是一个功能点或功能特色,实现技术是通过采集模块内部对监控指标实时计算后,发送到指定的监控接受地址上去,从而实现对采集情况的实时监控。
指定的监控接收地址是从配置中心获取的监听中心的服务地址。应用服务通过该地址可以寻址到监听中心。
实时监控就是通过这个操作实现的,采集器获取配置中心配置的监控中心的服务地址,实时性能指标计算完成后通过这个监控中心的地址,发送指标数据到监控中心。
本实施例一中,为了对数据采集器的行为进行控制,结合本发明实施例,还存在一种优选的实现方案,具体的,所述应用服务主动调用所述数据采集器的所述数据发送接口,将数据发送至所述数据采集器中。
应用服务数据源是通过主动调用数据采集器来采集数据的,如果有数据需要采集时,数据源会主动调用数据采集器的采集接口,把需要采集的数据发送到数据采集器中。
本实施例一中,为了避免应用服务与数据采集器之间采集数据行为时不兼容的问题,结合本发明实施例,还存在一种优选的实现方案,具体的,数据源侧的所述数据采集器与所述应用服务的逻辑适配。
应用服务的种类繁多,不需要再设计不同的数据采集器,将数据采集器的逻辑设置为通用的属性,而且可以通过大数据侧设置的配置中心发送的远程配置文件来控制数据采集器的部分行为,从而提高了采集数据的效率和稳定性。数据采集器与应用服务逻辑适配后,不管应用服务怎么变动,数据采集器只需要调整远程配置文件,不会对采集到的数据造成影响。
本实施例一中,数据采集过程可控是数据采集过程中大数据侧的监控中心会对数据采集器进行监测,当监测到采集器出现故障时通知应用服务,再由应用服务进行相应的处理,比如停止采集器采集数据。数据采集点行为可控是数据采集器的监听中心根据配置中心的远程配置文件,动态调整数据采集器的行为,比如调整采集器采集数据线程等。数据采集器对数据源产生的数据进行高效、灵活可控和可监视的采集,使得数据能安全及时的到达大数据侧数据存储单元。
实施例二:
如图4所示,是本发明实施例的对数据源进行数据采集的装置示意图。本实施例的对数据源进行数据采集的装置包括一个或多个处理器21以及存储器22。其中,图4中以一个处理器21为例。
处理器21和存储器22可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器22作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序和非易失性计算机可执行程序,如实施例一中的对数据源进行数据采集的方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令,从而执行对数据源进行数据采集的方法。
存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例一至实施例三中的对数据源进行数据采集的方法,例如,执行以上描述的图2所示的各个步骤。
值得说明的是,上述装置和系统内的模块、单元之间的信息交互、执行过程等内容,由于与本发明的处理方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种对数据源进行数据采集的方法,其特征在于,方法包括:
数据源侧设置应用服务和数据采集器,所述应用服务分别耦合对应的所述数据采集器,所述数据采集器采集对应的所述应用服务的数据;
大数据侧设置数据存储中心、配置中心和监控中心,所述数据采集器获取所述配置中心的远程配置文件,所述数据采集器应用所述远程配置文件后,所述数据采集器将采集到的数据发送到所述数据存储中心;
所述数据采集器的采集过程中计算采集效率指标,同时所述监控中心对数据传输过程进行监控;
所述数据采集器获取所述配置中心的远程配置文件,具体方法包括:
所述应用服务启动时,初始化所述数据采集器;
所述数据采集器按照初始配置设置后,将初始配置缓存在所述数据采集器本地;
所述数据采集器内设置监听中心,所述监听中心监听大数据侧所述配置中心的配置文件是否发生变化;
若所述监听中心收到所述配置中心的配置文件发生变更的消息,所述监听中心获取所述配置中心的远程配置文件并缓存到所述数据采集器的本地,所述数据采集器从所述初始配置变更为远程配置。
2.如权利要求1所述的对数据源进行数据采集的方法,其特征在于,所述应用服务设置在所述数据采集器上层,所述数据采集器至少分配初始化接口、数据采集接口和服务销毁接口与所述应用服务耦合。
3.如权利要求1所述的对数据源进行数据采集的方法,其特征在于,所述数据采集器按所述远程配置文件的要求将数据发送到所述数据存储中心,具体方法包括:
所述远程配置文件中对所述应用服务的数据进行预设标记,
所述数据采集器在采集数据过程中根据所述应用服务的数据标记进行逻辑判断和执行。
4.如权利要求3所述的对数据源进行数据采集的方法,其特征在于,方法还包括在采集过程中所述数据采集器计算采集效率指标,方法包括:
所述数据采集器预设采集效率指标的时间;
所述数据采集器判断所述数据采集器的采集过程是否达到预设时间;
若达到预设时间,所述数据采集器执行采集效率计算逻辑,并计算所述数据采集器自身的采集效率指标,将采集效率指标计算结果发送至所述监控中心;
所述监控中心根据所述采集效率指标调整预设时间内所述数据采集器的资源配比。
5.如权利要求4所述的对数据源进行数据采集的方法,其特征在于,方法还包括所述监控中心对所述数据采集器进行监控,所述应用服务在运行过程中产生的数据交给对应的所述数据采集器时,若发生数据发送异常情况,所述数据采集器上报异常告警到所述监控中心,并结束采集任务。
6.如权利要求5所述的对数据源进行数据采集的方法,其特征在于,所述数据采集器的所述监听中心将采集效率指标计算结果发送到指定的监控接受地址。
7.如权利要求1所述的对数据源进行数据采集的方法,其特征在于,所述应用服务主动调用所述数据采集器的所述数据发送接口,将数据发送至所述数据采集器中。
8.如权利要求1所述的对数据源进行数据采集的方法,其特征在于,
数据源侧的所述数据采集器与所述应用服务的逻辑适配。
9.一种对数据源进行数据采集的装置,其特征在于,装置包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行权利要求1-8任一所述的对数据源进行数据采集的方法。
CN202210006056.2A 2022-01-04 2022-01-04 一种对数据源进行数据采集的方法和装置 Active CN114415953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210006056.2A CN114415953B (zh) 2022-01-04 2022-01-04 一种对数据源进行数据采集的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210006056.2A CN114415953B (zh) 2022-01-04 2022-01-04 一种对数据源进行数据采集的方法和装置

Publications (2)

Publication Number Publication Date
CN114415953A CN114415953A (zh) 2022-04-29
CN114415953B true CN114415953B (zh) 2024-01-30

Family

ID=81271392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210006056.2A Active CN114415953B (zh) 2022-01-04 2022-01-04 一种对数据源进行数据采集的方法和装置

Country Status (1)

Country Link
CN (1) CN114415953B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622067B1 (en) * 1999-10-28 2003-09-16 General Electric Company Configuration of a remote data collection and communication system
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集系统和数据采集方法
CN108833490A (zh) * 2018-05-24 2018-11-16 郑州云海信息技术有限公司 一种分布式数据采集系统及其方法
CN112148223A (zh) * 2020-09-22 2020-12-29 李冰 一种基于视频监控数据中心的数据库审计系统
CN112416712A (zh) * 2020-11-20 2021-02-26 常州微亿智造科技有限公司 基于工业云边服务数据采集的监控方法和装置
CN112527599A (zh) * 2020-12-15 2021-03-19 康键信息技术(深圳)有限公司 智能监控方法、装置、电子设备及可读存储介质
WO2021190659A1 (zh) * 2020-10-29 2021-09-30 平安科技(深圳)有限公司 系统的数据获取方法、装置、介质及电子设备
WO2021189954A1 (zh) * 2020-10-12 2021-09-30 平安科技(深圳)有限公司 日志数据处理方法、装置、计算机设备和存储介质
CN113704060A (zh) * 2021-08-21 2021-11-26 济南浪潮数据技术有限公司 一种资源监控方法、系统、存储介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150641B (zh) * 2017-06-15 2020-04-17 北京国双科技有限公司 一种数据采集、查询方法、装置、存储介质及处理器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622067B1 (en) * 1999-10-28 2003-09-16 General Electric Company Configuration of a remote data collection and communication system
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集系统和数据采集方法
CN108833490A (zh) * 2018-05-24 2018-11-16 郑州云海信息技术有限公司 一种分布式数据采集系统及其方法
CN112148223A (zh) * 2020-09-22 2020-12-29 李冰 一种基于视频监控数据中心的数据库审计系统
WO2021189954A1 (zh) * 2020-10-12 2021-09-30 平安科技(深圳)有限公司 日志数据处理方法、装置、计算机设备和存储介质
WO2021190659A1 (zh) * 2020-10-29 2021-09-30 平安科技(深圳)有限公司 系统的数据获取方法、装置、介质及电子设备
CN112416712A (zh) * 2020-11-20 2021-02-26 常州微亿智造科技有限公司 基于工业云边服务数据采集的监控方法和装置
CN112527599A (zh) * 2020-12-15 2021-03-19 康键信息技术(深圳)有限公司 智能监控方法、装置、电子设备及可读存储介质
CN113704060A (zh) * 2021-08-21 2021-11-26 济南浪潮数据技术有限公司 一种资源监控方法、系统、存储介质及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于服务器集群的云监控系统设计与实现;沈青;董波;肖德宝;;计算机工程与科学(第10期);全文 *

Also Published As

Publication number Publication date
CN114415953A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN109714192B (zh) 一种监控云平台的监控方法及系统
CN107547589B (zh) 一种数据采集处理方法以及装置
CN106790565B (zh) 一种网络附属存储集群系统
EP3806432A1 (en) Method for changing service on device and service changing system
CN103491354A (zh) 一种系统运行监控可视化平台
CN109460339B (zh) 日志的流式计算系统
CN110231998B (zh) 分布式定时任务的检测方法、装置及存储介质
CN109271243B (zh) 一种集群任务管理系统
CN107025222A (zh) 一种分布式日志采集方法及装置
CN103645904A (zh) 一种接口调用的缓存实现方法
CN112134754A (zh) 压力测试方法、装置、网络设备及存储介质
CN110855481B (zh) 数据采集系统及方法
CN107463490B (zh) 一种应用于平台开发中的集群日志集中收集方法
CN111224819A (zh) 分布式消息系统
CN114415953B (zh) 一种对数据源进行数据采集的方法和装置
CN112910733A (zh) 一种基于大数据的全链路监控系统及方法
CN110109807B (zh) 一种空管重要设备的预警维护系统
CN112417050A (zh) 数据同步方法和装置、系统、存储介质及电子装置
CN110515938B (zh) 基于kafka消息总线的数据汇聚存储方法、设备和存储介质
CN116594840A (zh) 基于elk的日志故障采集与分析方法、系统、设备及介质
CN116709223A (zh) 一种短信服务通道资源调配方法、系统及设备和介质
CN109144800A (zh) 一种服务器故障信息的收集方法、装置及相关设备
US20220197732A1 (en) Method and apparatus for handling exception of in-vehicle system
CN115473858A (zh) 数据传输方法和流式数据传输系统
CN103746839A (zh) PaaS系统和PaaS应用池中的VM节点调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant