CN116303279A - 文件的并发采集方法、装置、设备及存储介质 - Google Patents

文件的并发采集方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116303279A
CN116303279A CN202310141306.8A CN202310141306A CN116303279A CN 116303279 A CN116303279 A CN 116303279A CN 202310141306 A CN202310141306 A CN 202310141306A CN 116303279 A CN116303279 A CN 116303279A
Authority
CN
China
Prior art keywords
acquisition
file
node
master node
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310141306.8A
Other languages
English (en)
Inventor
严丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN202310141306.8A priority Critical patent/CN116303279A/zh
Publication of CN116303279A publication Critical patent/CN116303279A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件的并发采集方法、装置、设备及存储介质。该方法包括:当检测到开始处于启动状态时,若根据主节点竞争结果确定竞争主节点成功,则获取采集文件列表;根据采集文件列表,获取多项文件采集任务,并将各文件采集任务添加到预设待处理队列;根据从节点发送的采集任务获取请求,从预设待处理队列中获取当前文件采集任务,并发送当前文件采集任务到从节点,接收从节点发送的当前文件采集任务对应的采集文件。本实施例的技术方案,通过各节点竞争成为主节点,并通过主节点进行文件采集任务的获取与分发,以及通过各从节点执行文件采集任务,可以实现文件的并发采集,可以实现文件采集任务的负载均衡,可以提升文件采集效率。

Description

文件的并发采集方法、装置、设备及存储介质
技术领域
本发明涉及电信业务支撑技术领域,尤其涉及一种文件的并发采集方法、装置、设备及存储介质。
背景技术
在电信行业中,各个系统之间需要交互大量的数据,并且对于数据处理的实时性要求较高。在特定场景下,上游系统会同时下发大批量的数据处理任务给下游系统,并且要求下游系统要在较短的时间内采集完成,以及在较短的时间内完成处理。由此,实现文件数据的高效采集,对支撑电信业务的实现显得尤为重要。
目前,现有的文件采集方法,通常是采用单独的负载均衡产品,对分布式文件系统中的数据进行分发处理。然而,对于文件采集这类特殊场景,现有的负载均衡产品通常无法实现对不同系统的兼容,故无法有效提升文件采集的效率,且易增加系统的复杂度。
发明内容
本发明提供了一种文件的并发采集方法、装置、设备及存储介质,可以实现文件的并发采集,可以实现文件采集任务的负载均衡,可以提升文件采集效率,可以避免增加系统的复杂度。
根据本发明的一方面,提供了一种文件的并发采集方法,包括:
当检测到开始处于启动状态时,获取主节点竞争结果,若根据所述主节点竞争结果确定竞争主节点成功,则获取采集文件列表;
根据所述采集文件列表,获取至少一项文件采集任务,并将各所述文件采集任务添加到预设待处理队列;
根据从节点发送的采集任务获取请求,从所述预设待处理队列中获取当前文件采集任务,并发送所述当前文件采集任务到所述从节点,以使所述从节点根据所述当前文件采集任务进行文件采集;
接收所述从节点发送的所述当前文件采集任务对应的采集文件。
根据本发明的另一方面,提供了一种文件的并发采集装置,包括:
采集文件列表获取模块,用于当检测到开始处于启动状态时,获取主节点竞争结果,若根据所述主节点竞争结果确定竞争主节点成功,则获取采集文件列表;
文件采集任务获取模块,用于根据所述采集文件列表,获取至少一项文件采集任务,并将各所述文件采集任务添加到预设待处理队列;
文件采集任务发送模块,用于根据从节点发送的采集任务获取请求,从所述预设待处理队列中获取当前文件采集任务,并发送所述当前文件采集任务到所述从节点,以使所述从节点根据所述当前文件采集任务进行文件采集;
采集文件接收模块,用于接收所述从节点发送的所述当前文件采集任务对应的采集文件。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文件的并发采集方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文件的并发采集方法。
本发明实施例的技术方案,当检测到开始处于启动状态时,获取主节点竞争结果,若根据主节点竞争结果确定竞争主节点成功,则获取采集文件列表;然后,根据采集文件列表,获取多项文件采集任务,并将各文件采集任务添加到预设待处理队列;其次,根据从节点发送的采集任务获取请求,从预设待处理队列中获取当前文件采集任务,并发送当前文件采集任务到从节点,最后接收从节点发送的当前文件采集任务对应的采集文件,通过各节点竞争成为主节点,并通过主节点进行文件采集任务的获取与分发,以及通过各从节点执行文件采集任务,可以实现文件的并发采集,可以实现文件采集任务的负载均衡,可以提升文件采集效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是根据本发明实施例一提供的一种文件的并发采集方法的流程图;
图1B是根据本发明实施例一提供的一种主节点竞争的流程示意图;
图1C是根据本发明实施例一提供的另一种文件的并发采集方法的流程示意图;
图2A是根据本发明实施例二提供的一种文件的并发采集方法的流程图;
图2B是根据本发明实施例二提供的一种主从节点的切换流程示意图;
图3是根据本发明实施例三提供的一种文件的并发采集装置的结构示意图;
图4是实现本发明实施例的文件的并发采集方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1A为本发明实施例一提供了一种文件的并发采集方法的流程图,本实施例可适用于在电信行业中,对文件进行并发采集的情况,该方法可以由文件的并发采集装置来执行,该文件的并发采集装置可以采用硬件和/或软件的形式实现,该文件的并发采集装置可配置于电子设备中,典型的,电子设备可以是计算机设备或者服务器。如图1A所示,该方法包括:
S110、当检测到开始处于启动状态时,获取主节点竞争结果,若根据所述主节点竞争结果确定竞争主节点成功,则获取采集文件列表。
在本实施例中,文件的采集可以由多个节点组成的分布式系统执行,其中,节点可以是服务器。各节点可以包括一个主节点和多个从节点。不同节点的节点身份,可以由预设数据库基于预先设置的身份规则指定,例如,由对应节点标识最小(如数字标识最小、字母标识最靠前等)的节点作为主节点,其他节点作为从节点。
在本实施例中,主节点负责获取文件采集任务,以及分发文件采集任务(待采集文件的相关信息),可以配置有负载均衡(将文件采集任务在各从节点间均衡分配),并可以发布需要监听的网际协议(Internet Protocol,IP)地址和端口号,从而对相应的端口进行监听。对应的,从节点负责从目标设备(例如,远端主机)采集文件,完成采集文件的动作。其次,当主节点发生异常时,各从节点可以通过竞争成为新的主节点,从而实现对主节点的异常接管。
需要说明的是,可以通过配置分布式调度引擎,为各节点对应的进程设置相同的配置文件,例如,可以是记录有主处理节点信息的表collect_SCHEDULE_TABLE。典型的,预设配置文件中数据记录可以如表1所示。
表1预设配置文件中数据记录格式
字段名 数据类型 说明
CLUSTER VARchar(32)NOT NULL 集群名称(主键)
SOURCE_NAME Varchar(64)NOT NULL 数据源名(主键)
BLOCK_ID VARchar(64)NOT NULL blockid
SERVER_IP VARchar(64)NOT NULL IP地址
SERVER_PORT NUMERIC(12)NOT NULL 监听端口
RESV VARchar(255) 备注
其中,一个任务点对应一条数据记录。在本实施例中,一个任务点可以启动多个进程,每个进程可以对应一个节点,各进程读取同一个配置文件。由此,各进程可以获取相同的SOURCE_NAME和CLUSTER,以及不同的blockid。此时,各节点在启动后,每个节点都试图去争抢成为任务处理主节点。
在一个具体的例子中,各节点在启动后,同时执行将本节点信息插入预设数据库(例如,DMDB、Oracle和Mysql等数据库)的信息发布表中的操作,以进行主节点竞争。预设数据库可以根据各节点信息和预先设置的节点身份分配规则,在各节点中确定主节点,并执行将主节点对应的节点信息写入到信息发布表的操作,并向该主节点反馈执行成功的消息。而对于其他的各从节点,则直接反馈执行失败的消息。由此,各节点可以根据预设数据库反馈的消息,确定主节点竞争结果。
此时,若本节点接收到预设数据库反馈的执行成功消息,则表示竞争主节点成功,可以确定对应的节点身份为主节点。之后,可以基于预先配置的任务点信息(待采集数据源信息),向待采集文件的设备发送获取采集文件列表的请求,并接收该设备反馈的采集文件列表。其中,采集文件列表,可以是待采集文件设备的所有文件的列表。
S120、根据所述采集文件列表,获取至少一项文件采集任务,并将各所述文件采集任务添加到预设待处理队列。
具体的,在获取到采集文件列表之后,可以对采集文件列表进行解析,以获取需要进行采集的文件信息,每一个文件可以作为一项文件采集任务,并将各项文件采集任务依次添加到预先设置的待处理队列中。其中,预设待处理队列,可以按照先入先出的规则,依次输出存储的各文件采集任务。
需要说明的是,在一些特殊情况下,采集文件列表的内容为空,即没有需要进行采集的文件,也即没有文件采集任务生成;此时,可以进行等待操作,以获取下一个采集文件列表。
S130、根据从节点发送的采集任务获取请求,从所述预设待处理队列中获取当前文件采集任务,并发送所述当前文件采集任务到所述从节点,以使所述从节点根据所述当前文件采集任务进行文件采集。
在本实施例中,各从节点在确定自身的节点身份之后,可以从预设数据库查询得到主节点信息,并可以基于该主节点信息,向主节点发送采集任务获取请求。主节点在接收到采集任务获取请求之后,可以在预设待处理队列中获取添加时间最早的文件采集任务作为当前文件采集任务,并把当前文件采集任务发送到该从节点。从节点在接收到当前文件采集任务之后,可以对该文件采集任务进行解析,以获取需要采集的文件信息,从而完成采集文件的获取,并将采集文件发送到主节点。
S140、接收所述从节点发送的所述当前文件采集任务对应的采集文件。
具体的,主节点可以对每个从节点发送的采集文件进行接收,并对各采集文件进行长期存储,以完成对当前任务点(数据源)的所有文件采集。其中,采集文件,可以是交换机数据、基站数据或者用户通话数据(经过用户授权)等电信业务数据的文件。进一步的,可以基于获取的采集文件,进行电信安全监测;或者可以基于获取的采集文件,进行区域网络或者通话质量的改善等。
本发明实施例的技术方案,当检测到开始处于启动状态时,获取主节点竞争结果,若根据主节点竞争结果确定竞争主节点成功,则获取采集文件列表;然后,根据采集文件列表,获取多项文件采集任务,并将各文件采集任务添加到预设待处理队列;其次,根据从节点发送的采集任务获取请求,从预设待处理队列中获取当前文件采集任务,并发送当前文件采集任务到从节点,最后接收从节点发送的当前文件采集任务对应的采集文件,通过各节点竞争成为主节点,并通过主节点进行文件采集任务的获取与分发,以及通过各从节点执行文件采集任务,可以实现文件的并发采集,可以实现文件采集任务的负载均衡,可以提升文件采集效率。
在本实施例的一个可选的实施方式中,获取主节点竞争结果,可以包括:
根据本节点信息生成第一节点信息插入请求,并发送所述第一节点信息插入请求到预设数据库;
若检测到所述预设数据库发送的所述第一节点信息插入请求对应的执行成功消息,则确定主节点竞争结果为竞争主节点成功;
若检测到所述预设数据库发送的所述第一节点信息插入请求对应的执行失败消息,则确定主节点竞争结果为竞争主节点失败;
其中,预设数据库,用于根据各节点发送的节点信息插入请求,确定各所述节点对应的节点身份,并根据各所述节点对应的节点身份,生成对应的执行结果信息发送到各所述节点。
在一个具体的例子中,主节点竞争的流程可以如图1B所示。其中,以节点A和节点B为例。具体的,节点A和节点B在启动后,均执行把本节点信息插入预设数据库DMDB的信息发布表的操作,如果表中已有该节点的信息,将执行更新操作。DMDB在接收到两个节点的节点信息插入请求之后,可以基于该请求解析获取两个节点的节点标识;在一种情况下,可以基于预先设置的节点身份分配规则,以及节点A和B分别对应的节点标识,指定节点A为主节点,故向A节点反馈执行成功消息,同时向节点B反馈执行失败消息。由此,节点A成为主节点,节点B成为从节点。
然后,节点A可以向远端主机(待采集文件的设备)发送获取文件列表的请求信息,并接收远端主机反馈的文件采集列表。进一步的,节点A可以对文件采集列表进行解析,以获取待采集的文件信息,并将一条文件信息作为一项文件采集任务依次添加到待处理队列。而节点B可以向DMDB发送主节点信息查询请求,并接收DMDB反馈的节点A的节点信息(例如,IP地址和端口号)。
在本实施例的另一个可选的实施方式中,获取采集文件列表,包括:
根据预设配置文件,获取文件采集设备信息;
生成文件列表获取请求,并根据所述文件采集设备信息,发送所述文件列表获取请求到文件采集设备;
接收所述文件采集设备发送的所述文件列表获取请求对应的采集文件列表。
在一个具体的例子中,主节点可以对预设配置文件进行解析,以获取待采集文件的远端主机信息,即文件采集设备信息。其中,文件采集设备信息可以包括文件采集设备名称、文件采集设备所属集群名称、网际协议地址和端口号中的至少一项。可以理解的是,文件采集设备名称和所属集群名称,也可以是对应的标识。
然后,主节点可以生成文件列表获取请求,并基于获取的各项文件采集设备信息,向对应的文件采集设备发送该文件列表获取请求。文件采集设备在接收到文件列表获取请求后,可以发送自身的文件列表到该主节点。主节点可以对文件采集设备发送的采集文件列表进行接收。
在本实施例的一个具体的实施方式中,文件的并发采集方法的流程可以如图1C所示。具体的,主节点在获取到采集文件列表后,可以将文件列表信息按照一个文件一项文件采集任务存放到待处理队列中。其次,从节点可以向主节点发送采集任务获取请求。主节点在接收到采集任务获取请求后,可以从待处理队列中输出一个文件采集任务给该从节点。
之后,从节点在获取到文件采集任务之后,可以基于文件采集任务采集远端文件,并将文件采集结果(包含在新的采集任务获取请求中)发送给主节点。主节点在接收到文件采集结果后,可以分配另一个文件采集任务给从节点。从节点在得到任务后,可以继续从远端主机采集文件。由此,通过主节点与各从节点的不断交互,可以实现对远端主机所有文件的并发采集。
实施例二
图2A为本发明实施例二提供的一种文件的并发采集方法的流程图,本实施例是对上述技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施方式结合。如图2A所示,该方法包括:
S210、当检测到开始处于启动状态时,获取主节点竞争结果,若根据所述主节点竞争结果确定竞争主节点失败,则获取主节点信息,并生成采集任务获取请求。
在本实施例中,当本节点竞争主节点失败成为从节点时,可以从预设数据库中查询得到主节点信息,并生成获取文件采集任务的请求信息。
在本实施例的一个可选的实施方式中,获取主节点信息,可以包括:
生成主节点信息获取请求,并发送所述主节点信息获取请求到所述预设数据库;当接收到所述预设数据库发送的所述主节点信息获取请求对应的反馈信息时,根据所述反馈信息获取主节点信息。
在一个具体的例子中,从节点可以首先生成主节点信息获取请求发送到预设数据库;预设数据库可以基于主节点的节点信息插入请求,获取主节点信息(例如,节点名称、标识、IP地址和端口号等),并可以将该主节点信息反馈到从节点。从节点可以根据预设数据库的反馈信息确定主节点信息。
S220、根据所述主节点信息,发送所述采集任务获取请求到主节点,并接收所述主节点发送的所述采集任务获取请求对应的文件采集任务。
具体的,从节点在确定主节点信息之后,可以生成采集任务获取请求发送到主节点,以请求获取当前的文件采集任务。主节点在接收到采集任务获取请求后,可以从预设待处理队列中输出当前的文件采集任务,并将该文件采集任务反馈到从节点。
S230、根据所述文件采集任务,获取采集文件,并发送所述采集文件到所述主节点。
具体的,从节点在获取到文件采集任务后,可以对文件采集任务进行解析,以获取需要采集文件的信息,例如,文件名称、地址等,并开始执行文件采集的操作,以获取采集文件。最终,从节点可以将获取的采集文件发送到主节点。
S240、若检测到与所述主节点之间存在通信异常,则根据本节点信息生成第二节点信息插入请求,并发送所述第二节点信息插入请求到预设数据库。
可以理解的是,在一些特殊情况下,主节点可能出现异常,此时本节点作为从节点可以重新进行主节点竞争,以确定新的主节点。具体的,在发送采集文件到主节点时,若发现通信中断;或者在成功发送采集文件后,无法接收到主节点的反馈信息,则可以确定与主节点之间存在通信异常。此时,本节点可以重新生成第二节点信息插入请求,以尝试进行将本节点信息插入到预设数据库中信息发布表的操作。
其次,预设数据库在接收到各从节点的第二节点信息插入请求后,可以在各从节点中筛选得到新的主节点,并执行将对应的主节点信息添加到信息发布表的操作,同时向该新的主节点反馈执行成功消息。而对于其他竞争失败的从节点,则反馈执行失败消息。
S250、若检测到所述预设数据库发送的所述第二节点信息插入请求对应的执行成功消息,则确定竞争主节点成功,将本节点对应的节点身份更新为主节点。
在一种情况下,若本节点成功接收到预设数据库发送的执行成功消息,则表示主节点竞争成功,此时本节点可以作为新的主节点,进行文件采集任务的获取和分发。
本发明实施例的技术方案,若根据主节点竞争结果确定竞争主节点失败,则获取主节点信息,并生成采集任务获取请求;然后,根据主节点信息,发送采集任务获取请求到主节点,并接收主节点发送的采集任务获取请求对应的文件采集任务;其次,根据文件采集任务,获取采集文件,并发送采集文件到主节点;进一步的,若检测到与主节点之间存在通信异常,则根据本节点信息生成第二节点信息插入请求,并发送第二节点信息插入请求到预设数据库;最后,若检测到预设数据库发送的第二节点信息插入请求对应的执行成功消息,则确定竞争主节点成功,将本节点对应的节点身份更新为主节点;通过采用在主节点异常时,从节点通过竞争成为新的主节点的机制,可以实现对主节点的异常接管,可以提升文件的并发采集的稳定性。
在本实施例的一个具体的实施方式中,主从节点的切换流程可以如图2B所示。其中,以节点A作为主节点,节点B和C作为从节点。具体的,首先,节点B和C向节点A发送采集任务获取请求,以获取当前的文件采集任务,并根据该文件采集任务,获取采集文件发送到节点A。此时,若节点B和C检测到与节点A之间存在通信异常,或者采集任务应答异常,则可以生成节点信息插入请求发送到预设数据库DMDB,以进行主节点竞争。
在一种情况下,若节点B竞争主节点成功,则节点B成为新的主节点,而节点C可以继续作为从节点,并从DMDB获取到节点B的节点信息。其次,节点B在成为新的主节点之后,可以从远端主机获取采集文件列表,并基于该采集文件列表获取各项文件采集任务,并将各项文件采集任务添加到自身的预设待处理队列中。之后,节点C可以向节点B发送采集任务获取请求,而节点B可以将当前的文件采集任务应答给节点C。节点C可以基于获取的文件采集任务,从远端主机获取采集文件,并将该采集文件发送到节点B。
在本实施例中,通过主节点-从节点的方式,可以同时并发多个采集进程进行任务处理,系统处理的吞吐量可达单进程处理的10倍以上(受网络和对端主机的情况影响),在瞬时出现大批量文件的情况下,可以大大提高文件采集的实时性。
实施例三
图3为本发明实施例三提供的一种文件的并发采集装置的结构示意图。如图3所示,该装置可以包括:采集文件列表获取模块310、文件采集任务获取模块320、文件采集任务发送模块330和采集文件接收模块340;其中,
采集文件列表获取模块310,用于当检测到开始处于启动状态时,获取主节点竞争结果,若根据所述主节点竞争结果确定竞争主节点成功,则获取采集文件列表;
文件采集任务获取模块320,用于根据所述采集文件列表,获取至少一项文件采集任务,并将各所述文件采集任务添加到预设待处理队列;
文件采集任务发送模块330,用于根据从节点发送的采集任务获取请求,从所述预设待处理队列中获取当前文件采集任务,并发送所述当前文件采集任务到所述从节点,以使所述从节点根据所述当前文件采集任务进行文件采集;
采集文件接收模块340,用于接收所述从节点发送的所述当前文件采集任务对应的采集文件。
本发明实施例的技术方案,当检测到开始处于启动状态时,获取主节点竞争结果,若根据主节点竞争结果确定竞争主节点成功,则获取采集文件列表;然后,根据采集文件列表,获取多项文件采集任务,并将各文件采集任务添加到预设待处理队列;其次,根据从节点发送的采集任务获取请求,从预设待处理队列中获取当前文件采集任务,并发送当前文件采集任务到从节点,最后接收从节点发送的当前文件采集任务对应的采集文件,通过各节点竞争成为主节点,并通过主节点进行文件采集任务的获取与分发,以及通过各从节点执行文件采集任务,可以实现文件的并发采集,可以实现文件采集任务的负载均衡,可以提升文件采集效率。
可选的,采集文件列表获取模块310,包括:
第一节点信息插入请求生成单元,用于根据本节点信息生成第一节点信息插入请求,并发送所述第一节点信息插入请求到预设数据库;
第一主节点竞争结果确定单元,用于若检测到所述预设数据库发送的所述第一节点信息插入请求对应的执行成功消息,则确定主节点竞争结果为竞争主节点成功;
第二主节点竞争结果确定单元,用于若检测到所述预设数据库发送的所述第一节点信息插入请求对应的执行失败消息,则确定主节点竞争结果为竞争主节点失败;
其中,预设数据库,用于根据各节点发送的节点信息插入请求,确定各所述节点对应的节点身份,并根据各所述节点对应的节点身份,生成对应的执行结果信息发送到各所述节点。
可选的,所述文件的并发采集装置,还包括:
主节点信息获取模块,用于若根据所述主节点竞争结果确定竞争主节点失败,则获取主节点信息,并生成采集任务获取请求;
文件采集任务接收模块,用于根据所述主节点信息,发送所述采集任务获取请求到主节点,并接收所述主节点发送的所述采集任务获取请求对应的文件采集任务;
采集文件发送模块,用于根据所述文件采集任务,获取采集文件,并发送所述采集文件到所述主节点。
可选的,主节点信息获取模块,具体用于生成主节点信息获取请求,并发送所述主节点信息获取请求到所述预设数据库;
当接收到所述预设数据库发送的所述主节点信息获取请求对应的反馈信息时,根据所述反馈信息获取主节点信息。
可选的,所述文件的并发采集装置,还包括:
第二节点信息插入请求生成模块,用于若检测到与所述主节点之间存在通信异常,则根据本节点信息生成第二节点信息插入请求,并发送所述第二节点信息插入请求到预设数据库;
节点身份更新模块,用于若检测到所述预设数据库发送的所述第二节点信息插入请求对应的执行成功消息,则确定竞争主节点成功,将本节点对应的节点身份更新为主节点。
可选的,采集文件列表获取模块310,包括:
文件采集设备信息获取单元,用于根据预设配置文件,获取文件采集设备信息;
文件列表获取请求发送单元,用于生成文件列表获取请求,并根据所述文件采集设备信息,发送所述文件列表获取请求到文件采集设备;
采集文件列表接收单元,用于接收所述文件采集设备发送的所述文件列表获取请求对应的采集文件列表。
可选的,所述文件采集设备信息包括文件采集设备名称、文件采集设备所属集群名称、网际协议地址和端口号中的至少一项。
本发明实施例所提供的文件的并发采集装置可执行本发明任意实施例所提供的文件的并发采集方法,具备执行方法相应的功能模块和有益效果。
需要说明的是,本实施例的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例四
图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备40包括至少一个处理器41,以及与至少一个处理器41通信连接的存储器,如只读存储器(ROM)42、随机访问存储器(RAM)43等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序,来执行各种适当的动作和处理。在RAM 43中,还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。
电子设备40中的多个部件连接至I/O接口45,包括:输入单元46,例如键盘、鼠标等;输出单元47,例如各种类型的显示器、扬声器等;存储单元48,例如磁盘、光盘等;以及通信单元49,例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理,例如文件的并发采集方法。
在一些实施例中,文件的并发采集方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元48。在一些实施例中,计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时,可以执行上文描述的文件的并发采集方法的一个或多个步骤。备选地,在其他实施例中,处理器41可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文件的并发采集方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种文件的并发采集方法,其特征在于,包括:
当检测到开始处于启动状态时,获取主节点竞争结果,若根据所述主节点竞争结果确定竞争主节点成功,则获取采集文件列表;
根据所述采集文件列表,获取至少一项文件采集任务,并将各所述文件采集任务添加到预设待处理队列;
根据从节点发送的采集任务获取请求,从所述预设待处理队列中获取当前文件采集任务,并发送所述当前文件采集任务到所述从节点,以使所述从节点根据所述当前文件采集任务进行文件采集;
接收所述从节点发送的所述当前文件采集任务对应的采集文件。
2.根据权利要求1所述的方法,其特征在于,获取主节点竞争结果,包括:
根据本节点信息生成第一节点信息插入请求,并发送所述第一节点信息插入请求到预设数据库;
若检测到所述预设数据库发送的所述第一节点信息插入请求对应的执行成功消息,则确定主节点竞争结果为竞争主节点成功;
若检测到所述预设数据库发送的所述第一节点信息插入请求对应的执行失败消息,则确定主节点竞争结果为竞争主节点失败;
其中,预设数据库,用于根据各节点发送的节点信息插入请求,确定各所述节点对应的节点身份,并根据各所述节点对应的节点身份,生成对应的执行结果信息发送到各所述节点。
3.根据权利要求2所述的方法,其特征在于,在获取主节点竞争结果之后,还包括:
若根据所述主节点竞争结果确定竞争主节点失败,则获取主节点信息,并生成采集任务获取请求;
根据所述主节点信息,发送所述采集任务获取请求到主节点,并接收所述主节点发送的所述采集任务获取请求对应的文件采集任务;
根据所述文件采集任务,获取采集文件,并发送所述采集文件到所述主节点。
4.根据权利要求3所述的方法,其特征在于,获取主节点信息,包括:
生成主节点信息获取请求,并发送所述主节点信息获取请求到所述预设数据库;
当接收到所述预设数据库发送的所述主节点信息获取请求对应的反馈信息时,根据所述反馈信息获取主节点信息。
5.根据权利要求3所述的方法,其特征在于,在发送所述采集文件到所述主节点之后,还包括:
若检测到与所述主节点之间存在通信异常,则根据本节点信息生成第二节点信息插入请求,并发送所述第二节点信息插入请求到预设数据库;
若检测到所述预设数据库发送的所述第二节点信息插入请求对应的执行成功消息,则确定竞争主节点成功,将本节点对应的节点身份更新为主节点。
6.根据权利要求1所述的方法,其特征在于,获取采集文件列表,包括:
根据预设配置文件,获取文件采集设备信息;
生成文件列表获取请求,并根据所述文件采集设备信息,发送所述文件列表获取请求到文件采集设备;
接收所述文件采集设备发送的所述文件列表获取请求对应的采集文件列表。
7.根据权利要求6所述的方法,其特征在于,所述文件采集设备信息包括文件采集设备名称、文件采集设备所属集群名称、网际协议地址和端口号中的至少一项。
8.一种文件的并发采集装置,其特征在于,包括:
采集文件列表获取模块,用于当检测到开始处于启动状态时,获取主节点竞争结果,若根据所述主节点竞争结果确定竞争主节点成功,则获取采集文件列表;
文件采集任务获取模块,用于根据所述采集文件列表,获取至少一项文件采集任务,并将各所述文件采集任务添加到预设待处理队列;
文件采集任务发送模块,用于根据从节点发送的采集任务获取请求,从所述预设待处理队列中获取当前文件采集任务,并发送所述当前文件采集任务到所述从节点,以使所述从节点根据所述当前文件采集任务进行文件采集;
采集文件接收模块,用于接收所述从节点发送的所述当前文件采集任务对应的采集文件。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文件的并发采集方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文件的并发采集方法。
CN202310141306.8A 2023-02-08 2023-02-08 文件的并发采集方法、装置、设备及存储介质 Pending CN116303279A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310141306.8A CN116303279A (zh) 2023-02-08 2023-02-08 文件的并发采集方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310141306.8A CN116303279A (zh) 2023-02-08 2023-02-08 文件的并发采集方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116303279A true CN116303279A (zh) 2023-06-23

Family

ID=86782587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310141306.8A Pending CN116303279A (zh) 2023-02-08 2023-02-08 文件的并发采集方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116303279A (zh)

Similar Documents

Publication Publication Date Title
CN109766172B (zh) 一种异步任务调度方法以及装置
CN111541762B (zh) 数据处理的方法、管理服务器、设备及存储介质
CN213876703U (zh) 一种资源池管理系统
CN113765690A (zh) 集群切换方法、系统、装置、终端、服务器及存储介质
CN111092956A (zh) 资源同步方法、装置、存储介质及设备
CN116303279A (zh) 文件的并发采集方法、装置、设备及存储介质
CN115509714A (zh) 一种任务处理方法、装置、电子设备及存储介质
CN115081413A (zh) 一种报表生成方法、装置、系统、设备及介质
CN115543416A (zh) 一种配置更新方法、装置、电子设备及存储介质
CN115629903A (zh) 任务延迟监控方法、装置、设备及存储介质
CN115526586A (zh) 一种基于智能运算的业务流程处理方法
CN115563160A (zh) 数据处理方法、装置、计算机设备和计算机可读存储介质
CN114461407A (zh) 数据处理方法、装置、分发服务器、系统及存储介质
CN114691781A (zh) 一种数据同步方法、系统、装置、设备及介质
CN115174447B (zh) 一种网络通信方法、装置、系统、设备及存储介质
CN117971486A (zh) 一种分布式作业的负载均衡方法、电子设备及存储介质
CN116016265B (zh) 消息全链路监控方法、装置、系统、设备和存储介质
CN114924806B (zh) 一种配置信息的动态同步方法、装置、设备及介质
CN117609171A (zh) 一种权限数据同步方法、装置、设备及介质
CN113064950B (zh) 一种数据同步方法、装置、设备及存储介质
CN115577049A (zh) 一种数据存储系统、方法、装置、设备及存储介质
CN115203139A (zh) 日志查询方法、装置、电子设备及存储介质
CN117931805A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN116302861A (zh) 异常处理方法、装置、系统、电子设备及存储介质
CN115665245A (zh) 一种本地缓存刷新方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination