CN114860672A - 批处理数据任务的节点管理方法与系统 - Google Patents
批处理数据任务的节点管理方法与系统 Download PDFInfo
- Publication number
- CN114860672A CN114860672A CN202210764847.1A CN202210764847A CN114860672A CN 114860672 A CN114860672 A CN 114860672A CN 202210764847 A CN202210764847 A CN 202210764847A CN 114860672 A CN114860672 A CN 114860672A
- Authority
- CN
- China
- Prior art keywords
- batch
- task
- node
- processed
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/484—Precedence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供的批处理数据任务的节点管理方法与系统,具体应用于数据处理领域,包括一个主控节点和多个从节点;获取待处理数据文件;将待处理数据文件输入BP神经网络模型进行分类;将待处理数据文件划分为多线数据文件,并封装成多线任务,在主控节点的任务缓冲队列中形成多个批次任务列表;将目标参数和待处理参数匹配,获得匹配度;获取任一批次任务列表的优先级;根据优先级和匹配度,对任一批次任务列表进行标记;将多个批次任务列表依次分配给各个从节点;各个从节点将接受的批次任务列表的任务存储到从节点的任务缓冲队列;获取并处理分发到从节点的任一批次任务列表的任务。通过该方法提高处理速度并减少资源消耗。
Description
技术领域
本申请涉及数据处理领域,更具体地,涉及批处理数据任务的节点管理方法与系统。
背景技术
随着公司业务扩张和新应用系统的建设,企业信息系统的数据日益集中,且数据量迅猛增长,对于数据的批量加工,统计分析需求也层出不穷。另一方面,为保证银行等企业的正常营业,限定了批处理的时间窗口。即为了保证正常营业,批处理数据只能在规定的时间段内进行处理。
现有技术中,通常进行批处理数据任务的方式是采用主控节点计算任一任务的耗重,计算得到分配到各个从节点上的任务之间的特定任务耗重分配比例,按照任务耗重分配比例将任务分配给各个从节点。然而这种方式的资源消耗量大,处理速度慢。
因此,如何对节点进行管理以提高批处理数据任务的处理速度并减少资源消耗量的问题,是一项亟待解决的技术问题。
发明内容
本发明实施例的目的在于提供批处理数据任务的节点管理方法与系统,通过BP神经网络模型构建多批次任务列表,同时引入优先级和参数匹配度两个变量确定批次任务列表分配等级,由此通过批处理数据任务的合理分配,提高处理速度并减少资源消耗。具体技术方案如下:
在本发明实施例的第一方面,提供批处理数据任务的节点管理方法,应用于分布式服务器,包括一个主控节点和多个从节点,该方法还包括:获取待处理数据文件;将所述待处理数据文件输入BP神经网络模型,获得分类结果;根据所述分类结果,将所述待处理数据文件划分为多线数据文件;将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件;获取任一从节点的目标参数;其中,所述目标参数包括数据文件的类型、文件格式以及核心词;获取任一批次任务列表中待处理数据文件的待处理参数;计算所述目标参数与所述待处理参数之间的匹配度;获取任一批次任务列表的优先级;其中,优先级包括高优先级和低优先级;根据所述优先级和所述匹配度,对任一批次任务列表进行标记;若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;若当前批次任务列表属于高优先级且匹配度小于预设阈值/低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配;根据所述标记,将多个批次任务列表依次分配给各个从节点;各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列;根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。
可选地,所述待处理数据文件包括:文章、新闻以及数据作业。
可选地,所述BP神经网络模型包括一个输入层、两个隐含层和一个输出层;采用BP神经网络和受限玻尔兹曼构建深度信念网络,并初始化所述BP神经网络模型的参数。
可选地,所述将所述待处理数据文件输入深度网络模型,获得分类结果,包括:提取所述待处理数据文件中包含词义信息的词汇;将所述包含词义信息的词汇输入DNN网络,构建词义融合特征;将所述词义融合特征输入BP神经网络模型,获得分类结果。
进一步地,该方法还包括:监控各从节点的数据采集状态,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主控节点开始接管该从节点的任务列表。
进一步地,该方法还包括:实时监控主控节点的状态,若与主控节点的通信失败次数达到预设次数和/或通信失败时间达到预设时间段,则确定主控节点发生故障,启动竞争主控节点控制权程序。
在本发明实施例的又一方面,提供批处理数据任务的节点管理系统,应用于分布式服务器,包括一个主控节点和多个从节点,该系统还包括:分类模块,用于获取待处理数据文件;将所述待处理数据文件输入BP神经网络模型,获得分类结果;任务分发模块,用于根据所述分类结果,将所述待处理数据文件划分为多线数据文件;将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件;获取任一从节点的目标参数;其中,所述目标参数包括数据文件的类型、文件格式以及核心词;获取任一批次任务列表中待处理数据文件的待处理参数;计算所述目标参数与所述待处理参数之间的匹配度;获取任一批次任务列表的优先级;其中,优先级包括高优先级和低优先级;根据所述优先级和所述匹配度,对任一批次任务列表进行标记;若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;若当前批次任务列表属于高优先级且匹配度小于预设阈值/低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配;根据所述标记,将多个批次任务列表依次分配给各个从节点;任务接收模块,用于各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列;根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。
可选地,所述待处理数据文件包括:文章、新闻以及数据作业。
可选地,所述BP神经网络模型包括一个输入层、两个隐含层和一个输出层;采用BP神经网络和受限玻尔兹曼构建深度信念网络,并初始化所述BP神经网络模型的参数。
可选地,所述将所述待处理数据文件输入深度网络模型,获得分类结果,包括:提取所述待处理数据文件中包含词义信息的词汇;将所述包含词义信息的词汇输入DNN网络,构建词义融合特征;将所述词义融合特征输入BP神经网络模型,获得分类结果。
进一步地,该系统还包括:从节点故障处理模块,用于监控各从节点的数据采集状态,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主控节点开始接管该从节点的任务列表。
进一步地,该系统还包括:主控节点故障处理模块,用于实时监控主控节点的状态,若与主控节点的通信失败次数达到预设次数和/或通信失败时间达到预设时间段,则确定主控节点发生故障,启动竞争主控节点控制权程序。
本发明的有益效果,如下所示:
(1)本发明应用于分布式服务器,包括一个主控节点和多个从节点,主控节点用于存储多线任务、构建多个批次任务列表并将其分配给从节点,各个从节点用于接收、存储和处理对应的批次任务列表的任务。由此大大提高了批处理数据任务的处理速度并减少资源消耗。
(2)采用BP神经网络模型对待处理数据文件分类,获得分类结果;根据所述分类结果,将所述待处理数据文件划分为多线数据文件,进而形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件。通过该方式优化批次任务列表的处理速度,且容易维护。
(3)获取任一从节点的目标参数;以及任一批次任务列表中待处理数据文件的待处理参数;计算目标参数与待处理参数之间的匹配度;获取任一批次任务列表的优先级;根据所述优先级和所述匹配度,对任一批次任务列表进行标记,划分出分配等级,根据分配等级分配多个批次任务列表。通过该方式实现批处理数据任务的合理分配,能够减少网络传输和处理器的开支。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的分布式服务器架构示意图;
图2是本申请实施例提供的批处理数据任务的节点管理方法的流程示意图;
图3是本申请实施例提供的任一批次任务列表标记方法的流程示意图;
图4是本申请实施例提供的批处理数据任务的节点管理系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了批处理数据任务的节点管理方法与系统,具体应用于数据处理领域,包括一个主控节点和多个从节点;获取待处理数据文件;将待处理数据文件输入BP神经网络模型进行分类;将待处理数据文件划分为多线数据文件,并封装成多线任务,在主控节点的任务缓冲队列中形成多个批次任务列表;将目标参数和待处理参数匹配,获得匹配度;获取任一批次任务列表的优先级;根据优先级和匹配度,对任一批次任务列表进行标记;将多个批次任务列表依次分配给各个从节点;各个从节点将接受的批次任务列表的任务存储到从节点的任务缓冲队列;获取并处理分发到从节点的任一批次任务列表的任务。通过该方法提高处理速度并减少资源消耗。
实施例一
本实施例中,提供了批处理数据任务的节点管理方法所应用的分布式服务器架构,其物理结构包括一个主控节点101和多个从节点111、112、113,主控节点101和从节点111、112、113之间可以采用TCPIP协议或数据库DB13进行通信和数据采集共享。当采用TCPIP协议进行通信和数据采集共享时,从节点111、112、113将数据通过TCPIP协议直接传输到主控节点101上。
当采用数据库131进行通信和数据采集共享时,从节点111、112、113将数据发送至数据库131,主控节点101从数据库131中获取这些数据,以实现主控节点101和从节点111、112、113的数据采集共享。
需要说明的是,在本发明提供的分布式服务器架构中,主控节点101和从节点111、112、113均可以为计算机,将批处理数据可视化显示。
实施例二
图2示出了本申请实施例提供的批处理数据任务的节点管理方法的流程示意图,请参考图2,该方法包括一个主控节点和多个从节点,还具体包括以下步骤:
S210、获取待处理数据文件。
其中,待处理数据文件可以是文章、新闻以及数据作业等,且文件格式可以是pdf、excel以及word等,在此不做具体限定。
S220、将所述待处理数据文件输入BP神经网络模型,获得分类结果。
其中,BP神经网络模型包括一个输入层、两个隐含层和一个输出层;采用BP神经网络和受限玻尔兹曼构建深度信念网络,并初始化所述BP神经网络模型的参数。
在一种实施方式中,步骤S220可以具体包括以下步骤:
S221、提取所述待处理数据文件中包含词义信息的词汇。
S222、将所述包含词义信息的词汇输入DNN网络,构建词义融合特征。
S223、将所述词义融合特征输入BP神经网络模型,获得分类结果。
S230、根据所述分类结果,将所述待处理数据文件划分为多线数据文件;将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表。
其中,任一批次任务列表包含同一类别下的多个待处理数据文件。
由此优化批次任务列表的处理速度,且容易维护。
S240、对任一批次任务列表进行标记。
其中,标记可以是第一分配标记、第二分配标记以及第三分配标记。
S250、根据所述标记,将多个批次任务列表依次分配给各个从节点。
S260、各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列。
S270、根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。
进一步地,该方法还可以包括步骤S280、监控各从节点的数据采集状态,进行故障检测和处理。
其中,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主控节点开始接管该从节点的任务列表。
进一步地,该方法还可以包括步骤S290、监控主控节点的状态,进行故障检测和处理。
其中,实时监控主控节点的状态,若与主控节点的通信失败次数达到预设次数和/或通信失败时间达到预设时间段,则确定主控节点发生故障,启动竞争主控节点控制权程序。
通过该实施方式能够大大提高批处理数据任务的处理速度,同时减少资源消耗。
实施例三
图3示出了本申请实施例提供的任一批次任务列表标记方法的流程示意图,请参考图3,具体包括以下步骤:
S310、获取任一从节点的目标参数。
其中,目标参数可以包括数据文件的类型、文件格式以及核心词;文件类型可以包括新闻、论文、娱乐以及评论等。
S320、获取任一批次任务列表中待处理数据文件的待处理参数。
其中,待处理参数与目标参数类似,也可以包括数据文件的类型、文件格式以及核心词;其中核心词可以是新闻文件中的摘要、评论文件中的情感词。
可选地,可以采用tf-idf方式抽取核心词,在此不做具体限定。
S330、计算所述目标参数与所述待处理参数之间的匹配度。
其中,该匹配度表示任一批次任务列表中全部待处理参数与任一从节点中的全部目标参数两两之间的匹配度之和。
在一种实施方式中,可以采用余弦距离计算目标参数与待处理参数之间的匹配度,公式如下:
S340、获取任一批次任务列表的优先级。
其中,优先级包括高优先级和低优先级。
在一种实施方式中,可以将任一批次任务列表数据量、安全性、授权对象等量化后进行加权求和操作,以确定优先级,公式如下:
其中,α、β、γ是权重参数,T、S、Au分别表示量化后的数据量、安全性和授权对象。
S350、根据所述优先级和所述匹配度,对任一批次任务列表进行标记。
具体地,若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;若当前批次任务列表属于高优先级且匹配度小于预设阈值/低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配。
通过该方式标记批次任务列表,实现批处理数据任务的合理分配,能够减少网络传输和处理器的开支。
实施例四
为实现上述方法类实施例,本实施例还提供批处理数据任务的节点管理系统,如图4所示,该系统应用于分布式服务器,包括一个主控节点和多个从节点,还包括以下模块:
分类模块410,用于获取待处理数据文件;将所述待处理数据文件输入BP神经网络模型,获得分类结果。
任务分发模块420,用于根据所述分类结果,将所述待处理数据文件划分为多线数据文件;将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件;获取任一从节点的目标参数;其中,所述目标参数包括数据文件的类型、文件格式以及核心词;获取任一批次任务列表中待处理数据文件的待处理参数;计算所述目标参数与所述待处理参数之间的匹配度;获取任一批次任务列表的优先级;其中,优先级包括高优先级和低优先级;根据所述优先级和所述匹配度,对任一批次任务列表进行标记;若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;若当前批次任务列表属于高优先级且匹配度小于预设阈值/低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配;根据所述标记,将多个批次任务列表依次分配给各个从节点。
任务接收模块430,用于各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列;根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。
可选地,所述待处理数据文件包括:文章、新闻以及数据作业。
可选地,所述BP神经网络模型包括一个输入层、两个隐含层和一个输出层;采用BP神经网络和受限玻尔兹曼构建深度信念网络,并初始化所述BP神经网络模型的参数。
可选地,所述将所述待处理数据文件输入深度网络模型,获得分类结果,包括:提取所述待处理数据文件中包含词义信息的词汇;将所述包含词义信息的词汇输入DNN网络,构建词义融合特征;将所述词义融合特征输入BP神经网络模型,获得分类结果。
进一步地,该系统还包括从节点故障处理模块440,用于监控各从节点的数据采集状态,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主控节点开始接管该从节点的任务列表。
进一步地,该系统还包括主控节点故障处理模块450,用于实时监控主控节点的状态,若与主控节点的通信失败次数达到预设次数和/或通信失败时间达到预设时间段,则确定主控节点发生故障,启动竞争主控节点控制权程序。
由此实现批处理数据任务的合理分配,能够减少网络传输和处理器的开支,同时大大提高了批处理数据任务的处理速度,减少资源消耗。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置中模块/单元/子单元/组件的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种批处理数据任务的节点管理方法,其特征在于,应用于分布式服务器,包括一个主控节点和多个从节点,该方法还包括:
获取待处理数据文件;
将所述待处理数据文件输入BP神经网络模型,获得分类结果;
根据所述分类结果,将所述待处理数据文件划分为多线数据文件;
将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件;
获取任一从节点的目标参数;其中,所述目标参数包括数据文件的类型、文件格式以及核心词;
获取任一批次任务列表中待处理数据文件的待处理参数;
计算所述目标参数与所述待处理参数之间的匹配度;
获取任一批次任务列表的优先级;其中,优先级包括高优先级和低优先级;
根据所述优先级和所述匹配度,对任一批次任务列表进行标记;
若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;
若当前批次任务列表属于高优先级且匹配度小于预设阈值/属于低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;
若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配;
根据所述标记,将多个批次任务列表依次分配给各个从节点;
各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列;
根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。
2.根据权利要求1所述的批处理数据任务的节点管理方法,其特征在于,所述待处理数据文件包括:文章、新闻以及数据作业。
3.根据权利要求1所述的批处理数据任务的节点管理方法,其特征在于,所述BP神经网络模型包括一个输入层、两个隐含层和一个输出层;采用BP神经网络和受限玻尔兹曼构建深度信念网络,并初始化所述BP神经网络模型的参数。
4.根据权利要求3所述的批处理数据任务的节点管理方法,其特征在于,所述将所述待处理数据文件输入深度网络模型,获得分类结果,包括:
提取所述待处理数据文件中包含词义信息的词汇;
将所述包含词义信息的词汇输入DNN网络,构建词义融合特征;
将所述词义融合特征输入BP神经网络模型,获得分类结果。
5.根据权利要求1所述的批处理数据任务的节点管理方法,其特征在于,该方法还包括:
监控各从节点的数据采集状态,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主控节点开始接管该从节点的任务列表。
6.根据权利要求1所述的批处理数据任务的节点管理方法,其特征在于,该方法还包括:
实时监控主控节点的状态,若与主控节点的通信失败次数达到预设次数和/或通信失败时间达到预设时间段,则确定主控节点发生故障,启动竞争主控节点控制权程序。
7.一种批处理数据任务的节点管理系统,其特征在于,应用于分布式服务器,包括一个主控节点和多个从节点,该系统还包括:
分类模块,用于获取待处理数据文件;将所述待处理数据文件输入BP神经网络模型,获得分类结果;
任务分发模块,用于根据所述分类结果,将所述待处理数据文件划分为多线数据文件;
将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件;
获取任一从节点的目标参数;其中,所述目标参数包括数据文件的类型、文件格式以及核心词;
获取任一批次任务列表中待处理数据文件的待处理参数;
计算所述目标参数与所述待处理参数之间的匹配度;
获取任一批次任务列表的优先级;其中,优先级包括高优先级和低优先级;
根据所述优先级和所述匹配度,对任一批次任务列表进行标记;
若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;
若当前批次任务列表属于高优先级且匹配度小于预设阈值/属于低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;
若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配;
根据所述标记,将多个批次任务列表依次分配给各个从节点;
任务接收模块,用于各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列;
根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。
8.根据权利要求7所述的批处理数据任务的节点管理系统,其特征在于,所述将所述待处理数据文件输入深度网络模型,获得分类结果,包括:
提取所述待处理数据文件中包含词义信息的词汇;
将所述包含词义信息的词汇输入DNN网络,构建词义融合特征;
将所述词义融合特征输入BP神经网络模型,获得分类结果。
9.根据权利要求7所述的批处理数据任务的节点管理系统,其特征在于,该系统还包括:
从节点故障处理模块,用于监控各从节点的数据采集状态,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主控节点开始接管该从节点的任务列表。
10.根据权利要求7所述的批处理数据任务的节点管理系统,其特征在于,该系统还包括:
主控节点故障处理模块,用于实时监控主控节点的状态,若与主控节点的通信失败次数达到预设次数和/或通信失败时间达到预设时间段,则确定主控节点发生故障,启动竞争主控节点控制权程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210764847.1A CN114860672B (zh) | 2022-07-01 | 2022-07-01 | 批处理数据任务的节点管理方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210764847.1A CN114860672B (zh) | 2022-07-01 | 2022-07-01 | 批处理数据任务的节点管理方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114860672A true CN114860672A (zh) | 2022-08-05 |
CN114860672B CN114860672B (zh) | 2023-03-24 |
Family
ID=82626492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210764847.1A Active CN114860672B (zh) | 2022-07-01 | 2022-07-01 | 批处理数据任务的节点管理方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860672B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217920A (zh) * | 2023-11-08 | 2023-12-12 | 深圳海辰储能科技有限公司 | 一种储能交易数据处理方法、装置和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912401A (zh) * | 2016-04-08 | 2016-08-31 | 中国银行股份有限公司 | 一种分布式数据批处理系统和方法 |
CN111225050A (zh) * | 2020-01-02 | 2020-06-02 | 中国神华能源股份有限公司神朔铁路分公司 | 云计算资源分配方法及装置 |
CN111381948A (zh) * | 2020-02-04 | 2020-07-07 | 北京贝思科技术有限公司 | 分布式计算任务处理方法、装备及电子设备 |
CN112162865A (zh) * | 2020-11-03 | 2021-01-01 | 中国工商银行股份有限公司 | 服务器的调度方法、装置和服务器 |
CN113255165A (zh) * | 2021-06-28 | 2021-08-13 | 中国人民解放军国防科技大学 | 一种基于动态任务分配的实验方案并行推演系统 |
CN113391814A (zh) * | 2021-06-02 | 2021-09-14 | 中电金信软件有限公司 | 任务处理方法、装置、系统及存储介质 |
-
2022
- 2022-07-01 CN CN202210764847.1A patent/CN114860672B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912401A (zh) * | 2016-04-08 | 2016-08-31 | 中国银行股份有限公司 | 一种分布式数据批处理系统和方法 |
CN111225050A (zh) * | 2020-01-02 | 2020-06-02 | 中国神华能源股份有限公司神朔铁路分公司 | 云计算资源分配方法及装置 |
CN111381948A (zh) * | 2020-02-04 | 2020-07-07 | 北京贝思科技术有限公司 | 分布式计算任务处理方法、装备及电子设备 |
CN112162865A (zh) * | 2020-11-03 | 2021-01-01 | 中国工商银行股份有限公司 | 服务器的调度方法、装置和服务器 |
CN113391814A (zh) * | 2021-06-02 | 2021-09-14 | 中电金信软件有限公司 | 任务处理方法、装置、系统及存储介质 |
CN113255165A (zh) * | 2021-06-28 | 2021-08-13 | 中国人民解放军国防科技大学 | 一种基于动态任务分配的实验方案并行推演系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217920A (zh) * | 2023-11-08 | 2023-12-12 | 深圳海辰储能科技有限公司 | 一种储能交易数据处理方法、装置和存储介质 |
CN117217920B (zh) * | 2023-11-08 | 2024-01-30 | 深圳海辰储能科技有限公司 | 一种储能交易数据处理方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114860672B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022057658A1 (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN103513983B (zh) | 用于预测性警报阈值确定工具的方法和系统 | |
CN114265979B (zh) | 确定融合参数的方法、信息推荐方法和模型训练方法 | |
US20210288928A1 (en) | Determining engagement scores for sub-categories in a digital domain by a computing system | |
CN111352962B (zh) | 客户画像构建方法及装置 | |
CN112380859A (zh) | 舆情信息的推荐方法、装置、电子设备及计算机存储介质 | |
CN114663198A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN115002200A (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
CN113051317B (zh) | 一种数据挖掘模型更新方法、系统、计算机设备及可读介质 | |
CN114860672B (zh) | 批处理数据任务的节点管理方法与系统 | |
CN113051480A (zh) | 资源推送方法、装置、电子设备及存储介质 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
CA3169417A1 (en) | Method of and system for appraising risk | |
CN116911805B (zh) | 资源告警方法、装置、电子设备和计算机可读介质 | |
CN115641198A (zh) | 用户运营方法、装置、电子设备和存储介质 | |
CN115564578B (zh) | 欺诈识别模型生成方法 | |
CN115168509A (zh) | 风控数据的处理方法及装置、存储介质、计算机设备 | |
CN113554184A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN112258285A (zh) | 一种内容推荐方法及装置、设备、存储介质 | |
CN110990256A (zh) | 开源代码检测方法、装置及计算机可读存储介质 | |
CN116089722B (zh) | 基于图产出标签的实现方法、装置、计算设备和存储介质 | |
US11914665B2 (en) | Multi-modal machine-learning model training for search | |
WO2024051492A1 (zh) | 内容推送方法、装置、设备和介质 | |
CN110532540B (zh) | 确定用户偏好的方法、系统、计算机系统和可读存储介质 | |
CN115455298A (zh) | 目标物品确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |