CN111679860B - 分布式信息处理方法及装置 - Google Patents

分布式信息处理方法及装置 Download PDF

Info

Publication number
CN111679860B
CN111679860B CN202010804863.XA CN202010804863A CN111679860B CN 111679860 B CN111679860 B CN 111679860B CN 202010804863 A CN202010804863 A CN 202010804863A CN 111679860 B CN111679860 B CN 111679860B
Authority
CN
China
Prior art keywords
distributed
model
computing
distributed computing
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010804863.XA
Other languages
English (en)
Other versions
CN111679860A (zh
Inventor
顾凌云
郭志攀
王凯
刘建业
李心恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN202010804863.XA priority Critical patent/CN111679860B/zh
Publication of CN111679860A publication Critical patent/CN111679860A/zh
Application granted granted Critical
Publication of CN111679860B publication Critical patent/CN111679860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/3822Parallel decoding, e.g. parallel decode units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种分布式信息处理方法及装置,将完成训练的分布式计算模型的模型字典文件存储到服务器的分布式文件系统中,然后将分布式计算模型的模型字典文件的读取配置参数更新为分布式文件系统关联的分布式读取参数。此后,在检测到针对分布式计算模型的调用请求后,根据分布式读取参数调用多个分布式计算节点从分布式文件系统中加载各自待计算的模型字典子文件,并分别通过多个分布式计算节点对待计算的模型字典子文件进行计算,得到计算结果,从而将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果。如此,能够有效提高计算模型的计算速度和计算性能,降低计算节点的资源配置要求。

Description

分布式信息处理方法及装置
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种分布式信息处理方法及装置。
背景技术
目前,金融风控行业正处在风口浪尖上,而想要做到风控的精准性,大数据和计算模型是必不可少的手段。传统计算模型和大数据计算是分离的两部分,大数据为计算模型提供数据支撑,计算模型根据大数据进行风控检测。
目前,模型计算过程大多是单机部署和单机计算,导致计算模型程序部署不能很好高效部署,并且单机运行效率低,对计算节点的资源配置要求较高。
发明内容
基于现有设计的不足,本申请提供一种分布式信息处理方法及装置,能够有效提高计算模型的计算速度和计算性能,降低计算节点的资源配置要求。
根据本申请实施例的第一方面,提供一种分布式信息处理方法,应用于分布式处理系统,所述分布式处理系统包括服务器以及与所述服务器通信连接的多个分布式计算节点,所述方法包括:
获取完成训练的分布式计算模型,并将所述分布式计算模型的模型字典文件存储到所述服务器的分布式文件系统中;
将所述分布式计算模型的模型字典文件的读取配置参数更新为所述分布式文件系统关联的分布式读取参数;
在检测到针对所述分布式计算模型的调用请求后,根据所述分布式读取参数调用多个分布式计算节点从所述分布式文件系统中加载各自待计算的模型字典子文件,并分别通过所述多个分布式计算节点对所述待计算的模型字典子文件进行计算,得到计算结果;
将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果。
在第一方面的一种可能的实施方式中,所述根据所述分布式读取参数调用多个分布式计算节点从所述分布式文件系统中加载各自待计算的模型字典子文件,并分别通过所述多个分布式计算节点对所述待计算的模型字典子文件进行计算,得到计算结果的步骤,包括:
根据所述分布式读取参数对所述模型字典文件进行拆分,得到所述模型字典文件的拆分字典文件,并将每个拆分字典文件加载到缓存中;
根据所述分布式读取参数从所述分布式文件系统中加载所述分布式计算模型的模型压缩文件,并对所述模型压缩文件进行解压,获得所述分布式计算模型的模型参数,并将所述模型参数加载到缓存中;
根据所述每个拆分字典文件,调用预先配置的集群执行程序分配对应的多个分布式计算节点,并通过分配的分布式计算节点读取各自对应的拆分字典文件作为所述模型字典子文件,然后分别调用每个分布式计算节点对所述模型字典子文件进行计算,得到计算结果。
在第一方面的一种可能的实施方式中,所述调用预先配置的集群执行程序分配对应的多个分布式计算节点,并通过分配的分布式计算节点读取各自对应的拆分字典文件作为所述模型字典子文件,然后分别调用每个分布式计算节点对所述模型字典子文件进行计算,得到计算结果的步骤,包括:
通过所述集群执行程序分配多个分布式计算节点,并将所述每个拆分字典文件添加到所述集群执行程序运行的临时空间以供所述多个分布式计算节点共享调用,其中,每个分布式计算节点用于同时执行至少一个集群计算任务,每个所述集群计算任务与一个拆分字典文件一一对应;
分别通过每个分布式计算节点执行至少一个对应的集群计算任务,调用所述分布式计算模型的模型参数对每个集群计算任务的拆分字典文件进行模型计算,得到计算结果。
在第一方面的一种可能的实施方式中,所述通过所述集群执行程序分配多个分布式计算节点的步骤,包括:
根据所述每个拆分字典文件的数据大小确定所述集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息,所述计算资源分配信息包括处理器资源信息和内存资源信息;
根据所述集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息分配多个分布式计算节点。
在第一方面的一种可能的实施方式中,所述分别调用每个分布式计算节点对所述模型字典子文件进行计算,得到计算结果的步骤,包括:
初始化获取所述模型字典子文件中的标签列表以及待匹配的源文本;
对所述待匹配的源文本进行分词和词性去除处理,得到处理后的文本内容;
根据所述模型字典子文件中的标签列表和所述分布式计算模型的模型参数对所述处理后的文本内容进行标签处理,得到标签处理结果。
在第一方面的一种可能的实施方式中,所述方法还包括:
在检测到新增计算节点的添加请求时,在所述新增计算节点中进行所述分布式文件系统关联的操作系统配置操作;
在其余的分布式计算节点的host文件中添加所述新增计算节点的配置信息;
将NameNode管理文件系统的命名空间配置文件复制到所述新增计算节点中,并在其余的分布式计算节点的Master节点的slaves文件中增加所述新增计算节点,然后单独启动所述新增计算节点上的datanode和nodemanager,并运行start-balancer.sh 进行数据负载均衡的配置操作,以完成所述新增计算节点的添加配置。
根据本申请的第二方面,提供一种分布式信息处理装置,应用于分布式处理系统,所述分布式处理系统包括服务器以及与所述服务器通信连接的多个分布式计算节点,所述装置包括:
获取模块,用于获取完成训练的分布式计算模型,并将所述分布式计算模型的模型字典文件存储到所述服务器的分布式文件系统中;
更新模块,用于将所述分布式计算模型的模型字典文件的读取配置参数更新为所述分布式文件系统关联的分布式读取参数;
调用计算模块,用于在检测到针对所述分布式计算模型的调用请求后,根据所述分布式读取参数调用多个分布式计算节点从所述分布式文件系统中加载各自待计算的模型字典子文件,并分别通过所述多个分布式计算节点对所述待计算的模型字典子文件进行计算,得到计算结果;
合并输出模块,用于将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果。
基于上述任一方面,本申请可以将完成训练的分布式计算模型的模型字典文件存储到服务器的分布式文件系统中,然后将分布式计算模型的模型字典文件的读取配置参数更新为分布式文件系统关联的分布式读取参数。此后,在检测到针对分布式计算模型的调用请求后,根据分布式读取参数调用多个分布式计算节点从分布式文件系统中加载各自待计算的模型字典子文件,并分别通过多个分布式计算节点对待计算的模型字典子文件进行计算,得到计算结果,从而将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果。如此,能够有效提高计算模型的计算速度和计算性能,降低计算节点的资源配置要求。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的分布式信息处理方法的流程示意图;
图2示出了本申请实施例所提供的分布式信息处理装置的功能模块示意图;
图3示出了本申请实施例所提供的用于执行上述的分布式信息处理方法的分布式处理系统的组件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
图1示出了本申请实施例提供的分布式信息处理方法的流程示意图,应当理解,在其它实施例中,本实施例的分布式信息处理方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该分布式信息处理方法的详细步骤介绍如下。
步骤S110,获取完成训练的分布式计算模型,并将分布式计算模型的模型字典文件存储到服务器的分布式文件系统中。
步骤S120,将分布式计算模型的模型字典文件的读取配置参数更新为分布式文件系统关联的分布式读取参数。
步骤S130,在检测到针对分布式计算模型的调用请求后,根据分布式读取参数调用多个分布式计算节点从分布式文件系统中加载各自待计算的模型字典子文件,并分别通过多个分布式计算节点对待计算的模型字典子文件进行计算,得到计算结果。
步骤S140,将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果。
本实施例中,分布式计算模型可以根据不同的业务需求进行配置,例如可以是针对自然语言处理的人工智能模型,可以通过搜集大量相关的训练样本进行训练,详细的训练过程在此不做追溯。
本实施例中,模型字典文件可以包括分布式计算模型有关的一系列训练集、待计算数据集等信息。
本实施例中,通过将分布式计算模型的模型字典文件的读取配置参数更新为分布式文件系统关联的分布式读取参数,就可以修改为读取分布式文件系统(HadoopDistributed File System,HDFS)的相关方法,通过将配置好的参数,传入配置加载的方法中,以便于后续的数据读取。
可以理解的是,分布式文件系统可以存储各种类型文件,分布式计算模型的模型字典文件都比较大,加载分布式计算模型需要的内存较大,时间较长。分布式文件系统的文件上传更为方便,当模型字典文件存放到分布式文件系统上时,各个分布式计算节点都可以读取。考虑到整体的分布式计算程序是在集群上运行,因此相关的代码会分布于集群的各个节点去运行,模型字典文件存放在分布式文件系统上,可以方便各个分布式计算节点的程序去加载调用,从而可以使得运行和部署效率都大大提高。
基于上述设计,本实施例将完成训练的分布式计算模型的模型字典文件存储到服务器的分布式文件系统中,然后将分布式计算模型的模型字典文件的读取配置参数更新为分布式文件系统关联的分布式读取参数。此后,在检测到针对分布式计算模型的调用请求后,根据分布式读取参数调用多个分布式计算节点从分布式文件系统中加载各自待计算的模型字典子文件,并分别通过多个分布式计算节点对待计算的模型字典子文件进行计算,得到计算结果,从而将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果。如此,能够有效提高计算模型的计算速度和计算性能,降低计算节点的资源配置要求。
在一种可能的实施方式中,对于步骤S120而言,可以通过以下示例性的子步骤来实现,详细描述如下。
子步骤S121,根据分布式读取参数对模型字典文件进行拆分,得到模型字典文件的拆分字典文件,并将每个拆分字典文件加载到缓存中。
子步骤S122,根据分布式读取参数从分布式文件系统中加载分布式计算模型的模型压缩文件,并对模型压缩文件进行解压,获得分布式计算模型的模型参数,并将模型参数加载到缓存中。
子步骤S123,根据每个拆分字典文件,调用预先配置的集群执行程序分配对应的多个分布式计算节点,并通过分配的分布式计算节点读取各自对应的拆分字典文件作为模型字典子文件,然后分别调用每个分布式计算节点对模型字典子文件进行计算,得到计算结果。
例如,在一种可能的实施方式中,子步骤S123可以进一步通过以下的实施方式来实现,具体描述如下。
(1)通过集群执行程序分配多个分布式计算节点,并将每个拆分字典文件添加到集群执行程序运行的临时空间以供多个分布式计算节点共享调用。
其中,每个分布式计算节点可以用于同时执行至少一个集群计算任务,每个集群计算任务与一个拆分字典文件一一对应。
例如,可以根据每个拆分字典文件的数据大小确定集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息,计算资源分配信息包括处理器资源信息和内存资源信息。然后,根据集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息分配多个分布式计算节点。
例如,可以根据需要解析的每个拆分字典文件的数据量大小,和每个分布式计算节点的计算效率,配置不同的参数,示例性描述如下。
第一、配置集群执行程序运行的主类包名。
第二、配置为yarn-cluster 模式,提交spark程序。
第三、配置executor-memory 为分布式计算节点的内存大小。例如,可以根据计算的每个拆分字典文件的数据量和分布式计算模型的大小进行灵活配置。
第四、配置executor-core为分布式计算节点的cpu核数。例如,可以根据计算的每个拆分字典文件的数据量配置。
第五、配置num-executors为分布式计算节点的个数。例如,可以根据数据解析需要的并发度来处理,并发度越高,速度越快。
通过采用Spark和Yarn相结合的资源调度模式,能够灵活的解决单机部署模型处理(例如自然语言处理)的数据解析程序的重复安装操作和程序资源配置。Spark程序会自动将程序分发到各个分布式计算节点,根据配置给予的资源执行对应的集群计算任务,省去了单机部署的机械重复操作。
(2)分别通过每个分布式计算节点执行至少一个对应的集群计算任务,调用分布式计算模型的模型参数对每个集群计算任务的拆分字典文件进行模型计算,得到计算结果。
在一种可能的实施方式中,在分别调用每个分布式计算节点对模型字典子文件进行计算,得到计算结果的过程中,可以初始化获取模型字典子文件中的标签列表以及待匹配的源文本,然后对待匹配的源文本进行分词和词性去除处理,得到处理后的文本内容,由此可以根据模型字典子文件中的标签列表和分布式计算模型的模型参数对处理后的文本内容进行标签处理,得到标签处理结果。
在一种可能的实施方式中,为了便于分布式计算节点的资源扩展,本实施例可以进一步增加新增计算节点的操作,示例性描述如下。
(1)在检测到新增计算节点的添加请求时,在新增计算节点中进行分布式文件系统关联的操作系统配置操作。
(2)在其余的分布式计算节点的host文件中添加新增计算节点的配置信息。
(3)将NameNode管理文件系统的命名空间配置文件复制到新增计算节点中,并在其余的分布式计算节点的Master节点的slaves文件中增加新增计算节点,然后单独启动新增计算节点上的datanode和nodemanager,并运行start-balancer.sh 进行数据负载均衡的配置操作,以完成新增计算节点的添加配置。
在新增计算节点配置完成后,集群调度程序就可以调用新增计算节点的资源和并发度,加大数据计算的处理能力。
基于同一发明构思,请参阅图2,示出了本申请实施例提供的分布式信息处理装置110的功能模块示意图,本实施例可以根据上述方法实施例对分布式信息处理装置110进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图2示出的分布式信息处理装置110只是一种装置示意图。其中,分布式信息处理装置110可以包括获取模块111、更新模块112、调用计算模块113以及合并输出模块114,下面分别对该分布式信息处理装置110的各个功能模块的功能进行详细阐述。
获取模块111,用于获取完成训练的分布式计算模型,并将分布式计算模型的模型字典文件存储到服务器的分布式文件系统中。可以理解,该获取模块111可以用于执行上述步骤S110,关于该获取模块111的详细实现方式可以参照上述对步骤S110有关的内容。
更新模块112,用于将分布式计算模型的模型字典文件的读取配置参数更新为分布式文件系统关联的分布式读取参数。可以理解,该更新模块112可以用于执行上述步骤S120,关于该更新模块112的详细实现方式可以参照上述对步骤S120有关的内容。
调用计算模块113,用于在检测到针对分布式计算模型的调用请求后,根据分布式读取参数调用多个分布式计算节点从分布式文件系统中加载各自待计算的模型字典子文件,并分别通过多个分布式计算节点对待计算的模型字典子文件进行计算,得到计算结果。可以理解,该调用计算模块113可以用于执行上述步骤S130,关于该调用计算模块113的详细实现方式可以参照上述对步骤S130有关的内容。
合并输出模块114,用于将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果。可以理解,该合并输出模块114可以用于执行上述步骤S140,关于该合并输出模块114的详细实现方式可以参照上述对步骤S140有关的内容。
在一种可能的实施方式中,调用计算模块113,具体可以用于:
根据分布式读取参数对模型字典文件进行拆分,得到模型字典文件的拆分字典文件,并将每个拆分字典文件加载到缓存中;
根据分布式读取参数从分布式文件系统中加载分布式计算模型的模型压缩文件,并对模型压缩文件进行解压,获得分布式计算模型的模型参数,并将模型参数加载到缓存中;
根据每个拆分字典文件,调用预先配置的集群执行程序分配对应的多个分布式计算节点,并通过分配的分布式计算节点读取各自对应的拆分字典文件作为模型字典子文件,然后分别调用每个分布式计算节点对模型字典子文件进行计算,得到计算结果。
在一种可能的实施方式中,调用计算模块113,具体可以用于:
通过集群执行程序分配多个分布式计算节点,并将每个拆分字典文件添加到集群执行程序运行的临时空间以供多个分布式计算节点共享调用,其中,每个分布式计算节点用于同时执行至少一个集群计算任务,每个集群计算任务与一个拆分字典文件一一对应;
分别通过每个分布式计算节点执行至少一个对应的集群计算任务,调用分布式计算模型的模型参数对每个集群计算任务的拆分字典文件进行模型计算,得到计算结果。
在一种可能的实施方式中,调用计算模块113,具体可以用于:
根据每个拆分字典文件的数据大小确定集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息,计算资源分配信息包括处理器资源信息和内存资源信息;
根据集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息分配多个分布式计算节点。
分别调用每个分布式计算节点对模型字典子文件进行计算,得到计算结果的步骤,包括:
初始化获取模型字典子文件中的标签列表以及待匹配的源文本;
对待匹配的源文本进行分词和词性去除处理,得到处理后的文本内容;
根据模型字典子文件中的标签列表和分布式计算模型的模型参数对处理后的文本内容进行标签处理,得到标签处理结果。
在一种可能的实施方式中,分布式信息处理还可以包括配置模块,具体用于:
在检测到新增计算节点的添加请求时,在新增计算节点中进行分布式文件系统关联的操作系统配置操作;
在其余的分布式计算节点的host文件中添加新增计算节点的配置信息;
将NameNode管理文件系统的命名空间配置文件复制到新增计算节点中,并在其余的分布式计算节点的Master节点的slaves文件中增加新增计算节点,然后单独启动新增计算节点上的datanode和nodemanager,并运行start-balancer.sh 进行数据负载均衡的配置操作,以完成新增计算节点的添加配置。
基于同一发明构思,请参阅图3,示出了本申请实施例提供的用于执行上述分布式信息处理方法的服务器100的结构示意框图,该服务器100可以包括分布式信息处理装置110、机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于服务器100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
分布式信息处理装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图2中所示的获取模块111、更新模块112、调用计算模块113以及合并输出模块114),当处理器130执行分布式信息处理装置110中的软件功能模块时,以实现前述方法实施例提供的分布式信息处理方法。
由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式,且服务器100可用于执行上述方法实施例提供的分布式信息处理方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
以上所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围,而仅仅是表示本申请的选定实施例。因此,本申请的保护范围应以权利要求的保护范围为准。此外,基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本申请保护的范围。

Claims (2)

1.一种分布式信息处理方法,其特征在于,应用于分布式处理系统,所述分布式处理系统包括服务器以及与所述服务器通信连接的多个分布式计算节点,所述方法包括:
获取完成训练的分布式计算模型,并将所述分布式计算模型的模型字典文件存储到所述服务器的分布式文件系统中;
将所述分布式计算模型的模型字典文件的读取配置参数更新为所述分布式文件系统关联的分布式读取参数;
在检测到针对所述分布式计算模型的调用请求后,根据所述分布式读取参数调用多个分布式计算节点从所述分布式文件系统中加载各自待计算的模型字典子文件,并分别通过所述多个分布式计算节点对所述待计算的模型字典子文件进行计算,得到计算结果;
将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果;
所述根据所述分布式读取参数调用多个分布式计算节点从所述分布式文件系统中加载各自待计算的模型字典子文件,并分别通过所述多个分布式计算节点对所述待计算的模型字典子文件进行计算,得到计算结果的步骤,包括:
根据所述分布式读取参数对所述模型字典文件进行拆分,得到所述模型字典文件的拆分字典文件,并将每个拆分字典文件加载到缓存中;
根据所述分布式读取参数从所述分布式文件系统中加载所述分布式计算模型的模型压缩文件,并对所述模型压缩文件进行解压,获得所述分布式计算模型的模型参数,并将所述模型参数加载到缓存中;
根据所述每个拆分字典文件,调用预先配置的集群执行程序分配对应的多个分布式计算节点,并通过分配的分布式计算节点读取各自对应的拆分字典文件作为所述模型字典子文件,然后分别调用每个分布式计算节点对所述模型字典子文件进行计算,得到计算结果;
所述调用预先配置的集群执行程序分配对应的多个分布式计算节点,并通过分配的分布式计算节点读取各自对应的拆分字典文件作为所述模型字典子文件,然后分别调用每个分布式计算节点对所述模型字典子文件进行计算,得到计算结果的步骤,包括:
通过所述集群执行程序分配多个分布式计算节点,并将所述每个拆分字典文件添加到所述集群执行程序运行的临时空间以供所述多个分布式计算节点共享调用,其中,每个分布式计算节点用于同时执行至少一个集群计算任务,每个所述集群计算任务与一个拆分字典文件一一对应;
分别通过每个分布式计算节点执行至少一个对应的集群计算任务,调用所述分布式计算模型的模型参数对每个集群计算任务的拆分字典文件进行模型计算,得到计算结果;
所述通过所述集群执行程序分配多个分布式计算节点的步骤,包括:
根据所述每个拆分字典文件的数据大小确定所述集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息,所述计算资源分配信息包括处理器资源信息和内存资源信息;
根据所述集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息分配多个分布式计算节点;
所述分别调用每个分布式计算节点对所述模型字典子文件进行计算,得到计算结果的步骤,包括:
初始化获取所述模型字典子文件中的标签列表以及待匹配的源文本;
对所述待匹配的源文本进行分词和词性去除处理,得到处理后的文本内容;
根据所述模型字典子文件中的标签列表和所述分布式计算模型的模型参数对所述处理后的文本内容进行标签处理,得到标签处理结果;
所述方法还包括:
在检测到新增计算节点的添加请求时,在所述新增计算节点中进行所述分布式文件系统关联的操作系统配置操作;
在其余的分布式计算节点的host文件中添加所述新增计算节点的配置信息;
将NameNode管理文件系统的命名空间配置文件复制到所述新增计算节点中,并在其余的分布式计算节点的Master节点的slaves文件中增加所述新增计算节点,然后单独启动所述新增计算节点上的datanode和nodemanager,并运行start-balancer.sh 进行数据负载均衡的配置操作,以完成所述新增计算节点的添加配置。
2.一种分布式信息处理装置,其特征在于,应用于分布式处理系统,所述分布式处理系统包括服务器以及与所述服务器通信连接的多个分布式计算节点,所述装置包括:
获取模块,用于获取完成训练的分布式计算模型,并将所述分布式计算模型的模型字典文件存储到所述服务器的分布式文件系统中;
更新模块,用于将所述分布式计算模型的模型字典文件的读取配置参数更新为所述分布式文件系统关联的分布式读取参数;
调用计算模块,用于在检测到针对所述分布式计算模型的调用请求后,根据所述分布式读取参数调用多个分布式计算节点从所述分布式文件系统中加载各自待计算的模型字典子文件,并分别通过所述多个分布式计算节点对所述待计算的模型字典子文件进行计算,得到计算结果;
合并输出模块,用于将每个分布式计算节点的计算结果进行合并输出,得到分布式计算结果;
所述调用计算模块,具体用于:
根据所述分布式读取参数对所述模型字典文件进行拆分,得到所述模型字典文件的拆分字典文件,并将每个拆分字典文件加载到缓存中;
根据所述分布式读取参数从所述分布式文件系统中加载所述分布式计算模型的模型压缩文件,并对所述模型压缩文件进行解压,获得所述分布式计算模型的模型参数,并将所述模型参数加载到缓存中;
根据所述每个拆分字典文件,调用预先配置的集群执行程序分配对应的多个分布式计算节点,并通过分配的分布式计算节点读取各自对应的拆分字典文件作为所述模型字典子文件,然后分别调用每个分布式计算节点对所述模型字典子文件进行计算,得到计算结果;
所述调用计算模块,具体用于:
通过所述集群执行程序分配多个分布式计算节点,并将所述每个拆分字典文件添加到所述集群执行程序运行的临时空间以供所述多个分布式计算节点共享调用,其中,每个分布式计算节点用于同时执行至少一个集群计算任务,每个所述集群计算任务与一个拆分字典文件一一对应;
分别通过每个分布式计算节点执行至少一个对应的集群计算任务,调用所述分布式计算模型的模型参数对每个集群计算任务的拆分字典文件进行模型计算,得到计算结果;
所述调用计算模块,具体用于:
根据所述每个拆分字典文件的数据大小确定所述集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息,所述计算资源分配信息包括处理器资源信息和内存资源信息;
根据所述集群执行程序中分布式计算节点的数量以及每个分布式计算节点的计算资源分配信息分配多个分布式计算节点;
所述调用计算模块,具体用于:
初始化获取所述模型字典子文件中的标签列表以及待匹配的源文本;
对所述待匹配的源文本进行分词和词性去除处理,得到处理后的文本内容;
根据所述模型字典子文件中的标签列表和所述分布式计算模型的模型参数对所述处理后的文本内容进行标签处理,得到标签处理结果;
所述更新模块,具体用于:
在检测到新增计算节点的添加请求时,在所述新增计算节点中进行所述分布式文件系统关联的操作系统配置操作;
在其余的分布式计算节点的host文件中添加所述新增计算节点的配置信息;
将NameNode管理文件系统的命名空间配置文件复制到所述新增计算节点中,并在其余的分布式计算节点的Master节点的slaves文件中增加所述新增计算节点,然后单独启动所述新增计算节点上的datanode和nodemanager,并运行start-balancer.sh 进行数据负载均衡的配置操作,以完成所述新增计算节点的添加配置。
CN202010804863.XA 2020-08-12 2020-08-12 分布式信息处理方法及装置 Active CN111679860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010804863.XA CN111679860B (zh) 2020-08-12 2020-08-12 分布式信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010804863.XA CN111679860B (zh) 2020-08-12 2020-08-12 分布式信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN111679860A CN111679860A (zh) 2020-09-18
CN111679860B true CN111679860B (zh) 2020-11-03

Family

ID=72458331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010804863.XA Active CN111679860B (zh) 2020-08-12 2020-08-12 分布式信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN111679860B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380023B (zh) * 2021-01-18 2021-04-06 上海冰鉴信息科技有限公司 分布式模型计算控制方法及装置
CN113556247B (zh) * 2021-06-25 2023-08-01 深圳技术大学 多层参数分布式数据传输方法、装置及可读介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488775B (zh) * 2013-09-29 2016-08-10 中国科学院信息工程研究所 一种用于大数据处理的计算系统及计算方法
CN105005570B (zh) * 2014-04-23 2018-02-16 国家电网公司 基于云计算的海量智能用电数据挖掘方法及装置
CN110059066A (zh) * 2019-02-26 2019-07-26 中科遥感(深圳)卫星应用创新研究院有限公司 spark结合tensorflow进行遥感影像信息提取的方法
CN110187960A (zh) * 2019-04-23 2019-08-30 广东省智能制造研究所 一种分布式资源调度方法及装置

Also Published As

Publication number Publication date
CN111679860A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
Scolati et al. A containerized big data streaming architecture for edge cloud computing on clustered single-board devices
CN110019133B (zh) 数据在线迁移方法和装置
US20230169351A1 (en) Distributed training method based on end-to-end adaption, and device
CN108388515B (zh) 测试数据生成方法、装置、设备以及计算机可读存储介质
US10095699B2 (en) Computer-readable recording medium, execution control method, and information processing apparatus
KR20140080434A (ko) 맵리듀스 프레임워크에서 데이터 프로세싱의 최적화를 위한 디바이스 및 방법
KR101656360B1 (ko) 자동 분산병렬 처리 하둡 시스템을 지원하는 클라우드 시스템
CN111679860B (zh) 分布式信息处理方法及装置
CN108572845B (zh) 分布式微服务集群的升级方法及相关系统
CN108205469B (zh) 一种基于MapReduce的资源分配方法及服务器
WO2015021931A1 (en) Task-based modeling for parallel data integration
CN111176818B (zh) 分布式预测的方法、装置、系统、电子设备及存储介质
CN110413539B (zh) 一种数据处理方法及装置
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN110781159A (zh) Ceph目录文件信息读取方法、装置、服务器及存储介质
KR101640231B1 (ko) 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법
CN113407343A (zh) 一种基于资源分配的业务处理方法、装置及设备
CN117234582A (zh) 一种项目代码处理方法、装置、电子设备及存储介质
CN113760638A (zh) 一种基于kubernetes集群的日志服务方法和装置
CN106843822B (zh) 一种执行代码生成方法及设备
CN111767126A (zh) 分布式批量处理的系统和方法
CN110362387B (zh) 分布式任务的处理方法、装置、系统和存储介质
CN115543543A (zh) 一种应用服务处理方法、装置、设备及介质
CN112130977B (zh) 一种任务调度方法、装置、设备及介质
CN114756211A (zh) 模型训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant