CN113703986B - 一种基于大数据的信息管理系统与方法 - Google Patents
一种基于大数据的信息管理系统与方法 Download PDFInfo
- Publication number
- CN113703986B CN113703986B CN202111269878.1A CN202111269878A CN113703986B CN 113703986 B CN113703986 B CN 113703986B CN 202111269878 A CN202111269878 A CN 202111269878A CN 113703986 B CN113703986 B CN 113703986B
- Authority
- CN
- China
- Prior art keywords
- video memory
- data
- memory space
- data stream
- associated data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明提出基于大数据的信息管理方法,包括如下步骤:获取输入数据流,将图像属性数据和文本属性数据按照数据产生时序执行关联,获得多组关联数据流;将当前关联数据流作为深度学习模型的输入;当输出结果满足第一性能条件时,启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间;当第一显存空间的显存占用率超过预设的显存容量控制阈值时,启动第二显存分配进程分配第二显存空间,将下一个关联数据流存贮至第二显存空间;判断已经分配的显存空间的总容量是否超过系统控制值,如果是,则将已经分配的显存空间的目标关联数据转移至内存组件。本发明还公开实现所述方法的系统与计算机可读存储介质。
Description
技术领域
本发明属于大数据信息管理领域,尤其涉及一种基于大数据的信息管理方法以及实现所述方法的系统、计算机可读存储介质。
背景技术
在数据膨胀的当今社会里,海量数据中蕴含价值日渐凸显出来。如何有效的挖掘海量数据中的有效信息已经成为各个领域面临的共同问题。以互联网企业为代表的科技公司依据自身的实际需求,开始大量的应用机器学习、数据挖掘以及人工智能等算法获取海量数据中蕴含的信息,并且已经取得了很好的效果。当今社会已经从过去的信息匮乏,转变为信息泛滥的时代。由于网络以及相关应用的不断普及,网络数据逐渐呈现着“海量、高维”的趋势,如何利用已有的机器学习或者数据挖掘的算法,获取有效信息,已经成为学术界以及工业所共同关注的重点。
利用深度学习自动学习特征已经逐步取代了人工构建特征和统计方法。但其中一个关键问题是需要大量的数据,否则会因为参数过多过拟合。但是这个成本非常高昂,因此从海量的大数据流中获取有限数据训练高效的深度学习模型成为需要解决的问题。一个重要的里程碑是转移学习——受人类启发,不是从大量数据中从头开始学习,而是利用少量样例来解决问题。
经检索现有技术,CN111327692A提出一种模型训练方法,在硬件方面,通过将控制节点和至少一个计算节点通过网络互连,在计算节点中引入GPU作为计算资源,从而大幅度提升集群系统的硬件能力,进而提升模型训练的效率。软件方面,通过对slurm框架进行优化,引入客户端、超级管理平台等,使得集群系统用起来更方便;CN112416585A提出一种面向深度学习的GPU资源管理与智能化调度方法,包括以下步骤:第一步,用户通过前端接口组件提交深度学习作业,包括待执行的深度学习程序与训练数据集;第二步,在进行验证后将作业添加到调度器对应的待调度队列;第三步,为该作业启动独立的作业管理器;第四步,向资源管理器申请作业运行需要的计算资源;第五步,对待调度作业进行特征建模与分析;第六步,根据作业特征与集群计算节点特征生成资源调度方案;第七步,按照调度方案将作业调度到指定计算节点上;第八步,作业执行器启动容器并执行深度学习程序。该发明可解决现有集群资源调度方法在深度学习场景下GPU资源利用率低、作业执行性能差的问题。
然而,现有技术均未解决如何从海量大数据流中获取有效关联数据作为训练数据,并将数据执行对应关联便于后续存储读取的问题。
发明内容
为解决上述技术问题,本发明提出一种基于大数据的信息管理方法以及实现所述方法的系统、计算机可读存储介质。
在本发明的第一个方面,提出一种基于大数据的信息管理方法,所述方法包括如下步骤:
获取输入数据流,所述输入数据流包括图像属性数据和文本属性数据;
将所述输入数据流中的图像属性数据和文本属性数据按照数据产生时序执行关联,获得多组关联数据流;
将当前关联数据流作为深度学习模型的输入;
当所述深度学习模型的输出结果满足第一性能条件时,启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间;
当所述深度学习模型的输出结果不满足第一性能条件,抛弃当前关联数据流,将下一个关联数据流作为当前数据流。
当所述第一显存空间的显存占用率超过预设的显存容量控制阈值时,启动第二显存分配进程分配第二显存空间,将下一个关联数据流存贮至第二显存空间;
判断已经分配的显存空间的总容量是否超过系统控制值,如果是,则将所述已经分配的显存空间的目标关联数据转移至内存组件。
作为上述方法的进一步改进,
所述深度学习模型为深度高斯过程模型;
当所述深度学习模型的输出结果满足第一性能条件时,启动显存分配进程分配第一显存空间,将下一关联数据流存贮至第一显存空间,具体包括:
当所述深度高斯过程模型输出的模型训练结果的精度大于预设标准时,将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间。
进一步的,每次执行将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间的步骤后,判断所述第一显存空间的显存占用率是否超过预设的显存容量控制阈值;
如果否,则重复执行该步骤;
否则,启动显存分配进程分配第二显存空间,将所述当前关联数据流之后的下一个关联数据流存贮至第二显存空间。
在本发明的第二个方面,提供一种基于大数据的信息管理系统,其特征在于,所述系统包括:
数据获取子系统,所述数据获取子系统用于获取输入数据流;
数据关联子系统,所述数据关联子系统用于识别出所述输入数据流中的图像属性数据和文本属性数据,并基于属性数据的产生时序,执行数据关联操作,生成多组关联数据流或者孤立数据流;
数据存储子系统,所述数据存储子系统按照预设的判断条件,将所述多组关联数据流或者孤立数据流存贮至内存组件或者显存空间;
其中,所述预设的判断条件包括:
将当前关联数据流作为深度学习模型的输入;
当所述深度学习模型的输出结果满足第一性能条件时,数据存储子系统启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间;
否则,抛弃当前关联数据流,将下一个关联数据流作为当前数据流。
作为进一步的改进, 所述深度学习模型为深度高斯过程模型;
当所述深度高斯过程模型的输出结果满足第一性能条件时,所述第一显存分配进程基于所述深度学习模型的输出结果确定分配的第一显存空间的大小;
当所述第一显存空间的显存占用率超过预设的显存容量控制阈值时,启动第二显存分配进程分配第二显存空间,将下一个关联数据流存贮至第二显存空间;
所述第二显存空间的大小不大于第一显存空间的大小。
在本发明的第三个方面,提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述一种基于大数据的信息管理方法的步骤。
在本发明第四个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述一种基于大数据的信息管理方法的步骤。
本发明的技术方案可以实现大数据的有效识别与筛选,并且进行针对性的存储。当所述大数据用于深度学习的训练,尤其是涉及图像模型的神经网络、深度学习网络训练时,基于本发明所述的方法,可以从时序大数据流中,有效的识别出符合性能条件的样本数据作为后续训练数据与测试数据;同时,针对不同类型的数据实现不同类型的存储,确保后续数据存取时快速有效,不仅提升了大数据模型训练的精度,同时也提升了训练速度;并且,针对显存和内存的空间特点,适时的进行数据存储空间的分配与转移,避免了数据存储爆炸现象,充分利用了已有的存储空间。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种基于大数据的信息管理方法的主体流程图
图2-图3是图1所述方法实施例中部分判断步骤的其他分支的进一步优选实施例
图4是图1所述方法实施例中获取关联数据流的原理示意图
图5是实现图1所述方法的一种基于大数据的信息管理系统的子系统架构图
图6是实现图1-图4所述方法的电子设备的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
参照图1,是本发明一个实施例的一种基于大数据的信息管理方法的主体流程图。
图1所述方法包括多个步骤,为方便描述,结合图1,将其标注如下:
S1:获取输入数据流,所述输入数据流包括图像属性数据和文本属性数据;
在具体实现中,步骤S1可以从多种数据终端获取输入数据流;
作为示例,所述数据终端可以是固定终端或者移动终端;
所述固定终端为预定位置的图像采集装置,例如位于交通信号灯路口的摄像装置,或者位于建筑施工现场的图像监控装置。
所述摄像装置通常在预定时间节点采集多帧交通监控图像,所述图像监控装置则在预定条件满足时启动图像监控装置拍摄多张包含目标人物的场景监控图像。
以后者为例,所述图像监控装置包括分布于建筑施工现场多个预定位置的多个图像采集端,所述图像采集端包括红外探测仪;
当通过所述红外探测仪探测到预定范围内存在目标对象时,激活所述图像采集端,拍摄多张包含目标人物的场景监控图像。
在一些情况下,需要通过场景监控图像来进行深度学习模型训练,例如,基于模型实现基于深度学习的目标检测。
此时,就需要获得大量的有效的训练样本数据,在正常情况下,这些样本数据同时包括图像属性数据和文本属性数据;文本属性数据为所述图像属性数据的标注数据,所述标注为自动标注或者人工标注。
为方便描述,假设输入数据流中的图像属性数据为Image1,Image2,……ImageN;文本数据属性为Text1,Text2,……,TextM;
S2:将所述输入数据流中的图像属性数据和文本属性数据按照数据产生时序执行关联,获得多组关联数据流;
基于前述描述,在本实施例以及后续实施例中,
假设关联数据流为Image1-Text2,Image2-Text3,Image4-Text6,……
S3:将当前关联数据流作为深度学习模型的输入;
此时,选择第一个未处理的关联数据流Image1-Text2为当前关联数据流;
S4:判断所述深度学习模型的输出结果是否满足第一性能条件,
如果是,启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间;
这里的第一性能条件,以及后续的第二性能条件,可以是所述深度学习模型或者非深度学习模型的输出结果满足预定精度,精度可以采用多种标准进行衡量,例如损失函数、达到预定结果时的迭代次数等,本发明对此不做具体限定。
假设当前关联数据流Image1-Text2输入至所述深度学习模型后,所述深度学习模型的输出结果满足第一性能条件,则将下一个关联数据流Image2-Text3存贮至第一显存空间;
作为优选,取决于第一性能条件的设置强度,此时,可以选择将当前关联数据流Image1-Text2和下一个关联数据流Image2-Text3均存储至第一显存空间。
继续的,当所述深度学习模型的输出结果满足第一性能条件时,启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间之后,返回步骤S3;
即此时,将Image4-Text6作为当前关联数据流作为深度学习模型的输入,继续上述过程;
S5:判断所述第一显存空间的显存占用率是否超过预设的显存容量控制阈值;
如果是,则启动第二显存分配进程分配第二显存空间,将下一个关联数据流存贮至第二显存空间;
需要注意的是,这里的“启动第二显存分配进程”是相对于前面的“启动第一显存分配进程”来说的,即在前次的“显存分配进程”基础上,启动的“新的”显存分配进程。如果该步骤S5重复执行,则意味着每次都是启动一个新的显存分配进程。
作为具体的例子,假设将关联数据流Image1-Text2和关联数据流Image2-Text3存储至第一显存空间之后,第一显存空间的显存占用率超过预设的显存容量控制阈值,则Image4-Text6作为下一个关联数据流输入至所述深度学习模型后,若所述深度学习模型的输出结果满足第一性能条件时,则启动第二显存分配进程分配第二显存空间,将Image4-Text6存贮至第二显存空间。
S6:判断已经分配的显存空间的总容量是否超过系统控制值,如果是,则将所述已经分配的显存空间的目标关联数据转移至内存组件;
当然,如果判断已经分配的显存空间的总容量未超过系统控制值,则可以继续进行显存分配进程,即返回步骤S5,启动一个新的显存分配进程分配新的显存空间,将下一个关联数据流存贮至新的显存空间。
基于上述介绍可知,图1所述的方法包括多个判断分支步骤,图2-图3进一步介绍了其中的其他分支的实现方式。
在图2中,所述方法进一步包括:
S1:获取输入数据流,所述输入数据流包括图像属性数据和文本属性数据;
S2:将所述输入数据流中的图像属性数据和文本属性数据按照数据产生时序执行关联,获得多组关联数据流;
S3:将当前关联数据流作为深度学习模型的输入;
S4:当所述深度学习模型的输出结果满足第一性能条件时,启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间;
否则,当所述深度学习模型的输出结果不满足第一性能条件时,抛弃当前关联数据流,将下一个关联数据流作为当前数据流,返回步骤S3。
在图3中,所述方法进一步包括(从步骤S5开始,之前的步骤参见图1或图2):
S5:判断所述第一显存空间的显存占用率是否超过预设的显存容量控制阈值;
如果是,则启动第二显存分配进程分配第二显存空间,将下一个关联数据流存贮至第二显存空间;
如果否,则返回步骤S4中,将下一个关联数据流继续存贮至第一显存空间,即此时不需要启动新的显存分配进程。
图4是图1所述方法实施例中获取关联数据流的原理示意图。
如前所述,在一些情况下,需要通过场景监控图像来进行深度学习模型训练,例如,基于模型实现基于深度学习的目标检测。
此时,就需要获得大量的有效的训练样本数据,在正常情况下,这些样本数据同时包括图像属性数据和文本属性数据;文本属性数据为所述图像属性数据的标注数据,所述标注为自动标注或者人工标注。
然而,在实际数据流产生过程中,并不是每一次产生的数据流都是有效数据流,例如,有些图像属性数据并未同时产生文本属性(标注)数据;或者,有些文本标准数据与图像属性数据不匹配等,在大部分模型训练中,这种数据称之为无效数据,暂时无法用于模型训练或者测试,需要另存处理。
因此,在图4中,将所述输入数据流中的图像属性数据和文本属性数据按照数据产生时序执行关联,获得关联数据流,具体包括:
将产生时间的差值在预设范围内的图像属性数据和文本属性数据执行关联,获得多组关联数据流。
作为优选,执行关联包括:
图像属性数据和文本属性数据产生时间的差值在预设范围内;
例如,假设输入数据流中的图像属性数据为Image1,Image2,……ImageN;文本数据属性为Text1,Text2,……,TextM;
若Image1的数据产生时间为1:00,Text2的数据产生时间为1:01,Image2的数据产生时间为1:35,Text3的数据产生时间为1:35,则Image1和Text2,Image2和Text3可关联;
作为进一步的优选,可进一步将图像属性数据和文本属性数据在语义上执行相似度匹配,若图像属性数据和文本属性数据在语义上的匹配度高于预定值,则二者可以关联。
与此相对应的,若某个图像属性数据无法匹配到可与其执行关联的文本属性数据,则该图像属性数据为孤立图像数据;若某个文本属性数据无法匹配到可与其执行关联的图像属性数据,则该文本属性数据为孤立文本数据;
将所述孤立图像数据或者孤立文本数据作为非深度学习模型的输入; 当所述非深度学习模型的输出结果满足第二性能条件时,将所述孤立图像数据或者孤立文本数据存贮至内存组件。
非深度学习模型和深度学习模型是相对的,深度学习模型的训练样本为多维非线性的,非深度学习模型则可以采用单一维度的非关联数据。
这样的模型的例子可参见CN113159325A、CN113485848A、CN112597356A、CN112418392A等现有技术介绍,本发明对此不作展开。
作为进一步的优选,所述深度学习模型为深度高斯过程模型;
当所述深度学习模型的输出结果满足第一性能条件时,启动显存分配进程分配第一显存空间,将下一关联数据流存贮至第一显存空间,具体包括: 当所述深度高斯过程模型输出的模型训练结果的精度大于预设标准时,将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间。
每次执行将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间的步骤后,判断所述第一显存空间的显存占用率是否超过预设的显存容量控制阈值;
如果否,则重复执行该步骤;
否则,启动显存分配进程分配第二显存空间,将所述当前关联数据流之后的下一个关联数据流存贮至第二显存空间。
所述第一显存分配进程基于所述深度学习模型的输出结果确定分配的第一显存空间的大小;
所述第二显存分配进程分配的第二显存空间不大于所述第一显存分配进程分配的第一显存空间。
图5示出了实现所述方法的计算机系统的架构形式。
在图5中,示出一种基于大数据的信息管理系统,所述系统包括:
数据获取子系统,所述数据获取子系统用于获取输入数据流;
数据关联子系统,所述数据关联子系统用于识别出所述输入数据流中的图像属性数据和文本属性数据,并基于属性数据的产生时序,执行数据关联操作,生成多组关联数据流或者孤立数据流;
数据存储子系统,所述数据存储子系统按照预设的判断条件,将所述多组关联数据流或者孤立数据流存贮至内存组件或者显存空间;
其中,所述预设的判断条件包括:
将当前关联数据流作为深度学习模型的输入;
当所述深度学习模型的输出结果满足第一性能条件时,数据存储子系统启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间;
否则,抛弃当前关联数据流,将下一个关联数据流作为当前数据流。
所述孤立数据流包括孤立图像数据或者孤立文本数据;
若某个图像属性数据无法匹配到可与其执行关联的文本属性数据,则该图像属性数据为孤立图像数据;
若某个文本属性数据无法匹配到可与其执行关联的图像属性数据,则该文本属性数据为孤立文本数据;
将所述孤立图像数据或者孤立文本数据作为非深度学习模型的输入;
当所述非深度学习模型的输出结果满足第二性能条件时,将所述孤立图像数据或者孤立文本数据存贮至内存组件。
所述深度学习模型为深度高斯过程模型;
当所述深度高斯过程模型的输出结果满足第一性能条件时,所述第一显存分配进程基于所述深度学习模型的输出结果确定分配的第一显存空间的大小;
当所述第一显存空间的显存占用率超过预设的显存容量控制阈值时,启动第二显存分配进程分配第二显存空间,将下一个关联数据流存贮至第二显存空间;
所述第二显存空间的大小不大于第一显存空间的大小。
为了加快模型训练过程中GPU对数据的访问速度,可以根据数据的业务类型或者对应的函数类型对数据做进一步划分,为同一读取进程分配多个单位显存,然后将划分好的数据存储进对应的单位显存中,简言之,同一进程可以对应多个单位显存;
作为进一步优选,数据除了被存储在单位显存中以外,还有部分数据存储在了内存组件中的单位图形表转换内存中。其中,单位图形表转换内存属于内存组件中可以被GPU硬件访问的内存。因为,倘若将对应的所有数据均存储在显存组件中,其占用的显存对应的预占用显存容量将很快超过存容量控制阈值,导致系统卡顿。
因此,作为进一步的改进,在上述各个实施例中,判断已经分配的显存空间的总容量是否超过系统控制值,如果是,则将所述已经分配的显存空间的目标关联数据转移至内存组件;
所述目标关联数据基于所述已经分配的显存空间中存贮的关联数据流的访问次数、访问时间、创建时间、业务优先级之一或者其任意组合来确定。
例如,将所述已经分配的每个显存空间中存贮的访问次数最低、和/或、访问时间最早、和/或、创建时间最早、和/或、业务优先级最低的关联数据流作为目标关联数据。
本发明的技术方案可以实现大数据的有效识别与筛选,并且进行针对性的存储。当所述大数据用于深度学习的训练,尤其是涉及图像模型的神经网络、深度学习网络训练时,基于本发明所述的方法,可以从时序大数据流中,有效的识别出符合性能条件的样本数据作为后续训练数据与测试数据;同时,针对不同类型的数据实现不同类型的存储,确保后续数据存取时快速有效,不仅提升了大数据模型训练的精度,同时也提升了训练速度;并且,针对显存和内存的空间特点,适时的进行数据存储空间的分配与转移,避免了数据存储爆炸现象,充分利用了已有的存储空间。
需要指出的是,图1-图4所述步骤或者所述方法、流程,均可以通过计算机程序指令自动化的实现。因此,参见图6,提供一种电子设备,该电子设备包括总线、处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。
再一个实施例中,本发明还提供了一种计算机可读存储介质(Memory),所述计算机可读存储介质是终端电力二次设备中的记忆电力二次设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端电力二次设备中的内置存储介质,当然也可以包括终端电力二次设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器,例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关调控系统容器化应用运行管理方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可参照根据本申请实施例的方法、电力二次设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解,本申请可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理电力二次设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理电力二次设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理电力二次设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理电力二次设备上,使得在计算机或其他可编程电力二次设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程电力二次设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
本发明未特别明确的部分模块结构,以现有技术记载的内容为准。本发明在前述背景技术部分提及的现有技术可作为本发明的一部分,用于理解部分技术特征或者参数的含义。本发明的保护范围以权利要求实际记载的内容为准。
Claims (8)
1.一种基于大数据的信息管理方法,其特征在于,所述方法包括如下步骤:
获取输入数据流,所述输入数据流包括图像属性数据和文本属性数据;
将所述输入数据流中的图像属性数据和文本属性数据按照数据产生时序执行关联,获得多组关联数据流;
将当前关联数据流作为深度学习模型的输入;
当所述深度学习模型的输出结果满足第一性能条件时,启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间;否则,抛弃当前关联数据流,将下一个关联数据流作为当前数据流;
当所述第一显存空间的显存占用率超过预设的显存容量控制阈值时,启动第二显存分配进程分配第二显存空间,将下一个关联数据流存贮至第二显存空间;
判断已经分配的显存空间的总容量是否超过系统控制值,如果是,则将所述已经分配的显存空间的目标关联数据转移至内存组件;
所述目标关联数据基于所述已经分配的显存空间中存贮的关联数据流的访问次数、访问时间、创建时间、业务优先级之一或者其任意组合来确定;
其中,所述深度学习模型为深度高斯过程模型;
当所述深度学习模型的输出结果满足第一性能条件时,启动第一显存分配进程分配第一显存空间,将下一关联数据流存贮至第一显存空间,具体包括:
当所述深度高斯过程模型输出的模型训练结果的精度大于预设标准时,将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间;
其中,每次执行将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间的步骤后,判断所述第一显存空间的显存占用率是否超过预设的显存容量控制阈值;
如果否,则重复执行将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间的步骤后,判断所述第一显存空间的显存占用率是否超过预设的显存容量控制阈值;
如果是,启动显存分配进程分配第二显存空间,将所述当前关联数据流之后的下一个关联数据流存贮至第二显存空间。
2.如权利要求1所述的一种基于大数据的信息管理方法,其特征在于:
将所述输入数据流中的图像属性数据和文本属性数据按照数据产生时序执行关联,获得关联数据流,具体包括:
将产生时间的差值在预设范围内的图像属性数据和文本属性数据执行关联,获得多组关联数据流。
3.如权利要求2所述的一种基于大数据的信息管理方法,其特征在于:
若某个图像属性数据无法匹配到可与其执行关联的文本属性数据,则该图像属性数据为孤立图像数据;
若某个文本属性数据无法匹配到可与其执行关联的图像属性数据,则该文本属性数据为孤立文本数据;
将所述孤立图像数据或者孤立文本数据作为非深度学习模型的输入;
当所述非深度学习模型的输出结果满足第二性能条件时,将所述孤立图像数据或者孤立文本数据存贮至内存组件。
4.如权利要求1所述的一种基于大数据的信息管理方法,其特征在于:
所述第一显存分配进程基于所述深度学习模型的输出结果确定分配的第一显存空间的大小;
所述第二显存分配进程分配的第二显存空间不大于所述第一显存分配进程分配的第一显存空间。
5.一种基于大数据的信息管理系统,其特征在于,所述系统包括:
数据获取子系统,所述数据获取子系统用于获取输入数据流;
数据关联子系统,所述数据关联子系统用于识别出所述输入数据流中的图像属性数据和文本属性数据,并基于属性数据的产生时序,执行数据关联操作,生成多组关联数据流或者孤立数据流;
数据存储子系统,所述数据存储子系统按照预设的判断条件,将所述多组关联数据流或者孤立数据流存贮至内存组件或者显存空间;
其中,所述预设的判断条件包括:
将当前关联数据流作为深度学习模型的输入;
当所述深度学习模型的输出结果满足第一性能条件时,数据存储子系统启动第一显存分配进程分配第一显存空间,将下一个关联数据流存贮至第一显存空间;
否则,抛弃当前关联数据流,将下一个关联数据流作为当前数据流;
其中,所述深度学习模型为深度高斯过程模型;
当所述深度学习模型的输出结果满足第一性能条件时,启动第一显存分配进程分配第一显存空间,将下一关联数据流存贮至第一显存空间,具体包括:
当所述深度高斯过程模型输出的模型训练结果的精度大于预设标准时,将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间;
其中,每次执行将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间的步骤后,判断所述第一显存空间的显存占用率是否超过预设的显存容量控制阈值;
如果否,则重复执行将所述当前关联数据流之后的下一个关联数据流存贮至第一显存空间的步骤后,判断所述第一显存空间的显存占用率是否超过预设的显存容量控制阈值;
如果是,启动显存分配进程分配第二显存空间,将所述当前关联数据流之后的下一个关联数据流存贮至第二显存空间。
6.如权利要求5所述的一种基于大数据的信息管理系统,其特征在于:
所述孤立数据流包括孤立图像数据或者孤立文本数据;
若某个图像属性数据无法匹配到可与其执行关联的文本属性数据,则该图像属性数据为孤立图像数据;
若某个文本属性数据无法匹配到可与其执行关联的图像属性数据,则该文本属性数据为孤立文本数据;
将所述孤立图像数据或者孤立文本数据作为非深度学习模型的输入;
当所述非深度学习模型的输出结果满足第二性能条件时,将所述孤立图像数据或者孤立文本数据存贮至内存组件。
7.如权利要求5所述的一种基于大数据的信息管理系统,其特征在于:
当所述深度高斯过程模型的输出结果满足第一性能条件时,所述第一显存分配进程基于所述深度学习模型的输出结果确定分配的第一显存空间的大小;
当所述第一显存空间的显存占用率超过预设的显存容量控制阈值时,启动第二显存分配进程分配第二显存空间,将下一个关联数据流存贮至第二显存空间;
所述第二显存空间的大小不大于第一显存空间的大小。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111269878.1A CN113703986B (zh) | 2021-10-29 | 2021-10-29 | 一种基于大数据的信息管理系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111269878.1A CN113703986B (zh) | 2021-10-29 | 2021-10-29 | 一种基于大数据的信息管理系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113703986A CN113703986A (zh) | 2021-11-26 |
CN113703986B true CN113703986B (zh) | 2022-03-11 |
Family
ID=78647666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111269878.1A Active CN113703986B (zh) | 2021-10-29 | 2021-10-29 | 一种基于大数据的信息管理系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113703986B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447253A (zh) * | 2018-10-26 | 2019-03-08 | 杭州比智科技有限公司 | 显存分配的方法、装置、计算设备及计算机存储介质 |
US20190354806A1 (en) * | 2018-05-15 | 2019-11-21 | Hitachi, Ltd. | Neural Networks for Discovering Latent Factors from Data |
CN111798543A (zh) * | 2020-09-10 | 2020-10-20 | 北京易真学思教育科技有限公司 | 模型训练方法、数据处理方法、装置、设备及存储介质 |
CN112650868A (zh) * | 2020-12-29 | 2021-04-13 | 苏州科达科技股份有限公司 | 图像检索方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107659609B (zh) * | 2017-07-26 | 2021-01-12 | 北京天云融创软件技术有限公司 | 一种基于云计算的深度学习支撑平台及深度学习训练方法 |
-
2021
- 2021-10-29 CN CN202111269878.1A patent/CN113703986B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190354806A1 (en) * | 2018-05-15 | 2019-11-21 | Hitachi, Ltd. | Neural Networks for Discovering Latent Factors from Data |
CN109447253A (zh) * | 2018-10-26 | 2019-03-08 | 杭州比智科技有限公司 | 显存分配的方法、装置、计算设备及计算机存储介质 |
CN111798543A (zh) * | 2020-09-10 | 2020-10-20 | 北京易真学思教育科技有限公司 | 模型训练方法、数据处理方法、装置、设备及存储介质 |
CN112650868A (zh) * | 2020-12-29 | 2021-04-13 | 苏州科达科技股份有限公司 | 图像检索方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113703986A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447253B (zh) | 显存分配的方法、装置、计算设备及计算机存储介质 | |
CN109886859A (zh) | 数据处理方法、系统、电子设备和计算机可读存储介质 | |
CN112200296B (zh) | 网络模型量化方法、装置、存储介质及电子设备 | |
CN112148468B (zh) | 一种资源调度方法、装置、电子设备及存储介质 | |
CN110516714B (zh) | 一种特征预测方法、系统及引擎 | |
CN106383746A (zh) | 大数据处理系统的配置参数确定方法和装置 | |
CN112732949B (zh) | 一种业务数据的标注方法、装置、计算机设备和存储介质 | |
CN111813517B (zh) | 任务队列的分配方法、装置、计算机设备及介质 | |
US20210019456A1 (en) | Accelerated simulation setup process using prior knowledge extraction for problem matching | |
CN115794341A (zh) | 基于人工智能的任务调度方法、装置、设备及存储介质 | |
CN112650449B (zh) | 缓存空间的释放方法、释放系统、电子设备及存储介质 | |
CN112817560B (zh) | 一种基于表函数的计算任务处理方法、系统及计算机可读存储介质 | |
CN113703986B (zh) | 一种基于大数据的信息管理系统与方法 | |
CN115883392B (zh) | 算力网络的数据感知方法、装置、电子设备及存储介质 | |
KR20210129465A (ko) | 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법 | |
CN116662509A (zh) | 大规模语言模型的开放域问答实现方法、装置及设备 | |
CN116820714A (zh) | 一种算力设备的调度方法、装置、设备和存储介质 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
US11947577B2 (en) | Auto-completion based on content similarities | |
CN111309821B (zh) | 基于图数据库的任务调度方法、装置及电子设备 | |
CN114372082A (zh) | 基于人工智能的数据查询方法、装置、电子设备及介质 | |
Du et al. | OctopusKing: A TCT-aware task scheduling on spark platform | |
CN110019830B (zh) | 语料处理、词向量获取方法及装置、存储介质及设备 | |
CN115248831B (zh) | 一种标注方法、装置、系统、设备及可读存储介质 | |
CN116610725B (zh) | 一种应用于大数据的实体增强规则挖掘方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |