CN115016950B - 一种基于多线程模型的数据分析方法及系统 - Google Patents
一种基于多线程模型的数据分析方法及系统 Download PDFInfo
- Publication number
- CN115016950B CN115016950B CN202210949987.6A CN202210949987A CN115016950B CN 115016950 B CN115016950 B CN 115016950B CN 202210949987 A CN202210949987 A CN 202210949987A CN 115016950 B CN115016950 B CN 115016950B
- Authority
- CN
- China
- Prior art keywords
- task
- processed
- thread
- model
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000007405 data analysis Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 272
- 239000013598 vector Substances 0.000 claims abstract description 170
- 238000012549 training Methods 0.000 claims abstract description 151
- 230000000875 corresponding effect Effects 0.000 claims description 153
- 238000012360 testing method Methods 0.000 claims description 99
- 238000012795 verification Methods 0.000 claims description 85
- 230000000977 initiatory effect Effects 0.000 claims description 70
- 238000007689 inspection Methods 0.000 claims description 62
- 238000004364 calculation method Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 37
- 238000001514 detection method Methods 0.000 claims description 30
- 230000002596 correlated effect Effects 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012896 Statistical algorithm Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5018—Thread allocation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于多线程模型的数据分析方法及系统,包括:首先确定待处理任务的多个任务资源消耗向量;然后根据多个任务资源消耗向量,确定多个预估线程计算能力;接着构建模型架构分别匹配多个预估线程计算能力的多个初始线程模型;再对于任一初始线程模型,从待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,并基于样本任务处理线程标识训练得到进阶线程模型;最终根据多线程模型确定的多个待处理子任务对应的任务处理线程标识集合,完成对待处理任务的线程分配,如此设计,能够提供对需要多个线程协调处理的待处理任务实现资源利用最大化的处理方案。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于多线程模型的数据分析方法及系统。
背景技术
目前,随着业务类型的增加,对应的业务任务的复杂程度也随之增加,仅仅靠单线程对复杂业务对应的任务进行处理效率十分低下。在现有技术中,存在利用多线程的思想对复杂业务对应任务进行处理,但具体分配哪些线程进行处理,并没有一个明确标准,这导致了分配的多个线程中,存在计算资源不足或者计算资源过剩的情况发送,无法提高整体线程的资源利用率。
发明内容
本发明的目的在于提供一种基于多线程模型的数据分析方法及系统。
第一方面,本发明实施例提供一种基于多线程模型的数据分析方法,方法包括:
确定待处理任务的多个任务资源消耗向量,多个任务资源消耗向量用于表示待处理任务的多个待处理子任务的不同计算资源裕量,一个任务资源消耗向量对应至少一个待处理子任务;
根据多个任务资源消耗向量,确定多个预估线程计算能力,一个预估线程计算能力对应一个任务资源消耗向量,且预估线程计算能力与对应的任务资源消耗向量所表示的计算资源裕量呈正相关;
构建模型架构分别匹配多个预估线程计算能力的多个初始线程模型,多个初始线程模型分别用于学习不同计算资源裕量的待处理子任务的需求线程计算能力;
对于任一初始线程模型,从待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,初始任务资源消耗向量对应于初始线程模型的预估线程计算能力,根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,进阶线程模型用于为初始待处理子任务生成任务处理线程标识;
根据训练得到的多个进阶线程模型,确定多线程模型,多线程模型用于为多个待处理子任务生成不同计算资源的任务处理线程标识;
根据多线程模型确定的多个待处理子任务对应的任务处理线程标识集合,完成对待处理任务的线程分配。
在一种可能的实施方式中,初始线程模型包括多个初始需求线程计算能力网络结构,多个初始需求线程计算能力网络结构用于学习待处理子任务的不同任务场景的需求线程计算能力;
根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型之前,方法还包括:
获取初始置信度输出模型,初始置信度输出模型用于确定线程模型输出的任务处理线程标识的置信度;
根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,包括:
根据初始待处理子任务的样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,目标线程模型包括多个进阶需求线程计算能力网络结构;
根据进阶置信度输出模型,确定多个进阶需求线程计算能力网络结构的置信度;
根据多个进阶需求线程计算能力网络结构的置信度,将多个进阶需求线程计算能力网络结构的结构参量进行整合,得到进阶线程模型。
在一种可能的实施方式中,根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,包括:
确定进阶待处理子任务,进阶待处理子任务是待处理任务中除初始待处理子任务之外的其他待处理子任务;
从待处理任务的样本任务处理线程标识中,获取进阶待处理子任务的样本任务处理线程标识;
根据初始待处理子任务的样本任务处理线程标识以及进阶待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型。
在一种可能的实施方式中,确定进阶待处理子任务,包括:
根据第一关联特征,确定待处理任务中影响初始待处理子任务需求线程计算能力的进阶待处理子任务,第一关联特征用于表示多个待处理子任务需求线程计算能力的关联程度;或者,
确定待处理任务中多个待处理子任务在待处理任务中的权重,将权重超过预置权重的待处理子任务确定为进阶待处理子任务;或者,
根据初始待处理子任务对应的任务资源消耗向量,确定至少一个目标任务资源消耗向量,目标任务资源消耗向量所指示的计算资源裕量大于初始待处理子任务对应的任务资源消耗向量所指示的计算资源裕量;将至少一个目标任务资源消耗向量对应的待处理子任务确定为进阶待处理子任务。
在一种可能的实施方式中,待处理子任务的样本任务处理线程标识包括待处理子任务在预设时间范围内的第一样本任务处理线程标识和待处理子任务在预设时间范围的邻近时间范围的第二样本任务处理线程标识;
根据初始待处理子任务的样本任务处理线程标识以及进阶待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,包括:
通过初始线程模型,对初始待处理子任务的第一样本任务处理线程标识以及进阶待处理子任务的第一样本任务处理线程标识进行处理,得到初始待处理子任务的初始输出任务处理线程标识,初始输出任务处理线程标识为初始线程模型为初始待处理子任务确定的预设时间范围的邻近时间范围的任务处理线程标识;
根据初始输出任务处理线程标识和初始待处理子任务的第二样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型。
在一种可能的实施方式中,根据多个任务资源消耗向量,确定多个预估线程计算能力,包括以下至少一项:
对于任一任务资源消耗向量,确定任务资源消耗向量所指示的计算资源裕量数值,根据计算资源裕量数值,确定预估线程计算能力,预估线程计算能力与计算资源裕量数值呈正相关;
对于任一任务资源消耗向量,确定任务资源消耗向量对应的待处理子任务的任务量,根据任务量,确定预估线程计算能力,预估线程计算能力与任务量呈正相关。
在一种可能的实施方式中,确定待处理任务的多个任务资源消耗向量,包括以下任一项:
确定待处理任务中多个待处理子任务在待处理任务中的权重,根据多个待处理子任务的权重,确定多个待处理子任务对应的多个任务资源消耗向量,待处理子任务对应的任务资源消耗向量所表示的计算资源裕量与权重呈正相关;
根据待处理任务的任务摘要,确定待处理任务中多个待处理子任务的关键进程信息,根据多个待处理子任务的关键进程信息,确定多个待处理子任务对应的任务资源消耗向量,待处理子任务对应的任务资源消耗向量所表示的计算资源裕量与待处理子任务的关键进程信息所表示的必要程度呈正相关。
在一种可能的实施方式中,在确定待处理任务的多个任务资源消耗向量之前,方法还包括:
根据待处理任务,获取已归档任务的已归档发送来源信息,已归档任务与待处理任务具有强关联,已归档发送来源信息包括已归档任务的已归档任务发起时间节点和已归档任务的已归档任务发起来源的已归档任务检验时间节点;
将已归档任务发起来源的向量作为训练数据,通过待处理任务来源检验模型初始识别模型确定已归档任务发起来源在已归档任务发起时间节点后依次相邻的多个测试时间范围内分别对应的合法置信度和非法置信度,合法置信度用于标识在所对应测试时间范围已归档任务发起来源验证通过的概率,非法置信度用于标识直至所对应测试时间范围结束,已归档任务发起来源未验证通过的概率;
根据训练数据在预设第一测试时间范围中分别对应的非法置信度,确定训练数据在预设第二测试时间范围对应的非法子置信度,其中,预设第二测试时间范围为多个测试时间范围中的一个测试时间范围;
根据训练数据在预设第三测试时间范围中分别对应的非法置信度和在预设第二测试时间范围的合法置信度,确定训练数据在预设第二测试时间范围对应的合法子置信度;
根据已归档任务检验时间节点与多个测试时间范围的匹配情况以及已归档任务发起来源的合法校验对,对待处理任务来源检验模型初始识别模型进行模型优化得到第一待处理任务来源检验模型,第一待处理任务来源检验模型用于确定任务发起来源相对于待处理任务的检测结果,合法校验对包括合法子置信度和非法子置信度。
在一种可能的实施方式中,方法还包括:
根据针对待处理任务的发送请求,获取当前发送来源信息,当前发送来源信息包括发送请求时间节点和任务发起来源的当前校验时间节点;
根据任务发起来源的任务发起来源向量,通过第一待处理任务来源检验模型确定任务发起来源在发送请求时间节点后依次相邻的多个测试时间范围内分别对应的合法校验对;
根据当前校验时间节点与多个测试时间范围的匹配情况以及任务发起来源的合法校验对,对第一待处理任务来源检验模型进行模型优化得到第二待处理任务来源检验模型,第二待处理任务来源检验模型用于确定任务发起来源相对于待处理任务的检测结果;
从根据第二待处理任务来源检验模型所确定的检测结果中确定满足检验结果合法的目标检测结果;
将目标检测结果对应的参考任务来源标注为第一正样本训练数据;
根据第一正样本训练数据以及基于当前发送来源信息确定的第二正样本训练数据,对初始校验可信度模型进行训练得到待处理任务对应的校验可信度模型,校验可信度模型用于确定任务发起来源相对于待处理任务的校验准确度;
方法还包括:
根据训练数据的已归档任务检验时间节点与多个测试时间范围的匹配情况,确定训练数据在多个测试时间范围的增益舒服数据和减益舒服数据;
其中,若训练数据的已归档任务检验时间节点处于多个测试时间范围中,增益舒服数据用于提高训练数据在未验证通过的测试时间范围中非法置信度对非法子置信度的影响,减益舒服数据用于抑制训练数据在除了验证通过的测试时间范围以外的测试时间范围中非法置信度对合法子置信度的影响;
若训练数据的已归档任务检验时间节点不处于多个测试时间范围中,增益舒服数据用于提高训练数据在多个测试时间范围中最后一个测试时间范围对非法子置信度的影响;
根据训练数据在预设第一测试时间范围中分别对应的非法置信度,确定训练数据在预设第二测试时间范围对应的非法子置信度,包括:
根据训练数据在多个测试时间范围中分别对应的非法置信度,以及对应的增益舒服数据和减益舒服数据,确定训练数据在预设第二测试时间范围对应的非法子置信度;
根据训练数据在预设第三测试时间范围中分别对应的非法置信度和在预设第二测试时间范围的合法置信度,确定训练数据在预设第二测试时间范围对应的合法子置信度,包括:
根据训练数据在多个测试时间范围中分别对应的非法置信度、合法置信度以及对应的增益舒服数据和减益舒服数据,确定训练数据在预设第二测试时间范围对应的合法子置信度。
第二方面,本发明实施例一种基于多线程模型的数据分析系统,系统包括:
计算模块,用于确定待处理任务的多个任务资源消耗向量,多个任务资源消耗向量用于表示待处理任务的多个待处理子任务的不同计算资源裕量,一个任务资源消耗向量对应至少一个待处理子任务;根据多个任务资源消耗向量,确定多个预估线程计算能力,一个预估线程计算能力对应一个任务资源消耗向量,且预估线程计算能力与对应的任务资源消耗向量所表示的计算资源裕量呈正相关;
构建模块,用于构建模型架构分别匹配多个预估线程计算能力的多个初始线程模型,多个初始线程模型分别用于学习不同计算资源裕量的待处理子任务的需求线程计算能力;对于任一初始线程模型,从待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,初始任务资源消耗向量对应于初始线程模型的预估线程计算能力,根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,进阶线程模型用于为初始待处理子任务生成任务处理线程标识;根据训练得到的多个进阶线程模型,确定多线程模型,多线程模型用于为多个待处理子任务生成不同计算资源的任务处理线程标识;
分析模块,用于根据多线程模型确定的多个待处理子任务对应的任务处理线程标识集合,完成对待处理任务的线程分配。
相比现有技术,本发明提供的有益效果包括:采用本发明提供一种基于多线程模型的数据分析方法及系统,通过确定待处理任务的多个任务资源消耗向量;然后根据多个任务资源消耗向量,确定多个预估线程计算能力;接着构建模型架构分别匹配多个预估线程计算能力的多个初始线程模型;再对于任一初始线程模型,从待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,并基于样本任务处理线程标识训练得到进阶线程模型;最终根据多线程模型确定的多个待处理子任务对应的任务处理线程标识集合,完成对待处理任务的线程分配,如此设计,能够提供对需要多个线程协调处理的待处理任务实现资源利用最大化的处理方案。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的基于多线程模型的数据分析方法的步骤流程示意图;
图2为本发明实施例提供的基于多线程模型的数据分析系统的结构示意框图;
图3为本发明实施例提供的计算机设备的结构示意框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1是根据本申请实施例提供的一种基于多线程模型的数据分析方法的流程图,参见图1,在本申请实施例中以计算机设备为执行主体进行示例性说明,该基于多线程模型的数据分析方法包括以下步骤。
S201、计算机设备确定待处理任务的多个任务资源消耗向量,该多个任务资源消耗向量用于表示待处理任务的多个待处理子任务的不同计算资源裕量,一个任务资源消耗向量对应至少一个待处理子任务。
待处理子任务为待处理任务实现过程中涉及的多个子任务。
在一些实施例中,待处理任务获取需求线程计算能力时,不同待处理子任务的计算资源裕量不同。多个任务资源消耗向量用于表示不同待处理子任务的不同计算资源裕量。本申请实施例中,一个任务资源消耗向量对应至少一个待处理子任务,该条任务资源消耗向量用于表示该至少一个待处理子任务的计算资源裕量的高低。
需要说明的是,任务资源消耗向量可以是任一种表现形式,本申请实施例对任务资源消耗向量的表现形式不做限定。
需要说明的是,本申请实施例中的多个任务资源消耗向量可以是技术人员根据实际需求编辑的,也可以是计算机设备根据实际需求生成的,本申请实施例对此不做限定。
S202、计算机设备根据多个任务资源消耗向量,确定多个预估线程计算能力,一个预估线程计算能力对应一个任务资源消耗向量,且该预估线程计算能力与对应的任务资源消耗向量所表示的计算资源裕量呈正相关。
S203、计算机设备构建模型架构分别匹配多个预估线程计算能力的多个初始线程模型,该多个初始线程模型分别用于学习不同计算资源裕量的待处理子任务的需求线程计算能力。
多个初始线程模型的模型架构分别匹配多个预估线程计算能力,由于多个预估线程计算能力分别与多个任务资源消耗向量一一对应,因此,多个初始线程模型也与多个任务资源消耗向量一一对应,且初始线程模型的模型架构与对应的任务资源消耗向量匹配。初始线程模型的模型架构与初始线程模型对应的任务资源消耗向量匹配,是指:初始线程模型对应的任务资源消耗向量所表示的计算资源裕量越高,该初始线程模型对应的模型架构结果越高;初始线程模型对应的任务资源消耗向量所表示的计算资源裕量越低,该初始线程模型对应的模型架构结果越低。
由于初始线程模型的模型架构越高,该初始线程模型越能够学习到更加精确的需求线程计算能力表示,为待处理子任务生成精度更高的任务处理线程标识,因此,初始线程模型对应的任务资源消耗向量所表示的计算资源裕量越高,该初始线程模型对应的模型架构越高。由于部分待处理子任务的计算资源裕量较低,因此,即便为该待处理子任务生成的任务处理线程标识不够精确,也不会对需求线程计算能力控制效果产生影响。
S204、计算机设备对于任一初始线程模型,从待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,该初始任务资源消耗向量对应于初始线程模型的预估线程计算能力,根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,该进阶线程模型用于为初始待处理子任务生成任务处理线程标识。
待处理任务的样本任务处理线程标识是该待处理任务执行某一需求线程计算能力的任务处理线程标识,该任务处理线程标识可以是预先从开源数据库中获取的。需要说明的是,本申请实施例通过后面的实施例对样本任务处理线程标识的内容和来源进行了说明,在此不再一一赘述。
本申请实施例中,一个初始线程模型对应一个任务资源消耗向量,该任务资源消耗向量对应至少一个待处理子任务,因此,该初始线程模型用于为该至少一个待处理子任务生成任务处理线程标识,这样,使得初始线程模型生成的任务处理线程标识满足不同待处理子任务的计算资源裕量。
其中,初始待处理子任务可以是一个待处理子任务,也可以是多个待处理子任务,这取决于初始线程模型对应的任务资源消耗向量所对应的待处理子任务是一个待处理子任务,还是多个待处理子任务。
需要说明的是,多个初始线程模型的训练方式是相同的,本申请实施例仅是以一个初始线程模型的训练过程进行示例性说明。
S205、计算机设备根据训练得到的多个进阶线程模型,确定多线程模型,该多线程模型用于为多个待处理子任务生成不同计算资源的任务处理线程标识。
在一种可能实现方式中,计算机设备根据训练得到的多个进阶线程模型,确定多线程模型,包括:将训练得到的多个进阶线程模型部署到同一神经网络架构中,得到多线程模型的神经网络架构,由于将多个进阶线程模型部署到同一神经网络架构中了,因此,在调用模型生成任务处理线程标识时,可以通过调用该神经网络架构,使得多个进阶线程模型同时运行,以便得到多个待处理子任务的任务处理线程标识。
S206、根据多线程模型确定的多个待处理子任务对应的任务处理线程标识集合,完成对待处理任务的线程分配。
本申请实施例提供的基于多线程模型的数据分析方法,考虑到不同待处理子任务的计算资源裕量不同,对于计算资源裕量较高的待处理子任务,采用模型架构较高的线程模型进行学习,对于计算资源裕量较低的待处理子任务,采用模型架构较低的线程模型进行学习。由于模型架构较低的线程模型的模型尺寸较小,因此,相对于采用模型架构较高的线程模型对所有的待处理子任务进行学习来得到多线程模型来说,由多个线程模型训练得到的多线程模型的模型尺寸减小了,实现了对多线程模型的压缩,将该多线程模型部署到手机等计算能力较差的终端。
为了能够更加清楚地描述本申请实施例提供的方案,本发明实施例还提供以下示例。
S301、计算机设备确定待处理任务的多个任务资源消耗向量,多个任务资源消耗向量用于表示待处理任务的多个待处理子任务的不同计算资源裕量,一个任务资源消耗向量对应于至少一个待处理子任务。
在一些实施例中,待处理任务的多个待处理子任务的大小不同,也即是多个待处理子任务在待处理任务中的权重不同,可以理解的,待处理子任务越大,在待处理任务中的权重越高,在待处理任务执行需求线程计算能力时,该待处理子任务越容易被关注到,从而这些待处理子任务的计算资源裕量较高。待处理子任务越小,在待处理任务中的权重越低,在待处理任务执行需求线程计算能力时,该待处理子任务越不容易被关注到,从而这些待处理子任务的计算资源裕量较低。
在一种可能实现方式中,计算机设备确定待处理任务的多个任务资源消耗向量,包括:计算机设备确定待处理任务中多个待处理子任务在待处理任务中的权重,根据多个待处理子任务的权重,确定多个待处理子任务对应的多个任务资源消耗向量,该待处理子任务对应的任务资源消耗向量所表示的计算资源裕量与该权重呈正相关。
可选地,计算机设备根据多个待处理子任务的权重,确定多个待处理子任务对应的多个任务资源消耗向量,包括:将多个待处理子任务的权重进行聚类,得到多个聚类中心,为每个聚类中心确定一个任务资源消耗向量,该任务资源消耗向量用于表示该聚类中心中每个权重所对应的待处理子任务的计算资源裕量。可选地,计算机设备根据多个待处理子任务的权重,确定多个待处理子任务对应的多个任务资源消耗向量,包括:根据权重范围与任务资源消耗向量的对应关系和该多个待处理子任务的权重,确定每个待处理子任务对应的任务资源消耗向量。
在一些实施例中,不同待处理任务的功能不同,实现功能的待处理子任务也不同。
在一种可能实现方式中,计算机设备确定待处理任务的多个任务资源消耗向量,包括:根据待处理任务的任务摘要,确定该待处理任务中多个待处理子任务的关键进程信息,根据该多个待处理子任务的关键进程信息,确定该多个待处理子任务对应的任务资源消耗向量,该待处理子任务对应的任务资源消耗向量所表示的计算资源裕量与该待处理子任务的关键进程信息所表示的必要程度呈正相关。
可选地,计算机设备根据该多个待处理子任务的关键进程信息,确定该多个待处理子任务对应的任务资源消耗向量,包括:将多个待处理子任务的关键进程信息进行聚类,得到多个聚类中心,为每个聚类中心确定一个任务资源消耗向量,该任务资源消耗向量用于表示该聚类中心中每个关键进程信息所对应的待处理子任务的计算资源裕量。可选地,计算机设备根据该多个待处理子任务的关键进程信息,确定该多个待处理子任务对应的任务资源消耗向量,包括:根据关键进程信息范围与任务资源消耗向量的对应关系和该多个待处理子任务的关键进程信息,确定每个待处理子任务对应的任务资源消耗向量。
在一种可能实现方式中,计算机设备确定待处理任务的多个任务资源消耗向量,包括:确定待处理任务中多个待处理子任务在待处理任务中的权重;根据待处理任务的任务摘要,确定该待处理任务中的多个待处理子任务的关键进程信息,根据该多个待处理子任务的权重和关键进程信息,确定多个待处理子任务对应的多个任务资源消耗向量,该待处理子任务对应的任务资源消耗向量所表示的计算资源裕量与该权重呈正相关,且该待处理子任务对应的任务资源消耗向量所表示的计算资源裕量。
S302、计算机设备根据该多个任务资源消耗向量,确定多个预估线程计算能力,一个预估线程计算能力对应一个任务资源消耗向量,且预估线程计算能力与对应的任务资源消耗向量所表示的计算资源裕量呈正相关。
待处理子任务的计算资源裕量越高,需要模型为该待处理子任务生成的任务处理线程标识越准确,为了使模型能够为该待处理子任务生成准确的任务处理线程标识,需要模型学习到各个需求线程计算能力的精确表示,例如,该模型能够学习到需求线程计算能力的更多维度表示等。因此,需要该模型具有更多的结构参量。
在一种可能实现方式中,计算机设备根据该多个任务资源消耗向量,确定多个预估线程计算能力,包括:对于任一任务资源消耗向量,确定该任务资源消耗向量所指示的计算资源裕量数值,根据该计算资源裕量数值,确定预估线程计算能力,该预估线程计算能力与计算资源裕量数值呈正相关。
可选地,计算机设备根据计算资源裕量数值,确定预估线程计算能力,包括:计算机设备根据计算资源裕量数值与模型架构的对应关系,确定任务资源消耗向量所指示的计算资源裕量数值对应的预估线程计算能力。可选地,计算机设备根据计算资源裕量数值,确定预估线程计算能力,包括:计算机设备根据第一算法对计算资源裕量数值进行处理,得到预估线程计算能力。该第一算法可以是任一种统计算法,本申请实施例对第一算法不做限定。
在一些实施例中,不同任务资源消耗向量对应的待处理子任务的数量不同,在本申请实施例中,对应于同一任务资源消耗向量的待处理子任务通过一个初始线程模型来学习,如果某一任务资源消耗向量对应的待处理子任务越多,相应的,对学习这些待处理子任务需求线程计算能力的初始线程模型的要求越高,该初始线程模型的模型架构越高。可选地,计算机设备根据该多个任务资源消耗向量,确定多个预估线程计算能力,包括:对于任一任务资源消耗向量,确定该任务资源消耗向量对应的待处理子任务的任务量,根据该任务量,确定预估线程计算能力,该预估线程计算能力与任务量呈正相关。
可选地,计算机设备根据该任务量,确定预估线程计算能力,包括:计算机设备根据待处理子任务数量与模型架构的对应关系,确定任务量对应的预估线程计算能力。可选地,计算机设备根据该任务量,确定预估线程计算能力,包括:计算机设备根据第二算法对任务量进行处理,得到预估线程计算能力。该第二算法可以是任一种统计算法,本申请实施例对第二算法不做限定。
在一些实施例中,计算机设备根据该多个任务资源消耗向量,确定多个预估线程计算能力,包括:对于任一任务资源消耗向量,确定该任务资源消耗向量所指示的计算资源裕量数值和该任务资源消耗向量对应的待处理子任务的任务量;根据该计算资源裕量数值和任务量,确定预估线程计算能力,该预估线程计算能力与计算资源裕量数值呈正相关,且该预估线程计算能力与任务量呈正相关。
S303、计算机设备构建模型架构分别匹配多个预估线程计算能力的多个初始线程模型,该多个初始线程模型分别用于学习不同计算资源裕量的待处理子任务的需求线程计算能力。
在一些实施例中,初始线程模型的模型架构越高,该初始线程模型的结构参量数量也越多。可选地,计算机设备获取结构参量数量分别与多个预估线程计算能力匹配的多个初始线程模型,且初始线程模型的结构参量数量与预估线程计算能力所表示的模型架构呈正相关。
需要说明的是,本申请实施例中的初始线程模型可以是任一种深度学习模型,本申请实施例对初始线程模型不做限定。
在一些实施例中,初始线程模型包括多个初始需求线程计算能力网络结构。计算机设备构建模型架构分别匹配多个预估线程计算能力的多个初始线程模型,包括:对于任一预估线程计算能力,根据待处理任务的任务场景数量,构建初始需求线程计算能力网络结构数量与该任务场景数量相同且初始需求线程计算能力网络结构的结构参量数量与该预估线程计算能力匹配的初始线程模型,该初始需求线程计算能力网络结构用于学习待处理子任务在不同任务场景下的需求线程计算能力。
S304、计算机设备获取初始置信度输出模型,该初始置信度输出模型用于确定线程模型输出的任务处理线程标识的置信度。
其中,线程模型可以是初始线程模型或者是目标线程模型。本申请实施例中,置信度输出模型用于确定线程模型输出的任务处理线程标识的置信度,例如,线程模型预测出待处理子任务在下一时刻的任务处理线程标识之后,可以将该任务处理线程标识输入到置信度输出模型中,由该置信度输出模型确定该任务处理线程标识的置信度,并根据该置信度对任务处理线程标识进行处理,再将处理后的任务处理线程标识输出。
在一些实施例中,置信度输出模型为门网络,需要说明的是,本申请实施例仅是以门网络为例对置信度输出模型进行示例性说明,并不对置信度输出模型进行限定,置信度输出模型还可以为其他网络。
需要说明的是,本申请实施例中,初始置信度输出模型用于表示根据样本任务处理线程标识训练之前的置信度输出模型,进阶置信度输出模型用于表示根据样本任务处理线程标识训练之后的置信度输出模型。
需要说明的是,每个初始线程模型输出的任务处理线程标识均通过置信度输出模型进行处理。其中,多个初始线程模型可以分别对应一个置信度输出模型,也可以共用一个置信度输出模型。
在一种可能实现方式中,计算机设备获取初始置信度输出模型,包括:获取多个初始线程模型分别对应的初始置信度输出模型,任一初始线程模型对应的初始置信度输出模型用于确定该初始线程模型输出的任务处理线程标识的置信度;或者,获取该多个初始线程模型对应的初始置信度输出模型,该初始置信度输出模型用于确定该多个初始线程模型输出的任务处理线程标识的置信度。
S305、计算机设备对于任一初始线程模型,从待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,该初始任务资源消耗向量对应于初始线程模型的预估线程计算能力,根据初始待处理子任务的样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型。
本申请实施例中,初始待处理子任务是待处理任务中与该初始线程模型对应于同一任务资源消耗向量的待处理子任务,因此,该初始线程模型对需求线程计算能力的学习效果与初始待处理子任务的计算资源裕量匹配,因此,可以根据初始待处理子任务的样本任务处理线程标识来对初始线程模型进行训练,使得初始线程模型学习初始待处理子任务的需求线程计算能力。
初始待处理子任务的样本任务处理线程标识是初始待处理子任务精度较高的任务处理线程标识,需要说明的是,此处精度较高的任务处理线程标识是指该任务处理线程标识准确,而不是说该任务处理线程标识包括更多种类型的任务处理线程标识。本申请实施例对样本任务处理线程标识的获取方式不做限定。
在一些实施例中,待处理子任务的样本任务处理线程标识包括该待处理子任务在预设时间范围内的样本任务处理线程标识和该待处理子任务在预设时间范围的邻近时间范围的第二样本任务处理线程标识。计算机设备根据初始待处理子任务的样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,包括:通过初始线程模型,对初始待处理子任务的第一样本任务处理线程标识进行处理,得到初始待处理子任务的初始输出任务处理线程标识,该初始输出任务处理线程标识为初始线程模型为初始待处理子任务确定的预设时间范围的邻近时间范围的任务处理线程标识;通过初始置信度输出模型,对初始输出任务处理线程标识进行处理,得到第二预测任务处理线程标识;根据第二预测任务处理线程标识和该初始待处理子任务的第二样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型。
可选地,计算机设备根据第二预测任务处理线程标识和初始待处理子任务的第二样本任务处理线程标识,对初始线程模型和进阶置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,包括:计算机设备根据第二预测任务处理线程标识和第二样本任务处理线程标识之间的差异,对初始线程模型和进阶置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,以使目标线程模型和进阶置信度输出模型的误差收敛。
以训练过程为例,在一种可能实现方式中,计算机设备根据初始待处理子任务的样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,包括:计算机设备根据初始待处理子任务的样本任务处理线程标识以及进阶待处理子任务的样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型。其中,进阶待处理子任务是与初始待处理子任务的需求线程计算能力相关的待处理子任务,或者,进阶待处理子任务为影响初始待处理子任务需求线程计算能力的待处理子任务。
在一些实施例中,待处理任务在需求线程计算能力时,该待处理任务的多个待处理子任务的需求线程计算能力幅度是不同的,对于一些需求线程计算能力幅度较大的待处理子任务,由于该待处理子任务的需求线程计算能力幅度较大,因此,该待处理子任务的需求线程计算能力更加容易引起人们的注意,或者,该待处理子任务的需求线程计算能力更加重要,因此,该待处理子任务的计算资源裕量较高。对于一些需求线程计算能力幅度较小的待处理子任务,由于该待处理子任务的需求线程计算能力幅度较小,因此,该待处理子任务的需求线程计算能力不容易引起人们的注意,或者,该待处理子任务的需求线程计算能力不太重要,因此,该待处理子任务的计算资源裕量较低。其中,需求线程计算能力幅度较大的待处理子任务会影响需求线程计算能力幅度较小的待处理子任务的需求线程计算能力,因此,计算机设备在训练低精度待处理子任务对应的线程模型时,可以参考高精度待处理子任务。
在一种可能实现方式中,计算机设备根据初始待处理子任务的样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,包括:计算机设备确定进阶待处理子任务,该进阶待处理子任务是待处理任务中除初始待处理子任务之外的其他待处理子任务;从待处理任务的样本任务处理线程标识中,获取进阶待处理子任务的样本任务处理线程标识;根据初始待处理子任务的样本任务处理线程标识以及进阶待处理子任务的样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型。
可选地,计算机设备确定进阶待处理子任务,包括:计算机设备根据第一关联特征,确定待处理任务中影响初始待处理子任务需求线程计算能力的进阶待处理子任务,该第一关联特征用于表示该多个待处理子任务需求线程计算能力的关联程度。可选地,第一关联特征记录了哪些待处理子任务之间具有关联程度。
可选地,计算机设备确定进阶待处理子任务,包括:计算机设备确定待处理任务中多个待处理子任务在该待处理任务中的权重,将权重超过预置权重的待处理子任务确定为进阶待处理子任务。其中,预置权重可以是任一权重,例如,5%,10%等。可选地,预置权重为一经验值。可选地,预置权重为技术人员设置的数值。
可选地,计算机设备确定进阶待处理子任务,包括:计算机设备根据初始待处理子任务对应的任务资源消耗向量,确定至少一个目标任务资源消耗向量,该目标任务资源消耗向量所指示的计算资源裕量大于初始待处理子任务对应的任务资源消耗向量所指示的计算资源裕量;将至少一个目标任务资源消耗向量对应的待处理子任务确定为进阶待处理子任务。
需要说明的是,计算机设备可以对于每个初始线程模型,根据初始待处理子任务的样本任务处理线程标识以及进阶待处理子任务的样本任务处理线程标识,对初始线程模型进行训练;计算机设备也可以根据实际需要,对部分初始线程模型,根据初始待处理子任务的样本任务处理线程标识以及进阶待处理子任务的样本任务处理线程标识,对该初始线程模型进行训练。本申请实施例对此不做限定。
在一些实施例中,待处理子任务的样本任务处理线程标识包括该待处理子任务在预设时间范围内的第一样本任务处理线程标识和该待处理子任务在预设时间范围的邻近时间范围的第二样本任务处理线程标识。计算机设备根据初始待处理子任务的样本任务处理线程标识以及进阶待处理子任务的样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,包括:计算机设备通过初始线程模型,对初始待处理子任务的第一样本任务处理线程标识以及进阶待处理子任务的第一样本任务处理线程标识进行处理,得到初始待处理子任务的初始输出任务处理线程标识,该初始输出任务处理线程标识为初始线程模型为初始待处理子任务确定的预设时间范围的邻近时间范围的任务处理线程标识;通过初始置信度输出模型,对初始输出任务处理线程标识进行处理,得到第二预测任务处理线程标识;根据第二预测任务处理线程标识和初始待处理子任务的第二样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型。
计算机设备根据第二预测任务处理线程标识和初始待处理子任务的第二样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,包括:计算机设备根据第二预测任务处理线程标识和第二样本任务处理线程标识之间的差异,对初始线程模型进行训练,得到进阶线程模型。
S306、计算机设备根据目标线程模型和进阶置信度输出模型,确定进阶线程模型,该进阶线程模型用于学习初始待处理子任务的需求线程计算能力。
本申请实施例中,置信度输出模型用于确定线程模型输出的任务处理线程标识的置信度,也就是说,线程模型输出的任务处理线程标识还需要经过置信度输出模型处理才会输出。因此,可以根据置信度输出模型进一步对线程模型进行处理,以使得线程模型输出的任务处理线程标识可以直接使用。
在一些实施例中,计算机设备根据目标线程模型和进阶置信度输出模型,确定进阶线程模型,包括:将目标线程模型和进阶置信度输出模型进行整合,得到进阶线程模型。
在一些实施例中,计算机设备根据目标线程模型和进阶置信度输出模型,确定进阶线程模型,包括:根据进阶置信度输出模型,对目标线程模型进行处理,得到进阶线程模型。例如,根据进阶置信度输出模型,调整目标线程模型的结构参量等。
在一些实施例中,初始线程模型包括多个初始需求线程计算能力网络结构,该多个初始需求线程计算能力网络结构,该多个初始需求线程计算能力网络结构用于学习待处理子任务的不同任务场景的需求线程计算能力。该目标线程模型包括多个进阶需求线程计算能力网络结构,该多个进阶需求线程计算能力网络结构是训练多个初始需求线程计算能力网络结构得到的。在一种可能实现方式中,计算机设备根据目标线程模型和进阶置信度输出模型,确定进阶线程模型,包括:计算机设备根据进阶置信度输出模型,确定多个进阶需求线程计算能力网络结构的置信度,根据该多个进阶需求线程计算能力网络结构的置信度,将该多个进阶需求线程计算能力网络结构的结构参量进行整合,得到进阶线程模型。
S307、计算机设备根据训练得到的多个进阶线程模型,确定多线程模型。
本申请实施例中,每个进阶线程模型用于对与该进阶线程模型对应于同一任务资源消耗向量的待处理子任务生成任务处理线程标识。多线程模型用于为主体的多个待处理子任务生成任务处理线程标识。在一些实施例中,计算机设备根据训练得到的多个进阶线程模型,确定多线程模型,包括:将多个进阶线程模型进行整合,得到多线程模型。
其中,将多个进阶线程模型进行整合,包括:将多个进阶线程模型部署到同一神经网络架构中,该神经网络架构即是多线程模型的神经网络架构,计算机设备根据该神经网络架构,同时运行该多个进阶线程模型,从而为多个待处理子任务生成任务处理线程标识。
本申请实施例提供的基于多线程模型的数据分析方法,考虑到不同待处理子任务的计算资源裕量不同,对于计算资源裕量较高的待处理子任务,采用模型架构较高的线程模型进行学习,对于计算资源裕量较低的待处理子任务,采用模型架构较低的线程模型进行学习。由于模型架构较低的线程模型的模型尺寸较小,因此,相对于采用模型架构较高的线程模型对所有的待处理子任务进行学习来得到多线程模型来说,由多个线程模型训练得到的多线程模型的模型尺寸减小了,实现了对多线程模型的压缩,将该多线程模型部署到手机等计算能力较差的终端。
并且,本申请实施例在训练线程模型的过程中,引入了置信度输出模型,通过置信度输出模型为线程模型输出的任务处理线程标识进行加权处理,能够使得不同需求线程计算能力之间的过渡衔接自然,提高待处理子任务的需求线程计算能力效果。
需要说明的是,在另一实施例中,可以无需通过置信度输出模型,来训练线程模型。在一种可能实现方式中,计算机设备对于任一初始线程模型,根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,该进阶线程模型用于学习初始待处理子任务的需求线程计算能力,该初始待处理子任务是与初始线程模型对应于同一任务资源消耗向量的待处理子任务;根据训练得到的多个进阶线程模型,确定多线程模型。
在一些实施例中,计算机设备根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,包括:确定进阶待处理子任务,进阶待处理子任务是待处理任务中除初始待处理子任务之外的其他待处理子任务;从待处理任务的样本任务处理线程标识中,获取进阶待处理子任务的样本任务处理线程标识;根据初始待处理子任务的样本任务处理线程标识以及进阶待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型。
在一些实施例中,初始线程模型包括多个初始需求线程计算能力网络结构,该多个初始需求线程计算能力网络结构用于学习不同任务场景的需求线程计算能力。以下以初始线程模型包括多个初始需求线程计算能力网络结构为例,训练初始线程模型得到进阶线程模型的过程进行示例性说明。
在一种可能实现方式中,待处理子任务的样本任务处理线程标识包括样本任务场景,计算机设备根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,包括:计算机设备根据初始待处理子任务的样本任务处理线程标识中的样本任务场景,将该初始待处理子任务的样本任务处理线程标识输入到初始线程模型中与该样本任务场景匹配的初始需求线程计算能力网络结构,该初始需求线程计算能力网络结构用于学习该任务场景的需求线程计算能力;根据该初始待处理子任务的样本任务处理线程标识,对该初始需求线程计算能力网络结构进行训练,得到进阶需求线程计算能力网络结构;根据训练后的多个进阶需求线程计算能力网络结构,确定进阶线程模型。
需要说明的是,在训练初始线程模型的时候,会采用不同任务场景的样本任务处理线程标识对初始线程模型进行训练,以使初始线程模型学习初始待处理子任务不同任务场景的需求线程计算能力,因此,初始线程模型中的多个初始需求线程计算能力网络结构都可以被训练到。
需要说明的是,计算机设备对多个初始需求线程计算能力网络结构训练,得到多个进阶需求线程计算能力网络结构时,初始线程模型可以称为目标线程模型。也就是说,计算机设备对初始线程模型中的多个初始需求线程计算能力网络结构进行训练之后,得到目标线程模型,该目标线程模型包括训练得到的多个进阶需求线程计算能力网络结构。
在一些实施例中,计算机设备根据目标线程模型,确定进阶线程模型。由于目标线程模型中包括多个进阶需求线程计算能力网络结构,因此,每个进阶需求线程计算能力网络结构用于生成一种任务场景的需求线程计算能力,因此,目标线程模型的结构参量数量较多,模型尺寸较大,可以对目标线程模型进行压缩,得到进阶线程模型。在一种可能实现方式中,计算机设备对目标线程模型中的多个进阶需求线程计算能力网络结构进行整合,得到进阶线程模型。可选地,该进阶线程模型包括一个需求线程计算能力生成层,该需求线程计算能力生成层用于为初始待处理子任务生成不同任务场景的任务处理线程标识。
可选地,计算机设备对目标线程模型中的多个进阶需求线程计算能力网络结构进行整合,包括:将多个进阶需求线程计算能力网络结构中对应的结构参量进行加权处理。
在一些实施例中,通过置信度输出模型来辅助线程模型进行训练,这样,在将目标线程模型中的多个进阶需求线程计算能力网络结构进行整合时,可以根据置信度输出模型来确定多个进阶需求线程计算能力网络结构的置信度。例如,确定多个进阶需求线程计算能力网络结构中结构参量的置信度。
在一种可能实现方式中,该目标线程模型包括多个进阶需求线程计算能力网络结构,该多个进阶需求线程计算能力网络结构用于学习不同任务场景的需求线程计算能力,该进阶置信度输出模型用于确定该多个进阶需求线程计算能力网络结构输出的任务处理线程标识的置信度。可选地,计算机设备根据该目标线程模型和进阶置信度输出模型,确定进阶线程模型,包括:根据进阶置信度输出模型确定多个进阶需求线程计算能力网络结构的置信度;根据该多个进阶需求线程计算能力网络结构的置信度,对多个进阶需求线程计算能力网络结构进行整合,得到进阶线程模型。
在一些实施例中,多个初始线程模型分别对应一个初始置信度输出模型,以下以“多个初始线程模型分别对应一个初始置信度输出模型”为例,对置信度输出模型辅助线程模型训练的过程进行示例性说明。
在一种可能实现方式中,计算机设备获取多个初始线程模型分别对应的初始置信度输出模型;对于任一初始线程模型,根据初始待处理子任务的样本任务处理线程标识,对该初始线程模型和该初始线程模型对应的初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,该初始待处理子任务是与该初始线程模型对应于同一任务资源消耗向量的待处理子任务;根据目标线程模型和进阶置信度输出模型,确定进阶线程模型;根据训练得到的多个进阶线程模型,确定该多线程模型。
可选地,待处理子任务的样本任务处理线程标识包括该待处理子任务在预设时间范围内的第一样本任务处理线程标识和该待处理子任务在预设时间范围的邻近时间范围的第二样本任务处理线程标识。计算机设备根据初始待处理子任务的样本任务处理线程标识,对该初始线程模型和该初始线程模型对应的初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,包括:通过初始线程模型,对初始待处理子任务的第一样本任务处理线程标识进行处理,得到初始待处理子任务的初始输出任务处理线程标识,该初始输出任务处理线程标识为初始线程模型为初始待处理子任务确定的预设时间范围的邻近时间范围的任务处理线程标识;通过初始置信度输出模型,对初始输出任务处理线程标识进行处理,得到第二预测任务处理线程标识;根据第二预测任务处理线程标识和第二样本任务处理线程标识,对初始线程模型和初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型。
初始置信度输出模型用于确定初始线程模型输出的任务处理线程标识的置信度。在一些实施例中,计算机设备通过初始置信度输出模型,对初始输出任务处理线程标识进行处理,得到第二预测任务处理线程标识,包括:计算机设备通过初始置信度输出模型,对初始输出任务处理线程标识进行处理,得到初始输出任务处理线程标识的置信度;根据初始输出任务处理线程标识的置信度对该初始输出任务处理线程标识进行加权处理,得到第二预测任务处理线程标识。
需要说明的是,计算机设备通过初始置信度输出模型,对初始输出任务处理线程标识进行处理,得到初始输出任务处理线程标识的置信度时,可以根据初始输出任务处理线程标识中部分数据来确定置信度,也可以根据全部数据来确定置信度。
在一些实施例中,计算机设备通过初始置信度输出模型,对初始输出任务处理线程标识进行处理,得到初始输出任务处理线程标识的置信度,包括:计算机设备通过初始置信度输出模型,对初始输出任务处理线程标识中的目标点的任务处理线程标识进行处理,得到初始输出任务处理线程标识的置信度。
其中,目标点可以是初始待处理子任务的中心点,还可以是初始待处理子任务的任一点,本申请实施例对目标点不做限定。
在一些实施例中,目标线程模型包括多个进阶需求线程计算能力网络结构,该多个第二需求线程计算能力生成用于学习不同任务场景的需求线程计算能力,计算机设备根据目标线程模型和进阶置信度输出模型,确定进阶线程模型,包括:计算机设备根据进阶置信度输出模型确定目标线程模型中多个进阶需求线程计算能力网络结构的置信度,根据多个进阶需求线程计算能力网络结构的置信度,将多个进阶需求线程计算能力网络结构进行整合,得到进阶线程模型。
也就是说,计算机设备通过初始待处理子任务不同任务场景的样本任务处理线程标识,对初始线程模型中的多个初始需求线程计算能力网络结构进行训练,得到训练后的多个进阶需求线程计算能力网络结构,也即是目标线程模型。其中,计算机设备在训练多个初始需求线程计算能力网络结构时,会按照样本任务处理线程标识的任务场景,将样本任务处理线程标识输入到相应的初始需求线程计算能力网络结构进行处理,初始置信度输出模型会为该初始需求线程计算能力网络结构输出的任务处理线程标识确定置信度。需要说明的是,本申请实施例中,初始置信度输出模型为不同的初始需求线程计算能力网络结构输出的任务处理线程标识确定置信度的方法相同,在此不再一一赘述。
计算机设备在对任一个初始线程模型,根据样本任务处理线程标识和该初始线程模型对应的初始置信度输出模型进行训练时,均是采用当前实施例所示的方法,在此不再一一赘述。
在一些实施例中,多个初始线程模型共用一个初始置信度输出模型,以下以“多个初始线程模型对共用一个初始置信度输出模型”为例,对置信度输出模型辅助线程模型训练的过程进行示例性说明。
在一种可能实现方式中,待处理子任务的样本任务处理线程标识包括待处理子任务在预设时间范围的第一样本任务处理线程标识和在预设时间范围的邻近时间范围的第二样本任务处理线程标识。
计算机设备获取多个初始线程模型对应的初始置信度输出模型;按照待处理子任务与初始线程模型的对应关系,将多个待处理子任务的第一样本任务处理线程标识分别输入到多个初始线程模型中,通过多个初始线程模型分别对输入的第一样本任务处理线程标识进行处理,得到多个初始线程模型输出的多个待处理子任务的初始输出任务处理线程标识,初始输出任务处理线程标识为初始线程模型为待处理子任务预测的邻近时间范围的任务处理线程标识;通过初始置信度输出模型对多个初始线程模型输出的多个待处理子任务的初始输出任务处理线程标识进行处理,得到多个待处理子任务的第二预测任务处理线程标识;对于任一初始线程模型,根据输入该初始线程模型的初始待处理子任务的第二样本任务处理线程标识和该初始待处理子任务的第二预测任务处理线程标识,对该初始线程模型进行训练,得到目标线程模型,其中,初始待处理子任务是与该初始线程模型对应于同一任务资源消耗向量的待处理子任务。根据多个待处理子任务的第二样本任务处理线程标识和第二预测任务处理线程标识,对初始置信度输出模型进行训练,得到进阶置信度输出模型;根据多个目标线程模型和进阶置信度输出模型,确定多个进阶线程模型;根据该多个进阶线程模型,确定多线程模型。
例如,多个待处理子任务包括待处理子任务A、待处理子任务B和待处理子任务C。多个初始线程模型包括初始线程模型1和初始线程模型b。其中,待处理子任务A、待处理子任务B和初始线程模型a对应于同一任务资源消耗向量,待处理子任务C和初始线程模型b对应于同一任务资源消耗向量。
在根据待处理任务的样本任务处理线程标识训练多个初始线程模型时,待处理子任务A和待处理子任务B的样本任务处理线程标识输入到初始线程模型a中,待处理子任务C的样本任务处理线程标识输入到初始线程模型b中。初始线程模型a和初始线程模型b输出的多个待处理子任务的初始输出任务处理线程标识均输入到初始置信度输出模型中,由初始置信度输出模型对多个待处理子任务的初始输出任务处理线程标识进行处理,得到多个待处理子任务的第二预测任务处理线程标识;根据该待处理任务的样本任务处理线程标识和第二预测任务处理线程标识,对初始置信度输出模型进行训练,得到进阶置信度输出模型;根据待处理子任务A的样本任务处理线程标识和第二预测任务处理线程标识以及待处理子任务B的样本任务处理线程标识和第二预测任务处理线程标识,对初始线程模型a进行训练,得到目标线程模型Aa;根据待处理子任务C的样本任务处理线程标识和第二预测任务处理线程标识,对初始线程模型b进行训练,得到目标线程模型Bb。
之后,根据进阶置信度输出模型,确定每个目标线程模型中进阶需求线程计算能力网络结构的置信度,根据进阶置信度输出模型为进阶需求线程计算能力网络结构确定的置信度,将属于同一目标线程模型的进阶需求线程计算能力网络结构进行整合,得到多个进阶线程模型。
可选地,初始线程模型a的计算资源裕量高于初始线程模型b的计算资源裕量,因此,初始线程模型a中需求线程计算能力生成层的模型结构比初始线程模型b中需求线程计算能力生成层的模型结构复杂。
在执行前述步骤S201之前,本发明实施例提供以下示例。
S401:根据待处理任务,获取已归档任务的已归档发送来源信息。
已归档发送来源信息包括已归档任务发起时间节点和已归档任务发起来源的已归档任务检验时间节点。
其中,已归档任务发起来源是曾经被推送了针对已归档任务的内容的任务发起来源,该任务发起来源可以是用户。
已归档任务发起时间节点用于标识针对已归档任务的内容向已归档任务发起来源进行推送的时刻,已归档任务检验时间节点为已归档任务发起来源被推送针对已归档任务的内容后,验证通过的时刻。
S402:将已归档任务发起来源的任务发起来源向量作为训练数据,通过待处理任务来源检验模型初始识别模型确定已归档任务发起来源在已归档任务发起时间节点后依次相邻的多个测试时间范围内分别对应的合法校验对。
服务器通过已归档发送来源信息中包括的已归档任务发起时间节点和已归档任务检验时间节点,可以获取到历史用户在被推送广告后多久验证通过的信息。在基于已归档任务发起来源的任务发起来源向量训练待处理任务来源检验模型时,引入了前述的执行验证时长的数据维度,并关注任务发起来源在依次相邻的多个测试时间范围内验证通过的概率,从而在训练过程中,弱化了待处理任务来源检验模型关注任务发起来源对产品偏好的学习,提高了待处理任务来源检验模型在时间维度上对延迟执行验证的学习,实现了对原本已归档发送来源信息与已归档任务间强关联的解耦。
通过待处理任务来源检验模型初始识别模型确定的合法校验对与多个测试时间范围可以一一对应,即针对每一个测试时间范围都有对应的合法校验对,可以标识出所对应测试时间范围内已归档任务发起来源可能验证通过的概率,以及直至所对应测试时间范围结束不会执行验证的概率。
S403:根据已归档任务检验时间节点与多个测试时间范围的匹配情况以及已归档任务发起来源的合法校验对,对待处理任务来源检验模型初始识别模型进行模型优化得到第一待处理任务来源检验模型。
由于通过已归档发送来源信息中的已归档任务检验时间节点可以确定已归档任务发起来源在多个测试时间范围中哪个测试时间范围出现了执行验证,或者在多个测试时间范围中均未出现执行验证。故可以以此作为训练数据的标签,基于与合法校验对间的差异,对待处理任务来源检验模型初始识别模型进行调整。
通过对待处理任务来源检验模型初始识别模型的训练,在对待处理任务来源检验模型初始识别模型的参数进行调整后,得到第一待处理任务来源检验模型,第一待处理任务来源检验模型用于确定任务发起来源相对于待处理任务的检测结果。如前,第一待处理任务来源检验模型可以暂时替代校验可信度模型,在待处理任务的冷启动阶段为待处理任务提供执行验证率的预测。
由此可见,针对要进行发送请求的待处理任务,获取与待处理任务具有强关联的已归档任务的已归档发送来源信息,该已归档发送来源信息包括了向已归档任务发起来源推送针对已归档任务的内容的已归档任务发起时间节点,以及已归档任务发起来源的已归档任务检验时间节点。通过已归档发送来源信息中的已归档任务发起时间节点和已归档任务检验时间节点,可以获取到已归档任务发起来源在被推送内容后多久验证通过的信息,在基于已归档任务发起来源的任务发起来源向量训练待处理任务来源检验模型时,引入了前述的执行验证时长的数据维度,并关注任务发起来源在依次相邻的多个测试时间范围内验证通过的概率,将是否执行验证问题转变为延迟执行验证问题,从而在训练过程中,弱化了待处理任务来源检验模型关注任务发起来源对产品偏好的学习,提高了待处理任务来源检验模型在时间维度上对延迟执行验证的学习,实现了对原本已归档发送来源信息与已归档任务间强关联的解耦,使得训练得到的第一待处理任务来源检验模型也可以在冷启动阶段,暂时替代校验可信度模型为待处理任务提供执行验证率的预测。
而且,相关技术中也不能使用数量充足的已归档发送来源信息训练校验可信度模型,这就导致了已归档发送来源信息的浪费,而本申请中通过对模型学习问题的转换,实现了通过已归档发送来源信息训练待处理任务来源检验模型来暂时替代校验可信度模型,足量的已归档发送来源信息也可以实现第一待处理任务来源检验模型的快速训练,提高了对已归档发送来源信息的利用率。使得在待处理任务的冷启动阶段,第一待处理任务来源检验模型输出的检测结果能够为待处理任务的发送请求提供准确指导。
为了进一步的提高待处理任务在冷启动阶段的执行验证率预测精度,可以在通过第一待处理任务来源检验模型为待处理任务提供执行验证率预测的过程中,通过待处理任务对应的当前发送来源信息,对第一待处理任务来源检验模型进行精调,得到预测精度更高的第二待处理任务来源检验模型。
在一种可能的实现方式中,方法还包括:
S11:根据针对待处理任务的发送请求,获取当前发送来源信息。
当前发送来源信息是通过针对待处理任务的发送请求期间,基于任务发起来源的实际执行验证获得的。通过当前发送来源信息,可以明确发送请求时间节点和任务发起来源的当前校验时间节点。
一般情况下,在待处理任务的冷启动期间,随着发送请求的展开,会有陆陆续续的基于任务发起来源实际执行验证所返回的当前发送来源信息。这些当前发送来源信息的数量虽然较少,尚不能训练完成待处理任务对应的校验可信度模型,但是推送执行验证数据也能够通过任务发起来源的任务发起来源向量体现出待处理任务与任务发起来源向量间的关联,例如可以体现出具有哪些特征的用户对待处理任务具有偏好。
S12:根据任务发起来源的任务发起来源向量,通过第一待处理任务来源检验模型确定任务发起来源在发送请求时间节点后依次相邻的多个测试时间范围内分别对应的合法校验对。
S13:根据当前校验时间节点与多个测试时间范围的匹配情况以及任务发起来源的合法校验对,对第一待处理任务来源检验模型进行模型优化得到第二待处理任务来源检验模型。
通过待处理任务对应的当前发送来源信息对第一待处理任务来源检验模型进行精调,一个目标是将预测分布拉回到符合待处理任务实际执行验证率的分布上,另一方面是帮助待处理任务来源检验模型学习到近期特征,提升待处理任务来源检验模型的时效性。例如第一待处理任务来源检验模型的网络模型参数为,通过S13的调整后,精调得到的第二待处理任务来源检验模型的网络模型参数为。
由于第二待处理任务来源检验模型相对于第一待处理任务来源检验模型的执行验证率精度更符合待处理任务,从而可以在基于第一待处理任务来源检验模型训练得到第二待处理任务来源检验模型后,通过第二待处理任务来源检验模型替代第一待处理任务来源检验模型为待处理任务进行执行验证率预测的服务。
也就是说,第一待处理任务来源检验模型可以适用于待处理任务的冷启动阶段的第一阶段,此阶段只有极少甚至没有针对待处理任务的当前发送来源信息。而第二待处理任务来源检验模型可以适用于待处理任务的冷启动阶段的第二阶段,此阶段已经有较少针对待处理任务的当前发送来源信息。
在使用第二待处理任务来源检验模型为待处理任务提供执行验证率预测的过程中,还可以基于过程期间新获取的当前发送来源信息继续对第二待处理任务来源检验模型进行参数调优。
在通过第二待处理任务来源检验模型为待处理任务提供执行验证率预测期间,在一种可能的实现方式中:
S21:从根据第二待处理任务来源检验模型所确定的检测结果中确定满足检验结果合法的目标检测结果。
S22:将目标检测结果对应的参考任务来源标注为第一正样本训练数据。
S23:根据第一正样本训练数据以及基于当前发送来源信息确定的第二正样本训练数据,对初始校验可信度模型进行训练得到待处理任务对应的校验可信度模型,校验可信度模型用于确定任务发起来源相对于待处理任务的校验准确度。
由于待处理任务的内容被推送给基于第二待处理任务来源检验模型所确定的参考任务来源后,参考任务来源在完成执行验证前会有不等时长的延迟。
被标记的负样本训练数据中有部分会在一定时长后发生实际执行验证,导致成为了校验可信度模型的假负例,即原本被作为负样本训练数据进行训练,结果实际上是正样本训练数据。
而根据前述S21和S22,可以基于第二待处理任务来源检验模型所确定的检测结果,将很可能是假负例的训练数据识别出来,并直接将其确定为第一正样本训练数据训练校验可信度模型,由此,在S23中,初始校验可信度模型将尚未实际完成执行验证的参考任务来源作为第一正样本训练数据进行训练,而并非先作为负样本训练数据进行训练再更改为正例,由此抑制了假负例对校验可信度模型造成的损害和影响。
需要注意的是,第二待处理任务来源检验模型的准确度也会对选择第一正样本训练数据带来一定影响。
故在一种可能的实现方式中,可以先确定第二待处理任务来源检验模型的检验判定指标,该检验判定指标用于标识第二待处理任务来源检验模型在执行验证率预测上的准确度或可信度。
相应的,S21包括:从根据第二待处理任务来源检验模型所确定的检测结果中,基于检验判定指标确定满足检验结果合法的目标检测结果。
从而可以在确定第一正样本训练数据时,可以考虑到第二待处理任务来源检验模型的准确度,以便确定出更为可信的目标检测结果。
相应的,S403:根据已归档任务检验时间节点与多个测试时间范围的匹配情况以及已归档任务发起来源的合法校验对,对待处理任务来源检验模型初始识别模型进行模型优化得到第一待处理任务来源检验模型,包括:
根据已归档任务检验时间节点与多个测试时间范围的匹配情况以及已归档任务发起来源的非法子置信度,通过第一损失函数对待处理任务来源检验模型初始识别模型进行模型优化;以及根据已归档任务检验时间节点与多个测试时间范围的匹配情况以及已归档任务发起来源的合法子置信度,通过第二损失函数对待处理任务来源检验模型初始识别模型进行模型优化;
通过对待处理任务来源检验模型初始识别模型的模型优化,得到第一待处理任务来源检验模型。
为了简化模型训练的参数量和计算量,在一种可能的实现方式中,包括:
根据训练数据的已归档任务检验时间节点与多个测试时间范围的匹配情况,确定训练数据在多个测试时间范围的增益舒服数据和减益舒服数据;
其中,若训练数据的已归档任务检验时间节点处于多个测试时间范围中,增益舒服数据用于提高训练数据在未验证通过的测试时间范围中非法置信度对非法子置信度的影响,减益舒服数据用于抑制训练数据在除了验证通过的测试时间范围以外的测试时间范围中非法置信度对合法子置信度的影响。
若训练数据的已归档任务检验时间节点不处于多个测试时间范围中,增益舒服数据用于提高训练数据在多个测试时间范围中最后一个测试时间范围对非法子置信度的影响。
相应的,S4022包括:根据训练数据在多个测试时间范围中分别对应的非法置信度,以及对应的增益舒服数据和减益舒服数据,确定训练数据在预设第二测试时间范围对应的非法子置信度;
S4023包括:根据训练数据在多个测试时间范围中分别对应的非法置信度、合法置信度以及对应的增益舒服数据和减益舒服数据,确定训练数据在预设第二测试时间范围对应的合法子置信度。
接下来说明如何通过第一待处理任务来源检验模型或第二待处理任务来源检验模型为待处理任务进行执行验证率预测服务。方法还包括:
S31:获取参考任务来源的任务发起来源向量。
S32:根据参考任务来源的任务发起来源向量,通过第一待处理任务来源检验模型确定参考任务来源在依次相邻的多个监控测试时间范围内分别对应的合法校验对。
S33:基于多个监控测试时间范围内分别对应的合法校验对,确定参考任务来源相对于待处理任务的检测结果。
本发明实施例提供一种基于多线程模型的数据分析系统110,请结合参阅图2,基于多线程模型的数据分析系统110包括:
计算模块1101,用于确定待处理任务的多个任务资源消耗向量,多个任务资源消耗向量用于表示待处理任务的多个待处理子任务的不同计算资源裕量,一个任务资源消耗向量对应至少一个待处理子任务;根据多个任务资源消耗向量,确定多个预估线程计算能力,一个预估线程计算能力对应一个任务资源消耗向量,且预估线程计算能力与对应的任务资源消耗向量所表示的计算资源裕量呈正相关。
构建模块1102,用于构建模型架构分别匹配多个预估线程计算能力的多个初始线程模型,多个初始线程模型分别用于学习不同计算资源裕量的待处理子任务的需求线程计算能力;对于任一初始线程模型,从待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,初始任务资源消耗向量对应于初始线程模型的预估线程计算能力,根据初始待处理子任务的样本任务处理线程标识,对初始线程模型进行训练,得到进阶线程模型,进阶线程模型用于为初始待处理子任务生成任务处理线程标识;根据训练得到的多个进阶线程模型,确定多线程模型,多线程模型用于为多个待处理子任务生成不同计算资源的任务处理线程标识;
分析模块1103,用于根据多线程模型确定的多个待处理子任务对应的任务处理线程标识集合,完成对待处理任务的线程分配。
需要说明的是,前述基于多线程模型的数据分析系统110的实现原理可以参考前述基于多线程模型的数据分析方法的实现原理,在此不再赘述。
本发明实施例提供一种计算机设备100,计算机设备100包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备100执行前述的基于多线程模型的数据分析系统110。如图3所示,图3为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括基于多线程模型的数据分析系统110、存储器111、处理器112及通信单元113。
本发明实施例提供一种可读存储介质,可读存储介质包括计算机程序,计算机程序运行时控制可读存储介质所在计算机设备执行前述的基于多线程模型的数据分析方法。
出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。
Claims (10)
1.一种基于多线程模型的数据分析方法,其特征在于,所述方法包括:
确定待处理任务的多个任务资源消耗向量,所述多个任务资源消耗向量用于表示所述待处理任务的多个待处理子任务的不同计算资源裕量,一个任务资源消耗向量对应至少一个待处理子任务;
根据所述多个任务资源消耗向量,确定多个预估线程计算能力,一个预估线程计算能力对应一个任务资源消耗向量,且所述预估线程计算能力与对应的任务资源消耗向量所表示的计算资源裕量呈正相关;
构建模型架构分别匹配所述多个预估线程计算能力的多个初始线程模型,所述多个初始线程模型分别用于学习不同计算资源裕量的待处理子任务的需求线程计算能力;
对于任一初始线程模型,从所述待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,所述初始任务资源消耗向量对应于所述初始线程模型的预估线程计算能力,根据所述初始待处理子任务的样本任务处理线程标识,对所述初始线程模型进行训练,得到进阶线程模型,所述进阶线程模型用于为所述初始待处理子任务生成任务处理线程标识;
根据训练得到的多个进阶线程模型,确定多线程模型,所述多线程模型用于为所述多个待处理子任务生成不同计算资源的任务处理线程标识;
根据所述多线程模型确定的所述多个待处理子任务对应的任务处理线程标识集合,完成对所述待处理任务的线程分配。
2.根据权利要求1所述的方法,其特征在于,所述初始线程模型包括多个初始需求线程计算能力网络结构,所述多个初始需求线程计算能力网络结构用于学习待处理子任务的不同任务场景的需求线程计算能力;
所述根据所述初始待处理子任务的样本任务处理线程标识,对所述初始线程模型进行训练,得到进阶线程模型之前,所述方法还包括:
获取初始置信度输出模型,所述初始置信度输出模型用于确定线程模型输出的任务处理线程标识的置信度;
所述根据所述初始待处理子任务的样本任务处理线程标识,对所述初始线程模型进行训练,得到进阶线程模型,包括:
根据所述初始待处理子任务的样本任务处理线程标识,对所述初始线程模型和所述初始置信度输出模型进行训练,得到目标线程模型和进阶置信度输出模型,所述目标线程模型包括多个进阶需求线程计算能力网络结构;
根据所述进阶置信度输出模型,确定所述多个进阶需求线程计算能力网络结构的置信度;
根据所述多个进阶需求线程计算能力网络结构的置信度,将所述多个进阶需求线程计算能力网络结构的结构参量进行整合,得到所述进阶线程模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述初始待处理子任务的样本任务处理线程标识,对所述初始线程模型进行训练,得到进阶线程模型,包括:
确定进阶待处理子任务,所述进阶待处理子任务是所述待处理任务中除所述初始待处理子任务之外的其他待处理子任务;
从所述待处理任务的样本任务处理线程标识中,获取所述进阶待处理子任务的样本任务处理线程标识;
根据所述初始待处理子任务的样本任务处理线程标识以及所述进阶待处理子任务的样本任务处理线程标识,对所述初始线程模型进行训练,得到进阶线程模型。
4.根据权利要求3所述的方法,其特征在于,所述确定进阶待处理子任务,包括:
根据第一关联特征,确定所述待处理任务中影响所述初始待处理子任务需求线程计算能力的进阶待处理子任务,所述第一关联特征用于表示所述多个待处理子任务需求线程计算能力的关联程度;或者,
确定所述待处理任务中多个待处理子任务在所述待处理任务中的权重,将权重超过预置权重的待处理子任务确定为所述进阶待处理子任务;或者,
根据所述初始待处理子任务对应的任务资源消耗向量,确定至少一个目标任务资源消耗向量,所述目标任务资源消耗向量所指示的计算资源裕量大于所述初始待处理子任务对应的任务资源消耗向量所指示的计算资源裕量;将所述至少一个目标任务资源消耗向量对应的待处理子任务确定为所述进阶待处理子任务。
5.根据权利要求3所述的方法,其特征在于,所述待处理子任务的样本任务处理线程标识包括所述待处理子任务在预设时间范围内的第一样本任务处理线程标识和所述待处理子任务在所述预设时间范围的邻近时间范围的第二样本任务处理线程标识;
所述根据所述初始待处理子任务的样本任务处理线程标识以及所述进阶待处理子任务的样本任务处理线程标识,对所述初始线程模型进行训练,得到进阶线程模型,包括:
通过所述初始线程模型,对所述初始待处理子任务的第一样本任务处理线程标识以及所述进阶待处理子任务的第一样本任务处理线程标识进行处理,得到所述初始待处理子任务的初始输出任务处理线程标识,所述初始输出任务处理线程标识为所述初始线程模型为所述初始待处理子任务确定的所述预设时间范围的邻近时间范围的任务处理线程标识;
根据所述初始输出任务处理线程标识和所述初始待处理子任务的第二样本任务处理线程标识,对所述初始线程模型进行训练,得到所述进阶线程模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述多个任务资源消耗向量,确定多个预估线程计算能力,包括以下至少一项:
对于任一任务资源消耗向量,确定所述任务资源消耗向量所指示的计算资源裕量数值,根据所述计算资源裕量数值,确定所述预估线程计算能力,所述预估线程计算能力与所述计算资源裕量数值呈正相关;
对于任一任务资源消耗向量,确定所述任务资源消耗向量对应的待处理子任务的任务量,根据所述任务量,确定所述预估线程计算能力,所述预估线程计算能力与所述任务量呈正相关。
7.根据权利要求1所述的方法,其特征在于,所述确定待处理任务的多个任务资源消耗向量,包括以下任一项:
确定所述待处理任务中多个待处理子任务在所述待处理任务中的权重,根据所述多个待处理子任务的权重,确定所述多个待处理子任务对应的多个任务资源消耗向量,所述待处理子任务对应的任务资源消耗向量所表示的计算资源裕量与所述权重呈正相关;
根据所述待处理任务的任务摘要,确定所述待处理任务中多个待处理子任务的关键进程信息,根据所述多个待处理子任务的关键进程信息,确定所述多个待处理子任务对应的任务资源消耗向量,所述待处理子任务对应的任务资源消耗向量所表示的计算资源裕量与所述待处理子任务的关键进程信息所表示的必要程度呈正相关。
8.根据权利要求1所述的方法,其特征在于,在所述确定待处理任务的多个任务资源消耗向量之前,所述方法还包括:
根据待处理任务,获取已归档任务的已归档发送来源信息,所述已归档任务与所述待处理任务具有强关联,所述已归档发送来源信息包括已归档任务的已归档任务发起时间节点和已归档任务的已归档任务发起来源的已归档任务检验时间节点;
将所述已归档任务发起来源的向量作为训练数据,通过待处理任务来源检验模型初始识别模型确定所述已归档任务发起来源在所述已归档任务发起时间节点后依次相邻的多个测试时间范围内分别对应的合法置信度和非法置信度,所述合法置信度用于标识在所对应测试时间范围所述已归档任务发起来源验证通过的概率,所述非法置信度用于标识直至所对应测试时间范围结束,所述已归档任务发起来源未验证通过的概率;
根据所述训练数据在预设第一测试时间范围中分别对应的非法置信度,确定所述训练数据在预设第二测试时间范围对应的非法子置信度,其中,所述预设第二测试时间范围为所述多个测试时间范围中的一个测试时间范围;
根据所述训练数据在预设第三测试时间范围中分别对应的非法置信度和在预设第二测试时间范围的合法置信度,确定所述训练数据在预设第二测试时间范围对应的合法子置信度;
根据所述已归档任务检验时间节点与所述多个测试时间范围的匹配情况以及所述已归档任务发起来源的合法校验对,对所述待处理任务来源检验模型初始识别模型进行模型优化得到第一待处理任务来源检验模型,所述第一待处理任务来源检验模型用于确定任务发起来源相对于所述待处理任务的检测结果,所述合法校验对包括合法子置信度和非法子置信度。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据针对所述待处理任务的发送请求,获取当前发送来源信息,所述当前发送来源信息包括发送请求时间节点和任务发起来源的当前校验时间节点;
根据所述任务发起来源的任务发起来源向量,通过第一待处理任务来源检验模型确定所述任务发起来源在所述发送请求时间节点后依次相邻的多个测试时间范围内分别对应的合法校验对;
根据所述当前校验时间节点与所述多个测试时间范围的匹配情况以及所述任务发起来源的合法校验对,对所述第一待处理任务来源检验模型进行模型优化得到第二待处理任务来源检验模型,所述第二待处理任务来源检验模型用于确定任务发起来源相对于所述待处理任务的检测结果;
从根据所述第二待处理任务来源检验模型所确定的检测结果中确定满足检验结果合法的目标检测结果;
将所述目标检测结果对应的参考任务来源标注为第一正样本训练数据;
根据所述第一正样本训练数据以及基于所述当前发送来源信息确定的第二正样本训练数据,对初始校验可信度模型进行训练得到所述待处理任务对应的校验可信度模型,所述校验可信度模型用于确定任务发起来源相对于所述待处理任务的校验准确度;
所述方法还包括:
根据所述训练数据的已归档任务检验时间节点与所述多个测试时间范围的匹配情况,确定所述训练数据在所述多个测试时间范围的增益舒服数据和减益舒服数据;
其中,若所述训练数据的已归档任务检验时间节点处于所述多个测试时间范围中,所述增益舒服数据用于提高所述训练数据在未验证通过的测试时间范围中非法置信度对所述非法子置信度的影响,所述减益舒服数据用于抑制所述训练数据在除了验证通过的测试时间范围以外的测试时间范围中非法置信度对所述合法子置信度的影响;
若所述训练数据的已归档任务检验时间节点不处于所述多个测试时间范围中,所述增益舒服数据用于提高所述训练数据在所述多个测试时间范围中最后一个测试时间范围对所述非法子置信度的影响;
所述根据所述训练数据在预设第一测试时间范围中分别对应的非法置信度,确定所述训练数据在预设第二测试时间范围对应的非法子置信度,包括:
根据所述训练数据在所述多个测试时间范围中分别对应的非法置信度,以及对应的增益舒服数据和减益舒服数据,确定所述训练数据在预设第二测试时间范围对应的非法子置信度;
所述根据所述训练数据在预设第三测试时间范围中分别对应的非法置信度和在预设第二测试时间范围的合法置信度,确定所述训练数据在预设第二测试时间范围对应的合法子置信度,包括:
根据所述训练数据在所述多个测试时间范围中分别对应的非法置信度、合法置信度以及对应的增益舒服数据和减益舒服数据,确定所述训练数据在预设第二测试时间范围对应的合法子置信度。
10.一种基于多线程模型的数据分析系统,其特征在于,所述系统包括:
计算模块,用于确定待处理任务的多个任务资源消耗向量,所述多个任务资源消耗向量用于表示所述待处理任务的多个待处理子任务的不同计算资源裕量,一个任务资源消耗向量对应至少一个待处理子任务;根据所述多个任务资源消耗向量,确定多个预估线程计算能力,一个预估线程计算能力对应一个任务资源消耗向量,且所述预估线程计算能力与对应的任务资源消耗向量所表示的计算资源裕量呈正相关;
构建模块,用于构建模型架构分别匹配所述多个预估线程计算能力的多个初始线程模型,所述多个初始线程模型分别用于学习不同计算资源裕量的待处理子任务的需求线程计算能力;对于任一初始线程模型,从所述待处理任务的样本任务处理线程标识中,获取初始任务资源消耗向量对应的初始待处理子任务的样本任务处理线程标识,所述初始任务资源消耗向量对应于所述初始线程模型的预估线程计算能力,根据所述初始待处理子任务的样本任务处理线程标识,对所述初始线程模型进行训练,得到进阶线程模型,所述进阶线程模型用于为所述初始待处理子任务生成任务处理线程标识;根据训练得到的多个进阶线程模型,确定多线程模型,所述多线程模型用于为所述多个待处理子任务生成不同计算资源的任务处理线程标识;
分析模块,用于根据所述多线程模型确定的所述多个待处理子任务对应的任务处理线程标识集合,完成对所述待处理任务的线程分配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210949987.6A CN115016950B (zh) | 2022-08-09 | 2022-08-09 | 一种基于多线程模型的数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210949987.6A CN115016950B (zh) | 2022-08-09 | 2022-08-09 | 一种基于多线程模型的数据分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115016950A CN115016950A (zh) | 2022-09-06 |
CN115016950B true CN115016950B (zh) | 2022-11-18 |
Family
ID=83066246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210949987.6A Active CN115016950B (zh) | 2022-08-09 | 2022-08-09 | 一种基于多线程模型的数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115016950B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628168B (zh) * | 2023-06-12 | 2023-11-14 | 深圳市逗娱科技有限公司 | 基于大数据的用户个性分析处理方法、系统及云平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184367A (zh) * | 2014-06-09 | 2015-12-23 | 讯飞智元信息科技有限公司 | 深度神经网络的模型参数训练方法及系统 |
CN110177146A (zh) * | 2019-05-28 | 2019-08-27 | 东信和平科技股份有限公司 | 一种基于异步事件驱动的非阻塞Restful通信方法、装置和设备 |
CN114091029A (zh) * | 2022-01-24 | 2022-02-25 | 深信服科技股份有限公司 | 恶意文件检测模型的训练系统、方法、设备、介质及平台 |
-
2022
- 2022-08-09 CN CN202210949987.6A patent/CN115016950B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184367A (zh) * | 2014-06-09 | 2015-12-23 | 讯飞智元信息科技有限公司 | 深度神经网络的模型参数训练方法及系统 |
CN110177146A (zh) * | 2019-05-28 | 2019-08-27 | 东信和平科技股份有限公司 | 一种基于异步事件驱动的非阻塞Restful通信方法、装置和设备 |
CN114091029A (zh) * | 2022-01-24 | 2022-02-25 | 深信服科技股份有限公司 | 恶意文件检测模型的训练系统、方法、设备、介质及平台 |
Non-Patent Citations (1)
Title |
---|
"面向有限资源的物联网终端操作系统设计与实现";夏恒发;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;第I136-1340页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115016950A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046706B (zh) | 模型生成方法、装置及服务器 | |
CN112860411B (zh) | 一种基于模型压缩和服务分发的边缘计算方法及系统 | |
CN115016950B (zh) | 一种基于多线程模型的数据分析方法及系统 | |
CN112884016B (zh) | 云平台可信评估模型训练方法和云平台可信评估方法 | |
JP2019075035A (ja) | ソフトウェアテスト装置および方法 | |
CN115914392A (zh) | 算力网络资源调度方法及系统 | |
CN110824587A (zh) | 图像预测方法、装置、计算机设备和存储介质 | |
CN111090401B (zh) | 存储设备性能预测方法及装置 | |
CN112686317A (zh) | 神经网络训练方法、装置、电子设备及存储介质 | |
CN111626098A (zh) | 模型的参数值更新方法、装置、设备及介质 | |
CN111158918B (zh) | 支撑点并行枚举负载均衡方法、装置、设备及介质 | |
CN117370134A (zh) | 微服务性能的评价方法、装置、电子设备及存储介质 | |
EP3940626A1 (en) | Information processing method and information processing system | |
CN114997401B (zh) | 自适应推理加速方法、装置、计算机设备和存储介质 | |
CN116880867A (zh) | 基于策略大模型的决策引擎更新方法及装置 | |
CN115713216A (zh) | 一种机器人调度方法及相关设备 | |
CN109743203B (zh) | 一种基于量化信息流的分布式服务安全组合系统及方法 | |
CN113744719A (zh) | 一种语音提取方法、装置及设备 | |
CN114742644A (zh) | 训练多场景风控系统、预测业务对象风险的方法和装置 | |
WO2022041866A1 (zh) | 因果关系的确定方法、装置、设备及可读存储介质 | |
CN118170550B (zh) | Node节点水位线阈值调节方法、装置及相关设备 | |
US10096036B2 (en) | Optimal design assistance device, method, and recording medium | |
CN118485858B (zh) | 基于多分类器融合的土地利用遥感监测方法及系统 | |
CN114743379B (zh) | 基于北斗的城市大面积路网交通感知方法、系统及云平台 | |
CN117493530B (zh) | 资源需求分析方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |