CN116611506A - 用户分析模型训练方法、用户标签确定方法和装置 - Google Patents
用户分析模型训练方法、用户标签确定方法和装置 Download PDFInfo
- Publication number
- CN116611506A CN116611506A CN202310878695.2A CN202310878695A CN116611506A CN 116611506 A CN116611506 A CN 116611506A CN 202310878695 A CN202310878695 A CN 202310878695A CN 116611506 A CN116611506 A CN 116611506A
- Authority
- CN
- China
- Prior art keywords
- population
- sub
- fitness
- individuals
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000012549 training Methods 0.000 title claims abstract description 63
- 230000000875 corresponding effect Effects 0.000 claims abstract description 48
- 230000002068 genetic effect Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000002596 correlated effect Effects 0.000 claims abstract description 7
- 230000004044 response Effects 0.000 claims description 80
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012163 sequencing technique Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 description 51
- 238000004422 calculation algorithm Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 5
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种用户分析模型训练方法、用户标签确定方法和装置。所述方法包括:获取用户分析模型对应的至少一组模型参数作为种群个体;根据各种群个体的预测适应度进行聚类,得到多个子种群,根据各志愿客户端的可靠度进行聚类,得到多个子集群;子种群的预测适应度与匹配的子集群的可靠度正相关;将样本用户数据和子种群中的各种群个体发送给与子种群匹配的子集群中的各志愿客户端,使各志愿客户端反馈实际适应度;根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,直到达到迭代结束条件,得到训练后的目标用户分析模型。采用本方法能够提高用户分析模型的训练效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种用户分析模型训练方法、用户标签确定方法和装置。
背景技术
用户分析模型可以用于根据用户数据,进行用户画像、用户行为路径分析、用户粘性分析等。对用户分析模型进行训练的过程中,可以利用遗传算法来迭代优化模型参数。为了提高用户分析模型的分析准确度,往往需要使用大量样本用户数据对模型进行训练和优化,因此模型训练对计算资源需求量较大。
随着越来越多的计算任务对算力有较高的要求,出现了志愿计算项目,即志愿者提供自己的空闲计算资源来帮助需求方计算大型任务的一种分布式计算。需求方可以将大型计算任务拆分后发送给加入志愿计算项目的计算节点(可称为志愿客户端)进行计算,志愿客户端计算完成后将结果回传。
然而,志愿客户端存在易丢失和不稳定的特性,即志愿客户端可能收到任务后不返回结果,或结果回传时间较晚,因此,通过上述方式对用户分析模型训练,难以保障模型训练效率。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用户分析模型训练效率的用户分析模型训练方法和装置、用户标签确定方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种用户分析模型训练方法。所述方法包括:
获取目标用户分析模型对应的至少一组模型参数,并将每组所述模型参数作为一个种群个体;
根据各所述种群个体的预测适应度对各所述种群个体进行聚类,得到多个子种群,并根据各目标志愿客户端的可靠度对各所述目标志愿客户端进行聚类,得到多个子集群;所述可靠度用于表征所述目标志愿客户端反馈任务响应数据的可靠程度;
根据各所述子种群对应的预测适应度和各所述子集群对应的可靠度,确定各所述子种群匹配的子集群,并将样本用户数据和所述子种群中的各种群个体发送给与所述子种群匹配的子集群中的各目标志愿客户端,以使各所述目标志愿客户端根据所述样本用户数据和所述种群个体反馈包含实际适应度的任务响应数据;所述子种群的预测适应度与匹配的子集群的可靠度正相关;
根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,并执行所述将每组所述模型参数作为一个种群个体步骤,直到达到迭代结束条件,并基于当前实际适应度最高的模型参数,得到训练后的目标用户分析模型。
在其中一个实施例中,所述根据各所述种群个体的预测适应度对各所述种群个体进行聚类之前,所述方法还包括:
采用蒙特卡洛估计法,构建所述目标用户分析模型的适应度计算函数的近似模型;
基于所述近似模型确定各所述种群个体的预测适应度。
在其中一个实施例中,所述根据各所述种群个体的预测适应度对各所述种群个体进行聚类,得到多个子种群,包括:
将各所述种群个体按照预测适应度大小进行排序,得到种群个体序列;
根据预设分类策略,对所述种群个体序列进行划分,得到多个子种群。
在其中一个实施例中,所述根据各目标志愿客户端的可靠度对各所述目标志愿客户端进行聚类,得到多个子集群,包括:
获取各目标志愿客户端的历史任务响应数据,并根据所述历史任务响应数据确定可靠度;
将各所述目标志愿客户端按照可靠度大小进行排序,得到志愿客户端序列;
根据预设分类策略,对所述志愿客户端序列进行划分,得到多个子集群。
在其中一个实施例中,所述子集群的数目与所述子种群的数目相同;所述根据各所述子种群对应的预测适应度和各所述子集群对应的可靠度,确定各所述子种群匹配的子集群,包括:
将各所述子种群按照预测适应度大小排序,得到子种群序列,并将各所述子集群按照可靠度大小排序,得到子集群序列;
将所述子种群序列和所述子集群序列中,序号相同的子种群和子集群相匹配。
在其中一个实施例中,所述根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,包括:
接收各所述目标志愿客户端反馈的各所述种群个体的实际适应度;
在当前接收到的所述实际适应度的数目满足预设数目条件的情况下,将接收到的所述实际适应度对应的各种群个体作为目标种群个体,并将各所述目标种群个体进行遗传操作,得到新的第一种群个体;
将接收到的所述实际适应度对应的各种群个体中、实际适应度满足预设条件的种群个体,作为新的第二种群个体;
基于所述新的第一种群个体和所述新的第二种群个体的集合,得到更新后的模型参数。
在其中一个实施例中,所述根据各目标志愿客户端的可靠度对各所述目标志愿客户端进行聚类,得到多个子集群之前,所述方法还包括:
获取多个志愿客户端的响应时间戳信息,并根据所述响应时间戳信息确定各所述志愿客户端与本地服务器通信的最近响应时间;
将所述多个志愿客户端中所述最近响应时间符合条件的志愿客户端确定为目标志愿客户端。
第二方面,本申请还提供了一种用户标签确定方法。所述方法包括:
获取目标用户的用户数据;
将所述用户数据输入至用户分析模型,得到用户标签;
其中,所述用户分析模型根据第一方面所述的用户分析模型训练方法训练得到。
第三方面,本申请还提供了一种用户分析模型训练装置。所述装置包括:
获取模块,用于获取目标用户分析模型对应的至少一组模型参数,并将每组所述模型参数作为一个种群个体;
分类模块,用于根据各所述种群个体的预测适应度对各所述种群个体进行聚类,得到多个子种群,并根据各目标志愿客户端的可靠度对各所述目标志愿客户端进行聚类,得到多个子集群;所述可靠度用于表征所述目标志愿客户端反馈任务响应数据的可靠程度;
发送模块,用于根据各所述子种群对应的预测适应度和各所述子集群对应的可靠度,确定各所述子种群匹配的子集群,并将样本用户数据和所述子种群中的各种群个体发送给与所述子种群匹配的子集群中的各目标志愿客户端,以使各所述目标志愿客户端根据所述样本用户数据和所述种群个体反馈包含实际适应度的任务响应数据;所述子种群的预测适应度与匹配的子集群的可靠度正相关;
迭代模块,用于根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,并执行所述将每组所述模型参数作为一个种群个体步骤,直到达到迭代结束条件,并基于当前实际适应度最高的模型参数,得到训练后的目标用户分析模型。
在其中一个实施例中,所述装置还包括:
构建模块,用于采用蒙特卡洛估计法,构建所述目标用户分析模型的适应度计算函数的近似模型;
第一确定模块,用于基于所述近似模型确定各所述种群个体的预测适应度。
在其中一个实施例中,所述分类模块具体用于:
将各所述种群个体按照预测适应度大小进行排序,得到种群个体序列;根据预设分类策略,对所述种群个体序列进行划分,得到多个子种群。
在其中一个实施例中,所述分类模块具体用于:
获取各目标志愿客户端的历史任务响应数据,并根据所述历史任务响应数据确定可靠度;将各所述目标志愿客户端按照可靠度大小进行排序,得到志愿客户端序列;根据预设分类策略,对所述志愿客户端序列进行划分,得到多个子集群。
在其中一个实施例中,所述子集群的数目与所述子种群的数目相同;所述发送模块具体用于:
将各所述子种群按照预测适应度大小排序,得到子种群序列,并将各所述子集群按照可靠度大小排序,得到子集群序列;将所述子种群序列和所述子集群序列中,序号相同的子种群和子集群相匹配。
在其中一个实施例中,所述迭代模块具体用于:
接收各所述目标志愿客户端反馈的各所述种群个体的实际适应度;在当前接收到的所述实际适应度的数目满足预设数目条件的情况下,将接收到的所述实际适应度对应的各种群个体作为目标种群个体,并将各所述目标种群个体进行遗传操作,得到新的第一种群个体;将接收到的所述实际适应度对应的各种群个体中、实际适应度满足预设条件的种群个体,作为新的第二种群个体;基于所述新的第一种群个体和所述新的第二种群个体的集合,得到更新后的模型参数。
在其中一个实施例中,所述装置还包括:
第二确定模块,用于获取多个志愿客户端的响应时间戳信息,并根据所述响应时间戳信息确定各所述志愿客户端与本地服务器通信的最近响应时间;
第三确定模块,用于将所述多个志愿客户端中所述最近响应时间符合条件的志愿客户端确定为目标志愿客户端。
第四方面,本申请还提供了一种用户标签确定装置。所述装置包括:
获取模块,用于获取目标用户的用户数据;
输入模块,用于将所述用户数据输入至用户分析模型,得到用户标签;
其中,所述用户分析模型根据第一方面所述的用户分析模型训练方法训练得到。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面或第二方面所述的方法的步骤。
第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第二方面所述的方法的步骤。
第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面或第二方面所述的方法的步骤。
上述用户分析模型训练方法和装置、用户标签确定方法和装置、计算机设备、存储介质和计算机程序产品,通过将采用遗传算法迭代优化用户分析模型的参数过程中涉及的各种群个体的适应度计算任务进行拆分,发送给志愿客户端进行计算。其中,适应度计算任务拆分时,是将预测适应度较高的种群个体的适应度计算任务发送给可靠度较高的志愿客户端执行,由此,服务器在可接受的时间内接收到可靠度较高的志愿客户端反馈的优秀种群个体的计算结果的概率更大,进而服务器可以基于优秀的种群个体进行遗传迭代处理,可以更好的保障遗传算法收敛效率和模型训练效果。因此,本方法可以充分利用志愿客户端的算力,且能减少志愿客户端的易失性和不稳定性带来的影响,提高用户分析模型的整体训练效率。
附图说明
图1为一个实施例中用户分析模型训练方法的应用环境图;
图2为一个实施例中用户分析模型训练方法的流程示意图;
图3为一个实施例中聚类得到多个子种群的流程示意图;
图4为一个实施例中聚类得到多个子集群的流程示意图;
图5为一个实施例中遗传迭代处理的流程示意图;
图6为一个实施例中用户标签确定方法的流程示意图;
图7为一个实施例中用户分析模型训练装置的结构框图;
图8为一个实施例中用户标签确定装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
首先,在具体介绍本申请实施例的技术方案之前,先对本申请实施例基于的技术背景或者技术演进脉络进行介绍。用户分析模型(或用户行为分析模型)可以用于根据用户数据,进行用户画像、用户行为路径分析、用户粘性分析等,对用户进行标记(用户标签),以便精准定位用户。对用户分析模型进行训练的过程中,可以利用遗传算法来迭代优化模型参数。而为了提高用户分析模型的分析准确度,往往需要使用大量样本用户数据对模型进行训练和优化,因此模型训练对计算资源需求量较大。算力的昂贵往往会成为获取足够计算资源的阻碍,有限的算力将导致模型训练效率低下。随着越来越多的计算任务对算力有较高的要求,出现了志愿计算项目,即志愿者(如个人、学校等机构)提供自己的空闲计算资源来帮助需求方计算大型任务的一种分布式计算。需求方可以将大型计算任务拆分后发送给加入志愿计算项目的计算节点(可称为志愿客户端)进行计算,志愿客户端计算完成后将结果回传。
然而,志愿客户端存在易丢失和不稳定的特性,即志愿客户端可能收到任务后不返回计算结果(包括不反馈结果或反馈错误结果,如乱码等),或结果回传时间较晚,因此,通过上述方式对用户分析模型训练,难以保障模型训练效率。基于该背景,申请人通过长期的研发以及实验验证,提出本申请的用户分析模型训练方法,通过服务器将采用遗传算法迭代优化用户分析模型的参数过程中涉及的各种群个体的适应度计算任务进行拆分,发送给志愿客户端进行计算,由此可以充分利用志愿计算的计算资源,提升用户分析模型的训练效率。其中,适应度计算任务拆分时,是将预测适应度较高的计算任务发送给可靠度较高的志愿客户端执行,由此,优秀的种群个体的计算结果有较大概率能够被可靠度较高的志愿客户端及时的反馈给服务器,进而基于优秀的种群个体进行遗传迭代处理,可以更好的保障遗传算法收敛效率和模型训练效果,因此,本方法可以削弱志愿客户端的易失性和不稳定性带来的影响,提高用户分析模型的训练效率。另外,需要说明的是,本申请技术问题的发现以及下述实施例介绍的技术方案,申请人均付出了大量的创造性劳动。
本申请实施例提供的用户分析模型训练方法,可以应用于如图1所示的应用环境中。其中,服务器102通过网络与各志愿客户端104进行通信。其中,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。志愿客户端104可以通过个人计算机、笔记本电脑、服务器等计算机设备实现。
在一个实施例中,如图2所示,提供了一种用户分析模型训练方法,该方法可以应用于图1中的服务器。本实施例中,该方法包括以下步骤:
步骤201,获取目标用户分析模型对应的至少一组模型参数,并将每组模型参数作为一个种群个体。
在实施中,目标用户分析模型可以用于根据用户数据,对用户行为进行分析,得到用户标签。通常,目标用户分析模型包括多个模型参数,每个模型参数具有一定取值范围,因而模型参数可以有多种取值组合,一个组合即为一组模型参数,也可称为模型参数的一个解,模型训练的目的即是在多个解的解空间中找到目标解(全局最优解或满足要求的近优解),使得基于该目标解(即该组模型参数)构建的目标用户分析模型,其分析结果准确度可以达到要求。服务器可以采用遗传算法搜寻目标用户分析模型的模型参数目标解,具体的,服务器可以获取多组模型参数,每组模型参数即为一个种群个体,由此组成当代种群。
当代种群可以是对上一代种群(父代种群)经过后续处理更新得到的模型参数(详见步骤202至204的描述)。对于初代种群,服务器可以在解空间内随机抽取多组模型参数,生成初代种群。
步骤202,根据各种群个体的预测适应度对各种群个体进行聚类,得到多个子种群,并根据各目标志愿客户端的可靠度对各目标志愿客户端进行聚类,得到多个子集群。
其中,可靠度用于表征目标志愿客户端反馈任务响应数据的可靠程度,具体可以根据志愿客户端的历史任务执行情况得到各志愿客户端的可靠度。目标志愿客户端可以是加入志愿计算项目的全部或部分志愿客户端。
在实施中,预测适应度可以是采用用户分析模型对应的近似模型或适应度函数的近似函数计算得到的,近似模型或近似函数可以是简化版的模型,服务器可以利用较少的计算资源快速得到各种群个体的预测适应度。服务器可以根据当代种群中各种群个体的预测适应度,对各种群个体进行聚类,以将预测适应度相近的种群个体划为一类,由此得到多个子种群,各子种群对应的预测适应度大小不同。
以及,服务器可以根据各目标志愿客户端的可靠度对各目标志愿客户端进行聚类,以将可靠度相近的志愿客户端划为一类,由此得到多个子集群,各子集群对应的可靠度大小不同。
步骤203,根据各子种群对应的预测适应度和各子集群对应的可靠度,确定各子种群匹配的子集群,并将样本用户数据和子种群中的各种群个体发送给与子种群匹配的子集群中的各目标志愿客户端,以使各目标志愿客户端根据样本用户数据和种群个体反馈包含实际适应度的任务响应数据。
在实施中,服务器可以根据子种群对应的预测适应度和各子集群对应的可靠度,将子种群和子集群进行匹配,使得子种群的预测适应度与匹配的子集群的可靠度正相关,也即,子种群对应的预测适应度越大,与其匹配的子集群的可靠度越高。例如,对于q个子种群{P1,P2,…,Pq}和q个子集群{H1,H2,…,Hq},若子种群p1的预测适应度最大(即该子种群中的各种群个体的预测适应度,大于其它子种群中各种群个体的预测适应度),子集群H1的可靠度最高(即该子集群中各志愿客户端的可靠度高于其它子集群中的志愿客户端的可靠度),则可以将子种群p1和子集群H1相匹配。
然后,服务器可以将样本用户数据和子种群中的各种群个体发送给与该子种群匹配的子集群中的各目标志愿客户端,以使各目标志愿客户端执行接收到的种群个体的适应度计算任务,并将包含实际适应度(计算结果)的任务响应数据回传给服务器。例如,服务器可以将子种群p1中的各种群个体,分配给与之匹配的子集群H1中的各目标志愿客户端进行适应度计算,可以采用平均分配,或按照一定权重进行分配(如权重越大,种群个体计算任务量越大),权重可以与志愿客户端的可靠度正相关,也可以与志愿客户端的算力大小正相关。
步骤204,根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,并执行将每组模型参数作为一个种群个体步骤,直到达到迭代结束条件,并基于当前实际适应度最高的模型参数,得到训练后的目标用户分析模型。
在实施中,服务器可以接收各目标志愿客户端回传的实际适应度,并根据接收到的实际适应度进行遗传迭代处理。由于志愿客户端的易丢失和不稳定的特性,服务器可能无法接收到全部目标志愿客户端返回的实际适应度,或无法在可接受的时间范围内接收到全部目标志愿客户端返回的实际适应度,因而,服务器接收到的实际适应度,通常是当代种群中部分种群个体的实际适应度。服务器可以基于接收到的部分实际适应度,对各实际适应度的种群个体进行遗传迭代处理(交叉、变异等),以得到更新后的模型参数。更新后的每组模型参数可以作为新的种群个体,组成下一次种群,用于下一次迭代更新,直到达到迭代结束条件(迭代次数达到预设次数,或适应度收敛,即近几代种群中的最大适应度相同或相近),则可以将当代种群中适应度最大的种群个体作为目标解,基于目标解的模型参数构建用户分析模型,即得到训练后的目标用户分析模型。
上述用户分析模型训练方法中,服务器将采用遗传算法迭代优化用户分析模型的参数过程中涉及的各种群个体的适应度计算任务进行拆分,发送给志愿客户端进行计算。其中,适应度计算任务拆分时,是将预测适应度较高的种群个体的适应度计算任务发送给可靠度较高的志愿客户端执行,由此,服务器在可接受的时间内接收到可靠度较高的志愿客户端反馈的优秀种群个体的计算结果的概率更大,进而服务器可以基于优秀的种群个体进行遗传迭代处理,可以更好的保障遗传算法收敛效率和模型训练效果。因此,本方法可以充分利用志愿客户端的算力,且能减少志愿客户端的易失性和不稳定性带来的影响,提高用户分析模型的整体训练效率。
在一个实施例中,在步骤202之前,该方法还包括预测适应度的计算步骤,具体包括:采用蒙特卡洛估计法,构建目标用户分析模型的适应度计算函数的近似模型;基于近似模型确定各种群个体的预测适应度。
在实施中,服务器可以采用蒙特卡洛估计法,构建目标用户分析模型的适应度计算函数的近似模型,进而服务器可以基于样本用户数据和近似模型,计算当代种群中各种群个体的预测适应度。可以理解的,目标用户分析模型不同,其对应的适应度函数可以不同。相应的,近似模型也可以不同。具体目标用户分析模型和适应度函数可以根据需求选择,本实施例对此不做限定。
在一个示例中,用户分析模型可以用函数表示为:
其中,ω1,ω2,…,ωd,b为用户分析模型的模型参数,x1,x2,…,xd表示一个用户样本的特征数据(样本用户数据),一个用户样本包含d个特征,表示用户样本(x1,x2,…,xd)对应的用户标签。用户分析模型的一组参数/>即为遗传算法中的一个个体,其中j∈[1,+∞)代表此个体是第几代,k∈[1,+∞)表示此个体是此代中的第几个个体,举例来说,/>表示这是初代种群中的第2个个体。
该用户分析模型的适应度计算函数为:
其中,表示第i个用户样本对应的真实标签,n表示样本数,为了使适应度计算函数收敛,样本数n应足够大(理论上趋于正无穷),如各志愿客户端计算实际适应度时,使用m个(如m=5*107)用户样本,计算得到的适应度/>作为实际适应度(该示例中,基于该个体对应的模型参数构建的模型,分析得到的用户标签与样本真实标签差距越小,则适应度/>越大,说明该个体越优秀,在其他示例中,也可以适应度越小,个体越优秀,具体与适应度计算函数有关)。为了快速预测各个体的适应度,可以采用蒙特卡洛估计法,构建适应度计算函数的近似模型:
其中,为用于计算近似适应度的用户样本数,/>的值通常远远小于用于计算实际适应度的用户样本数,服务器可以从大量用户样本中随机抽取/>个用户样本,用于计算预测适应度/>。/>和m的值,可以根据实验或经验指定。
本实施例中,采用蒙特卡洛估计法可以快速计算出各种群个体的预测适应度,各种群个体的预测适应度的相对大小可以近似反映各种群个体的实际适应度的相对大小,从而可以基于预测适应度对各种群个体进行聚类分组,以便将预测适应度更高的优秀种群个体的适应度计算任务分配可靠度更高的志愿客户端计算,尽量保障优秀种群个体的遗传迭代,提高遗传算法收敛速度和用户分析模型的训练效率。
在一个实施例中,如图3所示,步骤202中聚类得到多个子种群的过程具体包括如下步骤:
步骤301,将各种群个体按照预测适应度大小进行排序,得到种群个体序列。
在实施中,服务器可以将各种群个体按照预测适应度大小进行排序,如从大到小或从小到大进行排序,得到种群个体序列。例如,若种群个体的数目为m,则可以得到种群个体序列{I1,I2,…,Im}。
步骤302,根据预设分类策略,对种群个体序列进行划分,得到多个子种群。
在实施中,服务器可以对种群个体序列进行划分,划分规则可以是按照预设的子种群的数目,以及每个子种群中个体数的预设占比(即子种群中的个体数占种群个体总数的比例),对种群个体序列进行划分。例如,若子种群数目设为q个,可记为{P1,P2,…,Pq},P1至Pq的预测适应度依次减小,且各子种群的个体数占比设为{r1,r2,…,rq},由此,可以将种群个体序列(从大到小排序的)中前r1%个种群个体划分至子种群P1,将之后的r2%个种群个体划分至子种群P2,以此类推,即可得到多个子种群。
本实施例中,通过将种群个体按照预测适应度大小排序,进而对排序后的序列进行划分,即实现将种群个体进行高效分类得到多个子种群,且每个子种群对应的预测适应度不同,进而可以将预测适应度高的子种群的种群个体分配给可靠度高的子集群的志愿客户端执行适应度计算任务,使更可靠的客户端群负责更优秀的子种群的适应度计算,尽量保障优秀种群个体的遗传迭代,提高遗传算法收敛速度和用户分析模型的训练效率。
在一个实施例中,如图4所示,步骤202中聚类得到多个子集群的过程具体包括如下步骤:
步骤401,获取各目标志愿客户端的历史任务响应数据,并根据历史任务响应数据确定可靠度。
在实施中,历史任务响应数据可以包括目标志愿客户端执行本申请涉及的历史适应度计算任务产生的历史任务响应数据,从初代种群的第一次迭代开始,至当前迭代次数之前的各迭代次数对应的适应度计算任务即为历史适应度计算任务,还可以包括服务器向该志愿客户端分配的其它计算任务的历史任务响应数据。历史任务响应数据具体可以包括志愿客户端执行服务器分配的计算任务的平均响应时间(也可称为平均周转周期)和平均响应错误率,可以根据发送任务的时间、接收到任务响应数据的时间、以及发送任务次数,计算平均响应时间,如志愿客户端反馈的任务响应数据为乱码、任务响应数据中不包含计算结果或未反馈任务响应数据,即可称为错误响应,可以根据发送任务次数和错误响应的次数,计算平均响应错误率。
服务器可以直接将平均响应时间和平均响应错误率作为志愿客户端的可靠度,即可靠度包含两个数值,也可以将平均响应时间和平均响应错误率进行加权平均,得到可靠度,平均响应错误率的权重可以大于平均响应时间的权重。
步骤402,将各目标志愿客户端按照可靠度大小进行排序,得到志愿客户端序列。
在实施中,服务器可以将各目标志愿客户端按照可靠度大小进行排序,例如,若可靠度为平均响应时间和平均响应错误率两个数值,则可以先基于平均响应错误率进行排序,对于平均响应错误率相同的多个志愿客户端,进一步按照平均响应时间排序若可靠度为基于平均响应时间和平均响应错误率得到的一个综合数值,则可以直接基于可靠度大小进行排序,由此可以得到志愿客户端序列。
步骤403,根据预设分类策略,对志愿客户端序列进行划分,得到多个子集群。
在实施中,服务器可以对志愿客户端序列进行划分,划分规则可以是按照预设的子集群的数目,以及每个子集群中客户端数的预设占比,对志愿客户端序列进行划分。可选的,子集群和子种群的个数可以相同,子集群的客户端数占比可以和相匹配的子种群的个体数占比相同。例如,子集群数目可以设为q个(与子种群数目相同),可记为{H1,H2,…,Hq},H1至Hq的可靠度依次减小,各子集群的客户端数占比可以与匹配的子种群的个体数占比一致,设为{r1,r2,…,rq},由此,可以将志愿客户端序列(从大到小排序的)中前r1%个志愿客户端划分至子集群H1,将之后的r2%个志愿客户端划分至子集群H2,以此类推,即可得到多个子集群。
本实施例中,通过根据各志愿客户端的历史任务响应数据确定可靠度,进而将志愿客户端按照可靠度大小排序,对排序后的序列进行划分,即实现将志愿客户端进行高效分类得到多个子集群,且每个子集群对应的可靠度不同,从而可以将预测适应度高的子种群的种群个体分配给可靠度高的子集群的志愿客户端执行适应度计算任务,使更可靠的客户端群负责更优秀的子种群的适应度计算,尽量保障优秀种群个体的遗传迭代,提高遗传算法收敛速度和用户分析模型的训练效率。
在一个实施例中,子集群的数目与子种群的数目相同。步骤203中确定各子种群匹配的子集群的过程具体包括如下步骤:将各子种群按照预测适应度大小排序,得到子种群序列,并将各子集群按照可靠度大小排序,得到子集群序列;将子种群序列和子集群序列中,序号相同的子种群和子集群相匹配。
在实施中,服务器可以将各子种群按照预测适应度大小排序,得到子种群序列,如{P1,P2,…,Pq},P1至Pq的预测适应度依次减小,并可以将各子集群按照可靠度大小排序,得到子集群序列,如{H1,H2,…,Hq},H1至Hq的可靠度依次减小。然后,服务器可以将子种群序列和子集群序列中,序号相同的子种群和子集群相匹配,也即P1与H1匹配,Pq与Hq匹配,以此类推。
本实施例中,通过将各子种群按照预测适应度排序,将子集群按照可靠度排序,两者排序方向相同(均从大到小或从小到大),分别得到子种群序列和子集群序列,进而将序号相同的子种群和子集群相匹配,即可使更可靠的客户端群负责更优秀的子种群的适应度计算(优对优分配机制),尽量保障优秀种群个体的遗传迭代,提高遗传算法收敛速度和用户分析模型的训练效率。
在一个实施例中,如图5所示,步骤204中进行遗传迭代处理得到更新后的模型参数的过程具体包括如下步骤:
步骤501,接收各目标志愿客户端反馈的各种群个体的实际适应度。
在实施中,服务器将适应度计算任务发送给目标志愿客户端后,可以接收各目标志愿客户端反馈的各种群个体的实际适应度。
步骤502,在当前接收到的实际适应度的数目满足预设数目条件的情况下,将接收到的实际适应度对应的各种群个体作为目标种群个体,并将各目标种群个体进行遗传操作,得到新的第一种群个体。
在实施中,预设数目条件可以是具体数目,也可以是比例,如达到种群个体总数的一定比例(如90%)。由于志愿客户端存在易丢失和不稳定的特性,部分志愿客户端可能不能及时准确的反馈计算结果(实际适应度),服务器可以在接收到的实际适应度的数目满足预设数目条件,如接收到90%的种群个体的实际适应度时,将接收到的实际适应度对应的各种群个体作为目标种群个体,进而可以将目标种群个体进行遗传操作(如交叉操作和变异操作),生成新一代种群的第一种群个体。第一种群个体的数目可以与目标种群个体的数目一致。
步骤503,将接收到的实际适应度对应的各种群个体中、实际适应度满足预设条件的种群个体,作为新的第二种群个体。
在实施中,服务器可以将接收到的实际适应度对应的各种群个体,按照实际适应度从大到小排序,将排序在前的目标数目个种群个体(即当代种群,或新一代种群的父代种群中的种群个体)作为新一代种群的第二种群个体。第二种群个体和第一种群个体数目之和可以与当代种群中的个体总数一致。若第一种群个体数目为个体总数的90%,则第二种群个体数目为个体总数的10%,由此可以保障每一代种群的个体数目一致。
步骤504,基于新的第一种群个体和新的第二种群个体的集合,得到更新后的模型参数。
在实施中,新的第一种群个体和第二种群个体的集合,即为新一代种群,新一代种群中的每一个种群个体,即对应一组更新后的模型参数。由此,完成一次遗传迭代处理,得到新一代种群。服务器可以返回执行步骤202,根据新一代种群中的各种群个体的预测适应度进行聚类,并基于各目标志愿客户端的历史任务响应数据(包括上一次迭代的任务响应数据)确定新的可靠度,进而基于可靠度进行聚类,从而可以将子种群中各种群个体的适应度计算任务分配给匹配的子集群中的志愿客户端计算,接收反馈的计算结果,直到达到迭代结束条件,基于当前实际适应度最高的模型参数构建目标用户分析模型,即完成模型优化或模型训练。
本实施例中,由于志愿客户端存在易丢失和不稳定的特性,部分志愿客户端可能不能及时准确的反馈计算结果(实际适应度),服务器可以在接收到部分种群个体的实际适应度后,将该部分种群个体(目标种群个体)进行遗传操作,生成新一代个体,并保留适应度最高的一部分父代种群个体,直接遗传至新一代种群(精英保留进化机制),并结合优对优分配机制,可以减少志愿客户端的易丢失和不稳定的特性的影响,保障优秀种群个体的遗传迭代,提高遗传算法收敛速度和用户分析模型的训练效率。
在一个实施例中,步骤202中得到多个子集群之前,该方法还包括目标志愿客户端的确定步骤,具体包括:获取多个志愿客户端的响应时间戳信息,并根据响应时间戳信息确定各志愿客户端与本地服务器通信的最近响应时间;将多个志愿客户端中最近响应时间符合条件的志愿客户端确定为目标志愿客户端。
在实施中,服务器可以获取加入志愿计算项目的各个志愿客户端的响应时间戳信息,并根据响应时间戳信息确定各志愿客户端与服务器通信的最近响应时间。志愿客户端的响应可以是针对任意计算任务的响应,也可以是针对其它指令的响应,可以反映出志愿客户端向服务器反馈消息的时间即可。最近响应时间符合条件(如最近响应时间与当前时间的时间差小于等于预设时长)的志愿客户端,可以认为是活跃客户端,进而对活跃客户端进行聚类分组,使得可靠度较高的活跃客户端对优秀的种群个体进行适应度计算,可以进一步减少志愿客户端的易丢失和不稳定的影响,保障优秀种群个体的遗传迭代,提高遗传算法收敛速度和用户分析模型的训练效率。
在一个实施例中,如图6所示,还提供了一种用户标签确定方法,该方法可以应用于终端,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例以该方法应用于终端为例进行说明,包括如下步骤:
步骤601,获取目标用户的用户数据。
在实施中,用户数据是对用户进行行为分析所需的相关数据,可以是用户注册的基础信息、浏览产品信息、事件路径信息等。
步骤602,将用户数据输入至用户分析模型,得到用户标签。
在实施中,终端可以将用户数据输入至用户分析模型,得到用户标签,即可分析出目标用户所属标签类型,便于对目标用户进行精准定位,提高用户服务体验。其中,用户分析模型根据上述实施例涉及的用户分析模型训练方法训练得到。
本实施例中,可以采用用户分析模型对目标用户进行行为分析,得到用户标签。其中,用户分析模型的训练过程,是通过服务器将采用遗传算法迭代优化用户分析模型的参数过程中涉及的各种群个体的适应度计算任务进行拆分,发送给志愿客户端进行计算。适应度计算任务拆分时,是将预测适应度较高的种群个体的适应度计算任务发送给可靠度较高的志愿客户端执行,可以充分利用志愿客户端的算力,且能减少志愿客户端的易失性和不稳定性带来的影响,提高用户分析模型的整体训练效率,进而可以提高用户分析的整体效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的用户分析模型训练方法的用户分析模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户分析模型训练装置实施例中的具体限定可以参见上文中对于用户分析模型训练方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种用户分析模型训练装置700,包括:获取模块701、分类模块702、发送模块703和迭代模块704,其中:
获取模块701,用于获取目标用户分析模型对应的至少一组模型参数,并将每组模型参数作为一个种群个体。
分类模块702,用于根据各种群个体的预测适应度对各种群个体进行聚类,得到多个子种群,并根据各目标志愿客户端的可靠度对各目标志愿客户端进行聚类,得到多个子集群;可靠度用于表征目标志愿客户端反馈任务响应数据的可靠程度。
发送模块703,用于根据各子种群对应的预测适应度和各子集群对应的可靠度,确定各子种群匹配的子集群,并将样本用户数据和子种群中的各种群个体发送给与子种群匹配的子集群中的各目标志愿客户端,以使各目标志愿客户端根据样本用户数据和种群个体反馈包含实际适应度的任务响应数据;子种群的预测适应度与匹配的子集群的可靠度正相关。
迭代模块704,用于根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,并执行将每组模型参数作为一个种群个体步骤,直到达到迭代结束条件,并基于当前实际适应度最高的模型参数,得到训练后的目标用户分析模型。
在其中一个实施例中,该装置还包括构建模块和第一确定模块,其中:
构建模块,用于采用蒙特卡洛估计法,构建目标用户分析模型的适应度计算函数的近似模型。
第一确定模块,用于基于近似模型确定各种群个体的预测适应度。
在其中一个实施例中,分类模块702具体用于:将各种群个体按照预测适应度大小进行排序,得到种群个体序列;根据预设分类策略,对种群个体序列进行划分,得到多个子种群。
在其中一个实施例中,分类模块702具体用于:获取各目标志愿客户端的历史任务响应数据,并根据历史任务响应数据确定可靠度;将各目标志愿客户端按照可靠度大小进行排序,得到志愿客户端序列;根据预设分类策略,对志愿客户端序列进行划分,得到多个子集群。
在其中一个实施例中,子集群的数目与子种群的数目相同。发送模块703具体用于:将各子种群按照预测适应度大小排序,得到子种群序列,并将各子集群按照可靠度大小排序,得到子集群序列;将子种群序列和子集群序列中,序号相同的子种群和子集群相匹配。
在其中一个实施例中,迭代模块704具体用于:接收各目标志愿客户端反馈的各种群个体的实际适应度;在当前接收到的实际适应度的数目满足预设数目条件的情况下,将接收到的实际适应度对应的各种群个体作为目标种群个体,并将各目标种群个体进行遗传操作,得到新的第一种群个体;将接收到的实际适应度对应的各种群个体中、实际适应度满足预设条件的种群个体,作为新的第二种群个体;基于新的第一种群个体和新的第二种群个体的集合,得到更新后的模型参数。
在其中一个实施例中,该装置还包括第二确定模块和第三确定模块,其中:
第二确定模块,用于获取多个志愿客户端的响应时间戳信息,并根据响应时间戳信息确定各志愿客户端与本地服务器通信的最近响应时间。
第三确定模块,用于将多个志愿客户端中最近响应时间符合条件的志愿客户端确定为目标志愿客户端。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的用户标签确定方法的用户标签确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户标签确定装置实施例中的具体限定可以参见上文中对于用户标签确定方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种用户标签确定装置800,包括:获取模块801和输入模块802,其中:
获取模块801,用于获取目标用户的用户数据。
输入模块802,用于将所述用户数据输入至用户分析模型,得到用户标签。其中,所述用户分析模型根据上述实施例涉及的用户分析模型训练方法训练得到。
上述用户分析模型训练装置或用户标签确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行上述用户分析模型训练方法或用户标签确定方法所需的或产生的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户分析模型训练方法或用户标签确定方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种用户分析模型训练方法,其特征在于,所述方法包括:
获取目标用户分析模型对应的至少一组模型参数,并将每组所述模型参数作为一个种群个体;
根据各所述种群个体的预测适应度对各所述种群个体进行聚类,得到多个子种群,并根据各目标志愿客户端的可靠度对各所述目标志愿客户端进行聚类,得到多个子集群;所述可靠度用于表征所述目标志愿客户端反馈任务响应数据的可靠程度;
根据各所述子种群对应的预测适应度和各所述子集群对应的可靠度,确定各所述子种群匹配的子集群,并将样本用户数据和所述子种群中的各种群个体发送给与所述子种群匹配的子集群中的各目标志愿客户端,以使各所述目标志愿客户端根据所述样本用户数据和所述种群个体反馈包含实际适应度的任务响应数据;所述子种群的预测适应度与匹配的子集群的可靠度正相关;
根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,并执行所述将每组所述模型参数作为一个种群个体步骤,直到达到迭代结束条件,并基于当前实际适应度最高的模型参数,得到训练后的目标用户分析模型。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述种群个体的预测适应度对各所述种群个体进行聚类之前,所述方法还包括:
采用蒙特卡洛估计法,构建所述目标用户分析模型的适应度计算函数的近似模型;
基于所述近似模型确定各所述种群个体的预测适应度。
3.根据权利要求1所述的方法,其特征在于,所述根据各所述种群个体的预测适应度对各所述种群个体进行聚类,得到多个子种群,包括:
将各所述种群个体按照预测适应度大小进行排序,得到种群个体序列;
根据预设分类策略,对所述种群个体序列进行划分,得到多个子种群。
4.根据权利要求1所述的方法,其特征在于,所述根据各目标志愿客户端的可靠度对各所述目标志愿客户端进行聚类,得到多个子集群,包括:
获取各目标志愿客户端的历史任务响应数据,并根据所述历史任务响应数据确定可靠度;
将各所述目标志愿客户端按照可靠度大小进行排序,得到志愿客户端序列;
根据预设分类策略,对所述志愿客户端序列进行划分,得到多个子集群。
5.根据权利要求1所述的方法,其特征在于,所述子集群的数目与所述子种群的数目相同;所述根据各所述子种群对应的预测适应度和各所述子集群对应的可靠度,确定各所述子种群匹配的子集群,包括:
将各所述子种群按照预测适应度大小排序,得到子种群序列,并将各所述子集群按照可靠度大小排序,得到子集群序列;
将所述子种群序列和所述子集群序列中,序号相同的子种群和子集群相匹配。
6.根据权利要求1所述的方法,其特征在于,所述根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,包括:
接收各所述目标志愿客户端反馈的各所述种群个体的实际适应度;
在当前接收到的所述实际适应度的数目满足预设数目条件的情况下,将接收到的所述实际适应度对应的各种群个体作为目标种群个体,并将各所述目标种群个体进行遗传操作,得到新的第一种群个体;
将接收到的所述实际适应度对应的各种群个体中、实际适应度满足预设条件的种群个体,作为新的第二种群个体;
基于所述新的第一种群个体和所述新的第二种群个体的集合,得到更新后的模型参数。
7.根据权利要求1所述的方法,其特征在于,所述根据各目标志愿客户端的可靠度对各所述目标志愿客户端进行聚类,得到多个子集群之前,所述方法还包括:
获取多个志愿客户端的响应时间戳信息,并根据所述响应时间戳信息确定各所述志愿客户端与本地服务器通信的最近响应时间;
将所述多个志愿客户端中所述最近响应时间符合条件的志愿客户端确定为目标志愿客户端。
8.一种用户标签确定方法,其特征在于,所述方法包括:
获取目标用户的用户数据;
将所述用户数据输入至用户分析模型,得到用户标签;
其中,所述用户分析模型根据权利要求1至7中任一项所述的用户分析模型训练方法训练得到。
9.一种用户分析模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取目标用户分析模型对应的至少一组模型参数,并将每组所述模型参数作为一个种群个体;
分类模块,用于根据各所述种群个体的预测适应度对各所述种群个体进行聚类,得到多个子种群,并根据各目标志愿客户端的可靠度对各所述目标志愿客户端进行聚类,得到多个子集群;所述可靠度用于表征所述目标志愿客户端反馈任务响应数据的可靠程度;
发送模块,用于根据各所述子种群对应的预测适应度和各所述子集群对应的可靠度,确定各所述子种群匹配的子集群,并将样本用户数据和所述子种群中的各种群个体发送给与所述子种群匹配的子集群中的各目标志愿客户端,以使各所述目标志愿客户端根据所述样本用户数据和所述种群个体反馈包含实际适应度的任务响应数据;所述子种群的预测适应度与匹配的子集群的可靠度正相关;
迭代模块,用于根据接收到的实际适应度进行遗传迭代处理,得到更新后的模型参数,并执行所述将每组所述模型参数作为一个种群个体步骤,直到达到迭代结束条件,并基于当前实际适应度最高的模型参数,得到训练后的目标用户分析模型。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310878695.2A CN116611506B (zh) | 2023-07-18 | 2023-07-18 | 用户分析模型训练方法、用户标签确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310878695.2A CN116611506B (zh) | 2023-07-18 | 2023-07-18 | 用户分析模型训练方法、用户标签确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116611506A true CN116611506A (zh) | 2023-08-18 |
CN116611506B CN116611506B (zh) | 2023-10-03 |
Family
ID=87676753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310878695.2A Active CN116611506B (zh) | 2023-07-18 | 2023-07-18 | 用户分析模型训练方法、用户标签确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611506B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050120105A1 (en) * | 2003-12-01 | 2005-06-02 | Popescu George V. | Method and apparatus to support application and network awareness of collaborative applications using multi-attribute clustering |
CN111405527A (zh) * | 2020-03-17 | 2020-07-10 | 中南大学 | 一种基于志愿者协同处理的车载边缘计算方法、装置及系统 |
CN111612528A (zh) * | 2020-04-30 | 2020-09-01 | 中国移动通信集团江苏有限公司 | 用户分类模型的确定方法、装置、设备及存储介质 |
CN114338695A (zh) * | 2022-03-10 | 2022-04-12 | 深圳艾灵网络有限公司 | 基于多副本的领导者选举方法、装置、设备及存储介质 |
CN114399377A (zh) * | 2022-01-06 | 2022-04-26 | 中国农业银行股份有限公司 | 预测模型训练方法、金融风险预测方法及电子设备 |
CN116362329A (zh) * | 2023-04-21 | 2023-06-30 | 上海电力大学 | 一种融合参数优化的集群联邦学习方法及设备 |
-
2023
- 2023-07-18 CN CN202310878695.2A patent/CN116611506B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050120105A1 (en) * | 2003-12-01 | 2005-06-02 | Popescu George V. | Method and apparatus to support application and network awareness of collaborative applications using multi-attribute clustering |
CN111405527A (zh) * | 2020-03-17 | 2020-07-10 | 中南大学 | 一种基于志愿者协同处理的车载边缘计算方法、装置及系统 |
CN111612528A (zh) * | 2020-04-30 | 2020-09-01 | 中国移动通信集团江苏有限公司 | 用户分类模型的确定方法、装置、设备及存储介质 |
CN114399377A (zh) * | 2022-01-06 | 2022-04-26 | 中国农业银行股份有限公司 | 预测模型训练方法、金融风险预测方法及电子设备 |
CN114338695A (zh) * | 2022-03-10 | 2022-04-12 | 深圳艾灵网络有限公司 | 基于多副本的领导者选举方法、装置、设备及存储介质 |
CN116362329A (zh) * | 2023-04-21 | 2023-06-30 | 上海电力大学 | 一种融合参数优化的集群联邦学习方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116611506B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709533B (zh) | 机器学习模型的分布式训练方法、装置以及计算机设备 | |
CN109919316B (zh) | 获取网络表示学习向量的方法、装置和设备及存储介质 | |
US10354201B1 (en) | Scalable clustering for mixed machine learning data | |
CN110728317A (zh) | 决策树模型的训练方法、系统、存储介质及预测方法 | |
CN108229986B (zh) | 信息点击预测中的特征构建方法、信息投放方法和装置 | |
CN109961080B (zh) | 终端识别方法及装置 | |
US11373117B1 (en) | Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors | |
CN108182633B (zh) | 贷款数据处理方法、装置、计算机设备和存储介质 | |
CN111178949B (zh) | 服务资源匹配参考数据确定方法、装置、设备和存储介质 | |
CN110163252B (zh) | 数据分类方法及装置、电子设备、存储介质 | |
CN110245310B (zh) | 一种对象的行为分析方法、装置及存储介质 | |
CN109389424B (zh) | 流量分配方法、装置、电子设备及存储介质 | |
CN112181659B (zh) | 云仿真内存资源预测模型构建方法与内存资源预测方法 | |
CN111831901A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN112883265A (zh) | 信息推荐方法、装置、服务器及计算机可读存储介质 | |
CN112631890A (zh) | 基于lstm-aco模型预测云服务器资源性能的方法 | |
CN113642727A (zh) | 神经网络模型的训练方法和多媒体信息的处理方法、装置 | |
CN116611506B (zh) | 用户分析模型训练方法、用户标签确定方法和装置 | |
CN116682506A (zh) | 数据处理方法、训练方法、确定方法、设计方法和装置 | |
CN116191398A (zh) | 负荷预测方法、装置、计算机设备和存储介质 | |
Li et al. | Federated learning communication-efficiency framework via corset construction | |
CN114510627A (zh) | 对象推送方法、装置、电子设备及存储介质 | |
CN110942345B (zh) | 种子用户的选取方法、装置、设备及存储介质 | |
Salam et al. | A novel framework for web service composition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |