CN114611690A - 一种数据处理方法及相关装置 - Google Patents
一种数据处理方法及相关装置 Download PDFInfo
- Publication number
- CN114611690A CN114611690A CN202210223399.4A CN202210223399A CN114611690A CN 114611690 A CN114611690 A CN 114611690A CN 202210223399 A CN202210223399 A CN 202210223399A CN 114611690 A CN114611690 A CN 114611690A
- Authority
- CN
- China
- Prior art keywords
- model
- click rate
- parameter
- sample data
- rate estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 92
- 238000013138 pruning Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000011069 regeneration method Methods 0.000 claims abstract description 61
- 230000008569 process Effects 0.000 claims abstract description 32
- 230000008929 regeneration Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 74
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 24
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000012217 deletion Methods 0.000 claims description 14
- 230000037430 deletion Effects 0.000 claims description 14
- 230000000717 retained effect Effects 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 abstract description 11
- 210000002569 neuron Anatomy 0.000 description 35
- 238000005516 engineering process Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
- G06F16/437—Administration of user profiles, e.g. generation, initialisation, adaptation, distribution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及计算机技术领域,提供一种数据处理方法及相关装置,用以提高模型训练速度,该方法包括:基于样本数据集合,采用迭代方式,对初始点击率预估模型进行剪枝‑重生处理,获得目标点击率预估模型,其中,在一次迭代过程中,对当前的点击率预估模型进行剪枝处理后,对剪枝处理后得到的点击率预估模型进行训练,以及对当前的点击率预估模型进行重生处理,对重生处理后得到的点击率预估模型进行训练。这样,可以得到轻量级的目标点击率预估模型,减少模型占用的内存,提高模型训练速度。
Description
技术领域
本申请涉及计算机技术领域,提供一种数据处理方法及相关装置。
背景技术
随着网络和计算机技术的不断发展,越来越多的目标对象可以通过互联网获取多媒体信息,多媒体信息包括图文、公众号、视频、新闻等。为了向每个目标对象更精准的展示对应的多媒体信息,通常采用机器学习模型对多媒体信息的点击率进行预估。
相关技术中,为了解决由于模型结构复杂导致的训练消耗过大、训练效率低等问题,通常通过剪枝策略,获得轻量级的点击率预测模型。其中,剪枝策略是指在模型训练过程中,按照设定的参数删减比例,不断对初始点击率预测模型中包含的某些参数进行删减。
然而,采用上述剪枝策略,可能会造成某些重要的权重参数被误减,影响模型性能,导致训练得到的模型对目标对象偏好的感知出现偏差,使得模型输出的预测点击率不准确。
发明内容
本申请实施例提供一种数据处理方法及相关装置,用以提高模型训练速度,同时提高模型准确性。
第一方面,本申请实施例提供一种数据处理方法,包括:
获取样本数据集合和初始点击率预估模型;
基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型;其中,在一次迭代过程中,执行以下操作:
从当前保留的各保留模型参数中,确定至少一个待删除模型参数,并基于所述至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,以及基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练;
从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,并基于所述至少一个待恢复模型参数,对当前的点击率预估模型进行重生处理,以及基于所述样本数据集合,对重生处理后得到的点击率预估模型进行训练。
第二方面,本申请实施例提供一种数据处理装置,包括:
获取单元,用于获取样本数据集合和初始点击率预估模型;
训练单元,用于基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型;其中,在一次迭代过程中,执行以下操作:
从当前保留的各保留模型参数中,确定至少一个待删除模型参数,并基于所述至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,以及基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练;
从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,并基于所述至少一个待恢复模型参数,对当前的点击率预估模型进行重生处理,以及基于所述样本数据集合,对重生处理后得到的点击率预估模型进行训练。
作为一种可能的实现方式,所述初始点击率预估模型中至少包含深度神经网络组件;
则所述基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型时,所述训练单元用于:
基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型中包含的所述深度神经网络组件进行剪枝-重生处理,获得目标点击率预估模型。
作为一种可能的实现方式,所述初始点击率预估模型中还包含非深度神经网络组件;
则所述基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型之后,所述训练单元还用于:
基于所述目标点击率预估模型中包含的非深度神经网络组件,构建新预估模型;
基于所述样本数据集合,对所述新预估模型进行训练,并将训练后的新预估模型,作为新的目标点击率预估模型。
作为一种可能的实现方式,所述从当前保留的各保留模型参数中,确定至少一个待删除模型参数时,所述训练单元用于:
基于当前保留的各保留模型参数各自对应的参数取值,从所述各保留模型参数中,选取对应的参数取值不大于预设的第一取值阈值的保留模型参数,并将选取的至少一个保留模型参数,作为所述至少一个待删除模型参数;或者,
基于当前保留的各保留模型参数各自对应的参数取值,对所述各保留模型参数进行排序,并基于相应的第一排序结果和预设的第一选取比例,从所述各保留模型参数中,确定所述至少一个待删除模型参数。
作为一种可能的实现方式,所述基于所述至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理时,所述训练单元用于:
在当前的点击率预估模型中,将所述至少一个待删除模型参数的参数取值,设置为第一设定数值。
作为一种可能的实现方式,所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练时,所述训练单元用于:
将所述样本数据集合输入至剪枝处理后得到的点击率预估模型中,得到所述样本数据集合中包含的各个样本数据各自对应的点击率预估值;
基于得到的各个点击率预估值,以及基于所述各个样本数据各自对应的点击率真实值,确定所述各删除模型参数各自对应的参数调整值。
作为一种可能的实现方式,所述从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数时,所述训练单元用于:
基于所述各删除模型参数各自对应的参数调整值,从所述各删除模型参数中,选取对应的参数调整值不小于预设的第二取值阈值的删除模型参数,并将选取的至少一个删除模型参数,作为所述至少一个待恢复模型参数;或者,
基于所述各删除模型参数各自对应的参数调整值,对所述各删除模型参数进行排序,并基于相应的第二排序结果和预设的第二选取比例,从所述各删除模型参数中,确定所述至少一个待恢复模型参数。
作为一种可能的实现方式,所述基于所述待恢复模型参数,对当前的点击率预估模型进行重生处理时,所述训练单元用于:
在当前的点击率预估模型中,将所述至少一个待恢复模型参数的参数取值,分别调整为对应的参数调整值。
作为一种可能的实现方式,所述获取样本数据集合和初始点击率预估模型之后,所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练之前,所述训练单元还用于:
获取各个新增样本数据,并将所述各个新增样本数据,加入至所述样本数据集合中;
则所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练时,所述训练单元用于:
基于所述样本数据集合中包含的所述各个新增样本数据,对剪枝处理后得到的点击率预估模型进行训练。
作为一种可能的实现方式,所述训练单元通过以下方式获得所述初始点击率预估模型:
获取待训练点击率预估模型;
基于所述样本数据集合,对待训练点击率预估模型进行迭代训练,直至满足模型收敛条件时,获得所述初始点击率预估模型。
作为一种可能的实现方式,所述满足模型收敛条件,包括:
连续N次,相邻两次迭代的模型评估指标之间的第一差值,不大于预设的第一差值阈值,其中,N的取值为正整数;或者,
所述待训练点击率预估模型的模型评估指标与指定模型的模型评估指标之间的第二差值,不大于预设的第二差值阈值。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述数据处理方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述数据处理方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质中读取并执行所述计算机程序,使得电子设备执行上述数据处理方法的步骤。
本申请实施例中,获取样本数据集合和初始点击率预估模型,基于样本数据集合,采用迭代方式,对初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型,其中,在一次迭代过程中,对当前的点击率预估模型进行剪枝处理后,对剪枝处理后得到的点击率预估模型进行训练,以及,对当前的点击率预估模型进行重生处理,对重生处理后得到的点击率预估模型进行训练。
这样,在点击率预估模型的训练过程中,通过对模型进行剪枝处理,使得原本稠密的模型参数变得稀疏,提高模型处理效率,同时在迭代过程中,恢复部分已剪枝的各删除模型参数,使得点击率预估模型中较为重要的连接得到保留。此外,通过对模型不断的迭代剪枝与恢复,可以得到轻量级的目标点击率预估模型,减少模型占用的内存,且可以在使用较少模型参数的情况下达到较好的模型预估效果。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中提供的一种应用场景示意图;
图2为本申请实施例中提供的一种数据处理方法的流程示意图;
图3为本申请实施例中提供的一种初始点击率预估模型的示意图;
图4A为本申请实施例中提供的另一种初始点击率预估模型的示意图;
图4B为本申请实施例中提供的一种剪枝-重生处理的逻辑示意图;
图5A为本申请实施例中提供的一种目标点击率预估模型的示意图;
图5B为本申请实施例中提供的另一种目标点击率预估模型的示意图;
图6为本申请实施例中提供的一种确定待删除模型参数的流程示意图;
图7为本申请实施例中提供的另一种剪枝-重生处理的逻辑示意图;
图8为本申请实施例中提供的一种模型训练过程的逻辑示意图;
图9为本申请实施例中提供的另一种应用场景示意图;
图10为本申请实施例中提供的一种数据处理装置的结构示意图;
图11为本申请实施例中提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
神经网络:由具有适应性简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络能够模拟神经系统对输入作出一定反应,是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。
剪枝:神经网络的参数众多,但其中有些参数对最终的点击率预估值贡献不大而显得冗余,剪枝顾名思义,就是要将这些冗余的参数剪掉。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习技术。在本申请实施例中,主要涉及点击率预估模型的训练过程,具体的,基于样本数据集合,采用迭代方式,对初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型,详细的剪枝-重生处理参见下文,在此不再赘述。
随着网络和计算机技术的不断发展,越来越多的目标对象可以通过互联网获取多媒体信息,多媒体信息包括图文、公众号、视频、新闻等。为了向每个目标对象更精准的展示对应的多媒体信息,通常采用机器学习模型对多媒体信息的点击率进行预估。
相关技术中,为了解决由于模型结构复杂导致的训练消耗过大、训练效率低等问题,通常通过剪枝策略,获得轻量级的点击率预测模型。其中,剪枝策略是指在模型训练过程中,按照设定的参数删减比例,不断对初始点击率预测模型中包含的某些参数进行删减。
然而,采用上述剪枝策略,可能会造成某些重要的权重参数被误减,影响模型性能,导致训练得到的模型对目标对象偏好的感知出现偏差,使得模型输出的预测点击率不准确。
本申请实施例中,获取样本数据集合和初始点击率预估模型,基于样本数据集合,采用迭代方式,对初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型,其中,在一次迭代过程中,对当前的点击率预估模型进行剪枝处理后,对剪枝处理后得到的点击率预估模型进行训练,以及,对当前的点击率预估模型进行重生处理,对重生处理后得到的点击率预估模型进行训练。
这样,在点击率预估模型的训练过程中,通过对模型进行剪枝处理,使得原本稠密的模型参数变得稀疏,提高模型处理效率,同时在迭代过程中,恢复部分已剪枝的各删除模型参数,使得点击率预估模型中较为重要的连接得到保留。此外,通过对模型不断的迭代剪枝与恢复,可以得到轻量级的目标点击率预估模型,减少模型占用的内存,且可以在使用较少模型参数的情况下达到较好的模型预估效果。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。
参阅图1所示,其为本申请实施例中提供的一种应用场景的示意图。该应用场景中至少包括终端设备110以及服务器120。终端设备110的数量可以是一个或多个,服务器120的数量也可以是一个或多个,本申请对终端设备110和服务器120的数量不做具体限定。本申请实施例中的终端设备110上可以安装有数据处理相关的客户端,服务器120可以是数据处理相关的服务器。另外,本申请中的客户端可以是软件,也可以是网页、小程序等,服务器则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行数据处理等的服务器,本申请不做具体限定。
本申请实施例中,终端设备110可以是手机、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110与服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
需要说明的是,本申请实施例中的数据处理方法可以由服务器或者终端设备单独执行,也可以由服务器和终端设备共同执行。
例如,由终端设备获取样本数据集合和初始点击率预估模型,进而基于样本数据集合,采用迭代方式,对初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型;其中,在一次迭代过程中,执行以下操作:从当前保留的各保留模型参数中,确定至少一个待删除模型参数,并基于至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,以及基于样本数据集合,对剪枝处理后得到的点击率预估模型进行训练;从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,并基于至少一个待恢复模型参数,对当前的点击率预估模型进行重生处理,以及基于样本数据集合,对重生处理后得到的点击率预估模型进行训练。或者,由服务器执行上述数据处理过程。再或者,由服务器基于上述数据处理过程,获得目标点击率预估模型,再由终端设备基于目标点击率预估模型,获得待处理信息对应的点击率预估值,并在操作界面中呈现该点击率预估值等,本申请对此不做具体限定。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的数据处理方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参阅图2所示,其为本申请实施例中提供的一种数据处理方法的流程示意图,该方法的流程可以由电子设备执行,该电子设备可以是终端设备或服务器,具体流程如下:
S201、获取样本数据集合和初始点击率预估模型。
本申请实施例中,每个样本数据中可以包含多媒体内容的曝光数据和点击数据,其中,曝光数据用于表征多媒体内容的呈现次数,点击数据用于表征多媒体内容的点击次数。多媒体内容包括但不限于是视频、音频、文本等。
多媒体内容的曝光数据和点击数据可以是根据预设的数据采集间隔采集的,例如,数据采集间隔可以是1小时。
在获取多媒体内容的曝光数据和点击数据之后,可以根据该多媒体内容的曝光数据和点击数据,对相应的样本数据进行标注。示例性的,将曝光后触发点击操作的多媒体信息作为正样本,将曝光后未触发点击操作的多媒体信息作为负样本,进而,在S202时,可以根据正样本和负样本,对点击率预估模型进行训练。
可以理解的是,在本申请的具体实施方式中,涉及到曝光数据和点击数据等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得使用许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
S202、基于样本数据集合,采用迭代方式,对初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型;其中,在一次迭代过程中,执行以下操作:
从当前保留的各保留模型参数中,确定至少一个待删除模型参数,并基于至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,以及基于样本数据集合,对剪枝处理后得到的点击率预估模型进行训练;
从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,并基于至少一个待恢复模型参数,对当前的点击率预估模型进行重生处理,以及基于样本数据集合,对重生处理后得到的点击率预估模型进行训练。
本申请实施例中,初始点击率预估模型可以采用但不限于深度神经网络(DeepNeural Networks,DNN)。
初始点击率预估模型中可以包含输入层、嵌入层(Embedding层)、特征交互层(Interaction层)、和输出层,其中,输入层用于获取输入的样本数据,Embedding层用于将输入的离散特征映射为一个较低维度的Embedding表示,Interaction层用于实现复杂的特征交互处理,示例性的,Interaction层中可以包含非DNN组件和DNN组件,其中,非DNN组件用于实现显示的低阶交互,DNN组件用于实现隐式的高阶交互。非DNN组件包括但不限于是逻辑回归(Logistic Regression,LR)、因子分解机(Factorization Machines,FM)、加权域分解机(Field-weighted Factorization Machine,FwFM)等。
参阅图3所示,其为本申请实施例中提供的一种可能的初始点击率预估模型,初始点击率预估模型中输入层、Embedding层、FwFM组件、DNN组件和输出层,其中,输入层用于获取稀疏特征,Embedding层用于将稀疏特征映射为Embedding表示,FwFM组件中包含有一个或多个线性单元,以及包含有一个或多个量化单元,在图3中,采用菱形表示线性单元,采用五边形表示量化单元。
为了保证模型预估效果和模型泛化能力,点击率预估模型中可以包含有一个或多个DNN组件,由于DNN组件对模型训练的影响较大,因此,本申请实施例中,可以针对DNN组件中包含的模型参数进行剪枝重生。
具体的,本申请实施例中,初始点击率预估模型中至少包含深度神经网络组件,执行S202时,基于样本数据集合,采用迭代方式,对初始点击率预估模型中包含的DNN组件进行剪枝-重生处理,获得目标点击率预估模型。
其中,DNN组件中包含的模型参数可以包括权重和权重中的一项或多项。
需要说明的是,本申请实施例中,初始点击率预估模型中包含DNN组件的数目可以还是一个,也可以是多个,对此不做限定。若初始点击率预估模型中包含一个DNN组件,则对初始点击率预估模型进行剪枝-重生处理时,可以针对该一个DNN组件进行剪枝-重生处理。若初始点击率预估模型中包含多个DNN组件,则可以根据实际应用需求,对多个DNN组件中的任意一个DNN组件进行剪枝-重生处理,或者,也可以对多个DNN组件中的部分DNN组件进行剪枝-重生处理,或者,还可以对该多个DNN组件进行剪枝-重生处理。下文中,仅以初始点击率预估模型中包含一个DNN组件为例进行说明。
例如,参阅图4A所示,初始点击率预估模型中包含DNN组件、非DNN组件以及输出层,其中,非DNN可以是FwFM组件,该FwFM组件用于实现一阶和二阶的特征交互,初始点击率预估模型中还包含有输入层、嵌入层等(图4A中未示出)。
初始点击率预估模型中,DNN组件中的各个神经元采用全连接方式进行连接,即神经元1与神经元2、神经元3、神经元4连接,神经元2、神经元3、神经元4均分别与神经元5-神经元10连接。
以第一次迭代过程为例,当前保留的各保留模型参数为全部的模型参数,从当前保留的各保留模型参数中,确定待删除模型参数,并基于确定的各个待删除模型参数,对当前的点击率预估模型进行剪枝处理,以及基于样本数据集合,对剪枝处理后得到的点击率预估模型进行训练,其中,剪枝处理后得到的点击率预估模型参阅图4B所示,图4B中,当前保留的各保留模型参数为参数1、参数2、参数3、参数4、参数5、参数6,其中,参数1表征神经元2与神经元5之间的权重,参数2表征神经元2与神经8之间的权重,参数3表征神经元2与神经元10之间的权重,参数4表征神经元4与神经元5之间的权重,参数5表征神经元4与神经元7之间的权重,参数6表征神经元4与神经元8之间的权重,也就是说,在第一次迭代的剪枝处理过程中,对初始点击率预估模型中的除参数1-参数6之外的其他模型参数均进行剪枝。
剪枝处理后,当前已剪枝的各删除模型参数除参数1-参数6之外的其他模型参数,其他模型参数包括参数7、参数8和参数9等,其中,参数7表征神经元2与神经元7之间的权重,参数8表征神经元2与神经元9之间的权重,参数9表征神经元4与神经元10之间的权重,从当前已剪枝的各删除模型参数中,确定各个待恢复模型参数,各个待恢复模型参数包括参数7、参数8和参数9,然后,基于确定的待恢复模型参数,对当前的点击率预估模型进行重生处理,进而基于样本数据集合,对重生处理后得到的点击率预估模型进行训练。
参阅图5A所示,经过多次迭代过程,获得目标点击率预估模型,目标点击率预估模型中,保留的各保留模型参数包括:神经元2与神经元8之间的权重、神经元4与神经元5之间的权重、神经元4与神经元7之间的权重,即保留参数2、参数4和参数5。
由于稀疏的DNN在反向梯度传播时,可以将梯度信息传递给embedding,因此,稀疏的DNN在训练中对整体模型有正向作用,对embedding学习具有辅助作用。剪枝后的模型DNN部分的冗余的参数得到去除。
需要说明的是,图4A所示的模型的一阶、二阶、DNN部分可以是在得到各自的逻辑回归(logit)之后相加,也可以先合并(concat)再线性处理(linear),两者在理论上是一致的,即Linear([a;b])=Linear(a)+Linear(b),其中,a、b表示两种输出,Linear()用于进行线性处理,而采用前者更便于观察DNN部分的有效性。
需要说明的是,本申请实施例中,在一次迭代过程中,可以在对剪枝处理后得到的点击率预估模型进行训练后,判断是否满足模型收敛条件,若满足,则输出目标点击率预估模型;也可以在对重生处理后得到的点击率预估模型进行训练后,判断是否满足模型收敛条件,若满足,则输出目标点击率预估模型;还可以在对剪枝处理后得到的点击率预估模型进行训练后,以及对重生处理后得到的点击率预估模型进行训练后,均判断是否满足模型收敛条件,具体的模型收敛条件参见下文。
随着不断进行剪枝-重生过程,极端情况下可通过此机制将DNN组件的完全剪去。例如,参阅图5B所示,在经过多次剪枝-重生处理后,目标点击率预估模型中,DNN组件的模型参数全部被剪去。
假设,输入层中,特征的数量为30,embedding的大小为128,DNN中包含4层神经元,各层包含的神经元的个数为512-256-128-64,每条样本数据的ID类特征(即离散特征,维度为1的特征)的个数为400,未进行剪枝前,参模型参数(除embedding映射表)的数目为:30*30+30+128*30+30+256*400+256*30+128*30*512+512*256+256*128+128*64+64=2253156,而DNN组件完全剪枝后,参模型参数的数目为30*30+30+128*30+30+256*400+256*30+128*30=118720,显然,通过剪枝操作,参数量减少94%,大幅减少了计算量。
显然,通过上述实现方式,在模型训练过程中,可以通过对DNN组件部分进行剪枝-重生处理,从而提高模型训练速度,保证低延迟,此外,由于剪枝-重生处理后,DNN组件中包含的大量模型参数被剪枝处理,从而减少了模型占用的内存,同时进一步提高了模型训练速度。
在一些实施例中,基于至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,包括:
在当前的点击率预估模型中,将至少一个待删除模型参数的参数取值,设置为第一设定数值。
例如,假设,第一设定数值为0,待删除模型参数包括参数3、……、参数9,在当前的点击率预估模型中,将参数3、……、参数9的参数取值,均设置为0。
通过上述实现方式,由于模型参数的参数取值设置为0,其实质上被没有被从模型中删除,因此,已删除的模型参数仍然可以参与反向传播过程,从而提高了模型准确率。
在一些实施例中,从当前保留的各保留模型参数中,确定至少一个待删除模型参数时,可以采用以下操作中的任意一种:
操作A1、基于当前保留的各保留模型参数各自对应的参数取值,从各保留模型参数中,选取对应的参数取值不大于预设的第一取值阈值的保留模型参数,并将选取的至少一个保留模型参数,作为至少一个待删除模型参数。
例如,假设,当前保留的各保留模型参数包括参数1、参数2、参数3,其中,参数1、参数2、参数3各自对应的参数取值分别为0.1、0.2、0.3,预设的第一取值阈值为0.15,基于当前保留的各保留模型参数各自对应的参数取值,从各保留模型参数中,选取对应的参数取值不大于0.15的保留模型参数,即选取参数1,并将选取的参数1,作为1个待删除模型参数。
又例如,假设,当前保留的各保留模型参数包括参数1、参数2、参数3,其中,参数1、参数2、参数3各自对应的参数取值分别为0.1、0.2、0.3,预设的第一取值阈值为0.25,基于当前保留的各保留模型参数各自对应的参数取值,从各保留模型参数中,选取对应的参数取值不大于0.15的保留模型参数,即选取参数1和参数2,并将选取的参数1和参数2,作为2个待删除模型参数。
操作A2、基于当前保留的各保留模型参数各自对应的参数取值,对各保留模型参数进行排序,并基于相应的第一排序结果和预设的第一选取比例,从各保留模型参数中,确定至少一个待删除模型参数。
需要说明的是,本申请实施例中,对各保留模型参数进行排序时,可以按照从大到小的顺序进行排序,也可以按照从小到大的顺序进行排序,对此不做限制。
例如,参阅图6所示,假设,当前保留的各保留模型参数包括参数1、参数2、参数3、参数4,其中,参数1、参数2、参数3、参数4各自对应的参数取值分别为0.1、0.2、0.3、0.1,预设的第一选取比例为50%,基于当前保留的各保留模型参数各自对应的参数取值,对各保留模型参数进行排序,排序结果按照从大到小的顺序依次为参数3、参数2、参数1、参数4,然后,基于相应的第一排序结果和预设的第一选取比例,从各保留模型参数中,确定待删除模型参数为参数1、参数4。
通过上述实现方式,可以通过各个模型参数的参数取值,从各保留模型参数中,确定待删除模型参数,从而降低参数被误减的可能性,提高模型训练的准确率。
在一些实施例中,基于样本数据集合,对剪枝处理后得到的点击率预估模型进行训练,包括:
将样本数据集合输入至剪枝处理后得到的点击率预估模型中,得到样本数据集合中包含的各个样本数据各自对应的点击率预估值;
基于得到的各个点击率预估值,以及基于各个样本数据各自对应的点击率真实值,确定各删除模型参数各自对应的参数调整值。
需要说明的是,本申请实施例中,参数调整值可以是基于深度神经网络的反向传播确定的。点击率预估值可以采用数值表示,也可以采用等级表示,对此不做限制,下文仅以数值为例进行说明。
例如,假设,当前已剪枝的各删除模型参数为参数3,样本数据集合中包含样本数据1,样本数据1的点击率真实值为100%,将样本数据1输入至剪枝处理后得到的点击率预估模型中,得到样本数据1对应的点击率预估值,其中,样本数据1对应的点击率预估值取值为50%,然后,基于得到的点击率预估值,以及基于样本数据1对应的点击率真实值,确定参数3对应的参数调整值为0.12。
通过上述实现方式,在反向传播过程,通过真实值与预估值,确定已删除的模型参数的参数调整值,提高了模型收敛效果,进而提升了模型性能。
在一些实施例中,从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,可以采用以下操作中的任意一种:
操作B1、基于各删除模型参数各自对应的参数调整值,从各删除模型参数中,选取对应的参数调整值不小于预设的第二取值阈值的删除模型参数,并将选取的至少一个删除模型参数,作为至少一个待恢复模型参数。
例如,假设,各删除模型参数包括参数2和参数3,参数2对应的参数调整值为0.01,参数3对应的参数调整值为0.12,第二取值阈值为0.1,那么,基于各删除模型参数各自对应的参数调整值,从各删除模型参数中,选取对应的参数调整值不小于0.1的删除模型参数,即选取参数3,之后,将选取的参数3,作为待恢复模型参数。
操作B2、基于各删除模型参数各自对应的参数调整值,对各删除模型参数进行排序,并基于相应的第二排序结果和预设的第二选取比例,从各删除模型参数中,确定至少一个待恢复模型参数。
需要说明的是,本申请实施例中,对各删除模型参数进行排序时,可以按照从大到小的顺序进行排序,也可以按照从小到大的顺序进行排序,对此不做限制。
例如,假设,各删除模型参数包括参数1、参数2、参数3,其中,参数1、参数2、参数3各自对应的参数调整值分别为0.02、0.01、0.12,预设的第一选取比例为60%,基于各删除模型参数各自对应的参数调整值,对各删除模型参数进行排序,排序结果按照从大到小的顺序依次为参数3、参数1、参数2,然后,基于相应的第二排序结果和预设的第二选取比例,从各删除模型参数中,确定待恢复模型参数为参数3。
通过上述实现方式,可以通过各删除模型参数的参数调整值,从各删除模型参数中,确定待恢复模型参数,从而降低参数被误减的可能性,使得深度神经网络中重要的连接得到保留,实现模型在使用较少参数的情况下达到较好的点击率预估收益。
在一些实施例中,基于待恢复模型参数,对当前的点击率预估模型进行重生处理,包括:
在当前的点击率预估模型中,将至少一个待恢复模型参数的参数取值,分别调整为对应的参数调整值。
例如,假设,待恢复模型参数为参数3,参数3对应的参数调整值为0.12,在当前的点击率预估模型中,将参数3的参数取值,调整为0.12。
通过上述实现方式,点击率预估模型中,一些已剪枝的模型参数可以被恢复,使得深度神经网络中重要的连接得到保留,从而提升模型性能,提高模型的预估准确性。
在一些实施例中,为了提高模型训练效率,可以初始点击率预估模型可以是训练得到的较为稳定的模型,具体的,初始点击率预估模型可以是通过以下方式获得的:
获取待训练点击率预估模型;
基于样本数据集合,对待训练点击率预估模型进行迭代训练,直至满足模型收敛条件时,获得初始点击率预估模型。
具体的,模型收敛条件可以采用但不限于以下条件中的至少一种:
条件1:连续N次,待训练点击率预估模型的相邻两次迭代的模型评估指标之间的第一差值,不大于预设的第一差值阈值,其中,N的取值为正整数。
需要说明的是,本申请实施例中,模型评估指标可以采用但不限于ROC曲线下与坐标轴围成的面积(Area Under Curve,AUC)、点击通过率(Click Through Rate,CTR)等。
其中,AUC可以通过以下方式计算得到:首先,针对样本数据集合中包含的各个样本数据,按照点击率预估值,从大到小进行排序,然后,根据排序结果,令点击率预估值的取值最大的样本数据的排位(rank)为n,令点击率预估值的取值第二的样本数据的排位(rank)为n-1,以此类推,其中,n的取值为M+Q,M为正样本的数目,Q为负样本的数目,positiveClass表示正样本。之后,把所有的正样本的排位相加,再减去M-1个正样本两两组合的计数,再除以M×Q。
具体的,可以采用以下公式(1)计算AUC:
CTR可以通过以下公式(2)计算得到,其中,#Click表示点击数据,#Expose表示曝光数据:
例如,假设,N的取值为2,预设的第一差值阈值为0.05,第1次迭代时,待训练点击率预估模型的AUC的取值为0.6,第2次迭代时,待训练点击率预估模型的AUC的取值为0.65,第3次迭代时,待训练点击率预估模型的AUC的取值为0.7,第1次迭代与第2次迭代的AUC之间的第一差值为0.05,第2次迭代与第3次迭代的AUC之间的第一差值为0.05,连续2次,待训练点击率预估模型的相邻两次迭代的模型评估指标之间的第一差值,不大于0.05,因此,在第三次迭代时,确定满足模型收敛条件,输出初始点击率预估模型。
条件2:待训练点击率预估模型的模型评估指标与指定模型的模型评估指标之间的第二差值,不大于预设的第二差值阈值。
例如,假设,预设的第二差值阈值为0.1,待训练点击率预估模型为基于FM的深度神经网络模型,指定模型为基于Wide&Deep模型,Wide&Deep模型分为wide部分和deep部分,其中wide部分是一个具有记忆性的线性网络,deep部分是一个具有推广性的非线性网络,如深度神经网络。若待训练点击率预估模型的AUC与指定模型的AUC之间的第二差值为0.05,那么,待训练点击率预估模型的模型评估指标与指定模型的模型评估指标之间的第二差值,不大于0.1,此时,确定满足模型收敛条件,输出初始点击率预估模型。
通过上述实现方式,当模型的离线AUC指标或线上CTR指标不再有明显变化时,确定模型收敛,从而提升了模型性能,提高了模型的预估准确率。
在一些实施例中,执行S202时,可以采用但不限于以下两种方式:
方式一:在增量训练的过程中,进行剪枝-重生处理。也就是说,样本数据集合中包含有新增样本数据。
具体的,在对剪枝处理后得到的点击率预估模型,或者重生处理后得到的点击率预估模型进行模型训练之前,还获取各个新增样本数据,并将各个新增样本数据,加入至样本数据集合中。
相应的,基于样本数据集合,对剪枝处理后得到的点击率预估模型进行训练,包括:
基于所述样本数据集合中包含的所述各个新增样本数据,对剪枝处理后得到的点击率预估模型进行训练。
需要说明的是,各个新增样本数据可以是采集的预设时长内的样本数据,例如,一个小时内的样本数据。
例如,参阅图7所示,在一次迭代过程中,基于至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理之后,采用16:00-17:00之间获取的各个新增样本数据,对剪枝处理后得到的点击率预估模型进行训练,基于至少一个待恢复模型参数,对当前的点击率预估模型进行重生处理之后,采用17:00-18:00之间获取的各个新增样本数据,对重生处理后得到的点击率预估模型进行训练。类似的,在下一次迭代过程中,可以采用18:00-19:00之间获取的各个新增样本数据,对剪枝处理后得到的点击率预估模型进行训练,以及采用19:00-20:00之间获取的各个新增样本数据,对重生处理后得到的点击率预估模型进行训练。
通过上述实现方式,可以保证模型能够随着时间推移而自我迭代,进而,可以将训练后的点击率预估模型实时更新至线上,提高点击率预估效率和准确率。
方式二:获取目标点击率预估模型之后,将目标点击率预估模型中非DNN部分移植至同构的去除DNN的新模型中,作为新模型的初始参数,再通过增量训练得到稳定后的模型。
具体的,基于目标点击率预估模型中包含的非深度神经网络组件,构建新预估模型;
基于样本数据集合,对新预估模型进行训练,并将训练后的新预估模型,作为新的目标点击率预估模型。
需要说明的是,本申请实施例中,新预估模型与目标点击率预估模型的结构相同,且不包含DNN组件,新预估模型的模型参数的初始取值采用目标点击率预估模型中非深度神经网络组件对应的模型参数。
例如,参阅图8所示,在获取到目标点击率预估模型之后,基于目标点击率预估模型中包含的FwFM组件,构建新预估模型,新预估模型中包含该FwFM组件,该FwFM组件的模型参数的初始取值,采用目标点击率预估模型中对应的模型参数,然后,基于样本数据集合,对新预估模型进行训练,并将训练后的新预估模型,作为新的目标点击率预估模型。
通过上述实现方式,能够保留DNN对于embedding部分训练的有效增益,也使得模型整体更加简便,在线上推理时获得更快的速度。
实际应用过程中,在订阅号推荐的视频粗排场景进行了AB实验,实验结果参阅表1所示:
表1 AB实验的实验结果
其中,B1为线上模型Wide+Deep+注意力因子分解机(Attentional FactorizationMachine,AFM)模型,B2为剪枝后的DeepFM模型,tlfeeds和mainsort用于表征两种不同的业务场景,例如,tlfeeds用于表征订阅号推荐流场景,mainsort用于表征订阅号主场景,在一周的线上AB实验中,以点击率指标为例,点击率指标增长4.910%,且其他多个指标中收益显著提升。可见,剪枝-重生处理可以显著提升模型收益。
同时,对于单样本平均推理耗时部分进行了统计分析,结果如下表2所示:
表2单样本平均推理耗时
可见,对于未剪枝的DeepFM模型而言,剪枝后的模型的单样本平均推理耗时得到大幅减少,下降41%;另外,对于Wide+Deep+AFM模型来说,剪枝后的模型虽然采用更高维度的embedding进行训练与推理,但是其模型更加简单,无DNN部分与二阶交叉的注意力(attention)部分的计算耗时,整体耗时下降58%。
下面,结合两个具体应用场景进行说明。
应用场景一:订阅号推荐。
参阅图9所示,终端设备中安装有即时通讯应用客户端,即时通讯应用客户端中可以提供订阅号推荐服务,服务器为即时通讯应用客户端对应的服务器。
服务器基于样本数据集合,采用迭代方式,对初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型之后,获取待处理信息1和待处理信息2,其中,待处理信息1为订阅号A发布的表情包相关消息、待处理信息2为订阅号B发布的咨询类视频。
服务器基于目标点击率预估模型,确定目标推荐信息,具体的,服务器可以基于目标点击率预估模型,得到各个待处理信息各自对应的点击率预估值,假设,资讯类公众号对应的点击率预估值为90%,体育类公众号对应的点击率预估值为80%。
之后,服务器基于各个待处理信息各自对应的点击率预估值,确定待处理信息1和待处理信息2均为目标推荐信息,且待处理信息1和待处理信息2的推荐顺序依次为待处理信息1和待处理信息2。接着,服务器基于推荐顺序,生成包含相应的推荐界面,以使终端设备在操作界面中,呈现目标推荐信息。
应用场景二:视频推荐。
终端设备中安装有视频应用客户端,视频应用客户端中可以提供视频推荐服务,服务器为视频应用客户端对应的服务器。
服务器基于样本数据集合,采用迭代方式,对初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型之后,获取待推荐视频1、待推荐视频2、待推荐视频3,其中,待推荐视频1为美食类视频,待推荐视频2为游戏类视频,待推荐视频3为新闻类视频。
服务器基于目标点击率预估模型,得到各个待推荐视频各自对应的点击率预估值,假设,待推荐视频1对应的点击率预估值为90%,待推荐视频2对应的点击率预估值为95%,待推荐视频3对应的点击率预估值为96%。
之后,服务器基于各个待处理信息各自对应的点击率预估值,确定待推荐视频2和待推荐视频3为目标推荐信息,之后,服务器生成相应的推荐界面,以使终端设备在操作界面中,呈现待推荐视频2和待推荐视频3。
基于相同的发明构思,本申请实施例提供一种数据处理装置。如图10所示,其为数据处理装置1000的结构示意图,可以包括:
获取单元1001,用于获取样本数据集合和初始点击率预估模型;
训练单元1002,用于基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型;其中,在一次迭代过程中,执行以下操作:
从当前保留的各保留模型参数中,确定至少一个待删除模型参数,并基于所述至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,以及基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练;
从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,并基于所述至少一个待恢复模型参数,对当前的点击率预估模型进行重生处理,以及基于所述样本数据集合,对重生处理后得到的点击率预估模型进行训练。
作为一种可能的实现方式,所述初始点击率预估模型中至少包含深度神经网络组件;
则所述基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型时,所述训练单元1002用于:
基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型中包含的所述深度神经网络组件进行剪枝-重生处理,获得目标点击率预估模型。
作为一种可能的实现方式,所述初始点击率预估模型中还包含非深度神经网络组件;
则所述基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型之后,所述训练单元1002还用于:
基于所述目标点击率预估模型中包含的非深度神经网络组件,构建新预估模型;
基于所述样本数据集合,对所述新预估模型进行训练,并将训练后的新预估模型,作为新的目标点击率预估模型。
作为一种可能的实现方式,所述从当前保留的各保留模型参数中,确定至少一个待删除模型参数时,所述训练单元1002用于:
基于当前保留的各保留模型参数各自对应的参数取值,从所述各保留模型参数中,选取对应的参数取值不大于预设的第一取值阈值的保留模型参数,并将选取的至少一个保留模型参数,作为所述至少一个待删除模型参数;或者,
基于当前保留的各保留模型参数各自对应的参数取值,对所述各保留模型参数进行排序,并基于相应的第一排序结果和预设的第一选取比例,从所述各保留模型参数中,确定所述至少一个待删除模型参数。
作为一种可能的实现方式,所述基于所述至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理时,所述训练单元1002用于:
在当前的点击率预估模型中,将所述至少一个待删除模型参数的参数取值,设置为第一设定数值。
作为一种可能的实现方式,所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练时,所述训练单元1002用于:
将所述样本数据集合输入至剪枝处理后得到的点击率预估模型中,得到所述样本数据集合中包含的各个样本数据各自对应的点击率预估值;
基于得到的各个点击率预估值,以及基于所述各个样本数据各自对应的点击率真实值,确定所述各删除模型参数各自对应的参数调整值。
作为一种可能的实现方式,所述从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数时,所述训练单元1002用于:
基于所述各删除模型参数各自对应的参数调整值,从所述各删除模型参数中,选取对应的参数调整值不小于预设的第二取值阈值的删除模型参数,并将选取的至少一个删除模型参数,作为所述至少一个待恢复模型参数;或者,
基于所述各删除模型参数各自对应的参数调整值,对所述各删除模型参数进行排序,并基于相应的第二排序结果和预设的第二选取比例,从所述各删除模型参数中,确定所述至少一个待恢复模型参数。
作为一种可能的实现方式,所述基于所述待恢复模型参数,对当前的点击率预估模型进行重生处理时,所述训练单元1002用于:
在当前的点击率预估模型中,将所述至少一个待恢复模型参数的参数取值,分别调整为对应的参数调整值。
作为一种可能的实现方式,所述获取样本数据集合和初始点击率预估模型之后,所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练之前,所述训练单元1002还用于:
获取各个新增样本数据,并将所述各个新增样本数据,加入至所述样本数据集合中;
则所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练时,所述训练单元1002用于:
基于所述样本数据集合中包含的所述各个新增样本数据,对剪枝处理后得到的点击率预估模型进行训练。
作为一种可能的实现方式,所述训练单元1002通过以下方式获得所述初始点击率预估模型:
获取待训练点击率预估模型;
基于所述样本数据集合,对待训练点击率预估模型进行迭代训练,直至满足模型收敛条件时,获得所述初始点击率预估模型。
作为一种可能的实现方式,所述满足模型收敛条件,包括:
连续N次,相邻两次迭代的模型评估指标之间的第一差值,不大于预设的第一差值阈值,其中,N的取值为正整数;或者,
所述待训练点击率预估模型的模型评估指标与指定模型的模型评估指标之间的第二差值,不大于预设的第二差值阈值。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
关于上述实施例中的装置,其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
基于相同的发明构思,本申请实施例还提供一种电子设备。在一种实施例中,该电子设备可以是服务器,也可以是终端设备。参阅图11所示,其为本申请实施例中提供的一种可能的电子设备的结构示意图,图11中,电子设备1100包括:处理器1110和存储器1120。
其中,存储器1120存储有可被处理器1110执行的计算机程序,处理器1110通过执行存储器1120存储的指令,可以执行上述数据处理方法的步骤。
存储器1120可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1120也可以是非易失性存储器(non-volatilememory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1120是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1120也可以是上述存储器的组合。
处理器1110可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1110,用于执行存储器1120中存储的计算机程序时实现上述数据处理方法。
在一些实施例中,处理器1110和存储器1120可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
本申请实施例中不限定上述处理器1110和存储器1120之间的具体连接介质。本申请实施例中以处理器1110和存储器1120之间通过总线连接为例,总线在图11中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线可以分为地址总线、数据总线、控制总线等。为便于描述,图11中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其包括计算机程序,当计算机程序在电子设备上运行时,计算机程序用于使电子设备执行上述数据处理方法的步骤。在一些可能的实施方式中,本申请提供的数据处理方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行上述数据处理方法中的步骤,例如,电子设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(Compact Disk Read Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用CD-ROM并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储计算机程序的有形介质,该计算机程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的计算机程序。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种数据处理方法,其特征在于,所述方法包括:
获取样本数据集合和初始点击率预估模型;
基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型;其中,在一次迭代过程中,执行以下操作:
从当前保留的各保留模型参数中,确定至少一个待删除模型参数,并基于所述至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,以及基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练;
从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,并基于所述至少一个待恢复模型参数,对当前的点击率预估模型进行重生处理,以及基于所述样本数据集合,对重生处理后得到的点击率预估模型进行训练。
2.如权利要求1所述的方法,其特征在于,所述初始点击率预估模型中至少包含深度神经网络组件;
则所述基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型,包括:
基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型中包含的所述深度神经网络组件进行剪枝-重生处理,获得目标点击率预估模型。
3.如权利要求2所述的方法,其特征在于,所述初始点击率预估模型中还包含非深度神经网络组件;
则所述基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型之后,还包括:
基于所述目标点击率预估模型中包含的非深度神经网络组件,构建新预估模型;
基于所述样本数据集合,对所述新预估模型进行训练,并将训练后的新预估模型,作为新的目标点击率预估模型。
4.如权利要求1所述的方法,其特征在于,所述从当前保留的各保留模型参数中,确定至少一个待删除模型参数,包括:
基于当前保留的各保留模型参数各自对应的参数取值,从所述各保留模型参数中,选取对应的参数取值不大于预设的第一取值阈值的保留模型参数,并将选取的至少一个保留模型参数,作为所述至少一个待删除模型参数;或者,
基于当前保留的各保留模型参数各自对应的参数取值,对所述各保留模型参数进行排序,并基于相应的第一排序结果和预设的第一选取比例,从所述各保留模型参数中,确定所述至少一个待删除模型参数。
5.如权利要求1所述的方法,其特征在于,所述基于所述至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,包括:
在当前的点击率预估模型中,将所述至少一个待删除模型参数的参数取值,设置为第一设定数值。
6.如权利要求1所述的方法,其特征在于,所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练,包括:
将所述样本数据集合输入至剪枝处理后得到的点击率预估模型中,得到所述样本数据集合中包含的各个样本数据各自对应的点击率预估值;
基于得到的各个点击率预估值,以及基于所述各个样本数据各自对应的点击率真实值,确定所述各删除模型参数各自对应的参数调整值。
7.如权利要求6所述的方法,其特征在于,所述从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,包括:
基于所述各删除模型参数各自对应的参数调整值,从所述各删除模型参数中,选取对应的参数调整值不小于预设的第二取值阈值的删除模型参数,并将选取的至少一个删除模型参数,作为所述至少一个待恢复模型参数;或者,
基于所述各删除模型参数各自对应的参数调整值,对所述各删除模型参数进行排序,并基于相应的第二排序结果和预设的第二选取比例,从所述各删除模型参数中,确定所述至少一个待恢复模型参数。
8.如权利要求6所述的方法,其特征在于,所述基于所述待恢复模型参数,对当前的点击率预估模型进行重生处理,包括:
在当前的点击率预估模型中,将所述至少一个待恢复模型参数的参数取值,分别调整为对应的参数调整值。
9.如权利要求1-8中任一项所述的方法,其特征在于,所述获取样本数据集合和初始点击率预估模型之后,所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练之前,还包括:
获取各个新增样本数据,并将所述各个新增样本数据,加入至所述样本数据集合中;
则所述基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练,包括:
基于所述样本数据集合中包含的所述各个新增样本数据,对剪枝处理后得到的点击率预估模型进行训练。
10.如权利要求1-8中任一项所述的方法,其特征在于,所述初始点击率预估模型是通过以下方式获得的:
获取待训练点击率预估模型;
基于所述样本数据集合,对待训练点击率预估模型进行迭代训练,直至满足模型收敛条件时,获得所述初始点击率预估模型。
11.如权利要求10所述的方法,其特征在于,所述满足模型收敛条件,包括:
连续N次,相邻两次迭代的模型评估指标之间的第一差值,不大于预设的第一差值阈值,其中,N的取值为正整数;或者,
所述待训练点击率预估模型的模型评估指标与指定模型的模型评估指标之间的第二差值,不大于预设的第二差值阈值。
12.一种数据处理装置,其特征在于,包括:
获取单元,用于获取样本数据集合和初始点击率预估模型;
训练单元,用于基于所述样本数据集合,采用迭代方式,对所述初始点击率预估模型进行剪枝-重生处理,获得目标点击率预估模型;其中,在一次迭代过程中,执行以下操作:
从当前保留的各保留模型参数中,确定至少一个待删除模型参数,并基于所述至少一个待删除模型参数,对当前的点击率预估模型进行剪枝处理,以及基于所述样本数据集合,对剪枝处理后得到的点击率预估模型进行训练;
从当前已剪枝的各删除模型参数中,确定至少一个待恢复模型参数,并基于所述至少一个待恢复模型参数,对当前的点击率预估模型进行重生处理,以及基于所述样本数据集合,对重生处理后得到的点击率预估模型进行训练。
13.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~11中任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~11中任一项所述方法的步骤。
15.一种计算机程序产品,其特征在于,其包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使得所述电子设备执行权利要求1~11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210223399.4A CN114611690A (zh) | 2022-03-09 | 2022-03-09 | 一种数据处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210223399.4A CN114611690A (zh) | 2022-03-09 | 2022-03-09 | 一种数据处理方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114611690A true CN114611690A (zh) | 2022-06-10 |
Family
ID=81860661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210223399.4A Pending CN114611690A (zh) | 2022-03-09 | 2022-03-09 | 一种数据处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114611690A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049327A (zh) * | 2022-08-17 | 2022-09-13 | 阿里巴巴(中国)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368891A (zh) * | 2017-05-27 | 2017-11-21 | 深圳市深网视界科技有限公司 | 一种深度学习模型的压缩方法和装置 |
CN110674939A (zh) * | 2019-08-31 | 2020-01-10 | 电子科技大学 | 基于剪枝阈值自动搜索的深度神经网络模型压缩方法 |
CN111461322A (zh) * | 2020-03-13 | 2020-07-28 | 中国科学院计算技术研究所 | 一种深度神经网络模型压缩方法 |
CN113128676A (zh) * | 2019-12-30 | 2021-07-16 | 广州慧睿思通科技股份有限公司 | 基于目标检测模型的剪枝方法、装置和存储介质 |
US20210334700A1 (en) * | 2020-04-22 | 2021-10-28 | Qpiai India Private Limited | System and method of creating artificial intelligence model, machine learning model or quantum model generation framework |
-
2022
- 2022-03-09 CN CN202210223399.4A patent/CN114611690A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368891A (zh) * | 2017-05-27 | 2017-11-21 | 深圳市深网视界科技有限公司 | 一种深度学习模型的压缩方法和装置 |
CN110674939A (zh) * | 2019-08-31 | 2020-01-10 | 电子科技大学 | 基于剪枝阈值自动搜索的深度神经网络模型压缩方法 |
CN113128676A (zh) * | 2019-12-30 | 2021-07-16 | 广州慧睿思通科技股份有限公司 | 基于目标检测模型的剪枝方法、装置和存储介质 |
CN111461322A (zh) * | 2020-03-13 | 2020-07-28 | 中国科学院计算技术研究所 | 一种深度神经网络模型压缩方法 |
US20210334700A1 (en) * | 2020-04-22 | 2021-10-28 | Qpiai India Private Limited | System and method of creating artificial intelligence model, machine learning model or quantum model generation framework |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049327A (zh) * | 2022-08-17 | 2022-09-13 | 阿里巴巴(中国)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN115049327B (zh) * | 2022-08-17 | 2022-11-15 | 阿里巴巴(中国)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN109376844A (zh) | 基于云平台和模型推荐的神经网络自动训练方法和装置 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN111176758B (zh) | 配置参数的推荐方法、装置、终端及存储介质 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN111400452B (zh) | 文本信息分类处理方法、电子设备及计算机可读存储介质 | |
CN112733043B (zh) | 评论推荐方法及装置 | |
CN113518250A (zh) | 一种多媒体数据处理方法、装置、设备及可读存储介质 | |
CN111563192A (zh) | 实体对齐方法、装置、电子设备及存储介质 | |
CN105760499A (zh) | 一种基于lda主题模型来分析和预测网络舆情的方法 | |
CN112257841A (zh) | 图神经网络中的数据处理方法、装置、设备及存储介质 | |
CN115221396A (zh) | 基于人工智能的信息推荐方法、装置及电子设备 | |
CN114611690A (zh) | 一种数据处理方法及相关装置 | |
CN114548382B (zh) | 迁移训练方法、装置、设备、存储介质及程序产品 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN117035045A (zh) | 模型参数更新方法、装置、设备、存储介质和程序产品 | |
CN115168722A (zh) | 内容交互预测方法以及相关设备 | |
CN117150053A (zh) | 多媒体信息推荐模型训练方法、推荐方法及装置 | |
CN114996435A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN113761933A (zh) | 检索方法、装置、电子设备及可读存储介质 | |
CN114356540B (zh) | 一种参数更新方法、装置、电子设备和存储介质 | |
CN117649117B (zh) | 处置方案的确定方法、装置以及计算机设备 | |
CN113569557B (zh) | 信息的质量识别方法、装置、设备、存储介质及程序产品 | |
CN117786416B (zh) | 一种模型训练方法、装置、设备、存储介质及产品 | |
CN114707633B (zh) | 特征提取方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070934 Country of ref document: HK |