CN113807403A - 模型训练的方法、装置、计算机设备及存储介质 - Google Patents

模型训练的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113807403A
CN113807403A CN202110970734.2A CN202110970734A CN113807403A CN 113807403 A CN113807403 A CN 113807403A CN 202110970734 A CN202110970734 A CN 202110970734A CN 113807403 A CN113807403 A CN 113807403A
Authority
CN
China
Prior art keywords
behavior
historical
confidence
target
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110970734.2A
Other languages
English (en)
Other versions
CN113807403B (zh
Inventor
浦嘉澍
常永炷
吴润泽
毛晓曦
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110970734.2A priority Critical patent/CN113807403B/zh
Publication of CN113807403A publication Critical patent/CN113807403A/zh
Application granted granted Critical
Publication of CN113807403B publication Critical patent/CN113807403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种模型训练的方法、装置、计算机设备及存储介质。每次基于行为样本对行为预测模型进行训练时,可以从追踪向量中获取行为样本包括的历史行为的置信度,进而根据获取的置信度从行为样本中选择被掩码替代的第一目标历史行为,每次都根据历史行为的置信度选择待转换为掩码的目标历史行为,使得通过行为预测模型获取的用户历史行为的表征,可以区分不同玩法和不同类型的用户,更好地实现游戏中的智能服务。

Description

模型训练的方法、装置、计算机设备及存储介质
技术领域
本申请涉及模型训练技术领域,具体涉及一种模型训练的方法、装置、计算机设备及存储介质。
背景技术
目前在游戏中部署不同的智能服务(比如外挂检测,社交推荐,商品推荐等等)通常需要在用户的游戏行为日志中,采集用户的历史行为,然后通过模型从中获取用户的游戏行为信息的特征,进一步利用用户的游戏行为信息的特征实现外挂检测,社交推荐,商品推荐等智能服务。而当前采集用户的历史行为的策略是对所有历史行为平均地进行采样,这样的采样策略会导致用户历史行为组成的行为序列的表征,无法很好地区分不同玩法和不同类型的用户,然而这种没有区分性的表征真实利用价值不大,会影响游戏中智能服务的实现。
发明内容
本申请实施例提供一种模型训练的方法、装置、计算机设备及存储介质,使得获取的用户历史行为的表征可以区分不同玩法和不同类型的用户,更好地实现游戏中的智能服务。
本申请实施例提供一种模型训练的方法,包括:
获取待训练的数据集,将所述数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,所述每个行为样本包含用户在目标游戏中的多个历史行为;
设置追踪向量,所述追踪向量用于记录所述数据集中每个所述历史行为对应的置信度;
获取当前训练步数对应的第一行为样本,根据所述追踪向量确定所述第一行为样本中的每个历史行为对应的掩码转换概率,所述掩码转换概率用于指示对应的历史行为转换为掩码的概率;
根据所述第一行为样本中的每个历史行为对应的掩码转换概率确定所述第一行为样本中待转换为所述掩码的目标历史行为,将所述第一行为样本中的所述目标历史行为转换为所述掩码后输入所述行为预测模型中;
通过所述行为预测模型对所述第一行为样本中的各所述掩码进行预测,得到各所述掩码对应的第一预测行为,以及各所述第一预测行为对应的置信度;
根据各所述第一预测行为对应的置信度、以及所述第一预测行为与所述目标历史行为的对应关系对所述追踪向量进行更新,根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
相应的,本申请实施例还提供一种模型训练的装置,包括:
第一获取单元,用于获取待训练的数据集,将所述数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,所述每个行为样本包含用户在目标游戏中的多个历史行为;
设置单元,用于设置追踪向量,所述追踪向量用于记录所述数据集中每个所述历史行为对应的置信度;
确定单元,用于获取当前训练步数对应的第一行为样本,根据所述追踪向量确定所述第一行为样本中的每个历史行为对应的掩码转换概率,所述掩码转换概率用于指示对应的历史行为转换为掩码的概率;
转换单元,用于根据所述第一行为样本中的每个历史行为对应的掩码转换概率确定所述第一行为样本中待转换为所述掩码的目标历史行为,将所述第一行为样本中的所述目标历史行为转换为所述掩码后输入所述行为预测模型中;
预测单元,用于通过所述行为预测模型对所述第一行为样本中的各所述掩码进行预测,得到各所述掩码对应的第一预测行为,以及各所述第一预测行为对应的置信度;
更新单元,用于根据各所述第一预测行为对应的置信度、以及所述第一预测行为与所述目标历史行为的对应关系对所述追踪向量进行更新,根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
可选的,所述装置还用于:
根据所述数据集确定所述行为预测模型待训练的总步数,所述预设的训练完成条件包括针对所述行为预测模型的训练步数达到所述待训练的总步数。
可选的,所述预设的训练完成条件包括所述行为预测模型对应的预设的收敛条件。
可选的,所述装置还用于:
对所述行为预测模型进行训练之前,设置所述追踪向量中每个所述历史行为对应的置信度为初始置信度,所述初始置信度包括零。
可选的,所述确定单元还用于:
获取所述当前训练步数对应的第一行为样本,从所述追踪向量中获取所述第一行为样本中的每个历史行为对应的置信度;
计算所述第一行为样本中所有历史行为对应的置信度平均值;
获取所述第一行为样本的预设掩码转换比例;
基于所述置信度平均值,所述第一行为样本中的每个历史行为对应的置信度,所述预设掩码转换比例,计算所述第一行为样本中的每个历史行为对应的掩码转换概率。
可选的,所述确定单元还用于:
根据所述第一行为样本中的每个历史行为对应的置信度,计算得出每个历史行为对应的反向置信度;
根据每个历史行为对应的反向置信度和所述置信度平均值,以及各个行为样本中每个历史行为对应的置信度与置信度平均值的关联关系,计算得出所述第一行为样本中每个历史行为对应的过渡概率;
计算所述第一行为样本的长度、所述第一行为样本中每个历史行为对应的过渡概率,以及所述预设掩码转换比例的乘积,得出第一行为样本中的每个历史行为对应的掩码转换概率。
可选的,所述转换单元还用于:
确定所述第一行为样本包括的历史行为的第一数量;
根据所述预设掩码转换比例和所述第一数量,确定所述目标历史行为的第二数量;
按照第一行为样本中的每个历史行为对应的掩码转换概率从高到底的顺序,在所有历史行为中获取所述第二数量的历史行为,作为所述目标历史行为。
可选的,所述更新单元还用于:
获取各所述第一预测行为对应的置信度的第一衰减系数;
基于所述第一预测行为与所述目标历史行为的对应关系获取各所述第一预测行为对应的目标历史行为;
在所述追踪向量中获取各所述目标历史行为对应的置信度;
基于所述第一衰减系数,确定各所述目标历史行为对应的置信度的第二衰减系数;
计算所述第一衰减系数和各所述第一预测行为对应的置信度的第一乘积,以及计算所述第二衰减系数和各所述目标历史行为对应的置信度的第二乘积;
根据所述第一乘积和所述第二乘积,获取各所述目标历史行为对应的新的置信度,利用各所述新的置信度更新所述追踪向量中各所述目标历史行为对应的置信度。
可选的,所述更新单元还用于:
获取目标用户当前时刻之前在所述目标游戏中的游戏行为序列,所述游戏行为序列包括所述目标用户在所述目标游戏中的多个游戏行为;
在所述游戏行为序列最后增加一个所述掩码;
通过训练完成的所述行为预测模型预测被所述掩码替换的游戏行为,得到第二预测行为;
基于所述第二预测行为确定所述目标用户在所述当前时刻之后发生的目标游戏行为。
可选的,所述装置还用于:
若所述目标游戏行为为购买行为,基于所述目标用户操作的虚拟角色的角色属性,确定向所述目标用户推荐的目标虚拟商品;
向所述目标用户推荐所述目标虚拟商品。
同样的,本申请实施例还提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述模型训练的方法任一项的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现模型训练的方法任一项的步骤。
本申请实施例提供一种模型训练的方法、装置、计算机设备及存储介质,每次基于行为样本对行为预测模型进行训练时,可以从追踪向量中获取行为样本包括的历史行为的置信度,进而根据获取的置信度从行为样本中选择被掩码替代的第一目标历史行为,每次都根据历史行为的置信度选择待转换为掩码的目标历史行为,使得通过行为预测模型获取的用户历史行为的表征,可以区分不同玩法和不同类型的用户,更好地实现游戏中的智能服务。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的模型训练的装置的系统示意图;
图2是本申请实施例提供的模型训练的方法的流程示意图;
图3是本申请实施例提供的对行为预测模型进行训练的示意图;
图4是本申请实施例提供的模型训练的装置的结构示意图;
图5是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种模型训练的方法、装置、计算机设备及存储介质。具体地,本申请实施例的模型训练的方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)等终端设备,终端还可以包括客户端,该客户端可以是游戏应用客户端、携带有游戏程序的浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络服务、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,图1为本申请实施例提供的模型训练的装置的系统示意图。该系统可以包括至少一个终端设备,终端设备用于获取待训练的数据集,将数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,每个行为样本包含用户在目标游戏中的多个历史行为;设置追踪向量,追踪向量用于记录数据集中每个历史行为对应的置信度;获取当前训练步数对应的第一行为样本,根据追踪向量确定第一行为样本中的每个历史行为对应的掩码转换概率,掩码转换概率用于指示对应的历史行为转换为掩码的概率;根据第一行为样本中的每个历史行为对应的掩码转换概率确定第一行为样本中待转换为掩码的目标历史行为,将第一行为样本中的目标历史行为转换为掩码后输入行为预测模型中;通过行为预测模型对第一行为样本中的各掩码进行预测,得到各掩码对应的第一预测行为,以及各第一预测行为对应的置信度;根据各第一预测行为对应的置信度、以及第一预测行为与目标历史行为的对应关系对追踪向量进行更新,根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从模型训练的装置的角度进行描述,该模型训练的装置具体可以集成在终端设备中,该终端设备可以包括智能手机、笔记本电脑、平板电脑以及个人计算机等设备。
本申请实施例提供的一种模型训练的方法,该方法可以由终端的处理器执行,如图2所示,该模型训练的方法的具体流程主要包括步骤201至步骤206,详细说明如下:
步骤201、获取待训练的数据集,将数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,每个行为样本包含用户在目标游戏中的多个历史行为。
在本申请实施例中,可以从用户在目标游戏的游戏行为日志中获取历史行为。其中,用户在目标游戏中的游戏行为日志可以包括系统日志(比如用户上线时间、在线人数统计等),被动游戏行为日志(比如用户的血量,用户的装备数统计等)和主动游戏行为日志(比如和某个用户聊天,击杀敌方,进入某一张地图等等。)其中,从主动游戏行为日志中获取的历史行为经过模型分析后得到的置信度较低,从被动游戏行为日志中获取的历史行为经过模型分析后得到的置信度较高。
在本申请实施例中,数据集可以包括能够作为行为预测模型的样本的全部历史行为,将数据集划分为多个行为样本,每个行为样本中可以包括部分历史行为,也可以包括全部历史行为,分批利用每个行为样本对行为预测模型进行训练。可以根据划分的行为样本的数量确定待训练的行为预测模型的训练步数。如图3所示的对行为预测模型进行训练的示意图中,一次可以获取n个用户的多个历史行为组成n个行为样本,将n个行为样本输入到待训练的行为预测模型f,根据生成的各个历史行为对应的第一置信度更新待训练的行为预测模型f的参数。
在本申请实施例中,每个行为样本无标签,即可以表明每个行为样本中的历史行为没有经过人工标注。此外,每个行为样本中的多个历史行为可以是用户在游戏中执行的操作的所有关联信息,可以是由用户的一系列动作和动作对象构成的,例如,历史行为可以是购买操作,也可以是购买的商品编号等信息。一个行为样本可以对应用户一段时间的行为相关信息,一个行为样本的长度不受限制,可以根据实际情况灵活设置。
在本申请实施例中,用户可以是目标游戏中的一个历史游戏玩家用户,也可以是目标游戏中的多个历史游戏玩家用户。
在本申请实施例中,可以根据数据集确定行为预测模型待训练的总步数。即当确定了数据集包括的所有历史行为的总个数后,获取预先设置的每次输入行为预测模型的历史行为的个数,利用总个数除以每次输入行为预测模型的历史行为的个数,可以得到行为预测模型待训练的总步数。此外,当确定了总步数之后,可以根据总步数确定预设的训练完成条件,即预设的训练完成条件包括针对行为预测模型的训练步数达到待训练的总步数。
步骤202、设置追踪向量,追踪向量用于记录数据集中每个历史行为对应的置信度。
在本申请实施例中,在针对行为预测模型的首个训练步数之前,设置追踪向量中每个历史行为对应的置信度为初始置信度,初始置信度包括零。
在本申请实施例中,在针对行为预测模型的首个训练步数之前,设置的每个历史行为对应的初始置信度可以完全相同,也可以部分相同,也可以互不相同。
在本申请实施例中,在针对行为预测模型的首个训练步数之前,可以预先在追踪向量中获取各个历史行为的初始置信度,在针对行为预测模型的首个训练步数的行为样本中,选择被掩码替换的历史行为时,可以根据初始置信度来选择。
在本申请实施例中,在针对行为预测模型的首个训练步数之前,可以不为数据集中的各个历史行为设置初始置信度,在针对行为预测模型的首个训练步数的行为样本中,选择被掩码替换的历史行为时,可以是随机选择,即不基于各个历史行为的置信度。
步骤203、获取当前训练步数对应的第一行为样本,根据追踪向量确定第一行为样本中的每个历史行为对应的掩码转换概率,掩码转换概率用于指示对应的历史行为转换为掩码的概率。
在本申请实施例中,为了加快待训练的特征提取模型对第一行为样本的运算,节省终端设备的运算资源,可以利用BPE(Byte Pair Encoding,字节对编码)算法对获取的用户的原始历史行为进行压缩处理。具体地,上述步骤201中“获取当前训练步数对应的第一行为样本”之前,可以包括:
获取用户在目标游戏中的历史游戏行为记录;
从历史游戏行为记录中获取历史用户的为多个历史行为,将多个历史行为按照行为发生时间先后顺序形成初始行为序列;
确定初始行为序列中的至少一组待合并历史行为,待合并历史行为包括至少两个相邻的历史行为,且待合并历史行为在初始行为序列中出现次数最多;
在初始行为序列中合并每一组待合并历史行为信息为初始行为序列中新的历史行为,以更新初始行为序列;
返回执行确定初始行为序列中的至少一组待合并历史行为的步骤,直到初始行为序列中包括的历史行为的数量达到预设数量,得到第一行为样本。
在本申请实施例中,历史游戏行为记录为终端根据历史用户的游戏记录日志,获取的历史用户在目标游戏中执行的游戏行为的相关信息。其中,“从历史游戏行为记录中获取历史用户的为多个历史行为”可以是根据游戏日志记录的信息粒度来获取历史行为,粒度是历史游戏行为记录统计信息的细化程度,历史游戏行为记录统计的信息细化程度越高,粒度级就越小,相反,统计的信息细化程度越低,粒度级就越大。此外,获取历史游戏行为记录的时间段的长短不受限制,可以根据实际情况灵活设置。
在本申请实施例中,按照最小粒度获取的历史行为,形成的初始行为序列可以是[u_1,u_2,...u_n],其中,u_i代表是一个历史行为,u_i可以是用二进制形式标识的机器语言,历史行为可以是购买装备、装备的编号等等。
例如,利用BPE算法对初始行为序列[u_1,u_2,...u_n]进行压缩时,在初始行为序列[u_1,u_2,...u_n]中,获取所有的两个相邻的u_i组成的行为对,将u_1,u_2作为一个行为对,将u_2,u_3作为一个行为对,以此类推,在所有的两个相邻的u_i组成的行为对中,从词表中获取每个u_i的出现次数,计算每个行为对包括的u_i的出现次数总和,若u_1,u_2的出现次数总和最多,则将u_1,u_2形成的行为对称为待合并行为信息,将u_1,u_2合并形成一个新的行为信息,以更新初始行为序列,再在更新后的初始行为序列中获取待合并行为信息,不断循环,直至[u_1,u_2,...u_n]中包含的u_i的个数为预设数量,将该[u_1,u_2,...u_n]作为第一行为样本。其中,预设数量的设置不受限制,可以根据实际情况灵活设置。
在本申请实施例中,上述步骤203中“获取当前训练步数对应的第一行为样本,根据追踪向量确定第一行为样本中的每个历史行为对应的掩码转换概率”可以是:
获取当前训练步数对应的第一行为样本,从追踪向量中获取第一行为样本中的每个历史行为对应的置信度;
计算第一行为样本中所有历史行为对应的置信度平均值;
获取第一行为样本的预设掩码转换比例;
基于置信度平均值,第一行为样本中的每个历史行为对应的置信度,预设掩码转换比例,计算第一行为样本中的每个历史行为对应的掩码转换概率。
其中,预设掩码转换比例用于指示目标历史行为的个数,与历史行为的个数形成的比值,预设掩码转换比例的数值不受限制,可以根据实际情况灵活设置。历史行为的掩码替换概率用于指示将历史行为作为目标历史行为的概率。
在本申请实施例中,可以将置信度平均值,第一行为样本中的每个历史行为对应的置信度作为softmax函数的参数,再结合预设掩码转换比例计算第一行为样本中的每个历史行为对应的掩码转换概率。
在本申请实施例中,上述步骤“基于置信度平均值,第一行为样本中的每个历史行为对应的置信度,预设掩码转换比例,计算第一行为样本中的每个历史行为对应的掩码转换概率”可以是:
根据第一行为样本中的每个历史行为对应的置信度,计算得出每个历史行为对应的反向置信度;
根据每个历史行为对应的反向置信度和置信度平均值,以及各个行为样本中每个历史行为对应的置信度与置信度平均值的关联关系,计算得出第一行为样本中每个历史行为对应的过渡概率;
计算第一行为样本的长度、第一行为样本中每个历史行为对应的过渡概率,以及预设掩码转换比例的乘积,得出第一行为样本中的每个历史行为对应的掩码转换概率。
在本申请实施例中,第一行为样本的长度可以是包括的历史行为的个数,也可以是各个历史行为所包括的数据总量等等。
例如,第一行为样本中各个历史行为对应的置信度为(r1,r2,…,rn),计算得出每一历史行为的反向置信度为(1-r1,1-r2,…,1-rn),计算得出(r1,r2,…,rn)的置信度平均值为R,将(1-r1,1-r2,…,1-rn)和R作为softmax函数的参数,基于softmax函数计算得出各个历史行为对应的过渡概率(s1,s2,…,sn),获取第一行为样本的长度为L,预设掩码转换比例为15%,计算(s1,s2,…,sn)*L*15%,得出第一行为样本中各个历史行为对应的掩码转换概率(q1,q2,…,qn)。
步骤204、根据第一行为样本中的每个历史行为对应的掩码转换概率确定第一行为样本中待转换为掩码的目标历史行为,将第一行为样本中的目标历史行为转换为掩码后输入行为预测模型中。
在本申请实施例中,上述步骤204中“根据第一行为样本中的每个历史行为对应的掩码转换概率确定第一行为样本中待转换为掩码的目标历史行为”可以是:
确定第一行为样本包括的历史行为的第一数量;
根据预设掩码转换比例和第一数量,确定目标历史行为的第二数量;
按照第一行为样本中的每个历史行为对应的掩码转换概率从高到底的顺序,在所有历史行为中获取第二数量的历史行为,作为目标历史行为。
例如,确定第一行为样本所包括的历史行为的第一数量是M,预设掩码转换比例是15%,则被掩码替换的目标历史行为的第二数量是15%M,按照掩码转换概率从高到底的顺序,获取15%M的历史行为作为目标历史行为。
在本申请实施例中,还可以直接根据置信度确定目标历史行为,可以直接选择置信度低于一定阈值的历史行为作为目标历史行为。
步骤205、通过行为预测模型对第一行为样本中的各掩码进行预测,得到各掩码对应的第一预测行为,以及各第一预测行为对应的置信度。
步骤206、根据各第一预测行为对应的置信度、以及第一预测行为与目标历史行为的对应关系对追踪向量进行更新,根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
在本申请实施例中,上述步骤206中“根据各第一预测行为对应的置信度、以及第一预测行为与目标历史行为的对应关系对追踪向量进行更新”可以包括:
获取各第一预测行为对应的置信度的第一衰减系数;
基于第一预测行为与目标历史行为的对应关系获取各第一预测行为对应的目标历史行为;
在追踪向量中获取各目标历史行为对应的置信度;
基于第一衰减系数,确定各目标历史行为对应的置信度的第二衰减系数;
计算第一衰减系数和各第一预测行为对应的置信度的第一乘积,以及计算第二衰减系数和各目标历史行为对应的置信度的第二乘积;
根据第一乘积和第二乘积,获取各目标历史行为对应的新的置信度,利用各新的置信度更新追踪向量中各目标历史行为对应的置信度。
例如,各第一预测行为对应的置信度为(t1,t2,…,tn),第一预测行为与目标历史行为的对应关系,可以获取各目标历史行为对应的置信度也为各第一预测行为对应的置信度,即各目标历史行为对应的置信度为(t1,t2,…,tn),在追踪向量中获取各目标历史行为对应的置信度为(p1,p2,…,pn),第一预测行为的置信度对应的第一衰减系数都相同为α,则可以计算出追踪向量中各目标历史行为的置信度对应的第二衰减系数都相同为1-α,各目标历史行为对应的新的置信度可以为α*(t1,t2,…,tn)+1-α*(p1,p2,…,pn),基于各目标历史行为新的置信度α*(t1,t2,…,tn)+1-α*(p1,p2,…,pn)更新追踪向量中各目标历史行为对应的置信度。
在本申请实施例中,预设的训练完成条件包括针对行为预测模型的训练步数达到待训练的总步数,方法还包括:
根据数据集确定行为预测模型待训练的总步数。
在本申请实施例中,预设的训练完成条件包括行为预测模型预设的收敛条件。
在本申请实施例中,当行为预测模型训练完成之后,可以用来预测目标用户在目标游戏中即将发生的行为,上述步骤206“根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件”之后,可以包括:
获取目标用户当前时刻之前在目标游戏中的游戏行为序列,游戏行为序列包括目标用户在目标游戏中的多个游戏行为;
在游戏行为序列最后增加一个掩码;
通过训练完成的行为预测模型预测被掩码替换的游戏行为,得到第二预测行为;
基于第二预测行为确定目标用户在当前时刻之后发生的目标游戏行为。
在本申请实施例中,确定目标用户在当前时刻之后发生的目标游戏行为之后,还包括:若目标游戏行为为购买行为,基于目标用户操作的虚拟角色的角色属性,确定向目标用户推荐的目标虚拟商品;向目标用户推荐目标虚拟商品。
在本申请实施例中,还可以根据目标用户操作的虚拟角色当前所处的虚拟环境,确定向目标用户推荐的目标虚拟商品。
在本申请实施例中,目标游戏行为还可以是社交行为,若目标游戏行为是社交行为,确定目标用户可能想要添加好友关系的其他用户,向目标用户推荐确定的其他用户的标识等信息。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本申请实施例提供的模型训练的方法,每次基于行为样本对行为预测模型进行训练时,可以从追踪向量中获取行为样本包括的历史行为的置信度,进而根据获取的置信度从行为样本中选择被掩码替代的第一目标历史行为,每次都根据历史行为的置信度选择待转换为掩码的目标历史行为,使得通过行为预测模型获取的用户历史行为的表征,可以区分不同玩法和不同类型的用户,更好地实现游戏中的智能服务。
为便于更好的实施本申请实施例的模型训练的方法,本申请实施例还提供一种模型训练的装置。请参阅图4,图4为本申请实施例提供的模型训练的装置的结构示意图。该模型训练的装置可以包括第一获取单元301、设置单元302、确定单元303、转换单元304、预测单元305和更新单元306。
其中,第一获取单元301,用于获取待训练的数据集,将数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,每个行为样本包含用户在目标游戏中的多个历史行为;
设置单元302,用于设置追踪向量,追踪向量用于记录数据集中每个历史行为对应的置信度;
确定单元303,用于获取当前训练步数对应的第一行为样本,根据追踪向量确定第一行为样本中的每个历史行为对应的掩码转换概率,掩码转换概率用于指示对应的历史行为转换为掩码的概率;
转换单元304,用于根据第一行为样本中的每个历史行为对应的掩码转换概率确定第一行为样本中待转换为掩码的目标历史行为,将第一行为样本中的目标历史行为转换为掩码后输入行为预测模型中;
预测单元305,用于通过行为预测模型对第一行为样本中的各掩码进行预测,得到各掩码对应的第一预测行为,以及各第一预测行为对应的置信度;
更新单元306,用于根据各第一预测行为对应的置信度、以及第一预测行为与目标历史行为的对应关系对追踪向量进行更新,根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
可选的,装置还用于:
根据数据集确定行为预测模型待训练的总步数,预设的训练完成条件包括针对行为预测模型的训练步数达到待训练的总步数。
可选的,预设的训练完成条件包括行为预测模型对应的预设的收敛条件。
可选的,装置还用于:
对行为预测模型进行训练之前,设置追踪向量中每个历史行为对应的置信度为初始置信度,初始置信度包括零。
可选的,确定单元303还用于:
获取当前训练步数对应的第一行为样本,从追踪向量中获取第一行为样本中的每个历史行为对应的置信度;
计算第一行为样本中所有历史行为对应的置信度平均值;
获取第一行为样本的预设掩码转换比例;
基于置信度平均值,第一行为样本中的每个历史行为对应的置信度,预设掩码转换比例,计算第一行为样本中的每个历史行为对应的掩码转换概率。
可选的,确定单元303还用于:
根据第一行为样本中的每个历史行为对应的置信度,计算得出每个历史行为对应的反向置信度;
根据每个历史行为对应的反向置信度和置信度平均值,以及各个行为样本中每个历史行为对应的置信度与置信度平均值的关联关系,计算得出第一行为样本中每个历史行为对应的过渡概率;
计算第一行为样本的长度、第一行为样本中每个历史行为对应的过渡概率,以及预设掩码转换比例的乘积,得出第一行为样本中的每个历史行为对应的掩码转换概率。
可选的,转换单元304还用于:
确定第一行为样本包括的历史行为的第一数量;
根据预设掩码转换比例和第一数量,确定目标历史行为的第二数量;
按照第一行为样本中的每个历史行为对应的掩码转换概率从高到底的顺序,在所有历史行为中获取第二数量的历史行为,作为目标历史行为。
可选的,更新单元306还用于:
获取各第一预测行为对应的置信度的第一衰减系数;
基于第一预测行为与目标历史行为的对应关系获取各第一预测行为对应的目标历史行为;
在追踪向量中获取各目标历史行为对应的置信度;
基于第一衰减系数,确定各目标历史行为对应的置信度的第二衰减系数;
计算第一衰减系数和各第一预测行为对应的置信度的第一乘积,以及计算第二衰减系数和各目标历史行为对应的置信度的第二乘积;
根据第一乘积和第二乘积,获取各目标历史行为对应的新的置信度,利用各新的置信度更新追踪向量中各目标历史行为对应的置信度。
可选的,更新单元306还用于:
获取目标用户当前时刻之前在目标游戏中的游戏行为序列,游戏行为序列包括目标用户在目标游戏中的多个游戏行为;
在游戏行为序列最后增加一个掩码;
通过训练完成的行为预测模型预测被掩码替换的游戏行为,得到第二预测行为;
基于第二预测行为确定目标用户在当前时刻之后发生的目标游戏行为。
可选的,装置还用于:
若目标游戏行为为购买行为,基于目标用户操作的虚拟角色的角色属性,确定向目标用户推荐的目标虚拟商品;
向目标用户推荐目标虚拟商品。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本申请实施例提供的模型训练的装置,每次基于行为样本对行为预测模型进行训练时,可以从追踪向量中获取行为样本包括的历史行为的置信度,进而根据获取的置信度从行为样本中选择被掩码替代的第一目标历史行为,每次都根据历史行为的置信度选择待转换为掩码的目标历史行为,使得通过行为预测模型获取的用户历史行为的表征,可以区分不同玩法和不同类型的用户,更好地实现游戏中的智能服务。
相应的,本申请实施例还提供一种计算机设备,该计算机设备可以为终端,该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机、个人数字助理等终端设备。如图5所示,图5为本申请实施例提供的计算机设备的结构示意图。该计算机设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中,处理器401与存储器402电性连接。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器401是计算机设备400的控制中心,利用各种接口和线路连接整个计算机设备400的各个部分,通过运行或加载存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备400的各种功能和处理数据,从而对计算机设备400进行整体监控。
在本申请实施例中,计算机设备400中的处理器401会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能:
获取待训练的数据集,将数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,每个行为样本包含用户在目标游戏中的多个历史行为;设置追踪向量,追踪向量用于记录数据集中每个历史行为对应的置信度;获取当前训练步数对应的第一行为样本,根据追踪向量确定第一行为样本中的每个历史行为对应的掩码转换概率,掩码转换概率用于指示对应的历史行为转换为掩码的概率;根据第一行为样本中的每个历史行为对应的掩码转换概率确定第一行为样本中待转换为掩码的目标历史行为,将第一行为样本中的目标历史行为转换为掩码后输入行为预测模型中;通过行为预测模型对第一行为样本中的各掩码进行预测,得到各掩码对应的第一预测行为,以及各第一预测行为对应的置信度;根据各第一预测行为对应的置信度、以及第一预测行为与目标历史行为的对应关系对追踪向量进行更新,根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
可选的,如图5所示,计算机设备400还包括:触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中,处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中,显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并生成相应的操作指令,且操作指令执行对应程序。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中,可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中,触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。
射频电路404可用于收发射频信号,以通过无线通信与网络设备或其他计算机设备建立无线通讯,与网络设备或其他计算机设备之间收发信号。
音频电路405可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路405接收后转换为音频数据,再将音频数据输出处理器401处理后,经射频电路404以发送给比如另一计算机设备,或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔,以提供外设耳机与计算机设备的通信。
输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源407用于给计算机设备400的各个部件供电。可选的,电源407可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图5中未示出,计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
由上可知,本实施例提供的计算机设备,每次基于行为样本对行为预测模型进行训练时,可以从追踪向量中获取行为样本包括的历史行为的置信度,进而根据获取的置信度从行为样本中选择被掩码替代的第一目标历史行为,每次都根据历史行为的置信度选择待转换为掩码的目标历史行为,使得通过行为预测模型获取的用户历史行为的表征,可以区分不同玩法和不同类型的用户,更好地实现游戏中的智能服务。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种模型训练的方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取待训练的数据集,将数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,每个行为样本包含用户在目标游戏中的多个历史行为;设置追踪向量,追踪向量用于记录数据集中每个历史行为对应的置信度;获取当前训练步数对应的第一行为样本,根据追踪向量确定第一行为样本中的每个历史行为对应的掩码转换概率,掩码转换概率用于指示对应的历史行为转换为掩码的概率;根据第一行为样本中的每个历史行为对应的掩码转换概率确定第一行为样本中待转换为掩码的目标历史行为,将第一行为样本中的目标历史行为转换为掩码后输入行为预测模型中;通过行为预测模型对第一行为样本中的各掩码进行预测,得到各掩码对应的第一预测行为,以及各第一预测行为对应的置信度;根据各第一预测行为对应的置信度、以及第一预测行为与目标历史行为的对应关系对追踪向量进行更新,根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种模型训练的方法中的步骤,因此,可以实现本申请实施例所提供的任一种模型训练的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本申请实施例所提供的一种模型训练的方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。

Claims (13)

1.一种模型训练的方法,其特征在于,包括:
获取待训练的数据集,将所述数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,所述每个行为样本包含用户在目标游戏中的多个历史行为;
设置追踪向量,所述追踪向量用于记录所述数据集中每个所述历史行为对应的置信度;
获取当前训练步数对应的第一行为样本,根据所述追踪向量确定所述第一行为样本中的每个历史行为对应的掩码转换概率,所述掩码转换概率用于指示对应的历史行为转换为掩码的概率;
根据所述第一行为样本中的每个历史行为对应的掩码转换概率确定所述第一行为样本中待转换为掩码的目标历史行为,将所述第一行为样本中的所述目标历史行为转换为掩码后输入所述行为预测模型中;
通过所述行为预测模型对所述第一行为样本中的各掩码进行预测,得到各掩码对应的第一预测行为,以及各所述第一预测行为对应的置信度;
根据各所述第一预测行为对应的置信度、以及所述第一预测行为与所述目标历史行为的对应关系对所述追踪向量进行更新,根据更新后的所述追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述数据集确定所述行为预测模型待训练的总步数,所述预设的训练完成条件包括针对所述行为预测模型的训练步数达到所述待训练的总步数。
3.根据权利要求1所述的方法,其特征在于,所述预设的训练完成条件包括所述行为预测模型对应的预设的收敛条件。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述行为预测模型进行训练之前,设置所述追踪向量中每个所述历史行为对应的置信度为初始置信度,所述初始置信度包括零。
5.根据权利要求1所述的方法,其特征在于,所述获取当前训练步数对应的第一行为样本,根据所述追踪向量确定所述第一行为样本中的每个历史行为对应的掩码转换概率,包括:
获取所述当前训练步数对应的第一行为样本,从所述追踪向量中获取所述第一行为样本中的每个历史行为对应的置信度;
计算所述第一行为样本中所有历史行为对应的置信度平均值;
获取所述第一行为样本的预设掩码转换比例;
基于所述置信度平均值,所述第一行为样本中的每个历史行为对应的置信度,所述预设掩码转换比例,计算所述第一行为样本中的每个历史行为对应的掩码转换概率。
6.根据权利要求5所述的方法,其特征在于,所述基于所述置信度平均值,所述第一行为样本中的每个历史行为对应的置信度,所述预设掩码转换比例,计算所述第一行为样本中的每个历史行为对应的掩码转换概率,包括:
根据所述第一行为样本中的每个历史行为对应的置信度,计算得出每个历史行为对应的反向置信度;
根据每个历史行为对应的反向置信度和所述置信度平均值,以及各个行为样本中每个历史行为对应的置信度与置信度平均值的关联关系,计算得出所述第一行为样本中每个历史行为对应的过渡概率;
计算所述第一行为样本的长度、所述第一行为样本中每个历史行为对应的过渡概率,以及所述预设掩码转换比例的乘积,得出第一行为样本中的每个历史行为对应的掩码转换概率。
7.根据权利要求5所述的方法,其特征在于,所述根据所述第一行为样本中的每个历史行为对应的掩码转换概率确定所述第一行为样本中待转换为掩码的目标历史行为,包括:
确定所述第一行为样本包括的历史行为的第一数量;
根据所述预设掩码转换比例和所述第一数量,确定所述目标历史行为的第二数量;
按照第一行为样本中的每个历史行为对应的掩码转换概率从高到底的顺序,在所有历史行为中获取所述第二数量的历史行为,作为所述目标历史行为。
8.根据权利要求3所述的方法,其特征在于,所述根据各所述第一预测行为对应的置信度、以及所述第一预测行为与所述目标历史行为的对应关系对所述追踪向量进行更新,包括:
获取各所述第一预测行为对应的置信度的第一衰减系数;
基于所述第一预测行为与所述目标历史行为的对应关系获取各所述第一预测行为对应的目标历史行为;
在所述追踪向量中获取各所述目标历史行为对应的置信度;
基于所述第一衰减系数,确定各所述目标历史行为对应的置信度的第二衰减系数;
计算所述第一衰减系数和各所述第一预测行为对应的置信度的第一乘积,以及计算所述第二衰减系数和各所述目标历史行为对应的置信度的第二乘积;
根据所述第一乘积和所述第二乘积,获取各所述目标历史行为对应的新的置信度,利用各所述新的置信度更新所述追踪向量中各所述目标历史行为对应的置信度。
9.根据权利要求1所述的方法,其特征在于,所述根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件之后,还包括:
获取目标用户当前时刻之前在所述目标游戏中的游戏行为序列,所述游戏行为序列包括所述目标用户在所述目标游戏中的多个游戏行为;
在所述游戏行为序列最后增加一个所述掩码;
通过训练完成的所述行为预测模型预测被所述掩码替换的游戏行为,得到第二预测行为;
基于所述第二预测行为确定所述目标用户在所述当前时刻之后发生的目标游戏行为。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若所述目标游戏行为为购买行为,基于所述目标用户操作的虚拟角色的角色属性,确定向所述目标用户推荐的目标虚拟商品;
向所述目标用户推荐所述目标虚拟商品。
11.一种模型训练的装置,其特征在于,包括:
第一获取单元,用于获取待训练的数据集,将所述数据集划分为多个行为样本,每个行为样本分别用于待训练的行为预测模型的每个训练步数的训练,所述每个行为样本包含用户在目标游戏中的多个历史行为;
设置单元,用于设置追踪向量,所述追踪向量用于记录所述数据集中每个所述历史行为对应的置信度;
确定单元,用于获取当前训练步数对应的第一行为样本,根据所述追踪向量确定所述第一行为样本中的每个历史行为对应的掩码转换概率,所述掩码转换概率用于指示对应的历史行为转换为掩码的概率;
转换单元,用于根据所述第一行为样本中的每个历史行为对应的掩码转换概率确定所述第一行为样本中待转换为所述掩码的目标历史行为,将所述第一行为样本中的所述目标历史行为转换为所述掩码后输入所述行为预测模型中;
预测单元,用于通过所述行为预测模型对所述第一行为样本中的各所述掩码进行预测,得到各所述掩码对应的第一预测行为,以及各所述第一预测行为对应的置信度;
更新单元,用于根据各所述第一预测行为对应的置信度、以及所述第一预测行为与所述目标历史行为的对应关系对所述追踪向量进行更新,根据更新后的追踪向量进行下一训练步数的训练,直到满足预设的训练完成条件。
12.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现如权利要求1至10任一项所述模型训练的方法中的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述模型训练的方法中的步骤。
CN202110970734.2A 2021-08-23 2021-08-23 模型训练的方法、装置、计算机设备及存储介质 Active CN113807403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110970734.2A CN113807403B (zh) 2021-08-23 2021-08-23 模型训练的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110970734.2A CN113807403B (zh) 2021-08-23 2021-08-23 模型训练的方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113807403A true CN113807403A (zh) 2021-12-17
CN113807403B CN113807403B (zh) 2023-06-16

Family

ID=78893922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110970734.2A Active CN113807403B (zh) 2021-08-23 2021-08-23 模型训练的方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113807403B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019035862A (ja) * 2017-08-17 2019-03-07 日本電信電話株式会社 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
CN110415119A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 模型训练、票据交易预测方法、装置、存储介质及设备
CN111027370A (zh) * 2019-10-16 2020-04-17 合肥湛达智能科技有限公司 一种多目标跟踪及行为分析检测方法
CN111310050A (zh) * 2020-02-27 2020-06-19 深圳大学 一种基于多层注意力的推荐方法
CN111797858A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、行为预测方法、装置、存储介质及设备
CN111797861A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 信息处理方法、装置、存储介质及电子设备
CN111881343A (zh) * 2020-07-07 2020-11-03 Oppo广东移动通信有限公司 信息推送方法、装置、电子设备及计算机可读存储介质
CN111870959A (zh) * 2020-08-07 2020-11-03 网易(杭州)网络有限公司 一种游戏中的资源推荐方法及装置
US20210216706A1 (en) * 2020-01-15 2021-07-15 International Business Machines Corporation Neural parser for snippets of dynamic virtual assistant conversation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019035862A (ja) * 2017-08-17 2019-03-07 日本電信電話株式会社 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
CN111797858A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、行为预测方法、装置、存储介质及设备
CN111797861A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 信息处理方法、装置、存储介质及电子设备
CN110415119A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 模型训练、票据交易预测方法、装置、存储介质及设备
CN111027370A (zh) * 2019-10-16 2020-04-17 合肥湛达智能科技有限公司 一种多目标跟踪及行为分析检测方法
US20210216706A1 (en) * 2020-01-15 2021-07-15 International Business Machines Corporation Neural parser for snippets of dynamic virtual assistant conversation
CN111310050A (zh) * 2020-02-27 2020-06-19 深圳大学 一种基于多层注意力的推荐方法
CN111881343A (zh) * 2020-07-07 2020-11-03 Oppo广东移动通信有限公司 信息推送方法、装置、电子设备及计算机可读存储介质
CN111870959A (zh) * 2020-08-07 2020-11-03 网易(杭州)网络有限公司 一种游戏中的资源推荐方法及装置

Also Published As

Publication number Publication date
CN113807403B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN108153463B (zh) 应用界面显示控制方法、装置及存储介质和移动终端
CN107995370B (zh) 通话控制方法、装置及存储介质和移动终端
CN107947951A (zh) 用户群组推荐方法、装置及存储介质和服务器
CN110995810B (zh) 一种基于人工智能的对象识别方法和相关装置
CN111310079A (zh) 评论信息排序方法、装置、存储介质及服务器
CN111143697B (zh) 一种内容推荐的方法以及相关装置
CN113284142B (zh) 图像检测方法、装置、计算机可读存储介质及计算机设备
WO2019062405A1 (zh) 应用程序的处理方法、装置、存储介质及电子设备
CN111435482A (zh) 一种外呼模型的构建方法、外呼方法、装置和存储介质
CN113344184B (zh) 用户画像预测方法、装置、终端和计算机可读存储介质
CN113807515A (zh) 模型训练的方法、装置、计算机设备及存储介质
CN113786620A (zh) 游戏信息推荐方法、装置、计算机设备及存储介质
CN113163063B (zh) 智能外呼系统及方法
CN114225421A (zh) 游戏交易数据异常检测方法、装置、终端和可读存储介质
CN112235629B (zh) 一种弹幕屏蔽方法、装置、计算机设备和存储介质
CN107728772B (zh) 应用程序的处理方法、装置、存储介质及电子设备
CN112052399B (zh) 一种数据处理方法、装置和计算机可读存储介质
CN116307394A (zh) 产品用户体验评分方法、装置、介质及设备
CN114267440B (zh) 医疗订单信息处理方法、装置和计算机可读存储介质
CN113807403B (zh) 模型训练的方法、装置、计算机设备及存储介质
CN115687745A (zh) 多媒体数据推荐方法、装置、存储介质及计算机设备
CN111612280A (zh) 一种数据分析方法和装置
CN113426136B (zh) 异常告警方法、装置、计算机设备及存储介质
US20230088429A1 (en) Processing device, processing method, and program
CN114490243A (zh) 一种线上会话处理方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant