CN111753855B - 一种数据处理方法、装置、设备及介质 - Google Patents

一种数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN111753855B
CN111753855B CN202010749402.7A CN202010749402A CN111753855B CN 111753855 B CN111753855 B CN 111753855B CN 202010749402 A CN202010749402 A CN 202010749402A CN 111753855 B CN111753855 B CN 111753855B
Authority
CN
China
Prior art keywords
sample data
parameter
data
network model
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010749402.7A
Other languages
English (en)
Other versions
CN111753855A (zh
Inventor
申俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010749402.7A priority Critical patent/CN111753855B/zh
Publication of CN111753855A publication Critical patent/CN111753855A/zh
Application granted granted Critical
Publication of CN111753855B publication Critical patent/CN111753855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及介质,该方法包括:获取与K个代理组件相关联的第一样本数据和第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池;从第一样本数据和第二样本数据所在的样本池中获取初始样本数据对;基于初始样本数据对,构建用于训练初始质量网络模型的训练样本数据;基于训练样本数据对初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。采用本申请实施例,可以提升样本数据的采集速度,以及提高模型的训练速度。

Description

一种数据处理方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
在游戏人工智能领域中,目前的强化学习方案是基于单个游戏环境的训练,以至于在模型训练阶段所使用的训练样本数据均来自于同一用户终端,即对于同一终端中的虚拟对象而言,若需要得到足够多的训练样本数据,则需要这个虚拟对象在该游戏环境中尝试各种动作,以采集到用于进行训练模型时的训练样本数据。由此可见,虚拟对象在与单个游戏环境进行交互而生成训练样本数据的过程中,需要消耗较长的样本采集时长,从而导致训练样本数据的采集速度较慢。
此外,当虚拟对象不断与单个游戏环境进行交互的过程中,需要消耗较长的样本采集时长,进而在使用与该单个游戏环境相关联的训练样本数据对模型进行训练时,必然会消耗较长的模型训练时长,进而严重制约了模型的训练速度。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质,可以提升样本数据的采集速度,以及提高模型的训练速度。
本申请实施例一方面提供一种数据处理方法,包括:
获取与K个代理组件相关联的第一样本数据和第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池;K为正整数;第一样本数据是由K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的;第二样本数据是由K个代理组件在第二截屏时间戳下对K个终端界面进行截图操作后所确定的;第二截屏时间戳为第一截屏时间戳的下一截屏时间戳;
从第一样本数据和第二样本数据所在的样本池中获取初始样本数据对;
基于初始样本数据对,构建用于训练初始质量网络模型的训练样本数据;
基于训练样本数据对初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;目标代理组件属于K个代理组件。
本申请实施例一方面提供一种数据处理装置,包括:
样本添加模块,用于获取与K个代理组件相关联的第一样本数据和第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池;第一样本数据是由K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的;第二样本数据是由K个代理组件在第二截屏时间戳下对K个终端界面进行截图操作后所确定的;第二截屏时间戳为第一截屏时间戳的下一截屏时间戳;
初始样本对获取模块,用于从第一样本数据和第二样本数据所在的样本池中获取初始样本数据对;
训练样本构建模块,用于基于初始样本数据对,构建用于训练初始质量网络模型的训练样本数据;
模型训练模块,用于基于训练样本数据对初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;目标代理组件属于K个代理组件。
其中,该样本添加模块包括:
截图指令发送单元,用于从K个代理组件中获取候选代理组件,通过候选代理组件向候选代理组件所对应的用户终端发送截图指令;截图指令用于指示用户终端在第一截屏时间戳下,对用户终端的终端界面执行第一截图操作,得到第一图像数据;
第一数据确定单元,用于获取由候选代理组件基于第一图像数据所确定的第一状态参数,基于第一状态参数,确定与候选代理组件相关联的第一业务数据;第一业务数据中包含第一状态参数和第一状态参数对应的第一动作参数以及第一反馈参数;第一反馈参数是由第一状态参数和与第二截屏时间戳相关联的第二状态参数所确定的;第二状态参数是由候选代理组件基于获取到的第二图像数据所确定的;第二图像数据为用户终端在第二截屏时间戳时执行第二截图操作后所得到的;
第二数据确定单元,用于基于第二状态参数,确定与候选代理组件相关联的第二业务数据;第二业务数据中包含第二状态参数和第二状态参数对应的第二动作参数以及第二反馈参数;第二反馈参数是由第二状态参数和与第三截屏时间戳相关联的第三状态参数所确定的;第三状态参数是由候选代理组件基于获取到的第三图像数据所确定的;第三图像数据为用户终端在第三截屏时间戳时执行第三截图操作后所得到的;
样本添加单元,用于基于第一业务数据,确定第一样本数据,基于第二业务数据,确定第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池。
其中,该第一数据确定单元包括:
灰度转换子单元,用于对第一图像数据进行灰度转换,得到与第一图像数据具有相同图像尺寸的灰度图像;
下采样子单元,用于根据灰度图像的图像尺寸以及灰度图像的下采样率,对灰度图像进行下采样处理,得到采样图像;
特征提取子单元,用于从采样图像中提取像素向量特征,将像素特征向量作为第一图像数据的第一状态参数;
数据确定子单元,用于获取初始质量网络模型,基于第一状态参数和初始质量网络模型,确定与候选代理组件相关联的第一业务数据。
其中,该数据确定子单元包括:
动作指令发送子单元,用于获取初始质量网络模型,通过初始质量网络模型预测第一状态参数对应的第一动作参数,基于第一动作参数向候选代理组件对应的用户终端发送动作指令;
图像数据接收子单元,用于将用户终端执行完动作指令后的时间戳作为第二截屏时间戳,接收用户终端在第二截屏时间戳时所截取到的第二图像数据;第二图像数据用于指示候选代理组件基于第二图像数据确定第二状态参数;第二状态参数用于指示候选代理组件确定第一动作参数对应的第一反馈参数;
业务数据确定子单元,用于基于第一状态参数、第一动作参数以及第一反馈参数,确定与候选代理组件相关联的第一业务数据。
其中,该动作指令确定子单元还用于,获取初始质量网络模型,将第一状态参数输入至初始质量网络模型,由初始质量网络模型输出第一状态参数与初始质量网络模型中的分类器的多种动作属性特征之间的预测质量概率;在预测质量概率中,将具有最大预测质量概率的动作属性特征所对应的动作类型作为第一状态参数的预测动作;将预测动作确定为第一动作参数,且将第一动作参数所对应的动作指令发送至候选代理组件对应的用户终端。
其中,该数据确定子单元还包括:
第一图像识别子单元,用于通过候选代理组件对第一图像数据中的业务区域进行图像识别,得到候选代理组件所控制的虚拟对象在业务区域中的第一业务特征值;
第二图像识别子单元,用于通过候选代理组件对第二图像数据中的业务区域进行图像识别,得到候选代理组件所控制的虚拟对象在业务区域中的第二业务特征值;
反馈参数确定子单元,用于通过候选代理组件基于第一业务特征值和第二业务特征值,确定第一动作参数对应的第一反馈参数。
其中,该反馈参数确定子单元还用于,若第二业务特征值小于或者等于第一阈值,则通过候选代理组件,将第一阈值对应的第一反馈值作为第一动作参数对应的第一反馈参数;若第二业务特征值大于或者等于第二阈值,则通过候选代理组件,将第二阈值对应的第二反馈值作为第一动作参数对应的第一反馈参数;第二阈值大于第一阈值;若第二业务特征值大于第一阈值,且小于第二阈值,则通过候选代理组件,确定第一业务特征值与第二业务特征值之间的差值,基于差值,确定第一动作参数对应的第一反馈参数。
其中,该样本池包含与K个代理组件对应的K个样本数据集合;一个代理组件对应一个样本数据集合;一个样本数据集合用于存储对应代理组件在多个相邻截屏时间戳下所获取到的样本数据;多个相邻截屏时间戳包含第一截屏时间戳和第二截屏时间戳;
该初始样本对获取模块包括:
训练样本集合选取单元,用于从第一样本数据和第二样本数据所在的样本池所对应的K个样本数据集合中,选取训练样本数据集合;
训练样本获取单元,用于从训练样本数据集合中获取同一代理组件在第一截屏时间戳时所得到的第一训练样本数据,以及在第二截屏时间戳时所得到的第二训练样本数据;
初始样本对确定单元,用于基于与同一代理组件相关联的第一训练样本数据和第二训练样本数据,确定初始样本数据对。
其中,该训练样本构建模块包括:
第一参数获取单元,用于在初始样本数据对中,获取第一训练样本数据中的第一状态参数、第一动作参数和第一反馈参数;
第二参数获取单元,用于获取第二训练样本数据中的第二状态参数;
训练样本构建单元,用于基于第一训练样本数据中的第一状态参数、第一动作参数和第一反馈参数以及第二训练样本数据中的第二状态参数,构建用于训练初始质量网络模型的训练样本数据。
其中,该模型训练模块包括:
训练单元,用于基于训练样本数据对初始质量网络模型进行训练,得到训练样本数据对应的预测质量概率;
损失函数确定单元,用于基于训练样本数据对应的预测质量概率,确定初始质量网络模型的损失函数;
梯度值确定单元,用于对损失函数进行求导处理,确定用于调整初始质量网络模型的模型参数的梯度值;
迭代更新单元,用于基于梯度值,对初始质量网络模型的模型参数进行迭代更新,将迭代更新后的初始质量网络模型作为过渡质量网络模型;
目标模型确定单元,用于在过渡质量网络模型满足模型收敛条件时,将满足模型收敛条件的过渡质量网络模型作为用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。
其中,该训练样本数据对应的预测质量概率包含第一预测质量概率和第二预测质量概率;第一预测质量概率是由初始质量网络模型对训练样本数据中的第一状态参数进行预测所得到的;第二预测质量概率是由初始质量网络模型对训练样本数据中的第二状态参数进行预测所得到的;
该损失函数确定单元包括:
辅助参数确定子单元,用于获取初始质量网络模型的折扣系数,将折扣系数作为用于确定初始质量网络模型的损失函数的业务辅助参数;
实际概率确定子单元,用于获取训练样本数据中的第一反馈参数,基于第一反馈参数、业务辅助参数以及第二预测质量概率,确定与训练样本数据相关联的实际质量概率;
损失函数确定子单元,用于基于实际质量概率以及第一预测质量概率,确定初始质量网络模型的损失函数。
其中,该装置还包括:
参数获取模块,用于获取目标用户终端通过目标代理组件发送的预测状态参数;预测状态参数是由目标代理组件基于获取到的目标图像数据所确定的;目标图像数据为用户终端在获取到目标智能代理所发送的截图指令时所得到的;
动作指令生成模块,用于基于已训练的目标质量网络模型,确定预测状态参数对应的预测动作,基于预测动作生成目标动作指令;
动作指令发送模块,用于将目标动作指令发送给目标用户终端,以使目标用户终端基于目标动作指令执行预测动作。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
该处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,该存储器用于存储计算机程序,该处理器用于调用该计算机程序,以执行本申请实施例中上述一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时,执行本申请实施例中上述一方面中的方法。
本申请一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面中的方法。
在本申请实施例中,计算机设备可以获取到由K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的第一样本数据,以及由K个代理组件在该第一截屏时间戳的下一截屏时间戳(即第二截屏时间戳)下对K个终端界面进行截图操作后所确定的第二样本数据。其中,K可以为正整数。这里的每个代理组件(即智能体代理)均可以用于控制对应虚拟对象与相应业务环境进行交互,以在单位时间内获取到大量的样本数据。可以理解的是,由于本申请实施例中的计算机设备可以并行启动K个代理组件,且每个代理组件是相互独立运行的,以至于该计算机设备可以在单位时间内同时接入K个业务环境,进而可以提升样本数据的采集速度。此外,当这K个代理组件同时接入到的对应的业务环境时,可以使计算机设备能够在单位时间内探索到允许虚拟对象执行更多的交互行为,进而可以在单位时间内获取到大量的能够添加到样本池的样本数据。比如,当计算机设备将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池时,可以从该样本池中快速获取更多的初始样本数据对,进而可以基于初始样本数据对,构建得到大量的用于训练初始质量网络模型的训练样本数据。此时,该计算机设备可以基于这些训练样本数据对初始质量网络模型进行训练,从而可以快速得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;其中,目标代理组件属于K个代理组件。由于采用本申请实施例可以快速构建得到大量的训练样本数据,进而可以在对初始质量网络模型进行训练时,有效地提高初始质量网络模型的训练速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种进行数据交互的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种基于初始质量网络模型确定状态参数对应的动作参数的场景示意图;
图5是本申请实施例提供的一种样本池的场景示意图;
图6是本申请实施例提供的一种训练模型的场景示意图;
图7是本申请实施例提供的一种数据处理方法的流程示意图;
图8是本申请实施例提供的一种应用目标质量网络模型的场景示意图;
图9是本申请实施例提供的一种通过目标质量网络模型生成指导视频数据的场景示意图;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。
如图1所示的服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
应当理解,如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端),当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器10之间进行数据交互。其中,该应用客户端可以包含娱乐客户端(例如,游戏客户端)。该游戏客户端可以包含竞速类游戏客户端、跑酷类游戏客户端、射击类游戏客户端以及棋牌类游戏客户端。其中,为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等具有图像数据处理功能的智能终端。例如,本申请实施例可以将图1所示的用户终端100a作为目标用户终端(例如,手游终端),该手游终端中可以为运行有应用客户端(例如,游戏客户端)的终端设备,通常可以为智能手机设备。
本申请实施例提供的数据处理方法可以涉及人工智能领域中的机器学习方向。可以理解的是,所谓人工智能(Artificial Intelligence,简称AI)是指利用数字计算机或者数据计算机控制的计算机设备(例如,图1所示服务器10)来进行模拟、延伸和扩展人的智能的理论、方法、技术以及应用系统的一门新的技术科学。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。
其中,机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。其中,强化学习又称为试错学习,是一种让智能体(即虚拟对象)与业务环境不断交互,并根据业务环境的反馈参数进行自我学习的一种机器学习算法。强化学习可以通过不断的尝试来学习到最优动作策略。
可以理解的是,本申请实施例中的计算机设备可以通过并行启动多个代理组件,以至于在单位时间内能够同时接入多个业务环境,使得对应虚拟对象可以与相应业务环境进行更多的交互,进而可以提升样本数据的采集速度。其中,代理组件可以为用于控制应用客户端中的虚拟对象的代理程序(agent proxy),负责与用户终端中所运行的应用客户端的业务环境(例如,游戏环境)进行交互,以生成样本数据。其中,该代理组件可以集成在具有模型训练功能的计算机设备(例如,图1所示的服务器10)中,也可以集成在运行有应用客户端的用户终端中,还可以集成在一个独立的服务器(例如,代理服务器)中,在此不做限定。其中,该计算机设备与代理组件可以采用TCP等方式进行通讯。
这里的虚拟对象可以为应用客户端对应的业务环境中的智能体(agent),能够根据业务环境进行决策,做出特定的动作。例如,该虚拟对象可以为竞速类游戏客户端对应的游戏环境中的赛车。业务环境(environment)是指该虚拟对象所处的环境(例如,游戏环境),该虚拟对象可以通过代理组件在该游戏环境中执行动作指令,从而与该游戏环境进行交互。
可以理解的是,本申请实施例中的计算机设备所获取到的样本数据可以包含状态参数、动作参数以及反馈参数。其中,状态参数(state)可以是指代理组件所控制的虚拟对象所处的业务环境(例如,游戏环境)的特征化表示,可以采用有特定含义的数值特征向量表示,也可以采用图像像素特征表示,在此不做限定。动作参数(action)可以指示该代理组件通过质量网络模型,预测该虚拟对象在该状态参数对应的业务环境下所执行的动作指令。反馈参数(reward)是指虚拟对象在执行完动作参数对应的动作指令后(即与业务环境进行交互过程中)收到的激励反馈信号,通常是一个数值变量,其数值的大小表示对虚拟对象所做动作好坏的评价。
可以理解的是,本申请实施例中的计算机设备可以为具有模型训练功能的实体终端,通常为包含图形处理器(GPU)计算资源的高性能计算机设备。该计算机设备可以为如图1所示的服务器(Train Server),也可以为图1所示的用户终端,在此不做限定。本申请实施例中的计算机设备可以以服务器(例如,服务器10)为例,用以阐述该计算机设备对模型(例如,质量网络模型)进行训练的过程。
为便于理解,进一步地,请参见图2,图2是本申请实施例提供的一种进行数据交互的场景示意图。本申请实施例中具有模型训练功能的计算机设备可以为图2所示的服务器20,该服务器20可以为上述图1所对应的服务器10。
如图2所示,该服务器20中可以运行有K个代理组件。其中,K可以为正整数。这K个代理组件具体可以包含代理组件1、代理组件2、代理组件3、…、代理组件K。其中,一个代理组件可以对应一个用户终端的终端界面。如图2所示,代理组件1可以对应用户终端31的终端界面,代理组件2可以对应用户终端32的终端界面,代理组件3可以对应用户终端33的终端界面,以此类推,代理组件K可以对应用户终端3K的终端界面。
可以理解的是,用户终端31、用户终端32、用户终端33、…、用户终端3K这K个用户终端中的每个用户终端均可以为上述图1所示的用户终端集群中的用户终端,且每个用户终端均可以运行有应用客户端(例如,游戏客户端)。其中,本申请实施例中的代理组件所控制的虚拟对象可以为该游戏客户端中的游戏对象。例如,该游戏对象可以为竞速类游戏客户端中的赛车。
应当理解,由于这K个代理组件中的每个代理组件可以相互独立运行,所以本申请实施例中的服务器20在采集样本数据时,可以并行启动这K个代理组件,从而可以提升样本数据的采集速度。本申请实施例可以以代理组件1为例,用以阐述服务器20获取与这K个代理组件相关联的第一样本数据和第二样本数据。其中,该第一样本数据是由这K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的,该第二样本数据是由这K个代理组件在第二截屏时间戳下对K个终端界面进行截图操作后所确定的。该第二截屏时间戳可以为第一截屏时间戳的下一截屏时间戳。
可以理解的是,服务器20可以通过该代理组件1获取用户终端31的终端界面中的虚拟对象当前所处的游戏环境。若该虚拟对象所处的游戏环境为游戏开始时刻至游戏结束时刻之间的任意一个时刻(例如,时间戳1)所对应的游戏环境时,服务器20可以通过代理组件1向该用户终端31发送截图指令,以使该用户终端31在时间戳1下,对该用户终端31的终端界面执行截图操作,以得到图像数据1。其中,本申请实施例可以将虚拟对象在游戏开始时刻和游戏结束时刻之间的任意一个时刻(例如,时间戳1)称之为第一截屏时间戳。
此时,服务器20可以基于代理组件1获取图像数据1的状态参数(例如,状态参数s1),进而可以确定该状态参数s1对应的动作参数(例如,动作参数a1),且将该动作参数a1所对应的动作指令(例如,左移动作指令)通过该代理组件1发送至用户终端31,以使该用户终端31的终端界面中的虚拟对象执行该左移动作指令。此时,服务器20可以将用户终端31执行完该左移动作指令后的时间戳(例如,时间戳2)确定为第二截屏时间戳。该第二截屏时间戳可以为第一截屏时间戳的下一截屏时间戳。其中,时间戳1和时间戳2这两个截屏时间戳之间可以存在一定的时间间隔。
应当理解,服务器20可以通过代理组件1获取用户终端31在时间戳2时所截取的图像数据2,进而可以获取该图像数据2对应的状态参数(例如,状态参数s2),与此同时,服务器20可以基于状态参数s2,确定动作参数a1对应的反馈参数(例如,反馈参数r1)。此时,服务器20可以基于状态参数s1、动作参数a1以及反馈参数r1,确定与代理组件1相关联的业务数据(例如,业务数据1),进而可以基于业务数据1,确定与代理组件1相关联的样本数据1(即第一样本数据)。例如,该样本数据1的数据格式可以为(s1,a1,r1)。可选的,该样本数据1的数据格式也可以为(s1,r1,a1),这里将不对该服务器20所采集的样本数据的数据格式中的参数排序进行限定。
进一步地,服务器20可以获取状态参数s2对应的动作参数(例如,动作参数a2),且将该动作参数a2所对应的动作指令(例如,右移动作指令)通过该代理组件1发送至用户终端31,以使该用户终端31的终端界面中的虚拟对象执行该右移动作指令。此时,服务器20可以将用户终端31执行完该右移动作指令后的时间戳(例如,时间戳3)确定为第三截屏时间戳。该第三截屏时间戳可以为第二截屏时间戳的下一截屏时间戳。其中,时间戳2和时间戳3这两个截屏时间戳之间可以存在一定的时间间隔。
应当理解,服务器20可以通过代理组件1获取用户终端31在时间戳3时所截取的图像数据3,进而可以获取该图像数据3对应的状态参数(例如,状态参数s3),与此同时,服务器20可以基于状态参数s3,确定动作参数a2对应的反馈参数(例如,反馈参数r2)。此时,服务器20可以基于状态参数s2、动作参数a2以及反馈参数r2,确定与代理组件1相关联的业务数据(例如,业务数据2),进而可以基于业务数据2,确定与代理组件1相关联的样本数据2(即第二样本数据)。例如,该,样本数据2可以为(s2,a2,r2)。以此类推,该服务器20通过这K个代理组件的其他代理组件,获取第一样本数据和第二样本数据的具体实施方式可以参见上述获取与代理组件1相关联的第一样本数据和第二样本数据,在此不再继续进行赘述。
进一步地,服务器20可以将所获取到的与这K个代理组件相关联的第一样本数据和第二样本数据添加至图2所示的样本池(replay memory)中。其中,该样本池又称经验池,是服务器20在训练强化学习模型(例如,初始质量网络模型)时,将收集的样本数据存储起来所形成的样本集合。进一步地,服务器20可以从第一样本数据和第二样本数据所在的样本池中获取初始样本数据对,进而可以基于初始样本数据对,构建用于训练该初始质量网络模型的训练样本数据。例如,该服务器所获取的该初始样本数据对可以为与代理组件1相关联的样本数据1(s1,a1,r1)和与该代理组件1相关联的样本数据2(s2,a2,r2)。此时,服务器20基于样本数据1和样本数据2所构建的训练样本数据可以为(s1,a1,r1,s2)。其中,本申请实施例将不对该训练样本数据的数据格式中的参数排序进行限定。
可以理解的是,服务器20可以基于所构建的训练样本数据,对初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。其中,目标代理组件可以属于这K个代理组件。由此可见,由于服务器20并行启动K个代理组件,可以在单位时间内同时接入K个游戏环境,使得这K个代理组件所控制的虚拟对象可以与对应的游戏环境进行更多的交互,从而可以提升样本数据的采集速度。此外,由于这K个代理组件的每个代理组件之间相互独立,从而使得虚拟对象能够在多个游戏环境中进行动作策略的探索,进而可以更高概率、更快速的探索到最优策略,进而可以获取大量的能够添加到样本池的样本数据。由于该计算机设备可以从样本池中,快速构建得到大量的训练样本数据,进而可以在对初始质量网络模型进行训练时,有效地提高初始质量网络模型的训练速度。
其中,具有模型训练功能的计算机设备可以通过并行启动K个代理组件,采集样本数据,进而可以基于所采集的样本数据构建用于对初始质量网络模型进行训练的训练样本数据,以得到目标质量网络模型的具体实现方式可以参见下述图3-图9所对应的实施例。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,该方法可以由具有模型训练功能的计算机设备执行,该计算机设备可以为用户终端(例如,上述图1所示的用户终端100a),也可以为服务器(例如,上述图1所示的服务器10),在此不做限定。该方法至少可以包括以下步骤S101-步骤S104:
步骤S101,获取与K个代理组件相关联的第一样本数据和第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池。
具体地,计算机设备可以从K个代理组件中获取候选代理组件,并可以通过该候选代理组件向该候选代理组件所对应的用户终端发送截图指令。其中,K为正整数。该截图指令可以用于指示该用户终端在第一截屏时间戳下,对该用户终端的终端界面执行第一截图操作,得到第一图像数据。进一步地,该计算机设备可以获取由该候选代理组件基于该第一图像数据所确定的第一状态参数,进而可以基于该第一状态参数,确定与该候选代理组件相关联的第一业务数据。进一步地,该计算机设备可以基于该第二状态参数,确定与该候选代理组件相关联的第二业务数据。应当理解,计算机设备可以基于该第一业务数据,确定第一样本数据,与此同时,该计算机设备可以基于该第二业务数据,确定第二样本数据,并可以将该第一样本数据和该第二样本数据添加至与该K个代理组件相关联的样本池。
其中,该第一业务数据中可以包含该第一状态参数、该第一状态参数对应的第一动作参数以及第一反馈参数。该第一反馈参数可以是由该第一状态参数和与第二截屏时间戳相关联的第二状态参数所确定的;该第二状态参数可以是由该候选代理组件基于获取到的第二图像数据所确定的;该第二图像数据可以为该用户终端在该第二截屏时间戳时执行第二截图操作后所得到的。可以理解的是,该第二截屏时间戳可以为该第一截屏时间戳的下一时间戳。其中,第一截屏时间戳和第二截屏时间戳可以用于区别执行截图操作的先后顺序,比如,该第一截屏时间戳可以为在本次截屏时间戳为时间戳1时,对当前终端界面的图像数据执行截图操作的时刻。该第二截屏时间戳可以为在下一次截屏时间戳为时间戳2时,对该终端界面的新的图像数据执行截图操作的时刻,这两个截屏时间戳之间可以存在一定的时间间隔。
例如,在第一截屏时间戳为2020年7月20日,12:02:25时,基于候选代理组件所发送的截图指令,该用户终端可以截取该终端界面上的图像数据1(即第一图像数据)。在第二截屏时间戳为2020年7月20日,12:02:28时,该候选代理组件所控制的虚拟对象可以执行完基于图像数据1所得到的动作指令,此时,该用户终端可以截取该终端界面上的新的图像数据(例如,图像数据2)。
其中,该第二业务数据中可以包含该第二状态参数和该第二状态参数对应的第二动作参数以及第二反馈参数;该第二反馈参数可以是由该第二状态参数和与第三截屏时间戳相关联的第三状态参数所确定的;该第三状态参数可以是由该候选代理组件基于获取到的第三图像数据所确定的;该第三图像数据可以为该用户终端在该第三截屏时间戳时执行第三截图操作后所得到的。该第三截屏时间戳可以为该第二截屏时间戳的下一时间戳。
应当理解,为了便于获取图像数据对应的状态参数,本申请实施例中的计算机设备可以对通过代理组件所获取到的图像数据进行预处理,从而可以增强有关信息的可检测性和最大限度地简化数据。可以理解的是,该计算机设备在获取由候选代理组件对应的用户终端在第一截屏时间戳时所截取的第一图像数据时,可以对该第一图像数据进行灰度转换,从而可以得到与该第一图像数据具有相同图像尺寸的灰度图像。进一步地,该计算机设备可以根据该灰度图像的图像尺寸以及该灰度图像的下采样率(缩小倍数),对该灰度图像进行下采样处理(缩放处理),从而可以得到采样图像。
例如,计算机设备获取到的第一图像数据的图像尺寸可以为200×200,对该第一图像数据进行灰度转换,可以得到图像尺寸为200×200的灰度图像。进一步地,该计算机设备可以根据该灰度图像的图像尺寸以及该灰度图像的下采样率,对该灰度图像进行下采样处理,从而可以得到采样图像。例如,该采样图像的图像尺寸可以为144×144。
可以理解的是,本申请实施例中的计算机设备可以从该第一图像数据对应的采样图像中提取像素向量特征,并将该像素特征向量作为该第一图像数据的状态参数。其中,本申请实施例可以将第一图像数据的状态参数可以为称之为第一状态参数。进一步地,计算机设备可以获取初始质量网络模型,基于第一状态参数和初始质量网络模型,从而确定与该候选代理组件相关联的第一业务数据。
其中,可以理解的是,该计算机设备可以获取初始质量网络模型,通过该初始质量网络模型预测该第一状态参数对应的动作参数,进而可以基于第一动作参数向候选代理组件对应的用户终端发送动作指令。其中,本申请实施例可以将第一状态参数对应的动作参数称之为第一动作参数。
其中,若该候选代理组件运行于该计算机设备(例如,图1所示的服务器)中,则该计算机设备可以获取用户终端所发送的第一图像数据,进而可以通过该候选代理组件,确定第一图像数据对应的第一状态参数。此时,计算机设备可以获取初始质量网络模型,将该第一状态参数输入至初始质量网络模型,由初始质量网络模型输出第一状态参数与初始质量网络模型中的分类器的多种动作属性特征之间的预测质量概率。进一步地,计算机设备可以在预测质量概率中,将具有最大预测质量概率的动作属性特征所对应的动作类型作为第一状态参数的预测动作。此时,计算机设备可以将该预测动作确定为第一动作参数,且将该第一动作参数所对应的动作指令发送至候选代理组件对应的用户终端,以使用户终端中的虚拟对象执行该动作指令。可以理解的是,本申请实施例可以通过候选代理组件调用动作接口,模拟用户针对该用户终端的终端界面执行动作指令,例如,通过调用动作接口可以模拟用户按压、松开、滑动触屏等方式,来执行游戏动作。
可选的,若该候选代理组件运行于另一个独立的服务器(例如,代理服务器)中,则该代理服务器可以获取用户终端所发送的第一图像数据,进而可以通过该候选代理组件,确定第一图像数据对应的第一状态参数。在该计算机设备接收到该代理服务器所发送的第一状态参数时,该计算机设备可以获取初始质量网络模型,将该第一状态参数输入至初始质量网络模型,由初始质量网络模型输出第一状态参数与初始质量网络模型中的分类器的多种动作属性特征之间的预测质量概率。进一步地,计算机设备可以在预测质量概率中,将具有最大预测质量概率的动作属性特征所对应的动作类型作为第一状态参数的预测动作。此时,计算机设备可以将该预测动作确定为第一动作参数,且将该第一动作参数所对应的动作指令发送至运行有该候选代理组件的代理服务器,进而使得该代理服务器可以将该动作指令发送至候选代理组件对应的用户终端,以使用户终端中的虚拟对象执行该动作指令。
可选的,若该候选代理组件运行于应用客户端(例如,游戏客户端)对应的用户终端中,则该用户终端可以基于所截取的第一图像数据,通过该候选代理组件确定该第一图像数据对应的第一状态参数,并将该第一状态参数发送至该计算机设备。此时,该计算机设备可以获取初始质量网络模型,将该第一状态参数输入至初始质量网络模型,由初始质量网络模型输出第一状态参数与初始质量网络模型中的分类器的多种动作属性特征之间的预测质量概率。进一步地,计算机设备可以在预测质量概率中,将具有最大预测质量概率的动作属性特征所对应的动作类型作为第一状态参数的预测动作。此时,计算机设备可以将该预测动作确定为第一动作参数,且将该第一动作参数所对应的动作指令发送至运行有该候选代理组件的用户终端,以使用户终端中的虚拟对象执行该动作指令。
为便于理解,进一步地,请参见图4,图4是本申请实施例提供的一种基于初始质量网络模型确定状态参数对应的动作参数的场景示意图。应该理解,本申请实施例组件的该候选代理组件可以运行于具有模型训练功能的计算机设备中。该候选代理组件是从K个代理组件中所获取的。其中,K可以为正整数。该候选代理组件对应的用户终端所运行的应用客户端可以为竞速类游戏客户端。通过该候选代理组件所截取的终端界面的图像数据可以为图4所示的图像数据1(即第一图像数据),
如图4所示,本申请实施例中的图像数据1中的虚拟对象可以为该候选代理组件所控制的虚拟对象。该图像数据1中可以包含用于控制该虚拟对象执行动作指令的操作控件,该候选代理组件对应的用户终端的用户可以针对该操作控件执行触发操作,以使该虚拟对象可以执行该操作控件对应的动作指令。该操作控件可以包含左移控件和右移控件。若用户未执行触发操作,则该虚拟对象可以保持当前动作指令。该图像数据1中的业务区域中的业务特征值可以用于指示得到该图像数据1时所执行动作指令的反馈参数。
应当理解,该计算机设备可以获取用户终端所发送的图像数据1,进而可以通过该候选代理组件,确定该图像数据1对应的状态参数1(即第一状态参数)。进一步地,该计算机设备可以获取初始质量网络模型40。其中,该初始质量网络模型中的分类器可以包含多种动作属性特征。本申请实施例中的初始质量网络模型中的分类器所包含的动作属性特征可以以3个为例,例如,该初始质量网络模型中的分类器的多种动作属性特征可以包含左移动作属性特征、右移动作属性特征以及保持动作属性特征。
进一步地,该计算机设备可以将该状态参数1输入至该初始质量网络模型,由初始质量网络模型输出状态参数1与初始质量网络模型中的分类器的多种动作属性特征之间的预测质量概率,即预测质量概率1、预测质量概率2以及预测质量概率3。其中,预测质量概率1可以指示为在状态参数1时,虚拟对象执行左移动作指令的价值,预测质量概率2可以指示为在状态参数1时,虚拟对象执行右移动作指令的价值,预测质量概率3可以指示为在状态参数1时,虚拟对象执行保持动作指令的价值。
此时,计算机设备可以在预测质量概率中,将具有最大预测质量概率的动作属性特征所对应的动作类型作为状态参数1的预测动作。进一步地,计算机设备可以将该预测动作确定为动作参数1(即第一动作参数),且将该动作参数1所对应的动作指令发送至该候选代理组件对应的用户终端,以使用户终端中的虚拟对象执行该动作指令。
例如,若该计算机设备将该状态参数1输入至该初始质量网络模型时,该初始质量网络模型可以输出以下预测质量概率:例如,状态参数1与左移动作属性特征之间的预测质量概率1(例如,-20),状态参数1与右移动作属性特征之间的预测质量概率2(例如,70),状态参数1与保持动作属性特征之间的预测质量概率3(例如,40)。此时,计算机设备可以从所输出的3个预测质量概率中,获取最大预测质量概率(例如,预测质量概率2),将预测质量概率2的动作属性特征所对应的动作类型作为状态参数1的预测动作(例如,右移动作)。进一步地,计算机设备可以将该右移动作确定为动作参数1,且将该动作参数1所对应的动作指令发送至该候选代理组件对应的用户终端,以使用户终端中的虚拟对象执行该右移动作指令。
应当理解,计算机设备可以将用户终端执行完动作指令后的时间戳作为第二截屏时间戳,接收用户终端在第二截屏时间戳时所截取到的第二图像数据。其中,该第二图像数据可以用于指示候选代理组件基于第二图像数据确定第二状态参数;该第二状态参数可以用于指示候选代理组件确定第一动作参数对应的第一反馈参数。可以理解的是,该候选代理组件基于第二图像数据确定第二状态参数的具体实现方式可以参见上述该候选代理组件基于第一图像数据确定第一状态参数的具体实现方式,在此将不再继续进行赘述。
可以理解的是,该计算机设备可以通过该候选代理组件对第一图像数据中的业务区域进行图像识别,得到候选代理组件所控制的虚拟对象在业务区域中的第一业务特征值。例如,该计算机设备可以对图4所示的图像数据1的业务区域进行图像分割,将每一位数字从该业务区域中分割出来。进一步地,该计算机设备可以通过卷积神经网络或者模型匹配,识别所分割出的每一位数字的数字类别,进而可以根据图像分割的位置,将识别的数字拼接起来,得到第一业务特征值。比如,该计算机设备可以识别图4中的图像数据1的虚拟对象在业务区域中的业务特征值(206.2公里/小时)。
应当理解,该计算机设备还可以通过候选代理组件对第二图像数据中的业务区域进行图像识别,得到该候选代理组件所控制的虚拟对象在业务区域中的第二业务特征值。进一步地,该计算机设备可以通过候选代理组件,基于第一业务特征值和第二业务特征值,确定第一动作参数对应的反馈参数。其中,本申请实施例可以将第一动作参数对应的反馈参数称之为第一反馈参数。
其中,可以理解的是,该计算机设备可以基于在图像数据中的业务区域中所识别的业务特征值以及状态参数,建立一个映射关系表,以便于后续在确定第二反馈参数时,可以快速从该映射关系表中,查询到该第二业务特征值对应的图像数据(即第二图像数据)在上一时刻所采集的图像数据(即第一图像数据)的第一业务特征值,从而可以快速得到第一反馈参数。
应当理解,由于反馈参数是用于评价动作参数的好坏的参数,所以暂未提供固定的计算方法。计算机设备在确定反馈参数时,不同应用客户端可以根据不同的业务特征计算。例如,在竞速类游戏客户端中,可以根据速度这一业务特征来确定虚拟对象(例如,赛车)在执行完动作参数对应的动作指令时,所得到的反馈参数。在酷跑类游戏客户端中,可以根据距离这一业务特征来确定虚拟对象(例如,跑酷对象)在执行完动作参数对应的动作指令时,所得到的反馈参数。在射击类游戏客户端中,可以根据血量、子弹数量等业务特征,综合确定虚拟对象(例如,射击对象)在执行完动作参数对应的动作指令时,所得到的反馈参数。
其中,以竞速类游戏客户端为例,若第二业务特征值小于或者等于第一阈值(例如,60公里/小时),则该计算机设备可以通过候选代理组件,将第一阈值对应的第一反馈值(例如,-0.5)作为第一动作参数对应的第一反馈参数。若第二业务特征值大于或者等于第二阈值(例如,200公里/小时),则通过候选代理组件,将第二阈值对应的第二反馈值(例如,0.5)作为第一动作参数对应的第一反馈参数;该第二阈值大于第一阈值。若第二业务特征值大于第一阈值,且小于第二阈值,则该计算机设备通过候选代理组件,确定第一业务特征值与第二业务特征值之间的差值,进而可以基于差值,确定第一动作参数对应的第一反馈参数。例如,在第二业务特征值大于第一阈值且小于第二阈值时,若第二业务特征值与第一业务特征值相比,每增加10公里/小时,反馈参数赋予0.1;若第二业务特征值与第一业务特征值相比,每减少10公里/小时,反馈参数赋予-0.1。
比如,若第二业务特征值为40公里/小时,则该计算机设备可以确定该第二业务特征值小于第一阈值(例如,60公里/小时),此时,该计算机设备可以通过候选代理组件,将-0.5作为第一动作参数对应的第一反馈参数。若第二业务特征值为230公里/小时,则该计算机设备可以确定该第二业务特征值大于第二阈值(例如,200公里/小时),此时,该计算机设备可以通过候选代理组件,将0.5作为第一动作参数对应的第一反馈参数。若第二业务特征值为150公里/小时,则该计算机设备可以确定该第二业务特征值大于第一阈值且小于第二阈值。此时,该计算机设备可以获取第一业务特征值(例如,130公里/小时),并可以确定第一业务特征值与第二业务特征值之间的差值为20公里/小时,即第二业务特征值比第一业务特征值增加了20公里/小时。此时,该计算机设备可以将0.2作为第一动作参数对应的第一反馈参数。
此时,计算机设备可以基于第一状态参数、第一动作参数以及第一反馈参数,确定与该候选代理组件相关联的第一业务数据,进而可以基于该第一业务数据,确定第一样本数据。例如,该第一样本数据的数据格式可以为(s1,a1,r1)。同理,该计算机设备获取第二业务数据的具体实施方式可以参见该计算机设备获取第一业务数据的具体实施方式,这里将不再继续进行赘述。进一步地,该计算机设备可以基于第二业务数据,确定第二样本数据。例如,该第二样本数据的数据格式可以为(s2,a2,r2)。以此类推,该计算机设备可以获取与这K个代理组件相关联的第一样本数据和第二样本数据,并将该第一样本数据和第二样本数据添加至与该K个代理组件相关联的样本池。
本申请实施例中,计算机设备可以通过K个代理组件与K个业务环境进行交互,在单位时间内能够进行更多次数的动作策略探索。可以理解的是,探索次数与业务环境的个数可以成正比关系。由于进行了很多次数的探索,该计算机设备可以生成更多的能够添加至样本池的样本数据,进而可以提升该虚拟对象探索到最优动作策略的概率,从而可以提升模型训练的性能。
步骤S102,从第一样本数据和第二样本数据所在的样本池中获取初始样本数据对。
其中,该样本池中可以包含与该K个代理组件对应的K个样本数据集合;一个代理组件可以对应一个样本数据集合。可以理解的是,一个样本数据集合可以用于存储对应代理组件在多个相邻截屏时间戳下所获取到的样本数据;该多个相邻截屏时间戳包含该第一截屏时间戳和该第二截屏时间戳。应当理解,该计算机设备从该第一样本数据和该第二样本数据所在的样本池所对应的K个样本数据集合中,选取训练样本数据集合。进一步地,该计算机设备可以从该训练样本数据集合中,获取同一代理组件在该第一截屏时间戳时所得到的第一训练样本数据,以及在该第二截屏时间戳时所得到的第二训练样本数据,进而可以基于与该同一代理组件相关联的该第一训练样本数据和该第二训练样本数据,确定初始样本数据对。
为便于理解,进一步地,请参见图5,图5是本申请实施例提供的一种样本池的场景示意图。如图5所示,本申请实施例中的样本池中的样本数据可以为计算机设备所获取的与K个代理组件相关联的样本数据,其中,K为正整数。本申请实施例以K=3为例,这3个代理组件具体可以包含代理组件1、代理组件2以及代理组件3。
如图5所示,本申请实施例中的样本池中可以包含与这个3代理组件对应的3个样本数据集合。其中,一个代理组件可以对应一个样本数据集合。例如,代理组件1可以对应样本数据集合1,代理组件2可以对应样本数据集合2,代理组件3可以对应样本数据集合3。可以理解的是,一个样本数据集合可以用于存储对应代理组件在多个相邻截屏时间戳(以4个为例)下所获取到的样本数据,该样本数据的数据格式可以为(s,a,r)。比如,样本数据1可以为代理组件1在这4个相邻截屏时间戳下所获取到的样本数据,样本数据2可以为代理组件2在这4个相邻截屏时间戳下所获取到的样本数据,样本数据3可以为代理组件3在这4个相邻截屏时间戳下所获取到的样本数据。这里的4个相邻截屏时间戳具体可以包括:时间戳1、时间戳2、时间戳3以及时间戳4。
可以理解的是,该计算机设备可以通过代理组件1在时间戳1时,向代理组件1对应的用户终端A发送截图指令,以使该用户终端A可以在时间戳1时,对该用户终端A的终端界面执行截图操作,从而可以得到图像数据11。进一步地,该计算机设备可以通过代理组件1获取图像数据11对应的状态参数,进而可以基于图像数据11对应的状态参数确定样本数据11。例如,该样本数据11的数据格式可以为(s11,a11,r11)。以此类推,计算机设备通过代理组件1所获取的时间戳1至时间戳4之间的样本数据具体可以参见图5所示的样本数据集合1。
同理,该计算机设备可以并行启动代理组件2,通过代理组件2在时间戳1时,向代理组件2对应的用户终端B发送截图指令,以使该用户终端B可以在时间戳1时,对该用户终端B的终端界面执行截图操作,从而可以得到图像数据21。进一步地,该计算机设备可以通过代理组件2获取图像数据21对应的状态参数,进而可以基于图像数据21对应的状态参数确定样本数据21。例如,该样本数据21的数据格式可以为(s21,a21,r21)。以此类推,计算机设备通过代理组件2所获取的时间戳1至时间戳4之间的样本数据具体可以参见图5所示的样本数据集合2。
同理,该计算机设备可以并行启动代理组件3,通过代理组件3在时间戳1时,向代理组件3对应的用户终端C发送截图指令,以使该用户终端C可以在时间戳1时,对该用户终端C的终端界面执行截图操作,从而可以得到图像数据31。进一步地,该计算机设备可以通过代理组件3获取图像数据31对应的状态参数,进而可以基于图像数据31对应的状态参数确定样本数据31。例如,该样本数据31的数据格式可以为(s31,a31,r31)。以此类推,计算机设备通过代理组件3所获取的时间戳1至时间戳4之间的样本数据具体可以参见图5所示的样本数据集合3。
可以理解的是,该计算机设备从图5所示的样本池所对应的3个样本数据集合中,选取训练样本数据集合(例如,样本数据集合1)。进一步地,该计算机设备可以从该样本数据集合1中,获取同一代理组件1在该时间戳2时所得到的样本数据12(即第一训练样本数据),以及在该时间戳3时所得到的样本数据13(即第二训练样本数据),进而可以基于与该同一代理组件1相关联的该第一训练样本数据和该第二训练样本数据,确定初始样本数据对。其中,本申请实施例可以将所选取的时间戳1可以称之为第一截屏时间戳,所选取时间戳2可以称之为第二截屏时间戳。
可选的,该计算机设备从图5所示的样本池所对应的3个样本数据集合中,选取训练样本数据集合(例如,样本数据集合2)。进一步地,该计算机设备可以从该样本数据集合2中,获取同一代理组件2在该时间戳3时所得到的样本数据23(即第一训练样本数据),以及在该时间戳4时所得到的样本数据24(即第二训练样本数据),进而可以基于与该同一代理组件2相关联的该第一训练样本数据和该第二训练样本数据,确定初始样本数据对。其中,本申请实施例可以将所选取的时间戳3可以称之为第一截屏时间戳,所选取时间戳4可以称之为第二截屏时间戳。以此类推,该计算机设备还可以选取其他同一代理组件对应的相邻时间戳下的两个样本数据,确定初始样本数据对,这里不再继续赘述。
步骤S103,基于初始样本数据对,构建用于训练初始质量网络模型的训练样本数据。
具体地,该计算机设备可以在该初始样本数据对中,获取该第一训练样本数据中的第一状态参数、第一动作参数和第一反馈参数,并可以获取该第二训练样本数据中的第二状态参数。进一步地,该计算机设备可以基于该第一训练样本数据中的第一状态参数、第一动作参数和第一反馈参数以及该第二训练样本数据中的第二状态参数,构建用于训练初始质量网络模型的训练样本数据。
如图5所示,初始样本数据对可以由代理组件1对应的样本数据集合1中的样本数据所构建的。例如,该初始样本数据对中的第一训练样本数据可以为在时间戳1时所得到的样本数据11(s1,a1,r1),该初始样本数据对中的第二训练样本数据可以为在时间戳2时所得到的样本数据12(s2,a2,r2)。可以理解的是,计算机设备获取该样本数据11中的第一状态参数s1、第一动作参数a1和第一反馈参数r1,并可以获取该样本数据12中的第二状态参数s2。进一步地,该计算机设备可以基于该样本数据11中的第一状态参数s1、第一动作参数a1和第一反馈参数r1以及该样本数据12中的第二状态参数s2,构建用于训练初始质量网络模型的训练样本数据(s1,a1,r1,s2)。
可以理解的是,该计算机设备可以随机获取一定数目(例如,100个)的初始样本数据对,并可以根据这100个初始样本数据对,获取对应的100个训练样本数据,以便于后续训练初始质量网络模型。由于训练样本数据的构建,可以更加快速确定初始质量网络模型的模型参数的梯度值,从而可以提高初始质量网络模型的训练速度,进而可以使得该计算机设备的计算机资源能够高效利用。
步骤S104,基于训练样本数据对初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。
具体地,计算机设备可以基于该训练样本数据,对该初始质量网络模型进行训练,从而可以得到该训练样本数据对应的预测质量概率。进一步地,该计算机设备可以基于该训练样本数据对应的预测质量概率,确定该初始质量网络模型的损失函数,进而可以对该损失函数进行求导处理,以确定用于调整该初始质量网络模型的模型参数的梯度值。此时,该计算机设备可以基于该梯度值,对该初始质量网络模型的该模型参数进行迭代更新,并将迭代更新后的初始质量网络模型作为过渡质量网络模型。在该过渡质量网络模型满足模型收敛条件时,该计算机设备可以将满足该模型收敛条件的过渡质量网络模型作为用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。
其中,该训练样本数据对应的预测质量概率可以包含第一预测质量概率和第二预测质量概率。该第一预测质量概率可以是由该初始质量网络模型对训练样本数据中的第一状态参数进行预测所得到的;该第一预测质量概率可以表示该初始质量网络模型所输出的在第一状态参数下对应的第一动作参数的价值。该第二预测质量概率可以是由该初始质量网络模型对训练样本数据中的第二状态参数进行预测所得到的。该第二预测质量概率可以表示该初始质量网络模型所输出的第二状态参数下的最大价值。
可以理解的是,本申请实施例采用的深度强化学习算法可以为DQN(Deep Q-Learning Network)算法,该DQN算法是深度学习与Q学习的结合体。该初始质量网络模型进行强化学习的训练过程可以如下:
应当理解,该计算机设备可以获取该初始质量网络模型的折扣系数,并将该折扣系数作为用于确定该初始质量网络模型的损失函数的业务辅助参数。进一步地,该计算机设备可以获取该训练样本数据中的第一反馈参数,进而可以基于该第一反馈参数、该业务辅助参数以及该第二预测质量概率,确定与该训练样本数据相关联的实际质量概率。此时,该计算机设备可以基于该实际质量概率以及该第一预测质量概率,确定该初始质量网络模型的损失函数。
其中,该初始质量网络模型的损失函数可以通过下述公式(1)和公式(2)确定:
y=r+γ*maxaQ(s′,a), (1)
loss=(y-Q(s,a))2, (2)
其中,y可以表示在状态参数s(即第一状态参数)下的实际质量概率,Q(s,a)可以表示在状态参数s下的预测质量概率(即第一预测质量概率);maxaQ(s′,a)可以为在状态参数s′下的预测质量概率(即第二预测质量概率),状态参数s′(即第二状态参数)表示状态参数s下采取动作参数a对应的动作指令后所得到的下一时刻的状态参数;r表示状态参数s下采取动作参数a对应的动作指令后所得到的反馈参数(即第一反馈参数);γ可以为该初始质量网络模型的折扣系数,通常取值为0.9~0.99的数值。
进一步地,该计算机设备可以对该损失函数进行求导处理,从而可以确定用于调整该初始质量网络模型的模型参数W的梯度值
Figure BDA0002609510630000251
进而可以对初始质量网络模型的模型参数进行迭代更新,得到迭代更新后的初始质量网络模型。其中,本申请实施例可以将迭代更新后的初始质量网络模型确定为过渡质量网络模型。
可以理解的是,该计算机设备可以采用优化器对模型参数进行更新。该优化器可以为GD优化器,SGD优化器,Momentum优化器,RMSProp优化器和Adam优化器等任意一种或多种优化器。其中,本申请实施例可以以RMSProp优化器对该初始质量网络模型的模型参数进行更新。该RMSProp优化器可以确定模型参数的梯度的微分平方加权平均数。这种做法有利于消除了摆动幅度大的方向,用来修正摆动幅度,使得各个维度的摆动幅度都较小;另一方面也使得迭代更新后的初始质量网络的更加快速的满足模型收敛条件。
其中,该初始质量网络模型的模型参数的可以通过下述公式(3)和公式(4)确定:
Sdw=βSdw-(1-β)dw2, (3)
Figure BDA0002609510630000261
其中,dw可以表示该计算机设备所计算的模型参数的梯度值。α可以表示该初始质量模型的学习率,β可以为一个常数系数,W可以表示该初始质量网络模型的模型参数,Sdw是一个中间变量,也可以用S表示。
在该过渡质量网络模型满足模型收敛条件时,该计算机设备可以将满足该模型收敛条件的过渡质量网络模型作为用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。例如,若过渡质量网络模型的损失函数值可以达到损失函数阈值时,可以确定该过渡质量网络模型满足模型收敛条件,进而可以将满足模型收敛条件的过渡质量网络模型作为目标质量网络模型。
为便于理解,进一步地,请参见图6,图6是本申请实施例提供的一种训练模型的场景示意图。如图6所示,本申请实施例中的具有模型训练功能的计算机设备可以为服务器60,该服务器60可以为上述图1所示的服务器10。
如图6所示,本申请实施例中的样本池可以包含与K个代理组件对应的样本数据集合,该样本池可以为上述图5所示的样本池。该服务器60可以从该样本池中获取初始样本数据对,并可以基于该初始样本数据对,构建用于训练初始质量网络模型1的训练样本数据。
进一步地,该服务器60可以将该训练样本数据中的第一状态参数和第二状态参数输入至该初始质量网络模型11中,对该初始质量网络模型1进行训练,从而可以得到该训练样本数据对应的预测质量概率。进一步地,该服务器60可以基于该训练样本数据对应的预测质量概率,确定该初始质量网络模型1的损失函数,进而可以对该损失函数进行求导处理,以确定用于调整该初始质量网络模型1的模型参数的梯度值。此时,该服务器60可以基于该梯度值,对该初始质量网络模型1的该模型参数进行迭代更新,并将迭代更新后的初始质量网络模型1作为过渡质量网络模型。
可以理解的是,在该过渡质量网络模型不满足模型收敛条件时,该服务器60可以将该过渡质量网络模型作为新的初始质量网络模型1,进而基于训练样本数据,对该新的初始质量网络模型1进行训练,得到新的过渡质量网络模型,直到该新的过渡质量网络模型满足模型收敛条件。在该过渡质量网络模型满足模型收敛条件时,该服务器60可以将满足该模型收敛条件的过渡质量网络模型作为用于对目标代理组件的目标数据进行质量预测的目标质量网络模型2。
在训练初始质量网络模型时,本申请实施例可以采用DQN算法这一深度强化学习算法,使得代理组件所控制的虚拟对象可以在对应的业务环境(即竞速类游戏客户端对应的游戏环境)中完成同等数量(例如,5次)的关卡挑战。可以理解的是,计算机设备通过并行启动K个代理组件,能够在同一时间内接入K个游戏环境,并完成5次关卡挑战的训练。其中,本申请实施例可以将通过接入K个游戏环境完成这5次关卡挑战的训练时长可以记为t1。而目前的DQN算法可以通过接入一个游戏环境,完成5次关卡挑战的训练。其中,本申请实施例可以将通过接入1个游戏环境完成这5次关卡挑战的训练时长可以记为t2。可以理解的是,接入K个游戏环境的训练时长t1相比于单个游戏环境的训练时长2能够显著降低,且接入的游戏环境越多,完成训练初始质量网络模型的速度越快。
例如,在某竞速类游戏客户端中,接入1个游戏环境(例如,手游环境)完成5次关卡挑战的训练时长可以为0.8小时,而接入3个游戏环境完成5次关卡挑战的训练时长可以为0.38小时,接入12个游戏环境完成5次关卡挑战的训练时长可以为0.14小时。由此可见,通过并行启动K个代理组件采集样本数据,以训练初始质量网络模型,是一种能够有效降低强化学习模型(即初始质量网络模型)训练时长的方法。
在本申请实施例中,计算机设备可以获取到由K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的第一样本数据,以及由K个代理组件在该第一截屏时间戳的下一截屏时间戳(即第二截屏时间戳)下对K个终端界面进行截图操作后所确定的第二样本数据。其中,K可以为正整数。这里的每个代理组件(即智能体代理)均可以用于控制对应虚拟对象与相应业务环境进行交互,以在单位时间内获取到大量的样本数据。可以理解的是,由于本申请实施例中的计算机设备可以并行启动K个代理组件,且每个代理组件是相互独立运行的,以至于该计算机设备可以在单位时间内同时接入K个业务环境,进而可以提升样本数据的采集速度。此外,当这K个代理组件同时接入到的对应的业务环境时,可以使计算机设备能够在单位时间内探索到允许虚拟对象执行更多的交互行为,进而可以在单位时间内获取到大量的能够添加到样本池的样本数据。比如,当计算机设备将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池时,可以从该样本池中快速获取更多的初始样本数据对,进而可以基于初始样本数据对,构建得到大量的用于训练初始质量网络模型的训练样本数据。此时,该计算机设备可以基于这些训练样本数据对初始质量网络模型进行训练,从而可以快速得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;其中,目标代理组件属于K个代理组件。由于采用本申请实施例可以快速构建得到大量的训练样本数据,进而可以在对初始质量网络模型进行训练时,有效地提高初始质量网络模型的训练速度。
进一步地,请参见图7,图7是本申请实施例提供的一种数据处理方法的流程示意图。如图7所示,该方法可以由具有模型训练功能的计算机设备执行,该计算机设备可以为用户终端(例如,上述图1所示的用户终端100a),也可以为服务器(例如,上述图1所示的服务器10),在此不做限定。该方法至少可以包括以下步骤S201-步骤S207:
步骤S201,获取与K个代理组件相关联的第一样本数据和第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池。
步骤S202,从第一样本数据和第二样本数据所在的样本池中获取初始样本数据对。
步骤S203,基于初始样本数据对,构建用于训练初始质量网络模型的训练样本数据。
步骤S204,基于训练样本数据对初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。
其中,该步骤S201-步骤S204的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S104的描述,这里将不再赘述。
步骤S205,获取目标用户终端通过目标代理组件发送的预测状态参数。
具体地,计算机设备可以通过目标代理组件,向该目标代理组件对应的目标用户终端发送截图指令,以使该目标用户终端可以基于该截图指令截取该目标用户终端的终端界面中的目标图像数据。进一步地,该计算机设备可以通过目标代理组件,获取该目标图像数据所对应的状态参数。其中,本申请实施例均可以将通过目标代理组件所确定的目标图像数据对应的状态参数称之为预测状态参数。
步骤S206,基于已训练的目标质量网络模型,确定预测状态参数对应的预测动作,基于预测动作生成目标动作指令。
具体地,该计算机设备可以将该预测状态参数输入至已训练的目标质量网络模型,由该目标质量网络模型输出该预测状态参数与该目标质量网络模型中的分类器的多种动作属性特征之间的预测质量概率,进而可以基于该预测质量概率,确定该预测状态参数所对应的预测动作。进一步地,计算机设备可以基于该预测动作生成该目标代理组件所控制的虚拟对象所执行的目标动作指令。
步骤S207,将目标动作指令发送给目标用户终端,以使目标用户终端基于目标动作指令执行预测动作。
具体地,该计算机设备可以将该目标动作指令发送给目标用户终端,此时,目标用户终端可以基于该目标动作指令,使得该目标代理组件所控制的虚拟对象执行该目标动作指令。
为便于理解,进一步地,请参见图8,图8是本申请实施例提供的一种应用目标质量网络模型的场景示意图。如图8所示,本申请实施例中具有模型训练功能的计算机设备可以为服务器80,该服务器80可以为上述图1所示的服务器10。本申请实施例中的服务器80可以通过K个代理组件与应用客户端(例如,跑酷类游戏客户端)对应的游戏环境进行交互,生成与这K个代理组件相关联的样本数据,进而可以基于样本数据,对初始质量网络模型进行训练,以得到目标质量网络模型。
其中,图8所示的目标用户终端可以为目标代理组件所对应的用户终端,该用户终端可以为上述图1所示的用户终端集群中的任意一个用户终端,例如,用户终端100a。其中,该目标代理组件可以属于这K个代理组件。可以理解的是,该目标代理组件所控制的虚拟对象(即跑酷对象)可以在该游戏环境中所执行的动作指令可以包含下滑动作指令、跳跃动作指令以及保持动作指令。
在人机交互的情况下,目标用户终端对应的用户可以通过对该目标用户终端的终端界面上所输出的下滑控件执行触发操作,以使该虚拟对象可以执行下滑动作指令;通过对该目标用户终端的终端界面上所输出的跳跃控件执行触发操作,以使该虚拟对象可以执行跳跃动作指令;在该目标用户终端的终端界面上不执行触发操作,以使该虚拟对象可以执行保持动作指令。而本申请实施例中可以通过目标代理组件控制动作接口,从而可以模拟用户对操作控件(例如,下滑控件、跳跃控件)执行触发操作,以使该虚拟对象可以执行对应的动作指令。
可以理解的是,服务器80可以通过目标代理组件,向该目标代理组件对应的目标用户终端发送截图指令。此时,该目标用户终端可以基于该截图指令,截取该目标用户终端的终端界面中的目标图像数据1。进一步地,该服务器80可以通过目标代理组件,获取该目标图像数据1所对应的预测状态参数。该服务器80可以将该预测状态参数输入至已训练的目标质量网络模型,由该目标质量网络模型输出该预测状态参数与该目标质量网络模型中的分类器的多种动作属性特征之间的预测质量概率。其中,该分类器的动作属性特征所对应的动作类型可以包含下滑动作、跳跃动作以及保持动作。
进一步地,该服务器80可以从预测质量概率中,获取最大预测质量概率,并将具有最大预测质量概率的动作属性特征对应的动作类型,作为该预测状态参数所对应的预测动作(例如,跳跃动作)。进一步地,服务器80可以基于该预测动作,生成该目标代理组件所控制的虚拟对象所执行的目标动作指令(即跳跃动作指令)。该服务器80可以将该跳跃动作指令发送给目标用户终端,此时,目标用户终端可以基于该跳跃动作指令,使得该目标代理组件所控制的虚拟对象可以执行该跳跃动作指令。可以理解的是,该服务器80可以通过该目标质量网络模型,使得该目标代理组件控制的虚拟对象能够快速且高质量的完成所挑战的游戏关卡。
应当理解,该计算机设备还可以通过已训练好的目标质量网络模型生成用于指导新手玩家(例如,首次访问游戏客户端的用户)学习游戏技巧的指导视频数据。为便于理解,进一步地,请参见图9,图9是本申请实施例提供的一种通过目标质量网络模型生成指导视频数据的场景示意图。如图9所示,本申请实施例中的计算机设备可以通过目标质量网络模型生成与应用客户端(例如,竞速类游戏客户端)相关联的指导视频数据。
可以理解的是,该计算机设备可以通过目标代理组件向该目标代理组件的对应的目标用户终端发送截图指令,进而使得该目标用户终端可以截取该竞速类游戏客户端的某一挑战关卡的图像数据。当该计算机设备获取到如图9所示的图像数据1时,该计算机设备可以通过目标代理组件,获取该图像数据1的预测状态参数1,进而可以基于该预测状态参数1,识别出该挑战关卡的游戏状态为游戏开始状态。此时,该计算机设备可以将该预测状态参数1输入至目标质量网络模型,进而可以基于该目标质量网络模型确定出该预测状态参数1所对应的预测动作,并基于该预测动作生成目标动作指令。应当理解,该计算机设备可以将该目标动作指令发送至目标用户终端,以使该目标代理组件所控制的虚拟对象执行该目标动作指令。
以此类推,直到该计算机设备获取到目标用户终端所截取的如图9所示的图像数据n时,该计算机设备可以通过目标代理组件,获取该图像数据n的预测状态参数n,进而可以基于该预测状态参数n,识别出该挑战关卡的游戏状态为游戏结束状态。此时,该计算机设备可以将获取目标用户终端在该游戏关卡中所截取的目标图像数据,拼接生成用于指导访问该竞速类游戏客户端的新用户的指导视频数据。该指导视频数据中可以包含图像数据1、…、图像数据5、…图像数据n。可以理解的是,该指导视频数据可以用于为访问该竞速类游戏客户端的新用户提供游戏技巧,以使该新用户可以更快了解该游戏的玩法,从而提升用户体验。
在本申请实施例中,计算机设备可以获取到由K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的第一样本数据,以及由K个代理组件在该第一截屏时间戳的下一截屏时间戳(即第二截屏时间戳)下对K个终端界面进行截图操作后所确定的第二样本数据。其中,K可以为正整数。这里的每个代理组件(即智能体代理)均可以用于控制对应虚拟对象与相应业务环境进行交互,以在单位时间内获取到大量的样本数据。可以理解的是,由于本申请实施例中的计算机设备可以并行启动K个代理组件,且每个代理组件是相互独立运行的,以至于该计算机设备可以在单位时间内同时接入K个业务环境,进而可以提升样本数据的采集速度。此外,当这K个代理组件同时接入到的对应的业务环境时,可以使计算机设备能够在单位时间内探索到允许虚拟对象执行更多的交互行为,进而可以在单位时间内获取到大量的能够添加到样本池的样本数据。比如,当计算机设备将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池时,可以从该样本池中快速获取更多的初始样本数据对,进而可以基于初始样本数据对,构建得到大量的用于训练初始质量网络模型的训练样本数据。此时,该计算机设备可以基于这些训练样本数据对初始质量网络模型进行训练,从而可以快速得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;其中,目标代理组件属于K个代理组件。由于采用本申请实施例可以快速构建得到大量的训练样本数据,进而可以在对初始质量网络模型进行训练时,有效地提高初始质量网络模型的训练速度。
进一步地,请参见图10,图10是本申请实施例提供的一种数据处理装置的结构示意图。如图10所示,该数据处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如,该数据处理装置1为一个应用软件;该数据处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该数据处理装置1可以运行于具有模型训练功能的计算机设备(例如,图1所示的服务器10),该数据处理装置1可以包括:样本添加模块10,初始样本对获取模块20,训练样本构建模块30,模型训练模块40,参数获取模块50,动作指令生成模块60以及动作指令发送模块70。
该样本添加模块10,用于获取与K个代理组件相关联的第一样本数据和第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池;K为正整数;第一样本数据是由K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的;第二样本数据是由K个代理组件在第二截屏时间戳下对K个终端界面进行截图操作后所确定的;第二截屏时间戳为第一截屏时间戳的下一截屏时间戳。
其中,该样本添加模块10包括:截图指令发送单元101,第一数据确定单元102,第二数据确定单元103以及样本添加单元104。
该截图指令发送单元101,用于从K个代理组件中获取候选代理组件,通过候选代理组件向候选代理组件所对应的用户终端发送截图指令;截图指令用于指示用户终端在第一截屏时间戳下,对用户终端的终端界面执行第一截图操作,得到第一图像数据;
该第一数据确定单元102,用于获取由候选代理组件基于第一图像数据所确定的第一状态参数,基于第一状态参数,确定与候选代理组件相关联的第一业务数据;第一业务数据中包含第一状态参数和第一状态参数对应的第一动作参数以及第一反馈参数;第一反馈参数是由第一状态参数和与第二截屏时间戳相关联的第二状态参数所确定的;第二状态参数是由候选代理组件基于获取到的第二图像数据所确定的;第二图像数据为用户终端在第二截屏时间戳时执行第二截图操作后所得到的。
其中,该第一数据确定单元102包括:灰度转换子单元1021,下采样子单元1022,特征提取子单元1023以及数据确定子单元1024。
该灰度转换子单元1021,用于对第一图像数据进行灰度转换,得到与第一图像数据具有相同图像尺寸的灰度图像;
该下采样子单元1022,用于根据灰度图像的图像尺寸以及灰度图像的下采样率,对灰度图像进行下采样处理,得到采样图像;
该特征提取子单元1023,用于从采样图像中提取像素向量特征,将像素特征向量作为第一图像数据的第一状态参数;
该数据确定子单元1024,用于获取初始质量网络模型,基于第一状态参数和初始质量网络模型,确定与候选代理组件相关联的第一业务数据。
其中,该数据确定子单元1024包括:动作指令发送子单元10241,图像数据接收子单元10242,业务数据确定子单元10243,第一图像识别子单元10244,第二图像识别子单元10245以及反馈参数确定子单元10246。
该动作指令发送子单元10241,用于获取初始质量网络模型,通过初始质量网络模型预测第一状态参数对应的第一动作参数,基于第一动作参数向候选代理组件对应的用户终端发送动作指令。
其中,该动作指令确定子单元10241还用于,获取初始质量网络模型,将第一状态参数输入至初始质量网络模型,由初始质量网络模型输出第一状态参数与初始质量网络模型中的分类器的多种动作属性特征之间的预测质量概率;在预测质量概率中,将具有最大预测质量概率的动作属性特征所对应的动作类型作为第一状态参数的预测动作;将预测动作确定为第一动作参数,且将第一动作参数所对应的动作指令发送至候选代理组件对应的用户终端。
该图像数据接收子单元10242,用于将用户终端执行完动作指令后的时间戳作为第二截屏时间戳,接收用户终端在第二截屏时间戳时所截取到的第二图像数据;第二图像数据用于指示候选代理组件基于第二图像数据确定第二状态参数;第二状态参数用于指示候选代理组件确定第一动作参数对应的第一反馈参数;
该业务数据确定子单元10243,用于基于第一状态参数、第一动作参数以及第一反馈参数,确定与候选代理组件相关联的第一业务数据。
该第一图像识别子单元10244,用于通过候选代理组件对第一图像数据中的业务区域进行图像识别,得到候选代理组件所控制的虚拟对象在业务区域中的第一业务特征值;
该第二图像识别子单元10245,用于通过候选代理组件对第二图像数据中的业务区域进行图像识别,得到候选代理组件所控制的虚拟对象在业务区域中的第二业务特征值;
该反馈参数确定子单元10246,用于通过候选代理组件基于第一业务特征值和第二业务特征值,确定第一动作参数对应的第一反馈参数。
其中,该反馈参数确定子单元10246还用于,若第二业务特征值小于或者等于第一阈值,则通过候选代理组件,将第一阈值对应的第一反馈值作为第一动作参数对应的第一反馈参数;若第二业务特征值大于或者等于第二阈值,则通过候选代理组件,将第二阈值对应的第二反馈值作为第一动作参数对应的第一反馈参数;第二阈值大于第一阈值;若第二业务特征值大于第一阈值,且小于第二阈值,则通过候选代理组件,确定第一业务特征值与第二业务特征值之间的差值,基于差值,确定第一动作参数对应的第一反馈参数。
其中,该动作指令发送子单元10241,图像数据接收子单元10242,业务数据确定子单元10243,第一图像识别子单元10244,第二图像识别子单元10245以及反馈参数确定子单元10246的具体实现方式可以参见上述图3所对应实施例中对第一反馈参数的描述,这里将不再继续进行赘述。
其中,该灰度转换子单元1021,下采样子单元1022,特征提取子单元1023以及数据确定子单元1024的具体实现方式可以参见上述图3所对应实施例中对第一业务数据的描述,这里将不再继续进行赘述。
该第二数据确定单元103,用于基于第二状态参数,确定与候选代理组件相关联的第二业务数据;第二业务数据中包含第二状态参数和第二状态参数对应的第二动作参数以及第二反馈参数;第二反馈参数是由第二状态参数和与第三截屏时间戳相关联的第三状态参数所确定的;第三状态参数是由候选代理组件基于获取到的第三图像数据所确定的;第三图像数据为用户终端在第三截屏时间戳时执行第三截图操作后所得到的;
该样本添加单元104,用于基于第一业务数据,确定第一样本数据,基于第二业务数据,确定第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池。
其中,该截图指令发送单元101,第一数据确定单元102,第二数据确定单元103以及样本添加单元104的具体实现方式可以参见上述图1所对应实施例中对步骤S101的描述,这里将不再继续进行赘述。
该初始样本对获取模块20,用于从第一样本数据和第二样本数据所在的样本池中获取初始样本数据对。
其中,该样本池包含与K个代理组件对应的K个样本数据集合;一个代理组件对应一个样本数据集合;一个样本数据集合用于存储对应代理组件在多个相邻截屏时间戳下所获取到的样本数据;多个相邻截屏时间戳包含第一截屏时间戳和第二截屏时间戳;
该初始样本对获取模块20包括:训练样本集合选取单元201,训练样本获取单元202以及初始样本对确定单元203。
该训练样本集合选取单元201,用于从第一样本数据和第二样本数据所在的样本池所对应的K个样本数据集合中,选取训练样本数据集合;
该训练样本获取单元202,用于从训练样本数据集合中获取同一代理组件在第一截屏时间戳时所得到的第一训练样本数据,以及在第二截屏时间戳时所得到的第二训练样本数据;
该初始样本对确定单元203,用于基于与同一代理组件相关联的第一训练样本数据和第二训练样本数据,确定初始样本数据对。
其中,该训练样本集合选取单元201,训练样本获取单元202以及初始样本对确定单元203的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再继续进行赘述。
该训练样本构建模块30,用于基于初始样本数据对,构建用于训练初始质量网络模型的训练样本数据。
其中,该训练样本构建模块30包括:第一参数获取单元301,第二参数获取单元302以及训练样本构建单元303。
该第一参数获取单元301,用于在初始样本数据对中,获取第一训练样本数据中的第一状态参数、第一动作参数和第一反馈参数;
该第二参数获取单元302,用于获取第二训练样本数据中的第二状态参数;
该训练样本构建单元303,用于基于第一训练样本数据中的第一状态参数、第一动作参数和第一反馈参数以及第二训练样本数据中的第二状态参数,构建用于训练初始质量网络模型的训练样本数据。
其中,该第一参数获取单元301,第二参数获取单元302以及训练样本构建单元303的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述,这里将不再继续进行赘述。
该模型训练模块40,用于基于训练样本数据对初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;目标代理组件属于K个代理组件。
其中,该模型训练模块40包括:训练单元401,损失函数确定单元402,梯度值确定单元403,迭代更新单元404以及目标模型确定单元405。
该训练单元401,用于基于训练样本数据对初始质量网络模型进行训练,得到训练样本数据对应的预测质量概率;
该损失函数确定单元402,用于基于训练样本数据对应的预测质量概率,确定初始质量网络模型的损失函数。
其中,该训练样本数据对应的预测质量概率包含第一预测质量概率和第二预测质量概率;第一预测质量概率是由初始质量网络模型对训练样本数据中的第一状态参数进行预测所得到的;第二预测质量概率是由初始质量网络模型对训练样本数据中的第二状态参数进行预测所得到的;
该损失函数确定单元402包括:辅助参数确定子单元4021,实际概率确定子单元4022以及损失函数确定子单元4023。
该辅助参数确定子单元4021,用于获取初始质量网络模型的折扣系数,将折扣系数作为用于确定初始质量网络模型的损失函数的业务辅助参数;
该实际概率确定子单元4022,用于获取训练样本数据中的第一反馈参数,基于第一反馈参数、业务辅助参数以及第二预测质量概率,确定与训练样本数据相关联的实际质量概率;
该损失函数确定子单元4023,用于基于实际质量概率以及第一预测质量概率,确定初始质量网络模型的损失函数。
其中,该辅助参数确定子单元4021,实际概率确定子单元4022以及损失函数确定子单元4023的具体实现方式可以参见上述图3所对应实施例中对损失函数的描述,这里将不再继续进行赘述。
该梯度值确定单元403,用于对损失函数进行求导处理,确定用于调整初始质量网络模型的模型参数的梯度值;
该迭代更新单元404,用于基于梯度值,对初始质量网络模型的模型参数进行迭代更新,将迭代更新后的初始质量网络模型作为过渡质量网络模型;
该目标模型确定单元405,用于在过渡质量网络模型满足模型收敛条件时,将满足模型收敛条件的过渡质量网络模型作为用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。
其中,该训练单元401,损失函数确定单元402,梯度值确定单元403,迭代更新单元404以及目标模型确定单元405的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述,这里将不再继续进行赘述。
该参数获取模块50,用于获取目标用户终端通过目标代理组件发送的预测状态参数;预测状态参数是由目标代理组件基于获取到的目标图像数据所确定的;目标图像数据为用户终端在获取到目标智能代理所发送的截图指令时所得到的;
该动作指令生成模块60,用于基于已训练的目标质量网络模型,确定预测状态参数对应的预测动作,基于预测动作生成目标动作指令;
该动作指令发送模块70,用于将目标动作指令发送给目标用户终端,以使目标用户终端基于目标动作指令执行预测动作。
其中,该样本添加模块10,初始样本对获取模块20,训练样本构建模块30,模型训练模块40,参数获取模块50,动作指令生成模块60以及动作指令发送模块70的具体实现方式可以参见上述图7所对应实施例中对步骤S201-步骤S207的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图11,图11是本申请实施例提供的一种计算机设备的示意图。如图11所示,该计算机设备1000可以为上述图2对应实施例中的服务器20,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图11所示的计算机设备1000中,网络接口1004主要用于与用户终端进行网络通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取与K个代理组件相关联的第一样本数据和第二样本数据,将第一样本数据和第二样本数据添加至与K个代理组件相关联的样本池;K为正整数;第一样本数据是由K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的;第二样本数据是由K个代理组件在第二截屏时间戳下对K个终端界面进行截图操作后所确定的;第二截屏时间戳为第一截屏时间戳的下一截屏时间戳;
从第一样本数据和第二样本数据所在的样本池中获取初始样本数据对;
基于初始样本数据对,构建用于训练初始质量网络模型的训练样本数据;
基于训练样本数据对初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;目标代理组件属于K个代理组件。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图7所对应实施例中对该数据处理方法的描述,也可执行前文图10所对应实施例中对该数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且该计算机程序包括程序指令,当该处理器执行该程序指令时,能够执行前文图3或者图7所对应实施例中对该数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本申请一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图3或者图7所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取与K个代理组件相关联的第一样本数据和第二样本数据,将所述第一样本数据和所述第二样本数据添加至与所述K个代理组件相关联的样本池;所述K为大于1的整数;所述第一样本数据是由所述K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的;所述第二样本数据是由所述K个代理组件在第二截屏时间戳下对所述K个终端界面进行截图操作后所确定的;所述第二截屏时间戳为所述第一截屏时间戳的下一截屏时间戳;每个代理组件是指用于控制虚拟对象与业务环境进行交互,以在单位时间内获取到样本数据的组件;
从所述第一样本数据和所述第二样本数据所在的样本池中获取与所述K个代理组件相关联的初始样本数据对;
基于所述与所述K个代理组件相关联的初始样本数据对,构建用于训练初始质量网络模型的训练样本数据;
基于所述训练样本数据对所述初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;所述目标代理组件属于所述K个代理组件。
2.根据权利要求1所述的方法,其特征在于,所述获取与K个代理组件相关联的第一样本数据和第二样本数据,将所述第一样本数据和所述第二样本数据添加至与所述K个代理组件相关联的样本池,包括:
从K个代理组件中获取候选代理组件,通过所述候选代理组件向所述候选代理组件所对应的用户终端发送截图指令;所述截图指令用于指示所述用户终端在第一截屏时间戳下,对所述用户终端的终端界面执行第一截图操作,得到第一图像数据;
获取由所述候选代理组件基于所述第一图像数据所确定的第一状态参数,基于所述第一状态参数,确定与所述候选代理组件相关联的第一业务数据;所述第一业务数据中包含所述第一状态参数和所述第一状态参数对应的第一动作参数以及第一反馈参数;所述第一反馈参数是由所述第一状态参数和与第二截屏时间戳相关联的第二状态参数所确定的;所述第二状态参数是由所述候选代理组件基于获取到的第二图像数据所确定的;所述第二图像数据为所述用户终端在所述第二截屏时间戳时执行第二截图操作后所得到的;
基于所述第二状态参数,确定与所述候选代理组件相关联的第二业务数据;所述第二业务数据中包含所述第二状态参数和所述第二状态参数对应的第二动作参数以及第二反馈参数;所述第二反馈参数是由所述第二状态参数和与第三截屏时间戳相关联的第三状态参数所确定的;所述第三状态参数是由所述候选代理组件基于获取到的第三图像数据所确定的;所述第三图像数据为所述用户终端在所述第三截屏时间戳时执行第三截图操作后所得到的;
基于所述第一业务数据,确定第一样本数据,基于所述第二业务数据,确定第二样本数据,将所述第一样本数据和所述第二样本数据添加至与所述K个代理组件相关联的样本池。
3.根据权利要求2所述的方法,其特征在于,所述获取由所述候选代理组件基于所述第一图像数据所确定的第一状态参数,基于所述第一状态参数,确定与所述候选代理组件相关联的第一业务数据,包括:
对所述第一图像数据进行灰度转换,得到与所述第一图像数据具有相同图像尺寸的灰度图像;
根据所述灰度图像的图像尺寸以及所述灰度图像的下采样率,对所述灰度图像进行下采样处理,得到采样图像;
从所述采样图像中提取像素向量特征,将所述像素特征向量作为所述第一图像数据的第一状态参数;
获取初始质量网络模型,基于所述第一状态参数和所述初始质量网络模型,确定与所述候选代理组件相关联的第一业务数据。
4.根据权利要求3所述的方法,其特征在于,所述获取初始质量网络模型,基于所述第一状态参数和所述初始质量网络模型,确定与所述候选代理组件相关联的第一业务数据,包括:
获取初始质量网络模型,通过所述初始质量网络模型预测所述第一状态参数对应的第一动作参数,基于所述第一动作参数向所述候选代理组件对应的所述用户终端发送动作指令;
将所述用户终端执行完所述动作指令后的时间戳作为所述第二截屏时间戳,接收所述用户终端在所述第二截屏时间戳时所截取到的第二图像数据;所述第二图像数据用于指示所述候选代理组件基于所述第二图像数据确定第二状态参数;所述第二状态参数用于指示所述候选代理组件确定所述第一动作参数对应的第一反馈参数;
基于所述第一状态参数、所述第一动作参数以及所述第一反馈参数,确定与所述候选代理组件相关联的第一业务数据。
5.根据权利要求4所述的方法,其特征在于,所述获取初始质量网络模型,通过所述初始质量网络模型预测所述第一状态参数对应的第一动作参数,基于所述第一动作参数向所述候选代理组件对应的所述用户终端发送动作指令,包括:
获取初始质量网络模型,将所述第一状态参数输入至所述初始质量网络模型,由所述初始质量网络模型输出所述第一状态参数与所述初始质量网络模型中的分类器的多种动作属性特征之间的预测质量概率;
在所述预测质量概率中,将具有最大预测质量概率的动作属性特征所对应的动作类型作为所述第一状态参数的预测动作;
将所述预测动作确定为第一动作参数,且将所述第一动作参数所对应的动作指令发送至所述候选代理组件对应的所述用户终端。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
通过所述候选代理组件对所述第一图像数据中的业务区域进行图像识别,得到所述候选代理组件所控制的虚拟对象在所述业务区域中的第一业务特征值;
通过所述候选代理组件对所述第二图像数据中的所述业务区域进行图像识别,得到所述候选代理组件所控制的虚拟对象在所述业务区域中的第二业务特征值;
通过所述候选代理组件基于所述第一业务特征值和所述第二业务特征值,确定所述第一动作参数对应的第一反馈参数。
7.根据权利要求6所述的方法,其特征在于,所述通过所述候选代理组件基于所述第一业务特征值和所述第二业务特征值,确定所述第一动作参数对应的第一反馈参数,包括:
若所述第二业务特征值小于或者等于第一阈值,则通过所述候选代理组件,将所述第一阈值对应的第一反馈值作为所述第一动作参数对应的第一反馈参数;
若所述第二业务特征值大于或者等于第二阈值,则通过所述候选代理组件,将所述第二阈值对应的第二反馈值作为所述第一动作参数对应的第一反馈参数;所述第二阈值大于所述第一阈值;
若所述第二业务特征值大于所述第一阈值,且小于所述第二阈值,则通过所述候选代理组件,确定所述第一业务特征值与所述第二业务特征值之间的差值,基于所述差值,确定所述第一动作参数对应的第一反馈参数。
8.根据权利要求1所述的方法,其特征在于,所述样本池包含与所述K个代理组件对应的K个样本数据集合;一个代理组件对应一个样本数据集合;一个样本数据集合用于存储对应代理组件在多个相邻截屏时间戳下所获取到的样本数据;所述多个相邻截屏时间戳包含所述第一截屏时间戳和所述第二截屏时间戳;
所述从所述第一样本数据和所述第二样本数据所在的样本池中获取初始样本数据对,包括:
从所述第一样本数据和所述第二样本数据所在的样本池所对应的K个样本数据集合中,选取训练样本数据集合;
从所述训练样本数据集合中获取同一代理组件在所述第一截屏时间戳时所得到的第一训练样本数据,以及在所述第二截屏时间戳时所得到的第二训练样本数据;
基于与所述同一代理组件相关联的所述第一训练样本数据和所述第二训练样本数据,确定初始样本数据对。
9.根据权利要求8所述的方法,其特征在于,所述基于所述初始样本数据对,构建用于训练初始质量网络模型的训练样本数据,包括:
在所述初始样本数据对中,获取所述第一训练样本数据中的第一状态参数、第一动作参数和第一反馈参数;
获取所述第二训练样本数据中的第二状态参数;
基于所述第一训练样本数据中的第一状态参数、第一动作参数和第一反馈参数以及所述第二训练样本数据中的第二状态参数,构建用于训练初始质量网络模型的训练样本数据。
10.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本数据对所述初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型,包括:
基于所述训练样本数据对所述初始质量网络模型进行训练,得到所述训练样本数据对应的预测质量概率;
基于所述训练样本数据对应的预测质量概率,确定所述初始质量网络模型的损失函数;
对所述损失函数进行求导处理,确定用于调整所述初始质量网络模型的模型参数的梯度值;
基于所述梯度值,对所述初始质量网络模型的所述模型参数进行迭代更新,将迭代更新后的初始质量网络模型作为过渡质量网络模型;
在所述过渡质量网络模型满足模型收敛条件时,将满足所述模型收敛条件的过渡质量网络模型作为用于对目标代理组件的目标数据进行质量预测的目标质量网络模型。
11.根据权利要求10所述的方法,其特征在于,所述训练样本数据对应的预测质量概率包含第一预测质量概率和第二预测质量概率;所述第一预测质量概率是由所述初始质量网络模型对训练样本数据中的第一状态参数进行预测所得到的;所述第二预测质量概率是由所述初始质量网络模型对训练样本数据中的第二状态参数进行预测所得到的;
所述基于所述训练样本数据对应的预测质量概率,确定所述初始质量网络模型的损失函数,包括:
获取所述初始质量网络模型的折扣系数,将所述折扣系数作为用于确定所述初始质量网络模型的损失函数的业务辅助参数;
获取所述训练样本数据中的第一反馈参数,基于所述第一反馈参数、所述业务辅助参数以及所述第二预测质量概率,确定与所述训练样本数据相关联的实际质量概率;
基于所述实际质量概率以及所述第一预测质量概率,确定所述初始质量网络模型的损失函数。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标用户终端通过目标代理组件发送的预测状态参数;所述预测状态参数是由所述目标代理组件基于获取到的目标图像数据所确定的;所述目标图像数据为所述用户终端在获取到所述目标代理组件所发送的截图指令时所得到的;
基于已训练的所述目标质量网络模型,确定所述预测状态参数对应的预测动作,基于所述预测动作生成目标动作指令;
将所述目标动作指令发送给所述目标用户终端,以使所述目标用户终端基于所述目标动作指令执行所述预测动作。
13.一种数据处理装置,其特征在于,包括:
样本添加模块,用于获取与K个代理组件相关联的第一样本数据和第二样本数据,将所述第一样本数据和所述第二样本数据添加至与所述K个代理组件相关联的样本池;所述K为大于1的整数;所述第一样本数据是由所述K个代理组件在第一截屏时间戳下对K个终端界面进行截图操作后所确定的;所述第二样本数据是由所述K个代理组件在第二截屏时间戳下对所述K个终端界面进行截图操作后所确定的;所述第二截屏时间戳为所述第一截屏时间戳的下一截屏时间戳;每个代理组件是指用于控制虚拟对象与业务环境进行交互,以在单位时间内获取到样本数据的组件;
初始样本对获取模块,用于从所述第一样本数据和所述第二样本数据所在的样本池中获取与所述K个代理组件相关联的初始样本数据对;
训练样本构建模块,用于基于所述与所述K个代理组件相关联的初始样本数据对,构建用于训练初始质量网络模型的训练样本数据;
模型训练模块,用于基于所述训练样本数据对所述初始质量网络模型进行训练,得到用于对目标代理组件的目标数据进行质量预测的目标质量网络模型;所述目标代理组件属于所述K个代理组件。
14.一种计算机设备,其特征在于,包括:处理器、存储器、网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-12任一项所述的方法。
CN202010749402.7A 2020-07-30 2020-07-30 一种数据处理方法、装置、设备及介质 Active CN111753855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010749402.7A CN111753855B (zh) 2020-07-30 2020-07-30 一种数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010749402.7A CN111753855B (zh) 2020-07-30 2020-07-30 一种数据处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111753855A CN111753855A (zh) 2020-10-09
CN111753855B true CN111753855B (zh) 2021-06-08

Family

ID=72712599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010749402.7A Active CN111753855B (zh) 2020-07-30 2020-07-30 一种数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111753855B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112405521B (zh) * 2020-10-16 2022-02-25 北京百度网讯科技有限公司 模型的训练方法、装置、电子设备及存储介质
CN114581734B (zh) * 2022-03-09 2024-10-01 腾讯科技(深圳)有限公司 分类模型训练方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090561A (zh) * 2017-11-09 2018-05-29 腾讯科技(成都)有限公司 存储介质、电子装置、游戏操作的执行方法和装置
CN108283809A (zh) * 2018-02-11 2018-07-17 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质
CN109091869A (zh) * 2018-08-10 2018-12-28 腾讯科技(深圳)有限公司 虚拟对象的动作控制方法、装置、计算机设备及存储介质
CN109902820A (zh) * 2019-02-20 2019-06-18 腾讯科技(深圳)有限公司 Ai模型训练方法、装置、存储介质及设备
CN110119815A (zh) * 2019-05-21 2019-08-13 深圳市腾讯网域计算机网络有限公司 模型训练方法、装置、存储介质及设备
CN110152290A (zh) * 2018-11-26 2019-08-23 深圳市腾讯信息技术有限公司 游戏运行方法和装置、存储介质及电子装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
CN109224442B (zh) * 2018-09-03 2021-06-11 腾讯科技(深圳)有限公司 虚拟场景的数据处理方法、装置及存储介质
CN110738860B (zh) * 2019-09-18 2021-11-23 平安科技(深圳)有限公司 基于强化学习模型的信息控制方法、装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090561A (zh) * 2017-11-09 2018-05-29 腾讯科技(成都)有限公司 存储介质、电子装置、游戏操作的执行方法和装置
CN108283809A (zh) * 2018-02-11 2018-07-17 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质
CN109091869A (zh) * 2018-08-10 2018-12-28 腾讯科技(深圳)有限公司 虚拟对象的动作控制方法、装置、计算机设备及存储介质
CN110152290A (zh) * 2018-11-26 2019-08-23 深圳市腾讯信息技术有限公司 游戏运行方法和装置、存储介质及电子装置
CN109902820A (zh) * 2019-02-20 2019-06-18 腾讯科技(深圳)有限公司 Ai模型训练方法、装置、存储介质及设备
CN110119815A (zh) * 2019-05-21 2019-08-13 深圳市腾讯网域计算机网络有限公司 模型训练方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111753855A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
US12059619B2 (en) Information processing method and apparatus, computer readable storage medium, and electronic device
CN110339569B (zh) 控制游戏场景中虚拟角色的方法及装置
CN111461226A (zh) 对抗样本生成方法、装置、终端及可读存储介质
CN109902820B (zh) Ai模型训练方法、装置、存储介质及设备
CN109847366B (zh) 用于游戏的数据处理方法和装置
CN111753855B (zh) 一种数据处理方法、装置、设备及介质
CN111282272B (zh) 信息处理方法、计算机可读介质及电子设备
CN113069769B (zh) 云游戏界面显示方法、装置、电子设备以及存储介质
CN112231347A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112138394B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN113343089A (zh) 用户召回方法及装置、设备
CN115510194A (zh) 问答语句检索方法、装置、电子设备及存储介质
US20220253717A1 (en) System and method for bringing inanimate characters to life
CN113018853B (zh) 数据处理方法、装置、计算机设备和存储介质
CN112717408B (zh) 动作确定方法、装置、设备及计算机可读存储介质
CN112231220B (zh) 一种游戏测试方法和装置
CN111443806B (zh) 交互任务的控制方法、装置、电子设备及存储介质
KR20220053021A (ko) 비디오 게임 오버레이
CN112528048B (zh) 一种跨模态检索方法、装置、设备及介质
KR102343359B1 (ko) 친구 감정 표정을 이용한 게임의 에너지 충전 장치 및 방법
CN116531764B (zh) 游戏数据处理方法、装置、设备及计算机可读存储介质
CN116567369A (zh) 一种视频处理方法、装置、设备及存储介质
CN115463428A (zh) 游戏参数的确定方法、装置、介质及设备
CN116966565A (zh) 播报内容的生成方法、装置、设备、介质及程序产品
CN117618912A (zh) 虚拟对象的控制方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030733

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant