CN110163201B

CN110163201B - 图像测试方法和装置、存储介质及电子装置

Info

Publication number: CN110163201B
Application number: CN201910156754.9A
Authority: CN
Inventors: 黄盈; 周大军; 丁熠; 弓霖芃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2023-10-27
Anticipated expiration: 2039-03-01
Also published as: CN110163201A

Abstract

本发明公开了一种图像测试方法和装置、存储介质及电子装置。该方法包括：采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像；将目标图像输入目标像素语义网络模型，目标像素语义网络模型为利用多个样本图像及为多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型；获取目标像素语义网络模型输出的目标像素状态数据；将目标像素状态数据输入测试模型，以得到测试结果，测试模型用于对人机交互客户端进行性能测试。本发明解决了采用相关技术提供的图像测试方法后导致的测试结果准确性较低的技术问题。

Description

图像测试方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种图像测试方法和装置、存储介质及电子装置。

背景技术

如今，人工智能(Artificial Intelligence，简称AI)技术已经在很多领域得到普遍应用，如采用不同的神经网络模型对各种输入样本进行深度学习，以模拟人类思维执行各种处理操作。

目前，在图像处理领域中，通常会采用基于YOLO(You Only Look Once)的目标检测网络，对图像中呈现的物体对象进行识别，并确定与识别出的物体对象相匹配的最小外接矩形框(如bounding box)，从而实现利用该矩形框来标记显示上述物体对象在图像内的大小与位置。其中，上述矩形框往往只能用于大概标记出上述物体对象的轮廓，如物体对象在图像中呈现的位置。

也就是说，在采用上述图像处理技术后，只能基于确定出的矩形框从图像中获取到有限的特征信息，而无法获取到图像所示虚拟场景内的全部特征信息，比如，无法标识出虚拟场景中的地形信息，包括地面、墙壁、天空、水域等信息。然而，在对人机交互客户端的运行过程进行测试时，由于从上述图像中能获取到的特征信息有限，将导致测试得到的测试结果的准确性较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像测试方法和装置、存储介质及电子装置，以至少解决采用相关技术提供的图像测试方法后导致的测试结果准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种图像测试方法，包括：采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像；将上述目标图像输入目标像素语义网络模型，其中，上述目标像素语义网络模型为利用多个样本图像及为上述多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型；获取上述目标像素语义网络模型输出的目标像素状态数据，其中，上述目标像素状态数据用于描述上述目标图像中的像素点的像素状态；将上述目标像素状态数据输入测试模型，以得到测试结果，其中，上述测试模型用于对上述人机交互客户端进行性能测试。

根据本发明实施例的另一方面，还提供了一种图像测试装置，包括：采集单元，用于采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像；输入单元，用于将上述目标图像输入目标像素语义网络模型，其中，上述目标像素语义网络模型为利用多个样本图像及为上述多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型；第一获取单元，用于获取上述目标像素语义网络模型输出的目标像素状态数据，其中，上述目标像素状态数据用于描述上述目标图像中的像素点的像素状态；测试单元，用于将上述目标像素状态数据输入测试模型，以得到测试结果，其中，上述测试模型用于对上述人机交互客户端进行性能测试。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述图像测试方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的图像测试方法。

在本发明实施例中，在采集到人机交互客户端所呈现的虚拟场景中的场景画面作为待测试的目标图像之后，将该目标图像输入目标像素语义网络模型，以获取用于描述目标图像中的像素点的像素状态的目标像素状态数据，并将该目标像素状态数据输入测试模型，以得到对人机交互客户端进行性能测试的测试结果。也就是说，通过目标像素语义网络模型来对目标图像中的像素点的像素状态进行语义描述，从而得到与目标图像中的像素点相匹配且携带有更多特征信息的目标像素状态数据，以便于利用上述获取到的丰富的特征信息来对人机交互客户端进行性能测试，达到提高测试结果的准确洗性的目的，进而解决了采用相关技术提供的图像测试方法后导致的测试结果准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的图像测试方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的图像测试方法的流程图；

图3是根据本发明实施例的另一种可选的图像测试方法的流程图；

图4是根据本发明实施例的一种可选的图像测试方法的示意图；

图5是根据本发明实施例的一种可选的图像测试方法中目标像素语义网络模型的示意图；

图6是根据本发明实施例的另一种可选的图像测试方法的示意图；

图7是根据本发明实施例的又一种可选的图像测试方法的流程图；

图8是根据本发明实施例的又一种可选的图像测试方法的示意图；

图9是根据本发明实施例的又一种可选的图像测试方法的示意图；

图10是根据本发明实施例的又一种可选的图像测试方法的示意图；

图11是根据本发明实施例的另一种可选的图像测试方法中目标像素语义网络模型的示意图；

图12是根据本发明实施例的一种可选的图像测试方法中目标像素语义网络模型中子网络的示意图；

图13是根据本发明实施例的又一种可选的图像测试方法的流程图；

图14是根据本发明实施例的又一种可选的图像测试方法的流程图；

图15是根据本发明实施例的一种可选的图像测试装置的结构示意图；

图16是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种图像测试方法，可选地，作为一种可选的实施方式，上述图像测试方法可以但不限于应用于如图1所示的硬件环境中。假设用户设备102中安装有人机交互客户端，在采集到该人机交互客户端所呈现的虚拟场景中的场景画面作为待测试的目标图像之后，如步骤S102，服务器104将获取该目标图像，并从数据库106中获取目标像素语义网络模型，该目标像素语义网络模型为利用多个样本图像及为多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型。之后，服务器104将执行步骤S104-S108：将目标图像输入上述目标像素语义网路模型，并获取该目标像素语义网络模型所输出的用于描述目标图像中的像素点的像素状态的目标像素状态数据，再将该目标像素状态数据输入用于对人机交互客户端进行性能测试的测试模型，以得到测试结果。

需要说明的是，在本实施例中，在采集到人机交互客户端所呈现的虚拟场景中的场景画面作为待测试的目标图像之后，将该目标图像输入目标像素语义网络模型，以获取用于描述目标图像中的像素点的像素状态的目标像素状态数据，并将该目标像素状态数据输入测试模型，以得到对人机交互客户端进行性能测试的测试结果。也就是说，通过目标像素语义网络模型来对目标图像中的像素点的像素状态进行语义描述，从而得到与目标图像中的像素点相匹配且携带有更多特征信息的目标像素状态数据，以便于利用上述获取到的丰富的特征信息来对人机交互客户端进行性能测试，达到提高测试结果的准确洗性的目的，进而克服相关技术中测试结果的准确性较低的问题。

可选地，上述用户终端102可以但不限于为可以计算数据的终端，如移动终端(例如手机、平板电脑)、笔记本电脑、PC机等终端上，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。

此外，在本实施例中，上述图像测试方法还可以但不限于应用于处理能力较强大的独立的处理设备中，而无需进行数据交互。例如，该处理设备可以但不限于为处理能力较强大的终端设备，即，上述处理、测试等操作集成在一个终端设备中。上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述图像测试方法包括：

S202，采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像；

S204，将目标图像输入目标像素语义网络模型，其中，目标像素语义网络模型为利用多个样本图像及为多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型；

S206，获取目标像素语义网络模型输出的目标像素状态数据，其中，目标像素状态数据用于描述目标图像中的像素点的像素状态；

S208，将目标像素状态数据输入测试模型，以得到测试结果，其中，测试模型用于对人机交互客户端进行性能测试。

可选地，在本实施例中，上述图像测试方法可以但不限于应用于利用图像对人机交互客户端进行性能测试的场景中，其中，该性能测试的场景可以包括但不限于：渲染测试场景、交互操作测试场景。该交互操作测试场景可以但不限于为利用目标像素语义网络模型输出的用于描述目标图像中的像素点的目标像素状态数据，来训练用于模拟在人机交互客户端中执行的人机交互操作的仿真操作模型，从而实现利用该仿真操作模型来配合人机交互客户端完成自动化的性能测试过程。上述仅是一种示例，本实施例对此不做任何限定。

需要说明的是，在采集到人机交互客户端所呈现的虚拟场景中的场景画面作为待测试的目标图像之后，将该目标图像输入目标像素语义网络模型，以获取用于描述目标图像中的像素点的像素状态的目标像素状态数据，并将该目标像素状态数据输入测试模型，以得到对人机交互客户端进行性能测试的测试结果。也就是说，通过目标像素语义网络模型来对目标图像中的像素点的像素状态进行语义描述，从而得到与目标图像中的像素点相匹配且携带有更多特征信息的目标像素状态数据，以便于利用上述获取到的丰富的特征信息来对人机交互客户端进行性能测试，达到提高测试结果的准确洗性的目的，进而克服相关技术中测试结果的准确性较低的问题。

可选地，在本实施例中，人机交互客户端可以但不限于实时对所呈现的虚拟场景中的场景画面进行截图操作，得到目标图像，并对该目标图像进行图像预处理。其中，该图像预处理可以包括但不限于缩放、压缩等操作。也就是说，通过缩小目标图像的展示尺寸，或压缩目标图像的传输大小，以达到降低将目标图像传输至服务器的传输带宽的目的。进一步，在服务器获取到上述人机交互客户端发送的目标图像之后，可以但不限于利用目标像素语义网络模型来获取与目标图像中的像素点相匹配的目标像素状态数据，并将该目标像素状态数据输入测试模型，以得到测试结果。其中，该测试模型可以包括但不限于以下之一：用于对人机交互客户端进行性能测试的仿真操作模型，用于对人机交互客户端进行渲染检测的检测模型。

例如，如图3所示，假设人机交互客户端当前所呈现的为射击类游戏虚拟场景中的场景画面为例，如图中所示场景画面为对象A正在向对象B发起攻击。如步骤S302，在人机交互客户端通过实时采集获取到该场景画面作为目标图像后，则执行步骤S304，对该目标图像进行图像预处理，如缩小或压缩等操作。进一步，服务器将执行步骤S306-S308，将从人机交互客户端获取到的目标图像输入目标像素语义网络模型，然后获取该目标像素语义网络模型输出的目标像素状态数据，以用于对人机交互客户端的测试过程。以此类推，重复执行上述步骤S302-S308，直至完成测试过程。

可选地，在本实施例中，在采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像之前，还可以包括但不限于：构建初始像素语义网络模型，并利用多个样本图像及为多个样本图像配置的像素状态数据对上述初始像素语义网络模型进行机器训练，以得到用于对图像中的各个像素点的像素状态进行语义描述处理的目标像素语义网络模型。

需要说明的是，在本实施例中，上述为多个样本图像配置的像素状态数据可以包括但不限于为每个样本图像配置的像素状态数据，该像素状态数据可以包括但不限于样本图像中完成配置的各个虚拟对象所在对象区域中的像素点的像素状态。其中，上述虚拟对象可以包括但不限于虚拟场景中所呈现的对象，如人物角色、装备道具、天空、地面或建筑等采用不同像素类别来呈现的对象。例如，配置像素状态数据后的样本图像的效果如图4所示，在目标图像中针对不同类别的虚拟对象，将采用不同方式呈现像素状态，如相同类别的像素状态采用相同的颜色来标记呈现，或相同类别的像素状态采用相同的图样来标记呈现等。

可选地，在本实施例中，上述初始像素语义网络模型可以包括但不限于：用于提取图像中像素点的像素特征的卷积层，用于对像素特征进行聚类的特征聚合层，及用于根据像素特征确定像素点的像素状态的并列的全连接层，并列的全连接层中至少包括：用于识别图像中虚拟对象所在的对象区域的第一全连接层，及用于确定虚拟对象所在对象区域中像素点的像素状态的第二全连接层。

例如，如图5所示，将样本图像作为输入量，输入上述初始像素语义网络模型。通过初始像素语义网络模型中的卷积层提取上述样本图像中像素点的像素特征，再通过特征聚合层和全连接层来学习上述像素特征，以得到与该样本图像中各个虚拟对象所在对象区域中像素点的像素状态。如图5所示输出，将同一类虚拟对象所在对象区域中的像素点作为同一类别，并将同一类别的像素点的像素状态做相同的标记。例如，可将图5中同为虚拟场景中的人物角色的对象A与对象B所在对象区域的像素点的像素状态采用第一标记(如图示圆形点线框)，将虚拟场景中的道具装备所在对象区域的像素点的像素状态采用第二标记(如图示圆形实线框)。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，在将目标图像输入目标像素语义网络模型之后，还包括：通过目标像素语义网络模型提取目标图像中像素点的目标像素特征；根据对目标像素特征进行分析的结果，确定目标图像中各个像素点的像素状态，得到目标像素状态数据；按照目标像素状态数据，在目标图像中标记出各个像素点的像素状态。

例如，如图6所示，可将图6中同为虚拟场景中的人物角色的对象A与对象B所在对象区域的像素点的像素状态采用第一标记(如图示圆形点线框)，将虚拟场景中的道具装备所在对象区域的像素点的像素状态采用第二标记(如图示圆形实线框)。将虚拟场景中的地形山区所在对象区域的像素点的像素状态采用第三标记(如图示矩形实线框)。将虚拟场景中的建筑所在对象区域的像素点的像素状态采用第四标记(如图示矩形短线框)。上述仅是一种示例，本实施例中对此不做任何限定。

通过本申请提供的实施例，在采集到人机交互客户端所呈现的虚拟场景中的场景画面作为待测试的目标图像之后，将该目标图像输入目标像素语义网络模型，以获取用于描述目标图像中的像素点的像素状态的目标像素状态数据，并将该目标像素状态数据输入测试模型，以得到对人机交互客户端进行性能测试的测试结果。也就是说，通过目标像素语义网络模型来对目标图像中的像素点的像素状态进行语义描述，从而得到与目标图像中的像素点相匹配且携带有更多特征信息的目标像素状态数据，以便于利用上述获取到的丰富的特征信息来对人机交互客户端进行性能测试，达到提高测试结果的准确洗性的目的，进而克服相关技术中测试结果的准确性较低的问题。

作为一种可选的方案，在采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像之前，还包括：

S1，获取多个样本图像；

S2，遍历多个样本图像，重复执行以下步骤，直至得到目标像素语义网络模型：

S21，从多个样本图像中获取当前样本图像；

S22，获取为当前样本图像配置的当前像素状态数据；

S23，将当前样本图像及当前像素状态数据，输入当前像素语义网络模型，得到当前输出结果；

S24，在与当前输出结果相邻且位于当前输出结果之前的上一次输出结果和当前输出结果二者之间的差值大于目标阈值的情况下，获取下一个样本图像作为当前样本图像；

S25，在上一次输出结果和当前输出结果二者之间的差值小于等于目标阈值的情况下，确定当前像素语义网络模型为目标像素语义网络模型。

具体结合图7所示示例进行说明。假设仍以人机交互客户端当前所呈现的为射击类游戏虚拟场景中的场景画面为例。如步骤S702，采集游戏虚拟场景中的场景画面作为当前样本图像，并按照步骤S704，获取使用图像工具配置的当前像素状态数据。然后，执行步骤S706，将上述当前样本图像及当前像素状态数据输入当前像素语义网络模型来进行训练，并对当前输出结果进行验证，如步骤S706-S708。在获取到对当前输出结果的验证结果后，再执行步骤S710，根据验证结果对上述当前像素语义网络模型的模型参数进行调整。重复执行上述步骤S702-S710，直至在与当前输出结果相邻且位于当前输出结果之前的上一次输出结果和当前输出结果二者之间的差值小于等于目标阈值的情况下，确定当前像素语义网络模型已经收敛，则将当前像素语义网络模型作为最终训练成功的目标像素语义网络模型。

需要说明的是，若要对新的人机交互应用进行测试，则需对新的虚拟场景中的场景画面中的各个像素点的像素状态进行学习。而在采用本实施例中提供的已经训练好的目标像素语义网络模型时，则可以直接将新的人机交互应用进行采样，通过学习新的样本图像及新的像素状态数据，来对像素语义网络模型中的模型参数进行微调，以达到快速调整优化像素语义网络模型的目的。

通过本申请提供的实施例，针对人机交互应用的虚拟场景，获取对应的多个样本图像及为其配置的像素状态数据，以此类对当前像素语义网络模型进行训练。在输出结果指示收敛的情况下，确定该当前像素语义网络模型为最终训练好的目标像素语义网络模型。通过调整与人机交互应用的虚拟场景相对应的多个样本图像及为其配置的像素状态数据，从而实现灵活调整用于获取像素状态数据的像素语义网络模型，而无需针对不同应用构建不同的模型，以达到简化操作，提高获取像素状态数据的灵活性的目的。

作为一种可选的方案，获取为当前样本图像配置的当前像素状态数据包括：

S1，加载当前样本图像；

S2，重复执行以下操作，直至完成对当前样本图像中当前像素状态数据的配置，其中，当前像素状态数据包括当前样本图像中完成配置的各个虚拟对象所在的对象区域中的像素点的像素状态：

S21，从当前样本图像上确定出待标记的当前虚拟对象；

S22，获取为当前虚拟对象标注的当前离散点集合，其中，当前离散点集合中相邻离散点首尾相连后得到的分割线，用于分割当前虚拟对象与当前样本图像中除当前虚拟对象之外的其他虚拟对象；

S23，为当前虚拟对象所在的对象区域中的像素点配置当前像素状态；

S24，获取当前样本图像中的下一个虚拟对象作为当前虚拟对象。

可选地，在本实施例中，可以但不限于使用开源工具labelme来完成对图像中像素点的像素状态的标记操作。其中，在本实施例中可以但不限于使用google的tensorflow神经网络框架来进行训练，为了加速模型收敛，还可以但不限于使用coco训练集，对样本图像进行预训练。

具体结合图8-10所示示例进行说明，假设仍以人机交互客户端当前所呈现的为射击类游戏虚拟场景中的场景画面为例。在加载如图8所示的当前样本图像之后，确定待标记的当前虚拟对象为对象A，则可以使用图像工具对该对象A进行标记，得到如图8所示的当前离散点集合，其中当前离散点集合中相邻离散点首尾相连后得到的分割线将用于分割对象A与当前样本图像中除对象A之外的其他对象。在确定出对象A所在对象区域的像素点后，则为上述像素点配置当前像素状态，例如为当前像素点集合中的像素点的当前像素状态配置像素状态标签“人物角色”，如图9所示。

进一步，获取当前样本图像中的下一个虚拟对象作为当前虚拟对象，例如，获取对象B为当前虚拟对象，继续通过离散点来标记对象B所在对象区域中像素点的像素状态，如也为“人物角色”，以此类推，直至得到如图10所示结果。图10所示为完成对当前样本图像中各个虚拟对象所在的对象区域中的像素点的像素状态的配置，得到的与当前样本图像相匹配的当前像素状态数据。

需要说明的是，针对每个当前样本图像可以选择对全部虚拟对象进行标记配置，也可以选择部分类别进行标记配置，本实施例中对此不做任何限定。

通过本申请提供的实施例，在加载当前样本图像之后，通过离散点集合来进行标记当前样本图像中的各个虚拟对象所在对象区域，以确定对象区域中的像素点的像素状态，从而提高用于输入像素语义网络模型的输入量的准确性，缩短模型训练时间，提高训练效率。

作为一种可选的方案，在获取多个样本图像之前，还包括：

S1，构建与目标像素语义网络模型对应的初始像素语义网络模型，其中，初始像素语义网络模型包括：用于提取图像中像素点的像素特征的卷积层，用于对像素特征进行聚类的特征聚合层，及用于根据像素特征确定像素点的像素状态的并列的全连接层，并列的全连接层中至少包括：用于识别图像中虚拟对象所在的对象区域的第一全连接层，及用于确定虚拟对象所在对象区域中像素点的像素状态的第二全连接层。

需要说明的是，在本实施例中，上述像素语义网络模型可以但不限于采用MaskRCNN模型。Mask RCNN模型是把原有的Faster-RCNN进行扩展，添加一个分支使用现有的检测对目标进行并行预测。

具体结合以下示例进行说明。如图11所示，该初始像素语义网络模型可以包括卷积层、特征聚合层以及并列的全连接层。其中并列的全连接层至少包括：用于识别图像中虚拟对象所在的对象区域的第一全连接层，如用Lbox表示，及用于确定虚拟对象所在对象区域中像素点的像素状态的第二全连接层，如用Lmask表示。从而得到最终的像素状态数据，如用L表示。

可选地，在本实施例中，在构建与目标像素语义网络模型对应的初始像素语义网络模型之后，还包括：根据对初始像素语义网络模型进行机器训练的训练结果，调整卷积层的层数及像素特征的特征映射维数。

需要说明的是，在基于上述初始像素语义网络模型进行机器训练的过程中，考虑到需要实时检测画面。因而，本实施例可以但不限于对卷积层层数和特征映射维数做了优化。例如使用缩减的ResNet50(50层的深度残差网络)来代替原始版本中的ResNet101卷积层。同时减少了ResNet50每层间的feature map数量，例如每层的feature map数量缩减到32，以降低计算量。

进一步，由于ResNet50的网络结构太深，在此结合图12所示的一个残差元结构来说明网络的工作原理，深度残差网络可以包括但不限于多个上述图12所示的残差元网络结构。对于普通网络中任意堆叠的两层网络，可以但不限于找到一个映射H(x)对应的残差元添加一个快捷连接，从输入x到输出，这里的快捷连接默认为恒等映射，如从H(x)映射到F(x)。这种残差元结构可以通过前向神经网络连接实现，不会产生额外的参数，也不会增加计算复杂度。而且，整个网络可以依旧通过端到端的反向传播训练。

通过本申请提供的实施例，构建上述网络结构来进一步通过机器训练得到用于描述目标图像中的像素点的目标像素状态数据，从而实现针对不同的场景画面，都可以灵活快速地获取到特征信息更加丰富的目标像素状态数据，以便于提高利用目标像素状态数据来进行测试的准确性。

作为一种可选的方案，在将目标图像输入目标像素语义网络模型之后，还包括：

S1，通过目标像素语义网络模型提取目标图像中像素点的目标像素特征；

S2，根据对目标像素特征进行分析的结果，确定目标图像中各个像素点的像素状态，得到目标像素状态数据；

S3，按照目标像素状态数据，在目标图像中标记出各个像素点的像素状态。

具体结合图6所示进行说明，假设仍以人机交互客户端当前所呈现的为射击类游戏虚拟场景中的场景画面为例。则在通过目标像素语义网络模型提取目标图像中像素点的目标像素特征，并对目标像素特征进行分析之后，可以但不限于确定出如图6锁死的目标像素状态数据，并按照图6所示进行标记。例如，同为虚拟场景中的人物角色的对象A与对象B所在对象区域的像素点的像素状态采用第一标记(如图示圆形点线框)，将虚拟场景中的道具装备所在对象区域的像素点的像素状态采用第二标记(如图示圆形实线框)。将虚拟场景中的地形山区所在对象区域的像素点的像素状态采用第三标记(如图示矩形实线框)。将虚拟场景中的建筑所在对象区域的像素点的像素状态采用第四标记(如图示矩形短线框)。上述仅是一种示例，本实施例中对此不做任何限定。

通过本申请提供的实施例，在通过目标像素语义网络模型提取目标图像中像素点的目标像素特征，并对目标像素特征进行分析之后，确定出对应的目标像素状态数据，并返回人机交互客户端，将其标记在目标图像中。从而实现对目标图像所呈现的虚拟场景的场景画面中的不同的虚拟对象对应的对象区域中的像素点，进行对应不同的标记，以便于直观地呈现出目标像素状态数据，并提高利用目标像素状态数据来进行测试的准确性。

作为一种可选的方案，将目标像素状态数据输入测试模型，以得到测试结果包括：

S1，从目标图像中提取人机交互客户端在运行过程中生成的交互操作数据；

S2，将目标像素状态数据和交互操作数据作为测试输入量，输入与人机交互客户端对应的仿真操作模型，以训练仿真操作模型，其中，仿真操作模型用于模拟在人机交互客户端中执行的人机交互操作，以配合人机交互客户端完成性能测试的模型。

可选地，在本实施例中，上述仿真操作模型可以但不限于为基于深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法构建的网络模型。上述交互操作数据可以但不限于为在人机交互客户端执行人机交互操作后产生的操作数据，如弹药数、生命值等。

具体结合图13所示进行说明。在执行步骤S1302实时采集目标图像之后，如步骤S1304，获取与目标图像对应的目标像素状态数据，以及从目标图像中提取出的人机交互客户端在运行过程中生成的交互操作数据。然后，如步骤S1306，生成上述基于DDPG算法构成的仿真操作模型，并将上述目标像素状态数据及交互操作数据输入该仿真操作模型，执行步骤S1308，训练该仿真操作模型。在该仿真操作模型完成训练后，将被用于自动化测试过程中，通过模拟测试人员在人机交互客户端中执行的人机交互操作，来代替手动执行操作，以辅助测试人员完成对人机交互客户端的自动化性能测试过程，达到提高测试效率的目的。

通过本申请提供的实施例，通过将目标图像统一转化为目标像素状态数据来表达，同时引入先验知识，从而实现利用特征信息更丰富的目标像素状态数据，来训练仿真操作模型，以极大地降低其训练难度。进一步，针对不同的人机交互客户端所呈现的不同的虚拟场景，可以灵活学习到不同的像素点的像素状态，使其应用于不同场景中，进而达到扩展应用范围和通用性的目的。

S1，根据目标像素状态数据确定目标图像中的像素点的第一渲染特征；

S2，获取预先为目标图像中的像素点配置的第二渲染特征；

S3，比对第一渲染特征与第二渲染特征；

S4，在第一渲染特征与第二渲染特征的比对结果指示不一致的情况下，调整人机交互客户端的渲染参数。

具体结合图14所示进行说明。在执行步骤S1402实时采集目标图像之后，如步骤S1404-S1406，获取与目标图像对应的目标像素状态数据，并确定出第一渲染特征。然后如步骤S1408，对预先为目标图像中的像素点配置的第二渲染特征和第一渲染特征进行比对，并在第一渲染特征与第二渲染特征的比对结果指示不一致的情况下，执行步骤S1410，调整人机交互客户端的渲染参数。

通过本申请提供的实施例，通过将目标图像统一转化为目标像素状态数据来表达，从而实现利用特征信息更丰富的目标像素状态数据，来对人机交互客户端进行渲染检测，达到改善渲染性能的目的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述图像测试方法的图像测试装置。如图15所示，该装置包括：

1)采集单元1502，用于采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像；

2)输入单元1504，用于将目标图像输入目标像素语义网络模型，其中，目标像素语义网络模型为利用多个样本图像及为多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型；

3)第一获取单元1506，用于获取目标像素语义网络模型输出的目标像素状态数据，其中，目标像素状态数据用于描述目标图像中的像素点的像素状态；

4)测试单元1508，用于将目标像素状态数据输入测试模型，以得到测试结果，其中，测试模型用于对人机交互客户端进行性能测试。

可选地，在本实施例中，上述图像测试装置可以但不限于应用于利用图像对人机交互客户端进行性能测试的场景中，其中，该性能测试的场景可以包括但不限于：渲染测试场景、交互操作测试场景。该交互操作测试场景可以但不限于为利用目标像素语义网络模型输出的用于描述目标图像中的像素点的目标像素状态数据，来训练用于模拟在人机交互客户端中执行的人机交互操作的仿真操作模型，从而实现利用该仿真操作模型来配合人机交互客户端完成自动化的性能测试过程。上述仅是一种示例，本实施例对此不做任何限定。

作为一种可选的方案，还包括：

1)第二获取单元，用于在采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像之前，获取多个样本图像；

2)训练单元，用于遍历多个样本图像，重复执行以下步骤，直至得到目标像素语义网络模型：

S1，从多个样本图像中获取当前样本图像；

S2，获取为当前样本图像配置的当前像素状态数据；

S3，将当前样本图像及当前像素状态数据，输入当前像素语义网络模型，得到当前输出结果；

S4，在与当前输出结果相邻且位于当前输出结果之前的上一次输出结果和当前输出结果二者之间的差值大于目标阈值的情况下，获取下一个样本图像作为当前样本图像；

S5，在上一次输出结果和当前输出结果二者之间的差值小于等于目标阈值的情况下，确定当前像素语义网络模型为目标像素语义网络模型。

作为一种可选的方案，还包括：

1)提取单元，用于在将目标图像输入目标像素语义网络模型之后，通过目标像素语义网络模型提取目标图像中像素点的目标像素特征；

2)确定单元，用于根据对目标像素特征进行分析的结果，确定目标图像中各个像素点的像素状态，得到目标像素状态数据；

3)标记单元，用于按照目标像素状态数据，在目标图像中标记出各个像素点的像素状态。

作为一种可选的方案，测试单元包括：

1)提取模块，用于从目标图像中提取人机交互客户端在运行过程中生成的交互操作数据；

2)测试模块，用于将目标像素状态数据和交互操作数据作为测试输入量，输入与人机交互客户端对应的仿真操作模型，以训练仿真操作模型，其中，仿真操作模型用于模拟在人机交互客户端中执行的人机交互操作，以配合人机交互客户端完成性能测试的模型。

作为一种可选的方案，测试单元包括：

1)确定模块，用于根据目标像素状态数据确定目标图像中的像素点的第一渲染特征；

2)获取模块，用于获取预先为目标图像中的像素点配置的第二渲染特征；

3)比对模块，用于比对第一渲染特征与第二渲染特征；

4)调整模块，用于在第一渲染特征与第二渲染特征的比对结果指示不一致的情况下，调整人机交互客户端的渲染参数。

根据本发明实施例的又一个方面，还提供了一种用于实施上述图像测试方法的电子装置，如图16所示，该电子装置包括存储器1602和处理器1604，该存储器1602中存储有计算机程序，该处理器1604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像；

S2，将目标图像输入目标像素语义网络模型，其中，目标像素语义网络模型为利用多个样本图像及为多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型；

S3，获取目标像素语义网络模型输出的目标像素状态数据，其中，目标像素状态数据用于描述目标图像中的像素点的像素状态；

S4，将目标像素状态数据输入测试模型，以得到测试结果，其中，测试模型用于对人机交互客户端进行性能测试。

可选地，本领域普通技术人员可以理解，图16所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图16其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图16中所示更多或者更少的组件(如网络接口等)，或者具有与图16所示不同的配置。

其中，存储器1602可用于存储软件程序以及模块，如本发明实施例中的述图像测试方法和装置对应的程序指令/模块，处理器1604通过运行存储在存储器1602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的述图像测试方法。存储器1602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1602可进一步包括相对于处理器1604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1602具体可以但不限于用于存储目标图像及目标像素状态数据等信息。作为一种示例，如图16所示，上述存储器1602中可以但不限于包括上述图像测试装置中的采集单元1502、输入单元1504、第一获取单元1506及测试单元1508。此外，还可以包括但不限于上述述图像测试装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1606包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1608，用于显示虚拟场景中的场景画面；和连接总线1610，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像测试方法，其特征在于，包括：

采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像；

将所述目标图像输入目标像素语义网络模型，其中，所述目标像素语义网络模型为利用多个样本图像及为所述多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型；

获取所述目标像素语义网络模型输出的目标像素状态数据，其中，所述目标像素状态数据用于描述所述目标图像中的像素点的像素状态；

将所述目标像素状态数据输入测试模型，以得到测试结果，其中，所述测试模型用于对所述人机交互客户端进行性能测试，所述将所述目标像素状态数据输入测试模型，以得到测试结果包括：从所述目标图像中提取所述人机交互客户端在运行过程中生成的交互操作数据；将所述目标像素状态数据和所述交互操作数据作为测试输入量，输入与所述人机交互客户端对应的仿真操作模型，以训练所述仿真操作模型，所述仿真操作模型用于模拟在所述人机交互客户端中执行的人机交互操作，以配合所述人机交互客户端完成性能测试的模型。

2.根据权利要求1所述的方法，其特征在于，在所述采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像之前，还包括：

获取所述多个样本图像；

遍历所述多个样本图像，重复执行以下步骤，直至得到所述目标像素语义网络模型：

从所述多个样本图像中获取当前样本图像；

获取为所述当前样本图像配置的当前像素状态数据；

将所述当前样本图像及所述当前像素状态数据，输入当前像素语义网络模型，得到当前输出结果；

在与所述当前输出结果相邻且位于所述当前输出结果之前的上一次输出结果和所述当前输出结果二者之间的差值大于目标阈值的情况下，获取下一个样本图像作为所述当前样本图像；

在所述上一次输出结果和所述当前输出结果二者之间的差值小于等于所述目标阈值的情况下，确定所述当前像素语义网络模型为所述目标像素语义网络模型。

3.根据权利要求2所述的方法，其特征在于，所述获取为所述当前样本图像配置的当前像素状态数据包括：

加载所述当前样本图像；

重复执行以下操作，直至完成对所述当前样本图像中所述当前像素状态数据的配置，其中，所述当前像素状态数据包括所述当前样本图像中完成配置的各个虚拟对象所在的对象区域中的像素点的像素状态：

从所述当前样本图像上确定出待标记的当前虚拟对象；

获取为所述当前虚拟对象标注的当前离散点集合，其中，所述当前离散点集合中相邻离散点首尾相连后得到的分割线，用于分割所述当前虚拟对象与所述当前样本图像中除所述当前虚拟对象之外的其他虚拟对象；

为所述当前虚拟对象所在的对象区域中的像素点配置当前像素状态；

获取所述当前样本图像中的下一个虚拟对象作为所述当前虚拟对象。

4.根据权利要求2所述的方法，其特征在于，在所述获取所述多个样本图像之前，还包括：

构建与所述目标像素语义网络模型对应的初始像素语义网络模型，其中，所述初始像素语义网络模型包括：用于提取图像中像素点的像素特征的卷积层，用于对所述像素特征进行聚类的特征聚合层，及用于根据所述像素特征确定像素点的像素状态的并列的全连接层，所述并列的全连接层中至少包括：用于识别图像中虚拟对象所在的对象区域的第一全连接层，及用于确定所述虚拟对象所在对象区域中像素点的像素状态的第二全连接层。

5.根据权利要求4所述的方法，其特征在于，在所述构建与所述目标像素语义网络模型对应的初始像素语义网络模型之后，还包括：

根据对所述初始像素语义网络模型进行机器训练的训练结果，调整所述卷积层的层数及所述像素特征的特征映射维数。

6.根据权利要求1所述的方法，其特征在于，在所述将所述目标图像输入目标像素语义网络模型之后，还包括：

通过所述目标像素语义网络模型提取所述目标图像中像素点的目标像素特征；

根据对所述目标像素特征进行分析的结果，确定所述目标图像中各个像素点的像素状态，得到所述目标像素状态数据；

按照所述目标像素状态数据，在所述目标图像中标记出各个像素点的像素状态。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述将所述目标像素状态数据输入测试模型，以得到测试结果还包括：

根据所述目标像素状态数据确定所述目标图像中的像素点的第一渲染特征；

获取预先为所述目标图像中的像素点配置的第二渲染特征；

比对所述第一渲染特征与所述第二渲染特征；

在所述第一渲染特征与所述第二渲染特征的比对结果指示不一致的情况下，调整所述人机交互客户端的渲染参数。

8.一种图像测试装置，其特征在于，包括：

采集单元，用于采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像；

输入单元，用于将所述目标图像输入目标像素语义网络模型，其中，所述目标像素语义网络模型为利用多个样本图像及为所述多个样本图像配置的像素状态数据进行机器训练后，所得到的用于对图像中的各个像素点的像素状态进行语义描述处理的神经网络模型；

第一获取单元，用于获取所述目标像素语义网络模型输出的目标像素状态数据，其中，所述目标像素状态数据用于描述所述目标图像中的像素点的像素状态；

测试单元，用于将所述目标像素状态数据输入测试模型，以得到测试结果，其中，所述测试模型用于对所述人机交互客户端进行性能测试，所述将所述目标像素状态数据输入测试模型，以得到测试结果包括：从所述目标图像中提取所述人机交互客户端在运行过程中生成的交互操作数据；将所述目标像素状态数据和所述交互操作数据作为测试输入量，输入与所述人机交互客户端对应的仿真操作模型，以训练所述仿真操作模型，所述仿真操作模型用于模拟在所述人机交互客户端中执行的人机交互操作，以配合所述人机交互客户端完成性能测试的模型。

9.根据权利要求8所述的装置，其特征在于，还包括：

第二获取单元，用于在所述采集人机交互客户端所呈现的虚拟场景中的场景画面，作为待测试的目标图像之前，获取所述多个样本图像；

训练单元，用于遍历所述多个样本图像，重复执行以下步骤，直至得到所述目标像素语义网络模型：

从所述多个样本图像中获取当前样本图像；

获取为所述当前样本图像配置的当前像素状态数据；

10.根据权利要求8所述的装置，其特征在于，还包括：

提取单元，用于在所述将所述目标图像输入目标像素语义网络模型之后，通过所述目标像素语义网络模型提取所述目标图像中像素点的目标像素特征；

确定单元，用于根据对所述目标像素特征进行分析的结果，确定所述目标图像中各个像素点的像素状态，得到所述目标像素状态数据；

标记单元，用于按照所述目标像素状态数据，在所述目标图像中标记出各个像素点的像素状态。

11.根据权利要求8至10中任一项所述的装置，其特征在于，所述测试单元包括：

确定模块，用于根据所述目标像素状态数据确定所述目标图像中的像素点的第一渲染特征；

获取模块，用于获取预先为所述目标图像中的像素点配置的第二渲染特征；

比对模块，用于比对所述第一渲染特征与所述第二渲染特征；

调整模块，用于在所述第一渲染特征与所述第二渲染特征的比对结果指示不一致的情况下，调整所述人机交互客户端的渲染参数。

12.一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。