CN112121418A

CN112121418A - 图像处理方法及装置、交互控制方法及装置

Info

Publication number: CN112121418A
Application number: CN202010928963.3A
Authority: CN
Inventors: 黄超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-25

Abstract

本申请实施例公开了一种基于人工智能的图像处理方法及装置、交互控制方法及装置，在该方法中，首先使用包括样本图像内物体边缘的损失目标的训练目标对神经网络进行训练，然后网络设备调用训练后的神经网络处理目标图像生成所述目标图像的深度图像；由于本申请在进行神经网络训练时，独创性的引入了样本图像内物体的边缘损失目标，训练后的神经网络在输出深度图像时，会考虑目标图像内物体边缘损失，这样就可以最大程度的保证不会将同一物体错误的分割为几个部分，也不会将不同物体划分为一个整体，深度图像准确性更高，游戏AI基于这些深度图像就可以反馈更准确的互动交互参数，用户体验更好。

Description

图像处理方法及装置、交互控制方法及装置

技术领域

本申请涉及图像处理领域，具体涉及一种基于人工智能的图像处理方法及装置、交互控制方法及装置。

背景技术

随着人工智能技术的发展，基于人工智能的交互控制技术，例如游戏AI基于客户端实时的对战游戏画面对应的深度图像向客户端反馈对应的交互动作参数(控制角色往离角色最远的位置移动)以控制角色移动等，使得游戏参与者等用户可以解放双手，增强用户体验。

深度图像的准确性直接影响到游戏AI反馈交互动作参数的准确性，当前深度神经网络是基于语义分割来实现根据对照画面确定深度图像的，而语义分割往往会根据颜色的差异，将一个包括多个颜色的物体切分为几个独立的部分，或者将颜色相同或者相近、且临近的不同物体划分一个物体，从而导致深度图像的准确性较差，进而导致游戏AI反馈交互动作参数的准确性较低。

即当前图像处理技术至少存在由于神经网络仅关注色彩导致深度图像不准确的技术问题。

申请内容

本申请实施例提供一种图像处理方法及装置、交互控制方法及装置，以提高神经网络处理得到的深度图像的准确性。

为解决上述技术问题，本申请实施例提供以下技术方案：

本申请实施例提供一种图像处理方法，其包括：

获取训练样本以及训练目标，所述训练样本包括样本图像以及所述样本图像对应的实际深度图像，所述训练目标包括样本图像内物体的边缘损失目标；

构建神经网络；

使用所述训练样本训练所述神经网络，直至所述神经网络处理所述样本图像得到的估计深度图像与所述实际深度图像满足所述训练目标，得到训练后的神经网络；

获取目标图像；

使用所述训练后的神经网络处理所述目标图像，生成所述目标图像的深度图像。

本申请实施例提供一种基于人工智能的交互控制方法，其包括：

获取终端展示给用户的交互画面，确定为目标图像；

通过上述实施例提供的图像处理方法，得到所述目标图像的深度图像；

根据所述深度图像以及预设的交互控制策略，向所述终端返回所述目标图像对应的交互动作参数。

本申请实施例提供一种图像处理装置，其包括：

数据获取模块，用于获取训练样本以及训练目标，所述训练样本包括样本图像以及所述样本图像对应的实际深度图像，所述训练目标包括样本图像内物体边缘的损失目标；

构建模块，用于构建神经网络；

训练模块，用于使用所述训练样本训练所述神经网络，直至所述神经网络处理所述样本图像得到的估计深度图像与所述实际深度图像满足所述训练目标，得到训练后的神经网络；

第一获取模块，用于获取目标图像；

第一处理模块，用于使用所述训练后的神经网络处理所述目标图像，生成所述目标图像的深度图像。

本申请实施例提供一种基于人工智能的交互控制装置，其包括：

第二获取模块，用于获取终端展示给用户的交互画面，确定为目标图像；

第二处理模块，用于通过上述实施例提供的图像处理方法，得到所述目标图像的深度图像；

反馈模块，用于根据所述深度图像以及预设的交互控制策略，向所述终端返回所述目标图像对应的交互动作参数。

本申请实施例提供一种计算机设备，其包括处理器和存储器，存储器存储有多条指令，指令适于处理器进行加载，以执行上述方法中的步骤。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行上述方法中的步骤。

本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法中的步骤。

本申请实施例提供了一种基于人工智能的图像处理方法及装置、交互控制方法及装置，在该方法中，首先基于包括样本图像内物体边缘的损失目标的训练目标对神经网络进行训练，然后网络设备获取目标图像，调用训练后的神经网络，使用所述训练后的神经网络处理目标图像生成所述目标图像的深度图像；由于本申请在进行神经网络训练时，独创性的引入了样本图像内物体边缘的损失目标，这样训练后的神经网络在输出深度图像时，会考虑目标图像内物体边缘，可以最大程度的保证不会将同一物体错误的分割为几个部分，也不会将不同物体划分为一个整体，深度图像内不同物体之间的差异度更大，准确性更高，那么游戏AI基于这些深度图像就可以反馈更准确的互动交互参数，用户体验更好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的交互系统的组网示意图。

图2是本申请实施例提供的图像处理方法的流程示意图。

图3是本申请实施例提供的交互控制方法的第一种流程示意图。

图4是本申请实施例提供的交互控制方法的第二种流程示意图。

图5是本申请实施例提供的图像处理装置的结构示意图。

图6是本申请实施例提供的计算机设备的结构示意图。

图7a至图7b是本申请实施例提供的神经网络及训练示意图。

图8a至图8b是本申请实施例提供的深度图像和梯度图像的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及的图像处理方法及装置、交互控制方法及装置涉及人工智能领域，具体的可以通过云技术领域中的人工智能云服务实现。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。在本申请中，人工智能技术主要用于处理图像得到图像对应的深度图像，并根据深度图像生成反馈控制结果，以实现游戏等自动化控制。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请中，机器学习主要是指深度学习(Deep Learning)下属的深度神经网络(Deep neural network,DNN)，通过构建像素损失函数和边缘损失函数对深度神经网络的学习训练进行控制，提高了修改后的神经网络处理目标图像所得到的深度图像的准确性，尤其是可以最大程度的保证不会将同一物体错误的分割为几个部分，也不会将不同物体划分为一个整体。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。本申请涉及的云技术主要是人工智能云服务。

所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。在本申请中，人工智能云服务主要用于交互应用，例如云游戏/云VR等场景下使用神经网络处理客户端的实时图像生成对应的深度图像，并基于该深度图像输出准确的交互动作参数，以实现准确的交互控制。

在本申请实施例中，样本图像可以是虚拟的游戏画面，也可以是实际的景物画面，样本图像对应的实际深度图像可以根据需要设置，下文将结合实施例进行说明；目标图像可以是客户端展示给用户看的画面，可以基于客户端的截图功能截取这些画面作为目标图像。

在本申请实施例中，图像(包括样本图像和目标图像)内的物体可以是指图像内的人物、窗户等物体，物体边缘可以是物体轮廓等，物体边缘的损失目标可以是物体轮廓与相邻像素点之间亮度值差值的损失等。

在本申请实施例中，图像对应的深度图像中每一个像素的亮度值表示该像素对应的物体到参考面(一般为显示平面或者人眼所在的与显示屏平行的平面)之间的距离大小；在样本图像是虚拟的游戏画面时，该画面对应的实际深度图像可以是通过应用接口直接从终端后台读取，在样本图像是实际的景物画面时，该画面对应的实际深度图像可以是通过基于测距等算法所得到的样本图像的深度图像，可以认为实际深度图像中每个像素的亮度值是可以准确的表示该像素对应的物体到参考面之间的距离大小，而实际梯度图像是实际深度图像对应的梯度图像。估计深度图像可以是使用训练中的神经网络处理样本图像得到的样本图像的深度图像，这个估计深度图像中每个像素的亮度值是由神经网络处理样本图像得到，不一定可以准确的表示该像素对应的物体到参考面之间的距离大小，估计梯度图像是估计深度图像对应的梯度图像。在本申请中，神经网络的训练就是为了使得样本图像的估计深度图像和实际深度图像之间的各方面差异尽可能小，进而使得同一样本图像的估计深度图像和实际深度图像最大程度的相同。

在本申请实施例中，训练涉及的神经网络可以是任意的用于处理图像生成深度图像的神经网络，而游戏AI实际上也是一种神经网络，为了便于说明，将用于生成深度图像的神经网络记为第一神经网络，而游戏AI记为第二神经网络。

请参阅图1，图1为本申请实施例所提供的交互系统的场景示意图，该系统可以包括用户侧设备以及服务侧设备，用户侧设备与服务侧设备通过各种网关组成的互联网等方式连接，不再赘述，其中，用户侧设备包括多个终端11，服务侧设备包括多个服务器12；其中：

终端11包括但不局限于手机、平板等便携终端，以及电脑、查询机、广告机等固定终端，是用户可以使用并操作的服务端口；为便于下文说明，将终端11定义为平台终端11a和用户终端11b，平台终端11a用于后台运维人员运行样本游戏以通过该游戏的应用接口获取虚拟物体画面作为样本图像和对应的深度图像作为实际深度图像，或者上传真实物体画面作为样本图像和对应距离参数生成实际深度图像等，而用户终端11b则安装有各种交互应用，例如对战游戏、VR应用等的客户端，用于用户访问各种业务并展示自动化指引等等；

服务器12为用户提供各种业务服务或者服务支持，包括业务服务器12a、训练服务器12b等，其中，业务服务器12a用于提供对战游戏、VR应用等各种服务，训练服务器12b用于根据样本数据对神经网络进行训练等。

在本申请中，业务服务器12a和训练服务器12b可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在本申请中，设置有客户端的终端11b在用户使用应用的自动化功能时，例如用户打开对战游戏的自动导航功能、VR应用的自动指引功能等，周期性(例如1秒)或者实时对应用界面进行截图，通过交互请求将截图发送到业务服务器；

训练服务器12b获取训练样本以及训练目标，所述训练样本包括样本图像以及所述样本图像对应的实际深度图像，所述训练目标包括样本图像内物体边缘的损失目标；构建神经网络，使用训练样本训练所述神经网络，直至所述神经网络处理所述样本图像得到的估计深度图像与所述实际深度图像满足所述训练目标，得到训练后的神经网络；

所述业务服务器12a接收来自客户端的交互请求后，解析该请求以获取终端展示给用户的交互画面确定为目标图像，之后使用训练后的神经网络处理目标图像生成所述目标图像的深度图像，根据所述深度图像以及预设的交互控制策略，向所述终端返回所述目标图像对应的交互动作参数；

客户端接收所述业务服务器返回的所述交互动作参数，控制应用内的虚拟角色移动等。

本实施例提供了一种基于人工智能的交互系统，该系统使用的神经网络可以最大程度的保证不会将同一物体错误的分割为几个部分，也不会将不同物体划分为一个整体，深度图像内不同物体之间的差异度更大，准确性更高，那么游戏AI基于这些深度图像就可以反馈更准确的互动交互参数，用户体验更好。

需要说明的是，图1所示的系统场景示意图仅仅是一个示例，本申请实施例描述的服务器以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

图2是本申请实施例提供的图像处理方法的流程示意图，请参阅图2，该图像处理方法包括以下步骤：

201：获取训练样本以及训练目标，所述训练样本包括样本图像以及所述样本图像对应的实际深度图像，所述训练目标包括样本图像内物体边缘的损失目标。

在一种实施例中，训练服务器首先进行模型训练，以得到训练后的神经网络，即第一神经网络，提供给业务服务器调用以对客户端上传的目标图像进行处理得到对应的深度图像。

在一种实施例中，目标图像可以是对战类游戏的游戏画面等虚拟物体画面，也可以是增强现实应用中的真身物体的画面等真实物体画面，那么对应的，在训练过程中就需要考虑这两种类型的样本图像。

在一种实施例中，在所述样本图像为虚拟物体画面时，所述获取训练样本的步骤，包括：通过提供所述虚拟物体画面的应用的数据接口获取所述虚拟物体画面作为所述样本图像；同时，通过所述数据接口获取后台中所述虚拟物体画面对应的深度图像作为所述样本图像的实际深度图像。

在另外一种实施例中，在所述样本图像为真实物体画面时，本步骤包括：通过摄像设备获取所述真实物体画面作为所述样本图像；获取各真实物体与所述摄像设备之间的距离；根据所述各真实物体与所述摄像设备之间的距离生成所述样本图像的实际深度图像，例如通过等比例转换算法等将不同距离大小换算为不同亮度进而生成实际深度图像。本申请实施例提供了两种样本图像的获取方式，可以兼容现有大部分交互应用的应用场景。

202：构建神经网络。

在一种实施例中，神经网络可以是任意的具备深度处理功能的神经网络。下文将具体描述。

203：使用训练样本训练所述神经网络，直至所述神经网络处理所述样本图像得到的估计深度图像与所述实际深度图像满足所述训练目标，得到训练后的神经网络。

在一种实施例中，通过本步骤，本申请可以基于样本图像内物体的边缘损失目标对神经网络进行训练，使得神经网络在输出深度图像时关注到物体边缘，避免了边缘失真，进一步提升枪战类游戏的游戏画面的深度估计效果，可以提高神经网络对深度图像估计的准确性。

在一种实施例中，本步骤包括：根据所述训练目标，构建目标函数；使用所述初始神经网络得到所述样本图像的估计深度图像；根据所述目标函数，得到所述估计深度图像与所述实际深度图像之间的目标函数值；根据所述训练目标中的训练结束条件、以及所述目标函数值，对所述初始神经网络进行迭代优化，直至训练结束得到所述训练后的神经网络。本实施例提供了具体的训练机制，使得基于物体边缘的神经网络的训练成本可能。

在一种实施例中，所述训练目标包括图像像素损失目标和样本图像内物体的边缘损失目标，所述目标函数包括像素损失函数和边缘损失函数，所述根据所述目标函数，得到所述估计深度图像与所述实际深度图像之间的目标函数值的步骤，包括：根据所述估计深度图像与所述实际深度图像的各像素的第一像素值，得到所述目标函数值的像素损失值；根据所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素对应的第二像素值，得到所述目标函数值的边缘损失值。本实施例同时引入像素损失和边缘损失，使得神经网络同时关注图像像素本身效果和物体边缘，深度图像更准确。

在一种实施例中，所述根据所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素的第二像素值，得到所述目标函数值的边缘损失值的步骤，包括：根据梯度图像生成方式，得到所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像；根据所述边缘损失函数，基于所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素的第二像素值，得到所述边缘损失值。本实施例基于梯度图像使得神经网络在训练过程中可以关注物体边缘。

在一种实施例中，所述梯度图像生成方式包括：获取深度图像中各像素的第一像素值；根据所述各像素的像素值，得到在预设方向上各像素与相邻像素之间的第一像素值差值；将所述各像素与相邻像素之间的第一像素值差值确定为各像素的第二像素值，生成深度图像对应的梯度图像。本实施例提供了一种具体的梯度图像生成方式，使得梯度图像的生成更简单。预设方向的数量可以是1个，也可以是2个以及2个以上，其可以根据具体的训练要求确定。

在一种实施例中，所述预设方向包括相交的第一方向和第二方向，所述梯度图像包括所述第一方向对应的第一梯度图像、以及所述第二方向对应的第二梯度图像。第一方向和第二方向可以是能够直观的反映出样本图像内物体边缘变化的方向，例如纵向或者横向，又例如以图像边缘呈45度角的方向等，本实施例考虑两个方向的梯度图像，在使得训练得到的神经网络的识别效果更准确的基础上，也降低了计算复杂度。在一种实施例中，所述基于所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素的第二像素值，得到所述边缘损失值的步骤，包括：根据所述估计梯度图像和所述实际梯度图像的各像素的第二像素值，确定各像素对应的第二像素值差异值；根据所述边缘损失函数，基于所述第二像素值差异值得到所述边缘损失值。本实施例提供了一种具体的边缘损失计算方式，计算简单。

在一种实施例中，所述根据所述估计深度图像与所述实际深度图像的各像素的第一像素值，得到所述目标函数值的像素损失值的步骤，包括：根据所述估计深度图像与所述实际深度图像的各像素的第一像素值，确定各像素对应的第一像素值差异值；根据所述像素损失函数，基于所述第一像素值差异值得到所述像素损失值。本实施例提供了一种具体的像素损失计算方式，计算简单。

204：获取目标图像。

在一种实施例中，终端11b在用户使用应用的自动化功能时，例如用户打开对战游戏的自动导航功能、VR应用的自动指引功能等，周期性(1秒)或者实时的对应用界面进行截图，通过交互请求将截图发送到业务服务器；业务服务器12a接收来自客户端的交互请求后，解析该请求以获取终端展示给用户的交互画面，确定为目标图像。

205：使用所述训练后的神经网络处理所述目标图像，生成所述目标图像的深度图像。

在一种实施例中，本步骤包括：根据所述训练后的神经网络的图像处理参数，对所述目标图像进行处理，得到所述目标图像对应的待识别图像；使得所述训练后的神经网络得到所述待识别图像对应的预测深度图像，作为所述目标图像的深度图像。本实施例提供了一种具体的使用神经网络的方式，基于本申请提供的神经网络，所得到的深度图像更准确。

本实施例提供了一种图像处理方法，该方法在进行神经网络训练时，独创性的引入了样本图像内物体的边缘损失目标，训练后的神经网络在输出深度图像时，会考虑目标图像内物体边缘，这样就可以最大程度的保证不会将同一物体错误的分割为几个部分，也不会将不同物体划分为一个整体，深度图像内不同物体之间的差异度更大，准确性更高。

上述实施例对本申请提供的图像处理方法进行了说明，为了使得本申请可以运用到实际场景中，在一些实施例中，本申请提供一种基于人工智能的交互控制方法，其包括以下步骤：

获取终端展示给用户的交互画面，确定为目标图像。

本步骤可以参考上述步骤204的实现。

通过图2所示实施例提供的图像处理方法，得到所述目标图像的深度图像。

本步骤可以参考上述步骤205的实现。

在一种实施例中，本步骤包括：根据深度图像，生成虚拟人物移动方向的控制指令等，以控制虚拟人物移动，或者生成虚拟物体的显示位置，以控制虚拟物体的显示。

为了简化下文描述，现结合附图针对本申请涉及的训练过程和使用过程进行描述。

基于上文描述，为了加快模型估计游戏图像深度的速度，本申请独创性的提供了一种轻量神经网络，减少了模型的计算复杂度。如图7a所示，该深度神经网络首先采用5个卷积层缩小输入的图像特征的尺度，同时提取图像的卷积特征，随后，采用5个上采样层提高特征的尺度，最终输出深度估计图；深度神经网络采用模型的结构如图7a所示，为了简便，没有展示激活层，除了最后一层，其它层后面都存在一个激活层该神经网络。

该神经网络的训练过程如图7b所示，将样本图像缩放至目标尺寸，例如256×256像素后，作为图7a所示神经网络的输入。神经网络对输入的图像进行特征提取处理之后，得到样本图像对应的估计深度图像。

如图7b所示，训练服务器先根据图8b所示的深度图像到梯度图像的生成方式，生成估计梯度图像和实际梯度图像。然后基于估计深度图像和实际深度图像、估计梯度图像和实际梯度图像构建损失函数。

在本申请实施例中，像素的第一像素值c1是指在深度图像中，该像素的亮度值，在8bit驱动方式中，该第一像素值c1的取值范围为0至255，在10bit驱动方式中，该第一像素值c1的取值范围为0至1023。而像素的第二像素值c2则是指在预设方向，例如纵向或者横向，在深度图像中，该像素的亮度值大小与前一像素的亮度值大小的差值的绝对值，例如在纵向上，像素i的亮度值大小为li，其前一像素i-1的亮度值大小为li-i，那么像素i对应的第二像素值c2为li和li-i之差的绝对值；当i＝1，即像素i为预设方向上的第一个像素时，直接将该像素对应的第二像素值c2设置为0或者最大值即可，可以根据是否需要突出图像边缘设置，在不需要突出图像边缘时，将该像素对应的第二像素值c2设置为0，在需要突出图像边缘时，将该像素对应的第二像素值c2设置为最大值；在8bit驱动方式中，该第二像素值c2的取值范围为0至255，在10bit驱动方式中，该第二像素值c2的取值范围为0至1023。

具体的，数据网络的目标是生成的深度图像与真实的深度图像尽量一致，同时物体边缘不要模糊，保留更多的物体边缘信息，为了得到这个要求，在训练过程中，整体的损失函数L由两部分损失组成：

L＝L_dep(y，y′)+L_grad(y，y′)

其中，y代表样本图像对应的真实的深度图像(即实际深度图像)，y’代表网络估计的深度图像(即估计深度图像)，深度图像的示例图如图8a所示，图8a中越亮的像素代表距离当前参考点越近，越暗的像素代表距离当前参考点越远，其中参考点一般为虚拟人物所在的位置。

其中，L_dep(y,y')即上文中的像素损失函数，代表深度图像之间的像素值(即上文中第一像素值)差的绝对值，L_grad(y,y')即上文中的边缘损失函数，代表梯度图像之间的像素值(即上文中第二像素值)差的绝对值。

其中，像素损失函数L_dep(y,y')的计算方式如下所示：

其中，n是图像的像素个数，y_p是实际深度图像中第p个像素对应的第一像素值，y'_p是估计深度图像中第p个像素对应的第一像素值，该损失的目标是减少网络估计深度图像与实际深度图像的像素差异。

边缘损失函数L_grad(y,y')是针对图像中物体边缘失真设计的损失项，目标是增加目标边缘的重要性，防止边缘模糊。其计算方式如下所示：

其中，f₁(y)是提取实际深度图像的横坐标方向的实际梯度图像，f₂(y)是提取实际深度图像的纵坐标方向的实际梯度图像，f₁(y′)是提取估计深度图像的横坐标方向的估计梯度图像，f₂(y′)是提取估计深度图像的纵坐标方向的估计梯度图像；|f₁(y)_p-f₁(y')_p|是计算横坐标方向的实际梯度图像的第p个像素的第二像素值和估计梯度图像的第p个像素的第二像素值差的绝对值，|f₂(y)_p-f₂(y')_p|是计算纵坐标方向的实际梯度图像的第p个像素的第二像素值和估计梯度图像的第p个像素的第二像素值差的绝对值。

如图8b所示，本申请将深度图像的像素p与左边像素的第一像素值(即灰度值)差作为横坐标方向像素p的梯度值(即第二像素值)，同时将深度图像的像素p与上方像素的第一像素值(即灰度值)差作为纵坐标方向像素p的梯度值(即第二像素值)。由于物体边缘部分的梯度较大，如果估计深度图像的边缘模糊，则与真实边缘的梯度差异较大，通过最小化该损失，能保留更多的物体边缘信息。如图8b所示，在梯度图像内，仅物体(例如人物、门、窗户等)的边缘亮度较大，即本申请基于该梯度图像可以最大程度的保留物体边缘信息。

最后，通过迭代损失L以训练轻量化模型，如果损失低于阈值，则停止模型训练，得到训练后的神经网络。

现结合具体的应用场景，对本申请做进一步的诠释说明。

图3是本申请实施例提供的交互控制方法的第一种流程示意图，请参阅图3，该交互控制方法包括以下步骤：

本实施例主要是针对交互应用为枪战游戏的场景进行描述。

301：采样客户端收集枪战游戏的游戏图像和对应的深度图像等样本数据。

在一种实施例中，本申请选择一种具备深度图像获取接口的枪战游戏作为目标应用。

针对该目标应用，采样客户端周期性的收集枪战游戏的局内游戏图像作为样本图像，在实际应用中，采样频率可以为1秒1帧，采样频率不能过快，以防止图像之间的相似度过高，游戏图像的冗余度过高。

客户端在收集游戏图像的同时，通过枪战游戏的应用接口得到各游戏图像对应的深度图像作为实际深度图像，深度图像中每个像素点的第一像素值对应物体和虚拟角色的距离，靠的越近，深度图像对应的点的值越高，值的范围在0到255，一共得到10000张局内枪战游戏样本和对应的深度图像作为样本图像和样本图像对应的实际深度图像。

302：采样客户端上传样本图像以及对应的实际深度图像至训练服务器。

在一种实施例中，客户端通过移动硬盘、U盘、有线或者无线方式，将样本图像以及对应的实际深度图像传输至训练服务器。

303：训练服务器进行神经网络的训练。

在一种实施例中，训练服务器将游戏图像进行缩放处理后，作为图7a所示神经网络的输入。神经网络对输入的图像进行特征提取处理之后，得到样本图像对应的估计深度图像。之后，如图7b所示，训练服务器先根据图8b所示的深度图像到梯度图像的生成方式，生成估计梯度图像和实际梯度图像。然后基于估计深度图像和实际深度图像、估计梯度图像和实际梯度图像构建损失函数，具体训练过程参见上文描述。最后，通过迭代损失函数L以训练轻量化模型，如果损失低于阈值，则停止模型训练，得到训练后的神经网络。

304：游戏客户端获取游戏截图。

在一种实施例中，用户在使用枪战游戏(可以与步骤301涉及的枪战游戏相同或者不同)的自动引导功能时，需要业务服务器根据游戏样本图像内物体与虚拟角色之间距离远近引导虚拟角色移动，此时，游戏客户端可以周期性的对游戏画面进行截图，得到游戏截图。

305：游戏客户端上传游戏截图到业务服务器。

在一种实施例中，游戏客户端基于无线方式，将游戏截图发送至业务服务器。

306：业务服务器根据游戏截图生成对应的控制指令。

在一种实施例中，业务服务器根据游戏截图确定应用类型，例如应用类型为枪战游戏，从训练服务器调用对应的训练后的神经网络。业务服务器将接收到的游戏截图作为目标图像进行缩放之后，作为该神经网络的输入，使用该神经网络处理目标图像得到对应的深度图像，该深度图像内各物体的物体边缘分明，损失少。最后基于深度图像确定离虚拟角色最远的物体，根据该物体与虚拟角色之间的相对位置生成控制指令，引导虚拟角色向该物体移动。

307：业务服务器向游戏客户端返回控制指令。

在一种实施例中，业务服务器通过无线网络实时将控制指令发送到游戏客户端。

308：游戏客户端执行控制指令。

在一种实施例中，游戏客户端在接收到控制指令之后，执行该控制指令以实现虚拟角色的自动化移动控制。

图4是本申请实施例提供的交互控制方法的第二种流程示意图，请参阅图4，该交互控制方法包括以下步骤：

本实施例主要是针对交互应用为VR应用的场景进行描述。

401：采样设备收集实际场景下的真实物体画面和对应的深度图像。

在一种实施例中，VR应用一般是将虚拟物体和真实物体进行结合展示，在展示虚拟物体时，会根据真实物体与当前位置之间的距离设置。

在一种实施例中，采样设备可以是具备超声波、红外等测距功能的摄像设备，该摄像设备通过在不同位置采集不同的真实物体画面，并基于超声波、红外等测距功能得到该真实物体画面中各物体到摄像设备之间的实际距离，然后对这个实际距离进行归一化处理得到各物体到摄像设备之间的相对距离，根据相对距离生成对应的深度图像。

402：采样设备上传样本图像以及对应的实际深度图像至训练服务器。

在一种实施例中，用户通过移动硬盘、U盘、有线或者无线方式，将采样设备采集到的样本图像以及对应的实际深度图像传输至训练服务器。

403：训练服务器进行神经网络的训练。

在一种实施例中，训练服务器将真实物体画面进行缩放处理后，作为图7a所示神经网络的输入。神经网络对输入的图像进行特征提取处理之后，得到样本图像对应的估计深度图像。之后，如图7b所示，训练服务器先根据图8b所示的深度图像到梯度图像的生成方式，生成估计梯度图像和实际梯度图像。然后基于估计深度图像和实际深度图像、估计梯度图像和实际梯度图像构建损失函数，具体训练过程参见上文描述。最后，通过迭代损失函数L以训练轻量化模型，如果损失低于阈值，则停止模型训练，得到训练后的神经网络。

404：VR设备获取真实图像并上传至业务服务器。

在一种实施例中，用户在使用VR功能时，需要业务服务器根据真实物体样本图像内物体到当前位置之间距离显示虚拟物体，VR设备使用后置摄像头采集到真实物体画面。

在一种实施例中，VR设备基于无线方式，将真实图像发送至业务服务器。

405：业务服务器根据真实图像生成对应的控制指令。

在一种实施例中，业务服务器根据真实图像确定应用类型，例如应用类型为虚拟显示VR，从训练服务器调用对应的训练后的神经网络。业务服务器将接收到的真实图像作为目标图像进行缩放之后，作为该神经网络的输入，使用该神经网络处理目标图像得到对应的深度图像，该深度图像内各物体的物体边缘分明，损失少。最后基于深度图像确定各物体到当前位置之间的相对距离，根据各物体到当前位置之间的相对距离，确定虚拟物体的显示位置。

406：业务服务器向VR设备返回控制指令。

在一种实施例中，业务服务器通过无线网络实时将控制指令发送到VR设备。

407：VR设备执行控制指令。

在一种实施例中，VR设备在接收到控制指令之后，执行该控制指令以在各虚拟物体对应的显示位置，显示对应的虚拟物体。

相应的，图5是本申请实施例提供的图像处理装置的结构示意图，请参阅图5，该图像处理装置包括以下模块：

数据获取模块501，用于获取训练样本以及训练目标，所述训练样本包括样本图像以及所述样本图像对应的实际深度图像，所述训练目标包括样本图像内物体边缘的损失目标；

构建模块502，用于构建神经网络；

训练模块503，用于使用所述训练样本训练所述神经网络，直至所述神经网络处理所述样本图像得到的估计深度图像与所述实际深度图像满足所述训练目标，得到训练后的神经网络；

第一获取模块504，用于获取目标图像；

第一处理模块505，用于使用所述训练后的神经网络处理所述目标图像，生成所述目标图像的深度图像。

在一种实施例，数据获取模块501具体用于：通过提供所述虚拟物体画面的应用的数据接口获取所述虚拟物体画面作为所述样本图像；通过所述数据接口获取所述虚拟物体画面对应的深度图像作为所述样本图像的实际深度图像。

在一种实施例，数据获取模块501具体用于：通过摄像设备获取所述真实物体画面作为所述样本图像；获取各真实物体与所述摄像设备之间的距离；根据所述各真实物体与所述摄像设备之间的实际距离，生成所述样本图像的实际深度图像。

在一种实施例，训练模块503具体用于：根据所述训练目标，构建目标函数；使用所述初始神经网络得到所述样本图像的估计深度图像；根据所述目标函数，得到所述估计深度图像与所述实际深度图像之间的目标函数值；根据所述训练目标中的训练结束条件、以及所述目标函数值，对所述初始神经网络进行迭代优化，直至训练结束得到所述训练后的神经网络。

在一种实施例，训练模块503具体用于：根据所述估计深度图像与所述实际深度图像的各像素的第一像素值，得到所述目标函数值的像素损失值；根据所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素对应的第二像素值，得到所述目标函数值的边缘损失值。

在一种实施例，训练模块503具体用于：根据梯度图像生成方式，得到所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像；根据所述边缘损失函数，基于所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素的第二像素值，得到所述边缘损失值。

在一种实施例，训练模块503具体用于：获取深度图像中各像素的第一像素值；根据所述各像素的像素值，得到在预设方向上各像素与相邻像素之间的第一像素值差值；将所述各像素与相邻像素之间的第一像素值差值确定为各像素的第二像素值，生成深度图像对应的梯度图像。

在一种实施例，训练模块503具体用于：根据所述估计梯度图像和所述实际梯度图像的各像素的第二像素值，确定各像素对应的第二像素值差异值；根据所述边缘损失函数，基于所述第二像素值差异值得到所述边缘损失值。

在一种实施例，训练模块503具体用于：根据所述估计深度图像与所述实际深度图像的各像素的第一像素值，确定各像素对应的第一像素值差异值；根据所述像素损失函数，基于所述第一像素值差异值得到所述像素损失值。

在一种实施例，第一处理模块505具体用于：根据所述训练后的神经网络的图像处理参数，对所述目标图像进行处理，得到所述目标图像对应的待识别图像；使得所述训练后的神经网络得到所述待识别图像对应的预测深度图像，作为所述目标图像的深度图像。

在一种实施例中，本申请实施例提供的基于人工智能的交互控制装置包括以下模块：

第二处理模块，用于通过上述任一实施例提供的图像处理方法，得到所述目标图像的深度图像；

相应的，本申请实施例还提供一种计算机设备，该计算机设备包括服务器或者终端(安装有客户端)等，以实现上述任一实施例中的图像处理装置或者交互控制装置。

如图6所示，该计算机设备可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

计算机设备还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。音频电路606包括扬声器，传声器可提供用户与计算机设备之间的音频接口。

WiFi属于短距离无线传输技术，计算机设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块607，但是可以理解的是，其并不属于计算机设备的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器608是计算机设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行计算机设备的各种功能和处理数据，从而对手机进行整体监控。

计算机设备还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，计算机设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，计算机设备中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现以下功能：

获取训练样本以及训练目标，所述训练样本包括样本图像以及所述样本图像对应的实际深度图像，所述训练目标包括样本图像内物体边缘的损失目标；

构建神经网络；

获取目标图像；

使用所述训练后的神经网络处理所述目标图像，生成所述目标图像的深度图像。或者实现以下功能：

通过提供所述虚拟物体画面的应用的数据接口获取所述虚拟物体画面作为所述样本图像；

通过提供所述虚拟物体画面的应用的数据接口获取所述虚拟物体画面对应的深度图像作为所述样本图像的实际深度图像。

或者实现以下功能：

通过摄像设备获取所述真实物体画面作为所述样本图像；

获取各真实物体与所述摄像设备之间的距离；

根据所述各真实物体与所述摄像设备之间的距离生成所述样本图像的实际深度图像。

或者实现以下功能：

根据所述训练目标，构建目标函数；

使用所述初始神经网络得到所述样本图像的估计深度图像；

根据所述目标函数，得到所述估计深度图像与所述实际深度图像之间的目标函数值；

根据所述训练目标中的训练结束条件、以及所述目标函数值，对所述初始神经网络进行迭代优化，直至训练结束得到所述训练后的神经网络。

或者实现以下功能：

根据所述估计深度图像与所述实际深度图像的各像素的第一像素值，得到所述目标函数值的像素损失值；

根据所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素对应的第二像素值，得到所述目标函数值的边缘损失值。

或者实现以下功能：

根据梯度图像生成方式，得到所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像；

根据所述边缘损失函数，基于所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素的第二像素值，得到所述边缘损失值。

或者实现以下功能：

获取深度图像中各像素的第一像素值；

根据所述各像素的像素值，得到在预设方向上各像素与相邻像素之间的第一像素值差值；

将所述各像素与相邻像素之间的第一像素值差值确定为各像素的第二像素值，生成深度图像对应的梯度图像。

或者实现以下功能：

根据所述估计梯度图像和所述实际梯度图像的各像素的第二像素值，确定各像素对应的第二像素值差异值；

根据所述边缘损失函数，基于所述第二像素值差异值得到所述边缘损失值。

或者实现以下功能：

根据所述估计深度图像与所述实际深度图像的各像素的第一像素值，确定各像素对应的第一像素值差异值；

根据所述像素损失函数，基于所述第一像素值差异值得到所述像素损失值。

或者实现以下功能：

根据所述训练后的神经网络的图像处理参数，对所述目标图像进行处理，得到所述目标图像对应的待识别图像；

使得所述训练后的神经网络得到所述待识别图像对应的预测深度图像，作为所述目标图像的深度图像。

或者实现以下功能：

获取终端展示给用户的交互画面，确定为目标图像；

通过上述任一实施例提供的图像处理方法，得到所述目标图像的深度图像；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文的详细描述，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以实现以下功能：

构建神经网络；

获取目标图像；

或者实现以下功能：

获取终端展示给用户的交互画面，确定为目标图像；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种方法中的步骤，因此，可以实现本申请实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

为此，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。例如，实现以下功能：

构建神经网络；

获取目标图像；

或者实现以下功能：

获取终端展示给用户的交互画面，确定为目标图像；

以上对本申请实施例所提供的一种图像处理方法及装置、交互控制方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

构建神经网络；

获取目标图像；

2.根据权利要求1所述的图像处理方法，其特征在于，所述样本图像包括虚拟物体画面，所述获取训练样本的步骤，包括：

通过所述数据接口获取所述虚拟物体画面对应的深度图像作为所述样本图像的实际深度图像。

3.根据权利要求2所述的图像处理方法，其特征在于，所述样本图像包括真实物体画面，所述获取训练样本的步骤，包括：

通过摄像设备获取所述真实物体画面作为所述样本图像；

获取各真实物体与所述摄像设备之间的距离；

根据所述各真实物体与所述摄像设备之间的实际距离，生成所述样本图像的实际深度图像。

4.根据权利要求1所述的图像处理方法，其特征在于，所述训练所述神经网络的步骤，包括：

根据所述训练目标，构建目标函数；

使用所述初始神经网络得到所述样本图像的估计深度图像；

5.根据权利要求4所述的图像处理方法，其特征在于，所述训练目标包括图像像素损失目标和样本图像内物体的边缘损失目标，所述目标函数包括像素损失函数和边缘损失函数，所述根据所述目标函数，得到所述估计深度图像与所述实际深度图像之间的目标函数值的步骤，包括：

6.根据权利要求5所述的图像处理方法，其特征在于，所述根据所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素的第二像素值，得到所述目标函数值的边缘损失值的步骤，包括：

7.根据权利要求6所述的图像处理方法，其特征在于，所述梯度图像生成方式包括：

获取深度图像中各像素的第一像素值；

8.根据权利要求7所述的图像处理方法，其特征在于，所述预设方向包括相交的第一方向和第二方向，所述梯度图像包括所述第一方向对应的第一梯度图像、以及所述第二方向对应的第二梯度图像。

9.根据权利要求6所述的图像处理方法，其特征在于，所述基于所述估计深度图像对应的估计梯度图像和所述实际深度图像对应的实际梯度图像的各像素的第二像素值，得到所述边缘损失值的步骤，包括：

10.根据权利要求5所述的图像处理方法，其特征在于，所述根据所述估计深度图像与所述实际深度图像的各像素的第一像素值，得到所述目标函数值的像素损失值的步骤，包括：

11.根据权利要求1至10任一项所述的图像处理方法，其特征在于，所述使用所述训练后的神经网络处理所述目标图像，生成所述目标图像的深度图像的步骤，包括：

使得所述训练后的神经网络处理所述待识别图像得到所述待识别图像对应的预测深度图像，作为所述目标图像的深度图像。

12.一种基于人工智能的交互控制方法，其特征在于，包括：

获取终端展示给用户的交互画面，确定为目标图像；

通过如权利要求1至11任一项所述的图像处理方法，得到所述目标图像的深度图像；

13.一种图像处理装置，其特征在于，包括：

构建模块，用于构建神经网络；

第一获取模块，用于获取目标图像；

14.一种基于人工智能的交互控制装置，其特征在于，包括：

第二处理模块，用于通过如权利要求1至11任一项所述的图像处理方法，得到所述目标图像的深度图像；