CN110401810A

CN110401810A - 虚拟画面的处理方法、装置、系统、电子设备及存储介质

Info

Publication number: CN110401810A
Application number: CN201910578502.5A
Authority: CN
Inventors: 贺杰; 戴景文
Original assignee: Guangdong Virtual Reality Technology Co Ltd
Current assignee: Guangdong Virtual Reality Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-01
Anticipated expiration: 2039-06-28
Also published as: CN110401810B

Abstract

本申请公开了一种虚拟画面的处理方法、装置、系统、电子设备及存储介质。该方法包括：生成虚拟画面，所述虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象；接收所述一个或多个终端设备对应的语音数据；对所述语音数据进行语音分析，得到分析结果；基于所述分析结果，确定所述虚拟画面中的目标虚拟对象；基于所述目标虚拟对象，对所述虚拟画面进行预设调整，所述预设调整用于突出所述目标虚拟对象。本方法可以根据一个或多个终端设备的语音数据，对显示的虚拟画面进行控制，提高虚拟画面显示效果。

Description

虚拟画面的处理方法、装置、系统、电子设备及存储介质

技术领域

本申请涉及显示技术领域，更具体地，涉及一种虚拟画面的处理方法、装置、系统、电子设备及存储介质。

背景技术

由于通讯技术的发展，远程会议、远程协助、远程教育等远程会话场景已经越来越深入到人们的生活之中，但是传统远程会话通常是以语音通信的方式进行，或是利用摄像头实时采集会话参与者的画面进行视频通信，也可以是文字通信等。传统的远程会话通信方式单一，沉浸感较差。

发明内容

本申请实施例提出了一种虚拟画面的处理方法、装置、系统、电子设备及存储介质，能够利用增强现实/虚拟现实显示技术构建虚拟远程会话场景，提高远程会话场景中的视觉效果。

第一方面，本申请实施例提供了一种虚拟画面的处理方法，方法包括：生成虚拟画面，虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象；接收一个或多个终端设备对应的语音数据；对语音数据进行语音分析，得到分析结果；基于分析结果，确定虚拟画面中的目标虚拟对象；基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象。

第二方面，本申请实施例提供了一种虚拟画面的处理装置，装置包括：画面生成模块、数据接收模块、数据分析模块、内容确定模块以及内容调整模块，其中，画面生成模块用于生成虚拟画面，虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象；数据接收模块用于接收一个或多个终端设备对应的语音数据；数据分析模块用于对语音数据进行语音分析，得到分析结果；内容确定模块用于基于分析结果，确定虚拟画面中的目标虚拟对象；内容调整模块用于基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象。

第三方面，本申请实施例提供了一种虚拟画面的处理系统，系统包括终端设备以及服务器，其中：终端设备用于生成虚拟画面并将虚拟画面进行显示，虚拟画面包括远程会话中的其他一个或多个终端设备中每个终端设备对应的虚拟对象；终端设备还用于采集语音数据，并上传语音数据至服务器；服务器用于同步远程会话中的多个终端设备的语音数据；终端设备还用于对同步的语音数据进行语音分析，得到分析结果，基于分析结果，确定虚拟画面中的目标虚拟对象，并基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象。

第五方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述第一方面提供的虚拟画面的处理方法。

第六方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述第一方面提供的虚拟画面的处理方法。

本申请实施例提供的方案，通过生成虚拟画面，虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象，接收一个或多个终端设备对应的语音数据，对语音数据进行语音分析，得到分析结果，基于分析结果，确定虚拟画面中的目标虚拟对象，基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象，从而在增强现实/虚拟现实场景下，可根据远程会话中各个用户的声音信息，对显示的虚拟画面的进行操作处理，增强了远程会话对应的虚拟画面的显示效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了另一种适用于本申请实施例的应用环境示意图。

图3示出了根据本申请一个实施例的虚拟画面的处理方法流程图。

图4示出了根据本申请实施例的一种显示效果示意图。

图5示出了根据本申请实施例的另一种显示效果示意图。

图6示出了根据本申请另一个实施例的虚拟画面的处理方法流程图。

图7示出了根据本申请实施例的一种显示效果示意图。

图8示出了根据本申请一个实施例的虚拟画面的处理装置的框图。

图9是本申请实施例的用于执行根据本申请实施例的虚拟画面的处理方法的终端设备的框图。

图10是本申请实施例的用于执行根据本申请实施例的虚拟画面的处理方法的服务器的框图。

图11是本申请实施例的用于保存或者携带实现根据本申请实施例的虚拟画面的处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面对本申请实施例提供的虚拟画面的处理方法的应用场景进行介绍。

请参见图1，示出了本申请实施例提供的虚拟场景的处理方法的应用场景的示意图，该应用场景包括交互系统10，该交互系统10可以应用于远程会话。该交互系统10包括：一个或多个终端设备100以及服务器200，其中，终端设备100与服务器200连接。

在一些实施方式中，终端设备100通过网络与服务器200通信连接，从而终端设备100与服务器200之间可以进行数据交互。其中，终端设备100可以通过接入路由器所在网络，而通过路由器所在网络与服务器200之间的通信，也可以通过数据网络与服务器200之间进行通信。

在一些实施方式中，终端设备100可以是头戴显示装置，也可以是手机、平板等移动设备。终端设备100为头戴显示装置时，头戴显示装置可以为一体式头戴显示装置。终端设备100也可以是与外接式/接入式头戴显示装置连接的手机等智能终端设备，即终端设备100可作为头戴显示装置的处理和存储设备，插入或者接入外接式头戴显示装置，在头戴显示装置中对虚拟内容进行显示。在远程会话中，终端设备100可用于对远程会话的虚拟会话场景进行显示，实现将虚拟会话场景的场景画面进行AR(Augmented Reality，增强现实技术)显示或者VR(Virtual Reality，虚拟现实技术)显示，提升远程会话中场景画面的显示效果。当然，终端设备100也可以是电脑、平板电脑、电视等显示设备，终端设备100可以将虚拟会话场景对应的2D画面进行显示。

在一些实施方式中，终端设备100可以采集远程会话中的信息数据(例如，采集用户的脸部信息、声音数据等)，以根据该信息数据构建三维模型。在另一些实施方式中，终端设备100也可以根据预先存储的脸部信息、声音数据、身体模型等信息数据进行建模，也可以结合预先存储的信息数据以及采集到的信息数据进行建模。例如，终端设备100可以实时采集人脸信息建立脸部模型，其中，人脸信息可以包括表情信息以及形态动作信息(如偏头、点头等)，然后再将脸部模型与预先设定的身体模型进行整合，节省了建模、渲染的时间的同时，也能实时获取用户的表情、形态动作。在一些实施方式中，终端设备100可以将上述采集的信息数据传输至服务器200或者其他终端设备100。

在一些实施方式中，请参阅图2，交互系统100也还可以包括信息采集装置300，信息采集装置300用于采集上述信息数据(例如，采集用户的脸部信息、声音数据等)，并将采集的信息数据传输至终端设备100或者服务器200，在一些实施方式中，信息采集装置可包括摄像头、音频模块等，也可包括光传感器、声传感器等各类传感器。作为一种具体的实施方式，信息采集装置300可以是具有普通彩色相机(RGB)和深度相机(Depth)功能的拍摄设备(如RGB-D深度相机)，以获取被拍摄的用户的深度数据，从而得到用户对应的三维结构。在一些实施方式中，终端设备100和信息采集装置300处于同一现场，终端设备100与信息采集装置300之间可进行通信连接，也可以不进行通信连接。

在一些实施方式中，上述服务器200可以是本地服务器，也可以是云服务器，具体服务器200的类型在本申请实施例中可以不作为限定。在远程会话中，服务器200可用于实现多个终端设备100/信息采集装置之间的数据交互，从而保证多个终端设备100/信息采集装置之间的数据传输和同步，实现远程会话中虚拟会话场景、音视频数据的同步、终端设备100/信息采集装置之间的数据传输等。

在一些实施方式中，当远程会话中的多个终端设备100中存在至少两个终端设备100处于同一现场环境(例如，处于同一室内)时，处于同一现场环境的至少两个终端设备100之间也可以通过蓝牙、WiFi(Wireless-Fidelity，无线保真)、ZigBee(紫峰技术)等通信方式连接，也可以通过数据线等有线通信方式进行连接，从而实现处于同一现场环境的至少两个终端设备100之间数据的交互。当然，处于同一现场环境的至少两个终端设备100之间的连接方式在本申请实施例中可以不作为限定。

下面对具体的虚拟画面的处理方法进行介绍。

请参阅图3，本申请实施例提供了一种虚拟画面的处理方法，该方法可以包括：

步骤S110：生成虚拟画面，该虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象。

远程会话指的是通过数据通信建立的多端进行远程交互、通讯的过程，虚拟对象可用于表示使用终端设备参与同一远程会话中的用户，该虚拟对象可以是使用终端设备的用户对应的3D(3Dimensions，三维)虚拟人物，其中，该3D虚拟人物可以是用户的3D仿真影像，也可以是3D卡通人物形象；上述虚拟对象也可以是与该终端设备关联的虚拟文档、虚拟图片、虚拟聊天窗口、虚拟个人信息、3D虚拟物体等虚拟内容，在此不作限定。不同场景下的远程会话，虚拟对象可不同，例如远程聊天场景、远程会议场景、远程协助场景等，虚拟画面可分别包含不同的虚拟对象。

在一些实施例中，上述虚拟画面可由终端设备根据其他终端设备的数据信息进行构建，并根据终端设备的位置及姿态信息进行渲染生成。作为一种方式，可以是参与远程会话的所有终端设备上传数据信息至服务器，以便各个终端设备可以从服务器下载其他终端设备上传的数据信息，然后基于其他终端设备的数据信息构建虚拟画面，并结合自己的位置及姿态信息进行渲染生成。在一些实施方式中，数据信息可以是分享的文档、视频、图片、3D人物、3D物体等对应的数据信息，也可以是终端设备所处环境的信息采集装置(如摄像头、图像传感器)采集到的场景图像、人脸图像、音频等对应的数据信息，在此不做限定。作为另一种方式，也可以是各个终端设备所处环境的信息采集装置，直接将采集到的数据信息上传至服务器，从而各个终端设备可以从服务器下载其他终端设备所处环境的信息采集装置上传的数据信息，然后基于信息采集装置采集的数据信息构建虚拟画面，并结合自己的位置及姿态信息进行渲染生成。

在一些实施例中，终端设备生成虚拟画面时，还可根据其他终端设备上传的数据信息，进行位置排布处理。例如，在虚拟远程会议场景中时，将各个终端设备对应的用户的3D仿真影像按照会议桌的座位方位进行排布，从而提高虚拟远程会议场景的真实感。

在一些实施例中，终端设备也可以根据自己对应的数据信息以及其他终端设备对应的数据信息构建虚拟画面。例如，参会人员甲进行内容分享时，生成的虚拟画面可以为参会人员甲分享的虚拟内容以及其他参会人员对应的3D仿真影像。

在一些实施例中，该虚拟画面也可以是先由服务器根据远程会话中的所有终端设备上传的数据信息构建生成虚拟画面后，各个终端设备从服务器处下载该虚拟画面中其他终端设备对应的虚拟内容的显示数据，以根据自身的位置及姿态信息重新渲染生成虚拟画面，即终端设备不同的位置及姿态信息，对应渲染不同的虚拟画面。其中，该显示数据可包括虚拟内容的模型数据，模型数据为用于渲染虚拟内容的数据。例如，模型数据可包括用于建立虚拟内容对应的颜色数据、顶点坐标数据、轮廓数据等。

例如，请参阅图4，AR远程会议场景下，终端设备100为头戴显示装置，参会人员甲401和参会人员乙402处于真实环境下的会议桌的不同位置，其他会议参与者不在该会议桌旁，而是远程参与会议，参会人员甲401和参会人员乙402通过佩戴的头戴显示装置，看到的虚拟画面可以为其他会议参与者中每个会议参与者对应的3D虚拟人物310。

步骤S120：接收一个或多个终端设备对应的语音数据。

在一些实施例中，终端设备可以实时采集所处现实场景中的语音数据，并实时上传至服务器，从而服务器可将该语音数据同步至远程会话中其他终端设备。同时终端设备也可以通过服务器获取远程会话中其他终端设备中每个终端设备上传的语音数据，以便各个用户都可实时获知远程会话中的其他用户的语音内容，保证了虚拟远程会话中用户之间的实时沟通。

在另一些实施例中，终端设备对应的语音数据也可以是通过终端设备所处环境的信息采集装置(录音设备、麦克风等)进行采集，信息采集装置将采集到的语音数据上传至服务器，从而服务器进行语音数据同步。

步骤S130：对语音数据进行语音分析，得到分析结果。

在一些实施例中，终端设备在获取到当前场景的语音数据以及远程会话中其他终端设备对应的语音数据时，可以对语音数据进行语音分析，以便后续终端设备可根据分析结果进行进一步的信息确认，例如，确认当前正讲授或讲演的用户(下述称主讲用户)。其中，分析结果可包括语音数据的内容、持续时长、音量大小等参数，在此不作限定。

步骤S140：基于分析结果，确定虚拟画面中的目标虚拟对象。

在一些实施例中，终端设备可根据上述得到的分析结果，确定虚拟画面中的目标虚拟对象，以确定出当前用户需要关注的焦点内容，避免由于虚拟画面中内容过多，导致用户无法及时提取重要信息的情况。其中，上述目标虚拟对象可以是主讲用户对应的虚拟对象，也可以是主讲用户所介绍的虚拟内容，还可以是主讲用户重点强调的虚拟内容，在此不做限定。

例如，当虚拟对象为用户对应的3D虚拟人物时，终端设备可以根据远程会话中各个终端设备对应的用户的语音数据进行分析，以确定出远程会话中的主讲用户，从而可确定虚拟画面中主讲用户对应的3D虚拟人物。

步骤S150：基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象。

在一些实施例中，终端设备可根据确定出的目标虚拟对象，对显示的虚拟画面进行预设调整，以突出该目标虚拟对象。从而在虚拟远程会话场景中，通过对各个用户的语音数据进行语音分析，实现对焦点内容的确认，并实现焦点内容的突出显示，在增强远程会话的真实感的同时，体现出了用户需要关注的焦点内容。

其中，终端设备对显示的虚拟画面进行预设调整，可以是通过调整虚拟画面的清晰度、亮度等参数，以突出显示虚拟画面中的目标虚拟对象。

例如，请参见图5，在远程协助的场景中，当前显示的虚拟画面300有四个部分，包括故障说明、解决方案、操作步骤及工具介绍，当远程的终端设备对应的语音数据中提及关键词“故障说明”时，调整故障说明部分320的颜色为灰色，其余部分降低清晰度，从而突出显示了故障说明部分320，体现出了用户需要关注的焦点内容。

在一些实施例中，上述对虚拟画面的生成、调整、以及对语音数据的分析等所有的处理操作也可均由服务器完成。服务器根据远程会话中各个终端设备的数据信息生成虚拟画面，并将虚拟画面传送至相应终端设备进行显示，可接收各个终端设备对应的语音数据，并对语音数据进行分析得到分析结果。服务器可基于分析结果确定虚拟画面中的目标虚拟对象，并基于目标虚拟对象对虚拟画面进行预设调整，可将预设调整后的虚拟画面对应给终端设备，终端设备可显示调整后的虚拟画面。

本申请实施例提供的虚拟画面的处理方法，通过生成虚拟画面，该虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象，接收一个或多个终端设备对应的语音数据，对语音数据进行语音分析，得到分析结果，基于分析结果，确定虚拟画面中的目标虚拟对象，并基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象，从而在增强现实/虚拟现实场景下，可根据远程会话中各个用户的声音信息，实现对焦点内容的确认，并实现焦点内容的突出显示，在增强远程会话的真实感的同时，体现出了用户需要关注的焦点内容，增强了远程会话对应的虚拟画面的显示效果，也体现了远程用户与虚拟画面的交互。

请参阅图6，本申请另一实施例提供了一种虚拟画面的处理方法，该方法可以包括：

步骤S210：生成虚拟画面，虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象。

在一些实施例中，上述虚拟画面的生成操作由服务器完成时，该虚拟画面的处理方法还可以包括：

将虚拟画面对应的第一内容数据发送至目标设备，第一内容数据用于指示目标设备显示虚拟画面。

其中，目标设备指的是需要进行虚拟画面显示的终端设备，该目标设备可为上述一个或多个终端设备中的任一个设备。

在一些实施方式中，服务器可根据远程会话中各个终端设备上传的数据信息生成虚拟画面，即服务器可根据目标设备以及其他终端设备上传的数据信息生成虚拟画面，并可将生成的虚拟画面对应的第一内容数据发送至目标设备。其中，该第一内容数据可以包括显示画面中各个像素点的RGB值及对应的像素点坐标等，目标设备可根据该第一内容数据获取显示画面，并将显示画面通过显示屏或投射模组投射到显示镜片上，从而显示出虚拟画面。作为一种具体实施方式，当目标设备为AR技术的头戴显示装置时，用户通过佩戴的头戴显示装置的显示镜片，可以看到虚拟画面显示叠加于真实世界的效果。当目标设备为电脑、平板电脑、电视等显示设备时，用户可直接看到显示屏显示的虚拟画面。

在一些实施例中，当远程会话中的参与者较多时，虚拟画面可能仅显示部分终端设备对应的虚拟对象。因此，服务器可实时获取目标设备的位置及姿态信息，以根据目标设备的位置及姿态信息，调整虚拟画面中的虚拟内容，对应显示虚拟画面。这样，虽然用户通过佩戴的头戴显示装置，仅能看到显示在当前视野范围内的部分虚拟对象，但是用户可通过改变头戴显示装置的位置及姿态信息，以看到远程会话中的所有其他用户的终端设备对应的虚拟对象。例如，请参阅图7，在远程会议场景下，P2用户为真实世界中的参会人员，P2用户通过佩戴的头戴显示装置，在该姿态及位置下，可以看见的虚拟参会人员为P5用户、P6用户、P7用户对应的虚拟对象，以及P1用户对应的部分虚拟对象，当P2用户向左转动头部时，也可以看见P0用户等其他用户。

步骤S220：接收一个或多个终端设备对应的语音数据。

在一些实施例中，上述语音数据可以是通过终端设备上的传感器阵列或者麦克风的收音装置进行采集。其中，传感器阵列包括声音传感器。

在一些实施例中，终端设备可将采集到的语音数据以及对应的标识信息上传至服务器，以便后续可根据语音数据对应的标识信息确定用户身份。其中，该标识信息用于标识语音数据，可以包括终端设备的设备ID(IDentity，身份标识号码)，也可以包括终端设备对应的用户的用户ID，在此不作限定。

步骤S230：对语音数据进行语音分析，得到分析结果。

在本申请实施例中，可通过语音分析，获知各个终端设备对应的语音数据的详细信息。作为一种实施方式，上述分析结果可包括：每个终端设备对应的语音数据的语音参数，语音参数至少包括语音音量以及语音持续时间中的一种。作为另一种实施方式，上述分析结果可包括：每个终端设备对应的语音数据的语音识别结果。

在一些实施例中，终端设备得到分析结果时，可以将该分析结果进行显示，使用户可以根据语音数据的语音音量大小，适当调整播放音量，也可以根据语音持续时间长短，决定是否进行录音存储，也可以根据语音识别结果进行文字存储。

进一步的，在一些远程会议的应用场景中，当终端设备所处现场存在多人时，终端设备采集到的语音数据可能会是多个人的语音数据，导致无法准确获取分辨终端设备对应的语音数据。因此，在一些实施例中，可先对语音数据进行比对，以获取终端设备对应的用户的目标语音数据，然后再对目标语音数据进行语音分析，提高了分析结果的准确性。

具体地，获取语音数据对应的终端设备的标识信息，可以提取语音数据中的至少一个声纹信息，然后将至少一个声纹信息和预设声纹信息进行对比，以获取至少一个声纹信息中与预设声纹信息匹配的目标声纹信息，并从语音数据中提取与目标声纹信息对应的目标语音数据，从而可从终端设备采集到的多个人的语音数据中，提取出使用终端设备的用户的语音数据。其中，预设声纹信息为终端设备对应的用户的声纹信息，预设声纹信息与标识信息对应。作为一种实施方式，可以将预设声纹信息与上述用户ID绑定，这样，在接收到语音数据以及对应的用户ID时，可根据该用户ID确定预设声纹信息，并根据该预设声纹信息进行声纹对比。

在一些实施例中，上述声纹对比操作可以由终端设备完成，也可以由服务器完成，在此不作限定。

在一些实施例中，上述语音分析由服务器完成时，服务器可以将分析结果实时发送给各个终端设备，以使终端设备根据分析结果，进行后续处理。

步骤S240：基于分析结果，确定虚拟画面中的目标虚拟对象。

在一些实施例中，终端设备可以根据语音数据中的关键字，确定用户需要关注的焦点内容。具体地，当分析结果包括每个终端设备对应的语音数据的语音识别结果时，上述基于分析结果，确定虚拟画面中的目标虚拟对象可包括：基于语音识别结果，获取语音数据中的关键词；确定虚拟画面中与关键词匹配的目标虚拟对象。其中，语音识别结果可以是对语音数据进行语音转文本处理后，得到的与语音数据对应的文本信息。

终端设备可根据自己和其他终端设备的语音数据的语音识别结果，进行关键词提取。作为一种方式，可以首先将文本信息对应的语句进行分词，获得多个词组，然后对多个词组中的关键词进行提取。其中，对多个词组中的关键词进行提取，可以是基于统计特征的关键词抽取(特征可以是词位置、词性、词频、词与词的关联程度信息等)、基于词图模型的关键词抽取(语法网络图、语义网络图等)或基于主题模型的关键词抽取等，在此不作限定。当提取的关键词与显示的虚拟画面中的任一部分内容匹配时，将匹配的部分内容作为目标虚拟对象，该目标虚拟对象即为用户需要关注的焦点内容。其中，不同的虚拟画面可对应存储有不同的关键词，终端设备可通过将提取的关键词与存储的关键词进行比对，以获取与提取的关键词匹配的存储的关键词，从而获取到匹配的虚拟画面，并将匹配的虚拟画面作为目标虚拟对象，该目标虚拟对象即为用户需要关注的焦点内容。其中，终端设备显示的虚拟画面可以包括其他终端设备分享的内容，例如文档、幻灯片、图片等。

例如，在远程会话的远程协助的场景中，目标设备当前显示的虚拟画面有四个部分，包括故障说明、解决方案、操作步骤及工具介绍，当其他终端设备对应的语音数据中提及关键词“故障说明”时，目标设备可确定用户需要关注的焦点内容为虚拟画面中的故障说明部分。

在另一些实施例中，终端设备可以根据语音音量或者语音持续时间，确定远程会话中的主讲用户，根据主讲用户确定用户需要关注的焦点内容。具体地，当分析结果包括每个终端设备对应的语音数据对应的语音参数时，上述基于分析结果，确定虚拟画面中的目标虚拟对象可包括：基于语音参数，确定兴趣终端设备，兴趣终端设备对应的语音数据的语音音量最大或者语音持续时间最长；确定虚拟画面中与兴趣终端设备对应的虚拟对象为目标虚拟对象。这样，根据每个终端设备的语音数据的语音音量或者语音持续时间，可以确定出语音音量最大或者语音持续时间最长的语音数据对应的兴趣终端设备，即确定出主讲用户，从而将兴趣终端设备对应的虚拟对象作为用户需要关注的焦点内容。其中，目标虚拟对象可以为主讲用户的3D虚拟人物，也可以为主讲用户分享的虚拟文档、虚拟图片、虚拟视频等。

进一步地，当目标虚拟对象的内容较多时，如虚拟文档、虚拟幻灯片时，终端设备还可以根据对主讲用户的语音数据进行语音识别，以根据语音识别结果提取关键词，将目标虚拟对象中与关键词匹配的虚拟内容作为用户需要关注内容。

在一些实施例中，当远程会话中的参与用户人数较多时，当前显示的虚拟画面可能不包含与上述目标虚拟对象，因此，该虚拟画面的处理方法还可以包括：当虚拟画面中不包含目标虚拟对象时，生成提示信息，提示信息用于提示改变目标设备的位置及姿态信息，目标设备为显示虚拟画面的终端设备。

由于虚拟画面可根据目标设备的位置及姿态信息进行生成，姿态信息可包括目标设备设备的旋转角度信息，因此，用户可通过转动佩戴头戴显示装置的头部来看到不同的虚拟画面。当当前显示的虚拟画面不包含与目标虚拟对象时，可生成提示信息，以提醒用户转动头部，改变目标设备的位置及姿态信息，从而在显示的新的虚拟画面中确定出目标虚拟对象。在一些实施方式中，该提示信息可由终端设备叠加显示于虚拟画面上，可以是虚拟提示框、虚拟箭头等，在此不作限定。例如，该提示信息也可以是振动指令，以使终端设备进行振动提醒。

作为一种实施方式，终端设备也可以根据目标虚拟对象与目标设备的位置及姿态信息的对应关系，确定出目标设备需要旋转移动的方向，从而根据该方向生成提示信息，以准确提醒用户转动头部的方向。

步骤S250：基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象。

作为一种实施方式，上述对虚拟画面进行预设调整，可包括：增加目标虚拟对象的清晰度值。例如，将目标虚拟对象高清显示，对目标虚拟对象进行明暗修改、彩度和色度的修改等，在此不作限定，仅需提高目标虚拟对象的清晰度即可。

作为另一种实施方式，上述对虚拟画面进行预设调整，可包括：降低虚拟画面中除目标虚拟对象外的其他虚拟对象的清晰度值。例如，将其他虚拟对象模糊显示或者不显示，提高其他虚拟对象的透明程度，对其他虚拟对象进行明暗修改、彩度和色度的修改等，在此不作限定，仅需降低其他虚拟对象的清晰度即可。

作为又一种实施方式，上述对虚拟画面进行预设调整，可包括：将目标虚拟对象进行高亮显示。例如，增加背景层，加粗目标虚拟对象的线条等，在此不作限定，仅需提高目标虚拟对象的清晰度即可。

作为再一种实施方式，上述对虚拟画面进行预设调整，可包括：将目标虚拟对象进行图标标记。例如，增加箭头指向、下划线、方框等，在此不作限定，仅需提高目标虚拟对象的清晰度即可。

当然，上述对虚拟画面进行预设调整仅为举例，具体对虚拟画面的预设调整在本申请实施例中可以不作为限定。例如，可以是放大目标虚拟对象、缩小其他虚拟对象，也可以是将目标虚拟对象显示在虚拟画面的中心位置。

可以理解的是，上述对虚拟画面进行预设调整可以是上述实施方式中的一种或多种的组合，在此不作限定。例如，增加目标虚拟对象的清晰度值的同时减少其他虚拟对象的清晰度值。

在一些实施例中，上述虚拟画面的预设调整操作由服务器完成时，该虚拟画面的处理方法还可以包括：将预设调整后的虚拟画面对应的第二内容数据发送至目标设备，第二内容数据用于指示目标设备显示调整后的虚拟画面。具体步骤可以参阅上述将第一内容数据发送至目标设备的步骤，在此不再赘述。

在一些实施例中，上述对兴趣终端设备和关键字的获取、声纹信息的匹配、以及对虚拟画面的生成和调整等所有的处理操作也可均由服务器完成。服务器可接收各个终端设备对应的语音数据，并对语音数据进行分析，得到每个终端设备对应的语音数据的语音参数或语音识别结果等分析结果。服务器也可先从语音数据中提取与预设声纹信息对应的目标语音数据，然后再对目标语音数据进行语音分析，得到上述分析结果。服务器可基于分析结果确定虚拟画面中的目标虚拟对象，并基于目标虚拟对象对虚拟画面进行预设调整，可将预设调整后的虚拟画面对应给终端设备，终端设备可显示调整后的虚拟画面。

本申请实施例提供的虚拟画面的处理方法，通过对远程会话中一个或多个终端设备中每个终端设备对应的语音数据进行语音分析，然后基于分析结果，确定目标虚拟对象，其中，分析结果可包括语音音量、语音持续时间以及语音识别结果，并基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象，从而在增强现实/虚拟现实场景下，可根据远程会话中各个用户的声音信息，实现对焦点内容的确认，并实现焦点内容的突出显示，在增强远程会话的真实感的同时，体现出了用户需要关注的焦点内容，增强了远程会话对应的虚拟画面的显果，也体现了远程用户与虚拟画面的交互。

请参阅图8，其示出了本申请实施例提供的一种虚拟画面的处理装置500的结构框图，该装置可以包括：画面生成模块510、数据接收模块520、数据分析模块530、内容确定模块540以及内容调整模块550。其中，画面生成模块510用于生成虚拟画面，虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象；数据接收模块520用于接收一个或多个终端设备对应的语音数据；数据分析模块530用于对语音数据进行语音分析，得到分析结果；内容确定模块540用于基于分析结果，确定虚拟画面中的目标虚拟对象；内容调整模块550用于基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象。

在一些实施例中，数据分析模块530中的分析结果，可以包括：每个终端设备对应的语音数据的语音参数，语音参数至少包括语音音量以及语音持续时间中的一种。内容确定模块540可以具体用于：基于语音参数，确定兴趣终端设备，兴趣终端设备对应的语音数据的语音音量最大或者语音持续时间最长；确定虚拟画面中与兴趣终端设备对应的虚拟对象为目标虚拟对象。

在一些实施例中，该虚拟画面的处理装置500还可以包括：提示模块。该提示模块用于当虚拟画面中不包含目标虚拟对象时，生成提示信息，提示信息用于提示改变目标设备的位置及姿态信息，目标设备为显示虚拟画面的终端设备。

在一些实施例中，数据分析模块530中的分析结果，也可以包括：每个终端设备对应的语音数据的语音识别结果。内容确定模块540可以具体用于：基于语音识别结果，获取语音数据中的关键词；确定虚拟画面中与关键词匹配的目标虚拟对象。

在一些实施例中，该虚拟画面的处理装置500还可以包括：声纹提取模块、声纹比对模块、目标语音获取模块。其中，声纹提取模块用于获取语音数据对应的终端设备的标识信息，并提取语音数据中的至少一个声纹信息；声纹比对模块用于将至少一个声纹信息和预设声纹信息进行对比，预设声纹信息与标识信息对应；目标语音获取模块用于获取至少一个声纹信息中与预设声纹信息匹配的目标声纹信息，并从语音数据中提取与目标声纹信息匹配的目标语音数据。数据分析模块530可以具体用于：对目标语音数据进行语音分析，得到分析结果。

在一些实施例中，内容调整模块550基于目标虚拟对象，对虚拟画面进行预设调整，可以包括：增加目标虚拟对象的清晰度值；或者减少虚拟画面中除目标虚拟对象外的其他虚拟对象的清晰度值；或者将目标虚拟对象进行高亮显示；或者将目标虚拟对象进行图标标记。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上，本申请实施例提供的一种虚拟画面的处理装置，通过生成虚拟画面，虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象，接收一个或多个终端设备对应的语音数据，对语音数据进行语音分析，得到分析结果，基于分析结果，确定虚拟画面中的目标虚拟对象，基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象，从而在增强现实场景下，可根据远程会话中各个用户的声音信息，实现对焦点内容的确认，并实现焦点内容的突出显示，在增强远程会话的真实感的同时，体现出了用户需要关注的焦点内容，在增强远程会话的真实感的同时，增强了远程会话对应的虚拟画面的显示效果，也体现了远程用户与虚拟画面的交互。

请再次参阅图1，本申请实施例提供了一种虚拟画面的处理系统10，系统包括终端设备100以及服务器200，其中：

终端设备100用于生成虚拟画面并将虚拟画面进行显示，虚拟画面包括远程会话中的其他一个或多个终端设备100中每个终端设备100对应的虚拟对象；

终端设备100还用于采集语音数据，并上传语音数据至服务器200；

服务器200用于同步远程会话中的多个终端设备100的语音数据；

终端设备100还用于对同步的语音数据进行语音分析，得到分析结果，基于分析结果，确定虚拟画面中的目标虚拟对象，并基于目标虚拟对象，对虚拟画面进行预设调整，预设调整用于突出目标虚拟对象。

在一些实施方式中，终端设备100可以外接式/接入式的头戴显示装置，头戴显示装置与服务器200连接。其中，头戴显示装置可以仅完成虚拟画面的显示，上述关于对语音数据的语音分析以及对虚拟画面的显示、调整等所有的处理操作，均可由服务器200完成，服务器200在生成虚拟画面后，将虚拟画面对应的显示画面传输至头戴显示装置，即可完成虚拟画面的显示。

请参考图9，其示出了本申请实施例提供的一种电子设备的结构框图，终端设备100可以包括一个或多个如下部件：处理器110、存储器120、图像传感器130以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个终端设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备100在使用中所创建的数据等。

在本申请实施例中，图像传感器130用于采集现实物体的图像以及采集目标场景的场景图像。图像传感器130可以为红外相机，也可以是可见光相机，具体类型在本申请实施例中并不作为限定。

在一个实施例中，电子设备为头戴显示装置，除了包括上述的处理器、存储器及图像传感器外，还可包括如下一个或多个部件：显示模组、光学模组、通信模块以及电源。

显示模组可包括显示控制单元。显示控制单元用于接收处理器渲染后的虚拟内容的显示图像，然后将该显示图像显示并投射至光学模组上，使用户能够通过光学模组观看到虚拟内容。其中，显示装置可以是显示屏或投射装置等，可用于显示图像。

光学模组可采用离轴光学系统或波导光学系统，显示装置显示的显示图像经光学模组后，能够被投射至用户的眼睛。用户在通过光学模组看到显示装置投射的显示图像的同时。在一些实施方式中，用户还能够透过光学模组观察到现实环境，感受虚拟内容与现实环境叠加后的增强现实效果。

通信模块可以是蓝牙、WiFi(Wireless-Fidelity，无线保真)、ZigBee(紫峰技术)等模块，头戴显示装置可通过通信模块与电子设备建立通信连接。与电子设备通信连接的头戴显示装置，可以与电子设备进行信息以及指令的交互。例如，头戴显示装置可以通过通信模块接收电子设备的发送的图像数据，根据所接收的图像数据生成虚拟世界的虚拟内容进行显示。

电源可为整个头戴显示装置进行供电，保证头戴显示装置各个部件的正常运行。请参见图10，其示出了本申请实施例提供的一种服务器的结构框图。该服务器200可以为云服务器、传统服务器等，服务器200可以包括一个或多个如下部件：处理器210、存储器220以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器220中并被配置为由一个或多个处理器210执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

请参考图11，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

该计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种虚拟画面的处理方法，其特征在于，所述方法包括：

生成虚拟画面，所述虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象；

接收所述一个或多个终端设备对应的语音数据；

对所述语音数据进行语音分析，得到分析结果；

基于所述分析结果，确定所述虚拟画面中的目标虚拟对象；

基于所述目标虚拟对象，对所述虚拟画面进行预设调整，所述预设调整用于突出所述目标虚拟对象。

2.根据权利要求1所述的方法，其特征在于，所述分析结果包括：

每个终端设备对应的语音数据的语音参数，所述语音参数至少包括语音音量以及语音持续时间中的一种；

所述基于所述分析结果，确定所述虚拟画面中的目标虚拟对象，包括：

基于所述语音参数，确定兴趣终端设备，所述兴趣终端设备对应的语音数据的语音音量最大或者语音持续时间最长；

确定所述虚拟画面中与所述兴趣终端设备对应的虚拟对象为目标虚拟对象。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述虚拟画面中不包含所述目标虚拟对象时，生成提示信息，所述提示信息用于提示改变目标设备的位置及姿态信息，所述目标设备为显示所述虚拟画面的终端设备。

4.根据权利要求1所述的方法，其特征在于，所述分析结果包括：

每个终端设备对应的语音数据的语音识别结果；

基于所述语音识别结果，获取所述语音数据中的关键词；

确定所述虚拟画面中与所述关键词匹配的目标虚拟对象。

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述对所述语音数据进行语音分析，得到分析结果之前，包括：

获取所述语音数据对应的终端设备的标识信息，并提取所述语音数据中的至少一个声纹信息；

将所述至少一个声纹信息和预设声纹信息进行对比，所述预设声纹信息与所述标识信息对应；

获取所述至少一个声纹信息中与所述预设声纹信息匹配的目标声纹信息，并从所述语音数据中提取与所述目标声纹信息匹配的目标语音数据；

所述对所述语音数据进行语音分析，得到分析结果，包括：

对所述目标语音数据进行语音分析，得到分析结果。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述目标虚拟对象，对所述虚拟画面进行预设调整，包括以下中的至少一种：

增加所述目标虚拟对象的清晰度值；

减少所述虚拟画面中除所述目标虚拟对象外的其他虚拟对象的清晰度值；

将所述目标虚拟对象进行高亮显示；

将所述目标虚拟对象进行图标标记。

7.一种虚拟画面的处理装置，其特征在于，所述装置包括：

画面生成模块，用于生成虚拟画面，所述虚拟画面包括远程会话中一个或多个终端设备中每个终端设备对应的虚拟对象；

数据接收模块，用于接收所述一个或多个终端设备对应的语音数据；

数据分析模块，用于对所述语音数据进行语音分析，得到分析结果；

内容确定模块，用于基于所述分析结果，确定所述虚拟画面中的目标虚拟对象；

内容调整模块，用于基于所述目标虚拟对象，对所述虚拟画面进行预设调整，所述预设调整用于突出所述目标虚拟对象。

8.一种虚拟画面的处理系统，其特征在于，所述系统包括终端设备以及服务器，其中：

所述终端设备用于生成虚拟画面并将所述虚拟画面进行显示，所述虚拟画面包括远程会话中的其他一个或多个终端设备中每个终端设备对应的虚拟对象；

所述终端设备还用于采集语音数据，并上传所述语音数据至所述服务器；

所述服务器用于同步所述远程会话中的多个所述终端设备的语音数据；

所述终端设备还用于对同步的所述语音数据进行语音分析，得到分析结果，基于所述分析结果，确定所述虚拟画面中的目标虚拟对象，并基于所述目标虚拟对象，对所述虚拟画面进行预设调整，所述预设调整用于突出所述目标虚拟对象。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-6任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。