CN113325954B

CN113325954B - 用于处理虚拟对象的方法、装置、设备和介质

Info

Publication number: CN113325954B
Application number: CN202110586486.1A
Authority: CN
Inventors: 吴准; 邬诗雨; 杨瑞; 李士岩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-08-26
Anticipated expiration: 2041-05-27
Also published as: CN113325954A

Abstract

本公开提供了用于处理虚拟对象的方法、装置、设备、介质和产品，涉及计算机领域，进一步涉及人机交互技术领域。具体实现方案为：获取虚拟场景；确定与虚拟场景对应的语音处理信息和/或手势处理信息；基于语音处理信息和/或手势处理信息，在虚拟场景中确定虚拟对象和处理类别；按照处理类别，对虚拟对象进行处理。本实现方式可以提高虚拟对象处理智能化程度。

Description

用于处理虚拟对象的方法、装置、设备和介质

技术领域

本公开涉及计算机领域，进一步涉及人机交互技术领域，尤其涉及用于处理虚拟对象的方法、装置、设备和介质。

背景技术

虚拟偶像指的是通过绘画、动画等形式制作的人物形象，现在会经常使用虚拟偶像进行直播。在使用虚拟偶像进行直播的过程中，往往需要处理虚拟空间中的虚拟对象，如对虚拟空间中的虚拟商品进行展示处理。

现在对虚拟对象的处理方式通常为相关工作人员对相应控制软件进行操作，如点击相应控制软件中的某个虚拟按键实现虚拟商品呈现。由于依赖于人工处理，因而存在着虚拟对象处理智能化程度较低的问题。

发明内容

本公开提供了一种用于处理虚拟对象的方法、装置、设备和介质。

根据第一方面，提供了一种用于处理虚拟对象的方法，包括：获取虚拟场景；确定与虚拟场景对应的语音处理信息和/或手势处理信息；基于语音处理信息和/或手势处理信息，在虚拟场景中确定虚拟对象和处理类别；按照处理类别，对虚拟对象进行处理。

根据第二方面，提供了一种用于处理虚拟对象的装置，包括：场景获取单元，被配置成获取虚拟场景；信息确定单元，被配置成确定与虚拟场景对应的语音处理信息和/或手势处理信息；处理确定单元，被配置成基于语音处理信息和/或手势处理信息，在虚拟场景中确定虚拟对象和处理类别；处理执行单元，被配置成按照处理类别，对虚拟对象进行处理。

根据第三方面，提供了一种执行用于处理虚拟对象的方法的电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项用于处理虚拟对象的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上任意一项用于处理虚拟对象的方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上任意一项用于处理虚拟对象的方法。

根据本公开的技术，提供一种用于处理虚拟对象的方法，能够在虚拟场景中，确定与虚拟场景对应的语音处理信息和/或手势处理信息，再基于语音处理信息和/或手势处理信息在虚拟场景中确定虚拟对象和处理类别，按照处理类别对虚拟对象进行处理。这一过程无需相关人员手动对虚拟对象进行操作处理，可以结合语音和/或手势实现对虚拟对象的自动化处理，智能化程度更高。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于处理虚拟对象的方法的一个实施例的流程图；

图3是根据本公开的用于处理虚拟对象的方法的一个应用场景的示意图；

图4是根据本公开的用于处理虚拟对象的方法的另一个实施例的流程图；

图5是根据本公开的用于处理虚拟对象的装置的一个实施例的结构示意图；

图6是用来实现本公开实施例的用于处理虚拟对象的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1是根据本公开第一实施例的示例性系统架构示意图，其示出了可以应用本公开的用于处理虚拟对象的方法的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以为手机、电脑以及平板等电子设备，在终端设备101、102、103中，可以安装有各种应用软件，如用于进行虚拟直播的软件。其中，用于进行虚拟直播的软件能够显示虚拟偶像在虚拟空间内进行相应的活动，如虚拟偶像在虚拟空间内进行直播卖货。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于电视、智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块（例如用来提供分布式服务），也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如可以获取终端设备101、102、103中用于进行直播的软件的虚拟场景，也即是虚拟偶像所在直播空间对应的虚拟场景。之后，服务器105可以确定与虚拟场景对应语音处理信息和/或手势处理信息，如与虚拟偶像对应的工具人所发出的语音和/或手势。并基于语音处理信息和/或手势处理信息，在虚拟场景中确定需要进行处理的虚拟对象和处理类别。例如，与虚拟偶像对应的工具人说“请给个特写”，此时确定需要进行处理的虚拟对象是虚拟商品，处理类别是展示类别。服务器可以向终端设备101、102、103发送处理指令，以使终端设备101、102、103基于处理指令，对虚拟对象进行处理。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块（例如用来提供分布式服务），也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的用于处理虚拟对象的方法可以由终端设备101、102、103执行，也可以由服务器105执行。相应地，用于处理虚拟对象的装置可以设置于终端设备101、102、103中，也可以设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的用于处理虚拟对象的方法的一个实施例的流程200。本实施例的用于处理虚拟对象的方法，包括以下步骤：

步骤201，获取虚拟场景。

在本实施例中，执行主体（如图1中的服务器105或者终端设备101、102、103）可以与管理虚拟直播的电子设备建立连接，执行主体也可以为管理虚拟直播的电子设备。在执行主体与管理虚拟直播的电子设备建立连接的情况下，执行主体可以从管理虚拟直播的电子设备中获取虚拟直播对应的虚拟场景，虚拟场景可以包括虚拟直播中的虚拟偶像、虚拟商品、虚拟物体、虚拟道具等各类虚拟对象。又或者，在执行主体为管理虚拟直播的电子设备的情况下，可以直接从本地读取虚拟直播对应的虚拟场景。

步骤202，确定与虚拟场景对应的语音处理信息和/或手势处理信息。

在本实施例中，语音处理信息为控制对虚拟场景中的指定对象进行相应的处理的语音，手势处理信息为控制对虚拟场景中的指定对象进行相应的处理的手势。具体的，语音处理信息可以为虚拟场景中的虚拟偶像发出的语音，也可以为控制虚拟偶像的相关人员发出的语音。例如，在虚拟直播的过程中，通常会利用工具人（控制虚拟偶像的人员）实现指定的动作、表情，再采用动捕设备、面捕设备等设备捕捉工具人的动作、表情，基于相关的参数控制虚拟偶像呈现相对应的动作、表情。以及还可以利用工具人说话，基于录音设备捕捉工具人的语音，基于声源合成技术，将工具人的语音转换成虚拟偶像的语音，以使虚拟偶像按照工具人发出的语音发声。此时工具人发出的语音也可以作为语音处理信息。进一步的，动捕设备还可以捕捉工具人的手部动作，并将相应的手部参数返回给虚拟偶像，以使虚拟偶像基于该手部参数控制手部的运动，此时手势处理信息可以为工具人的手势动作，手势处理信息也可以为虚拟偶像的手势动作，本实施例对此不做限定。可选的，执行主体可以管理多个虚拟场景，对于每个虚拟场景，执行主体可以确定与该虚拟场景对应的语音处理信息和/或手势处理信息，从而实现多个虚拟场景并行处理，提高处理效率。

步骤203，基于语音处理信息和/或手势处理信息，在虚拟场景中确定虚拟对象和处理类别。

在本实施例中，执行主体在获取语音处理信息和/或手势处理信息之后，可以对语音处理信息进行语音识别，以及对手势处理信息进行手势识别，基于语音处理信息和/或手势处理信息确定相匹配的虚拟对象和处理类别。其中，虚拟对象指的是在虚拟场景中需要进行处理的对象，可以包括但不限于虚拟商品、虚拟道具、虚拟物体、虚拟偶像等；处理类别指的是在虚拟场景中执行的处理分类，可以包括但不限于展示处理、替换处理、特效处理等，本实施例对此不做限定。可选的，基于语音处理信息和/或手势处理信息，在虚拟场景中确定虚拟对象和处理类别可以包括：响应于检测到语音处理信息中存在对象名称，确定对象名称对应的虚拟对象；响应于检测到语音处理信息中不存在对象名称、且手势处理信息中存在与特定对象对应的手势信息，确定手势信息对应的虚拟对象；响应于检测到语音处理信息中不存在对象名称、手势处理信息中不存在与特定对象对应的手势信息、且语音处理信息中存在处理类别名称，基于所述处理类别名称确定相对应的虚拟对象。

举例来说，如果语音处理信息为“给物体A一个特写”，则可以识别出语音处理信息中存在对象名称“物体A”，并将“物体A”确定为虚拟对象。如果语音处理信息为“给它一个特写”，则可以识别出语音处理信息中不存在对象名称，如果手势处理信息为指向“物体A”的手势，则可以识别出手势处理信息中存在与“物体A”对应的手势信息，此时可以将手势信息对应的“物体A”确定为虚拟对象。如果语音处理信息为“展示一下商品”，则可以识别出语音处理信息中不存在商品名称，并且语音处理信息中的处理类别名称为商品展示类别，如果此时不存在与特定对象对应的手势信息，则可以基于商品展示类别，将虚拟直播中当前需要展示的商品确定为虚拟对象。

需要说明的是，对于处理类别的确定可以基于与虚拟对象的确定相似的方法进行，如根据语音处理信息中的处理类别名称、手势处理信息中与特定处理类别相对应的手势信息、语音处理信息中虚拟对象名称中的各类组合进行确定，在此不再赘述。

步骤204，按照处理类别，对虚拟对象进行处理。

在本实施例中，执行主体在获取处理类别和虚拟对象时，可以对应存储处理类别与虚拟对象之间的对应关系。其中，一个处理类别可以对应至少一个虚拟对象，一个虚拟对象也可以对应至少一个处理类别。在进行处理时，执行主体可以基于对应关系，按照处理类别，对与该处理类别对应的虚拟对象进行相应的处理。例如，在处理类别为特效处理的情况下，执行主体可以对与该处理类别对应的虚拟对象执行特效渲染操作。

继续参见图3，其示出了根据本公开的用于处理虚拟对象的方法的一个应用场景的示意图。在图3的应用场景中，执行主体可以先获取虚拟场景301，在虚拟场景301中，虚拟偶像302正在进行虚拟直播，用以推销虚拟桌子304上的虚拟商品303。执行主体可以获取在该虚拟场景301中的虚拟偶像302发出的语音、做出的手势，得到语音处理信息和/或手势处理信息。如图3所示，此时虚拟偶像302发出语音“请给个特写”，此时可以将该语音确定为语音处理信息305。此外，虚拟偶像302朝向虚拟商品303做出了指向虚拟商品303的手势，此时可以将该手势确定为手势处理信息。执行主体基于语音处理信息305和/或手势处理信息，确定得到虚拟对象为手势处理信息所指向的商品303，确定处理类别为语音处理信息305对应的特写展示类别。执行主体可以按照特写展示类别，控制调整虚拟场景301对应的镜头远近和/或镜头角度，用以对虚拟商品303进行特写展示操作。

本公开上述实施例提供的用于处理虚拟对象的方法，能够在虚拟场景中，确定与虚拟场景对应的语音处理信息和/或手势处理信息，再基于语音处理信息和/或手势处理信息在虚拟场景中确定虚拟对象和处理类别，按照处理类别对虚拟对象进行处理。这一过程无需相关人员手动操作对虚拟对象处理，可以结合语音和/或手势实现对虚拟对象的自动化处理，智能化程度更高。

继续参见图4，其示出了根据本公开的用于处理虚拟对象的方法的另一个实施例的流程400。如图4所示，本实施例的用于处理虚拟对象的方法可以包括以下步骤：

步骤401，获取虚拟场景。

在本实施例中，对于步骤401的详细描述请参照对于步骤201的详细描述，在此不再赘述。

步骤402，确定与虚拟场景对应的语音处理信息和/或手势处理信息。

在本实施例中，对于步骤402的详细描述请参照对于步骤202的详细描述，在此不再赘述。

步骤403，响应于确定语音处理信息与预设的语音信息相匹配，在虚拟场景中确定虚拟对象。

在本实施例中，执行主体可以预先存储有多种用于对虚拟对象进行处理的语音信息，例如，预设的语音信息可以包括“给个特写”、“替换成”、“给个特效”等。执行主体在获取语音处理信息之后，可以将语音处理信息与这些预先存储的语音信息进行匹配，如果语音处理信息与这些预先存储的语音信息中的某个预设的语音信息相匹配，则认为触发语音控制指令，此时在虚拟场景中确定虚拟对象。具体的，在虚拟场景中确定虚拟对象可以包括：基于语音处理信息和/或手势处理信息确定虚拟对象。对于确定虚拟对象的具体方式请参照对于步骤203的详细描述，在此不再赘述。

在本实施例的一些可选的实现方式中，在虚拟场景中确定虚拟对象，包括：对语音处理信息进行语音识别，得到语音关键词；在虚拟场景的当前图像帧中，确定与语音关键词相匹配的虚拟对象。

在本实现方式中，执行主体可以基于对语音处理信息进行语音识别，得到语音处理信息中的语音关键词，例如语音处理信息为“给物体A特写”，此时的语音关键词可以为“物体A”。执行主体在得到语音关键词之后，可以在虚拟场景的当前图像帧中，确定与语音关键词相匹配的虚拟对象，如与“物体A”相匹配的虚拟物体。

步骤404，在虚拟场景中确定虚拟对象对应的位置区域。

在本实施例中，执行主体在确定出虚拟对象之后，可以进一步在虚拟场景中确定虚拟对象对应的位置坐标，再基于位置坐标确定与该位置坐标对应的位置区域，例如位置区域可以为与该位置坐标的距离为定值的圆形区域。

步骤405，响应于在位置区域检测到手势处理信息、且手势处理信息与预设的手势信息相匹配，确定针对虚拟对象的处理类别。

在本实施例中，执行主体在确定出位置区域之后，可以进一步检测在该位置区域是否存在手势处理信息。如果检测到在该位置区域出现手势，则确定在该位置区域存在手势处理信息。进一步将手势处理信息和预设的手势信息进行匹配。其中，预设的手势信息可以为预先存储的多种用于对虚拟对象进行处理的手势信息，可以包括但不限于竖食指的手势、伸开手掌的手势、同时竖食指和中指的手势等，本实施例对此不做限定。如果确定手势处理信息与预设的手势信息相匹配，则表示确定针对虚拟对象进行处理操作。这一过程融合语音识别和手势识别，确定针对虚拟对象进行处理操作的时机，能够提高处理精准度。具体的，在虚拟场景中确定针对虚拟对象的处理类别可以包括：基于语音处理信息和/或手势处理信息确定针对虚拟对象的处理类别。对于确定针对虚拟对象的处理类别的具体方式请参照对于步骤203的详细描述，在此不再赘述。

在本实施例的一些可选的实现方式中，确定针对虚拟对象的处理类别，包括：确定与预设的语音信息、和/或预设的手势信息相匹配的处理类别。

在本实现方式中，执行主体可以预先存储预设的语音信息、手势信息以及处理类别之间的对应关系，在确定处理类别时，可以基于查找对应关系，确定与预设的语音信息和/或预设的手势信息相匹配的处理类别。

步骤406，响应于确定处理类别为展示处理，获取展示处理参数；基于展示处理参数，对拍摄虚拟场景的摄像设备的摄像参数进行处理，得到处理后的摄影参数；按照处理后的摄影参数，控制摄像设备对虚拟对象进行展示处理。

在本实施例中，处理类别可以包括展示处理，展示处理用于指示对虚拟对象进行展示处理。具体的，在进行展示处理时，执行主体可以先获取展示处理参数。其中，展示处理参数用于描述需要调整为的展示效果对应的参数，如将虚拟对象调整为以某种距离进行展示，此时的距离即为展示处理参数。执行主体进一步可以基于展示处理参数，对拍摄虚拟场景的摄影设备的摄影参数进行处理，得到处理后的摄影参数。其中，摄影设备可以用于拍摄虚拟场景，在实际应用中，摄影设备所拍摄的场景经过软件处理后可以呈现为虚拟场景。基于展示处理参数可以调整摄影设备的摄影参数，摄影参数可以包括但不限于摄影距离、摄影角度等参数。如基于展示处理参数的距离转换至摄影设备与虚拟场景之间的距离，将摄影设备与虚拟场景之间的距离确定为处理后的摄影参数。在进行展示处理时，控制摄像设备按照处理后的摄像参数进行展示处理。

在本实施例的一些可选的实现方式中，按照处理后的摄影参数，控制摄像设备对虚拟对象进行展示处理，包括：获取预设的展示时长；按照处理后的摄影参数，控制摄像设备以预设的展示时长对虚拟对象进行展示处理。

在本实现方式中，执行主体还可以预先设置展示时长，如3秒。在按照处理后的摄影参数，控制摄影设备对虚拟对象进行展示处理时，可以按照预设的展示时长进行展示。在预设的展示时长之后，停止展示处理，此时可以将摄影设备的摄影参数调整为处理前的摄影参数。

步骤407，响应于确定处理类别为替换处理，基于语音处理信息和/或手势处理信息，确定目标对象；在预设的资源数据库中，获取与目标对象相匹配的资源数据；在用于配置展示对象的配置信息中，将虚拟对象相匹配的资源数据替换为目标对象相匹配的资源数据，以将虚拟对象替换为目标对象进行展示。

在本实施例中，虚拟对象相匹配的资源数据是在预设的资源数据库中、与虚拟对象相匹配的资源数据。处理类别还可以包括替换处理，替换处理是指将虚拟对象替换为目标对象的处理。其中，目标对象是指预设的其他虚拟对象，可以为当前的虚拟场景中存在的虚拟对象，也可以为当前的虚拟场景中不存在的虚拟对象，本实施例对此不做限定。在对虚拟对象执行替换操作时，执行主体可以基于语音处理信息和/或手势处理信息确定目标对象。具体的，执行主体可以解析语音处理信息中的关键词组，基于关键词组确定目标对象。如语音处理信息为“将物体A替换为物体B”，此时的“替换为”即为关键词组，执行主体可以将与关键词组相邻的关键词“物体B”确定为目标对象。又或者，如语音处理信息为“将物体A替换为它”、且手势处理信息为指向物体B的手势，此时可以基于语音处理信息和/或手势处理信息确定出目标对象为物体B。又或者，如手势处理信息为预设的与物体B相匹配的手势，则将与该手势相匹配的物体B确定为目标对象。并且，执行主体预先存储有预设的资源数据库，预设的资源数据库中包含各种虚拟对象相匹配的资源数据，在实际应用中，执行主体通过加载预设的资源数据库中的相应资源数据实现在虚拟场景中虚拟对象的呈现。在进行替换处理时，可以在用于配置展示对象的配置信息中，将虚拟对象相匹配的资源数据替换为目标对象相匹配的资源数据，以使执行主体基于配置信息加载替换后的目标对象相匹配的资源数据，实现目标对象替换虚拟对象。

在本实施例的一些可选的实现方式中，在确定出目标对象之后，还可以进一步基于语音处理信息确定与目标对象相匹配的对象状态信息。此时可以在预设的资源数据库中，获取与目标对象的对象状态信息相匹配的资源数据，将虚拟对象相匹配的资源数据替换为目标对象的对象状态信息相匹配的资源数据。这一过程不仅能够替换对象，还可以替换对象的状态，替换效果更加丰富。

本公开的上述实施例提供的用于处理虚拟对象的方法，还可以在语音处理信息与预设的语音信息相匹配、且在虚拟对象所在位置区域检测到手势处理信息、且手势处理信息与预设的手势信息相匹配的情况下，确定处理类别，执行按照处理类别进行处理的操作，提高了对于处理时机的确定精准度。并且，处理类别可以包括展示处理、替换处理等多种类别，处理效果更加丰富。在进行展示处理时，可以调整摄像参数，来按照需要的摄影参数进行展示处理，实现特写展示等多种展示需求。以及在进行替换处理时，能够将虚拟对象替换为目标对象，提高了对象处理的丰富度。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种用于处理虚拟对象的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种服务器中。

如图5所示，本实施例的用于处理虚拟对象的装置500包括：场景获取单元501、信息确定单元502、处理确定单元503、处理执行单元504。

场景获取单元501，被配置成获取虚拟场景。

信息确定单元502，被配置成确定与虚拟场景对应的语音处理信息和手势处理信息。

处理确定单元503，被配置成基于语音处理信息和手势处理信息，在虚拟场景中确定虚拟对象和处理类别。

处理执行单元504，被配置成按照处理类别，对虚拟对象进行处理。

在本实施例的一些可选的实现方式中，处理确定单元503进一步被配置成：响应于确定语音处理信息与预设的语音信息相匹配，在虚拟场景中确定虚拟对象；在虚拟场景中确定虚拟对象对应的位置区域；响应于在位置区域检测到手势处理信息、且手势处理信息与预设的手势信息相匹配，确定针对虚拟对象的处理类别。

在本实施例的一些可选的实现方式中，处理确定单元503进一步被配置成：对语音处理信息进行语音识别，得到语音关键词；在虚拟场景的当前图像帧中，确定与语音关键词相匹配的虚拟对象。

在本实施例的一些可选的实现方式中，处理确定单元503进一步被配置成：确定与预设的语音信息、和/或预设的手势信息相匹配的处理类别。

在本实施例的一些可选的实现方式中，处理类别至少包括展示处理；以及处理执行单元504进一步被配置成：获取展示处理参数；基于展示处理参数，对拍摄虚拟场景的摄像设备的摄像参数进行处理，得到处理后的摄影参数；按照处理后的摄影参数，控制摄像设备对虚拟对象进行展示处理。

在本实施例的一些可选的实现方式中，处理执行单元504进一步被配置成：获取预设的展示时长；按照处理后的摄影参数，控制摄像设备以预设的展示时长对虚拟对象进行展示处理。

在本实施例的一些可选的实现方式中，处理类别至少包括替换处理；以及处理执行单元504进一步被配置成：基于语音处理信息和手势处理信息，确定目标对象；在预设的资源数据库中，获取与目标对象相匹配的资源数据；在用于配置展示对象的配置信息中，将虚拟对象相匹配的资源数据替换为目标对象相匹配的资源数据，以将虚拟对象替换为目标对象进行展示；其中，虚拟对象相匹配的资源数据是在预设的资源数据库中、与虚拟对象相匹配的资源数据。

应当理解，用于处理虚拟对象的装置500中记载的单元501至单元504分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对用处理虚拟对象的方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图6示出了用来实现本公开实施例的用于处理虚拟对象的方法的电子设备600的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如用于处理虚拟对象的方法。例如，在一些实施例中，用于处理虚拟对象的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的用于处理虚拟对象的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行用于处理虚拟对象的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于处理虚拟对象的方法，包括：

获取虚拟直播对应的虚拟场景；

确定与所述虚拟场景对应的语音处理信息和手势处理信息，其中，所述语音处理信息为所述虚拟场景中的虚拟偶像发出的语音信息，所述手势处理信息为所述虚拟偶像的手势动作信息；

基于所述语音处理信息和所述手势处理信息，在所述虚拟场景中确定虚拟对象和处理类别，包括：响应于确定所述语音处理信息与预设的语音信息相匹配，在所述虚拟场景中确定所述虚拟对象；在所述虚拟场景中确定所述虚拟对象对应的位置区域；响应于在所述位置区域检测到所述手势处理信息、且所述手势处理信息与预设的手势信息相匹配，确定针对所述虚拟对象的所述处理类别；其中，所述虚拟对象至少包括以下一项：虚拟商品、虚拟道具、虚拟物体、虚拟偶像；所述处理类别包括以下至少一项：展示处理、替换处理、特效处理；

按照所述处理类别，对所述虚拟对象进行处理。

2.根据权利要求1所述的方法，其中，所述在所述虚拟场景中确定所述虚拟对象，包括：

对所述语音处理信息进行语音识别，得到语音关键词；

在所述虚拟场景的当前图像帧中，确定与所述语音关键词相匹配的所述虚拟对象。

3.根据权利要求1所述的方法，其中，所述确定针对所述虚拟对象的所述处理类别，包括：

确定与所述预设的手势信息相匹配的所述处理类别。

4.根据权利要求1所述的方法，其中，所述处理类别至少包括展示处理；以及

所述按照所述处理类别，对所述虚拟对象进行处理，包括：

获取展示处理参数；

基于所述展示处理参数，对拍摄所述虚拟场景的摄像设备的摄像参数进行处理，得到处理后的摄影参数；

按照所述处理后的摄影参数，控制所述摄像设备对所述虚拟对象进行展示处理。

5.根据权利要求4所述的方法，其中，所述按照所述处理后的摄影参数，控制所述摄像设备对所述虚拟对象进行展示处理，包括：

获取预设的展示时长；

按照所述处理后的摄影参数，控制所述摄像设备以所述预设的展示时长对所述虚拟对象进行展示处理。

6.根据权利要求1所述的方法，其中，所述处理类别至少包括替换处理；以及

所述按照所述处理类别，对所述虚拟对象进行处理，包括：

基于所述语音处理信息，确定目标对象；

在预设的资源数据库中，获取与所述目标对象相匹配的资源数据；在用于配置展示对象的配置信息中，将所述虚拟对象相匹配的资源数据替换为所述目标对象相匹配的资源数据，以将所述虚拟对象替换为所述目标对象进行展示；其中，所述虚拟对象相匹配的资源数据是在所述预设的资源数据库中、与所述虚拟对象相匹配的资源数据。

7.一种用于处理虚拟对象的装置，包括：

场景获取单元，被配置成获取虚拟直播对应的虚拟场景；

信息确定单元，被配置成确定与所述虚拟场景对应的语音处理信息和手势处理信息，其中，所述语音处理信息为所述虚拟场景中的虚拟偶像发出的语音信息，所述手势处理信息为所述虚拟偶像的手势动作信息；

处理确定单元，被配置成基于所述语音处理信息和所述手势处理信息，在所述虚拟场景中确定虚拟对象和处理类别；其中，所述虚拟对象至少包括以下一项：虚拟商品、虚拟道具、虚拟物体、虚拟偶像；所述处理类别包括以下至少一项：展示处理、替换处理、特效处理；

处理执行单元，被配置成按照所述处理类别，对所述虚拟对象进行处理；

所述处理确定单元进一步被配置成：响应于确定所述语音处理信息与预设的语音信息相匹配，在所述虚拟场景中确定所述虚拟对象；在所述虚拟场景中确定所述虚拟对象对应的位置区域；响应于在所述位置区域检测到所述手势处理信息、且所述手势处理信息与预设的手势信息相匹配，确定针对所述虚拟对象的所述处理类别。

8.根据权利要求7所述的装置，其中，所述处理确定单元进一步被配置成：

对所述语音处理信息进行语音识别，得到语音关键词；

9.根据权利要求7所述的装置，其中，所述处理确定单元进一步被配置成：

确定与所述预设的手势信息相匹配的所述处理类别。

10.根据权利要求7所述的装置，其中，所述处理类别至少包括展示处理；以及

所述处理执行单元进一步被配置成：

获取展示处理参数；

11.根据权利要求10所述的装置，其中，所述处理执行单元进一步被配置成：

获取预设的展示时长；

12.根据权利要求7所述的装置，其中，所述处理类别至少包括替换处理；以及

所述处理执行单元进一步被配置成：

基于所述语音处理信息，确定目标对象；

在预设的资源数据库中，获取与所述目标对象相匹配的资源数据；

在用于配置展示对象的配置信息中，将所述虚拟对象相匹配的资源数据替换为所述目标对象相匹配的资源数据，以将所述虚拟对象替换为所述目标对象进行展示；其中，所述虚拟对象相匹配的资源数据是在所述预设的资源数据库中、与所述虚拟对象相匹配的资源数据。

13.一种执行用于处理虚拟对象的方法的电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。