CN115426467A

CN115426467A - 一种基于视频通话的观影陪伴方法、设备和介质

Info

Publication number: CN115426467A
Application number: CN202110521221.3A
Authority: CN
Inventors: 顾庆涛; 孙萁浩; 张振铎; 唐至威; 陈维强; 高雪松
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-12-02

Abstract

本申请公开了一种基于视频通话的观影陪伴方法、设备和介质，获取第一通话音视频数据后；将所述第一通话音视频数据发送给视频云端服务器；接收视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频数据并输出；从而实现了基于视频通话进行共同观影，解决了现有技术中缺少陪伴观影的真实感的问题。

Description

一种基于视频通话的观影陪伴方法、设备和介质

技术领域

本申请涉及视频通话技术领域，尤其涉及基于一种基于视频通话的观影陪伴方法、设备和介质。

背景技术

随着通信技术和互联网技术的发展，现代社会中人类的社交由线下的真实社交转为线上的虚拟社交，而在线上共同观影也成为一种常见的社交场景。

现有的观影陪伴类应用，大多是在手机端实现，用户在手机App上选择影片创建观影房间进而一起观影。但是在手机端观影时仍存在大量缺点，包括手机屏幕较小观影效果差；在观影时只能进行文字和语音交流，且在对方认真观影并且不讲话的过程中，用户并不知道对方的状态是已经走开了还是仍然在看，缺少了陪伴观影的真实感等缺点。

发明内容

本申请提供了一种基于视频通话的观影陪伴方法、装置、系统、设备和介质，用以解决现有技术中缺少陪伴观影的真实感的问题。

第一方面，本申请提供了一种基于视频通话的观影陪伴方法，所述方法包括：

获取第一通话音视频数据；

将所述第一通话音视频数据发送给视频云端服务器，接收所述视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频数据并输出。

进一步地，所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，所述方法还包括：

根据所述第一通话音视频数据的视频数据中的图像，对所述图像进行人像分割确定出人像区域图像，根据所述人像区域图像和预先保存的背景图像，合成包含所述人像区域图像的目标图像；

根据确定出的所述目标图像，对所述第一通话音视频数据的视频数据中的对应图像进行更新，得到更新后的目标第一通话音视频数据。

进一步地，所述根据所述人像区域图像和预先保存的背景图像，合成包含所述人像区域图像的目标图像包括：

基于预先训练完成的生成式对抗网络模型，生成所述人像区域图像对应的虚拟人像图像；

根据所述虚拟人像图像和预先保存的背景图像，合成包含所述人像区域图像对应的虚拟人像图像的目标图像。

去除所述第一通话音视频数据的音频数据中的环境噪音数据；

根据去除环境噪音数据后的所述音频数据和预先保存的主机对应用户的声纹特征，识别所述音频数据中与所述声纹库中任一声纹特征匹配的目标声纹特征对应的子音频数据，并采用所述子音频数据更新所述第一通话音视频数据的音频数据，得到更新后的目标第一通话音视频数据。

进一步地，输出所述第二通话音视频数据和所述第三音视频数据包括：

将所述第二通话音视频数据的视频数据和所述第三音视频数据的视频数据发送给显示设备输出显示；

将所述第二通话音视频数据的音频数据和所述第三音视频数据的音频数据发送给音频输出装置输出。

进一步地，所述将所述第二通话音视频数据的音频数据和所述第三音视频数据的音频数据发送给音频输出装置输出包括：

将所述第二通话音视频数据的音频数据发送给第一音频输出装置输出，将所述第三音视频数据的音频数据发送给第二音频输出装置输出；其中所述第一音频输出装置位于距主机自身位置的第一预设范围外，所述第二音频输出装置位于距主机自身位置的第二预设范围内，所述第一预设范围大于所述第二预设范围。

进一步地，所述生成式对抗网络模型的训练过程包括：

针对样本集中的任一样本图像，获取所述样本图像和预先随机生成的噪声向量；

将所述样本图像和所述噪声向量输入原始生成式对抗网络模型的生成器中，输出虚拟人像图像；

将所述样本图像和所述虚拟人像图像输入原始生成式对抗网络模型的判别器中，确定所述虚拟人像图像属于所述样本图像的概率；

根据所述概率对所述原始生成式对抗网络模型的各参数的参数值进行调整，得到训练完成的所述生成式对抗网络模型。

第二方面，本申请提供了一种基于视频通话的观影陪伴装置，所述装置包括：

获取模块，用于获取第一通话音视频数据；

通信模块，用于将所述第一通话音视频数据发送给视频云端服务器，接收所述视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频数据并输出。

进一步地，所述装置还包括：

处理模块，用于所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，根据所述第一通话音视频数据的视频数据中的图像，对所述图像进行人像分割确定出人像区域图像，根据所述人像区域图像和预先保存的背景图像，合成包含所述人像区域图像的目标图像；根据确定出的所述目标图像，对所述第一通话音视频数据的视频数据中的对应图像进行更新，得到更新后的目标第一通话音视频数据。

进一步地，所述处理模块，具体用于基于预先训练完成的生成式对抗网络模型，生成所述人像区域图像对应的虚拟人像图像；根据所述虚拟人像图像和预先保存的背景图像，合成包含所述人像区域图像对应的虚拟人像图像的目标图像。

进一步地，所述处理模块，用于所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，去除所述第一通话音视频数据的音频数据中的环境噪音数据；根据去除环境噪音数据后的所述音频数据和预先保存的主机对应用户的声纹特征，识别所述音频数据中与所述声纹库中任一声纹特征匹配的目标声纹特征对应的子音频数据，并采用所述子音频数据更新所述第一通话音视频数据的音频数据，得到更新后的目标第一通话音视频数据。

进一步地，所述通信模块，具体用于将所述第二通话音视频数据的视频数据和所述第三音视频数据的视频数据发送给显示设备输出显示；将所述第二通话音视频数据的音频数据和所述第三音视频数据的音频数据发送给音频输出装置输出。

进一步地，所述通信模块，具体用于将所述第二通话音视频数据的音频数据发送给第一音频输出装置输出，将所述第三音视频数据的音频数据发送给第二音频输出装置输出；其中所述第一音频输出装置位于距主机自身位置的第一预设范围外，所述第二音频输出装置位于距主机自身位置的第二预设范围内，所述第一预设范围大于所述第二预设范围。

进一步地，所述装置还包括：

训练模块，具体用于所述生成式对抗网络模型的训练过程包括：针对样本集中的任一样本图像，获取所述样本图像和预先随机生成的噪声向量；将所述样本图像和所述噪声向量输入原始生成式对抗网络模型的生成器中，输出虚拟人像图像；将所述样本图像和所述虚拟人像图像输入原始生成式对抗网络模型的判别器中，确定所述虚拟人像图像属于所述样本图像的概率；根据所述概率对所述原始生成式对抗网络模型的各参数的参数值进行调整，得到训练完成的所述生成式对抗网络模型。

第三方面，本申请提供了一种基于视频通话的观影陪伴系统，所述系统包括：至少两个主机和视频云端服务器；所述主机，用于执行上述方法中任一所述基于视频通话的观影陪伴方法的步骤；所述云端服务器，用于根据接收的影片播放请求中携带的第二标识信息，向所述主机发送播放影片的第三音视频数据。

第四方面，本申请提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；所述存储器中存储有计算机程序，当所述程序被所述处理器执行时实现上述方法中任一所述基于视频通话的观影陪伴方法的步骤。

第五方面，本申请提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述方法中任一所述基于视频通话的观影陪伴方法的步骤。

本申请公开了一种基于视频通话的观影陪伴方法、装置、系统、设备和介质，由于获取第一通话音视频数据后；将所述第一通话音视频数据发送给视频云端服务器；接收所述视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频数据并输出；从而实现了基于视频通话进行共同观影，解决了现有技术中缺少陪伴观影的真实感的问题。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一些实施例提供的一种基于视频通话的观影陪伴方法的过程示意图；

图2为本申请一些实施例提供的一种实现视频通话的共同观影的过程示意图；

图3为本申请一些实施例提供的一种生存包含虚拟人像的目标图像的过程示意图；

图4为本申请一些实施例提供的一种多声源之间相互干扰解决方案的过程示意图；

图5为本申请提供的一种基于视频通话的观影陪伴时的场景示意图；

图6为本申请一些实施例提供的一种基于视频通话的观影陪伴方法的过程示意图；

图7为本申请一些实施例提供的一种基于视频通话的观影陪伴装置的结构示意图；

图8为本申请一些实施例提供的一种基于视频通话的观影陪伴系统的示意图；

图9为本申请一些实施例提供的另一种基于视频通话的观影陪伴系统的示意图；

图10为本申请一些实施例提供的一种电子设备的结构示意图。

具体实施方式

为了解决现有技术中缺少陪伴观影的真实感的问题，本申请提供了一种基于视频通话的观影陪伴方法、装置、系统、设备和介质。

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请中，为了在预设应用的观影房间中基于视频通话实现共同观影，本申请中包括至少两个主机和视频云端服务器，其中至少两个主机通过视频云端服务器收发通话音视频数据并输出实现视频通话；通过接收视频云端服务器发送的播放影片的第三音视频数据并输出实现共同观影。

具体在一个主机上执行时，主机获取第一通话音视频数据，并将第一通话音视频数据发送给视频云端服务器，接收视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频数据，通过视频云端服务器实现视频通话和共同观影，从而提高了陪伴观影的真实感。

图1为本申请提供的一种基于视频通话的观影陪伴方法的过程示意图，该过程包括以下步骤：

S101：获取第一通话音视频数据。

为了解决现有技术中缺少陪伴观影的真实感的问题，本申请提供了一种基于视频通话的观影陪伴方法，该方法应用于主机，其中该主机可以是本地服务器，也可以是云端服务器。例如该主机可以是现有的智能管家服务器、家庭主机等。

获取第一通话音视频数据，其中该第一通话音视频数据中包括音频数据和视频数据，该第一通话音视频数据为主机当前所在的场景中采集到的音视频数据。

具体的，该主机获取第一通话音视频数据时，可以是该主机内部的采集设备采集音视频数据；也可以是接收与主机存在通信连接的采集设备发送的音视频数据。其中该采集设备包括图像采集设备和声音采集设备，例如该图像采集设备可以是摄像头、摄像机和监控器等，该声音采集设备可以是拾音器、话筒、麦克风、音频采集器等。

S102：将所述第一通话音视频数据发送给视频云端服务器，接收所述视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频数据并输出。

为了实现主机间的视频通话，在获取到第一通话音视频数据后，将第一通话音视频数据发送给视频云端服务器，具体该主机可以是通过无线传输的方式将第一通话音视频数据发送给视频云端服务器，例如可以是通过局域网传输的方式、或者还可以是通过移动网络传输的方式等；还可以是通过有线传输的方式将第一通话音视频数据发送给视频云端服务器。

接收视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频，其中第二通话音视频数据即为与主机进行视频通话的另一主机发送的音视频数据。

针对接收到的第二通话音视频数据和第三音视频数据，将第二通话音视频数据和第三音视频数据输出。具体的，第二通话音视频数据和第三音视频数据中的音频数据和视频数据可以是发送到单一设备中输出，该单一设备可以输出音频数据和视频数据，例如可以是智能电视，电脑等设备；也可以是分别发送到显示设备和音频输出装置输出，例如该显示设备可以是投影设备、显示屏等，该音频输出装置可以是音箱等。

由于本申请中获取第一通话音视频数据后；将所述第一通话音视频数据发送给视频云端服务器；接收所述视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频数据并输出；从而实现了基于视频通话进行共同观影，解决了现有技术中缺少陪伴观影的真实感的问题。

为了实现基于视频通话的共同观影，在上述实施例的基础上，在本申请中，所述获取当前场景中用户的第一通话音视频数据之前，所述方法还包括：

接收指令信息，其中所述指令信息中包括在预设应用中创建第一标识信息标识的观影房间的第一子指令、播放第二标识信息标识的影片的第二子指令、以及与第三标识信息标识的主机进行视频通话的第三子指令；向所述第三标识信息标识的主机发送观影请求，其中所述观影请求中携带有所述第一标识信息，向所述视频云端服务器发送影片播放请求，其中所述影片播放请求中包括所述第二标识信息；或

接收观影请求，根据所述观影请求中携带的预设应用中观影房间的第一标识信息，打开所述预设应用的所述第一标识信息对应的观影房间。

在本申请中，为了实现共同观影，该主机还要确定预设应用中的观影房间，从而在该观影房间中共同观影。

由于存在观影房间已经被其他主机创建和观影房间还未被其他主机创建这两种情况，因此在这两种情况时，为了实现共同观影，分别采用的方式如下：

方式1：若观影房间还未被其他主机创建时，该主机接收指令信息，根据指令信息中携带的在预设应用中创建第一标识信息标识的观影房间的第一子指令，在预设应用中创建观影房间，其中该第一标识信息为该观影房间的房间号。

根据指令信息中携带的播放第二标识信息标识的影片的第二子指令，根据该第二子指令中的第二标识信息，向视频云端服务器发送影片播放请求。其中该第二标识信息可以是预先保存的本地视频中影片的存储位置、可以是资源库中影片的资源标识信息、还可以是互联网中影片的网址。

根据指令信息中携带的第三标识信息标识的主机进行视频通话的第三子指令，向第三标识信息标识的主机发送观影请求，为了实现在预设应用的观影房间中共同观影，该观影请求中还携带有观影房间的第一标识信息。

方式2：若观影房间已经被其他主机创建，该主机接收观影请求；其中该观影请求为视频通话的其他主机发送的；该观影请求中包括中观影房间的第一标识信息，该第一标识信息为其他主机创建的观影房间的标识信息。其中其他主机发送观影请求可能是主动发送的，也可能是接收到该主机的请求后发送的。

图2为本申请一些实施例提供的一种实现视频通话的共同观影的过程示意图，如图2所示，该过程包括以下步骤：

S201：主机打开观影陪伴应用，若观影房间还未被其他主机创建，进行S202；若观影房间已经被其他主机创建，进行S204。

S202：接收指令信息，其中指令信息中包括在观影陪伴应用中创建第一标识信息标识的观影房间的第一子指令、播放第二标识信息标识的影片的第二子指令、以及与第三标识信息标识的主机进行视频通话的第三子指令。

S203：向第三标识信息标识的主机发送观影请求，其中观影请求中携带有第一标识信息，向视频云端服务器发送影片播放请求，其中影片播放请求中包括第二标识信息，进行S205。

S204：接收观影请求，根据观影请求中携带的预设应用中观影房间的第一标识信息，打开观影陪伴应用的第一标识信息对应的观影房间。

S205：接收视频云端服务器发送的第二标识信息标识的影片的第三音视频，在第一标识信息对应的观影房间实现共同观影。

在本申请中，由于主机获取的第一通话音视频数据全部发送到与该主机进行视频通话的另一主机时，获取到的第一通话音视频数据中会包括除人像信息外的隐私信息，其中隐私信息包括生活隐私、隐私物品等信息。

为了避免在视频通话的隐私泄露，在上述各实施例的基础上，在本申请中，所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，所述方法还包括：

根据确定出的所述目标图像，对所述第一通话音视频数据的视频数据中的对应图像进行更新得到更新后的目标第一通话音视频数据。

为了避免发生隐私信息泄露的问题，根据第一通话音视频数据的视频数据中的图像，采用现有的人像分割算法，对图像进行人像分割确定出图像中的人像区域图像，其中由于主机当前所在场景中可能存在一个用户，也可能存在多个用户，因此对图像进行人像分割确定出图像中的人像区域图像可能会有一个，也可能会有多个。

具体的，采用现有的人像分割算法确定图像中的人像区域图像时，具体可以是基于训练完成的深度学习模型，确定出图像的人像区域的掩膜图像，根据确定出的人像区域的掩膜图像对图像进行分割，确定出人像区域图像。

其中，掩膜图像是由0和1组成的一个二进制图像，掩膜图像的大小与第一通话音视频数据的视频数据中的图像的大小相等。图像中人像区域的像素点与非人像区域的其他像素点，在掩膜图像中采用不同的像素值进行区别，例如图像中人像区域的像素点，在掩膜图像中对应的像素点的像素值为1，图像中非人像区域的其他像素点，在掩膜图像中对应的像素点的像素值为0。

根据确定出的人像区域图像和预先保存的背景图像，采用现有的人像合成算法进行人像合成，合成包含人像区域图像的目标图像。具体的，无论人像区域图像是一个还是多个，根据人像区域图像在图像中的位置，将背景图像中对应位置像素点的像素值更新为人像区域图像中像素点的像素值，从而合成包含人像区域图像的目标图像。

为了使与主机进行视频通话的另一主机获取到的第一通话音视频数据的视频数据中不包含隐私信息，还要根据确定出的目标图像，对第一通话视频数据中的对应图像进行更新，更新后的目标第一通话音视频数据中视频数据的图像为目标图像。

得到更新后的目标第一通话音视频数据后，将目标第一通话音视频数据发送给视频云端服务器，使视频云端服务器将目标第一通话音视频数据发送给与主机进行视频通话的另一主机。

为了提高信息安全性，在上述各实施例的基础上，在本申请中，所述根据所述人像区域图像和预先保存的背景图像，合成包含所述人像区域图像的目标图像包括：

为了进一步提高信息安全性，在对图像进行人像分割确定出人像区域图像后，本申请中还包括预先训练完成的生成式对抗网络模型，该生成式对抗网络模型是用于生成每个人像对应的虚拟人像的。

根据预先训练完成的生成式对抗网络模型，将人像区域图像输入该生成式对抗网络模型后，输出是人像区域图像对应的虚拟人像图像。其中在输出人像区域图像对应的虚拟人像图像后，还可以接收到对该虚拟人像图像的修改请求，根据接收到的修改请求，主机对该虚拟人像图像进行调整，例如可以是五官调整，也可以是装扮调整等。

根据虚拟人像图像和预先保存的背景图像，采用现有的人像合成算法合成虚拟人像图像的目标图像。具体的，根据人像区域图像在图像中的位置，将背景图像中对应位置像素点的像素值进行更新，更新为人像区域图像对应虚拟人像图像中像素点的像素值，从而合成包含人像区域图像的目标图像。

图3为本申请一些实施例提供的一种生存包含虚拟人像的目标图像的过程示意图，如图3所示，该过程包括下步骤：

S301：对图像进行人像分割确定出人像区域图像。

S302：基于预先训练完成的生成式对抗网络模型，生成人像区域图像对应的虚拟人像图像，进行S303或S304。

S303：接收对虚拟人像图像的修改请求，根据修改请求对虚拟人像图像进行调整，进行S304。

S304：根据虚拟人像图像和预先保存的背景图像，合成包含人像区域图像对应的虚拟人像图像的目标图像。

为了提高基于视频通话的观影陪伴的体验，在上述各实施例的基础上，在本申请中，所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，所述方法还包括：

由于主机获取到的第一通话音视频数据包括主机当前所在的场景中采集到的所有音频数据，而主机当前所在的场景中的音频数据中会包括环境噪音数据和播放影片的音频数据，为了提高基于视频通话的观影陪伴的体验，还可以去除第一通话音视频数据的音频数据中的环境噪音数据。

具体的，去除第一通话音视频数据的音频数据中的环境噪音数据时，可以采用现有的滤波处理的方法去除环境噪音数据。

为了进一步地提高基于视频通话的观影陪伴的体验，还可以去除第一通话音视频数据中播放影片的音频数据。

具体的，根据去除环境噪音数据后的音频数据，由于播放影片的音频数据中通常为影片演员对话的音频数据，因此本申请中可以预先保存主机对应用户的声纹特征，根据主机对应用户的声纹特征确定出主机对应用户的子音频数据，从而去除播放影片的音频数据。

根据预先保存的主机对应用户的声纹特征，采用现有的声纹识别算法识别去除环境噪音数据后的音频数据中主机对应用户的子音频数据，即确定出与声纹库中任一声纹特征匹配的目标声纹特征对应的子音频数据。其中预先保存的主机对应用户的声纹特征可能是包括一个用户的声纹特征，也可能是包括多个用户的声纹特征。

在确定出去除环境噪音数据后的音频数据中主机对应用户的子音频数据后，采用子音频数据更新第一通话音频数据中的音频数据，子音频数据即为目标第一通话音视频数据中的音频数据。

为了提高基于视频通话的观影陪伴的体验，在上述各实施例的基础上，在本申请中，输出所述第二通话音视频数据和所述第三音视频数据包括：

为了提高基于视频通话的观影陪伴的体验，在本申请中，主机将第二通话音视频数据和第三音视频数据输出时，可以是将视频数据和音频数据分别发送给对应的显示设备和音频输出装置输出。其中该第二通话音视频数据还可以经过与上述实施例相同处理的更新后的目标第二通话音视频数据。

主机将第二通话音视频数据的视频数据和第三音视频数据的视频数据发送给显示设备，并在显示设备上输出显示。

在显示设备上输出显示时，可以是将第三音视频数据的视频数据在显示设备的中心区域输出显示，将第二通话音视频数据的视频数据在显示设备的除中心区域外的四周区域输出显示；也可以是将第三音视频数据的视频数据在显示设备的全屏上输出显示，将第二通话音视频数据的视频数据在显示设备上以窗口形式输出显示。

主机将第二通话音视频数据的音频数据和第三音视频数据的音频数据发送给音频输出装置输出。

其中，第二通话音视频数据的音频数据和第三音视频数据的音频数据可以是发送给一个音频输出装置输出，也可以是分别发送给两个音频输出装置输出。

由于将第二通话音视频数据的音频数据和第三音视频数据的音频数据发送给一个音频输出装置输出时，会出现第二通话音视频数据的音频数据和第三音视频数据的音频数据相互干扰的情况，即多声源之间相互干扰的情况。

为了解决多声源之间相互干扰的问题，提高基于视频通话的观影陪伴的体验，在上述各实施例的基础上，在本申请中，所述将所述第二通话音视频数据的音频数据和所述第三音视频数据的音频数据发送给音频输出装置输出包括：

为了解决多声源相互干扰的问题，在本申请中，将第二通话音视频数据的音频数据和第三音视频数据的音频数据分别发送给两个音频输出装置输出。

具体的，将第二通话音视频数据的音频数据发送给第一音频输出装置输出，将第三音视频数据的音频数据发送给第二音频输出装置输出。

为了提升观影时的陪伴体验，该第一音频输出装置位于距主机自身位置的第一预设范围外，其中相比与第一音频输出装置距主机自身位置的距离，第一音频数据装置距用户的距离更近一些。

为了提升观影体验，该第二音频输出装置位于距主机自身位置的第二预设范围内，其中该第一预设范围和第二预设范围是预先设置的，该第一预设范围大于第二预设范围。

下面通过一个具体的实施例对本申请中多声源之间相互干扰解决方案进行说明，图4为本申请一些实施例提供的一种多声源之间相互干扰解决方案的过程示意图，如图4所示，该方案中包括拾音器、家庭主机1、视频云端服务器、家庭主机2、有线音箱A和无线音箱B等设备，该方案应用于家庭主机1或家庭主机2时，包括以下步骤：

S401：获取拾音器采集的第一通话音视频数据中的音频数据。

S402：去除第一通话音视频数据的音频数据中的环境噪音数据。

S403：根据去除环境噪音数据后的音频数据和预先保存的主机对应用户的声纹特征，识别音频数据中与所述声纹库中任一声纹特征匹配的目标声纹特征对应的子音频数据，并采用子音频数据更新所述第一通话音视频数据的音频数据，得到目标第一通话音视频数据的音频数据。

S404：将目标第一通话音视频数据中的音频数据发送给视频云端服务器，并通过视频云端服务器发送给家庭主机2。

S405：接收视频云端服务器发送的家庭主机2的目标第二通话音视频数据中的音频数据和播放影片的第三音视频数据的音频数据。

S406：将目标第二通话音视频数据的音频数据发送给无线音箱B输出，将第三音视频数据的音频数据发送给有线音箱A输出。其中无线音箱B位于距家庭主机1自身位置的第一预设范围外，有线音箱A位于距家庭主机1自身位置的第二预设范围内，所述第一预设范围大于所述第二预设范围。

本申请中，即有线音箱A靠近家庭主机1从而提升观影体验，无线音箱B靠近用户即可以满足聊天社交需求，通过使用两个音箱进行分别播放，可以有效解决多个声源之间相互干扰的问题。

下面通过一个完整的实施例对本申请中的基于视频通话的观影陪伴方法进行说明，图5为本申请提供的一种基于视频通话的观影陪伴时的场景示意图，如图5所示，该方案中包括有线音箱A、显示设备、家庭主机、拾音器、无线音箱B，其中显示设备中存在摄像头。

图6为本申请一些实施例提供的一种基于视频通话的观影陪伴方法的过程示意图，如图6所示，该过程包括以下步骤：

S601：获取拾音器采集的第一通话音视频数据中的音频数据和显示设备的摄像头采集的第一通话音视频数据中的视频数据。

S602：去除第一通话音视频数据的音频数据中的环境噪音数据。

S603：根据去除环境噪音数据后的音频数据和预先保存的主机对应用户的声纹特征，识别音频数据中与所述声纹库中任一声纹特征匹配的目标声纹特征对应的子音频数据，并采用子音频数据更新所述第一通话音视频数据的音频数据，得到目标第一通话音视频数据的音频数据。

S604：根据所述第一通话音视频数据的视频数据中的图像，对所述图像进行人像分割确定出人像区域图像，根据人像区域图像和预先保存的背景图像，合成包含人像区域图像的目标图像。

S605：根据确定出的目标图像，对第一通话音视频数据的视频数据中的对应图像进行更新得到目标第一通话音视频数据的视频数据。

S606：将目标第一通话音视频数据发送给视频云端服务器，并通过视频云端服务器发送给家庭主机2。

S607：接收视频云端服务器发送的家庭主机2的目标第二通话音视频数据和播放影片的第三音视频数据的音频数据。

S608：将目标第二通话音视频数据的视频数据和第三音视频数据的视频数据发送给显示设备输出显示。

其中，如图5中的显示设备所示，第三音视频数据的视频数据在显示设备的视频播放窗口输出，目标第二通话音视频数据的视频数据在视频通话窗口输出。

S609：将目标第二通话音视频数据的音频数据发送给无线音箱B输出，将第三音视频数据的音频数据发送给有线音箱A输出。

其中，如图5所示，有线音箱A位于家庭主机附近，无线音箱B位于用户附近。即无线音箱B位于距家庭主机自身位置的第一预设范围外，有线音箱A位于距家庭主机自身位置的第二预设范围内，所述第一预设范围大于所述第二预设范围。

为了训练生成式对抗网络模型，在上述各实施例的基础上，在本申请中，所述生成式对抗网络模型的训练过程包括：

为了实现对生成式对抗网络模型的训练，本申请中保存有进行训练的样本集，该样本集中的样本图像为包括人像的图像，该样本图像中的场景可以是家庭场景、公司场景、学校场景等各种场景中，该样本图像中的人像可以是站立姿态、坐姿态、躺姿态等各种姿态对应的人像。

在本申请中，在获取到样本集中任一样本图像后，将样本图像和预先随机生成的噪声向量输入到原始生成式对抗网络模型中的生成器中，该生成器生成虚拟人像图像。

根据生成的虚拟人像图像和样本图像，将样本图像和虚拟人像图像输入原始生成式对抗网络模型的判别器中，确定虚拟人像图像属于样本图像的概率。根据确定出的概率对原始生成式对抗网络模型进行训练，以调整原始生成式对抗网络模型中各参数的参数值。

对原始生成式对抗网络模型进行训练的样本集中包含的每一个样本图像都进行上述操作，当满足预设的条件时，得到训练完成的生成式对抗网络模型。其中，该预设的条件可以是样本集中的样本图像通过原始生成式对抗网络模型训练后得到的虚拟人像图像属于样本图像的概率大于设定阈值；也可以是对原始生成式对抗网络模型进行训练的迭代次数达到设置的最大迭代次数等。具体的，本申请对此不做限制。

作为一种可能的实施方式，在对原始生成式对抗网络模型进行训练时，可以把样本集中的样本图像分为训练样本图像和测试样本图像，先基于训练样本图像对原始生成式对抗网络模型进行训练，再基于测试样本图像对训练完成的生成式对抗网络模型的可靠性进行测试。

在上述各实施例的基础上，图7为本申请一些实施例提供的一种基于视频通话的观影陪伴装置的结构示意图，所述装置包括：

获取模块701，用于获取第一通话音视频数据；

通信模块702，用于将所述第一通话音视频数据发送给视频云端服务器，接收所述视频云端服务器发送的第二通话音视频数据和播放影片的第三音视频数据并输出。

进一步地，所述装置还包括：

处理模块，用于所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，根据所述第一通话音视频数据的视频数据中的图像，对所述图像进行人像分割确定出人像区域图像，根据所述人像区域图像和预先保存的背景图像，合成包含所述人像区域图像的目标图像；根据确定出的所述目标图像，对所述第一通话音视频数据的视频数据中的对应图像进行更新，得到更新后的目标第一通话音视频数据；

进一步地，所述处理模块，还用于所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，去除所述第一通话音视频数据的音频数据中的环境噪音数据；根据去除环境噪音数据后的所述音频数据和预先保存的主机对应用户的声纹特征，识别所述音频数据中与所述声纹库中任一声纹特征匹配的目标声纹特征对应的子音频数据，并采用所述子音频数据更新所述第一通话音视频数据的音频数据，得到更新后的目标第一通话音视频数据。

进一步地，所述装置还包括：

在上述各实施例的基础上，图8为本申请一些实施例提供的一种基于视频通话的观影陪伴系统的示意图，所述系统包括：至少两个主机801和视频云端服务器802；

所述主机801，用于执行上述方法中任一所述基于视频通话的观影陪伴方法的步骤；

所述云端服务器802，用于根据接收的影片播放请求中携带的第二标识信息，向所述主机发送播放影片的第三音视频数据。

图9为本申请一些实施例提供的另一种基于视频通话的观影陪伴系统的示意图，如图9所示，该系统包括家庭主机1、其他用户的设备、家庭主机N和视频云端服务器、每个家庭主机对应有拾音器、摄像头、显示设备、有线音箱A和无线音箱B。

其中，视频云端服务器作为视频通话的基础服务，负责音视频数据的分发工作。具体用于根据接收的影片播放请求中携带的第二标识信息，向家庭主机发送播放影片的第三音视频数据。

家庭主机作为家庭数据处理中心，用于执行上述方法中任一所述基于视频通话的观影陪伴方法的步骤。具体描述请参见上述实施例，本申请在此不做赘述。

摄像头用于获取第一通话音视频数据的视频数据；拾音器用来获取第一通话音视频数据的音频数据；显示设备用于输出第二通话音视频数据的视频数据和播放影片的第三音视频数据的视频数据；有线音箱A用于输出播放影片的第三音视频数据的音频数据；无线音箱B用于输出第二通话音视频数据的音频数据。其中，摄像头、拾音器、显示设备和有线音箱A可以作为一个整体集成在一起，例如电视或其他设备；也可以设置成单独的模块。

图10为本申请一些实施例提供的一种电子设备的结构示意图，在上述各实施例的基础上，本申请中还提供了一种电子设备，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信；

所述存储器1003中存储有计算机程序，当所述程序被所述处理器1001执行时，使得所述处理器1001执行如下步骤：

获取第一通话音视频数据；

进一步地，所述处理器1001还用于所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，所述方法还包括：

进一步地，所述处理器1001具体用于所述根据所述人像区域图像和预先保存的背景图像，合成包含所述人像区域图像的目标图像包括：

进一步地，所述处理器1001具体用于输出所述第二通话音视频数据和所述第三音视频数据包括：

进一步地，所述处理器1001具体用于所述将所述第二通话音视频数据的音频数据和所述第三音视频数据的音频数据发送给音频输出装置输出包括：

进一步地，所述处理器1001还用于所述生成式对抗网络模型的训练过程包括：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1002用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在上述各实施例的基础上，本申请还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行如下步骤：

获取第一通话音视频数据；

将所述目标第二通话音频数据的音频数据发送给第一音频输出装置输出，将所述第三音视频数据的音频数据发送给第二音频输出装置输出；其中所述第一音频输出装置位于距主机自身位置的第一预设范围外，所述第二音频输出装置位于距主机自身位置的第二预设范围内，所述第一预设范围大于所述第二预设范围。

进一步地，所述生成式对抗网络模型的训练过程包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于视频通话的观影陪伴方法，其特征在于，所述方法包括：

获取第一通话音视频数据；

2.根据权利要求1所述的方法，其特征在于，所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述人像区域图像和预先保存的背景图像，合成包含所述人像区域图像的目标图像包括：

4.根据权利要求1所述的方法，其特征在于，所述获取第一通话音视频数据之后，所述将所述第一通话音视频数据发送给视频云端服务器之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，输出所述第二通话音视频数据和所述第三音视频数据包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第二通话音视频数据的音频数据和所述第三音视频数据的音频数据发送给音频输出装置输出包括：

将所述第二通话音频数据的音频数据发送给第一音频输出装置输出，将所述第三音视频数据的音频数据发送给第二音频输出装置输出；其中所述第一音频输出装置位于距主机自身位置的第一预设范围外，所述第二音频输出装置位于距主机自身位置的第二预设范围内，所述第一预设范围大于所述第二预设范围。

7.根据权利要求3所述的方法，其特征在于，所述生成式对抗网络模型的训练过程包括：

8.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1-7任一项所述方法。

9.一种计算机可读存储介质，其特征在于，其存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行权利要求1-7任一项所述方法。