CN117793607A

CN117793607A - 一种播放控制方法及装置

Info

Publication number: CN117793607A
Application number: CN202211196932.9A
Authority: CN
Inventors: 范燕平; 徐海; 王敏波; 董阿梅
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2024-03-29
Also published as: WO2024066799A1

Abstract

本申请公开了一种播放控制方法及装置，该方法包括：获取目标视频帧和目标声音的数据，控制音频播放装置模拟目标位置的声源播放目标声音，目标位置至少与目标视频帧中目标图像区域的信息相关。其中，目标图像区域为产生目标声音的目标对象所在的图像区域。由于与目标图像区域的信息相关的目标位置可以用于模拟用户根据目标视频帧所确定的产生目标声音的视觉位置，因此，即使采集端未提供目标声音的声源位置，可以根据目标音视频数据控制音频播放装置模拟目标位置的声源播放目标声音，有利于在播放区域实现目标声音的声源在视觉位置和听觉位置上的一致，为用户带来置身采集区域的临场感。

Description

一种播放控制方法及装置

技术领域

本申请涉及数据处理领域，尤其涉及一种播放控制方法及装置。

背景技术

音视频播放器和会议终端等接收端在收到采集端采集到的音视频数据后，可以通过音频播放装置播放相应声音，通过视频播放装置播放相应的视频。为了提高用户体验，音频播放装置一般支持多声道等立体声技术，为用户提供二维或三维空间的声场体验。

当采集端可以采集声源的位置信息时，接收端可以根据该位置信息控制音频播放装置模拟相应位置的声源播放该声音，使得音频播放装置再现的声场方位与采集现场声源的方位基本一致，给用户带来置身采集现场的临场感。

但是，采集声源的位置信息对采集端有较高的硬件要求，当采集端无法采集声源的位置信息时，接收端难以为用户提供置身采集现场的临场感，不利于提高用户体验。

发明内容

本申请提供一种播放控制方法及装置，用于在不依赖采集端采集的声源位置的前提下，控制音频播放装置播放声音，为用户带来置身采集现场的临场感。

第一方面，本申请提供一种播放控制方法，该方法可以应用于计算设备，该计算设备可以与音频播放装置建立通信连接。该方法包括：获取目标音视频数据，所述目标音视频数据包括目标视频帧和目标声音的数据，所述目标视频帧包括目标对象的目标图像区域，所述目标对象为产生所述目标声音的声源。之后，根据所述目标音视频数据生成并向音频播放装置发送音频播放控制数据，所述音频播放控制数据用于控制所述音频播放装置模拟目标位置的声源播放所述目标声音，所述目标位置至少与所述目标图像区域的信息相关。

由于目标视频帧中目标图像区域内的目标对象为用户根据目标视频帧所确定的产生目标声音的声源(称作视觉声源)，因此，与目标图像区域的信息相关的目标位置可以用于模拟用户根据所述目标视频帧所确定的产生目标声音的视觉位置。这样，即使采集端未提供目标声音的声源位置，可以根据目标音视频数据确定目标图像区域的信息，进而控制音频播放装置模拟目标位置的声源播放目标声音，有利于在播放区域实现目标声音的声源在视觉位置和听觉位置上的一致，为用户带来置身采集区域的临场感。

可选的，所述目标图像区域的信息指示所述目标图像区域在所述目标视频帧中的位置和/或所述目标图像区域中所述目标对象的像素大小。其中，目标图像区域在所述目标视频帧中的位置可以用于确定目标声音的视觉声源在平行平面上的位置，平行平面可以指目标视频帧的显示区域所在的平面。目标图像区域中目标对象的像素大小可以用于确定目标声音的视觉声源在垂直方向上距离该显示区域的距离，垂直方向可以指在垂直于该显示区域的方向。因此，根据目标图像区域的信息有利于确定目标声音的视觉声源在播放区域中的位置，从而有利于使得目标位置更加接近用户根据所述目标视频帧所确定的产生目标声音的视觉位置。

可选的，所述目标图像区域为从多个候选图像区域中确定的，每个所述候选图像区域为所述目标视频帧中包含人脸的图像区域。这样，无需从目标视频帧中的所有图像区域中选取目标图像区域，有利于减少计算设备的计算开销。

可选的，所述目标图像区域中人脸的唇部运动状态指示发生唇动，和/或，所述目标图像区域中的图像特征(例如人脸特征)所匹配的对象与所述目标声音的声纹特征所匹配的对象相同(即目标图像区域和目标声音分别为对同一个人采集得到的图像区域和声音)，这样，有利于更加准确的预测用户通过目标视频帧所确定的视觉声源所在的图像区域，从而有利于使得目标位置更加接近用户根据所述目标视频帧所确定的产生目标声音的视觉位置。

可选的，所述目标声音的数据为从混合声音的数据中分离得到的，所述混合声音包括多个对象产生的声音。这样，有利于控制音频播放装置模拟各对象的位置播放相应声音，为用户带来置身采集现场的临场感。

可选的，所述目标视频帧为从多画面的视频帧中获取的单个画面的视频帧。可选的，目标视频帧与目标声音的数据来自相同的采集端。和从多画面的视频帧中确定目标图像区域相比，对多画面的视频帧进行预处理，获取单个画面的视频帧，之后从单个画面的视频帧中确定目标图像区域，有利于减少计算设备的计算开销。

可选的，所述目标音视频数据还包括标定信息，所述标定信息指示所述目标视频帧在视频播放装置的播放界面中的位置和/或所述视频播放装置相对于所述音频播放装置的位置，所述视频播放装置用于播放所述目标视频帧。目标位置还与标定信息相关，这样，有利于使目标位置更加接近用户根据所述目标视频帧所确定的产生目标声音的视觉位置。

可选的，当所述目标视频帧为从多画面的视频帧中获取的单个画面(称作子画面)的视频帧时，所述标定信息指示目标视频帧对应的子画面在多画面中的位置。

可选的，所述方法还包括：根据所述目标音视频数据向视频播放装置发送视频播放控制数据，所述视频播放控制数据用于控制所述视频播放装置在目标时段播放所述目标视频帧，所述目标时段为所述音频播放装置播放所述目标声音的时段。可选的，目标视频帧和目标声音的数据为分别为视频采集装置和音频采集装置在相同时段对相同采集区域采集到的数据，通过控制所述视频播放装置和音频播放装置在目标时段播放相应数据，有利于同步用户听到的目标声音和看到的目标视频帧，为用户带来置身采集现场的临场感。

第二方面，本申请提供一种播放控制装置，包括：获取模块和发送模块。获取模块用于获取目标音视频数据，所述目标音视频数据包括目标视频帧和目标声音的数据，所述目标视频帧包括目标对象的目标图像区域，所述目标对象为产生所述目标声音的声源。发送模块用于根据所述目标音视频数据向音频播放装置发送音频播放控制数据，所述音频播放控制数据用于控制所述音频播放装置模拟目标位置的声源播放所述目标声音，所述目标位置与所述目标图像区域的信息相关。

可选的，所述目标图像区域中人脸的唇部运动状态指示发生唇动，和/或，所述目标图像区域中的图像特征所匹配的对象与所述目标声音的声纹特征所匹配的对象相同，这样，有利于更加准确的预测用户通过目标视频帧所确定的视觉声源所在的图像区域，从而有利于使得目标位置更加接近用户根据所述目标视频帧所确定的产生目标声音的视觉位置。

可选的，所述发送模块还用于根据所述目标音视频数据向视频播放装置发送视频播放控制数据，所述视频播放控制数据用于控制所述视频播放装置在目标时段播放所述目标视频帧，所述目标时段为所述音频播放装置播放所述目标声音的时段。可选的，目标视频帧和目标声音的数据为分别为视频采集装置和音频采集装置在相同时段对相同采集区域采集到的数据，通过控制所述视频播放装置和音频播放装置在目标时段播放相应数据，有利于同步用户听到的目标声音和看到的目标视频帧，为用户带来置身采集现场的临场感。

第三方面，本申请提供一种计算设备，包括存储器和处理器，所述存储器存储有代码，所述处理器被配置为执行所述代码，当所述代码被执行时，所述计算设备能够执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

可选的，该计算设备还可以包括通信接口，该处理器通过该通信接口例如能够接收目标音视频数据或发送音频播放控制数据等。

第四方面，本申请提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，该程序由计算机执行时，使得所述计算机能够执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第五方面，本申请提供一种播放系统，包括第三方面提供的计算设备和音频播放装置。

可选的，该播放系统还包括视频播放装置。

本申请第六方面提供了一种芯片系统，该芯片系统包括处理器和接口电路，该处理器通过该接口电路与存储器耦合，该处理器用于执行该存储器中的程序代码，能够执行第一方面或第一方面的任一种可能的实现方式所描述的方法。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

由于本申请提供的各装置或播放系统中的计算设备可用于执行前述对应的方法，因此本申请各装置所能获得到的技术效果可参考前述对应的方法所获得的技术效果，此处不再赘述。

附图说明

图1示意性示出本申请播放系统一种可能的结构；

图2示意性示出视频播放装置所播放的一个视频帧；

图3示意性示出本申请播放控制方法一种可能的流程；

图4示意性示出图3所示S302一种可能的流程；

图5示意性示出S403一种可能的流程；

图6示意性示出播放区域一种可能的结构；

图7示意性示出本申请适用的另一种系统架构；

图8示意性示出计算设备所接收到的多画面的视频帧；

图9示意性示出本申请播放控制装置一种可能的结构；

图10示意性示出本申请计算设备一种可能的结构。

具体实施方式

本申请提供了一种播放系统。该播放系统包括采集区域和播放区域。采集区域设置有采集端，采集端用于采集声音的数据和视频帧序列，播放区域设置有播放端，播放端用于播放声音和视频帧序列。本申请不限定采集区域和播放区域的形状、大小和封闭类型，例如，采集区域或播放区域可以为封闭的室内区域，或者为开放的室外区域。本申请不限定该播放系统的用途，例如，该播放系统可以为播放区域的用户提供面对面的音视频体验。在一些示例中，通过在采集区域设置播放端，在播放区域设置采集端，采集区域可以作为播放区域，播放区域可以作为采集区域。

图1示意性示出播放系统一种可能的结构。图1以播放系统包括第一会议室和第二会议室为例，其中，第一会议室和第二会议室分别作为采集区域和播放区域。参考图1，第一会议室设置有采集端，第二会议室设置接收端。采集端用于获取第一会议室中某个时段(记为时段t)的声音的数据和视频帧序列。采集端与接收端通信相连，以将声音的数据和视频帧序列发送给接收端。接收端用于播放声音视频帧序列。

采集端包括但不限于采集设备，其中，采集设备包括视频采集装置和音频采集装置(图1未示出)。其中，视频采集装置用于获取第一会议室在时段t的图像或视频帧序列，本申请不限定视频采集装置的类型，可选的，视频采集装置可以为图像传感器，例如摄像头、雷达或红外探测器摄像头等。音频采集装置用于获取第一会议室在时段t的声音的数据，本申请不限定音频采集装置的类型，可选的，音频采集装置可以为声音传感器，例如，麦克风。

参考图1，接收端包括但不限于计算设备和播放设备。播放设备包括音频播放装置和视频播放装置。本申请不限定音频播放装置和视频播放装置的类型，例如，音频播放装置包括图1所示的扬声器Y1和扬声器Y2，视频播放装置为液晶显示器或投影仪。

图1所示的计算设备可以为物理设备或虚拟设备，该虚拟设备可以部署在本地或云服务器上。图1以计算设备和播放设备设置在不同设备上为例，可选的，计算设备的全部或部分功能可以集成在播放设备中。图1以音频播放装置和视频播放装置设置在不同设备上为例，可选的，音频播放装置和视频播放装置可以设置在同一设备上。

本申请不限定声音的数据和视频帧序列的数据格式或封装方式。可选的，接收端将声音的数据和视频帧序列封装在一起，之后发送给接收端。或者，可选的，接收端封装声音的数据后发送给接收端，封装视频帧序列后发送给接收端。

计算设备接收到声音的数据和视频帧序列后，可以向视频播放设备发送视频播放控制数据，向音频播放装置发送音频播放控制数据。其中，视频播放控制数据指示视频播放装置播放视频帧序列，音频播放控制数据指示音频播放装置播放上述声音。

可选的，视频播放控制数据可以包括但不限于上述视频帧序列。可选的，计算设备可以对上述视频帧序列进行处理(例如格式转换)后得到视频播放控制数据。

可选的，音频播放控制数据可以包括但不限于上述声音的数据。可选的，计算设备可以对上述声音的数据进行处理(例如格式转换)后得到音频播放控制数据。

可选的，音频播放控制数据包括音频控制数据，音频控制数据用于控制音频播放装置的播放状态，音频播放装置的播放状态包括开关状态和/或输出声音的音量大小和/或输出声音的时延等。

可选的，音频播放装置可以包括至少两个音频播放单元。不限定音频播放单元的类型，只要音频播放单元能够输出上述声音即可，例如，音频播放单元为扬声器。图1以音频播放装置包括两个音频播放单元(扬声器Y1和扬声器Y2)为例。可选的，音频播放装置可以模拟某个位置的声源播放声音。参考图1，扬声器Y1和扬声器Y2可以模拟位置1的声源播放声音。假设用户4位于第二会议室中，听到扬声器Y1和扬声器Y2分别播放的声音后，从听觉上认为该声音来自位置1，相当于位置1存在一个等效声源或听觉声源。可选的，音频控制数据用于分别控制每个音频播放单元的状态，通过控制音频播放装置中每个音频播放单元的状态，有利于调整等效声源的位置。

参考图1，假设在时段t内的目标时段，用户1～用户3位于第一会议室内，并且，用户1在目标时段内发出声音1。第一会议室的采集端分别将声音1的数据和视频帧序列发送给接收端后，接收端的视频播放设备播放该视频帧序列，并且，扬声器1和扬声器2模拟位置1的声源播放声音1。

图2示意性示出视频播放装置输出第一会议室在目标时段内的一个视频帧。参考图2，该视频帧包括用户1对应的图像区域Q1、用户2对应的图像区域Q2和用户3对应的图像区域Q3。假设第二会议室中的用户4通过该视频帧判定用户1正在说话，本申请将用户4通过视频帧确定的声音1的声源称作视觉声源。为了使用户4认为扬声器Y1和扬声器Y2播放的声音1来自看到的用户1，也就是使声音1的视觉声源和听觉声源(即等效声源)的位置一致，采集端可以计算用户1的位置，例如根据声音1到达麦克风阵列中不同麦克风的时间差来确定用户1的位置，并将声音1的数据连同用户1的位置信息发送给接收端。这样，计算设备可以根据位置信息和声音1的数据控制扬声器Y1和扬声器Y2的等效声源的位置，打造面对面的视频会议交流体验。

但是，当采集端无法估算用户1的位置或未将用户1的位置信息发送给接收端时，计算设备无法根据用户1的位置控制音频播放装置的等效声源的位置，容易导致用户4通过视频帧所观察到的声源(例如用户1)的方位和通过声音听到的声源的方位不一致，不利于提高用户4的体验。

为了解决上述问题，本申请提供一种播放控制方法，即使采集端未将声源的位置信息发送给接收端，仍然有利于在接收端实现听觉声源和视觉声源的位置一致，打造面对面的视频会议交流体验。图3示意性示出播放控制方法一种可能的流程。参考图3，该方法包括步骤S301～S302。可选的，该方法可以应用于图1所示的计算设备。

S301、获取目标音视频数据；

计算设备可以获取目标音视频数据，目标音视频数据包括但不限于目标声音的数据和目标视频帧。本申请将产生目标声音的对象称作目标对象，也就是说，目标对象为产生目标声音的声源。目标视频帧可以包括目标对象的图像区域(称作目标图像区域)。可选的，目标对象指人。以目标对象为图1所示的用户1为例，目标声音为前文介绍的声音1，目标视频帧如图2所示，可选的，目标图像区域为图2所示的图像区域Q1。

本申请不限定目标音视频数据的来源，可选的，计算设备从图1所示的采集端接收目标音视频数据。本申请不限定目标音视频数据为采集端发送的原始数据，可选的，计算设备从采集端发送的音视频数据中获取目标音视频数据。本申请不限定计算设备从音视频数据中获取目标音视频数据的方式，后文将举例介绍几种可能的选取方式，此处暂不展开介绍。

可选的，目标声音的数据和目标视频帧为采集设备在相同时段(称作目标时段)对相同区域(称作采集区域)采集得到的。采集区域可以为真实场景或模拟场景。采集设备包括视频采集装置和音频采集装置，其中，音频采集装置用于采集目标时段内采集区域中声音的数据，视频采集装置用于采集目标时段内采集区域内的视频帧(或称视频帧序列)。采集设备可以为真实场景中的真实设备，例如，可选的，采集设备为图1所示的采集设备，采集区域如图1所示的第一会议室。或者，采集设备可以为虚拟场景中的虚拟设备。

本申请不限定计算设备所获取的目标音视频数据的格式和封装方式，只要计算设备能够从目标音视频数据中获取目标声音的数据和目标视频帧即可。例如，在目标音视频数据中，目标声音的数据和目标视频帧被封装在不同报文中，计算设备对多个报文解封分别得到目标声音的数据和目标视频帧。或者，目标音视频数据中，目标声音的数据和目标视频帧被封装在相同报文中，计算设备对该报文进行解封装同时得到目标声音的数据和目标视频帧。

可选的，目标音视频数据用于在播放设备上输出，播放设备包括设置在同一空间区域(称作播放区域)的音频播放装置和视频播放装置。目标声音用于在音频播放装置上播放，目标视频帧用于在视频播放装置上播放。可选的，该播放设备例如为图1所示的播放设备，播放区域为图1所示的第二会议室。

S302、根据目标音视频数据生成并向音频播放装置发送音频播放控制数据；

计算设备获取目标音视频数据后，可以根据目标音视频数据生成并向音频播放装置发送音频播放控制数据，音频播放控制数据指示音频播放装置模拟目标位置的声源播放目标声音。当音频播放装置具有调整等效声源的位置的功能时，音频播放装置可以模拟某个位置的声源播放声音。这样，当播放区域的用户收听到音频播放装置模拟目标位置的声源播放的目标声音时，认为目标声音来自目标位置，或者说，目标声音的听觉声源或音频播放装置的等效声源位于目标位置。

可选的，目标位置为根据目标视频帧中的目标图像区域的信息确定的发出目标声音的位置，也就是说，目标位置与目标图像区域的信息有关，有利于使得目标位置接近用户在观看视频播放装置输出的目标视频帧时，从该目标视频帧中确定的说话人的位置。这样，有利于在播放区域实现目标声音的方位和目标视频帧中说话人的方位一致，打造面对面的视频会议交流体验。

可选的，音频播放装置包括n个音频播放单元，n为大于或等于2的正整数。可选的，通过调整n个音频播放单元中全部或一部分音频播放单元的状态可以调整音频播放装置的等效声源的位置。音频播放单元的状态包括音频播放单元的开关状态和/或输出声音的音量大小和/或输出声音的时延大小等。

可选的，音频播放控制数据包括目标声音的数据和音频控制数据，音频控制数据指示音频播放装置等效目标位置的声源播放目标声音。

可选的，音频控制数据指示目标位置的位置信息(称作目标位置信息)，音频播放装置可以根据目标位置信息将目标等效声源的位置配置为目标位置。

可选的，音频控制数据包括用于输入n个音频播放单元中每个音频播放单元的子音频控制数据，每个子音频控制数据指示相应音频播放单元的状态。每个音频播放单元按照接收到的子音频控制数据输出目标声音，从而实现n个音频播放单元模拟目标位置的声源输出目标声音。

可选的，步骤S302包括步骤S3021和S3022。

S3021、在目标视频帧中确定目标对象所在的目标图像区域；

计算设备在获取目标音视频数据后，可以在目标视频帧中确定目标对象所在的图像区域(称作目标图像区域)。换言之，目标图像区域所呈现的对象为发出目标声音的对象。可选的，目标声音为人发出的声音，相应的，目标对象为人，或者，更为具体的，目标对象为人脸或人的唇部。以下，本申请以目标图像区域为人脸所在的图像区域为例。

可选的，计算设备可以在目标视频帧中识别包含人脸的一个或多个图像区域(称作候选图像区域)，每个候选图像区域为目标视频帧中包含人脸的图像区域。计算设备可以根据目标图像信息从一个或多个候选图像区域中确定目标图像区域。

可选的，图像信息指示至少一个候选图像区域的唇部运动状态。计算设备可以使用唇动检测技术识别候选图像区域中人脸的唇部运动状态，唇部运动状态指示发生唇动或未发生唇动。本申请不限定唇动检测技术的具体实现方式。例如，计算设备可以从候选图像区域中识别唇部区域，根据唇部区域的形状(例如上下唇之间的距离)确定唇部运动状态。可选的，目标图像区域的唇部运动状态指示发生唇动。

可选的，图像信息指示目标声源的人脸特征，从目标图像区域识别的图像特征所匹配的对象与目标声源的声纹特征所匹配的对象相同。可选的，计算设备可以获取身份信息记录，该身份信息记录包括一个或多个用户的身份信息，每个用户的身份信息关联记录该用户发出的声音的声纹和该用户的人脸特征。计算设备可以根据目标声音的声纹和身份信息记录中的目标身份信息确定目标声源的人脸特征，其中，目标身份信息所记录的声纹与目标声音的声纹一致，目标声源的人脸特征为目标身份信息所记录的人脸特征。

其中，人脸特征用于描述人脸的关键部位的特征，不同人的人脸特征一般不同，同一个人的人脸特征一般不变。本申请不限定从人脸中选取的关键部位，也不限定人脸特征的形式，例如，人脸特征可以为一组特征向量。本申请不限定从候选图像区域中提取人脸特征的具体实现方式，也不限定判定两个人脸特征是否一致的标准或方式。

声纹(voiceprint)是指携带言语信息的声波频谱，声纹不仅具有特定性，而且有相对稳定性。同一个人在不同时段发出的声音的声纹一般不变，不同人发出的声音的声纹一般不同，因此，声纹可以用于标识声源的身份。本申请不限定根据目标声音的数据提取目标声音的声纹的方式，也不限定判定两个声纹是否一致的标准或方式。

可选的，目标信息指示每个候选图像区域的唇部运动状态和目标声源的特征信息，计算设备可以结合每个候选图像区域的唇部运动状态和目标声源的特征信息从一个或多个候选图像区域中确定目标图像区域。例如，目标图像区域的唇部运动状态指示发生唇动，并且，从目标图像区域识别的人脸特征与目标声源的人脸特征一致。后文将结合附图举例介绍一种可能的具体流程，此处暂不展开介绍。

当目标视频帧仅包括一个候选图像区域时，可选的，计算设备可以将该候选图像区域作为目标图像区域。

当目标视频帧包括多帧图像时，计算设备可以使用上述方式，获取每帧图像的目标图像区域，之后，根据每帧图像的目标图像区域的位置确定目标位置。

或者，当目标视频帧包括多帧图像时，计算设备可以选取其中的一帧图像(称作目标图像)，使用上述方式，获取目标图像的目标图像区域。可选的，计算设备可以根据多帧图像对目标图像中的候选图像区域进行唇动检测，以更加准确的确定每个候选图像区域的唇部运动状态，进而确定目标图像区域。

S3022、根据目标图像区域的信息向音频播放装置发送音频播放控制数据；

计算设备确定目标图像区域后，可以根据目标图像区域的信息向音频播放装置发送音频播放控制数据。由于目标图像区域中的目标对象为用户通过目标视频帧确认的发出目标声音的对象，因此，根据目标图像区域的信息向音频播放装置发送音频播放控制数据，在接收端实现声音方位和画面中说话人的方位保持一致，打造面对面的视频会议交流体验。

本申请将播放区域中用于显示视频播放装置所输出的目标视频帧的区域称作目标视频帧的显示区域。可选的，视频播放装置包括显示屏，该显示区域位于视频播放装置的显示屏上。或者，可选的，视频播放装置用于在视频播放装置以外的其他介质上显示目标视频帧，例如，视频播放装置为投影装置，显示区域为该投影装置在墙壁上的投影区域。

可选的，目标图像区域的信息指示目标图像区域在目标视频帧中的位置和/或目标图像区域中目标对象的像素大小。根据目标图像区域的信息有利于将目标位置设置为播放目标视频帧的视觉位置。

目标图像区域在目标视频帧中的位置有利于确定目标对象在显示区域中的位置或目标对象相对于采集区域的摄像头的位置，目标对象在目标图像区域中的像素大小有利于确定目标对象相对于显示区域或采集区域的摄像头的距离。

目标音视频数据还包括标定信息，可选的，计算设备可以根据标定信息和目标图像区域的信息生成音频播放控制数据，以更加准确的确定通过目标视频帧所确定的目标声音的视觉位置。可选的，标定信息指示目标视频帧在视频播放装置的播放界面中的位置和/或视频播放装置(或显示区域)相对于音频播放装置的位置，视频播放装置用于播放目标视频帧。

在一些示例中，目标视频帧为多画面视频帧中一个画面的视频帧，视频播放装置的播放界面用于播放该多画面视频帧，通过确定目标视频帧在多画面视频帧中的位置，有利于确定目标视频帧在视频播放装置的播放界面中的位置，以更加准确的确定通过目标视频帧所确定的目标声音的视觉位置。

可选的，在步骤S302之后，该方法还包括步骤S303。

S303、根据目标视频帧向视频播放装置发送视频播放控制数据。

计算设备获取目标音视频数据后，可以根据其中的目标视频帧向视频播放装置发送视频播放控制数据，视频播放控制数据指示视频播放装置输出目标视频帧。

可选的，上述视频播放控制数据和音频播放控制数据分别携带同步信息，该同步信息用于控制视频播放装置在输出目标视频帧的过程中，音频播放装置同步输出目标声音。

图4示意性示出步骤S302一种可能的具体流程。参考图4，该流程包括S401至S404。

S401、对目标声音的数据进行音频处理；

计算设备获取到目标声音的数据(或称远端音频)后，可以调用声纹识别模型进行处理，获取声纹(或称声纹特征)并与注册数据库中的特征集进行比对，得到声纹识别的结果声纹身份标识号(identity document，ID)。可选的，声纹识别模型为训练得到的机器学习模型。

S402、对目标视频帧进行视频处理；

计算设备获取到目标视频帧(或称远端画面)后，假设目标视频帧包括多帧图像。计算设备可以从多帧图像中选取单帧图像(称作目标图像)，目标图像和多帧图像分别进行处理。

计算设备可以对每帧图像进行人脸检测。针对单帧图像，计算设备可以调用人脸检测模型进行处理，得到该帧图像中一个或多个人脸的图像区域(即候选图像区域)。以该帧图像如图2所示，计算设备可以得到图像区域1、图像区域2和图像区域3。人脸检测模型可以为机器学习模型，例如，人脸检测模型可以为你只看一次(you only look once，yolo)模型。

之后，计算设备可以对每个人脸的图像区域进行关键点检测，提取唇部区域框(或称唇部区域)，对每个图像区域的唇部区域进行唇动检测。为了提高准确性，计算设备可以将同一人的多个唇部区域输入唇动检测模型，确定此人的唇部运动状态。例如，计算设备通过多帧唇部特征的变化进行分析得到该对象的唇部运动状态，从而确定该对象正在说话或不说话。从而，计算设备可以得到目标视频帧中每个对象的说话状态。

计算设备可以通过跟踪技术对目标视频帧进行处理，确定每个候选图像区域的人脸特征(后文记为ReID)。

S403、根据音频处理结果和视频处理结果确定目标图像区域的位置信息；

计算设备可以根据音频处理结果和视频处理结果在目标视频帧中确定目标声源的目标图像区域。例如，该音频处理结果为步骤S401得到的声纹识别结果，视频处理结果包括步骤S402得到的人脸检测结果、人脸跟踪结果和唇动检测结果。

计算设备可以维护一个当前说话人及历史说话人的声纹ID和ReID的映射表，该映射表指示当前说话人的声纹ID和ReID，并且指示历史说话人的声纹ID和ReID。

可选的，计算设备可以结合每个候选图像区域的唇部运动状态和目标声源的特征信息从一个或多个候选图像区域中确定目标图像区域。图5示意性示出计算设备确定目标图像区域的可能流程。参考图5，该流程包括步骤S501至S514。

S501、根据唇动检测结果判断当前是否唯一说话人，若是，则执行步骤S502，若否，则执行步骤S507；

计算设备对目标视频帧中的各个候选图像区域分别进行唇动检测后，根据唇动结果判断当前是否存在唯一说话人。也就是说，目标视频帧是否存在且仅存在一个候选图像区域的唇动检测结果指示发生唇动。若是，则执行步骤S502，若否，则执行步骤S507。

S502、确认说话人；

当目标视频帧存在且仅存在一个候选图像区域的唇动检测结果指示发生唇动时，确认该候选图像区域为目标图像区域，该图像区域中的对象为目标对象(或称目标声音的说话人)。

S503、判断该声纹是否有匹配声纹，若是，执行步骤S505，若否，执行步骤S504；

计算设备对目标声音的数据进行声纹识别，得到该目标声音的声纹，判断该声纹是否有匹配声纹。例如，判断该声纹是否在注册数据库中存在匹配的声纹。若是，则执行步骤S505，若否，则执行步骤S504。

S504、注册声纹；

若该声纹不存在匹配声纹，计算设备可以注册该声纹，例如，在注册数据库中添加该声纹的记录，分配并保存该声纹的声纹ID。

S505、更新声纹对应的ReID；

若在步骤S503中判定该声纹在注册数据库中存在匹配的声纹，或者，通过S504注册了声纹，那么，计算设备可以建立该声纹ID与目标图像区域的ReID的对应关系，即更新该声纹对应的ReID。

S506、将当前ReID所指示的对象作为新说话人；

目标图像区域的ReID(或称当前ReID)所指示的对象即为目标对象，将目标对象作为新说话人(即发出目标声音的人)。

S507、判断是否存在多个唇动结果，若是，执行步骤S508，若否，执行步骤S513；

当目标视频帧中任意一个候选图像区域的唇动检测结果均指示未发生唇动时，或者，目标视频帧中多个候选图像区域的唇动检测结果均指示发生唇动时，计算设备可以判断是否存在多个唇动结果，若是，执行步骤S508，若否，执行步骤S513。

S508、通过声纹特征找到对应的ReID；

当判定目标视频帧中多个候选图像区域的唇动检测结果均指示发生唇动时，计算设备可以通过目标声音的声纹特征找到对应的ReID。

S509、判断该ReID是否在当前多人ReID范围内，若是，执行步骤S510，若否，执行步骤S511；

步骤S508之后，计算设备可以判断找到的ReID是否在目标视频帧中多个候选图像区域的ReID(或称当前ReID)范围内。若是，执行步骤S510，若否，执行步骤S511。

S510、通过声纹特征找到对应的ReID；

若在步骤S509中判定该ReID在当前多人ReID范围内，从目标视频帧的多个候选图像区域中确定该ReID对应的候选图像区域(即目标图像区域)，该候选图像区域中的对象为目标对象，该ReID所指示的对象即为新的说话人。

S511、判定说话人定位失败；

若在步骤S509中判定该ReID不在当前多人ReID范围内，认为发出目标声音的目标对象不在目标视频帧中，可以判定目标对象(即说话人)定位失败。

S512、沿用之前说话人；

可选的，在步骤S511后，计算设备可以认为之前确定的说话人为当前说话人，将之前说话人对应的候选图像区域作为目标图像区域。

S513、判断声纹识别是否有唯一结果，若是，执行步骤S514，若否，执行步骤S511。

当目标视频帧中任意一个候选图像区域的唇动检测结果均指示未发生唇动时，计算设备判断声纹识别是否有唯一结果。声纹识别有唯一结果可以指，目标视频帧中的某个候选图像区域的ReID与目标声音的声纹ID所对应的ReID匹配(或一致)。若是，执行步骤S514，若否，执行步骤S511。

S514、将声纹特征找到对应的ReID作为新的说话人。

当判定声纹识别有唯一结果时，计算设备将声纹特征(例如目标声音的声纹ID)对应的ReID在目标视频帧中指示的对象作为新说话人(即目标对象)，相应的候选图像区域为目标图像区域。

可选的，步骤S401至S403为步骤S3021一种可能的具体实现方式。

S404、向多个音频播放单元发送音频播放控制数据；

计算设备在目标视频帧中确定目标图像区域后，可以确定目标图像区域的信息(例如目标对象在目标视频帧的画面中的位置)。计算设备根据目标图像区域的信息和采集目标视频帧的视频采集装置(例如摄像头)的标定信息计算得到目标声音的方位信息，例如方位角(direction of arrival，DOA)。之后，计算设备根据目标图像区域中目标对象的人脸大小计算得到目标对象和视频采集装置的距离。计算设备结合声音方位信息DOA、目标对象和视频采集装置的距离和播放区域的多个音频播放单元的位置信息计算得到多个音频播放单元的音频控制数据或称控制信息，该控制信息用于控制相应音频播放单元的状态，例如，控制相应音频播放单元输出的声音的强弱和/或时延，生成自适应立体声效果。可选的，该音频播放单元控制主要针对存在多个音频播放单元的场景，且音频播放单元的位置主要在室内前端(相对人的前面)，如果是四周环绕模式，则考虑要么取消控制，或者仅对前端音频播放单元进行控制，其他位置音频播放单元不进行音频播放。

下面举例介绍步骤S404一种具体的计算方法。

首先，根据目标图像区域在目标视频帧中的图像坐标和视频采集装置的标定参数计算得到目标对象在视频采集装置的坐标系中的坐标(x、y)，x和y为平行于视频采集装置的平面中的坐标。从而，可以计算目标对象在水平方向的角度信息。

之后，根据目标图像区域中人脸的大小预估得到目标对象和视频采集装置的距离。例如，先设置几个阈值，不同的距离对应不同的人脸像素点大小，然后按照就近原则进行匹配，从而确定目标对象和视频采集装置的距离(记为L1)。

之后，根据播放区域(例如图1所示的第二会议室)的环境参数，获取到视频采集装置(或其显示区域)和音频播放单元之间的位置关系，从而计算得到用户通过目标视频帧看到的目标对象和不同音频播放单元之间的距离和角度。

以播放区域包括两个音频播放单元(分别记为Y1和Y2)为例，图6示意性示出了播放区域一种可能的场景。参考图1，显示位置为视频播放装置的显示区域中的某个位置(例如中心位置)，等效作为视频采集装置的位置。在已知显示区域和两个音频播放单元之间的相对位置后，可以根据目标对象相对于视频采集装置的位置在图6所示的播放区域中确定目标位置，即用户在播放区域中通过目标视频帧看到的目标对象的位置。假设目标位置与音频播放单元1之间的距离为L2，目标位置与音频播放单元2之间的距离为L3。

计算设备可以根据目标对象距离两个音频播放单元的距离来控制两个音频播放单元上音量的大小，比如按照区间来设置不同的音量值。可选的，若L2和L3相同，则控制两个音频播放单元的音量相同，分别设置为设定音量的50％。可选的，若L2和L3的差异在50％以内，则将两个音频播放单元的音量分别设置为设定音量70％和30％。可选的，若L2和L3的差异在50％以外，则将两个音频播放单元的音量分别设置为设定音量的90％和10％。另外，也可以采用线性关系，按照距离的比例完成音量的分配。可选的，音频播放单元1的音量V1＝总音量*L2/(L2+L3)，音频播放单元2的音量V2＝总音量*L3/(L2+L3)。

另外，可选的，也可以通过真实声相(real panning)技术实现不同角度上的控制。

在步骤S301中提到，目标音视频数据基于为计算设备获取到的音视频数据中的一部分音视频数据。

可选的，目标音视频数据为从音视频数据中选取的固定时长的音视频数据。

可选的，目标声音的声源(称作目标声源)包括人。本申请不限定计算设备识别目标声源的类型的方式，可选的，计算设备通过声纹识别技术对目标声音的数据进行分析，确定目标声源是否为人。

可选的，目标视频帧包括人对应的图像区域。本申请不限定计算设备识别目标视频帧中人对应的图像区域的方式，可选的，计算设备通过人脸识别技术对目标视频帧进行分析，确定目标视频帧是否包括人脸对应的图像区域。

当音视频数据包括混合声音的数据时，可选的，目标声音的数据为从混合声音的数据中分离得到。其中，混合声音包括多个对象发出的声音，目标声音为单个对象发出的声音。例如，图1所示的第一会议室中，用户1和用户2均在目标时段发出声音，音频采集装置采集到的音频数据包括用户1和用户2的混合声音。

本申请不限定对混合声音的数据进行语音分离的具体方法。可选的，可以采用机器学习模型从混合声音的数据中分离出单个对象发出的声音的数据，例如，从音频数据中分离得到用户1的声音的数据(记为A1)和用户2的声音的数据(记为A2)。

可选的，可以从音视频数据中分离得到每个对象发出的声音的数据，以每个对象发出的声音的数据和音视频数据中的目标视频帧作为目标音视频数据，执行步骤S301至S303中的至少一项，或，执行步骤S401至S404中的至少一项。例如，以目标音视频数据包括A1和目标时频帧，执行步骤S301和S302，并且，以目标音视频数据包括A2和目标时频帧，执行步骤S301和S302。将用户4在第二会议室看到的用户1的位置称作位置1，将用户4在第二会议室看到的用户2的位置称作位置2。这样，计算设备可以控制音频播放装置模拟位置1的声源输出用户1的声音，模拟位置2的声源输出用户2的声音，打造面对面交流的用户体验。

由于混合声音的数据中得到的不同单独声音的数据对应相同的视频帧，为了减少计算设备的计算开销，可选的，针对不同单独声音的数据的上述处理过程可以复用部分处理结果，例如，以目标音视频数据包括A2和目标时频帧执行步骤S301和S302的过程中，确定候选图像区域后，在以目标音视频数据包括A2和目标时频帧执行步骤S301和S302的过程中，计算设备无需再次确定目标视频帧中的候选图像区域。

图7示意性示出本申请适用的另一种系统架构。参考图7，该系统架构包括会议室1～会议室5，会议室1～会议室5分别设置有终端1～终端5。终端1～终端4中的每个终端可以参考图1所示的采集端理解，用于分别获取所在会议室的音视频数据(记为音视频数据1～音视频数据4)。会议服务器用于分别获取音视频数据1～音视频数据4，将音视频数据1中的视频帧1～音视频数据4中的视频帧4组装成图8所示的多画面的视频帧，之后将音视频数据(包括多画面的视频帧、音视频数据1中的声音1的数据～音视频数据4中的声音4的数据)发送给终端5。终端5可以参考图1所示的接收端理解，用于获取会议服务器发送的音视频数据，输出多画面的视频帧，并且输出声音1～声音4。

可选的，会议服务器在完成多画面拼接后，从多个发送端上传的音频流中确定正在说话的与会方，同步将多画面视频流、选取的音频流以及将当前音频流对应的与会方在多画面中的子画面位置信息携带在信令中发送到接收端。

可选的，在图7所示的多方会议的场景中，会议服务器为可选设备，或者，会议服务器对接收到的音视频数据1～音视频数据4透传至终端5，由终端5将视频帧1～视频帧4组装成图8所示的多画面的视频帧，输出多画面的视频帧，并且输出声音1～声音4。

在图7所示的多方会议的场景中，终端5接收到的音视频数据用于输出多画面的视频帧，在前述方案的基础上，接收端(或计算设备)需要额外增加多画面视频的布局信息和某个时刻发言会场的信息进行综合处理。

可选的，当计算设备获取到的音视频数据用于输出多画面的视频帧时，假设音视频数据中目标画面的视频帧对应的音频数据指示有人说话，计算设备可以获取目标画面的视频帧作为目标视频帧。本申请不限定多画面的视频帧中画面的数目。参考图8，假设画面1的视频帧1对应的声音1的数据指示有人说话，可以画面1的视频帧1作为目标视频帧，以目标音视频数据包括画面1的视频帧1和画面1对应的声音1的数据，执行步骤S301至S303中的至少一项，或，执行步骤S401至S404中的至少一项。

或者，可选的，当音视频数据用于输出多画面的视频帧时，计算设备可以以每个画面的视频帧和对应的音频数据分别作为目标视频帧和目标声音的数据，执行步骤S301至S303中的至少一项，或，执行步骤S401至S404中的至少一项。

可选的，以每个画面的视频帧和对应的音频数据分别作为目标视频帧和目标声音的数据执行上述流程的过程中，在确定目标图像区域后，可以结合目标视频帧在多画面的视频帧中的位置生成相应的音频播放控制数据。可选的，步骤S3022中涉及的目标图像区域的信息还指示目标视频帧在多画面的视频帧中的位置。

上述阐述了本申请提供的方法，为了便于更好的实施本申请实施例的上述方案，相应地，下面还提供用于配合实施上述方案的相关设备。

参见图9，图9是本申请实施例提供的一种播放控制装置的结构示意图，该播放控制装置可以是上述图3所示方法实施例中的计算设备，可以执行图3所示的播放控制方法，或者，可以执行图4或图5所示的方法。如图9所示，该播放控制装置9包括获取模块910和发送模块920。

其中，在一种可能的实现方式中，获取模块910，用于执行前述步骤S301，且可选的执行前述步骤中可选的方法，发送模块920用于执行前述步骤S302和/或S303，且可选的执行前述步骤中可选的方法。

在一种可能的实现方式中，发送模块920用于执行前述步骤S401至S404，或者，执行前述步骤S501至S514。

上述两个模块之间互相可以通过通信通路进行数据传输，应理解，播放控制装置9包括的各模块可以软件模块、也可以为硬件模块、或部分为软件模块部分为硬件模块。

关于播放控制装置9中获取模块910和发送模块920的可能实现方式及有益效果可以参考相应方法的相关内容，此处不再赘述。

需要说明的是，上述播放控制装置的结构仅仅作为一种示例，不应构成具体限定，可以根据需要对该播放控制装置的各个模块进行增加、减少或合并。此外，该播放控制装置中的各个模块的操作和/或功能是为了实现上述方法的相应流程，为了简洁，在此不再赘述。

参见图10，图10是本申请实施例提供的一种计算设备的结构示意图。如图10所示，该计算设备10包括：处理器101、通信接口104以及存储器102，处理器101、通信接口104以及存储器102通过内部总线103相互连接。

处理器101可以由一个或者多个通用处理器构成，例如中央处理器(centralprocessing unit，CPU)，或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)、可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)、现场可编程逻辑门阵列(field-programmable gatearray，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合。

总线103可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线103可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但不表示仅有一根总线或一种类型的总线。

存储器102可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)；存储器102也可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)、快闪存储器(flash memory)、硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器102还可以包括上述种类的组合。

需要说明的是，计算设备10的存储器102中存储了播放控制装置9的各个模块对应的代码，处理器101执行这些代码实现了播放控制装置9的各个模块的功能，即执行了S301和S302的方法，或执行了S303的方法，或执行了步骤S401至S404的方法，或执行了步骤S501至S514的方法。

本申请还提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机程序，当该计算机程序被处理器执行时，可以实现上述方法实施例中记载的任意一种的部分或全部步骤。计算机可读存储介质可以是通用或专用计算机能够存取的任何可用介质。本发明实施例还提供一种计算机程序，该计算机程序包括指令，当该计算机程序被计算机执行时，使得计算机可以执行任意一种方法实施例的部分或全部步骤。本领域普通技术人员可以理解，前述的计算机可读存储介质包括：U盘、移动硬盘、磁碟、光盘、RAM、SSD或者非易失性存储器(non-volatile memory)等各种可以存储程序代码的非短暂性的(non-transitory)机器可读介质。

本申请还提供一种计算机程序，该计算机程序包括指令，当该计算机程序被计算机执行时，使得计算机可以执行任意一种发放区域资源的方法的部分或全部步骤。

本申请还提供一种播放系统，该播放系统可以包括图8所示的播放控制装置或图9所示的计算设备，还可以包括音频播放装置和/或视频播放装置。可选的，该播放系统可以包括图1或图3所示的全部或一部分设备。

本申请提供的播放控制方法具体可以由计算设备中的芯片来执行，该芯片包括：处理单元和通信单元，处理单元例如可以是处理器，通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使计算设备内的芯片执行上述方法示例。可选的，存储单元为芯片内的存储单元，如寄存器、缓存等，存储单元还可以是无线接入设备端内的位于芯片外部的存储单元，如只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。本申请实施例涉及的“A和/或B”可以理解为包括“A和B”以及“A或B”这两种方案。

Claims

1.一种播放控制方法，其特征在于，包括：

获取目标音视频数据，所述目标音视频数据包括目标视频帧和目标声音的数据，所述目标视频帧包括目标对象的目标图像区域，所述目标对象为产生所述目标声音的声源；

根据所述目标音视频数据生成并向音频播放装置发送音频播放控制数据，所述音频播放控制数据用于控制所述音频播放装置模拟目标位置的声源播放所述目标声音，所述目标位置与所述目标图像区域的信息相关。

2.根据权利要求1所述的方法，其特征在于，所述目标图像区域的信息指示所述目标图像区域在所述目标视频帧中的位置和/或所述目标图像区域中所述目标对象的像素大小。

3.根据权利要求1或2所述的方法，其特征在于，所述目标图像区域为从多个候选图像区域中确定的，每个所述候选图像区域为所述目标视频帧中包含人脸的图像区域。

4.根据权利要求3所述的方法，其特征在于，所述目标图像区域中人脸的唇部运动状态指示发生唇动，和/或，所述目标图像区域的图像特征所匹配的对象与所述目标声音的声纹特征所匹配的对象相同。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述目标音视频数据还包括标定信息，所述标定信息指示所述目标视频帧在视频播放装置的播放界面中的位置和/或所述视频播放装置相对于所述音频播放装置的位置，所述视频播放装置用于播放所述目标视频帧。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述目标声音的数据为从混合声音的数据中分离得到的，所述混合声音包括多个对象产生的声音。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述目标视频帧为从多画面的视频帧中获取的单个画面的视频帧。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标音视频数据向视频播放装置发送视频播放控制数据，所述视频播放控制数据用于控制所述视频播放装置在目标时段播放所述目标视频帧，所述目标时段为所述音频播放装置播放所述目标声音的时段。

9.一种播放控制装置，其特征在于，包括：

获取模块，用于获取目标音视频数据，所述目标音视频数据包括目标视频帧和目标声音的数据，所述目标视频帧包括目标对象的目标图像区域，所述目标对象为产生所述目标声音的声源；

发送模块，用于根据所述目标音视频数据向音频播放装置发送音频播放控制数据，所述音频播放控制数据用于控制所述音频播放装置模拟目标位置的声源播放所述目标声音，所述目标位置与所述目标图像区域的信息相关。

10.一种计算设备，其特征在于，包括存储器和处理器，所述存储器存储有代码，所述处理器被配置为执行所述代码，当所述代码被执行时，所述计算设备执行如权利要求1至8中任一项所述的方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该程序由计算机执行时，使得所述计算机实施权利要求1至8中任一项所述的方法。

12.一种播放系统，其特征在于，包括如权利要求10所述的计算设备和音频播放装置。

13.根据权利要求12所述的播放系统，其特征在于，所述播放系统还包括视频播放装置。