CN113573122B

CN113573122B - 音视频播放方法及装置

Info

Publication number: CN113573122B
Application number: CN202110838036.7A
Authority: CN
Inventors: 李中虎; 陈喆; 王鹏
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-03-24
Anticipated expiration: 2041-07-23
Also published as: CN113573122A

Abstract

本申请实施例公开了一种音视频播放方法及装置，属于多媒体技术领域。在本申请实施例中，终端设备根据第一视频数据中的关注点的位置信息和多路音频数据分别对应的拾音设备的位置信息，从多路音频数据中确定与第一视频数据匹配的一路音频数据进行同步播放，这样，无需手动选择一路音频数据与视频数据进行同步播放，操作简单。并且，在本申请实施例中，通过第一视频数据中的关注点的位置信息来匹配对应的音频数据，这样，视频数据中的关注点移动到哪里，就能播放对应位置处的拾音设备的音频数据，实现了音频数据随视频数据的目标对象或视角变化而自适应匹配切换。

Description

音视频播放方法及装置

技术领域

本申请涉及多媒体技术领域，特别涉及一种音视频播放方法及装置。

背景技术

随着多媒体技术的发展，视频监控已经被广泛应用于各种场景中。目前，在视频监控的过程中，不仅可以利用图像采集设备采集视频数据，还可以通过拾音设备采集音频数据。之后，可以对视频数据和音频数据进行同步播放，以达到更好的监控效果。

相关技术中，在一个监控场景中，可能会部署有多个拾音设备，该多个拾音设备将会采集到多路音频数据。在这种情况下，图像采集设备可以将采集到的视频数据发送至终端设备，同时，多个拾音设备可以将采集到的多路音频数据也发送至终端设备。之后，终端设备显示多路音频数据的界面，然后由用户在该界面中手动选择一路音频数据作为播放音频数据，从而与图像采集设备采集的视频数据进行同步播放。由此可见，在上述实现方式中，需要人工手动选择一路音频数据来与视频数据进行同步播放，操作较为繁琐，且无法保证播放质量。

发明内容

本申请实施例提供了一种音视频播放方法及装置，可以将拾音设备采集的音频数据与图像采集设备采集的视频数据进行自动关联匹配后同步播放，操作简单且能保证播放质量。所述技术方案如下：

一方面，提供了一种音视频播放方法，所述方法包括：

接收第一视频数据和所述第一视频数据中的关注点的位置信息，以及接收多个拾音设备分别采集的音频数据；

根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息，从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据；

同步播放所述第一视频数据和所述第一音频数据。

可选地，所述根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息，从接收到的多路音频数据中确定所述第一视频数据对应的所述第一音频数据，包括：

根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息，从所述多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据；

将选择的一路音频数据中与所述第一视频数据的采集时刻相同的一路音频数据作为所述第一音频数据。

可选地，所述方法还包括：

如果所述第一视频数据中的关注点的位置信息与所述第一视频数据的前一时刻的视频数据中的关注点的位置信息不同，则触发所述确定模块执行根据所述第一视频数据中的关注点的位置信息和多个拾音设备的位置信息，从接收到的多路音频数据中确定所述第一视频数据对应的所述第一音频数据的步骤。

可选地，所述第一视频数据中的关注点的位置信息是指所述第一视频数据中包括的目标对象在第一坐标系下的位置信息，所述目标对象是通过目标跟踪方式确定得到，或者，所述目标对象是基于图像特征识别得到，所述第一坐标系是指在现实世界中根据第一视野区域建立的坐标系，所述第一视野区域是指图像采集设备在采集所述第一视频数据时的视野区域。

可选地，所述第一视频数据中的关注点的位置信息是指所述第一视野区域的中心点在所述第一坐标系下的位置信息，所述第一视野区域是指图像采集设备在采集所述第一视频数据时的视野区域，所述第一坐标系是指在现实世界中根据所述第一视野区域建立的坐标系。

可选地，所述方法还包括：

接收多个拾音设备中每个拾音设备发送的自身的位置信息，其中，每个拾音设备的位置信息为相应拾音设备将自身在第二坐标系下的位置坐标转为至所述第一坐标系下得到的，所述第二坐标系为在现实世界中对所述多个拾音设备和所述图像采集设备进行标定时建立的坐标系。

另一方面，提供了一种音视频播放装置，所述装置包括：

接收模块，用于接收第一视频数据和所述第一视频数据中的关注点的位置信息，以及接收多个拾音设备分别采集的音频数据；

确定模块，用于根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息，从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据；

播放模块，用于同步播放所述第一视频数据和所述第一音频数据。

可选地，所述确定模块主要用于：

可选地，所述装置还用于：

如果所述第一视频数据中的关注点的位置信息与所述第一视频数据的前一时刻的视频数据中的关注点的位置信息不同，则触发所述确定模块执行所述根据所述第一视频数据中的关注点的位置信息和多个拾音设备的位置信息，从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据的步骤。

可选地，所述第一视频数据中的关注点的位置信息是指第一视野区域的中心点在第一坐标系下的位置信息，所述第一视野区域是指图像采集设备在采集所述第一视频数据时的视野区域，所述第一坐标系是指在现实世界中根据所述第一视野区域建立的坐标系。

可选地，所述接收模块还用于：

另一方面，提供了一种音视频播放装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器执行所述存储器中的可执行指令来执行上述音视频播放方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被计算机执行时实现上述所述音视频播放方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的音视频播放方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，根据第一视频数据中的关注点的位置信息和多路音频数据分别对应的拾音设备的位置信息，从多路音频数据中确定与第一视频数据匹配的第一音频数据进行同步播放，这样，无需手动选择一路音频数据与视频数据进行同步播放，操作简单，同时，由于是通过位置信息选择的与第一视频数据匹配的音频数据，因此，能够保证选择的音频数据的质量，从而能够保证音视频同步播放的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音视频播放方法所涉及的网络系统架构图；

图2是本申请实施例提供的一种音视频播放方法的流程图；

图3是本申请实施例提供的一种音视频播放装置的流程图；

图4是本申请实施例提供的一种用于播放音视频数据的终端设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细的解释说明之前，先对本申请实施例涉及的应用场景进行介绍。

随着多媒体技术的发展，视频监控已经被广泛应用于各行各业中。在视频监控系统中，通常包括图像采集设备和拾音设备。其中，随着硬件技术的发展，目前，单个图像采集设备的覆盖范围越来越大。然而，单个拾音设备的覆盖范围却非常有限。在这种情况下，为了能够在图像采集设备采集视频数据的同时，尽可能的采集到该图像采集设备的覆盖范围内的音频数据，就需要在该图像采集设备的覆盖范围内设置多个拾音设备。这样，图像采集设备在采集视频数据的同时，该多个拾音设备将同步采集到多路视频数据。本申请实施例提供的方法即可以用于上述场景下，从多路音频数据中为采集到的视频数据自动匹配一路音频数据进行同步播放，以提高播放效率和播放质量。

接下来对本申请实施例提供的音视频播放方法所涉及的系统架构进行介绍。

图1是本申请实施例提供的一种音视频播放方法所涉及的网络系统架构图。如图1所示，该网络系统包括图像采集设备101、多个拾音设备102和终端设备103。其中，图像采集设备101和多个拾音设备102均能够与终端设备103进行通信。

需要说明的是，在本申请实施例中，该图像采集设备101和多个拾音设备102是指部署在同一监控场景中的设备，并且，该图像采集设备101的覆盖范围和每个拾音设备102的覆盖范围均存在交集。示例性地，该多个拾音设备102可以按需分散部署在图像采集设备101的周围。另外，在部署图像采集设备101和多个拾音设备102之后，可以对图像采集设备101和多个拾音设备102的位置进行标定，从而得到图像采集设备101和每个拾音设备102在第二坐标系下的位置信息。其中，第二坐标系可以是根据图像采集设备101的覆盖范围以及多个拾音设备102的覆盖范围的并集中的某个参考点为原点所建立的物理坐标系，也可以是以监控场景中某个参考点为原点建立的物理坐标系，本申请实施例对此不做限定。

在本申请实施例中，图像采集设备101采集监控场景内的视频数据，并将采集到视频数据与视频数据中的关注点的位置信息发送至终端设备103。其中，对于采集到的任一帧视频数据，该视频数据中有可能包含目标对象，也有可能不包含有目标对象。其中，目标对象是指用户感兴趣的人或物，例如，目标对象可以是图像采集设备拍摄的车辆。对于包含有目标对象的视频数据，图像采集设备101在采集到该视频数据之后，还可以根据前述标定的自身在第二坐标系中的位置信息，获取该视频数据中包含的目标对象的位置信息，将该目标对象的位置信息作为该视频数据中的关注点的位置信息。对于不包含有目标对象的视频数据，图像采集设备101在采集到该视频数据之后，可以根据前述标定的自身在第二坐标系中的位置信息，获取图像采集设备101在采集该视频数据时的聚焦点的位置信息，将该聚焦点的位置信息作为该视频数据中的关注点的位置信息。

在图像采集设备101采集视频数据的同时，该多个拾音设备102中的每个拾音设备102均可以同步进行音频数据的采集。之后，各个拾音设备102可以将自身采集到的音频数据发送至终端设备103。可选地，在向终端设备103发送采集到的音频数据的同时，各个拾音设备102还可以将自身的位置信息发送至终端设备103。其中，各个拾音设备发送的自身的位置信息可以是前述在第二坐标系中标定的各个拾音设备的位置信息，也可以是各个拾音设备根据自身在第二坐标系下的位置信息进行转换得到的其他坐标系的位置信息。当然，在一种可能的实现方式中，各个拾音设备102的位置信息也可以预先存储至终端设备103，本申请实施例在此不做限定。也即，各个拾音设备102可以预先将自身的位置信息发送至终端设备103进行存储。

终端设备103接收图像采集设备101采集的视频数据和多个拾音设备102分别采集的音频数据。之后，终端设备103可以通过本申请实施例提供的音视频播放方法，根据采集多路音频数据的多个拾音设备的位置信息和视频数据中的关注点的位置信息，从接收到的多路音频数据中确定与视频数据匹配的一路音频数据，并将该视频数据和确定的匹配的一路音频数据进行同步播放。

需要说明的是，终端设备103可以是与图像采集设备101、多个拾音设备102部署在同一个监控场景中的终端设备，也可以是一个不处于该监控场景中的远程终端设备。

图1中仅以监控场景中包括一个图像采集设备101为例来进行的示例说明，可选地，在一些可能的情况中，监控场景中也可能部署多个图像采集设备101，这样，每个图像采集设备101均能在自身覆盖范围内进行图像采集，并根据预先标定的自身的位置信息确定自身采集到的视频数据中的关注点的位置信息，进而将采集到的视频数据和视频数据中的关注点的位置信息发送至终端设备103。相应地，终端设备103可以确定用户选取的所要播放的目标图像采集设备采集的一路视频数据，进而通过本申请实施例提供的方法从接收到的多路音频数据中选择与所要播放的视频数据相匹配的一路音频数据进行同步播放。

需要说明的是，即使监控场景中包括多个图像采集设备，对于每个图像采集设备采集的视频数据，终端设备103在确定视频数据对应的音频数据时的实现方式也均是相同或相似的，基于此，在后文的实施例中，将以监控场景中包括一个图像采集设备，终端设备对该图像采集设备采集到的视频数据和多路音频数据进行处理为例来对本申请实施例提供的音视频播放方法进行示例性说明。

其中，图像采集设备101可以为摄像头或其他带有拍照功能的设备。拾音设备102包括但不限于模拟拾音器、数字拾音器、阵列型拾音器中的一种或多种。终端设备103可以为智能手机、平板电脑、台式计算机等终端设备。本申请实施例不对设备进行限定。

接下来对本申请实施例提供的音视频播放方法进行介绍。

图2是本申请实施例提供的一种音视频播放方法。如图2所示，该方法应用于前述网络系统架构中的终端设备中，该方法包括以下步骤：

步骤201：接收第一视频数据和第一视频数据中的关注点的位置信息，以及接收多个拾音设备分别采集的音频数据。

在本申请实施例中，图像采集设备可以在自身的覆盖范围内实时采集视频数据，其中，该图像采集设备的覆盖范围是指图像采集设备能够采集到图像的范围。另外，在本申请实施例中，可以将图像采集设备在某个时刻采集的一帧视频图像作为一个视频数据。

每当图像采集设备在某个时刻采集到一个视频数据时，该图像采集设备可以根据自身在第二坐标系下的位置信息，生成该视频数据中的关注点的位置信息。其中，第二坐标系是指在现实世界中对图像采集设备和多个拾音设备进行标定时建立的坐标系。示例性地，第二坐标系可以是根据图像采集设备的覆盖范围以及多个拾音设备的覆盖范围的并集中的某个参考点为原点所建立的物理坐标系，也可以是以监控场景中某个参考点为原点建立的物理坐标系，本申请实施例对此不做限定。

接下来以图像采集设备在任一时刻采集的一个视频数据为例来说明确定视频数据中的关注点的位置信息的实现方式，为了方便说明，在后文中将该视频数据称为第一视频数据。

在本申请实施例中，第一视频数据中有可能包含目标对象，也有可能不包含目标对象。其中，该目标对象是指用户感兴趣的人或物。例如，该目标对象可以是图像采集设备拍摄的车辆，或者，该目标对象是需要获取行动轨迹的生物。

示例性地，若第一视频数据包含目标对象，则第一视频数据中的关注点的位置信息是该目标对象在第一坐标系下的位置信息。其中，该目标对象可以是图像采集设备通过目标跟踪方式确定得到。例如，图像采集设备根据该第一视频数据的前一个视频数据中的目标对象的位置信息和特征进行目标跟踪，从而确定出第一视频数据中的目标对象。或者，该目标对象也可以是图像采集设备通过第一视频数据的图像特征识别得到。例如，图像采集设备可以将该第一视频数据作为深度学习模型的输入，通过该深度学习模型对该第一视频数据进行特征提取与识别，从而识别出该第一视频数据中包含的目标对象。例如，当目标对象为人时，该深度学习模型可以为一个人脸识别模型。在这种情况下，可以通过该深度学习模型对该第一视频数据中的人脸进行识别。又例如，当目标对象为宠物狗时，该深度学习模型可以为一个宠物狗识别模型。在该场景下，图像采集设备拍摄2条宠物狗，终端设备将采集到的2条狗的轨迹视频与相应的音频关联起来。

另外，第一坐标系是指图像采集设备根据第一视野区域所建立的坐标系。该第一视野区域是指图像采集设备在采集第一视频数据时的视野区域。需要说明的是，在某些可能的情况中，该图像采集设备可能是视角固定的摄像头，也即，该图像采集设备的拍摄视角无法改变，在这种情况下，该第一视野区域即为该图像采集设备的覆盖范围。可选地，该图像采集设备也可以为拍摄视角能够变换的设备，例如，该图像采集设备为能够旋转的摄像头，在这种情况下，第一视野区域将是该图像采集设备的覆盖范围的子集。

基于此，在本申请实施例中，图像采集设备在采集到第一视频数据之后，获取第二坐标系与第一坐标系之间的第一转换关系，之后，根据自身在第二坐标系下的位置信息和该第一转换关系，确定自身在第一坐标系下的位置信息。在图像采集设备确定自身在第一坐标系下的位置信息之后，该图像采集设备可以根据自身在第一坐标系下的位置信息和在第一视频数据中的位置信息，确定第一坐标系与第一视频数据的图像坐标系之间的第二转换关系。之后，图像采集设备根据该第二转换关系，将目标对象在第一视频数据中的位置信息转换至第一坐标系下，从而得到目标对象在第一坐标系下的位置信息。

若第一视频数据不包含目标对象，也即，若图像采集设备通过前述介绍的确定目标对象的方法在该第一视频数据中未能确定出目标对象，则第一视频数据中的关注点的位置信息是指第一视野区域内的聚焦点在第一坐标系下的位置信息。其中，该聚焦点可以是第一视野区域的中心点，也可以是第一视野区域内的其他位置点，本申请实施例在此不做限定。

基于此，在本申请实施例中，图像采集设备在采集到第一视频数据之后，参考前文中的介绍，根据自身在第二坐标系下的位置信息确定得到第一坐标系和第一视频数据的图像坐标系之间的第二转换关系，之后，根据该第二转换关系和聚焦点在第一视频数据中的位置信息，确定聚焦点在第一坐标系下的位置信息。

对于每个时刻采集到的视频数据，图像采集设备均可以参考上述方法来确定相应视频数据中的关注点的位置信息。之后，图像采集设备可以将采集到的视频数据和相应视频数据中的关注点的位置信息发送至终端设备。

在一种可能的实现方式中，图像采集设备可以每采集到一个视频数据并确定出该视频数据中的关注点的位置信息之后，即将该视频数据和关注点的位置信息进行打包后发送至终端设备。

可选地，图像采集设备可以每隔预设时长，将该预设时长内采集的多个视频数据和每个视频数据中的关注点的位置信息打包发送至终端设备。其中，为了方便区分，每个视频数据和相应视频数据中的关注点的位置信息可以通过一个共同的标识来关联，例如，可以为每个视频数据和相应视频数据中的关注点的位置信息分配同一个编号，不同视频数据的编号不同。本申请实施例对此不做限定。

在图像采集设备采集视频数据的过程中，多个拾音设备中的每个拾音设备可以在自身的覆盖范围内同步采集音频数据，其中，拾音设备的覆盖范围是指一个拾音设备能够采集到音频数据的范围，一路音频数据是指拾音设备采集到的一个音频帧。

以多个拾音设备中的任一个拾音设备为例，每当该拾音设备采集到一路音频数据，则该拾音设备可以将采集到的这路音频数据实时发送至终端设备。

可选地，拾音设备也可以每隔预设时长，将该预设时长内采集到的多路音频数据一起打包发送至终端设备。在这种情况下，该拾音设备的发送时机可以与前述的图像采集设备发送视频数据和关注点的位置信息的发送时机同步。

可选地，各个拾音设备在向终端设备发送音频数据的同时，还可以将自身的位置信息发送至终端设备。其中，该多个拾音设备发送的自身的位置信息可以是在第二坐标系中标定的各个拾音设备的位置信息。或者，多个拾音设备发送的自身的位置信息也可以是各个拾音设备将自身在第二坐标系下的位置信息转换至第一坐标系下后得到的位置信息。

可选地，各个拾音设备也可以在自身标定完成之后，未开始采集音频数据之前，预先将自身的位置信息发送给终端设备。在这种情况下，各个拾音设备发送的自身的位置信息可以为相应拾音设备在第二坐标系下的位置信息。相应地，终端设备在接收到各个拾音设备预先发送的位置信息之后，可以对各个拾音设备发送的位置信息进行存储。

在图像采集设备发送视频数据和对应的关注点的位置信息以及拾音设备发送音频数据之后，终端设备可以接收图像采集设备发送的视频数据以及视频数据中关注点的位置信息，同时接收各个拾音设备发送的音频数据。当然，如果拾音设备在发送音频数据的同时还发送了自身的位置信息，则终端设备还可以接收各个拾音设备的位置信息。

其中，对于接收到的视频数据中的任一视频数据，终端设备可以采用下述步骤202-203的方式从接收到的每个音频设备发送的一路音频数据中确定与相应视频数据匹配的一路音频数据，并将该视频数据和确定出的匹配的一路音频数据进行同步播放。其中，由于终端设备确定各个视频数据对应的音频数据的方式均相同或相似，因此，在后文中将以图像采集设备发送的多个视频数据中的第一视频数据为例进行说明。

步骤202：根据第一视频数据中的关注点的位置信息和多个拾音设备的位置信息，从接收到的多路音频数据中确定第一视频数据对应的第一音频数据。

终端设备在接收到图像采集设备发送的视频数据和视频数据中的关注点的位置信息以及多个拾音设备发送的音频数据之后，对于每一帧视频数据，终端设备均可以通过该视频数据中的关注点的位置信息，从多个拾音设备发送的多路音频数据中确定与该视频数据匹配的一路音频数据。接下来对接收到的多帧视频数据中的任一帧视频数据为例来进行说明，后文中将其称为第一视频数据。

示例性地，终端设备可以根据第一视频数据中的关注点的位置信息和多个拾音设备的位置信息，从多路音频数据中选择对应的拾音设备距离第一视频数据中的关注点最近的一路音频数据；将选择的一路音频数据中与第一视频数据的采集时刻相同的一路音频数据作为第一音频数据。

需要说明的是，在一种可能的实现方式中，由步骤201中的介绍可知，终端设备有可能预先存储有多个拾音设备的位置信息，其中，该多个拾音设备的位置信息是在第二坐标系下的位置信息。由于第一视频数据中的关注点的位置信息是指该关注点在第一坐标系下的位置信息，因此，终端设备可以获取第二坐标系与第一坐标系之间的第一转换关系，之后，根据该第一转换关系，将各个拾音设备在第二坐标系下的位置信息转换至第一坐标系，从而得到各个拾音设备在第一坐标系下的位置信息。之后，终端设备根据每个拾音设备在第一坐标系下的位置信息与第一视频数据中的关注点在第一坐标系下的的位置信息计算相应拾音设备与第一视频数据中的关注点之间的距离。之后，终端设备可以从计算得到的多个距离中确定最小距离，将最小距离对应的拾音设备所采集的一路音频数据作为与第一视频数据匹配的一路音频数据。

可选地，在另一种可能的实现方式中，多个拾音设备在发送多路音频数据的同时可以一起发送自身的位置信息，此时，各个拾音设备发送的自身的位置信息有可能是在第一坐标系下的位置信息，也有可能是在第二坐标系下的位置信息。基于此，终端设备在接收到各个拾音设备发送的音频数据和自身的位置信息之后，如果该位置信息是相应拾音设备在第一坐标系下的位置信息，则终端设备可以直接根据每个拾音设备在第一坐标系下的位置信息与第一视频数据中的关注点在第一坐标系下的的位置信息计算相应拾音设备与第一视频数据中的关注点之间的距离。之后，终端设备可以从计算得到的多个距离中确定最小距离，将最小距离对应的拾音设备所采集的一路音频数据作为与第一视频数据匹配的一路音频数据。如果该位置信息是相应拾音设备在第二坐标系下的位置信息，则终端设备可以参照第一种实现方式中的方法，将各个拾音设备在第二坐标系下的位置信息转换至第一坐标系下，之后，再与第一视频数据中的关注点的位置信息进行匹配，本申请实施例在此不再赘述。

在确定出与第一视频数据匹配的一路音频数据之后，终端设备可以从这一路音频数据中确定与第一视频数据的采集时刻相同的音频数据作为第一音频数据。

需要说明的是，在本申请实施例中，每一帧视频数据和每一帧音频数据均可以携带有对应的时间戳，该时间戳可以用于指示相应视频数据或音频数据的采集时刻，基于此，在本申请实施例中，终端设备可以从确定出的与第一视频数据匹配的一路音频数据中查找时间戳与第一视频数据的时间戳相同的音频数据，进而将该音频数据作为第一音频数据。

可选地，图像采集设备在采集视频数据时，在连续的几个视频数据中，关注点的位置信息有可能是变化的，也有可能是不变的。也就是说，在采集第一视频数据和第一视频数据的上一帧视频数据时，该关注点的位置信息一直没有发生变化。例如，对于第一视频数据中包含的目标车辆A，其在第一视频数据和第一视频数据的上一帧视频数据中的位置信息并没有发生变化。基于此，在本申请实施例中，终端设备在执行步骤202之前，还可以判断第一视频数据中的关注点的位置信息与第一视频数据的前一时刻的视频数据中的关注点的位置信息是否相同，如果二者相同，则终端设备可以获取确定的与前一时刻的视频数据匹配的一路音频数据，进而将这路音频数据作为与第一视频数据匹配的一路音频数据，从而减少匹配过程所带来的不必要的资源消耗。当然，如果二者不相同，则终端设备可以执行步骤202。

另外，还需要说明的是，在本申请实施例中，是将拾音设备在第二坐标系下标定的位置信息和关注点在图像坐标系下的位置信息均统一为第一坐标系下的位置信息后进行匹配。当然，本领域技术人员也可以理解，在其他一些可能的实现方式中，也可以将二者统一转换为其他坐标系下的位置信息后进行匹配，例如，将关注点在图像坐标系下的位置信息转换至第二坐标系下，进而与拾音设备在第二坐标系下的位置信息进行匹配，或者，将拾音设备在第二坐标系下的位置信息转换至视频数据所在的图像坐标系下，然后与关注点在该图像坐标系下的位置信息进行匹配，本申请实施例在此不再赘述。

步骤203：同步播放第一视频数据和第一音频数据。

终端设备根据步骤202确定第一视频数据对应的第一音频数据之后，可以将第一视频数据和第一音频数据进行同步播放。

其中，如果图像采集设备存在多个，则在上述实施例中，第一视频数据即为用户选取的所要播放的一路视频数据中的一个视频数据。换句话说，在这种场景中，用户可以选取某个图像采集设备的视频数据进行播放，此时，终端设备即可以通过上述步骤201-203来得到该图像采集设备采集的每帧视频数据所对应的音频数据，进而进行同步播放。

在本申请实施例中，终端设备根据第一视频数据中的关注点的位置信息和多路音频数据分别对应的拾音设备的位置信息，从多路音频数据中确定与第一视频数据匹配的一路音频数据进行同步播放，这样，无需手动选择一路音频数据与视频数据进行同步播放，操作简单。并且，在本申请实施例中，通过第一视频数据中的关注点的位置信息来匹配对应的音频数据，这样，视频数据中的关注点移动到哪里，就能播放对应位置处的拾音设备的音频数据，实现了音频数据随视频数据的目标对象或视角变化而自适应匹配切换。

另外，在本申请实施例中，由于终端设备选择的与第一视频数据匹配的这路音频数据所对应的拾音设备距离第一视频数据中的关注点最近，因此，这路音频数据的质量相较于其他路音频数据会更好，这样，可以提升音视频同步播放的质量。

在本申请实施例中，终端设备和图像采集设备可以位于两个外壳中，也可以集成到一个外壳中，再此不做限定。

接下来，对本申请实施例提供的音视频播放装置进行介绍。

参见图3，本申请实施例提供了一种音视频播放装置300，该装置300包括：

接收模块301，用于接收第一视频数据和第一视频数据中的关注点的位置信息，以及接收多个拾音设备分别采集的音频数据；

确定模块302，用于根据第一视频数据中的关注点的位置信息和多个拾音设备的位置信息，从接收到的多路音频数据中确定第一视频数据对应的第一音频数据；

播放模块303，用于同步播放第一视频数据和所述第一音频数据。

可选地，确定模块302主要用于：

根据第一视频数据中的关注点的位置信息和多个拾音设备的位置信息，从多路音频数据中选择对应的拾音设备距离第一视频数据中的关注点最近的一路音频数据；

将选择的一路音频数据中与第一视频数据的采集时刻相同的一路音频数据作为第一音频数据。

可选地，该装置300还用于：

如果第一视频数据中的关注点的位置信息与第一视频数据的前一时刻的视频数据中的关注点的位置信息不同，则触发确定模块302执行根据第一视频数据中的关注点的位置信息和多个拾音设备的位置信息，从接收到的多路音频数据中确定第一视频数据对应的第一音频数据的步骤。

可选地，第一视频数据中的关注点的位置信息是指第一视频数据中包括的目标对象在第一坐标系下的位置信息，目标对象是通过目标跟踪方式确定得到，或者，目标对象是基于图像特征识别得到，第一坐标系是指在现实世界中根据第一视野区域建立的坐标系，第一视野区域是指图像采集设备在采集第一视频数据时的视野区域。

可选地，第一视频数据中的关注点的位置信息是指第一视野区域的中心点在第一坐标系下的位置信息，第一视野区域是指图像采集设备在采集第一视频数据时的视野区域，第一坐标系是指在现实世界中根据第一视野区域建立的坐标系。

可选地，接收模块301还用于：

接收多个拾音设备中每个拾音设备发送的自身的位置信息，其中，每个拾音设备的位置信息为相应拾音设备将自身在第二坐标系下的位置坐标转为至第一坐标系下得到的，第二坐标系为在现实世界中对多个拾音设备和图像采集设备进行标定时建立的坐标系。

综上所述，在本申请实施例中，终端设备根据第一视频数据中的关注点的位置信息和多路音频数据分别对应的拾音设备的位置信息，从多路音频数据中确定与第一视频数据匹配的一路音频数据进行同步播放，这样，无需手动选择一路音频数据与视频数据进行同步播放，操作简单。并且，在本申请实施例中，通过第一视频数据中的关注点的位置信息来匹配对应的音频数据，这样，视频数据中的关注点移动到哪里，就能播放对应位置处的拾音设备的音频数据，实现了音频数据随视频数据的目标对象或视角变化而自适应匹配切换。

需要说明的是，上述实施例提供的音视频播放装置在播放音视频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音视频播放装置与音视频播放方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是根据一示例性实施例示出的一种用于播放音视频数据的终端设备400的结构框图。上述实施例中的终端设备即可通过该终端设备400来实现。其中，该终端设备400可以是智能手机、平板电脑、笔记本电脑、台式电脑等。

通常，终端设备400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，其中，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的音视频播放方法。

在一些实施例中，终端设备400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、显示屏405、摄像头组件406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端设备400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端设备400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端设备400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。需要说明的是，在本申请实施例中，当该终端设备400为横屏终端时，该终端设备400的显示屏的宽高比大于1，例如，该终端设备400的显示屏的宽高比可以为16:9或4:3。当该终端设备400为竖屏终端时，则该终端设备400的显示屏的宽高比小于1，例如，该终端设备400的显示屏的宽高比可以为9:18或3:4等。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端设备400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于GPS(Global PositioningSystem，全球定位系统)、北斗系统或伽利略系统的定位组件。

电源409用于为终端设备400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端设备400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端设备400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端设备400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端设备400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端设备400的侧边框和/或显示屏405的下层。当压力传感器413设置在终端设备400的侧边框时，可以检测用户对终端设备400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在显示屏405的下层时，由处理器401根据用户对显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端设备400的正面、背面或侧面。当终端设备400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制显示屏405的显示亮度。具体地，当环境光强度较高时，调高显示屏405的显示亮度；当环境光强度较低时，调低显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端设备400的前面板。接近传感器416用于采集用户与终端设备400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端设备400的正面之间的距离逐渐变小时，由处理器401控制显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端设备400的正面之间的距离逐渐变大时，由处理器401控制显示屏405从息屏状态切换为亮屏状态。

也即是，本申请实施例不仅提供了一种终端，包括处理器和用于存储处理器可执行指令的存储器，其中，处理器被配置为执行图2所示的音视频播放方法，而且，本申请实施例还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，该计算机程序被处理器执行时可以实现图2所示的音视频播放方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图2所示实施例提供的音视频播放方法。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种音视频播放方法，其特征在于，应用于网络系统中的终端设备，所述网络系统还包括图像采集设备和多个拾音设备，所述方法包括：

接收所述图像采集设备发送的第一视频数据和所述第一视频数据中的关注点的位置信息，以及接收所述多个拾音设备分别采集的音频数据，所述图像采集设备和所述多个拾音设备为部署于同一监控场景中的设备，且所述多个拾音设备分散部署于所述图像采集设备的覆盖范围内；所述第一视频数据中的关注点的位置信息是指所述关注点在第一坐标系下的位置信息，所述第一坐标系是指所述图像采集设备根据第一视野区域所建立的坐标系，所述第一视野区域是指所述图像采集设备在采集所述第一视频数据时的视野区域；

根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息，从接收到的多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据，将选择的一路音频数据中与所述第一视频数据的采集时刻相同的音频数据作为第一音频数据；

同步播放所述第一视频数据和所述第一音频数据；

所述终端设备预先存储有所述多个拾音设备的位置信息，且所述多个拾音设备的位置信息是在第二坐标系下的位置信息，所述第二坐标系为在现实世界中对所述多个拾音设备和所述图像采集设备进行标定时建立的坐标系；所述根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息，从接收到的多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据，包括：

获取所述第二坐标系与所述第一坐标系之间的第一转换关系；根据所述第一转换关系，将所述多个拾音设备中的每个拾音设备在第二坐标系下的位置信息转换至所述第一坐标系，得到每个拾音设备在所述第一坐标系下的位置信息；

根据每个拾音设备在所述第一坐标系下的位置信息与所述第一视频数据中的关注点在所述第一坐标系下的的位置信息计算相应拾音设备与所述第一视频数据中的关注点之间的距离；从计算得到的多个距离中确定最小距离，将所述最小距离对应的拾音设备所采集的一路音频数据作为与所述第一视频数据匹配的一路音频数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果所述第一视频数据中的关注点的位置信息与所述第一视频数据的前一时刻的视频数据中的关注点的位置信息不同，则执行所述根据所述第一视频数据中的关注点的位置信息和多个拾音设备的位置信息，从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据的步骤。

3.根据权利要求1所述的方法，其特征在于，所述第一视频数据中的关注点的位置信息是指所述第一视频数据中包括的目标对象在所述第一坐标系下的位置信息，所述目标对象是通过目标跟踪方式确定得到，或者，所述目标对象是基于图像特征识别得到。

4.根据权利要求1所述的方法，其特征在于，所述第一视频数据中的关注点的位置信息是指所述第一视野区域的中心点在所述第一坐标系下的位置信息。

5.一种音视频播放装置，其特征在于，应用于网络系统中的终端设备，所述网络系统还包括图像采集设备和多个拾音设备，所述装置包括：

接收模块，用于接收所述图像采集设备发送的第一视频数据和所述第一视频数据中的关注点的位置信息，以及接收所述多个拾音设备分别采集的音频数据，所述图像采集设备和所述多个拾音设备为部署于同一监控场景中的设备，且所述多个拾音设备分散部署于所述图像采集设备的覆盖范围内；所述第一视频数据中的关注点的位置信息是指所述关注点在第一坐标系下的位置信息，所述第一坐标系是指所述图像采集设备根据第一视野区域所建立的坐标系，所述第一视野区域是指所述图像采集设备在采集所述第一视频数据时的视野区域；

确定模块，用于根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息，从接收到的多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据，将选择的一路音频数据中与所述第一视频数据的采集时刻相同的音频数据作为第一音频数据；

播放模块，用于同步播放所述第一视频数据和所述第一音频数据；

所述终端设备预先存储有所述多个拾音设备的位置信息，且所述多个拾音设备的位置信息是在第二坐标系下的位置信息，所述第二坐标系为在现实世界中对所述多个拾音设备和所述图像采集设备进行标定时建立的坐标系；所述确定模块用于：

获取所述第二坐标系与所述第一坐标系之间的第一转换关系；根据所述第一转换关系，将所述多个拾音设备中的每个拾音设备在第二坐标系下的位置信息转换至所述第一坐标系，得到每个拾音设备在所述第一坐标系下的位置信息；根据每个拾音设备在所述第一坐标系下的位置信息与所述第一视频数据中的关注点在所述第一坐标系下的的位置信息计算相应拾音设备与所述第一视频数据中的关注点之间的距离；从计算得到的多个距离中确定最小距离，将所述最小距离对应的拾音设备所采集的一路音频数据作为与所述第一视频数据匹配的一路音频数据。

6.根据权利要求5所述的装置，其特征在于，所述装置还用于：

7.根据权利要求5所述的装置，其特征在于，所述第一视频数据中的关注点的位置信息是指所述第一视频数据中包括的目标对象在所述第一坐标系下的位置信息，所述目标对象是通过目标跟踪方式确定得到，或者，所述目标对象是基于图像特征识别得到。

8.根据权利要求5所述的装置，其特征在于，所述第一视频数据中的关注点的位置信息是指所述第一视野区域的中心点在所述第一坐标系下的位置信息。

9.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被计算机执行时实现上述权利要求1-4任一项所述的音视频播放方法的步骤。