CN112118527A

CN112118527A - 多媒体信息的处理方法、装置和存储介质

Info

Publication number: CN112118527A
Application number: CN201910533786.6A
Authority: CN
Inventors: 范泛; 李江; 李瑞华; 王乐临; 李硕; 罗锦城; 黄宇; 王萌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2020-12-22
Also published as: WO2020253844A1; US20220109944A1

Abstract

本申请提供一种多媒体信息的处理方法、装置和存储介质，该方法包括：确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延；根据所述终端设备和所述第一播放设备之间的数据传输时延，确定所述终端设备和所述第一播放设备之间的时钟偏差；根据所述终端设备和所述第一播放设备之间的时钟偏差，确定所述第一播放设备对应的多媒体信息的第一起始播放时刻；所述第一起始播放时刻用于表示所述第一播放设备播放所述第一播放设备对应的多媒体信息的起始时刻。本申请提供的多媒体信息的处理方法、装置和存储介质可以使得至少两个播放设备中每个播放设备同步播放各自对应的多媒体信息，以提高用户的听音体验。

Description

多媒体信息的处理方法、装置和存储介质

技术领域

本申请实施例涉及多媒体技术领域，尤其涉及一种多媒体信息的处理方法、装置和存储介质。

背景技术

随着手机、平板、个人计算机(personal computer；PC)和无线音箱等移动终端音频设备的普及和智能化发展，家庭中通常会同时存在多种智能设备，并通过有线或无线的方式连接在同一个局域网中，使得跨设备的互动以及协同娱乐成为增强用户娱乐体验的重要发展方向。

目前的多设备协同播放，主要是将播放设备(如无线音箱或蓝牙音箱)与终端设备(如手机)建立无线连接，以将终端设备上的音源通过播放设备播放。具体地，可以包括如下两种播放模式：第一种模式是多个播放设备播放相同的音源，即终端设备连接到主播放设备，先通过无线网络将音频流推送到主播放设备上，主播放设备再依次通过串流的方式将该音频流推送到其余播放设备上。第二种模式是使用两个播放设备彼此建立连接，主播放设备与终端设备通过路由器或手机热点以无线方式连接。终端设备将立体声音频流推送到主播放设备，主播放设备再根据用户的配置来决定将左声道或右声道音频流推送到从播放设备播放，而自己则播放相反声道，形成立体声效果。

然而，在上述两种播放模式中，多个播放设备之间，以及各播放设备和终端设备之间，有可能会出现音频流播放不同步的现象，从而会影响用户的听音体验。

发明内容

本申请实施例提供一种多媒体信息的处理方法、装置和存储介质，可以使得至少两个播放设备中每个播放设备同步播放各自对应的多媒体信息，以提高用户的听音体验。

第一方面，本申请实施例提供一种多媒体信息的处理方法，包括：

确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延；

根据所述终端设备和所述第一播放设备之间的数据传输时延，确定所述终端设备和所述第一播放设备之间的时钟偏差；

根据所述终端设备和所述第一播放设备之间的时钟偏差，确定所述第一播放设备对应的多媒体信息的第一起始播放时刻；所述第一起始播放时刻用于表示所述第一播放设备播放所述第一播放设备对应的多媒体信息的起始时刻。

在本方案中，由于根据终端设备和至少两个播放设备中每个播放设备之间的数据传输时延，可以确定终端设备和每个播放设备之间的时钟偏差，从而确定出每个播放设备对应的多媒体信息的起始播放时刻，由此可以使得至少两个播放设备中每个播放设备同步播放各自对应的多媒体信息，以提高用户的听音体验。

在一种可能的实现方式中，所述方法应用于终端设备，所述方法还包括：

向所述第一播放设备发送所述第一播放设备对应的多媒体信息以及所述第一起始播放时刻。

在本方案中，若由终端设备确定出第一播放设备对应的多媒体信息的第一起始播放时刻，还需要将第一播放设备对应的多媒体信息以及第一起始播放时刻发送给第一播放设备，这样，第一播放设备将会在第一起始播放时刻开始播放多媒体信息。

确定所述终端设备和至少两个播放设备中的第二播放设备之间的数据传输时延；

根据所述终端设备和所述第二播放设备之间的数据传输时延，确定所述终端设备和所述第二播放设备之间的时钟偏差；

根据所述终端设备和所述第二播放设备之间的时钟偏差，确定所述第二播放设备对应的多媒体信息的第二起始播放时刻；所述第二起始播放时刻用于表示所述第二播放设备播放所述第二播放设备对应的多媒体信息的起始时刻，所述第一起始播放时刻和所述第二起始播放时刻使得所述第一播放设备和所述第二播放设备同步播放各自对应的多媒体信息；

向所述第二播放设备发送所述第二播放设备对应的多媒体信息以及所述第二起始播放时刻。

在一种可能的实现方式中，所述确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延，包括：

确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差；

所述根据所述终端设备和所述第一播放设备之间的数据传输时延，确定所述终端设备和所述第一播放设备之间的时钟偏差，包括：

判断所述终端设备和所述第一播放设备之间的数据传输时延与预设阈值的数值关系；

若所述终端设备和所述第一播放设备之间的数据传输时延小于或者等于所述预设阈值，则确定与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差为所述终端设备和所述第一播放设备之间的时钟偏差。

在上述方案中，在终端设备和第一播放设备之间的数据传输时延小于或等于预设阈值时，确定出的终端设备和第一播放设备之间的时钟偏差的误差较小，则确定与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差为终端设备和第一播放设备之间的时钟偏差，由此可以提高时钟偏差的准确性。

在一种可能的实现方式中，所述确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差，包括：

根据所述终端设备与所述第一播放设备收发同步消息的时刻，确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差。

在一种可能的实现方式中，所述方法还包括：

若所述终端设备和所述第一播放设备之间的数据传输时延大于所述预设阈值，则根据所述终端设备记录的所述终端设备与所述第一播放设备收发同步消息的历史时刻，确定所述终端设备和所述第一播放设备之间的时钟偏差，所述历史时刻为在具有预设时长的历史时段记录的，或者所述历史时刻的数量为预设数值。

在本方案中，若终端设备和第一播放设备之间的数据传输时延大于预设阈值时，说明与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差的误差较大，此时可以确定与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差是无效的。在这种情况下，可以根据终端设备中预先记录的终端设备和第一播放设备收发同步消息的历史时刻，来确定终端设备和第一播放设备之间的时钟偏差，由此可以减小确定出的终端设备和第一播放设备之间的时钟偏差的误差。

在一种可能的实现方式中，所述根据所述终端设备记录的所述终端设备与所述第一播放设备收发同步消息的历史时刻确定所述终端设备和所述第一播放设备之间的时钟偏差，包括：

根据所述历史时刻，确定至少两个历史数据传输时延和所述至少两个历史数据传输时延各自对应的历史时钟偏差，所述至少两个历史数据传输时延为所述终端设备和所述第一播放设备之间的数据传输时延；

确定所述至少两个历史数据传输时延中最小的历史数据传输时延对应的历史时钟偏差，为所述终端设备和所述第一播放设备之间的时钟偏差。

在本方案中，可以确定至少两个历史数据传输时延中最小的历史数据传输时延对应的历史时钟偏差，为终端设备和第一播放设备之间的时钟偏差，由此可以进一步降低终端设备和第一播放设备之间的时钟偏差的误差，提高确定出的时钟偏差的准确性。

在一种可能的实现方式中，所述方法应用于终端设备，所述同步消息包括同步请求和同步响应；所述方法还包括：

确定从所述第一播放设备接收同步请求的第一时刻，以及向所述第一播放设备发送同步响应的第二时刻；

从所述第一播放设备接收第一消息，所述第一消息中包括所述第一播放设备发送所述同步请求的第三时刻和所述第一播放设备接收到所述同步响应的第四时刻；

所述根据所述终端设备与所述第一播放设备收发同步消息的时刻，确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差，包括：

根据所述第一时刻、所述第二时刻、所述第三时刻和所述第四时刻，确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差。

在本方案中，可以根据终端设备与第一播放设备收发同步请求和同步响应的时刻，确定终端设备和第一播放设备之间的数据传输时延和与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差，有利于提高数据传输时延和时钟偏差的精确度。

确定向所述第一播放设备发送同步请求的第五时刻，以及从所述第一播放设备接收同步响应的第六时刻；

从所述第一播放设备接收第二消息，所述第二消息中包括所述第一播放设备接收所述同步请求的第七时刻和所述第一播放设备发送所述同步响应的第八时刻；

根据所述第五时刻、所述第六时刻、所述第七时刻和所述第八时刻，确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差。

在一种可能的实现方式中，所述多媒体信息包括音频信息；所述向所述第一播放设备发送所述第一播放设备对应的多媒体信息包括：

对待播放音频流进行声道处理，得到至少两个声道各自对应的音频信息；

将所述至少两个声道中的一个声道对应的音频信息发送给所述第一播放设备。

在本方案中，将至少两个声道中的一个声道对应的音频信息发送给第一播放设备，可以使得至少两个播放设备在播放音频信息时，能够播放出立体声效果。

第二方面，本申请实施例提供一种多媒体信息的处理方法，包括：

获取至少两个播放设备之间的相对位置信息；

根据所述至少两个播放设备之间的相对位置信息，获取用户相对于所述至少两个播放设备的位置信息；

根据所述用户相对于所述至少两个播放设备的位置信息和所述至少两个播放设备之间的相对位置信息，对所述至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到所述第一播放设备对应的多媒体信息，所述多媒体信息包括音频信息。

在本方案中，由于根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，可以对至少两个播放设备中每个播放设备对应的原始多媒体信息进行声场校正，并将校正后的多媒体信息发送给各个播放设备，这样播放设备在播放多媒体信息之后，就会使用户处于皇帝位，从而可以提高用户的听音体验。

将所述第一播放设备对应的多媒体信息发送给所述第一播放设备。

在本方案中，若由终端设备根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，对至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到第一播放设备对应的多媒体信息后，还需要将第一播放设备对应的多媒体信息发送给第一播放设备，以使第一播放设备播放多媒体信息。

根据所述用户相对于所述至少两个播放设备的位置信息和所述至少两个播放设备之间的相对位置信息，对所述至少两个播放设备中第二播放设备对应的原始多媒体信息进行声场校正，得到所述第二播放设备对应的多媒体信息，所述多媒体信息包括音频信息；

将所述第二播放设备对应的多媒体信息发送给所述第二播放设备。

在一种可能的实现方式中，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离，所述根据所述至少两个播放设备之间的相对位置信息，获取用户相对于所述至少两个播放设备的位置信息，包括：

利用声源定位技术，获取所述第一播放设备相对于所述第二播放设备的麦克风阵列的第一角度信息和所述第二播放设备相对于所述第一播放设备的麦克风阵列的第二角度信息，所述第一角度信息为在所述第二播放设备的麦克风阵列的坐标轴下的角度信息，所述第二角度信息为在所述第一播放设备的麦克风阵列的坐标轴下的角度信息；

根据所述第一角度信息和所述第二角度信息，对所述第一播放设备的麦克风阵列的坐标轴进行旋转校正，其中，所述第二播放设备的麦克风阵列的坐标轴和旋转校正后的第一播放设备的麦克风阵列的坐标轴的轴向方向一致；

基于旋转校正后的第一播放设备的麦克风阵列的坐标轴，根据所述第一播放设备和第二播放设备之间的距离，确定所述用户相对于所述第一播放设备的位置。

在本方案中，对第一播放设备的麦克风阵列的坐标轴进行旋转校正，使得第二播放设备的麦克风阵列的坐标轴和旋转校正后的第一播放设备的麦克风阵列的坐标轴的轴向方向一致，这样可以提高确定出的用户相对于第一播放设备的位置的精确度。

在一种可能的实现方式中，所述基于旋转校正后的第一播放设备的麦克风阵列的坐标轴，根据所述第一播放设备和第二播放设备之间的距离，确定所述用户相对于所述第一播放设备的位置，包括：

利用声源定位技术，获取所述用户相对于所述第一播放设备的麦克风阵列的第三角度信息，所述第三角度信息为在所述旋转校正后的第一播放设备的麦克风阵列的坐标轴下的角度信息；

利用声源定位技术，获取所述用户相对于所述第二播放设备的麦克风阵列的第四角度信息，所述第四角度信息为在所述第二播放设备的麦克风阵列的坐标轴下的角度信息；

根据所述第一播放设备和第二播放设备之间的距离，所述第三角度信息和所述第四角度信息，确定所述用户相对于所述第一播放设备的位置。

在本方案中，由于根据第一播放设备和第二播放设备之间的距离，第三角度信息和第四角度信息，可以确定出用户相对于第一播放设备的位置，由此可以避免现有技术中需要用户手动测量用户相对于第一播放设备的位置的现象，不仅可以提高效率，而且可以提高用户的体验。

在一种可能的实现方式中，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离，所述获取至少两个播放设备之间的相对位置信息，包括：

确定第一时长和第二时长，所述第一时长为所述第一播放设备的麦克风采集到所述第二播放设备所播放的第二声音的时刻，与所述第一播放设备的麦克风采集到所述第一播放设备所播放的第一声音的时刻之间的差值，所述第二时长为所述第二播放设备的麦克风采集到所述第二播放设备所播放的所述第二声音的时刻，与所述第二播放设备的麦克风采集到所述第一播放设备所播放的所述第一声音的时刻之间的差值；

根据所述第一时长和所述第二时长，确定所述第一播放设备和所述第二播放设备之间的距离。

在一种可能的实现方式中，所述根据所述第一时长和所述第二时长，确定所述第一播放设备和所述第二播放设备之间的距离，包括：

根据公式D＝(Tdelay1-Tdelay2)*C/2，确定所述第一播放设备和所述第二播放设备之间的距离；其中，所述D为所述第一播放设备和所述第二播放设备之间的距离，所述Tdelay1为所述第一时长，所述Tdelay2为所述第二时长，所述C为声速。

在本方案中，可以根据第一时长和第二时长，确定出第一播放设备和第二播放设备之间的距离，由此可以避免现有技术中需要用户手动测量第一播放设备和第二播放设备之间的距离的现象，不仅可以提高效率，而且可以提高用户的体验。

在所述第一播放设备播放所述第一播放设备对应的多媒体信息时，采集混合多媒体信息，所述混合多媒体信息包括所述第一播放设备对应的多媒体信息和环境噪声信息；

根据所述第一播放设备对应的多媒体信息和所述混合多媒体信息，确定所述环境噪声信息和/或所述第一播放设备到所述终端设备的次级通道响应估计值；

将所述环境噪声信息和/或所述次级通道响应估计值发送给所述第一播放设备，所述噪声信息和/或所述次级通道响应估计值用于得到反向噪声，所述反向噪声用于抵消所述环境噪声信息。

在本方案中，由于终端设备在第一播放设备播放第一播放设备对应的多媒体信息时，采集混合多媒体信息，并根据第一播放设备对应的多媒体信息和混合多媒体信息，确定环境噪声信息和/或第一播放设备到终端设备的次级通道响应估计值，将环境噪声信息和/或次级通道响应估计值发送给第一播放设备后，第一播放设备可以根据环境噪声信息和/或次级通道响应估计值得到反向噪声，以抵消环境噪声信息，由此，在开放式环境中也可以达到主动降噪的目的。

第三方面，本申请实施例提供一种多媒体信息的处理方法，包括：

接收终端设备发送的所述播放设备对应的多媒体信息以及起始播放时刻；所述起始播放时刻为所述终端设备根据所述终端设备和所述播放设备之间的时钟偏差确定的，所述终端设备和所述播放设备之间的时钟偏差为所述终端设备根据所述终端设备和所述播放设备之间的数据传输时延确定的；

根据所述起始播放时刻，播放所述播放设备对应的多媒体信息。

在一种可能的实现方式中，所述方法还包括：

确定向所述终端设备发送同步请求的第三时刻，以及从所述终端设备接收同步响应的第四时刻；

向所述终端设备发送第一消息，所述第一消息中包括所述第三时刻和所述第四时刻，所述第一消息用于指示所述终端设备根据第一时刻、第二时刻、所述第三时刻和所述第四时刻确定所述终端设备和所述播放设备之间的时钟偏差，所述第一时刻为所述终端设备接收到所述同步请求的时刻，所述第二时刻为所述终端设备发送所述同步响应的时刻。

在一种可能的实现方式中，所述方法还包括：

确定从所述终端设备接收同步请求的第七时刻，以及向所述终端设备发送同步响应的第八时刻；

向所述终端设备发送第二消息，所述第二消息中包括所述第七时刻和所述第八时刻，所述第二消息用于指示所述终端设备根据第五时刻、第六时刻、所述第七时刻和所述第八时刻确定所述终端设备和所述播放设备之间的时钟偏差，所述第五时刻为所述终端设备发送所述同步请求的时刻，所述第六时刻为所述终端设备接收到所述同步响应的时刻。

在一种可能的实现方式中，所述多媒体信息包括音频信息；所述接收终端设备发送的所述播放设备对应的多媒体信息包括：

接收所述终端设备发送的音频信息，所述音频信息为所述终端设备对待播放音频流进行声道处理后，得到的至少两个声道中的一个声道对应的音频信息。

第四方面，本申请实施例提供一种多媒体信息的处理方法，包括：

接收终端设备发送的所述第一播放设备对应的多媒体信息，所述多媒体信息包括音频信息；所述第一播放设备对应的多媒体信息为所述终端设备根据用户相对于至少两个播放设备的位置信息和所述至少两个播放设备之间的相对位置信息，对所述至少两个播放设备中的所述第一播放设备对应的原始多媒体信息进行声场校正后得到的；

播放所述第一播放设备对应的多媒体信息。

在一种可能的实现方式中，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离；所述方法还包括：

基于旋转校正后的第一播放设备的麦克风阵列的坐标轴，根据所述第一播放设备和第二播放设备之间的距离，确定所述用户相对于所述第一播放设备的位置；

将所述用户相对于所述第一播放设备的位置发送给所述终端设备。

根据所述第一播放设备和所述第二播放设备之间的距离，所述第三角度信息和所述第四角度信息，确定所述用户相对于所述第一播放设备的位置。

在一种可能的实现方式中，所述方法还包括：

根据公式D＝(Tdelay1-Tdelay2)*C/2，确定所述第一播放设备和所述第三播放设备之间的距离；其中，所述D为所述第一播放设备和所述第三播放设备之间的距离，所述Tdelay1为所述第一时长，所述Tdelay2为所述第二时长，所述C为声速。

在一种可能的实现方式中，所述方法还包括：

接收所述终端设备发送的环境噪声信息和/或所述第一播放设备到所述终端设备的次级通道响应估计值；所述环境噪声信息和/或所述第一播放设备到所述终端设备的次级通道响应估计值为所述终端设备在所述第一播放设备播放所述第一播放设备对应的音频信息时采集混合音频信息，并根据所述第一播放设备对应的音频信息和所述混合音频信息确定的，所述混合音频信息包括所述第一播放设备对应的音频信息和所述环境噪声信息；

根据所述环境噪声信息和/或所述次级通道响应估计值，确定反向噪声，所述反向噪声用于抵消所述环境噪声信息。

第五方面，本申请实施例提供一种多媒体信息的处理装置，包括：

第一处理单元，用于确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延；

所述第一处理单元，还用于根据所述终端设备和所述第一播放设备之间的数据传输时延，确定所述终端设备和所述第一播放设备之间的时钟偏差；

第二处理单元，用于根据所述终端设备和所述第一播放设备之间的时钟偏差，确定所述第一播放设备对应的多媒体信息的第一起始播放时刻；所述第一起始播放时刻用于表示所述第一播放设备播放所述第一播放设备对应的多媒体信息的起始时刻。

在一种可能的实现方式中，所述装置为终端设备，所述装置还包括：

发送单元，用于向所述第一播放设备发送所述第一播放设备对应的多媒体信息以及所述第一起始播放时刻。

在一种可能的实现方式中，所述装置为终端设备，所述装置还包括发送单元；

所述第一处理单元，还用于确定所述终端设备和至少两个播放设备中的第二播放设备之间的数据传输时延；

所述第一处理单元，还用于根据所述终端设备和所述第二播放设备之间的数据传输时延，确定所述终端设备和所述第二播放设备之间的时钟偏差；

所述第二处理单元，还用于根据所述终端设备和所述第二播放设备之间的时钟偏差，确定所述第二播放设备对应的多媒体信息的第二起始播放时刻；所述第二起始播放时刻用于表示所述第二播放设备播放所述第二播放设备对应的多媒体信息的起始时刻，所述第一起始播放时刻和所述第二起始播放时刻使得所述第一播放设备和所述第二播放设备同步播放各自对应的多媒体信息；

所述发送单元，用于向所述第二播放设备发送所述第二播放设备对应的多媒体信息以及所述第二起始播放时刻。

在一种可能的实现方式中，所述第一处理单元，具体用于：

在一种可能的实现方式中，所述装置为终端设备，所述同步消息包括同步请求和同步响应；所述装置还包括：接收单元；

所述第一处理单元，还用于确定从所述第一播放设备接收同步请求的第一时刻，以及向所述第一播放设备发送同步响应的第二时刻；

所述接收单元，用于从所述第一播放设备接收第一消息，所述第一消息中包括所述第一播放设备发送所述同步请求的第三时刻和所述第一播放设备接收到所述同步响应的第四时刻；

所述第一处理单元，还用于根据所述第一时刻、所述第二时刻、所述第三时刻和所述第四时刻，确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差。

所述第一处理单元，还用于确定向所述第一播放设备发送同步请求的第五时刻，以及从所述第一播放设备接收同步响应的第六时刻；

接收单元，用于从所述第一播放设备接收第二消息，所述第二消息中包括所述第一播放设备接收所述同步请求的第七时刻和所述第一播放设备发送所述同步响应的第八时刻；

所述第一处理单元，还用于根据所述第五时刻、所述第六时刻、所述第七时刻和所述第八时刻，确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差。

在一种可能的实现方式中，所述多媒体信息包括音频信息；所述发送单元，还用于：

第六方面，本申请实施例提供一种多媒体信息的处理装置，包括：

第一处理单元，用于获取至少两个播放设备之间的相对位置信息；

所述第一处理单元，还用于根据所述至少两个播放设备之间的相对位置信息，获取用户相对于所述至少两个播放设备的位置信息；

第二处理单元，用于根据所述用户相对于所述至少两个播放设备的位置信息和所述至少两个播放设备之间的相对位置信息，对所述至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到所述第一播放设备对应的多媒体信息，所述多媒体信息包括音频信息。

在一种可能的实现方式中，所述装置为终端设备，所述装置还包括：发送单元；

所述发送单元，用于将所述第一播放设备对应的多媒体信息发送给所述第一播放设备。

所述第二处理单元，还用于根据所述用户相对于所述至少两个播放设备的位置信息和所述至少两个播放设备之间的相对位置信息，对所述至少两个播放设备中第二播放设备对应的原始多媒体信息进行声场校正，得到所述第二播放设备对应的多媒体信息，所述多媒体信息包括音频信息；

所述发送单元，用于将所述第二播放设备对应的多媒体信息发送给所述第二播放设备。

在一种可能的实现方式中，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离；所述第一处理单元，具体用于：

在一种可能的实现方式中，所述第一处理单元，具体用于：

所述第二处理单元，还用于在所述第一播放设备播放所述第一播放设备对应的多媒体信息时，采集混合多媒体信息，所述混合多媒体信息包括所述第一播放设备对应的多媒体信息和环境噪声信息；

所述第二处理单元，还用于根据所述第一播放设备对应的多媒体信息和所述混合多媒体信息，确定所述环境噪声信息和/或所述第一播放设备到所述终端设备的次级通道响应估计值；

所述发送单元，用于将所述环境噪声信息和/或所述次级通道响应估计值发送给所述第一播放设备，所述噪声信息和/或所述次级通道响应估计值用于得到反向噪声，所述反向噪声用于抵消所述环境噪声信息。

第七方面，本申请实施例提供一种多媒体信息的处理装置，包括：

接收单元，用于接收终端设备发送的所述播放设备对应的多媒体信息以及起始播放时刻；所述起始播放时刻为所述终端设备根据所述终端设备和所述播放设备之间的时钟偏差确定的，所述终端设备和所述播放设备之间的时钟偏差为所述终端设备根据所述终端设备和所述播放设备之间的数据传输时延确定的；

处理单元，用于根据所述起始播放时刻，播放所述播放设备对应的多媒体信息。

在一种可能的实现方式中，所述装置还包括：发送单元；

所述处理单元，还用于确定向所述终端设备发送同步请求的第三时刻，以及从所述终端设备接收同步响应的第四时刻；

所述发送单元，用于向所述终端设备发送第一消息，所述第一消息中包括所述第三时刻和所述第四时刻，所述第一消息用于指示所述终端设备根据第一时刻、第二时刻、所述第三时刻和所述第四时刻确定所述终端设备和所述播放设备之间的时钟偏差，所述第一时刻为所述终端设备接收到所述同步请求的时刻，所述第二时刻为所述终端设备发送所述同步响应的时刻。

所述处理单元，还用于确定从所述终端设备接收同步请求的第七时刻，以及向所述终端设备发送同步响应的第八时刻；

所述发送单元，用于向所述终端设备发送第二消息，所述第二消息中包括所述第七时刻和所述第八时刻，所述第二消息用于指示所述终端设备根据第五时刻、第六时刻、所述第七时刻和所述第八时刻确定所述终端设备和所述播放设备之间的时钟偏差，所述第五时刻为所述终端设备发送所述同步请求的时刻，所述第六时刻为所述终端设备接收到所述同步响应的时刻。

在一种可能的实现方式中，所述多媒体信息包括音频信息；所述接收单元，具体用于：

第八方面，本申请实施例提供一种多媒体信息的处理装置，包括：

接收单元，用于接收终端设备发送的所述第一播放设备对应的多媒体信息，所述多媒体信息包括音频信息；所述第一播放设备对应的多媒体信息为所述终端设备根据用户相对于至少两个播放设备的位置信息和所述至少两个播放设备之间的相对位置信息，对所述至少两个播放设备中的所述第一播放设备对应的原始多媒体信息进行声场校正后得到的；

处理单元，用于播放所述第一播放设备对应的多媒体信息。

在一种可能的实现方式中，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离；

所述处理单元，还用于利用声源定位技术，获取所述第一播放设备相对于所述第二播放设备的麦克风阵列的第一角度信息和所述第二播放设备相对于所述第一播放设备的麦克风阵列的第二角度信息，所述第一角度信息为在所述第二播放设备的麦克风阵列的坐标轴下的角度信息，所述第二角度信息为在所述第一播放设备的麦克风阵列的坐标轴下的角度信息；

所述处理单元，还用于根据所述第一角度信息和所述第二角度信息，对所述第一播放设备的麦克风阵列的坐标轴进行旋转校正，其中，所述第二播放设备的麦克风阵列的坐标轴和旋转校正后的第一播放设备的麦克风阵列的坐标轴的轴向方向一致；

所述处理单元，还用于基于旋转校正后的第一播放设备的麦克风阵列的坐标轴，根据所述第一播放设备和第二播放设备之间的距离，确定所述用户相对于所述第一播放设备的位置；

所述发送单元，还用于将所述用户相对于所述第一播放设备的位置发送给所述终端设备。

在一种可能的实现方式中，所述处理单元，具体用于：

在一种可能的实现方式中，所述接收单元，用于接收所述终端设备发送的环境噪声信息和/或所述第一播放设备到所述终端设备的次级通道响应估计值；所述环境噪声信息和/或所述第一播放设备到所述终端设备的次级通道响应估计值为所述终端设备在所述第一播放设备播放所述第一播放设备对应的音频信息时采集混合音频信息，并根据所述第一播放设备对应的音频信息和所述混合音频信息确定的，所述混合音频信息包括所述第一播放设备对应的音频信息和所述环境噪声信息；

所述处理单元，还用于根据所述环境噪声信息和/或所述次级通道响应估计值，确定反向噪声，所述反向噪声用于抵消所述环境噪声信息。

本申请第五方面-第八方面提供的装置，可以是终端设备或播放设备，也可以是终端设备内的芯片或播放设备内的芯片，所述终端设备或播放设备或所述芯片具有实现上述各方面或其任意可能的设计中的多媒体信息的处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。

所述终端设备或播放设备包括：处理单元和收发单元，所述处理单元可以是处理器，所述收发单元可以是收发器，所述收发器包括射频电路，可选地，所述通信设备还包括存储单元，所述存储单元例如可以是存储器。当所述终端设备或播放设备包括存储单元时，所述存储单元用于存储计算机执行指令，所述处理单元与所述存储单元连接，所述处理单元执行所述存储单元存储的计算机执行指令，以使所述终端设备或播放设备执行上述各方面或其任意可能的设计中的多媒体信息的处理方法。

所述芯片包括：处理单元和收发单元，所述处理单元可以是处理器，所述收发单元可以是所述芯片上的输入/输出接口、管脚或电路等。所述处理单元可执行存储单元存储的计算机执行指令，以使所述芯片执行上述各方面或其任意可能的设计中的多媒体信息的处理方法。可选地，所述存储单元可以是所述芯片内的存储单元(例如，寄存器、缓存等)，所述存储单元还可以是所述终端设备或播放设备内的位于所述芯片外部的存储单元(例如，只读存储器(read-only memory，ROM))或可存储静态信息和指令的其他类型的静态存储设备(例如，随机存取存储器(random access memory，RAM))等。

上述提到的处理器可以是一个中央处理器(central processing unit，CPU)、微处理器或专用集成电路(application specific integrated circuit，ASIC)，也可以是一个或多个用于控制上述各方面或其任意可能的设计的多媒体信息的处理方法的程序执行的集成电路。

本申请实施例的第九方面提供了一种计算机可读存储介质，用于存储计算机指令，当其在计算机上运行时，使得计算机执行本申请实施例的第一方面至第四方面任一方面提供的多媒体信息的处理方法。

本申请实施例的第十方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请实施例的第一方面至第四方面任一方面提供的多媒体信息的处理方法。

本申请实施例的第十一方面提供了一种多媒体信息的处理装置，包括：存储器和处理器；所述存储器，用于存储程序指令；所述处理器，用于调用所述存储器中存储的所述程序指令以实现第一方面至第四方面任一方面所述的方法。

本申请提供的提供的多媒体信息的处理方法、装置和存储介质，通过确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延，并根据终端设备和第一播放设备之间的数据传输时延，确定终端设备和第一播放设备之间的时钟偏差，然后根据终端设备和第一播放设备之间的时钟偏差，确定第一播放设备对应的多媒体信息的第一起始播放时刻，该第一起始播放时刻用于表示第一播放设备播放第一播放设备对应的多媒体信息的起始时刻。由于根据终端设备和至少两个播放设备中每个播放设备之间的数据传输时延，可以确定终端设备和每个播放设备之间的时钟偏差，从而确定出每个播放设备对应的多媒体信息的起始播放时刻，由此可以使得至少两个播放设备中每个播放设备同步播放各自对应的多媒体信息，以提高用户的听音体验。

本申请提供的提供的多媒体信息的处理方法、装置和存储介质，通过获取至少两个播放设备之间的相对位置信息，并根据至少两个播放设备之间的相对位置信息，获取用户相对于至少两个播放设备的位置信息，然后根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，对至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到第一播放设备对应的多媒体信息，该多媒体信息包括音频信息，再将第一播放设备对应的多媒体信息发送给第一播放设备。由于根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，可以对至少两个播放设备中每个播放设备对应的原始多媒体信息进行声场校正，并将校正后的多媒体信息发送给各个播放设备，这样播放设备在播放多媒体信息之后，就会使用户处于皇帝位，从而可以提高用户的听音体验。

附图说明

图1为本申请实施例提供的一种可能的应用场景示意图；

图2a示出了图1中终端设备101(例如手机)的结构示意图；

图2b示出了图1中播放设备102(例如音箱)的结构示意图；

图3为本申请实施例提供的一种多媒体信息的处理方法的流程示意图；

图4为终端设备和第一播放设备对时的一示意图；

图5为终端设备和第一播放设备对时的另一示意图；

图6a为播放模式的一示意图；

图6b为播放模式的另一示意图；

图6c为播放模式的又一示意图；

图6d为播放模式的再一示意图；

图6e为播放模式的再一示意图；

图7为滤波器计算与使能的示意图；

图8为本申请实施例提供的另一种多媒体信息的处理方法的流程示意图；

图9为多媒体信息的处理方法实现过程的一示意图；

图10为本申请实施例提供的另一种可能的应用场景示意图；

图11为音视频同步算法框图；

图12为本申请实施例提供的又一种可能的应用场景示意图；

图13a为多终端设备多音箱协同卡拉OK的示意图；

图13b为多终端设备分布式耳返协同卡拉OK的示意图；

图14为卡拉OK时终端设备对音频信息处理的算法框图；

图15为本申请实施例提供的又一种多媒体信息的处理方法的流程示意图；

图16为第一播放设备和第二播放设备之间的相对位置信息计算的示意图；

图17为播放设备坐标轴旋转校正的示意图；

图18为用户与播放设备的位置示意图；

图19为主动降噪示意图；

图20为主动降噪算法框图；

图21为本申请实施例提供的一种多媒体信息的处理装置的结构示意图；

图22为本申请实施例提供的一种多媒体信息的处理装置的另一结构示意图；

图23为本申请实施例提供的一种多媒体信息的处理装置的又一结构示意图。

具体实施方式

以下，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

1)本申请中的单元是指功能单元或逻辑单元。其可以为软件形式，通过处理器执行程序代码来实现其功能；也可以为硬件形式。

2)“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“以上”或“以下”等所描述的范围包括边界点。

本申请实施例提供的多媒体信息的处理方法，应用于终端设备和多个播放设备中的每个播放设备之间、以及多个播放设备之间实现多媒体信息同步的场景中，其中，多媒体信息可以包括音频信息和/或视频信息。图1为本申请实施例提供的一种可能的应用场景示意图，如图1所示，该系统中包括终端设备101和至少两个播放设备102。终端设备101在将多媒体信息推送到各个播放设备102时，为了使终端设备101和各播放设备102之间播放的多媒体信息同步，终端设备101还需要根据终端设备101和每个播放设备102之间的数据传输时延，确定出终端设备和每个播放设备之间的时钟偏差，从而根据确定出的时钟偏差，确定每个播放设备102开始播放多媒体信息的起始播放时间。这样，终端设备101可以将确定出的起始播放时间发送给对应的播放设备102，播放设备102可以根据接收到的起始播放时间开始播放多媒体信息，从而达到终端设备101和各个播放设备102同步播放音视频的目的。

可以理解的是，各个播放设备102对应的起始播放时间可以相同，也可以不同。

在具体实现中，作为一种实施例，终端设备101可以是便携式电脑、掌上电脑(personal digital assistant，PDA)、手机、平板电脑、无线终端设备、通信设备、蓝牙音箱或Wi-Fi音箱等电子设备。示例性的，图2a示出了图1中终端设备101(例如手机)的结构示意图。如图2a所示，终端设备101可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。可以理解的是，本实施例示意的结构并不构成对终端设备101的具体限定。在本申请另一些实施例中，终端设备101可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件、或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。在一些实施例中，终端设备101也可以包括一个或多个处理器110。其中，控制器可以是终端设备101的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。这就避免了重复存取，减少了处理器110的等待时间，因而提高了终端设备101系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。其中，USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备101充电，也可以用于终端设备101与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备101的结构限定。在本申请另一些实施例中，终端设备101也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端设备101的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端设备101供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端设备101的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。终端设备101中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备101上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端设备101上的包括无线局域网(wirelesslocal area networks，WLAN)，蓝牙，全球导航卫星系统(global navigation satellitesystem，GNSS)，调频(frequency modulation，FM)，NFC，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理单元的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备101的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端设备101可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括GSM，GPRS，CDMA，WCDMA，TD-SCDMA，LTE，GNSS，WLAN，NFC，FM，和/或IR技术等。上述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenithsatellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端设备101通过GPU，显示屏194，以及应用处理器等可以实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端设备101可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备101可以通过ISP，一个或多个摄像头193，视频编解码器，GPU，一个或多个显示屏194以及应用处理器等实现拍摄功能。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端设备101的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备101的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐、照片、视频等数据文件保存在外部存储卡中。

内部存储器121可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令，从而使得终端设备101执行本申请一些实施例中所提供的多媒体信息的处理方法，以及各种功能应用以及数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用程序(比如图库、联系人等)等。存储数据区可存储终端设备101使用过程中所创建的数据(比如照片，联系人等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。在一些实施例中，处理器110可以通过运行存储在内部存储器121的指令，和/或存储在设置于处理器110中的存储器的指令，来使得终端设备101执行本申请实施例中所提供的多媒体信息的处理方法，以及各种功能应用及数据处理。

音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D可以提供用户与终端设备101之间的音频接口，终端设备101可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。其中，音频模块170用于将数字音频信息转换成模拟音频信号，也用于将模拟音频输入转换为数字音频信号，并将转换后的音频信号传输到扬声器170A，由扬声器170A转换为声音信号输出。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号，并进行输出。终端设备101可以通过扬声器170A收听音乐，或收听免提通话。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备101接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号，由音频模块170接收后转换为音频数据，再将音频数据输出至天线以发送给比如另一手机，或者将音频数据输出至内部存储器121以便进一步处理。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端设备101可以设置至少一个麦克风170C。在另一些实施例中，终端设备101可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备101还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，还可以是美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

另外，在本申请实施例中，终端设备101中需要设置至少三个麦克风170C，以形成麦克风阵列，从而实现声源定位，以确定出用户相对于至少两个播放设备的位置信息。

传感器180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

其中，压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。终端设备101根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，终端设备101根据压力传感器180A检测所述触摸操作强度。终端设备101也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定终端设备101的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端设备101围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测终端设备101抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端设备101的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景等。

加速度传感器180E可检测终端设备101在各个方向上(一般为三轴)加速度的大小。当终端设备101静止时可检测出重力的大小及方向。还可以用于识别终端设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。终端设备101可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端设备101可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端设备101通过发光二极管向外发射红外光。终端设备101使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端设备101附近有物体。当检测到不充分的反射光时，终端设备101可以确定终端设备101附近没有物体。终端设备101可以利用接近光传感器180G检测用户手持终端设备101贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。终端设备101可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端设备101是否在口袋里，以防误触。

指纹传感器180H(也称为指纹识别器)，用于采集指纹。终端设备101可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。另外，关于指纹传感器的其他记载可以参见名称为“处理通知的方法及电子设备”的国际专利申请PCT/CN2017/082773，其全部内容通过引用结合在本申请中。

触摸传感器180K，也可称触控面板或触敏表面。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称触控屏。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端设备101的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键，也可以是触摸式按键。终端设备101可以接收按键输入，产生与终端设备101的用户设置以及功能控制有关的键信号输入。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端设备101的接触和分离。终端设备101可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备101通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备101采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备101中，不能和终端设备101分离。

作为一种实施例，播放设备102也可以是便携式电脑、PDA、手机、平板电脑、无线终端设备、通信设备、蓝牙音箱或Wi-Fi音箱等电子设备。示例性的，图2b示出了图1中播放设备102(例如音箱)的结构示意图。如图2b所示，音箱还可以被称为回放设备、多媒体单元或扬声器等，用于提供音频、视频和/或音频视频的输出。音箱102可以包括：一个或多个处理器201(图中仅示出一个)；一个或多个输入设备202(图中仅示出一个)，一个或多个输出设备203(图中仅示出一个)和存储器204。上述处理器201、输入设备202、输出设备203和存储器204通过总线205连接。存储器204用于存储指令，处理器201用于执行存储器204存储的指令，所述存储器204，用于存储软件程序以及模块。所述处理器201通过运行存储在所述存储器204的软件程序以及模块，从而执行各种功能应用以及数据处理。

应当理解，在本申请实施例中，所述处理器201可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。输入设备202可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风、数据接收接口等。输出设备203可以包括显示器(LCD等)、扬声器、数据发送接口等，音箱102可以通过扬声器播放声音，例如，音乐等，显示器可以用于显示所播放的音乐的信息等。该存储器204可以包括只读存储器和随机存取存储器，并向处理器201提供指令和数据。存储器204的一部分还可以包括非易失性随机存取存储器。例如，存储器204还可以存储设备类型的信息。

在图1所示系统架构的基础上，下面将详细介绍本申请实施例提供的多媒体信息处理方法的技术方案。示例性的，以下实施例中所涉及的技术方案均可以在具有上述硬件架构的终端设备或播放设备中实现。

图3为本申请实施例提供的一种多媒体信息的处理方法的流程示意图，本申请实施例提供的多媒体信息的处理方法，可以由任意执行多媒体信息的处理方法的装置来执行，该装置可以通过软件和/或硬件实现。本实施例中，该装置可以集成在终端设备101或播放设备102中。如图3所示，该方法包括：

步骤301：确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延。

步骤302：根据终端设备和第一播放设备之间的数据传输时延，确定终端设备和第一播放设备之间的时钟偏差。

可以理解的是，可以是终端设备确定终端设备和第一播放设备之间的数据传输时延，也可以是至少两个播放设备中的任意一个播放设备确定终端设备和第一播放设备之间的数据传输时延，其中，第一播放设备可以为至少两个播放设备中的任意一个播放设备。

在本步骤中，终端设备和第一播放设备之间的数据传输时延，可以理解为从终端设备开始发送数据，到第一播放设备接收到终端设备发送的数据的时间，也可以理解为从第一播放设备开始发送数据，到终端设备接收到第一播放设备发送的数据的时间。

终端设备和第一播放设备分别具有各自的系统时间，终端设备和第一播放设备之间的时钟偏差，可以理解为终端设备和第一播放设备的系统时间之间的偏差。

在一种可能的实现方式中，确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延，可以是确定终端设备和第一播放设备之间的数据传输时延和与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差。

具体地，根据终端设备与第一播放设备收发同步消息的时刻，确定终端设备和第一播放设备之间的数据传输时延和与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差。

下面，以终端设备根据终端设备与第一播放设备收发同步消息的时刻，确定数据传输时延和对应的时钟偏差为例进行说明，对于第一播放设备根据终端设备与第一播放设备收发同步消息的时刻，确定数据传输时延和对应的时钟偏差的方式，与终端设备确定的方式类似，此处不再赘述。

示例性的，图4为终端设备和第一播放设备对时的一示意图，如图4所示，上述的同步消息包括同步请求和同步响应，第一播放设备在连接上终端设备之后，会先向终端设备发送同步请求，并记录发送同步请求的第三时刻T3，其中，同步请求例如可以为SLAVE_SEND_SYNCHRONIZATION_REQUEST。终端设备在接收到同步请求后，将确定并记录接收到同步请求的第一时刻T1，然后向第一播放设备发送同步响应，并记录发送同步响应的第二时刻T2，其中，同步响应例如可以为MASTER_SEND_SYNCHRONIZATION_RESPONSE。第一播放设备在接收到同步响应之后，将记录接收到同步响应的第四时刻T4，并向终端设备发送第一消息，该第一消息中包括有第一播放设备发送同步请求的第三时刻T3和第一播放设备接收到同步响应的第四时刻T4。终端设备在接收到第一消息之后，可以根据第一时刻T1、第二时刻T2、第三时刻T3和第四时刻T4，确定终端设备和第一播放设备之间的数据传输时延和与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差。

在具体的实现过程中，假设终端设备与第一播放设备之间的时钟偏差为Toffset，终端设备和第一播放设备之间的数据传输时延为Tdelay，则有如下公式(1)和公式(2)：

T3+Toffset+Tdelay＝T1 (1)

T2-Toffset+Tdelay＝T4 (2)

根据公式(1)和公式(2)，可以得到公式(3)和公式(4)：

Toffset＝(T1-T4+T2-T3)/2 (3)

Tdelay＝(T1+T4-T2-T3)/2 (4)

因此，终端设备可以根据公式(3)和公式(4)，确定出终端设备和第一播放设备之间的数据传输时延Tdelay和与终端设备和第一播放设备之间的数据传输时延Tdelay对应的时钟偏差Toffset。

需要进行说明的是，根据公式(3)和公式(4)可知，终端设备和第一播放设备之间的数据传输时延，与终端设备和第一播放设备之间的时钟偏差之间是存在对应关系的，也即一个数据传输时延对应一个时钟偏差。

示例性的，图5为终端设备和第一播放设备对时的另一示意图，如图5所示，上述的同步消息包括同步请求和同步响应，第一播放设备在连接上终端设备之后，终端设备会先向第一播放设备发送同步请求，并记录发送同步请求的第五时刻T5，其中，同步请求例如可以为SLAVE_SEND_SYNCHRONIZATION_REQUEST。第一播放设备在接收到同步请求后，将确定并记录接收到同步请求的第七时刻T7，然后向终端设备发送同步响应，并记录发送同步响应的第八时刻T8，其中，同步响应例如可以为MASTER_SEND_SYNCHRONIZATION_RESPONSE。终端设备在接收到同步响应之后，将记录接收到同步响应的第六时刻T6，并向终端设备发送第二消息，该第二消息中包括有第一播放设备接收同步请求的第七时刻T7和第一播放设备发送同步响应的第八时刻T8。终端设备在接收到第二消息之后，可以根据第五时刻T5、第六时刻T6、第七时刻T7和第八时刻T8，确定终端设备和第一播放设备之间的数据传输时延和与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差。

在具体的实现过程中，假设终端设备与第一播放设备之间的时钟偏差为Toffset，终端设备和第一播放设备之间的数据传输时延为Tdelay，则有如下公式(5)和公式(6)：

T5+Toffset+Tdelay＝T7 (5)

T8-Toffset+Tdelay＝T6 (6)

根据公式(5)和公式(6)，可以得到公式(7)和公式(8)：

Toffset＝(T7-T6+T8-T5)/2 (7)

Tdelay＝(T7+T6-T8-T5)/2 (8)

因此，终端设备可以根据公式(7)和公式(8)，确定出终端设备和第一播放设备之间的数据传输时延Tdelay和与终端设备和第一播放设备之间的数据传输时延Tdelay对应的时钟偏差Toffset。

值得注意的是，本申请实施例中在将终端设备和第一播放设备的多媒体信息进行同步播放时，是基于终端设备和第一播放设备之间的发送时延和接收时延相等的假设。在实际应用中，上述的发送时延和接收时延通常是不相等的，在这种情况下，在终端设备和第一播放设备之间的数据传输时延小于或等于预设阈值时，确定出的终端设备和第一播放设备之间的时钟偏差的误差较小，在终端设备和第一播放设备之间的数据传输时延大于或等于预设阈值时，确定出的终端设备和第一播放设备之间的时钟偏差的误差较大，此时可能会导致终端设备和第一播放设备的同步失败。

为了减小终端设备和第一播放设备之间的时钟偏差的误差，可以采用记录的终端设备与第一播放设备收发同步消息的历史时刻，来确定终端设备和第一播放设备之间的时钟偏差。

综上，在一种可能的实现方式中，在确定出数据传输时延和对应的时钟偏差之后，可以判断终端设备和第一播放设备之间的数据传输时延与预设阈值的数值关系，若终端设备和第一播放设备之间的数据传输时延小于或者等于预设阈值，则确定与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差为终端设备和第一播放设备之间的时钟偏差。

其中，预设阈值可以根据实际情况或者经验设置，例如可以设置为10ms，对于预设阈值的具体取值，本申请实施例不做限制。

若终端设备和第一播放设备之间的数据传输时延小于或者等于预设阈值时，则说明与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差的误差较小，此时可以确定与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差是有效的，那么可以将与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差，确定为终端设备和第一播放设备之间的时钟偏差。其中，与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差可以按照公式(3)或公式(7)确定。

在另一种可能的实现方式中，若终端设备和第一播放设备之间的数据传输时延大于预设阈值，则根据终端设备记录的终端设备与第一播放设备收发同步消息的历史时刻，确定终端设备和第一播放设备之间的时钟偏差。

具体地，若终端设备和第一播放设备之间的数据传输时延大于预设阈值时，说明与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差的误差较大，此时可以确定与终端设备和第一播放设备之间的数据传输时延对应的时钟偏差是无效的。在这种情况下，可以根据终端设备中预先记录的终端设备和第一播放设备收发同步消息的历史时刻，来确定终端设备和第一播放设备之间的时钟偏差，其中，该历史时刻为在具有预设时长的历史时段记录的，或者历史时刻的数量为预设数值。

举例来说，可以根据终端设备中记录的在过去10分钟内终端设备和第一播放设备收发同步消息的时刻，确定终端设备和第一播放设备之间的时钟偏差，也可以根据终端设备记录的过去100次终端设备和第一播放设备收发同步消息的时刻，确定终端设备和第一播放设备之间的时钟偏差。

在实际应用中，可以根据历史时刻，确定至少两个历史数据传输时延和至少两个历史数据传输时延各自对应的历史时钟偏差，确定至少两个历史数据传输时延中最小的历史数据传输时延对应的历史时钟偏差，为终端设备和第一播放设备之间的时钟偏差，其中，至少两个历史数据传输时延为终端设备和第一播放设备之间的数据传输时延。

其中，获取到的终端设备与第一播放设备收发同步消息的历史时刻为至少两个，也即至少两个如图4中的第一时刻T1、第二时刻T2、第三时刻T3和第四时刻T4，或者获取到至少两个如图5中的第五时刻T5、第六时刻T6、第七时刻T7和第八时刻T8，这样，根据第一时刻T1、第二时刻T2、第三时刻T3和第四时刻T4，采用公式(3)和公式(4)，可以计算出至少两个历史数据传输时延和至少两个历史数据传输时延各自对应的历史时钟偏差，或者根据第五时刻T5、第六时刻T6、第七时刻T7和第八时刻T8，采用公式(7)和公式(8)，可以计算出至少两个历史数据传输时延和至少两个历史数据传输时延各自对应的历史时钟偏差。然后，从至少两个历史数据传输时延中确定最小的历史数据传输时延，并判断该最小的历史数据传输时延是否小于或等于预设阈值，若该最小的历史数据传输时延小于或等于预设阈值，则将最小的历史数据传输时延对应的历史时钟偏差，确定为终端设备和第一播放设备之间的时钟偏差。

需要进行说明的是，若该最小的历史数据传输时延大于预设阈值，则说明该最小的历史数据传输时延对应的时钟偏差是无效的，此时，可以获取终端设备之前确定出的有效的时钟偏差，作为终端设备和第一播放设备之间的时钟偏差，其中，终端设备之前确定出的有效的时钟偏差，是指终端设备记录的终端设备与第一播放设备收发同步消息的历史时刻之前的某一时刻所对应的时钟偏差。

步骤303：根据终端设备和第一播放设备之间的时钟偏差，确定第一播放设备对应的多媒体信息的第一起始播放时刻。

其中，第一起始播放时刻用于表示第一播放设备播放第一播放设备对应的多媒体信息的起始时刻。

在本步骤中，为了使至少两个播放设备播放出立体声效果，至少两个播放设备中可能存在不同的播放设备播放不同的多媒体信息，其中，第一播放设备对应的多媒体信息为在第一播放设备中播放的多媒体信息，其可以包括音频信息和/或视频信息。

在确定出终端设备和第一播放设备之间的时钟偏差之后，可以根据公式(9)确定出第一播放设备对应的多媒体信息的第一起始播放时刻：

stime＝终端设备的系统时间+终端设备和第一播放设备之间的时钟偏差+固定等待时间(9)

由于第一播放设备中存在缓冲区buffer，在实际播放过程中，终端设备在将第一播放设备对应的多媒体信息发送给第一播放设备时，第一播放设备会将接收到的多媒体信息先存入缓冲区buffer中。其中，公式(9)中的固定等待时间，可以理解为将多媒体信息存入缓冲区buffer中，且待缓冲区buffer存满的时间。

在一种可能的实现方式中，若上述的终端设备和第一播放设备之间的时钟偏差是由第一播放设备确定出的，终端设备可以将自己的系统时间发送给第一播放设备，第一播放设备可以基于公式(9)，根据确定出的终端设备和第一播放设备之间的时钟偏差，以及接收到的终端设备的系统时间，确定出第一起始播放时刻。另外，终端设备还可以向第一播放设备发送第一播放设备对应的多媒体信息，第一播放设备在确定出第一起始播放时刻之后，可以在第一起始播放时刻开始播放第一播放设备对应的多媒体信息。可以理解的是，终端设备可以将自己的系统时间和第一播放设备对应的多媒体信息通过同一消息发送给第一播放设备，也可以通过不同的消息发送给第一播放设备。

在另一种可能的实现方式中，若上述的终端设备和第一播放设备之间的时钟偏差是由第一播放设备确定出的，第一播放设备可以将确定出的终端设备和第一播放设备之间的时钟偏差发送给终端设备，终端设备基于公式(9)，根据接收到的终端设备和第一播放设备之间的时钟偏差，以及终端设备的系统时间，可以确定出第一起始播放时刻。另外，终端设备会向第一播放设备发送确定出的第一起始播放时刻以及第一播放设备对应的多媒体信息，第一播放设备将在第一起始播放时刻开始播放第一播放设备对应的多媒体信息。可以理解的是，终端设备可以将第一起始播放时刻和第一播放设备对应的多媒体信息通过同一消息发送给第一播放设备，也可以通过不同的消息发送给第一播放设备。例如，终端设备可以先向第一播放设备发送第一播放设备对应的多媒体信息，在确定出第一起始播放时刻之后，再将确定出的第一播放时刻发送给第一播放设备，当然，也可以先将第一起始播放时刻发送给第一播放设备，再将第一播放设备对应的多媒体信息发送给第一播放设备。

在又一种可能的实现方式中，若上述的终端设备和第一播放设备之间的时钟偏差是由终端设备确定出的，终端设备基于公式(9)，根据确定出的终端设备和第一播放设备之间的时钟偏差，以及终端设备的系统时间，可以确定出第一起始播放时刻。另外，终端设备会向第一播放设备发送确定出的第一起始播放时刻以及第一播放设备对应的多媒体信息，第一播放设备将在第一起始播放时刻开始播放第一播放设备对应的多媒体信息。可以理解的是，终端设备可以将第一起始播放时刻和第一播放设备对应的多媒体信息通过同一消息发送给第一播放设备，也可以通过不同的消息发送给第一播放设备。例如，终端设备可以先向第一播放设备发送第一播放设备对应的多媒体信息，在确定出第一起始播放时刻之后，再将确定出的第一播放时刻发送给第一播放设备，当然，也可以先将第一起始播放时刻发送给第一播放设备，再将第一播放设备对应的多媒体信息发送给第一播放设备。

在再一种可能的实现方式中，若上述的终端设备和第一播放设备之间的时钟偏差是由终端设备确定出的，终端设备可以将确定出的终端设备和第一播放设备之间的时钟偏差，以及自己的系统时间发送给第一播放设备，第一播放设备基于公式(9)，根据接收到的终端设备和第一播放设备之间的时钟偏差，以及终端设备的系统时间，可以确定出第一起始播放时刻。另外，终端设备还可以向第一播放设备发送第一播放设备对应的多媒体信息，第一播放设备在确定出第一起始播放时刻之后，可以在第一起始播放时刻开始播放第一播放设备对应的多媒体信息。可以理解的是，终端设备可以将终端设备和第一播放设备之间的时钟偏差、自己的系统时间和第一播放设备对应的多媒体信息通过同一消息发送给第一播放设备，也可以通过不同的消息发送给第一播放设备。例如，终端设备可以先向第一播放设备发送第一播放设备对应的多媒体信息，在确定出终端设备和第一播放设备之间的时钟偏差之后，再将确定出的终端设备和第一播放设备之间的时钟偏差以及自己的系统时间发送给第一播放设备，当然，也可以先将确定出的终端设备和第一播放设备之间的时钟偏差以及自己的系统时间发送给第一播放设备，再将第一播放设备对应的多媒体信息发送给第一播放设备。

进一步地，在多媒体信息包括音频信息时，为了使得至少两个播放设备在播放音频信息时，能够播放出立体声效果，终端设备可以对待播放音频流进行声道处理，得到至少两个声道各自对应的音频信息，然后将至少两个声道中的一个声道对应的音频信息发送给至少两个播放设备中的第一播放设备。

具体的，终端设备在将待播放音频流进行声道处理，并将得到的至少两个声道中的一个声道对应的音频信息发送给至少两个播放设备中的第一播放设备，可以包括如下的几种模式：

图6a为播放模式的一示意图，如图6a所示，第一种模式是无线立体声模式，是指终端设备通过无线网络(Wi-Fi/蓝牙)分别与两个播放设备建立连接，终端设备通过对自身存储的待播放音频流或从互联网上获得的待播放音频流进行声道处理，得到左右声道各自对应的音频信息，并将左右声道各自对应的音频信息分别推流到两个播放设备，两台播放设备分别播放左声道音频和右声道音频，其中，第一播放设备可以是这两个播放设备中的任意一个。

图6b为播放模式的另一示意图，如图6b所示，第二种模式是无线高音质模式，是指终端设备通过无线网络(Wi-Fi/蓝牙)分别与多个播放设备建立连接，终端设备通过将自身存储的待播放音频流或从互联网上获得的待播放音频流，以推流方式传输到多个播放设备上播放，每个播放设备播放相同的音频内容。

图6c为播放模式的又一示意图，如图6c所示，第三种模式是无线多声道平面环绕模式，是指终端设备通过无线网络(Wi-Fi/蓝牙)分别与多个播放设备建立连接，如6个或8个播放设备。终端设备通过将自身存储的待播放音频流或从互联网上获得的待播放音频流进行声道拆分或者虚拟上混，分别将得到的多声道音频信息一一对应的推流到多个播放设备上播放。以6个播放设备为例，如果终端设备存储的待播放音频流是立体声格式，则首先通过虚拟上混算法将立体声音频内容处理成5.1声道格式，再将每个声道对应的音频信息推送到指定的播放设备，使每个播放设备分别播放左前，中，右前，左环绕，右环绕和低音声道，实现5.1平面环绕效果。

图6d为播放模式的再一示意图，如图6d所示，第四种模式是指向声场模式，在该模式中，播放设备以小型无线音箱为主，其中，多个相同的播放设备可组成soundbar形状，终端设备通过将自身存储的待播放音频流或从互联网上获得的待播放音频流进行声道拆分，获得至少两个声道各自对应的音频信息之后，再根据播放设备的个数和彼此间距，分别计算对应于每个播放设备的波束形成滤波器系数，在推流之前对发送给每个播放设备的音频信息做滤波操作，将滤波后的多声道音频信息分别推流至对应的播放设备进行播放，形成指向性声场的效果。其中，确定各个播放设备的彼此之间的间距的方式，在下述实施例中进行详细说明。

图6e为播放模式的再一示意图，如图6e所示，第五种模式是虚拟3D声场模式，在该模式中，播放设备以小型无线音箱为主，其中，多个相同的播放设备可组成双排soundbar形状，两边的播放设备出声方向分别指向左和右，并可选择上排中间区域的播放设备出声方向指向上方，其他播放设备出声方向指向前方。当终端设备中的音频内容支持3D音效(如采用7.1.4或5.1.4的MPEG H编码，或Dolby Atmos编码的音频内容)时，终端设备通过将自身存储的待播放音频流或从互联网上获得的待播放音频流进行声道拆分，获得至少两个声道各自对应的音频信息之后，再根据播放设备相对位置、播放设备的朝向，以及音频编码信息预先计算对应于每个播放设备的滤波器组，在推流之前对发送给每个放音单元的音频信息做滤波操作，将滤波后的多声道音频信息分别推流至对应的播放设备播放，形成3D声场的效果。其中，确定各个播放设备的彼此之间的间距的方式，在下述实施例中进行详细说明。

下面，将介绍第四种模式和第五种模式中的滤波操作。图7为滤波器计算与使能的示意图，如图7所示，终端设备在将本地存储的待播放音频流或从互联网上获得的待播放音频流解码成脉冲编码调制(Pulse Code Modulation，PCM)码流后，对解码后的PCM码流进行混音，得到一路信号X(f)，然后根据播放设备的个数和彼此间距，计算第i个播放设备对应的滤波器组W_i(f)，其中，1<＝i<＝L，L为播放设备的个数。在计算出滤波器组W_i(f)后，根据公式Y_i(f)＝W_i(f)*X(f)，计算波束形成后的每路信号，也即需要推送给第i个播放设备的音频信息，最后将信号Y_i(f)通过无线网络发送至第i个播放设备。

在上述各实施例的基础上，对于至少两个播放设备中的第二播放设备来说，确定第二播放设备对应的多媒体信息的第二起始播放时刻的方式，与确定第一播放设备对应的多媒体信息的第一起始播放时刻的方式类似。下面以终端设备确定第二播放设备对应的多媒体信息的第二起始播放时刻为例进行说明。

图8为本申请实施例提供的另一种多媒体信息的处理方法的流程示意图，本申请实施例提供的多媒体信息的处理方法，可以由任意执行多媒体信息的处理方法的装置来执行，该装置可以通过软件和/或硬件实现。本实施例中，该装置可以集成在终端设备101或播放设备102中。如图8所示，该方法包括：

步骤801：确定终端设备和至少两个播放设备中的第二播放设备之间的数据传输时延。

步骤802：根据终端设备和第二播放设备之间的数据传输时延，确定终端设备和第二播放设备之间的时钟偏差。

其中，第二播放设备为至少两个播放设备中，不同于第一播放设备的播放设备。

示例性地，终端设备确定终端设备和第二播放设备之间的数据传输时延，以及根据终端设备和第二播放设备之间的数据传输时延，确定终端设备和第二播放设备之间的时钟偏差的方式，和终端设备确定终端设备和第一播放设备之间的数据传输时延，以及根据终端设备和第一播放设备之间的数据传输时延，确定终端设备和第二播放设备之间的时钟偏差的方式类似，具体可以参见上述实施例中的相关描述。

步骤803：根据终端设备和第二播放设备之间的时钟偏差，确定第二播放设备对应的多媒体信息的第二起始播放时刻。

其中，第二起始播放时刻用于表示第二播放设备播放第二播放设备对应的多媒体信息的起始时刻，前述实施例中的第一起始播放时刻和第二起始播放时刻使得第一播放设备和第二播放设备同步播放各自对应的多媒体信息。

在本步骤中，为了使至少两个播放设备播放出立体声效果，至少两个播放设备中可能存在不同的播放设备播放不同的多媒体信息，其中，第二播放设备对应的多媒体信息为在第二播放设备中播放的多媒体信息，其可以包括音频信息和/或视频信息。

示例性的，第一起始播放时刻为第一播放设备开始播放第一播放设备对应的多媒体信息的起始时刻，第二起始播放时刻为第二播放设备开始播放第二播放设备对应的多媒体信息的起始时刻。由于第一播放设备和第二播放设备的系统时间可能会不同，或者第一播放设备和第二播放设备与终端设备的系统时间可能不同，因此，本申请实施例中，可以通过终端设备的系统时间、以及终端设备和第一播放设备的时钟偏差，确定第一起始播放时刻，通过终端设备的系统时间、以及终端设备和第二播放设备的时钟偏差，确定第二起始播放时刻，这样，虽然第一播放设备和第二播放设备开始播放多媒体信息的起始时刻不同，但是，第一起始播放时刻和第二起始播放时刻可以使得第一播放设备和第二播放设备能够同步播放各自对应的多媒体信息。

示例性地，终端设备确定第二播放设备对应的多媒体信息的第二起始播放时刻的方式，和终端设备确定第一播放设备对应的多媒体信息的第一起始播放时刻的方式类似，具体可以参见上述实施例中的相关描述。

步骤804：向第二播放设备发送第二播放设备对应的多媒体信息以及第二起始播放时刻。

在本步骤中，终端设备在确定出第二起始播放时刻之后，可以将第二播放设备对应的多媒体信息以及第二起始播放时刻发送给第二播放设备，这样，第二播放设备可以在第二起始播放时刻开始播放对应的多媒体信息，以与第一播放设备同步播放。

需要进行说明的是，上述的步骤801-步骤803也可以由第二播放设备来执行，终端设备可以将第二播放设备对应的多媒体信息发送给第二播放设备，第二播放设备在确定出第二起始播放时刻后，在第二起始播放时刻开始播放对应的多媒体信息。

值得注意的是，对于至少两个播放设备中的其他播放设备，可以按照上述各实施例中的方式确定起始播放时刻，以使得至少两个播放设备中的每个播放设备都能够同步播放各自对应的多媒体信息，具体可以参见上述实施例中的相关描述。

下面，以具体的实施例对上述各方案进行介绍。

图9为多媒体信息的处理方法实现过程的一示意图，如图9所示，终端设备和多个播放设备分别接入同一无线保真(Wireless Fidelity，Wi-Fi)局域网内，多个播放设备中的每个播放设备会发送通用即插即用(Universal Plug and Play，UPNP)广播，终端设备通过数字生活网络联盟(Digital Living Network Alliance，DLNA)协议识别多个播放设备，并与每个播放设备建立点对点连接，建立连接后终端设备可通过socket接口发送对应命令给多个播放设备，选择多个播放设备的播放声道，并将每个播放设备对应的多媒体信息推送给播放设备。

具体地，终端设备可以直接将本地存储的待播放音频流解码成PCM码流，或者可以从互联网音频媒体服务器上获得待播放音频流，边缓存变解码成PCM码流。如果PCM码流为立体声，可进行双声道上混操作，将立体声上混为5.1/7.1/3D声场等声道格式，如果PCM码流为5.1/7.1声道，可使用图6c中所示的多声道平面环绕声模式直接进行分声道推流；另外，若选择图6d中所示的指向声场模式或图6e中所示的虚拟3D声场模式，则根据对应模式进行滤波器组计算，并对多声道PCM码流进行滤波处理，再进行分声道推流，以将至少两个声道中的一个声道对应的音频信息发送给不同的播放设备。对于每个播放设备，其都会建立播放缓存，用于存储接收到的音频信息，并进行对时同步处理和音频播放。播放设备根据前述实施例中确定出的起始播放时间，播放接收到的音频信息。

本申请实施例提供的多媒体信息的处理方法，通过确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延，并根据终端设备和第一播放设备之间的数据传输时延，确定终端设备和第一播放设备之间的时钟偏差，然后根据终端设备和第一播放设备之间的时钟偏差，确定第一播放设备对应的多媒体信息的第一起始播放时刻，该第一起始播放时刻用于表示第一播放设备播放第一播放设备对应的多媒体信息的起始时刻。由于根据终端设备和至少两个播放设备中每个播放设备之间的数据传输时延，可以确定终端设备和每个播放设备之间的时钟偏差，从而确定出每个播放设备对应的多媒体信息的起始播放时刻，由此可以使得至少两个播放设备中每个播放设备同步播放各自对应的多媒体信息，以提高用户的听音体验。

图10为本申请实施例提供的另一种可能的应用场景示意图，如图10所示，在上述各实施例的基础上，用户在使用终端设备观看视频资源时，通过无线连接方式(如Wi-Fi)将音频信息推流到其他播放设备上。多个用户可以通过在其他播放设备上插入耳机或直接使用其他播放设备的外放听到声音，同时观看终端设备上的视频，且保证声音与视频同步。当使用多个播放设备时，各播放设备通过设置声道可实现5.1,7.1等环绕声效果。

具体地，图11为音视频同步算法框图，如图11所示，终端设备与多个播放设备分别接入同一Wi-Fi局域网中，多个播放设备发送UPNP广播，终端设备通过DLNA协议识别多个播放设备，并与每个播放设备建立点对点连接，建立连接后终端设备可通过socket接口发送对应命令给多个播放设备，选择多个播放设备的播放声道，并将每个播放设备对应的音频信息推送给播放设备。

终端设备将对应的音频信息推流给播放设备的过程，与图9中的推流过程类似，可以参考图9中的相关描述，此处不再赘述。

终端设备和至少两个播放设备中的第一播放设备通过前述实施例中的方式，将音频信息进行同步之后，由于第一播放设备中存在播放缓存，终端设备在将音频信息发送给第一播放设备时，第一播放设备需要将接收到的音频信息存入播放缓存，待播放缓存存满之后再按照起始播放时间播放，此时，终端设备可能会延迟原来播放音频信息的时间，以和第一播放设备同步播放。但是终端设备中音频信息和视频信息是分开解码的，终端设备将视频流进行解码后，会将解码后的视频流存入视频播放缓存，以进行播放，这时，如果视频流还是按照原来的时间进行播放的话，就会造成音视频的不同步。为了解决这一问题，本申请实施例中，终端设备会将播放音频信息的延迟时间同步到视频播放缓存，这样，终端设备在播放视频信息时，也会延迟相应的时间，从而达到音视频的同步。

在本实施例中，利用对时同步机制能校正音视频同步问题，保证音视频同步，解决口型与声音不匹配问题，给用户带来更好的观影体验。

图12为本申请实施例提供的又一种可能的应用场景示意图，如图12所示，在上述各实施例的基础上，用户还可以通过多个终端设备和多个播放设备协同进行卡拉OK，其中，多个终端设备可以采集用户的声音信息，例如：话筒主机可以采集用户1的声音信息、话筒从机1可以采集用户1的声音信息、话筒从机2可以采集用户1的声音信息。多个终端设备通过无线连接(如Wi-Fi)与多个播放设备(如手机、音箱以及电视等)建立连接，多个播放设备可以同时播放采集的用户的声音信息以及背景音乐，以实现卡拉OK的效果。

图13a为多终端设备多音箱协同卡拉OK的示意图，如图13a所示，每个终端设备(如手机)分别与多个播放设备(如音箱)进行无线连接，且每台话筒从机(如话筒从机1和话筒从机2)都与话筒主机进行连接，示例性的，用户1对应的终端设备可以为话筒主机，用户2对应的终端设备可以为话筒从机1，用户3对应的终端设备可以为话筒从机2。话筒主机可以把背景音乐发送至各播放设备，另外，还可以配置各播放设备播放的声道，话筒主机可以采集用户1的声音信息，话筒从机1可以采集用户2的声音信息，话筒从机2可以采集用户3的声音信息，话筒主机和话筒从机将采集到的声音信息传输到各播放设备，从而实现卡拉OK效果。

图13b为多终端设备分布式耳返协同卡拉OK的示意图，如图13b所示，在此场景中，每个终端设备(如手机)彼此均建立无线连接，形成星形网络。话筒主机预先把背景音乐发送到各话筒从机(如话筒从机1、话筒从机2和话筒从机3)中。每个终端设备均可将采集的用户的声音信息通过无线网络传输到其他终端设备上，例如：话筒主机可以将采集的用户1的声音信息传输到话筒从机1、话筒从机2和话筒从机3中，话筒从机1可以将采集的用户2的声音信息传输到话筒主机、话筒从机2和话筒从机3中，这样，每个用户均可通过耳机听到其他用户的声音。

在图12-图13b所示应用场景的基础上，下面对各个播放设备之间的歌词同步的过程进行详细介绍。

图14为卡拉OK时终端设备对音频信息处理的算法框图，如图14所示，多个终端设备和多个播放设备分别接入同一Wi-Fi局域网中，多个播放设备发送UPNP广播，多个终端设备通过DLNA协议识别多个播放设备，并与每个播放设备建立点对点连接。

建立连接后，终端设备(如话筒主机)会向其他播放设备(如话筒从机)发送背景音乐。具体地，可以直接将本地存储的待播放音频流解码成PCM码流，或者可以从互联网音频媒体服务器上获得待播放音频流，边缓存变解码成PCM码流。终端设备(如话筒主机)将PCM码流保存为多声道文件，该多声道文件可以为立体声、5.1/7.1/3D或者其他更多声道文件，其中，每个声道对应一个文件。若播放设备为多个音箱，则可以将每个声道文件预先发送到对应的音箱上，每个音箱所播放的声道可以由终端设备(如话筒主机)提前进行设置。

用户在开始唱歌时，各终端设备通过麦克风采集用户的声音信息，并将采集的声音信息经过人声美化算法处理，如进行均衡器(Equalization，EQ)、人造混响或音色调整等处理。若至少两个播放设备中的第一播放设备是音箱，则各终端设备还会对人声美化算法处理后的声音信息通过啸叫抑制算法模块进行啸叫抑制算法处理，其中，啸叫抑制算法模块包括啸叫的检测和控制，当检测到啸叫后通过调整各个频段的增益来控制啸叫。另外，各终端设备通过与第一播放设备建立socket接口，将通过啸叫抑制算法处理后的声音信息推流到第一播放设备上进行播放。

进一步地，在上述多终端设备多音箱协同卡拉OK的场景中，需要将第一播放设备播放出的背景音乐与各终端设备显示的歌词进行同步。具体地，用户通过终端设备选择歌曲之后，将歌曲的统一资源定位符(Uniform Resource Locator，URL)发送给至少两个播放设备中的第一播放设备，并获取该歌曲对应的歌词。第一播放设备将根据接收到的URL获取背景音乐。当然，终端设备也可以直接将背景音乐发送给第一播放设备。第一播放设备根据背景音乐初始化播放器，并判断此时是否正在播放背景音乐，若第一播放设备此时正在播放背景音乐，则可以获取当前播放位置，并将该当前播放位置发生给终端设备。终端设备将根据该当前播放位置，调整歌词的显示位置，以进行歌词状态的更新。在一种可能的实现方式中，调整歌词的显示位置时，可以先确定出终端设备中显示的歌词与播放设备所播放的背景音乐之间的时延，然后根据歌词当前的显示位置以及歌词与背景音乐之间的时延，对歌词的显示位置进行调整。对于终端设备中显示的歌词与播放设备所播放的背景音乐之间的时延的确定方式，与图4和图5所示的时延的确定方式类似，相关描述可以参考前述实施例，此处不再赘述。

另外，若第一播放设备处于未播放背景音乐的状态，则根据接收到的背景音乐，对第一播放设备的播放状态进行刷新，并将第一播放设备的播放状态或当前的播放位置发送给终端设备，终端设备将根据上述方式调整歌词的显示位置。

对于多终端设备分布式耳返协同卡拉OK的场景，各终端设备之间的歌词同步，则可以由各终端设备之间的背景音乐的同步所保证。

需要说明的是，各播放设备，或者各终端设备之间的背景音乐的同步，可以参考前述实施例中多媒体信息的同步方式，此处不再赘述。

进一步地，在实际K歌环境中，网络环境是十分复杂的，网络延迟处于波动过程中。为了实现低延迟K歌效果，需要对网络状态进行观测。具体地，在K歌过程中，终端设备可以每隔m毫秒向至少两个播放设备中的第一播放设备发送一个语音数据包。在第一播放设备侧，可以将接收第1,…,n个语音包的时间分别记为t₁,…,t_n，然后计算相隔两个语音包的时间差：△t_n＝t_n-t_n-1，那么可以得到接收到语音包的时间差序列：△t₁,…,△t_n。

在理想情况下，第一播放设备接收仍以两个连续语音包的时间差为(△t_i)为m毫秒(终端设备发送语音包的时间差)。但是，在实际K歌环境中，由于网络的波动，△t_i≠m。所以△t_i的波动程度(方差)可以反映网络延迟的波动程度。为了降低网络波动对K歌整体环路延迟的影响，需要将在网络平稳阶段(此时网络延迟小)接收到的语音包作为第一播放设备实际播放的起始语音帧。若终端设备存在音效算法，由于音效算法的延迟并非恒定，需要在第一播放设备起始语音帧确定之后再加入人声美化音效处理算法。在起始语音帧之后，在网络状态差时网络延迟会变大，第一播放设备需要播放的语音包可能会来不及到达，此时需要进行补包处理。其中，补包处理可使用常见的丢包补偿算法，当语音包延迟到达后，该语音包需要丢弃。若通过上述观测算法评估的网络状态过差，如连续补包数大于预设值，例如大于10，第一播放设备需要通知终端设备，以告知用户当前网络状态较差，用户可以选择关掉其他专用网络带宽的应用，或选择稍后再尝试K歌。

在本实施例中，可以使歌词和背景音乐达到同步，另外，由于使用自适应网络状态检测方法来判断人声到达的实时性并作相应调整，可以将延迟维持在低水平，解决人声滞后问题，给用户带来更好体验。

示例性的，用户在实际使用的场景中，对于上述各实施例中提供的至少两个播放设备，可能会随意摆放各播放设备的位置，而且播放设备彼此之间的间距可能也是不固定的，此时在用至少两个播放设备播放多媒体信息时，用户可能不能得到很好的听音体验。现有技术中，用户需要手动测量播放设备之间的间距和相位位置关系，并输入到终端设备中进行滤波器计算和使能，给用户带来复杂的操作体验。

本申请实施例中考虑到上述问题，通过获取至少两个播放设备之间的相对位置信息，并根据至少两个播放设备之间的相对位置信息，获取用户相对于至少两个播放设备的位置信息，然后根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，对至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到第一播放设备对应的多媒体信息，该多媒体信息包括音频信息，再将第一播放设备对应的多媒体信息发送给第一播放设备。由于根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，可以对至少两个播放设备中每个播放设备对应的原始多媒体信息进行声场校正，并将校正后的多媒体信息发送给各个播放设备，这样播放设备在播放多媒体信息之后，就会使用户处于皇帝位，从而可以提高用户的听音体验。

值得注意的是，本申请实施例中第一播放设备在播放第一播放设备对应的多媒体信息时，也可以按照图3所示实施例中的方式，确定出第一起始播放时刻，并按照第一起始播放时刻开始播放该多媒体信息。

图15为本申请实施例提供的又一种多媒体信息的处理方法的流程示意图，本申请实施例中的执行主体可以为终端设备，也可以为播放设备，例如可以是第一播放设备，如图15所示，该方法包括：

步骤1501：获取至少两个播放设备之间的相对位置信息。

在本步骤中，至少两个播放设备之间的相对位置信息，可以理解为至少两个播放设备中任意两个播放设备之间的距离。

示例性的，以至少两个播放设备之间的相对位置信息包括至少两个播放设备中的第一播放设备和至少两个播放设备中的第二播放设备之间的距离为例，详细介绍如何获取至少两个播放设备之间的相对位置信息：通过确定第一时长和第二时长，并根据第一时长和第二时长，确定第一播放设备和第二播放设备之间的距离。其中，第一时长为第一播放设备的麦克风采集到第二播放设备所播放的第二声音的时刻，与第一播放设备的麦克风采集到第一播放设备所播放的第一声音的时刻之间的差值，第二时长为第二播放设备的麦克风采集到第二播放设备所播放的第二声音的时刻，与第二播放设备的麦克风采集到第一播放设备所播放的第一声音的时刻之间的差值。

具体地，本申请实施例中假设第一播放设备和第二播放设备都具备麦克风和扬声器设备，即都能播放声音并采集声音。图16为第一播放设备和第二播放设备之间的相对位置信息计算的示意图，如图16所示，若第一播放设备的扬声器在T1时刻播放第一声音，第一播放设备的麦克风在T4时刻采集到此第一声音，第二播放设备的麦克风在T3时刻采集到第一播放设备的扬声器在T1时刻所播放的第一声音；若第二播放设备的扬声器在T2时刻播放第二声音，其中，T2-T1>100毫秒，第二播放设备的麦克风在T5时刻拾取到此第二声音，第一播放设备的麦克风在T6时刻采集到第二播放设备的扬声器在T2时刻所播放的第二声音。可以理解的是，假设第一播放设备和第二播放设备之间的距离为D，则有以下公式：

T3＝T1+D/C+Tde (10)

T6＝T2+D/C+Tde (11)

T4＝T1+TdelaySelf (12)

T5＝T2+TdelaySelf (13)

式中，C为声速，Tde为从声波到达麦克风到转为数字信号记录下来的延迟，TdelaySelf为自发声声波到达麦克风到转为数字信号记录下来的延迟。

其中，由于自发声声波到达麦克风的物理距离可以忽略不计，因此TdelaySelf≈Tde，

根据公式(10)-公式(13)可以确定出如下公式：

Tdelay1＝T6-T4 (14)

Tdelay2＝T5-T3 (15)

根据公式(10)-公式(15)，通过自相关可以计算出Tdelay1和Tdelay2，从而可以根据公式(16)计算出第一播放设备和第二播放设备之间的距离：

D＝(Tdelay1-Tdelay2)*C/2 (16)

其中，设音频采样点函数为x(n)，自相关的计算可以变化为计算xn和x_(n-N)的互相关，其中N为x_n的长度。

令y_n＝x_(n-N)，则有如下公式：

根据公式可以得出，输出向量c(m)＝R_xy(m-N)，m＝1，2，..，2N-1.，通过确定m＝1，2，...N中c(m)的最大值对应位置d，则可以确定出N-d，即为延迟时长。通过第一播放设备，按照上述方式计算得到的N-d等于Tdelay1，通过第二播放设备，按照上述方式计算得到的N-d等于Tdelay2，由此可以计算出Tdelay1-Tdelay2，也即通过确定第一播放设备和第二播放设备分别计算的N-d的值，即可确定出第一播放设备和第二播放设备之间的距离。

其中，Tdelay1为第一时长，Tdelav2为第二时长。

需要说明的是，可以按照上述的方式，计算出至少两个播放设备中，任意两个播放设备之间的距离。

步骤1502：根据至少两个播放设备之间的相对位置信息，获取用户相对于至少两个播放设备的位置信息。

在本步骤中，在确定出至少两个播放设备之间的相对位置信息之后，可以根据至少两个播放设备之间的相对位置信息，获取到用户相对于至少两个播放设备的位置信息。

在一种可能的实现方式中，至少两个播放设备之间的相对位置信息包括至少两个播放设备中的第一播放设备和至少两个播放设备中的第二播放设备之间的距离，那么获取用户相对于至少两个播放设备的位置信息时，可以利用声源定位技术，获取第一播放设备相对于第二播放设备的麦克风阵列的第一角度信息和第二播放设备相对于第一播放设备的麦克风阵列的第二角度信息，其中，第一角度信息为在第二播放设备的麦克风阵列的坐标轴下的角度信息，第二角度信息为在第一播放设备的麦克风阵列的坐标轴下的角度信息；然后根据第一角度信息和第二角度信息，对第一播放设备的麦克风阵列的坐标轴进行旋转校正，其中，第二播放设备的麦克风阵列的坐标轴和旋转校正后的第一播放设备的麦克风阵列的坐标轴的轴向方向一致，再基于旋转校正后的第一播放设备的麦克风阵列的坐标轴，根据第一播放设备和第二播放设备之间的距离，确定用户相对于第一播放设备的位置。

具体地，由于用户在摆放播放设备时，每个播放设备上的麦克风阵列可能并不朝着同一方向，因此为了能够使获取到的用户相对于至少两个播放设备的位置信息更准确，使得终端设备对声场进行更精确的控制，还需要进行麦克风阵列的坐标轴旋转校正。

图17为播放设备坐标轴旋转校正的示意图，如图17所示，第一播放设备通过扬声器播放声音后，终端设备或者第二播放设备利用声源定位技术，可以计算得到第一播放设备相对于第二播放设备的麦克风阵列的第一角度信息θ，θ<0，其中，第一角度信息为在第二播放设备的麦克风阵列的坐标轴下的角度信息；同样的，第二播放设备通过扬声器播放声音后，终端设备或者第一播放设备利用声源定位技术，可以计算得到第二播放设备相对于第一播放设备的麦克风阵列的第二角度信息φ,φ>0，其中，第二角度信息为在第一播放设备的麦克风阵列的坐标轴下的角度信息。在确定出第一角度信息和第二角度信息后，可以对第一播放设备的麦克风阵列的坐标轴旋转φ-θ-180度，这样，第二播放设备的麦克风阵列的坐标轴和旋转校正后的第一播放设备的麦克风阵列的坐标轴的轴向方向一致。

对第一播放设备的麦克风阵列的坐标轴进行旋转校正之后，基于旋转校正后的第一播放设备的麦克风阵列的坐标轴，根据计算出的第一播放设备和第二播放设备之间的距离，来确定用户相对于第一播放设备的位置。在一种可能的实现方式中，可以利用声源定位技术，获取用户相对于第一播放设备的麦克风阵列的第三角度信息，该第三角度信息为在旋转校正后的第一播放设备的麦克风阵列的坐标轴下的角度信息，利用声源定位技术，获取用户相对于第二播放设备的麦克风阵列的第四角度信息，该第四角度信息为在第二播放设备的麦克风阵列的坐标轴下的角度信息，然后根据第一播放设备和第二播放设备之间的距离、第三角度信息和第四角度信息，确定用户相对于第一播放设备的位置。

具体地，图18为用户与播放设备的位置示意图，如图18所示，在用户发出语音信息后，利用声源定位技术，在旋转校正后的第一播放设备的麦克风阵列的坐标轴下，可以计算出用户相对于第一播放设备的麦克风阵列的第三角度信息，同样的，利用声源定位技术，在第二播放设备的麦克风阵列的坐标轴下，可以计算出用户相对于第二播放设备的麦克风阵列的第四角度信息。根据第一播放设备和第二播放设备之间的距离、第三角度信息和第四角度信息，即可确定出用户相对于第一播放设备的位置。可以理解的是，用户相对于第一播放设备的位置，可以包括用户相对于第一播放设备的角度信息以及用户与第一播放设备之间的距离。

类似的，可以通过上述方式依次计算出第三播放设备、第四播放设备……的麦克风阵列的坐标轴的旋转角度，以进行坐标轴的旋转校正，从而使得第二播放设备的麦克风阵列的坐标轴和旋转校正后的第三播放设备、第四播放设备……的麦克风阵列的坐标轴的轴向方向一致，这样，所有的播放设备的麦克风阵列的坐标轴的轴向方向均一致。基于旋转校正后的各个播放设备的麦克风阵列的坐标轴，以及各个播放设备之间的距离，可以确定出用户相对于每个播放设备的位置。

步骤1503：根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，对至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到第一播放设备对应的多媒体信息，该多媒体信息包括音频信息。

在本步骤中，在确定出用户相对于至少两个播放设备中每个播放设备的位置信息，以及至少两个播放设备中任意两个播放设备之间的距离之后，可以对至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，其中，第一播放设备可以为至少两个播放设备中的任意一个播放设备，对第一播放设备对应的原始多媒体信息进行声场校正可以包括调整第一播放设备对应的原始多媒体信息的声音强度和/或相位信息。

另外，在确定出用户相对于至少两个播放设备中每个播放设备的位置信息，以及至少两个播放设备中任意两个播放设备之间的距离之后，可以对至少两个播放设备中第二播放设备对应的原始多媒体信息进行声场校正，其中，第二播放设备可以为至少两个播放设备中，与第一播放设备不同的任意一个播放设备，对第二播放设备对应的原始多媒体信息进行声场校正可以包括调整第二播放设备对应的原始多媒体信息的声音强度和/或相位信息。

进一步地，若是由终端设备根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，对至少两个播放设备中第一播放设备和第二播放设备对应的原始多媒体信息进行声场校正，则终端设备还需要将校正后得到的第一播放设备对应的多媒体信息发送给第一播放设备，将校正后得到的第二播放设备对应的多媒体信息发送给第二播放设备。这样，每个播放设备所播放的多媒体信息均为经过声场校正之后得到的，因此，可以提高用户的听音效果。

示例性的，在上述各实施例的基础上，为了降低噪声的影响，通过播放设备播放音频信息时，需要进行主动降噪。现有技术中，主动降噪技术包括耳机主动降噪技术和车载主动降噪技术，其中，耳机主动降噪技术分为入耳式耳机主动降噪和耳罩式耳机主动降噪，这两种主动降噪方式首先都通过离线测量耳机扬声器到误差麦克风或耳膜处的次级通道响应，以及参考麦克风到误差麦克风或耳膜处的主通道响应，然后通过离线训练的方法或者在线匹配的方法计算前馈滤波器系数和反馈滤波器系数，再通过前馈模式、反馈模式或混合模式生成反向噪声抵消耳道中的环境噪声，达到主动降噪的目的。车载主动降噪与耳机主动降噪的技术方案类似，需要事先测量车载扬声器到驾驶位人耳高度附近位置的声学传递函数，利用离线训练或在线匹配的方法计算主动降噪滤波器系数，实际应用时使用这些滤波器进行主动降噪。然而，上述的主动降噪技术都是假定播放设备到人耳的声学传递路径已知，根据此已知的声学传递路径得到降噪滤波器系数。因此，现有技术的方案主要应用在耳机和车载场景中，对于在开放式环境中，比如家庭环境中，由于用户的位置相对不固定，但播放设备的相对位置是固定的，导致播放设备到用户的声学传递路径未知，因此，在开放式环境中如何进行主动降噪，是目前需要解决的技术问题。

图19为主动降噪示意图，如图19所示，本申请实施例中终端设备和第一播放设备建立Wi-Fi连接，通过终端设备拾取用户所处位置附近的环境噪声，并将此环境噪声传递给第一播放设备，第一播放设备进行一系列计算，生成反向噪声并播放，则可抵消一部分用户所处位置处的环境噪声(比如低频噪声)，达成主动降噪的效果。在一种可能的实现方式中，在第一播放设备播放第一播放设备对应的多媒体信息时，采集混合多媒体信息，该混合多媒体信息包括第一播放设备对应的多媒体信息和环境噪声信息，然后根据第一播放设备对应的多媒体信息和混合多媒体信息，确定环境噪声信息和/或第一播放设备到终端设备的次级通道响应估计值，再将环境噪声信息和/或次级通道响应估计值发送给第一播放设备，该噪声信息和/或次级通道响应估计值用于得到反向噪声，该反向噪声用于抵消环境噪声信息。

具体地，图20为主动降噪算法框图，如图20所示，该实施例中的多媒体信息主要是指音频信息。终端设备将第一播放设备对应的音频信息发送给第一播放设备，第一播放设备在播放音频信息时，可以按照图3所示的方法进行对时同步操作。终端设备在第一播放设备播放音频信息时，将通过麦克风采集该音频信息。此时，终端设备的麦克风采集到的是混合音频信息，该混合音频信息中包括第一播放设备对应的音频信息和环境噪声信息。

终端设备根据自己保存的音频信息，与采集到的混合音频信息作自适应滤波，从终端设备的麦克风采集到的混合音频信息中减去第一播放设备所对应的音频信息，可以得到环境噪声信息，同时也可以得到第一播放设备到终端设备的次级通道响应估计值S’(z)。

终端设备可以通过Wi-Fi网络将得到的环境噪声信息发送给第一播放设备，或者也可以通过Wi-Fi网络将得到的次级通道响应估计值S’(z)发送给第一播放设备，还可以通过Wi-Fi网络将环境噪声信息和次级通道响应估计值S’(z)都发送给第一播放设备。第一播放设备根据接收到的环境噪声信息和/或次级通道响应估计值S’(z)，自适应更新滤波器系数W(z)，并将滤波器系数W(z)和环境噪声信息相乘，得到反向噪声。这样，第一播放设备在播放音频信息时，还可以播放方向噪声，以抵消一部分的环境噪声，使终端设备发送的环境噪声达到最小，达到主动降噪的目的。其中，上述的自适应更新算法可采用滤波最小均方(Filtered-X Least Mean Square，FXLMS)算法。

具体地，如图20所示，第一播放设备有下行音频信息播放(如音乐)时，通过最小均方(Least Mean Square，LMS)自适应滤波更新从终端设备麦克风减去采集到的第一播放设备播出的音频信息。假设下行音频信息为d(t)，终端设备麦克风采集到的相应信号为d(t)*S(z)，LMS自适应滤波器的目的是使S’(z)收敛到S(z)。完全收敛后将S’(z)复制到左侧FX-LMS自适应滤波器更新W(z)主动降噪系数，最终使终端设备麦克风采集到的总信号达到最小，实现主动降噪的目的。

对于至少两个播放设备中的其他播放设备，也可以通过上述的方式达到主动降噪的目的，降噪过程可以参考上述实施例中的相关描述，具体不再赘述。

能够理解的是，若多个播放设备与终端设备通过Wi-Fi网络连接，则运行并联自适应滤波算法，多个播放设备输出的反向噪声的叠加，可以使终端设备的麦克风采集的环境噪声达到最小。

在本实施例中，由于终端设备在第一播放设备播放第一播放设备对应的多媒体信息时，采集混合多媒体信息，并根据第一播放设备对应的多媒体信息和混合多媒体信息，确定环境噪声信息和/或第一播放设备到终端设备的次级通道响应估计值，将环境噪声信息和/或次级通道响应估计值发送给第一播放设备后，第一播放设备可以根据环境噪声信息和/或次级通道响应估计值得到反向噪声，以抵消环境噪声信息，由此，在开放式环境中也可以达到主动降噪的目的。

本申请实施例中提供的多媒体信息的处理方法，通过获取至少两个播放设备之间的相对位置信息，并根据至少两个播放设备之间的相对位置信息，获取用户相对于至少两个播放设备的位置信息，然后根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，对至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到第一播放设备对应的多媒体信息，该多媒体信息包括音频信息，再将第一播放设备对应的多媒体信息发送给第一播放设备。由于根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，可以对至少两个播放设备中每个播放设备对应的原始多媒体信息进行声场校正，并将校正后的多媒体信息发送给各个播放设备，这样播放设备在播放多媒体信息之后，就会使用户处于皇帝位，从而可以提高用户的听音体验。

图21为本申请实施例提供的一种多媒体信息的处理装置的结构示意图，其中，多媒体信息的处理装置可以是前述实施例中的终端设备，也可以是前述实施例中的播放设备。参见图21，该装置包括：第一处理单元11和第二处理单元12、麦克风(图中未示出)和显示单元(图中未示出)，其中：

第一处理单元11，用于确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延；

所述第一处理单元11，还用于根据所述终端设备和所述第一播放设备之间的数据传输时延，确定所述终端设备和所述第一播放设备之间的时钟偏差；

第二处理单元12，用于根据所述终端设备和所述第一播放设备之间的时钟偏差，确定所述第一播放设备对应的多媒体信息的第一起始播放时刻；所述第一起始播放时刻用于表示所述第一播放设备播放所述第一播放设备对应的多媒体信息的起始时刻。

另外，麦克风用于采集声音信号，并将声音信号转换为电信号；显示单元用于显示所播放的多媒体信息。

本申请实施例提供的多媒体信息的处理装置，可以执行上述对应的方法实施例，例如可以是图3所示的实施例，其实现原理和技术效果类似，在此不再赘述。

可选地，所述装置为终端设备，所述装置还包括：

发送单元13，用于向所述第一播放设备发送所述第一播放设备对应的多媒体信息以及所述第一起始播放时刻。

可选地，所述装置为终端设备，所述装置还包括发送单元13；

所述第一处理单元11，还用于确定所述终端设备和至少两个播放设备中的第二播放设备之间的数据传输时延；

所述第一处理单元11，还用于根据所述终端设备和所述第二播放设备之间的数据传输时延，确定所述终端设备和所述第二播放设备之间的时钟偏差；

所述第二处理单元12，还用于根据所述终端设备和所述第二播放设备之间的时钟偏差，确定所述第二播放设备对应的多媒体信息的第二起始播放时刻；所述第二起始播放时刻用于表示所述第二播放设备播放所述第二播放设备对应的多媒体信息的起始时刻，所述第一起始播放时刻和所述第二起始播放时刻使得所述第一播放设备和所述第二播放设备同步播放各自对应的多媒体信息；

所述发送单元13，用于向所述第二播放设备发送所述第二播放设备对应的多媒体信息以及所述第二起始播放时刻。

可选地，所述第一处理单元11，具体用于：

可选地，所述装置为终端设备，所述同步消息包括同步请求和同步响应；所述装置还包括：接收单元14；

所述第一处理单元11，还用于确定从所述第一播放设备接收同步请求的第一时刻，以及向所述第一播放设备发送同步响应的第二时刻；

所述接收单元14，用于从所述第一播放设备接收第一消息，所述第一消息中包括所述第一播放设备发送所述同步请求的第三时刻和所述第一播放设备接收到所述同步响应的第四时刻；

所述第一处理单元11，还用于根据所述第一时刻、所述第二时刻、所述第三时刻和所述第四时刻，确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差。

所述第一处理单元11，还用于确定向所述第一播放设备发送同步请求的第五时刻，以及从所述第一播放设备接收同步响应的第六时刻；

接收单元14，用于从所述第一播放设备接收第二消息，所述第二消息中包括所述第一播放设备接收所述同步请求的第七时刻和所述第一播放设备发送所述同步响应的第八时刻；

所述第一处理单元11，还用于根据所述第五时刻、所述第六时刻、所述第七时刻和所述第八时刻，确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差。

可选地，所述多媒体信息包括音频信息；所述发送单元13，还用于：

本申请实施例提供的多媒体信息的处理装置，可以执行上述对应的方法实施例，例如可以是图3和图8所示的实施例，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分单元通过软件通过处理元件调用的形式实现，部分单元通过硬件的形式实现。例如，发送单元可以为单独设立的处理元件，也可以集成在该装置的某一个芯片中实现，此外，也可以以程序的形式存储于装置的存储器中，由该装置的某一个处理元件调用并执行该发送单元的功能。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。此外，以上发送单元是一种控制发送的单元，可以通过该装置的发送装置，例如天线和射频装置发送信息。

以上这些单元可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital singnal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个单元通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processingunit，CPU)或其它可以调用程序的处理器。再如，这些单元可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

图22为本申请实施例提供的一种多媒体信息的处理装置的另一结构示意图，其中，多媒体信息的处理装置可以是前述实施例中的终端设备，也可以是前述实施例中的播放设备。参见图22，该装置包括：第一处理单元21、第二处理单元22、麦克风(图中未示出)和显示单元(图中未示出)，其中：

第一处理单元21，用于获取至少两个播放设备之间的相对位置信息；

所述第一处理单元21，还用于根据所述至少两个播放设备之间的相对位置信息，获取用户相对于所述至少两个播放设备的位置信息；

第二处理单元22，用于根据所述用户相对于所述至少两个播放设备的位置信息和所述至少两个播放设备之间的相对位置信息，对所述至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到所述第一播放设备对应的多媒体信息，所述多媒体信息包括音频信息。

本申请实施例提供的多媒体信息的处理装置，可以执行上述对应的方法实施例，例如可以是图15所示的实施例，其实现原理和技术效果类似，在此不再赘述。

可选地，所述装置为终端设备，所述装置还包括：发送单元23；

所述发送单元23，用于将所述第一播放设备对应的多媒体信息发送给所述第一播放设备。

所述第二处理单元22，还用于根据所述用户相对于所述至少两个播放设备的位置信息和所述至少两个播放设备之间的相对位置信息，对所述至少两个播放设备中第二播放设备对应的原始多媒体信息进行声场校正，得到所述第二播放设备对应的多媒体信息，所述多媒体信息包括音频信息；

所述发送单元23，用于将所述第二播放设备对应的多媒体信息发送给所述第二播放设备。

可选地，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离；所述第一处理单元21，具体用于：

可选地，所述第一处理单元21，具体用于：

所述第二处理单元22，还用于在所述第一播放设备播放所述第一播放设备对应的多媒体信息时，采集混合多媒体信息，所述混合多媒体信息包括所述第一播放设备对应的多媒体信息和环境噪声信息；

所述第二处理单元22，还用于根据所述第一播放设备对应的多媒体信息和所述混合多媒体信息，确定所述环境噪声信息和/或所述第一播放设备到所述终端设备的次级通道响应估计值；

所述发送单元23，用于将所述环境噪声信息和/或所述次级通道响应估计值发送给所述第一播放设备，所述噪声信息和/或所述次级通道响应估计值用于得到反向噪声，所述反向噪声用于抵消所述环境噪声信息。

图23为本申请实施例提供的一种多媒体信息的处理装置的又一结构示意图，其中，该多媒体信息的处理装置可以是前述实施例中的终端设备，也可以是前述实施例中的播放设备。参见图23，该多媒体信息的处理装置300包括处理器380、存储器330和收发器320。

其中，在本申请实施例中，存储器330用于存储指令，处理器380用于执行存储器330存储的指令，所述存储器330，用于存储软件程序以及模块。所述处理器380通过运行存储在所述存储器330的软件程序以及模块，从而执行各种功能应用以及数据处理，例如可以确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延，根据终端设备和第一播放设备之间的数据传输时延，确定终端设备和第一播放设备之间的时钟偏差，根据终端设备和第一播放设备之间的时钟偏差，确定第一播放设备对应的多媒体信息的第一起始播放时刻等图3或图8所示的各步骤，和/或，用于本申请所描述的技术的其他过程。

另外，所述处理器380通过运行存储在所述存储器330的软件程序以及模块，从而执行各种功能应用以及数据处理，例如可以获取至少两个播放设备之间的相对位置信息，根据至少两个播放设备之间的相对位置信息，获取用户相对于至少两个播放设备的位置信息，根据用户相对于至少两个播放设备的位置信息和至少两个播放设备之间的相对位置信息，对至少两个播放设备中第一播放设备对应的原始多媒体信息进行声场校正，得到第一播放设备对应的多媒体信息等图15所示的各步骤，和/或，用于本申请所描述的技术的其他过程。

在多媒体信息的处理装置300为终端设备时，收发器320用于向第一播放设备发送第一播放设备对应的多媒体信息以及第一起始播放时刻；收发器320还用于向第二播放设备发送第二播放设备对应的多媒体信息以及第二起始播放时刻。

在多媒体信息的处理装置300为播放设备时，收发器320用于将确定出的用户相对于所述至少两个播放设备的位置信息发送给终端设备。

其中，处理器380例如可以是图2中的处理器110，存储器330例如可以是图2中的内部存储器121，收发器320例如可以是图2中的天线1和天线2。

可以理解的是，该多媒体信息的处理装置300还可以包括音频电路370、输入单元340和显示单元350，其中，音频电路370中包括有扬声器371和麦克风372，其中，音频电路370、扬声器371和麦克风372的功能可以参见图2中对音频模块170、扬声器170A和麦克风170C的描述，此处不再赘述。另外，多媒体信息的处理装置300中需要设置至少三个麦克风372，以形成麦克风阵列，处理器380可以控制麦克风阵列进行声源定位，以获取第一播放设备相对于第二播放设备的麦克风阵列的第一角度信息和第二播放设备相对于第一播放设备的麦克风阵列的第二角度信息；处理器380可以控制麦克风阵列进行声源定位，以获取用户相对于第一播放设备的麦克风阵列的第三角度信息，以及用户相对于第二播放设备的麦克风阵列的第四角度信息。

第一播放设备中的扬声器371用于播放第一播放设备对应的多媒体信息，第二播放设备中的扬声器371用于播放第二播放设备对应的多媒体信息。

输入单元340可用于接收输入的数字或字符信息，以及产生与多媒体信息的处理装置300的用户设置以及功能控制有关的键信号输入。具体地，输入单元340可包括触摸屏341以及其他输入设备342。触摸屏341，也称为触控面板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触摸屏341上或在触摸屏341附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触摸屏341可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏341。除了触摸屏341，输入单元340还可以包括其他输入设备342。具体地，其他输入设备342可以包括但不限于物理键盘、功能键(比如音量控制按键、电源开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

其中，输入单元340例如可以是图2中的按键190。

显示单元350可用于显示由用户输入的信息或提供给用户的信息以及多媒体信息的处理装置300的各种菜单。显示单元350可包括显示面板351，其中，显示单元350的功能可以参见图2中对显示屏194的描述，此处不再赘述。

本申请还提供一种存储介质，包括：可读存储介质和计算机程序，所述计算机程序用于实现前述任一实施例提供的多媒体信息的处理方法。

本申请还提供一种程序产品，该程序产品包括计算机程序(即执行指令)，该计算机程序存储在可读存储介质中。终端设备或播放设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得终端设备或播放设备实施前述各种实施方式提供的多媒体信息的处理方法。

本申请实施例还提供了一种多媒体信息的处理装置，包括至少一个存储元件和至少一个处理元件、所述至少一个存储元件用于存储程序，该程序被执行时，使得所述多媒体信息的处理装置执行上述任一实施例中的终端设备或播放设备的操作。该装置可以是终端芯片或播放设备芯片。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(英文：read-only memory，ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(magnetic tape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一种计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(ROM：Read-Only Memory)或随机存储记忆体(RAM：RandomAccess Memory)等。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要保护的本发明的过程中，本领域技术人员通过查看该附图、公开内容、以及所附权利要求书，可理解并实现该公开实施例的其它变化。在权利要求中，“包括”(comprising)一词不排除其它组成部分或步骤，“一”或“一个”不排除多个的可能性。单个处理器或其它模块可以实现权利要求中列举的若干项功能。互相不同的从属权利要求中记载了某些措施，但这并不代表这些措施不能组合起来产生良好的效果。计算机程序可以存储/分布在合适的介质中，例如：光存储介质或固态介质，与其它硬件一起提供或作为硬件的一部分，也可以采用其它分布形式，如通过I nternet或其它有线或无线电信系统。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上该，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多媒体信息的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法应用于终端设备，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法应用于终端设备，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，

所述确定终端设备和至少两个播放设备中的第一播放设备之间的数据传输时延，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述终端设备和所述第一播放设备之间的数据传输时延和与所述终端设备和所述第一播放设备之间的数据传输时延对应的时钟偏差，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述终端设备记录的所述终端设备与所述第一播放设备收发同步消息的历史时刻确定所述终端设备和所述第一播放设备之间的时钟偏差，包括：

8.根据权利要求5所述的方法，其特征在于，所述方法应用于终端设备，所述同步消息包括同步请求和同步响应；所述方法还包括：

9.根据权利要求5所述的方法，其特征在于，所述方法应用于终端设备，所述同步消息包括同步请求和同步响应；所述方法还包括：

10.根据权利要求2所述的方法，其特征在于，所述多媒体信息包括音频信息；所述向所述第一播放设备发送所述第一播放设备对应的多媒体信息包括：

11.一种多媒体信息的处理方法，其特征在于，所述方法包括：

获取至少两个播放设备之间的相对位置信息；

12.根据权利要求11所述的方法，其特征在于，所述方法应用于终端设备，所述方法还包括：

13.根据权利要求11或12所述的方法，其特征在于，所述方法应用于终端设备，所述方法还包括：

14.根据权利要求11-13任一项所述的方法，其特征在于，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离，所述根据所述至少两个播放设备之间的相对位置信息，获取用户相对于所述至少两个播放设备的位置信息，包括：

15.根据权利要求14所述的方法，其特征在于，所述基于旋转校正后的第一播放设备的麦克风阵列的坐标轴，根据所述第一播放设备和第二播放设备之间的距离，确定所述用户相对于所述第一播放设备的位置，包括：

16.根据权利要求11-15任一项所述的方法，其特征在于，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离，所述获取至少两个播放设备之间的相对位置信息，包括：

17.根据权利要求16所述的方法，其特征在于，所述根据所述第一时长和所述第二时长，确定所述第一播放设备和所述第二播放设备之间的距离，包括：

18.根据权利要求11-17任一项所述的方法，其特征在于，所述方法应用于终端设备，所述方法还包括：

19.一种多媒体信息的处理装置，其特征在于，包括：

20.根据权利要求19所述的装置，其特征在于，所述装置为终端设备，所述装置还包括：

21.根据权利要求19或20所述的装置，其特征在于，所述装置为终端设备，所述装置还包括发送单元；

22.根据权利要求19-21任一项所述的装置，其特征在于，所述第一处理单元，具体用于：

23.根据权利要求22所述的装置，其特征在于，所述第一处理单元，具体用于：

24.根据权利要求22或23所述的装置，其特征在于，所述第一处理单元，具体用于：

25.根据权利要求24所述的装置，其特征在于，所述第一处理单元，具体用于：

26.根据权利要求23所述的装置，其特征在于，所述装置为终端设备，所述同步消息包括同步请求和同步响应；所述装置还包括：接收单元；

27.根据权利要求23所述的装置，其特征在于，所述装置为终端设备，所述同步消息包括同步请求和同步响应；所述装置还包括：接收单元；

28.根据权利要求20所述的装置，其特征在于，所述多媒体信息包括音频信息；所述发送单元，还用于：

29.一种多媒体信息的处理装置，其特征在于，所述装置包括：

30.根据权利要求29所述的装置，其特征在于，所述装置为终端设备，所述装置还包括：发送单元；

31.根据权利要求29或30所述的装置，其特征在于，所述装置为终端设备，所述装置还包括：发送单元；

32.根据权利要求29-31任一项所述的装置，其特征在于，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离；所述第一处理单元，具体用于：

33.根据权利要求32所述的装置，其特征在于，所述第一处理单元，具体用于：

34.根据权利要求29-33任一项所述的装置，其特征在于，所述至少两个播放设备之间的相对位置信息包括所述第一播放设备和所述至少两个播放设备中的第二播放设备之间的距离；所述第一处理单元，具体用于：

35.根据权利要求34所述的装置，其特征在于，所述第一处理单元，具体用于：

36.根据权利要求29-35任一项所述的装置，其特征在于，所述装置为终端设备，所述装置还包括：发送单元；

37.一种多媒体信息的处理装置，其特征在于，包括：

处理器；

存储器；以及

计算机程序；

其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如权利要求1-18任一项所述的方法的指令。

38.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得多媒体信息的处理装置执行权利要求1-18任一项所述的方法。