CN110475159A

CN110475159A - 多媒体信息的传输方法及装置、终端

Info

Publication number: CN110475159A
Application number: CN201810444330.8A
Authority: CN
Inventors: 沈灿; 林亚; 李加周; 孙健
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2019-11-19
Also published as: EP3792731A4; EP3792731A1; WO2019214370A1

Abstract

本发明提供了一种多媒体信息的传输方法及装置、终端，其中，该方法包括：在第一设备中获取多媒体数据和描述信息，其中，描述信息用于描述第一设备在录制多媒体数据时的环境与所述多媒体数据；将多媒体数据和描述信息从第一设备传输至第二设备。通过本发明，解决了相关技术中在传输多媒体信息时不能传输描述信息的技术问题。

Description

多媒体信息的传输方法及装置、终端

技术领域

本发明涉及通信领域，具体而言，涉及一种多媒体信息的传输方法及装置、终端。

背景技术

随着网络带宽的不断发展，处理器的运算速度不断提高，传感器技术不断发展，虚拟现实(VR)技术开始得到应用，人们对视频通信的体验要求越来越高，除了呈现3D视频、3D音频外，还要获取与呈现环境、行为动作等相关的更多信息，要求能身临其境。

相关技术中，通过多摄像头采集及拼接技术形成全景视频，通过多麦克风采集多声道声音，终端通过渐进式下载后进行播放等技术，使得接收端能够看到各个视角的全景视频。相较于传统的视频通信方式，全景视频通信通过传输多个视角的视频画面，带来了更好的用户体验。但同时也存在以下问题：对于其他信息如行为动作、环境等，接收端也不能根据发生端的信息，同步呈现原始的声音画面及动作环境，直接影响了用户体验。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种多媒体信息的传输方法及装置、终端。

根据本发明的一个实施例，提供了一种多媒体信息的传输方法，包括：在第一设备中获取多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备。

根据本发明的一个实施例，提供了另一种多媒体信息的传输方法，包括：在第二设备上接收第一设备发送的多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；解析所述多媒体数据和所述描述信息分别得到第一内容和第二内容；在播放所述第一内容时，呈现所述第二内容。

根据本发明的另一个实施例，提供了一种多媒体信息的传输装置，包括：获取模块，用于在第一设备中获取多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；传输模块，用于将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备。

根据本发明的另一个实施例，提供了另一种多媒体信息的传输装置，包括：接收模块，用于在第二设备上接收第一设备发送的多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；解析模块，用于解析所述多媒体数据和所述描述信息分别得到第一内容和第二内容；输出模块，用于在播放所述第一内容时，呈现所述第二内容。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，在传输多媒体数据时，还将用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据的描述信息业传输给第二设备，从而第二设备可以在播放多媒体内容时，同时呈现描述信息相关的内容，解决了相关技术中在传输多媒体信息时不能传输描述信息的技术问题，实现了多媒体内容与环境的互相融合，实现通讯各方的体感交互，呈现身临其境的体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的网络构架图；

图2是根据本发明实施例的一种多媒体信息的传输的流程图；

图3是根据本发明实施例的一种多媒体信息的传输装置的结构框图；

图4是根据本发明实施例的另一种多媒体信息的传输装置的结构框图；

图5为本发明实例1的发送端示意图；

图6是本实施例在RTP协议打包描述信息的示意图；

图7是本实施例在描述信息内容封装结构示意图；

图8为本发明实例1的接收端示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例可以运行于图1所示的网络架构上，图1是本发明实施例的网络构架图，如图1所示，该网络架构包括：第一设备、第二设备，其中，第一设备和第二设备之间进行交互。

在本实施例中提供了一种运行于上述网络架构的多媒体信息的传输方法，图2是根据本发明实施例的一种多媒体信息的传输的流程图，如图2所示，该流程包括如下步骤：

步骤S202，在第一设备中获取多媒体数据和描述信息，其中，描述信息用于描述第一设备在录制多媒体数据时的环境与所述多媒体数据；

步骤S204，将多媒体数据和描述信息从第一设备传输至第二设备。

通过上述步骤，在传输多媒体数据时，还将用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据的描述信息业传输给第二设备，从而第二设备可以在播放多媒体内容时，同时呈现描述信息相关的内容，解决了相关技术中在传输多媒体信息时不能传输描述信息的技术问题，实现了多媒体内容与环境的互相融合，实现通讯各方的体感交互，呈现身临其境的体验。

可选地，上述步骤的执行主体可以为终端，如手机，虚拟现实(VR)终端等，但不限于此。

本实施例中的多媒体数据包括音频数据，视频数据等。

可选地，将多媒体数据和描述信息从第一设备传输至第二设备可以但不限于为以下方式：

在第一通道中传输多媒体数据至第二设备，在第二通道中传输描述信息至第二设备；第一通道可以是多媒体数据传输通道；

将多媒体数据和描述信息存储在第一文件，通过读取第一文件获得多媒体数据和描述信息，实现非实时传输至第二设备；第一文件是可选的，针对编码器、摄像机这类非实时应用可以存储成文件，实时通讯业务就不需要存储到文件，是为了实现录制功能，可以播放非实时的VR视频，播放时，读取该第一文件，再使用第一通道和第二通道传输所述多媒体数据与所述描述信息；

其中，第一通道、第二通道建立在第一设备与第二设备之间。

可选的，所述第二通道也可以合并到第一通道中传输，所述第二通道为第一通道中的一个隧道。

将所述多媒体数据实时传输给所述第二设备，以使得所述多媒体数据实时地显示在所述第二设备；实时将所述描述信息发送给所述第二设备；

将所述多媒体数据和所述描述信息实时传输给所述第二设备，以使得所述多媒体数据和所述描述信息实时地显示在所述第二设备。

可选地，在将多媒体数据和描述信息从第一设备传输至第二设备之前，还包括：对多媒体数据进行压缩编码，并打包成第一数据包，以及对描述信息打包成第二数据包。

可选地，本实施例的描述信息包括一个或多个，在此进行举例说明，描述信息包括：

时间戳，其中，时间戳用于描述多媒体数据的录制时间；

持续时间，其中，持续时间用于描述多媒体数据从初始时间到当前时间的持续时间；

坐标，其中，坐标用于描述多媒体数据的录制位置；

对象的标识信息，其中，对象的标识信息用于标识多媒体数据对应画面中的对象；对象可以是人物或景物等；

描述内容，其中，描述内容用于描述多媒体数据对应画面中的环境和/或分析多媒体数据获得的数据。具体的，描述内容包括以下至少之一：

语音识别音频数据后的文字内容、音频数据的语种、音频数据的语调、视频图像中对象的情感、视频图像中对象的身体特征、视频图像中对象的动作、视频图像中对象的力量、视频图像对应画面所处环境中的风力、视频图像对应画面中的风向、多媒体数据对应画面所处环境中的温度、视频图像对应画面所处环境中的味觉、视频图像对应画面所处环境中的味道、视频图像中对象的触觉，其中，多媒体数据包括视频数据和音频数据。

本实施例的方案可以应用在不同的场景，使用不同的传输协议，包括：使用实时传输协议(Real-time Transport Protocol，RTP)将多媒体数据和描述信息从第一设备传输至第二设备；使用会话初始协议(Session Initiation Protocol，SIP)将描述信息从第一设备传输至第二设备；使用实时流传输协议(Real Time Streaming Protocol，RTSP)将描述信息从第一设备传输至第二设备；使用自定义传输协议将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备。

可选的，在第一设备中获取多媒体数据和描述信息包括：

S11，通过多个传感器采集第一数据；多个传感器分别采集多媒体数据和描述信息的原始数据，多个传感器包括以下至少之一：运动传感器、环境传感器、激光雷达、毫米波雷达、香味传感器、传感手套；传感器(如摄像头，麦克风)可以设置在第一设备，也可以外接到第一设备，通过第一设备汇总处理；

S12，在第一设备中对第一数据进行分析处理，并提取出多媒体数据和描述信息。描述信息通过分析处理多种传感器采集到的原始数据后获得，如通过温度传感器获得与温度相关的描述信息，也可以分析处理音视频原始数据后获得，如分析视频画面中的人物表情获得与情感相关的描述信息等。

在本实施例中提供了另一种运行于上述网络架构的多媒体信息的传输方法，在接收端的第二设备上，如图2所示，该流程包括如下步骤：

步骤S302，在第二设备上接收第一设备发送的多媒体数据和描述信息，其中，描述信息用于描述第一设备在录制多媒体数据时的环境与所述多媒体数据；

步骤S304，解析多媒体数据和描述信息分别得到第一内容和第二内容；

步骤S306，在播放第一内容时，呈现第二内容。

可选的，在第二设备上接收第一设备发送的多媒体数据和描述信息包括以下之一：在第二设备的第一通道中接收第一设备发送的多媒体数据，在第二通道中接收第一设备发送的描述信息；其中，第一通道、第二通道建立在第一设备与第二设备之间。也可以通过读取第一文件获取多媒体数据与所述描述信息，再使用第一通道和第二通道传输所述多媒体数据与所述描述信息，实现非实时传输。

本实施例中，在播放第一内容时，呈现第二内容，包括：

在一个或多个第三设备上播放第一内容，在一个或多个第四设备上呈现第二内容。第一内容为多媒体内容，包括视频内容和音频内容等，可以通过显示屏或者喇叭来播放，第二内容通过对应的呈现终端来呈现或者模拟，如时间戳或者持续时间通过显示屏来显示，温度通过制冷设备或者制热设备来模拟呈现，味道通过释放特定的气味来呈现，力量通过驱动设备来呈现等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种多媒体信息的传输装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的一种多媒体信息的传输装置的结构框图，如图3所示，应用在第一设备，该装置包括：

获取模块30，用于在第一设备中获取多媒体数据和描述信息，其中，描述信息用于描述第一设备在录制多媒体数据时的环境与所述多媒体数据；

传输模块32，用于将多媒体数据和描述信息从第一设备传输至第二设备。

图4是根据本发明实施例的另一种多媒体信息的传输装置的结构框图，如图4所示，应用在第二设备，该装置包括：

接收模块40，用于在第二设备上接收第一设备发送的多媒体数据和描述信息，其中，描述信息用于描述第一设备在录制多媒体数据时的环境与所述多媒体数据；

解析模块42，用于解析多媒体数据和描述信息分别得到第一内容和第二内容；

输出模块44，用于在播放第一内容时，呈现第二内容。

本实施例还提供一种终端，组合了上述第一设备和第二设备所包括的功能模块，可以实现第一设备和第二设备的功能。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本实施例用于结合具体的实例对本申请的方案进行详细解释和说明，可以作为本申请的补充或者延伸。

本实施例提供的视频通信方法，可以带来沉浸式的体验，本发明提供了一种沉浸交互式的视频通信方法，该方法包括：

发生端对应于第一设备，把多种传感器、摄像头、麦克风采集到的原始数据进行分析处理，提取出描述信息并打包，对音视频原始数据进行压缩编码并打包，在描述通道传输描述信息，在媒体通道中传输音视频编码数据；接收端对应于第二设备，接收描述信息与音视频编码数据，解包后，解码音视频编码数据，分析处理描述数据，通过呈现单元，同步播放音视频、呈现动作与环境。

上述过程中，如不在媒体通道或描述通道中传输，可以把描述信息与音视频编码数据存储到文件中，接收端从文件中提取音视频编码数据与描述信息来进行呈现。

所述多种传感器包括：运动传感器、环境传感器、激光雷达、毫米波雷达等，所述摄像头可以是1个或多个摄像头组成的阵列，所述麦克风可以是1个或多个麦克风组成的阵列。

所述描述信息是分析处理多种传感器采集到的原始数据后获得的信息，及分析处理音视频原始数据后获得的信息，所述描述信息包括：时间戳、持续时间、坐标、对应人或物的编号、具体内容等，描述信息中的具体内容包括但不限于：语音识别后的文字内容、语种、语调、情感、身体特征、动作、力量、风力、风向、温度、味觉等。时间戳是指描述信息发生的时间，持续时间给出了描述信息的持续时间，坐标给出了在哪个位置采集到的描述信息，对应人或物的编号给出了描述信息产生的对象。由于音视频数据打包时也携带了时间戳，接收端根据描述信息时间戳与音视频时间戳实现描述信息与音视频的同步呈现，接收端可以根据描述信息，在与发送端的相同的坐标、时间、对象上呈现描述信息。

所述描述通道可以在RTP或SIP或RTSP传输协议中扩展，也可以是其他传输协议。

本发明还提供了一种沉浸交互式视频通信的系统和装置，包括：发送装置和接收装置；

发送装置包括下列处理步骤：

采集单元通过多种传感器、摄像头、麦克风采集原始数据；

描述信息生成单元对原始数据进行分析处理，提取出描述信息，编码单元对视频原始数据进行视频压缩编码、对音频原始数据进行音频压缩编码；

打包单元对描述信息进行打包，对视频编码数据、音频编码数据也分别打包；

发送单元在描述通道中传输描述信息，在媒体通道中传输视频编码数据、音频编码数据，如不在网络中传输，存储单元把描述信息与音视频编码数据存储到文件中。

采集单元：通过摄像头、麦克风与多种传感器采集原始数据，多种传感器包括：运动传感器、环境传感器、激光雷达、毫米波雷达等，所述摄像头可以是1个或多个摄像头组成的阵列，所述麦克风可以是1个或多个麦克风组成的阵列。

描述信息生成单元：从多种传感器采集原始数据及音视频原始数据中，提取出动作、环境及音视频描述信息，描述信息包括：时间戳、持续时间、坐标、对应人或物的编号、具体内容等，描述信息中的具体内容包括但不限于：语音识别后的文字内容、语种、语调、情感、身体特征、动作、力量、风力、风向、温度、味觉等。时间戳是指描述信息发生的时间，持续时间给出了描述信息的持续时间，坐标给出了在哪个位置采集到的描述信息，对应人或物的编号给出了描述信息产生的对象。

编码单元：对采集到的音频和视频原始数据进行压缩编码。

打包单元：打包编码后的音视频编码数据，形成音视频编码数据包，打包描述信息形成描述信息数据包。描述信息和音视频编码数据包分别按各自的格式进行打包封装，在实施例中提供了可能的打包格式，但音视频描述信息的具体打包格式本发明并不做限定。

发送单元：在描述通道中发送描述信息数据包，在媒体通道中发送音视频编码数据包。所述描述通道可以在RTP或SIP传输协议中扩展，也可以是单独建立的传输通道。

存储单元：存储音视频编码数据与描述信息到文件中。

接收装置包括下列处理步骤：

接收单元从描述通道与媒体通道中接收描述信息包与音视频编码数据包，或者从文件中读取描述信息与音视频编码数据；

解包单元拆开音帧编码数据包、视频编码数据包、描述信息包；

解码单元解码音频编码数据、视频编码数据获得音视频原始数据，描述信息处理单元处理描述信息，处理音视频原始数据；

呈现单元同步播放处理后的音视频原始数据，同步呈现动作与环境。

其中：

接收单元：从媒体通道接收音视频编码数据包，从描述通道接收描述信息数据包，所述描述通道可以在RTP或SIP传输协议中扩展，也可以是单独建立的传输通道。或者，从文件中读取音视频编码数据包与描述信息数据包。

解包单元：解析音视频编码数据包与描述信息数据包，得到语音编码数据、视频编码数据以及描述信息。所述描述信息包括：时间戳、持续时间、坐标、对应人或物的编号、具体内容等，描述信息中的具体内容包括但不限于：语音识别后的文字内容、语种、语调、情感、身体特征、动作、力量、风力、风向、温度、味觉等。

解码单元：解码语音编码数据和视频编码数据，得到可播放的音视频原始数据。

描述信息处理单元：根据描述信息对音视频描述信息进行分析处理，还原出音视频不同类型的描述信息。

呈现单元：根据音视频数据对应的时间戳，呈现音视频，根据描述信息时间戳呈现描述信息，实现描述信息与音视频的同步呈现，同时，根据描述信息的持续时间，控制呈现的时间长度，根据描述信息坐标与对象，在不同的位置与对象上呈现描述信息。

本实施例还包括以下实例：

前4个实例结合不同的应用场景分别给出了描述信息通过传输协议RTP、文件存储MP4、信令控制协议SIP、RTSP等不同方式进行实现的方法；第5个实例给出了一种提取描述信息的实现方法，第6个实例给出一种音视频和环境、动作行为同步呈现的实现方法。

实例1：直播场景

包括发送装置与接收装置，发送装置与接收装置先通过SIP协议或RTSP协议建立呼叫连接。

发送装置如图5所示，图5为本发明实例1的发送端示意图，步骤如下：

步骤1：通过运动和环境等传感器采集原始数据，传感器包括：手套、衣服、帽子、鞋子、温度、味觉、风力等。用摄像头阵列采集视频原始数据，用麦克风阵列采集音频原始数据。

步骤2：对步骤1采集的数据进行处理与分析，对视频进行拼接处理、消除噪声，识别视频中感兴趣对象，提取其特征等信息，处理语音原始数据，消除噪声、回声，提取语音的坐标、语音转化为文本、语调、语音的情感等，从运动与环境等传感器中，提取出动作、环境等描述信息，描述信息包括：时间戳、持续时间、坐标、对应人或物的编号、具体内容等，描述信息中的具体内容包括但不限于：语音识别后的文字内容、语种、语调、情感、身体特征、动作、力量、风力、风向、温度、味觉等。时间戳是指描述信息发生的时间，持续时间给出了描述信息的持续时间，坐标给出了在哪个位置采集到的描述信息，对应人或物的编号给出了描述信息产生的对象。对描述信息进行定义及分级量化，每个描述信息还包括：描述信息类型、描述信息编号、终止标志等，相同描述信息编号的描述信息第一次出现时，终止标志设为1，相同描述信息编号的描述信息最后一次出现时，终止标志设为0。

表1给出了描述信息内容名称、内容代码及说明，描述信息可以扩展以包括更多的内容。

表1

步骤3：对视频进行压缩编码，编码算法采用H.265，对音频进行压缩编码，编码算法采用AMR WB，得到编码后的音频编码和视频编码数据。

步骤4：对视频编码数据按照RFC 7798进行打包封装，对语音编码数据按照RFC4867进行打包封装。

对音视频描述信息进行RTP打包封装，RTP时间戳信息实现了描述信息和音视频流的同步呈现，每个RTP包中包含相同时间片所对应的描述信息，具体打包格式如图6所示，图6是本实施例在RTP协议打包描述信息的示意图，RTP包头各字段按照RFC 3550进行封装，描述信息包的时间戳字段分别和音视频媒体包的时钟频率保持一致，以便于接收端呈现时的同步处理。RTP负载中包含一个或多个描述信息，每个描述数据对应RTP负载头中的一个指示信息块：包括F指示位、描述信息长度，F指示位指示当前数据是否是最后一个描述信息，是则为1，否则为0，描述信息1的长度指示了第一个描述信息的长度，描述信息N的长度指示了第N个描述信息的长度，单位字节。

图7是本实施例在描述信息内容封装结构示意图，如图7所示，描述信息，可以包括多个内容，每个内容又可以包括：内容代码、G指示位、内容长度、内容值，内容代码参见表一，G指示位指示当前内容是否是最后一个内容信息，是则为1，否则为0，如果内容值太长，同一个描述信息可以拆分在多个RTP包中传输，G指示位设为0，下一个RTP包会继续传输同一个内容值，为1时，则后续没有相同内容的数据包。内容长度是指内容值的长度，单位字节。

此外，音视频描述信息流相应的RTP包头的PT值等信息可在SDP中进行描述。

步骤5：发送打包封装后的描述信息和音视频编码数据包。

接收端如图8所示，图8为本发明实例1的接收端示意图，包括以下步骤：

步骤1：分别从相应的端口接收网络数据包，得到描述信息包和音视频编码数据包。

步骤2：按照相应的格式解析包内容，得到描述信息和音视频编码数据。

步骤3：对音视频帧编码器数据进行解码，得到可播放的音视频数据。

步骤4，对描述信息进行分析处理，还原出不同类型的描述信息，以用于控制不同的外设进行呈现，例如味道信息用于控制味道生成装置合成指定的味道。对音视频进行分析处理，还原出不同视角的音视频数据。

步骤5，根据音视频数据对应的时间戳，同步播放音视频数据，根据描述信息时间戳呈现描述信息，实现描述信息与音视频的同步呈现，同时，根据描述信息的持续时间，控制呈现的时间长度，根据描述信息坐标与对象，在不同的位置与对象上，根据描述信息对外设进行控制，呈现其相应动作行为与环境，根据描述信息，可以在播放的视频中，插入不同语种的字幕、根据语音的方位切换视角等。

实例2：点播场景

包括编码器、流媒体服务器和播放器，步骤如下：

步骤1：编码器采集描述数据和音视频数据，并对它们进行分析处理、编码。详细步骤参考实例1的步骤1—步骤3。

步骤2：编码器将描述信息、音视频编码数据存入MP4文件。

对音视频数据分对建立Audio track、Video track，对描述信息建立Text track。

描述信息数据放在mdat box中，描述信息数据包括坐标、对应人或物的编号、持续时间、描述信息类型、描述信息编号、终止标志、具体内容。

描述信息的时间戳信息通过duration字段放在文件头中。

需要说明的是，这里提供了一种可实施的文件格式，服务器所存储的文件格式并不限于MP4文件。

步骤3：将MP4文件传输到流媒体服务器。

步骤4：播放器向流媒体服务器发送HTTP GET请求，下载MP4文件中的Moov原子，解析索引信息。

步骤5：播放器发送带Range字段的GET请求，指定播放某段特定位置的MP4文件。

步骤6：播放器通过索引信息读取mdat box中的音视频编码内容以及描述信息。对音视频帧进行解码及分析处理；对描述信息进行分析处理还原出不同类型的描述信息。

步骤7：播放器同步播放音视频数据，同时在MP4文件中索引到相同时戳的描述信息，实现描述信息与音视频的同步呈现，根据描述信息中的人或物的编号及坐标，将相应动作应用于指定对象上，同时，根据描述信息的持续时间，控制呈现的时间长度，根据描述信息坐标与对象，在不同的位置与对象上，根据描述信息对外设进行控制，呈现其相应动作行为与环境。

实例3：实时监控场景

包括摄像头、播放器，步骤如下：

步骤1：播放器和摄像头通过SIP信令建立连接。

步骤2：摄像头采集描述数据和音视频数据，并对它们进行分析处理、编码。详细步骤参考实例1的步骤1—步骤4。

步骤3：摄像头向播放器发送音视频数据的RTP包。

步骤4：摄像头将描述信息以文本形式放在SIP扩展的Message方法中，及时发送给播放器。例如：

CSeq:1MESSAGE

Content-Type:text/plain

Content-Length:200

描述信息文本内容

上述描述信息文本内容由描述信息坐标、对应人或物的编号、时间戳、持续时间、描述信息类型、描述信息编号、终止标志、具体内容组成。采用文本格式进行封装，具体是：名称代码代码：内容值。

步骤5：播放器接收音视频的RTP包，解析RTP包，对音视频帧进行解码及分析处理。

步骤6：播放器接收SIP的Message消息，解析出描述信息，并对其进行分析处理还原出不同类型的描述信息。

步骤7：播放器同步播放音视频数据，同时在步骤6中收到的描述信息中查找到相应时间戳的描述信息，实现描述信息与音视频的同步呈现，同时根据描述信息对外设传感器进行控制，呈现其相应动作行为。

实例4：实时交互通讯场景

包括终端A与终端B，终端A和终端B各包含一个发送模块和一个接收模块，首先通过SIP协议终端A与终端B之间建立起呼叫，交互式通讯步骤如下：

终端A的发送模块把多种传感器、摄像头、麦克风采集到的原始数据进行分析处理，提取出描述信息并打包，对音视频原始数据进行压缩编码并打包，在描述通道传输描述信息，在媒体通道中传输音视频编码数据；终端B的接收模块接收描述信息与音视频编码数据，解包后，解码音视频编码数据，分析处理描述数据，通过呈现单元，同步播放音视频，同步呈现动作与环境。

同时，终端B的发送模块把多种传感器、摄像头、麦克风采集到的原始数据进行分析处理，提取出描述信息并打包，对音视频原始数据进行压缩编码并打包，在描述通道传输描述信息，在媒体通道中传输音视频编码数据；终端B的接收模块接收描述信息与音视频编码数据，解包后，解码音视频编码数据，分析处理描述数据，通过呈现单元，同步播放音视频，同步呈现动作与环境。

当终端A中的用户通过手套与终端B中的用户进行握手时，终端A的发送模块采集到用户的握手动作幅度与力量等数据，通过描述通道传输给终端B的接收模块，接收模块通过终端B中的手套同步实时呈现握手动作，终端B的用户也做出同样的握手动作，终端B的发送模块采集到握手动作的数据后，通过描述通道传输给终端A的接收模块，接收模块通过终端A的手套同步实时呈现握手动作。从而实现了2个终端的实时互动，犹如面对面实时交流一样。

同时，终端A的发送模块采集到香水味道的浓度、坐标，通过描述通道传输给终端B的接收模块，接收模块通过终端B的味道显现装置呈现相同的味道及浓度，当终端A传输的味道描述信息的终止标志为0时，味道呈现结束。

实例5：

提供一种双向实时视频通讯中提取并生成描述信息的实现方法。

步骤1：提取各种外设传感器采集到的数据，按时间记录相关信息。例如，时间戳1：传感手套：握手动作幅度、力度、持续时间、对应人的编号、坐标；时间戳2：香味传感器：味道浓度、香型、持续时间、坐标等。

步骤2：对视频内容进行分析，提取感兴趣信息，并按时间记录。例如，时间戳1：对应人的编号、坐标、表情情绪、持续时间等。时间戳2：对应人或物的编号、坐标、动作行为(如闯过警戒线等)。

步骤3：对音频内容进行语音识别，提取感兴趣信息，并按时间记录。例如，时间戳1：对应人的编号、坐标、语调、语种、翻译后的语音内容等。

步骤4：对上述步骤1--3中所有记录的信息按时间进行分析合并。

步骤5：对分析合并后的信息按描述信息规定的格式进行统一定义，例如：时间戳、描述信息编号、描述信息类型、坐标、对应人或物的编号、持续时间、终止标志、具体内容。

实例6：

提供一种描述信息和音视频内容同步呈现的方法。

步骤1：选取参考轨作为同步处理的对齐基准。当选择某一媒体轨作为参考时，其他媒体轨或描述信息的播放速度会受到参考轨的影响而进行调整(快播或慢播)。结合人的视觉和听觉特性，在音视频的播放过程中，人们对于语音帧的变速播放更加敏感，而对于视频帧或描述信息在展示时间上的微小变化不易察觉，因此选择语音作为参考。

步骤2：起始点对齐。根据第一帧语音的绝对播放时间，如NTP时间，以及第一帧语音的时间戳，计算出与之对齐的视频帧的时间戳和描述信息的时间戳。

步骤3：同步播放音视频帧，并对相应相间戳的描述信息进行分析处理。根据描述信息的持续时间，控制呈现的时间长度，并且根据描述信息坐标与对象，在不同的位置与对象上，根据描述信息对外设进行控制，呈现其相应动作行为与环境，例如通过传感手套呈现握手的幅度与力度，通过香味发生装置在描述信息所指示的时间段内产生相应香型和浓度的香味等。

综上所述，通过本发明实施例，实现了沉浸交互式视频通讯，提高了用户的体验。

通过本实施例的方案，在视频通信中可以更好地实现沉浸式视频体验，呈现音视频的同时，也能完整地同步呈现动作与环境，实现音频、视频与环境的互相融合，实现通讯各方的体感交互，呈现身临其境的体验。同时，支持两方或多方实时通讯的同时，也支持内容存储后进行分发，支持各种视频业务。

实施例4

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，在第一设备中获取多媒体数据和描述信息，其中，描述信息用于描述第一设备在录制多媒体数据时的环境与所述多媒体数据；

S2，将多媒体数据和描述信息从第一设备传输至第二设备。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S2，将多媒体数据和描述信息从第一设备传输至第二设备。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体信息的传输方法，其特征在于，包括：

在第一设备中获取多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；

将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备。

2.根据权利要求1所述的方法，其特征在于，所述将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备包括以下之一：

在第一通道中传输所述多媒体数据至所述第二设备，在第二通道中传输所述描述信息至所述第二设备；

其中，所述第一通道、所述第二通道建立在所述第一设备与所述第二设备之间。

3.根据权利要求2所述的方法，其特征在于，所述第二通道是独立通道或为第一通道中的一个隧道。

4.根据权利要求1所述的方法，其特征在于，所述将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备包括以下之一：

5.根据权利要求1所述的方法，其特征在于，在将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备之前，所述方法还包括：

对所述多媒体数据进行压缩编码，并打包成第一数据包，以及对所述描述信息打包成第二数据包。

6.根据权利要求1所述的方法，其特征在于，所述描述信息包括以下至少之一：

时间戳，其中，所述时间戳用于描述所述多媒体数据的录制时间；

持续时间，其中，所述持续时间用于描述所述多媒体数据从初始时间到当前时间的持续时间；

坐标，其中，所述坐标用于描述所述多媒体数据的录制位置；

对象的标识信息，其中，对象的标识信息用于标识所述多媒体数据对应画面中的对象；

描述内容，其中，所述描述内容用于描述所述多媒体数据对应画面中的环境和/或分析所述多媒体数据获得的信息。

7.根据权利要求6所述的方法，其特征在于，所述描述内容包括以下至少之一：

语音识别音频数据后的文字内容、音频数据的语种、音频数据的语调、视频图像中对象的情感、视频图像中对象的身体特征、视频图像中对象的动作、视频图像中对象的力量、视频图像对应画面所处环境中的风力、视频图像对应画面中的风向、所述多媒体数据对应画面所处环境中的温度、视频图像对应画面所处环境中的味觉、视频图像对应画面所处环境中的味道、视频图像中对象的触觉，其中，所述多媒体数据包括视频数据和音频数据。

8.根据权利要求1所述的方法，其特征在于，将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备包括以下之一：

使用实时传输协议RTP将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备；

使用会话初始协议SIP将所述描述信息从所述第一设备传输至第二设备；

使用实时流传输协议RTSP将所述描述信息从所述第一设备传输至第二设备；

使用自定义传输协议将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备。

9.根据权利要求1所述的方法，其特征在于，在第一设备中获取多媒体数据和描述信息包括：

通过多个传感器采集第一数据；

在第一设备中对所述第一数据进行分析处理，并提取出所述多媒体数据和所述描述信息。

10.根据权利要求9所述的方法，其特征在于，所述多个传感器包括以下至少之一：运动传感器、环境传感器、激光雷达、毫米波雷达、香味传感器、传感手套。

11.一种多媒体信息的传输方法，其特征在于，包括：

在第二设备上接收第一设备发送的多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；

解析所述多媒体数据和所述描述信息分别得到第一内容和第二内容；

在播放所述第一内容时，呈现所述第二内容。

12.根据权利要求11所述的方法，其特征在于，在第二设备上接收第一设备发送的多媒体数据和描述信息包括以下之一：

在所述第二设备的第一通道中接收第一设备发送的所述多媒体数据，在第二通道中接收第一设备发送的所述描述信息；

13.根据权利要求11所述的方法，其特征在于，在播放所述第一内容时，呈现所述第二内容，包括：

在一个或多个第三设备上播放所述第一内容，在一个或多个第四设备上呈现所述第二内容。

14.一种多媒体信息的传输装置，其特征在于，包括：

获取模块，用于在第一设备中获取多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；

传输模块，用于将所述多媒体数据和所述描述信息从所述第一设备传输至第二设备。

15.一种多媒体信息的传输装置，其特征在于，包括：

接收模块，用于在第二设备上接收第一设备发送的多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；

解析模块，用于解析所述多媒体数据和所述描述信息分别得到第一内容和第二内容；

输出模块，用于在播放所述第一内容时，呈现所述第二内容。

16.一种终端，其特征在于，包括第一设备和第二设备，其中

所述第一设备包括：

获取模块，用于获取多媒体数据和描述信息，其中，所述描述信息用于描述所述第一设备在录制所述多媒体数据时的环境与所述多媒体数据；

传输模块，用于将所述多媒体数据和所述描述信息从所述第一设备传输至所述第二设备；

所述第二设备包括：

接收模块，用于接收所述第一设备发送的多媒体数据和描述信息；

17.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至13任一项中所述的方法。

18.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至13任一项中所述的方法。