CN106603840A

CN106603840A - 基于移动终端的音频数据处理方法及装置

Info

Publication number: CN106603840A
Application number: CN201611119563.8A
Authority: CN
Inventors: 车继红
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2017-04-26

Abstract

本发明提供了一种基于移动终端的音频数据处理方法及装置。该方法包括：获取待处理的第一音频数据；确定所述第一音频数据中即将加载多媒体数据的音频帧的位置，并获取所述多媒体数据的标识信息；基于所述音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理，得到处理后的第二音频数据，并发送。本发明实施例提供的技术方案，可以在第一音频数据中添加与其相关的多媒体数据，多媒体数据可以包括文字、图片、视频等与第一音频数据相关的内容，添加的多媒体数据可以丰富第一音频数据的内容，使得第一音频数据的表达更加准确，并为第一音频数据的表达增添更丰富的形式和内涵。

Description

基于移动终端的音频数据处理方法及装置

技术领域

本发明涉及互联网应用技术领域，特别是一种基于移动终端的音频数据处理方法及装置。

背景技术

随着互联网和移动终端技术的快速发展，用户的需求也不断地提高。在移动终端上录制音频数据，然后发送给好友或家人等成为一种常见的需求。

在实际应用中，用户可能会针对一个事件(如工作、旅游等)向好友或家人发送音频数据，实现与好友或家人之间的交流与沟通。然而，发明人发现音频数据的内容表现形式单一，包含的信息量少，有时候满足不了用户之间交互性交流与沟通的需求。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于移动终端的音频数据处理方法及相应的装置。

依据本发明的一方面，提供了一种基于移动终端的音频数据处理方法，包括：

获取待处理的第一音频数据；

确定所述第一音频数据中即将加载多媒体数据的音频帧的位置，并获取所述多媒体数据的标识信息；

基于所述音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理，得到处理后的第二音频数据，并发送。

可选地，所述获取待处理的第一音频数据，包括：

开启所述移动终端的录音功能，并利用所述录音功能进行声音的录制；

将利用所述录音功能录制得到的音频数据作为待处理的第一音频数据。

可选地，确定所述第一音频数据中即将加载多媒体数据的音频帧的位置，包括：

在利用所述录音功能进行声音的录制过程中，接收用户通过所述移动终端的触摸屏输入的针对所述录音功能的手势操作；

根据所述手势操作确定所述第一音频数据中即将加载多媒体数据的音频帧的位置。

可选地，当所述录音功能被开启时，所述录音功能的界面上提供标记入口；

接收用户通过所述移动终端的触摸屏输入的针对所述录音功能的手势操作，包括：接收用户通过所述移动终端的触摸屏输入的针对所述标记入口的触发操作；

根据所述手势操作确定所述第一音频数据中即将加载多媒体数据的音频帧的位置，包括：将所述触发操作对应的音频帧的位置作为所述第一音频数据中即将加载多媒体数据的音频帧的位置。

可选地，所述多媒体数据位于所述移动终端的本地；

获取所述多媒体数据的标识信息，包括：

从所述移动终端的本地获取所述多媒体数据，并将所述多媒体数据上传至云服务器，由所述云服务器分配所述多媒体数据的标识信息；

接收所述云服务器返回的所述多媒体数据的标识信息。

可选地，所述多媒体数据位于云服务器；

获取所述多媒体数据的标识信息，包括：

从所述云服务器处获取所述多媒体数据的标识信息。

可选地，所述多媒体数据的标识信息包括所述多媒体数据在所述云服务器处的下载地址。

可选地，基于所述音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理，得到处理后的第二音频数据，包括：

在所述第一音频数据中增加指定字段；

将所述音频帧的位置以及所述多媒体数据的标识信息写入增加的所述指定字段中，得到处理后的第二音频数据。

可选地，当所述第一音频数据对应多个用户时，所述多媒体数据来自所述多个用户中的一个或多个，所述多媒体数据的标识信息还包括对应的用户的标识信息。

依据本发明的另一方面，还提供了一种基于移动终端的音频数据处理方法，包括：

接收来自发送端的处理后的第二音频数据，所述第二音频数据是基于待处理的第一音频数据中即将加载多媒体数据的音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理得到；

对所述第二音频数据进行解析，得到所述音频帧的位置以及所述多媒体数据的标识信息；

根据所述多媒体数据的标识信息获取所述多媒体数据；

播放所述第二音频数据，并在播放所述第二音频数据的过程中，在所述音频帧的位置处加载并显示所述多媒体数据。

可选地，对所述第二音频数据进行解析，得到所述音频帧的位置以及所述多媒体数据的标识信息，包括：

对所述第二音频数据进行解析，得到所述第二音频数据中的指定字段；

从所述指定字段中提取所述音频帧的位置以及所述多媒体数据的标识信息。

可选地，对所述第二音频数据进行解析，包括：

当接收到播放所述第二音频数据的播放指令时，调取本端操作系统中的音频解析接口；

利用所述音频解析接口对所述第二音频数据进行解析。

可选地，对所述第二音频数据进行解析，包括：

当接收到播放所述第二音频数据的播放指令时，调取接收所述第二音频数据的应用程序中的音频解析接口；

利用所述音频解析接口对所述第二音频数据进行解析。

可选地，所述多媒体数据的标识信息包括所述多媒体数据在云服务器处的下载地址；

根据所述多媒体数据的标识信息获取所述多媒体数据，包括：

根据所述多媒体数据在云服务器处的下载地址，从所述云服务器处下载所述多媒体数据。

可选地，所述多媒体数据的标识信息还包括对应的用户的标识信息；

在播放所述第二音频数据的过程中，在所述音频帧的位置处加载并显示所述多媒体数据，包括：

在播放所述第二音频数据的过程中，在所述音频帧的位置处加载并显示所述多媒体数据以及对应的用户的标识信息。

依据本发明的又一方面，还提供了一种基于移动终端的音频数据处理装置，包括：

第一获取模块，适于获取待处理的第一音频数据；

确定模块，适于确定所述第一音频数据中即将加载多媒体数据的音频帧的位置；

第二获取模块，适于获取所述多媒体数据的标识信息；

处理模块，适于基于所述音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理，得到处理后的第二音频数据；

发送模块，适于发送所述处理后的第二音频数据。

可选地，所述第一获取模块还适于：

可选地，所述确定模块还适于：

所述确定模块还适于：

在利用所述录音功能进行声音的录制过程中，接收用户通过所述移动终端的触摸屏输入的针对所述标记入口的触发操作；

将所述触发操作对应的音频帧的位置作为所述第一音频数据中即将加载多媒体数据的音频帧的位置。

可选地，所述多媒体数据位于所述移动终端的本地；

所述第二获取模块还适于：

接收所述云服务器返回的所述多媒体数据的标识信息。

可选地，所述多媒体数据位于云服务器；

所述第二获取模块还适于：

从所述云服务器处获取所述多媒体数据的标识信息。

可选地，所述处理模块还适于：

在所述第一音频数据中增加指定字段；

接收模块，适于接收来自发送端的处理后的第二音频数据，所述第二音频数据基于待处理的第一音频数据中即将加载多媒体数据的音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理得到；

解析模块，适于对所述第二音频数据进行解析，得到所述音频帧的位置以及所述多媒体数据的标识信息；

第三获取模块，适于根据所述多媒体数据的标识信息获取所述多媒体数据；

播放模块，适于播放所述第二音频数据，并在播放所述第二音频数据的过程中，在所述音频帧的位置处加载并显示所述多媒体数据。

可选地，所述解析模块还适于：

利用所述音频解析接口对所述第二音频数据进行解析。

可选地，所述解析模块还适于：

利用所述音频解析接口对所述第二音频数据进行解析。

所述第三获取模块还适于：

所述播放模块还适于：

本发明实施例提供的技术方案，可以在第一音频数据中添加与其相关的多媒体数据，多媒体数据可以包括文字、图片、视频等与第一音频数据相关的内容，添加的多媒体数据可以丰富第一音频数据的内容，使得第一音频数据的表达更加准确，并为第一音频数据的表达增添更丰富的形式和内涵。进一步地，本发明实施例可以确定在第一音频数据中即将加载多媒体数据的音频帧的位置以及多媒体数据的标识信息，从而基于音频帧的位置以及多媒体数据的标识信息，实现灵活地在第一音频数据中添加多媒体数据的目的。并且，本发明实施例利用多媒体数据的标识信息替代多媒体数据本身，在后续的存储或传输过程中能够节约资源，提高数据处理的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一实施例的基于移动终端的音频数据处理方法的流程图；

图2示出了根据本发明另一实施例的基于移动终端的音频数据处理方法的流程图；

图3示出了根据本发明又一实施例的基于移动终端的音频数据处理方法的流程图；

图4示出了根据本发明一实施例的在录音功能的界面上添加多媒体数据的示意图；

图5示出了根据本发明一实施例的基于移动终端的音频数据处理装置的结构示意图；以及

图6示出了根据本发明另一实施例的基于移动终端的音频数据处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决上述技术问题，本发明实施例提供了一种基于移动终端的音频数据处理方法，该移动终端可以是智能手机、平板电脑、智能手表等。图1示出了根据本发明一实施例的基于移动终端的音频数据处理方法的流程图。如图1所示，该方法至少可以包括以下步骤S102至步骤S106。

步骤S102，获取待处理的第一音频数据。

步骤S104，确定第一音频数据中即将加载多媒体数据的音频帧的位置，并获取多媒体数据的标识信息。

步骤S106，基于音频帧的位置以及多媒体数据的标识信息，对第一音频数据进行处理，得到处理后的第二音频数据，并发送。

上文步骤S102中待处理的第一音频数据可以通过多种方式来获取，如通过移动终端的录音功能来采集，或者获取来自外部(如服务器或其他终端等)的第一音频数据，等等，下面将进行详细介绍。

方式一，通过移动终端的录音功能来采集。

在该方式中，可以开启移动终端的录音功能，并利用录音功能进行声音的录制，将利用录音功能录制得到的音频数据作为待处理的第一音频数据。在具体实现上，可以调起移动终端上的录音app(application，应用)，从而开启移动终端的录音功能；也可以获取移动终端的操作系统中的录音功能的接口，调用该接口来开启移动终端的录音功能。

进一步地，在利用上述录音功能进行声音的录制过程中，可以接收用户通过移动终端的触摸屏输入的针对录音功能的手势操作，进而根据手势操作确定第一音频数据中即将加载多媒体数据的音频帧的位置。

例如，当录音功能被开启时，可以在移动终端的显示界面上呈现录音功能的界面，并且在录音功能进行声音的录制过程中可以呈现录制画面，这样可以接收用户通过移动终端的触摸屏输入的针对录制画面的手势操作，确定该手势操作对应的录制点作为第一音频数据中即将加载多媒体数据的音频帧的位置。这里的手势操作可以是多个，这样可以针对多个手势操作确定多个录制点，进而确定多个即将加载多媒体数据的音频帧的位置。

又例如，当录音功能被开启时，可以在移动终端的显示界面上呈现录音功能的界面，并且在录音功能的界面上提供标记入口，这样可以接收用户通过移动终端的触摸屏输入的针对标记入口的触发操作，将该触发操作对应的音频帧的位置作为第一音频数据中即将加载多媒体数据的音频帧的位置。这里的标记入口可以设计为功能按键的形式，功能按键可以为圆形、椭圆形、三角形、箭头等，本发明不限于此。并且，用户可以针对标记入口进行多次触发操作，每次触发操作对应的音频帧的位置可以作为第一音频数据中即将加载多媒体数据的音频帧的位置。

方式二，从移动终端的本地获取。

在该方式中，可以从移动终端的录音功能的音频文件存储位置处获取待处理的第一音频数据。进一步地，在获取到待处理的第一音频数据后，可以对第一音频数据进行编辑处理，确定第一音频数据中即将加载多媒体数据的音频帧的位置。

方式三，从服务器或其他终端等处获取。

在该方式中，也可以向服务器或其他终端发送获取音频数据的获取请求，进而接收服务器或其他终端根据该获取请求返回的音频数据作为待处理的第一音频数据。

以上介绍了通过方式一、方式二或方式三来获取待处理的第一音频数据，在实际应用中，也可以采用组合的方式来获取待处理的第一音频数据，例如，可以通过移动终端的录音功能来采集音频数据以及从移动终端的本地获取音频数据，进而将通过这两种方式获取到的音频数据进行组合得到待处理的第一音频数据，等等，本发明不限于此。

在本发明的可选实施例中，在第一音频数据中即将加载的多媒体数据可以是图片、视频或文字等，本发明不限于此。当多媒体数据为图片和/或视频时，可以调起移动终端的摄像装置，利用摄像装置直接拍摄生成图片和/或视频，作为多媒体数据，这里的摄像装置可以是移动终端的前置摄像头、后置摄像头或其他摄像设备等，本发明对此不作限制。在可选的实施例中，多媒体数据除了可以是即时获取的图片和/或视频，也可以是从本地的存储位置直接获取的图片和/或视频。当多媒体数据为文字时，可以接收来自用户的输入操作，进而获取输入操作对应的文字，作为多媒体数据。

当多媒体数据位于移动终端的本地时，上文步骤S104中获取多媒体数据的标识信息，本发明实施例提供了一种可选的方案，即，可以从移动终端的本地获取多媒体数据，并将多媒体数据上传至云服务器，由云服务器分配多媒体数据的标识信息，进而接收云服务器返回的多媒体数据的标识信息。这里的多媒体数据的标识信息可以包括多媒体数据在云服务器处的下载地址，可以通过该下载地址从云服务器处获取到相应的多媒体数据。

当多媒体数据位于云服务器处时，上文步骤S104中获取多媒体数据的标识信息，本发明实施例提供了一种可选的方案，即，可以从云服务器处获取多媒体数据的标识信息。这里的多媒体数据的标识信息可以包括多媒体数据在云服务器处的下载地址，可以通过该下载地址从云服务器处获取到相应的多媒体数据。

在本发明的可选实施例中，当多媒体数据为图片和/或视频时，多媒体数据的标识信息还可以包括图片和/或视频的缩略图，这样，第二音频数据的接收端或接收方可以在还没有下载到相应的图片和/或视频之前，能够将图片和/或视频的缩略图向用户展示，可以提高内容展示的流畅性，提升用户体验。

在本发明的可选实施例中，当第一音频数据对应多个用户时，多媒体数据可以来自多个用户中的一个或多个，那么多媒体数据的标识信息还可以包括对应的用户的标识信息。这里，用户的标识信息可以包括用户的姓名、昵称、电话号码、邮箱地址、公司名称等等。例如，第一音频数据是小张、小王、小李针对某产品进行讨论的音频数据，为了更好地表达该第一音频数据，可以在第一音频数据中加载小张、小王、小李的姓名(即，多媒体数据的标识信息中还包括了小张、小王、小李的姓名)，从而可以区分第一音频数据中哪段音频数据是小张的，哪段音频数据是小王的，以及哪段音频数据是小李的。

在本发明的可选实施例中，若多媒体数据包括第一音频数据进行语音到文字的识别后生成的图片和/或文字，则上文步骤S104中确定第一音频数据中即将加载多媒体数据的音频帧的位置，本发明实施例提供了一种可选的方案，在该方案中，可以将识别第一音频数据的结束音频帧的位置作为即将加载生成的图片和/或文字的音频帧的位置。

在本发明的可选实施例中，上文步骤S106中基于音频帧的位置以及多媒体数据的标识信息对第一音频数据进行处理，得到处理后的第二音频数据，可以实施为在第一音频数据中增加指定字段，将音频帧的位置以及多媒体数据的标识信息写入增加的指定字段中，得到处理后的第二音频数据。

下面从接收第二音频数据的接收端一侧来介绍音频数据处理方法，该方法可以应用在智能手机、平板电脑、智能手表等移动终端。图2示出了根据本发明另一实施例的基于移动终端的音频数据处理方法的流程图。如图2所示，该方法至少可以包括以下步骤S202至步骤S208。

步骤S202，接收来自发送端的处理后的第二音频数据，第二音频数据是基于待处理的第一音频数据中即将加载多媒体数据的音频帧的位置以及多媒体数据的标识信息，对第一音频数据进行处理得到。

步骤S204，对第二音频数据进行解析，得到音频帧的位置以及多媒体数据的标识信息。

步骤S206，根据多媒体数据的标识信息获取多媒体数据。

步骤S208，播放第二音频数据，并在播放第二音频数据的过程中，在音频帧的位置处加载并显示多媒体数据。

本发明实施例中，在接收端一侧对来自发送端的对第一音频数据进行处理得到的第二音频数据进行解析，得到音频帧的位置以及多媒体数据的标识信息，随后根据多媒体数据的标识信息来获取多媒体数据，进而在播放第二音频数据的过程中，在音频帧的位置处加载并显示多媒体数据。这里的多媒体数据可以包括文字、图片、视频等与第一音频数据相关的内容，添加的多媒体数据可以丰富第一音频数据的内容，使得第一音频数据的表达更加准确，并为第一音频数据的表达增添更丰富的形式和内涵。

上文步骤S204中对第二音频数据进行解析，可以从中得到第二音频数据中的指定字段，进而从指定字段中提取音频帧的位置以及多媒体数据的标识信息。进一步地，本发明实施例可以从应用层级或系统层级来实现对第二音频数据进行解析，下面将分别进行详细介绍。

首先介绍从应用层级来实现的方案。在该方案中，当接收到播放第二音频数据的播放指令时，调取接收第二音频数据的应用程序中的音频解析接口，进而利用音频解析接口对第二音频数据进行解析。

其次介绍从系统层级来实现的方案。在该方案中，当接收到播放第二音频数据的播放指令时，调取本端操作系统中的音频解析接口，进而利用音频解析接口对第二音频数据进行解析。

在本发明的可选实施例中，多媒体数据的标识信息可以包括多媒体数据在云服务器处的下载地址，这样，步骤S206中根据多媒体数据的标识信息获取多媒体数据可以实施为根据多媒体数据在云服务器处的下载地址，从云服务器处下载多媒体数据。

在本发明的可选实施例中，多媒体数据可以是图片、视频或文字等，本发明不限于此。进一步地，多媒体数据的标识信息还可以包括图片和/或视频的缩略图，这样，接收端可以在还没有下载到相应的图片和/或视频之前，能够将图片和/或视频的缩略图向用户展示，可以提高内容展示的流畅性，提升用户体验。

在本发明的可选实施例中，多媒体数据的标识信息还可以包括对应的用户的标识信息，如用户的姓名、昵称、电话号码、邮箱地址、公司名称等等。这样，在步骤S208在播放第二音频数据的过程中，除了可以在音频帧的位置处加载并显示多媒体数据，还可以在音频帧的位置处加载并显示对应的用户的标识信息，这样可以区分不同用户的音频数据。

以上介绍了图1和图2所示的实施例的各个环节的多种实现方式，下面通过一具体场景下的实施例来详细介绍本发明的基于移动终端的音频数据处理方法的实现过程。该具体实施例结合第一移动终端(发送端)和第二移动终端(接收端)来进行介绍，图3示出了根据本发明又一实施例的基于移动终端的音频数据处理方法的流程图。如图3所示，该方法至少可以包括以下步骤S302至步骤S320。

步骤S302，第一移动终端调起移动终端上的录音app，开启移动终端的录音功能。

在该步骤中，可以由用户触发来调起移动终端上的录音app，由录音app来执行后续的操作；也可以由第一移动终端上的音频数据处理的app来调起移动终端上的录音app，并执行后续的操作；还可以是由第一移动终端上具备本发明实施例提供的音频数据处理功能的任意app(如常见的即时通讯app等)来调起移动终端上的录音app，并执行后续的操作。

步骤S304，第一移动终端利用录音功能进行声音的录制，将利用录音功能录制得到的音频数据作为待处理的第一音频数据。

步骤S306，第一移动终端在利用上述录音功能进行声音的录制过程中，接收用户通过移动终端的触摸屏输入的针对录音功能的手势操作，进而根据手势操作确定第一音频数据中即将加载多媒体数据的音频帧的位置。

在该步骤中，当录音功能被开启时，可以在移动终端的显示界面上呈现录音功能的界面，并且在录音功能的界面上提供标记入口，这样可以接收用户通过移动终端的触摸屏输入的针对标记入口的触发操作，将该触发操作对应的音频帧的位置作为第一音频数据中即将加载多媒体数据的音频帧的位置。这里的标记入口可以设计为功能按键的形式，功能按键可以为圆形、椭圆形、三角形、箭头等，本发明不限于此。

如图4所示的录音功能的界面，在录音功能的界面上提供标记入口“标记”，用户通过移动终端的触摸屏输入针对标记入口的触发操作，得到该触发操作对应的音频帧的位置“标记1”，可以分别在“记录1”、“记录图片2”以及“记录视频3”处为“标记1”添加多媒体数据，分别是文字、图片和视频。这里，在添加文字时，可以接收来自用户的输入操作，进而获取输入操作对应的文字；在添加图片和/或视频时，可以调起移动终端的摄像装置，利用摄像装置直接拍摄生成图片和/或视频，这里的摄像装置可以是移动终端的前置摄像头、后置摄像头或其他摄像设备等，本发明对此不作限制。

进一步地，用户可以针对上述标记入口进行多次触发操作，每次触发操作对应的音频帧的位置可以作为第一音频数据中即将加载多媒体数据的音频帧的位置，并且可以在各个音频帧的位置添加多媒体数据，具体可以参考图4所示的入口进行添加。需要说明的是，图4所示仅是示意性的，并不对本发明进行限制。

步骤S308，第一移动终端获取多媒体数据的标识信息。

在该步骤中，若多媒体数据位于移动终端的本地，则可以将多媒体数据上传至云服务器，由云服务器分配多媒体数据的标识信息，进而接收云服务器返回的多媒体数据的标识信息。若多媒体数据位于云服务器处，则可以从云服务器处获取多媒体数据的标识信息。这里的多媒体数据的标识信息可以包括多媒体数据在云服务器处的下载地址，可以通过该下载地址从云服务器处获取到相应的多媒体数据。

在本发明的可选实施例中，当多媒体数据为图片和/或视频时，多媒体数据的标识信息还可以包括图片和/或视频的缩略图，这样，第二音频数据的接收端可以在还没有下载到相应的图片和/或视频之前，能够将图片和/或视频的缩略图向用户展示，可以提高内容展示的流畅性，提升用户体验。

步骤S310，第一移动终端在第一音频数据中增加指定字段，将音频帧的位置以及多媒体数据的标识信息写入增加的指定字段中，得到处理后的第二音频数据。

步骤S312，第一移动终端将处理后的第二音频数据发送给第二移动终端。

步骤S314，第二移动终端接收来自第一移动终端的第二音频数据。

在该步骤中，可以第二移动终端上的录音app来接收第二音频数据；也可以由第二移动终端上的音频数据处理的app来接收第二音频数据，并执行后续的操作；还可以是由第二移动终端上具备本发明实施例提供的音频数据处理功能的任意app(如常见的即时通讯app等)来接收第二音频数据，并执行后续的操作。

步骤S316，第二移动终端对第二音频数据进行解析，得到音频帧的位置以及多媒体数据的标识信息。

在该步骤中，对第二音频数据进行解析，可以从中得到第二音频数据中的指定字段，进而从指定字段中提取音频帧的位置以及多媒体数据的标识信息。进一步地，本发明实施例可以从应用层级或系统层级来实现对第二音频数据进行解析，若从应用层级来实现，则当接收到播放第二音频数据的播放指令时，调取接收第二音频数据的应用程序中的音频解析接口，进而利用音频解析接口对第二音频数据进行解析；若从系统层级来实现，则当接收到播放第二音频数据的播放指令时，调取本端操作系统中的音频解析接口，进而利用音频解析接口对第二音频数据进行解析。

步骤S318，第二移动终端根据多媒体数据的标识信息获取多媒体数据。

在该步骤中，可以根据多媒体数据在云服务器处的下载地址，从云服务器处下载多媒体数据。

步骤S320，第二移动终端播放第二音频数据，并在播放第二音频数据的过程中，在音频帧的位置处加载并显示多媒体数据。

在该步骤中，多媒体数据可以是图片、视频或文字等，本发明不限于此。进一步地，多媒体数据的标识信息还可以包括图片和/或视频的缩略图，这样，接收端可以在还没有下载到相应的图片和/或视频之前，能够将图片和/或视频的缩略图向用户展示，可以提高内容展示的流畅性，提升用户体验。

在本发明的可选实施例中，多媒体数据的标识信息还可以包括对应的用户的标识信息，如用户的姓名、昵称、电话号码、邮箱地址、公司名称等等。这样，在步骤S320在播放第二音频数据的过程中，除了可以在音频帧的位置处加载并显示多媒体数据，还可以在音频帧的位置处加载并显示对应的用户的标识信息，这样可以区分不同用户的音频数据。

需要说明的是，实际应用中，上述所有可选实施方式可以采用结合的方式任意组合，形成本发明的可选实施例，在此不再一一赘述。

基于上文各个实施例提供的基于移动终端的音频数据处理方法，基于同一发明构思，本发明实施例还提供了一种基于移动终端的音频数据处理装置。

图5示出了根据本发明一实施例的基于移动终端的音频数据处理装置的结构示意图。如图5所示，该装置500至少可以包括第一获取模块510、确定模块520、第二获取模块530、处理模块540以及发送模块550。

现介绍本发明实施例的基于移动终端的音频数据处理装置500的各组成或器件的功能以及各部分间的连接关系：

第一获取模块510，适于获取待处理的第一音频数据；

确定模块520，与第一获取模块510相耦合，适于确定所述第一音频数据中即将加载多媒体数据的音频帧的位置；

第二获取模块530，与确定模块520相耦合，适于获取所述多媒体数据的标识信息；

处理模块540，与第二获取模块530相耦合，适于基于所述音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理，得到处理后的第二音频数据；

发送模块550，与处理模块540相耦合，适于发送所述处理后的第二音频数据。

在本发明一实施例中，上述第一获取模块510还适于：

在本发明一实施例中，上述确定模块520还适于：

在本发明一实施例中，当所述录音功能被开启时，所述录音功能的界面上提供标记入口；

上述确定模块520还适于：

在本发明一实施例中，所述标记入口设计为功能按键的形式。

在本发明一实施例中，上述第一获取模块510还适于：

从所述移动终端的录音功能的音频文件存储位置处获取待处理的第一音频数据。

在本发明一实施例中，上述确定模块520还适于：

对所述第一音频数据进行编辑处理，确定所述第一音频数据中即将加载多媒体数据的音频帧的位置。

在本发明一实施例中，所述多媒体数据位于所述移动终端的本地；

上述第二获取模块530还适于：

接收所述云服务器返回的所述多媒体数据的标识信息。

在本发明一实施例中，所述多媒体数据位于云服务器；

上述第二获取模块530还适于：

从所述云服务器处获取所述多媒体数据的标识信息。

在本发明一实施例中，所述多媒体数据的标识信息包括所述多媒体数据在所述云服务器处的下载地址。

在本发明一实施例中，上述处理模块540还适于：

在所述第一音频数据中增加指定字段；

在本发明一实施例中，所述多媒体数据包括下列至少之一：

图片、视频、文字。

在本发明一实施例中，当所述多媒体数据为图片和/或视频时，上述第二获取模块530还适于：

在获取所述多媒体数据的标识信息之前，调起所述移动终端的摄像装置，利用所述摄像装置直接拍摄生成图片和/或视频，作为所述多媒体数据。

在本发明一实施例中，所述多媒体数据的标识信息还包括图片和/或视频的缩略图。

在本发明一实施例中，当所述多媒体数据为文字时，上述第二获取模块530还适于：

在获取所述多媒体数据的标识信息之前，接收来自用户的输入操作，获取所述输入操作对应的文字，作为所述多媒体数据。

在本发明一实施例中，当所述第一音频数据对应多个用户时，所述多媒体数据来自所述多个用户中的一个或多个，所述多媒体数据的标识信息还包括对应的用户的标识信息。

在本发明一实施例中，所述用户的标识信息包括下列至少之一：

用户的姓名、昵称、电话号码、邮箱地址、公司名称。

在本发明一实施例中，若所述多媒体数据包括所述第一音频数据进行语音到文字的识别后生成的图片和/或文字，上述确定模块520还适于：

将识别所述第一音频数据的结束音频帧的位置作为即将加载生成的图片和/或文字的音频帧的位置。

相应的，图6示出了根据本发明另一实施例的基于移动终端的音频数据处理装置的结构示意图。如图6所示，该装置600至少可以包括接收模块610、解析模块620、第三获取模块630以及播放模块640。

接收模块610，适于接收来自发送端的处理后的第二音频数据，所述第二音频数据基于待处理的第一音频数据中即将加载多媒体数据的音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理得到；

解析模块620，与接收模块610相耦合，适于对所述第二音频数据进行解析，得到所述音频帧的位置以及所述多媒体数据的标识信息；

第三获取模块630，与解析模块620相耦合，适于根据所述多媒体数据的标识信息获取所述多媒体数据；

播放模块640，与第三获取模块630相耦合，适于播放所述第二音频数据，并在播放所述第二音频数据的过程中，在所述音频帧的位置处加载并显示所述多媒体数据。

在本发明一实施例中，上述解析模块620还适于：

利用所述音频解析接口对所述第二音频数据进行解析。

在本发明一实施例中，上述解析模块620还适于：

利用所述音频解析接口对所述第二音频数据进行解析。

在本发明一实施例中，所述多媒体数据的标识信息包括所述多媒体数据在云服务器处的下载地址；

上述第三获取模块630还适于：

在本发明一实施例中，所述多媒体数据的标识信息还包括对应的用户的标识信息；

上述播放模块640还适于：

用户的姓名、昵称、电话号码、邮箱地址、公司名称。

在本发明一实施例中，所述多媒体数据包括下列至少之一：

图片、视频、文字。

根据上述任意一个优选实施例或多个优选实施例的组合，本发明实施例能够达到如下有益效果：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于移动终端的音频数据处理装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

本发明实施例的一方面，提供了A1、一种基于移动终端的音频数据处理方法，包括：

获取待处理的第一音频数据；

A2、根据A1所述的方法，其中，所述获取待处理的第一音频数据，包括：

A3、根据A2所述的方法，其中，确定所述第一音频数据中即将加载多媒体数据的音频帧的位置，包括：

A4、根据A3所述的方法，其中，当所述录音功能被开启时，所述录音功能的界面上提供标记入口；

A5、根据A4所述的方法，其中，所述标记入口设计为功能按键的形式。

A6、根据A1所述的方法，其中，所述获取待处理的第一音频数据，包括：

A7、根据A6所述的方法，其中，确定所述第一音频数据中即将加载多媒体数据的音频帧的位置，包括：

A8、根据A1-A7中任一项所述的方法，其中，所述多媒体数据位于所述移动终端的本地；

获取所述多媒体数据的标识信息，包括：

接收所述云服务器返回的所述多媒体数据的标识信息。

A9、根据A1-A7中任一项所述的方法，其中，所述多媒体数据位于云服务器；

获取所述多媒体数据的标识信息，包括：

从所述云服务器处获取所述多媒体数据的标识信息。

A10、根据A8或A9所述的方法，其中，所述多媒体数据的标识信息包括所述多媒体数据在所述云服务器处的下载地址。

A11、根据A1-A10中任一项所述的方法，其中，基于所述音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理，得到处理后的第二音频数据，包括：

在所述第一音频数据中增加指定字段；

A12、根据A1-A11中任一项所述的方法，其中，所述多媒体数据包括下列至少之一：

图片、视频、文字。

A13、根据A12所述的方法，其中，当所述多媒体数据为图片和/或视频时，在获取所述多媒体数据的标识信息之前，所述方法还包括：

调起所述移动终端的摄像装置，利用所述摄像装置直接拍摄生成图片和/或视频，作为所述多媒体数据。

A14、根据A12或A13所述的方法，其中，所述多媒体数据的标识信息还包括图片和/或视频的缩略图。

A15、根据A12所述的方法，其中，当所述多媒体数据为文字时，在获取所述多媒体数据的标识信息之前，所述方法还包括：

接收来自用户的输入操作，获取所述输入操作对应的文字，作为所述多媒体数据。

A16、根据A1-A15中任一项所述的方法，其中，当所述第一音频数据对应多个用户时，所述多媒体数据来自所述多个用户中的一个或多个，所述多媒体数据的标识信息还包括对应的用户的标识信息。

A17、根据A16所述的方法，其中，所述用户的标识信息包括下列至少之一：

用户的姓名、昵称、电话号码、邮箱地址、公司名称。

A18、根据A1-A17中任一项所述的方法，其中，若所述多媒体数据包括所述第一音频数据进行语音到文字的识别后生成的图片和/或文字，则确定所述第一音频数据中即将加载多媒体数据的音频帧的位置，包括：

本发明实施例的另一方面，还提供了B19、一种基于移动终端的音频数据处理方法，包括：

根据所述多媒体数据的标识信息获取所述多媒体数据；

B20、根据B19所述的方法，其中，对所述第二音频数据进行解析，得到所述音频帧的位置以及所述多媒体数据的标识信息，包括：

B21、根据B20所述的方法，其中，对所述第二音频数据进行解析，包括：

利用所述音频解析接口对所述第二音频数据进行解析。

B22、根据B20所述的方法，其中，对所述第二音频数据进行解析，包括：

利用所述音频解析接口对所述第二音频数据进行解析。

B23、根据B19-B22中任一项所述的方法，其中，所述多媒体数据的标识信息包括所述多媒体数据在云服务器处的下载地址；

B24、根据B23所述的方法，其中，所述多媒体数据的标识信息还包括对应的用户的标识信息；

B25、根据B24所述的方法，其中，所述用户的标识信息包括下列至少之一：

用户的姓名、昵称、电话号码、邮箱地址、公司名称。

B26、根据B19-B25中任一项所述的方法，其中，所述多媒体数据包括下列至少之一：

图片、视频、文字。

本发明实施例的又一方面，还提供了C27、一种基于移动终端的音频数据处理装置，包括：

第一获取模块，适于获取待处理的第一音频数据；

第二获取模块，适于获取所述多媒体数据的标识信息；

发送模块，适于发送所述处理后的第二音频数据。

C28、根据C27所述的装置，其中，所述第一获取模块还适于：

C29、根据C28所述的装置，其中，所述确定模块还适于：

C30、根据C29所述的装置，其中，当所述录音功能被开启时，所述录音功能的界面上提供标记入口；

所述确定模块还适于：

C31、根据C30所述的装置，其中，所述标记入口设计为功能按键的形式。

C32、根据C27所述的装置，其中，所述第一获取模块还适于：

C33、根据C32所述的装置，其中，所述确定模块还适于：

C34、根据C27-C33中任一项所述的装置，其中，所述多媒体数据位于所述移动终端的本地；

所述第二获取模块还适于：

接收所述云服务器返回的所述多媒体数据的标识信息。

C35、根据C27-C33中任一项所述的装置，其中，所述多媒体数据位于云服务器；

所述第二获取模块还适于：

从所述云服务器处获取所述多媒体数据的标识信息。

C36、根据C34或C35所述的装置，其中，所述多媒体数据的标识信息包括所述多媒体数据在所述云服务器处的下载地址。

C37、根据C27-C36中任一项所述的装置，其中，所述处理模块还适于：

在所述第一音频数据中增加指定字段；

C38、根据C27-C37中任一项所述的装置，其中，所述多媒体数据包括下列至少之一：

图片、视频、文字。

C39、根据C38所述的装置，其中，当所述多媒体数据为图片和/或视频时，所述第二获取模块还适于：

C40、根据C38或C39所述的装置，其中，所述多媒体数据的标识信息还包括图片和/或视频的缩略图。

C41、根据C38所述的装置，其中，当所述多媒体数据为文字时，所述第二获取模块还适于：

C42、根据C27-C41中任一项所述的装置，其中，当所述第一音频数据对应多个用户时，所述多媒体数据来自所述多个用户中的一个或多个，所述多媒体数据的标识信息还包括对应的用户的标识信息。

C43、根据C42所述的装置，其中，所述用户的标识信息包括下列至少之一：

用户的姓名、昵称、电话号码、邮箱地址、公司名称。

C44、根据C27-C43中任一项所述的装置，其中，若所述多媒体数据包括所述第一音频数据进行语音到文字的识别后生成的图片和/或文字，所述确定模块还适于：

本发明实施例的又一方面，还提供了D45、一种基于移动终端的音频数据处理装置，包括：

D46、根据D45所述的装置，其中，所述解析模块还适于：

D47、根据D46所述的装置，其中，所述解析模块还适于：

利用所述音频解析接口对所述第二音频数据进行解析。

D48、根据D46所述的装置，其中，所述解析模块还适于：

利用所述音频解析接口对所述第二音频数据进行解析。

D49、根据D45-D48中任一项所述的装置，其中，所述多媒体数据的标识信息包括所述多媒体数据在云服务器处的下载地址；

所述第三获取模块还适于：

D50、根据D49所述的装置，其中，所述多媒体数据的标识信息还包括对应的用户的标识信息；

所述播放模块还适于：

D51、根据D50所述的装置，其中，所述用户的标识信息包括下列至少之一：

用户的姓名、昵称、电话号码、邮箱地址、公司名称。

D52、根据D45-D51中任一项所述的装置，其中，所述多媒体数据包括下列至少之一：

图片、视频、文字。

Claims

1.一种基于移动终端的音频数据处理方法，包括：

获取待处理的第一音频数据；

2.根据权利要求1所述的方法，其中，所述获取待处理的第一音频数据，包括：

3.根据权利要求2所述的方法，其中，确定所述第一音频数据中即将加载多媒体数据的音频帧的位置，包括：

4.根据权利要求3所述的方法，其中，当所述录音功能被开启时，所述录音功能的界面上提供标记入口；

5.根据权利要求1-4中任一项所述的方法，其中，所述多媒体数据位于所述移动终端的本地；

获取所述多媒体数据的标识信息，包括：

接收所述云服务器返回的所述多媒体数据的标识信息。

6.根据权利要求1-5中任一项所述的方法，其中，所述多媒体数据位于云服务器；

获取所述多媒体数据的标识信息，包括：

从所述云服务器处获取所述多媒体数据的标识信息。

7.根据权利要求1-6中任一项所述的方法，其中，基于所述音频帧的位置以及所述多媒体数据的标识信息，对所述第一音频数据进行处理，得到处理后的第二音频数据，包括：

在所述第一音频数据中增加指定字段；

8.一种基于移动终端的音频数据处理方法，包括：

根据所述多媒体数据的标识信息获取所述多媒体数据；

9.一种基于移动终端的音频数据处理装置，包括：

第一获取模块，适于获取待处理的第一音频数据；

第二获取模块，适于获取所述多媒体数据的标识信息；

发送模块，适于发送所述处理后的第二音频数据。

10.一种基于移动终端的音频数据处理装置，包括：