CN107948704B

CN107948704B - 用于对音频数据进行动态合成的方法、系统以及移动终端

Info

Publication number: CN107948704B
Application number: CN201711487262.5A
Authority: CN
Inventors: 盛强; 管帅朝; 陈荣; 杨博
Original assignee: Beijing Anyun Century Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2020-06-23
Anticipated expiration: 2037-12-29
Also published as: CN107948704A

Abstract

本发明公开了一种用于对音频数据进行动态合成的方法、系统及移动终端，其中方法包括：利用数据获取服务获取第一音频数据；响应于接收到针对所述第一音频数据的动态合成请求，选择第二音频数据；对所述第二音频数据进行解码以获得第二音频流，确定所述第二视频流的实际采样位宽和实际采样频率；根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置，并且确定合成采样位宽和合成采样频率；以及从所述初始合成位置开始，以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。

Description

用于对音频数据进行动态合成的方法、系统以及移动终端

技术领域

本发明涉及数据处理技术领域，更具体地，涉及一种用于对音频数据进行动态合成的方法、系统以及移动终端。

背景技术

目前，随着智能终端及相关技术的快速发展，终端设备已经在人们的生活中越来越普及，极大地方便了人们的生活、娱乐和学习，常见的终端设备包括手机、笔记本电脑、平板电脑、穿戴智能设备等移动终端，或如电视、台式计算机之类的非移动终端。随着终端的普及，人们能够更加方便的进行视频沟通或传送图片。然而，在很多时候，由于需要达到特定的效果，人们需要进行视频聊天的过程中播放音乐以作为背景音效。

但是，由于常用的通讯应用缺少对音频数据的特殊处理功能，如现在人们常用的通讯应用，微信或QQ等，人们在利用微信或QQ进行视频交流的过程中，无法进行音频的有效合成。微信或QQ，做为通讯应用越来越广泛的被人们用于视频沟通，但是微信或QQ应用由于缺少对音频数据进行实时处理的功能，不能满足人们对视频数据特殊场景化处理，或对视频数据进行特殊处理的需求。

发明内容

根据本发明的一个方面，提供一种用于对音频数据进行动态合成的方法，所述方法包括：

利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据；

响应于接收到针对所述第一音频数据的动态合成请求，选择作为动态合成的静态输入数据的第二音频数据；

对所述第二音频数据进行解码以获得第二音频流，确定所述第二视频流的实际采样位宽和实际采样频率；

根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置，将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽，以及将预定采样频率和实际采样频率中的最大值作为合成采样频率；以及

从所述初始合成位置开始，以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。

所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。

响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。

所述第二音频数据是预先存储在用户设备中的，或者所述第二音频数据是通过有线网络/无线网络接收的。

其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。

其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。

在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，还包括根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。

所述将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，对所述第一音频流中的噪声进行逐采样点降噪。

所述第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值，并且第二权重值和第一权重值的和为100％。

将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据，使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。

还包括当预定采样位宽小于实际采样位宽时，将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值，并且基于所述实际采样位宽的值来修改所述第一音频流。

还包括当预定采样位宽大于实际采样位宽时，将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值，并且基于所述预定采样位宽的值来修改所述第一音频流。

所述根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置包括：根据所述第二音频流的生成时间确定初始合成时间，基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。

当预定采样频率小于实际采样频率时，将所述第一音频流的预定采样频率的值修改为实际采样频率的值，并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值。

当预定采样频率大于实际采样频率时，将所述第二音频流的实际采样频率的值修改为预定采样频率的值，并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。

根据本发明的一个方面，提供一种用于对音频数据进行动态合成的系统，所述系统包括：

获取单元，利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据；

选择单元，响应于接收到针对所述第一音频数据的动态合成请求，选择作为动态合成的静态输入数据的第二音频数据；

解码单元，对所述第二音频数据进行解码以获得第二音频流，确定所述第二视频流的实际采样位宽和实际采样频率；

处理单元，根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置，将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽，以及将预定采样频率和实际采样频率中的最大值作为合成采样频率；以及

合成单元，从所述初始合成位置开始，以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。

所述获取单元利用所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。

获取单元响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。

在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，所述合成单元还用于根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。

所述将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，所述合成单元对所述第一音频流中的噪声进行逐采样点降噪。

还包括当预定采样位宽小于实际采样位宽时，所述处理单元将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值，并且基于所述实际采样位宽的值来修改所述第一音频流。

还包括当预定采样位宽大于实际采样位宽时，所述处理单元将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值，并且基于所述预定采样位宽的值来修改所述第一音频流。

所述处理单元根据所述第二音频流的生成时间确定初始合成时间，基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。

当预定采样频率小于实际采样频率时，所述处理单元将所述第一音频流的预定采样频率的值修改为实际采样频率的值，并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值。

当预定采样频率大于实际采样频率时，所述处理单元将所述第二音频流的实际采样频率的值修改为预定采样频率的值，并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。

根据本发明的一个方面，提供一种移动终端，包括或用于执行如上所述的系统。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的对音频数据进行动态合成的方法的流程图；

图2为根据本发明实施方式的对音频数据进行动态合成的示意图；

图3为根据本发明另一实施方式的对音频数据进行动态合成的示意图；

图4为根据本发明另一实施方式的对音频数据进行动态合成的示意图；以及

图5为根据本发明另一实施方式的对音频数据进行动态合成的系统的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的对音频数据进行动态合成的方法100的流程图。本申请能够对作为动态合成的动态输入数据的具有预定采样位宽和预定采样频率的第一音频数据和作为动态合成的静态输入数据的第二音频数据进行动态合成。具体地，本申请对所述第二音频数据进行解码以获得第二音频流，确定所述第二视频流的实际采样位宽和实际采样频率。根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置，将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽，以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。基于初始合成位置以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。

如图1所示，方法100从步骤101处开始。在步骤101，利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据。所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。数据获取服务可以是声音获取服务。应当了解的是，本申请可以使用各种类型的声音获取器件来获取所述第一音频数据。通常，当用户通过用户设备来获取视频数据时，音频数据会和图像数据同步混合。此外，用户设备可以响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。通常，用于描述音频数据的属性包括采样位宽和采样频率。根据声音获取器件或声音获取服务的不同，采样位宽和采样频率可以不同。此外，可以根据用户的设置来获取不同采样位宽和采样频率的音频数据。

在步骤102，响应于接收到针对所述第一音频数据的动态合成请求，选择作为动态合成的静态输入数据的第二音频数据。所述第二音频数据是预先存储在用户设备中的，或者所述第二音频数据是通过有线网络/无线网络接收的。例如，第二音频数据是用户存储在用户设备的存储空间内的音频数据，或者是用户通过用户设备从服务器或其它用户设备经由有线网络/无线网络接收的音频数据。第二音频数据可以是各种类型的音频数据，例如MP3、WAV等。其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。即，在对第二音频数据与第一音频数据进行动态合成时，可以实时地控制第二音频的播放。这种播放例如是暂停、播放、快进等。其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。浮动标识可以是悬浮在显示界面上的浮球等各种类型的标识。

在步骤103，对所述第二音频数据进行解码以获得第二音频流，确定所述第二视频流的实际采样位宽和实际采样频率。在确定了所述第二视频流的实际采样位宽和实际采样频率后，还包括当预定采样位宽小于实际采样位宽时，将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值，并且基于所述实际采样位宽的值来修改所述第一音频流；当预定采样位宽大于实际采样位宽时，将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值，并且基于所述预定采样位宽的值来修改所述第一音频流。

在确定了所述第二视频流的实际采样位宽和实际采样频率后，还包括当预定采样频率小于实际采样频率时，将所述第一音频流的预定采样频率的值修改为实际采样频率的值，并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值；当预定采样频率大于实际采样频率时，将所述第二音频流的实际采样频率的值修改为预定采样频率的值，并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。

在步骤104，根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置。其中所述根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置包括：根据所述第二音频流的生成时间确定初始合成时间，基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。即，以所述初始合成位置为起始位置，对第二音频流和第一音频流进行动态合成。

在对第二音频流和第一音频流进行合成时，将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽，以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。通过这种方式，本申请能够保证第二音频流和第一音频流均不会发生失真或丢帧的情况。

在步骤105，从所述初始合成位置开始，以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，对所述第一音频流中的噪声进行逐采样点降噪。其中按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成包括：按照第一音频流的每个时间点为准，将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行逐个时间点(或逐个采样点)的动态合成。可替换地，本申请还可以按照以所述第二音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第一音频流中的每个采样点与所述第二音频流的每个采样点进行动态合成。

此外，为了能够对第一音频流或第二音频流的声音(音量)进行控制，在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，还包括根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。其中第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值，并且第二权重值和第一权重值的和为100％。

图2为根据本发明实施方式的对音频数据进行动态合成的示意图。本发明的实施方式，在用户设备(或移动终端)的任何应用开启麦克风装置时，支持将选择的音频数据与麦克风装置获取的音频数据进行合成。图2中通过触发按钮201触发对音频数据的选择，即视频数据的选择可以通过触发按钮201来触发。显示界面202是用户通过用户设备进行摄像或视频聊天时的界面。当用户系统在进行摄像或视频聊天的同时增加背景音乐时，可以通过触发按钮201来激活控制单元203。如图2所示，控制单元203可以是用于音频播放的简单控制键，例如上一首、播放/暂停以及下一首。

图3为根据本发明另一实施方式的对音频数据进行动态合成的示意图。在通过触发按钮301触发对音频数据的选择后，激活控制单元203。用户可以通过控制单元203来选择作为动态合成的静态输入数据的音频数据。所述音频数据是预先存储在用户设备中的，或者所述音频数据是通过有线网络/无线网络接收的。例如，音频数据是用户存储在用户设备的存储空间内的音频数据，或者是用户通过用户设备从服务器或其它用户设备经由有线网络/无线网络接收的音频数据。音频数据可以是各种类型的音频数据，例如MP3、WAV等。如图3所示，控制单元203可以是用于音频播放的简单控制键，例如上一首、播放/暂停以及下一首。当对音频数据进行播放时，可以显示相关的进度条和音量等。

图4为根据本发明另一实施方式的对音频数据进行动态合成的示意图。本申请能够对作为动态合成的动态输入数据的具有预定采样位宽和预定采样频率的第一音频数据和作为动态合成的静态输入数据的第二音频数据进行动态合成。具体地，本申请对所述第二音频数据进行解码以获得第二音频流402，确定所述第二视频流402的实际采样位宽和实际采样频率。根据所述第二音频流402的生成时间，在所述第一音频数据的第一音频流401中确定初始合成位置，将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽，以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。基于初始合成位置以所述第一音频流401的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流402中的每个采样点与所述第一音频流401的每个采样点进行动态合成。

图5为根据本发明另一实施方式的对音频数据进行动态合成的系统500的结构示意图。本申请能够对作为动态合成的动态输入数据的具有预定采样位宽和预定采样频率的第一音频数据和作为动态合成的静态输入数据的第二音频数据进行动态合成。具体地，本申请对所述第二音频数据进行解码以获得第二音频流，确定所述第二视频流的实际采样位宽和实际采样频率。根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置，将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽，以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。基于初始合成位置以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。

系统500包括：获取单元501、选择单元502、解码单元503、处理单元504以及合成单元505。获取单元501利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据。所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。数据获取服务可以是声音获取服务。应当了解的是，本申请可以使用各种类型的声音获取器件来获取所述第一音频数据。通常，当用户通过用户设备来获取视频数据时，音频数据会和图像数据同步混合。此外，用户设备可以响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。通常，用于描述音频数据的属性包括采样位宽和采样频率。根据声音获取器件或声音获取服务的不同，采样位宽和采样频率可以不同。此外，可以根据用户的设置来获取不同采样位宽和采样频率的音频数据。

选择单元502响应于接收到针对所述第一音频数据的动态合成请求，选择作为动态合成的静态输入数据的第二音频数据。所述第二音频数据是预先存储在用户设备中的，或者所述第二音频数据是通过有线网络/无线网络接收的。例如，第二音频数据是用户存储在用户设备的存储空间内的音频数据，或者是用户通过用户设备从服务器或其它用户设备经由有线网络/无线网络接收的音频数据。第二音频数据可以是各种类型的音频数据，例如MP3、WAV等。其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。即，在对第二音频数据与第一音频数据进行动态合成时，可以实时地控制第二音频的播放。这种播放例如是暂停、播放、快进等。其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。浮动标识可以是悬浮在显示界面上的浮球等各种类型的标识。

解码单元503对所述第二音频数据进行解码以获得第二音频流，确定所述第二视频流的实际采样位宽和实际采样频率。在确定了所述第二视频流的实际采样位宽和实际采样频率后，还包括当预定采样位宽小于实际采样位宽时，将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值，并且基于所述实际采样位宽的值来修改所述第一音频流；当预定采样位宽大于实际采样位宽时，将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值，并且基于所述预定采样位宽的值来修改所述第一音频流。

处理单元504根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置。其中所述根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置包括：根据所述第二音频流的生成时间确定初始合成时间，基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。即，以所述初始合成位置为起始位置，对第二音频流和第一音频流进行动态合成。

合成单元505从所述初始合成位置开始，以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，对所述第一音频流中的噪声进行逐采样点降噪。其中按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成包括：按照第一音频流的每个时间点为准，将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行逐个时间点(或逐个采样点)的动态合成。可替换地，本申请还可以按照以所述第二音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第一音频流中的每个采样点与所述第二音频流的每个采样点进行动态合成。

此外，本发明还包括用于执行如上所述的各种系统的移动终端。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种用于对音频数据进行动态合成的方法，所述方法包括：

对所述第二音频数据进行解码以获得第二音频流，确定所述第二音频流的实际采样位宽和实际采样频率；

从所述初始合成位置开始，以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成；

还包括当预定采样位宽小于实际采样位宽时，将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值，并且基于所述实际采样位宽的值来修改所述第一音频流；或者，

当预定采样位宽大于实际采样位宽时，将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值，并且基于所述预定采样位宽的值来修改所述第二音频流。

2.根据权利要求1所述的方法，所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。

3.根据权利要求1所述的方法，响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。

4.根据权利要求1所述的方法，所述第二音频数据是预先存储在用户设备中的，或者所述第二音频数据是通过有线网络/无线网络接收的。

5.根据权利要求4所述的方法，其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。

6.根据权利要求1所述的方法，其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。

7.根据权利要求1所述的方法，在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，还包括根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。

8.根据权利要求7所述的方法，所述将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，对所述第一音频流中的噪声进行逐采样点降噪。

9.根据权利要求7所述的方法，所述第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值，并且第二权重值和第一权重值的和为100％。

10.根据权利要求1所述的方法，将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据，使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。

11.根据权利要求1所述的方法，所述根据所述第二音频流的生成时间，在所述第一音频数据的第一音频流中确定初始合成位置包括：根据所述第二音频流的生成时间确定初始合成时间，基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。

12.根据权利要求1所述的方法，当预定采样频率小于实际采样频率时，将所述第一音频流的预定采样频率的值修改为实际采样频率的值，并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值。

13.根据权利要求1所述的方法，当预定采样频率大于实际采样频率时，将所述第二音频流的实际采样频率的值修改为预定采样频率的值，并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。

14.一种用于对音频数据进行动态合成的系统，所述系统包括：

解码单元，对所述第二音频数据进行解码以获得第二音频流，确定所述第二音频流的实际采样位宽和实际采样频率；

合成单元，从所述初始合成位置开始，以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成；

还包括当预定采样位宽小于实际采样位宽时，所述处理单元将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值，并且基于所述实际采样位宽的值来修改所述第一音频流；或者，

当预定采样位宽大于实际采样位宽时，所述处理单元将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值，并且基于所述预定采样位宽的值来修改所述第二音频流。

15.根据权利要求14所述的系统，所述获取单元利用所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。

16.根据权利要求14所述的系统，获取单元响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。

17.根据权利要求14所述的系统，所述第二音频数据是预先存储在用户设备中的，或者所述第二音频数据是通过有线网络/无线网络接收的。

18.根据权利要求17所述的系统，其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。

19.根据权利要求14所述的系统，其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。

20.根据权利要求14所述的系统，在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，所述合成单元还用于根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。

21.根据权利要求20所述的系统，所述将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时，所述合成单元对所述第一音频流中的噪声进行逐采样点降噪。

22.根据权利要求20所述的系统，所述第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值，并且第二权重值和第一权重值的和为100％。

23.根据权利要求14所述的系统，将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据，使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。

24.根据权利要求14所述的系统，所述处理单元根据所述第二音频流的生成时间确定初始合成时间，基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。

25.根据权利要求14所述的系统，当预定采样频率小于实际采样频率时，所述处理单元将所述第一音频流的预定采样频率的值修改为实际采样频率的值，并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值。

26.根据权利要求14所述的系统，当预定采样频率大于实际采样频率时，所述处理单元将所述第二音频流的实际采样频率的值修改为预定采样频率的值，并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。

27.一种移动终端，包括或用于执行如权利要求14-26中任意一项所述的系统。