CN106782576A - 音频混音方法及装置 - Google Patents

音频混音方法及装置 Download PDF

Info

Publication number
CN106782576A
CN106782576A CN201710081724.7A CN201710081724A CN106782576A CN 106782576 A CN106782576 A CN 106782576A CN 201710081724 A CN201710081724 A CN 201710081724A CN 106782576 A CN106782576 A CN 106782576A
Authority
CN
China
Prior art keywords
voice data
data
audio
voice
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710081724.7A
Other languages
English (en)
Other versions
CN106782576B (zh
Inventor
朱煜鹏
黄曙光
刘显铭
顾思斌
杨伟东
潘柏宇
项青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201710081724.7A priority Critical patent/CN106782576B/zh
Publication of CN106782576A publication Critical patent/CN106782576A/zh
Application granted granted Critical
Publication of CN106782576B publication Critical patent/CN106782576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本公开涉及一种音频混音方法及装置。该方法包括:对多个音频文件分别进行解码,获得解码后的多个音频数据;将所述解码后的多个音频数据存储到缓存空间中;从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。根据本公开的实施例能够通过对多个音频文件分别进行解码并存储到缓存空间,并且从每个音频数据中获取第一数据长度的音频数据进行混音处理以获得已混音的音频数据,实现不同格式的音频文件的快速混音。

Description

音频混音方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种音频混音方法及装置。
背景技术
随着计算机技术的快速发展,音频混音技术的应用也越来越广泛。目前,一般的音频混音方式是先将多路音频交给解码器,通过解码器解码获得各自原始PCM音频数据,将获得的原始PCM音频数据叠加混合得到混音后的数据,然后将混音的结果交给外设渲染或者直接写入到音频文件。然而,在相关技术中,只能对相同格式的音频(例如mp3格式)进行音频混音,并且混音处理的速度不够理想。
发明内容
有鉴于此,本公开提出了一种音频混音方法及装置,实现对不同格式的音频进行快速混音。
根据本公开的一方面,提供了一种音频混音方法,包括:
对多个音频文件分别进行解码,获得解码后的多个音频数据;
将所述解码后的多个音频数据存储到缓存空间中;
从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
对于上述方法,在一种可能的实现方式中,从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,包括:
在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
对于上述方法,在一种可能的实现方式中,对多个音频文件分别进行解码,包括:
调用与各音频文件的类型相对应的音频解码器对所述多个音频文件分别进行解码。
对于上述方法,在一种可能的实现方式中,从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,包括:
在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,从与所述第一音频数据相对应的音频解码器获取解码后的音频数据并存储到所述缓存空间中,
如果所述相对应的音频解码器中已不存在解码后的音频数据,则获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
对于上述方法,在一种可能的实现方式中,所述第一数据长度通过以下公式获得:
第一数据长度=音频播放设备的音频采样率×音频播放设备的声道数量×音频播放设备支持的音频样本长度/帧率。
对于上述方法,在一种可能的实现方式中,所述解码后的多个音频数据为PCM音频数据。
对于上述方法,在一种可能的实现方式中,所述方法还包括:
获取所述第一数据长度的音频数据的时间戳。
对于上述方法,在一种可能的实现方式中,所述第一数据长度的音频数据的时间戳通过以下公式获得:
所述第一数据长度的音频数据的时间戳=已混音的音频数据的长度/(第一数据长度×帧率)。
根据本公开的另一方面,提供了一种音频混音装置,包括:
解码模块,用于对多个音频文件分别进行解码,获得解码后的多个音频数据;
存储模块,用于将所述解码后的多个音频数据存储到缓存空间中;
混音模块,用于从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
对于上述装置,在一种可能的实现方式中,所述混音模块包括:
第一混音子模块,用于在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
对于上述装置,在一种可能的实现方式中,所述解码模块包括:
解码调用子模块,用于调用与各音频文件的类型相对应的音频解码器对所述多个音频文件分别进行解码。
对于上述装置,在一种可能的实现方式中,所述混音模块包括:
数据获取子模块,用于在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,从与所述第一音频数据相对应的音频解码器获取解码后的音频数据并存储到所述缓存空间中;
第二混音子模块,用于如果所述相对应的音频解码器中已不存在解码后的音频数据,则获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
对于上述装置,在一种可能的实现方式中,所述第一数据长度通过以下公式获得:
第一数据长度=音频播放设备的音频采样率×音频播放设备的声道数量×音频播放设备支持的音频样本长度/帧率。
对于上述装置,在一种可能的实现方式中,所述解码后的多个音频数据为PCM音频数据。
对于上述装置,在一种可能的实现方式中,所述装置还包括:
时间戳获取模块,用于获取所述第一数据长度的音频数据的时间戳。
对于上述装置,在一种可能的实现方式中,所述第一数据长度的音频数据的时间戳通过以下公式获得:
所述第一数据长度的音频数据的时间戳=已混音的音频数据的长度/(第一数据长度×帧率)。
根据本公开的另一方面,提供了一种音频混音装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
对多个音频文件分别进行解码,获得解码后的多个音频数据;
将所述解码后的多个音频数据存储到缓存空间中;
从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,当所述存储介质中的指令由终端和/或服务器的处理器执行时,使得终端和/或服务器能够执行一种音频混音方法,所述方法包括:
对多个音频文件分别进行解码,获得解码后的多个音频数据;
将所述解码后的多个音频数据存储到缓存空间中;
从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
根据本公开实施例的音频混音方法及装置,能够通过对多个音频文件分别进行解码并存储到缓存空间,并且从每个音频数据中获取第一数据长度的音频数据进行混音处理以获得已混音的音频数据,能够实现不同格式的音频文件的快速混音。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1是根据一示例性实施例示出的一种音频混音方法的流程图。
图2是根据一示例性实施例示出的一种音频混音方法的流程图。
图3是根据一示例性实施例示出的一种音频混音方法的流程图。
图4是根据一示例性实施例示出的一种音频混音方法的步骤S13的流程图。
图5是根据一示例性实施例示出的一种音频混音装置的框图。
图6是根据一示例性实施例示出的一种音频混音装置的框图。
图7是根据一示例性实施例示出的一种音频混音装置的框图。
图8是根据一示例性实施例示出的一种音频混音装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
图1是根据一示例性实施例示出的一种音频混音方法的流程图。该方法可应用于终端设备(例如智能手机、电脑等)或服务器中。如图1所示,根据本公开实施例的音频混音方法包括:
步骤S11,对多个音频文件分别进行解码,获得解码后的多个音频数据;
步骤S12,将所述解码后的多个音频数据存储到缓存空间中;
步骤S13,从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
根据本公开的实施例能够通过对多个音频文件分别进行解码并存储到缓存空间,并且从每个音频数据中获取第一数据长度的音频数据进行混音处理以获得已混音的音频数据,能够降低音频数据混音过程中的写开销,实现不同格式的音频文件的快速混音。
举例来说,对于不同格式的多个音频文件,例如mp3、aac、3gpp等格式的音频文件,可以分别调用相应的音频解码器对音频文件进行解码,从而获得多个音频数据。并且,可以对多个音频数据中的每一个分别进行预处理,例如对不同路音频的参数(比如音量等)进行调节,经预处理后,可以获得解码后的多个音频数据。本公开对音频文件以及相应的音频解码器的具体类型不做限制,对音频数据的预处理的具体方式不做限制。
在一种可能的实现方式中,解码后的多个音频数据可以为PCM音频数据。在终端设备或服务器中,可以为多个音频数据的每一个创建缓存空间,将解码后的多个音频数据分别存储到缓存空间中。缓存空间可以存放一定长度的音频数据(例如PCM音频数据),缓存空间的长度可以根据实际环境和不同的设备来定制。
在一种可能的实现方式中,可以从缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理。其中,该第一数据长度可以为音频帧的长度,可以根据实际情况采用系统默认或由用户自行设定,例如,该第一数据长度可以设定为4096Byte、8192Byte等。由于不同格式的音频文件和不同类型的解码器每次解码出来的PCM数据长度不同,因此,经解码后,可能获得不同长度的多个音频数据(PCM数据)。针对缓存空间中的多个音频数据,可以以一个音频帧为单位进行长度对齐,例如从每个音频数据的第一个音频帧开始进行对齐。可以从每个已对齐的音频数据中获取第一数据长度的音频数据(一个音频帧)进行混音叠加,获得已混音的音频数据。可以轮流查询处理每一路音频,从每一路音频的缓存空间中取出一音频帧的音频数据进行叠加混音操作,如果某一路音频的剩余数据已经不足一帧,则可以全部取出进行叠加混音。
在一种可能的实现方式中,第一数据长度可以通过以下公式获得:
第一数据长度=音频播放设备的音频采样率×音频播放设备的声道数量×音频播放设备支持的音频样本长度/帧率。
其中,常见的音频播放设备(例如终端设备)的音频采样率有22050Hz、32000Hz、44100Hz、48000Hz等。音频播放设备的声道数量普遍为双声道,音频播放设备支持的音频样本长度一般为8bit/16bit/32bit的PCM数据,帧率(即音频播放设备单位时间播放音频帧的数量)可以自定义。例如,对于终端设备来说,上面公式中采用的参数,音频采样率可以采用44100Hz,这是跨平台移植性较好的采样率,声道数量可以为双声道,音频样本长度可以为16bit,根据这些常用的数据选择,例如可以定义音频帧的帧率为20,则可得出一个推荐的第一数据长度(音频帧长度)为8820Byte。相应地,缓存空间中可以存储多个音频帧的音频数据(PCM音频数据),例如缓存空间的长度可以存放20音频帧的PCM音频数据。
通过这种方式,可以降低音频数据混音过程中的写开销,实现不同格式的音频文件的快速混音。
在一种可能的实现方式中,所述方法还包括:获取所述第一数据长度的音频数据的时间戳。
举例来说,可以对已混音的音频数据进行混音后处理,例如去爆音等,并且可以计算已混音的音频数据的参数,例如计算时间戳,从而保证已混音的音频数据能够正常播放和导出。由于在步骤11-步骤13中对多个音频文件进行解码、存储及混音的过程中对音频数据进行了重排对齐,因此在某些情况下需要计算第一数据长度的音频数据(一个音频帧)的时间戳。本公开对混音后处理以及已混音的音频数据的参数的具体类型不作限制。
在一种可能的实现方式中,第一数据长度的音频数据的时间戳可以通过以下公式获得:
第一数据长度的音频数据的时间戳=已混音的音频数据的长度/(第一数据长度×帧率)
其中,第一数据长度的音频数据的时间戳可以表示当前正在处理的音频帧的时间戳,已混音的音频数据的长度可以表示在当前正在处理的音频帧之前已进行混音处理的音频数据的总长度,帧率可以为第一数据长度的公式中的帧率。经计算后,可以将相应的时间戳加入到当前正在处理的音频帧中。这样,可以对多个音频帧中的每一个计算时间戳,使得所有已混音的音频数据中都具有相对应的时间戳,方便进行后续的处理(例如播放或生成文件)。
在一种可能的实现方式中,可以渲染播放所述已混音的音频数据,还可以导出所述已混音的音频数据,生成已混音的音频文件,以供用户存储或播放。
通过这种方式,可以计算并加入已混音的音频数据的参数,以便于后续的处理,提高了已混音的音频数据的实用性。
图2是根据一示例性实施例示出的一种音频混音方法的流程图。如图2所示,在一种可能的实现方式中,步骤S13包括:
步骤S131,在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
举例来说,在缓存空间中存在空闲的情况下,可以不断对多个音频文件分别进行解码及预处理,获得解码后的多个音频数据并存储到缓存空间中。针对缓存空间中的多个音频数据,可以轮流查询处理每个音频数据,从每个音频数据中取出一音频帧的音频数据(第一数据长度的音频数据)进行混音处理。如果一个或几个的音频数据(第一音频数据)的剩余数据已经不足一音频帧,则可以认为对应于第一音频数据的音频文件已经全部解码。此时,可以获取第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的每一个音频数据中获取第一数据长度的音频数据(一音频帧),进行混音处理。其中,第一音频数据可以是缓存空间中的多个音频数据中的任意一个或几个音频数据。
通过这种方式,可以在第一音频数据的剩余数据不足一音频帧时将该剩余数据与其他音频数据进行混音处理,提高了混音处理的效率和灵活性。
图3是根据一示例性实施例示出的一种音频混音方法的流程图。如图3所示,在一种可能的实现方式中,步骤S11包括:
步骤S111,调用与各音频文件的类型相对应的音频解码器对所述多个音频文件分别进行解码。
举例来说,对于不同类型的音频文件,需要与各音频文件的类型相对应的音频解码器才能进行解码。这样,在对多个音频文件分别进行解码时,可以从系统中调用与各音频文件的类型相对应的音频解码器对所述多个音频文件分别进行解码。本公开对音频文件以及相应的音频解码器的具体类型不做限制。
通过这种方式,可以调用相应的音频解码器对所述多个音频文件分别进行解码,提高了解码的效率,并能够方便地实现不同类型的音频文件之间的混音。
图4是根据一示例性实施例示出的一种音频混音方法的步骤S13的流程图。如图4所示,在一种可能的实现方式中,步骤S13包括:
步骤S132,在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,从与所述第一音频数据相对应的音频解码器获取解码后的音频数据并存储到所述缓存空间中,
步骤S133,如果所述相对应的音频解码器中已不存在解码后的音频数据,则获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
举例来说,可以对多个音频文件分别进行解码及预处理,获得解码后的多个音频数据并存储到缓存空间中。针对缓存空间中的多个音频数据,可以轮流查询处理每个音频数据,从每个音频数据中取出一音频帧的音频数据(第一数据长度的音频数据)进行混音处理。如果一个或几个的音频数据(第一音频数据)的剩余数据已经不足一音频帧,则可以查询第一音频数据相对应的音频解码器。如果相对应的音频解码器中存在解码后的音频数据,则可以获取解码及预处理后的音频数据,并存储到所述缓存空间中。然后,可以执行正常的混音流程,也即,多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理。
在一种可能的实现方式中,如果在与第一音频数据相对应的音频解码器中已不存在解码后的音频数据,则可以认为对应于第一音频数据的音频文件已经全部解码。此时,可以获取第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的每一个音频数据中获取第一数据长度的音频数据(一音频帧),进行混音处理。其中,第一音频数据可以是缓存空间中的多个音频数据中的任意一个或几个音频数据。
通过这种方式,可以在第一音频数据的剩余数据不足一音频帧时从解码器获取解码后的数据,并在解码器不存在解码后的音频数据时将第一音频数据的剩余数据与其他音频数据进行混音处理,提高了混音处理的效率和灵活性。
实施例2
图5是根据一示例性实施例示出的一种音频混音装置的框图。如图5所示,该音频混音装置包括:解码模块51、存储模块52以及混音模块53。
解码模块51,用于对多个音频文件分别进行解码,获得解码后的多个音频数据;
存储模块52,用于将所述解码后的多个音频数据存储到缓存空间中;
混音模块53,用于从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
图6是根据一示例性实施例示出的一种音频混音装置的框图。如图6所示,在一种可能的实现方式中,所述混音模块53包括:
第一混音子模块531,用于在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
如图6所示,在一种可能的实现方式中,所述解码模块51包括:
解码调用子模块511,用于调用与各音频文件的类型相对应的音频解码器对所述多个音频文件分别进行解码。
如图6所示,在一种可能的实现方式中,所述混音模块53包括:
数据获取子模块532,用于在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,从与所述第一音频数据相对应的音频解码器获取解码后的音频数据并存储到所述缓存空间中;
第二混音子模块533,用于如果所述相对应的音频解码器中已不存在解码后的音频数据,则获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
在一种可能的实现方式中,所述第一数据长度通过以下公式获得:
第一数据长度=音频播放设备的音频采样率×音频播放设备的声道数量×音频播放设备支持的音频样本长度/帧率。
在一种可能的实现方式中,所述解码后的多个音频数据为PCM音频数据。
在一种可能的实现方式中,所述装置还包括:时间戳获取模块,用于获取所述第一数据长度的音频数据的时间戳。
在一种可能的实现方式中,所述第一数据长度的音频数据的时间戳通过以下公式获得:
所述第一数据长度的音频数据的时间戳=已混音的音频数据的长度/(第一数据长度×帧率)。
根据本公开的实施例能够通过对多个音频文件分别进行解码并存储到缓存空间,并且从每个音频数据中获取第一数据长度的音频数据进行混音处理以获得已混音的音频数据,能够实现不同格式的音频文件的快速混音。
实施例3
图7是根据一示例性实施例示出的一种音频混音装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非易失性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。
图8是根据一示例性实施例示出的一种音频混音装置1900的框图。例如,装置1900可以被提供为一服务器。参照图8,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述音频混音方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的非易失性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由装置1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (17)

1.一种音频混音方法,其特征在于,包括:
对多个音频文件分别进行解码,获得解码后的多个音频数据;
将所述解码后的多个音频数据存储到缓存空间中;
从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
2.根据权利要求1所述的方法,其特征在于,从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,包括:
在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
3.根据权利要求1所述的方法,其特征在于,对多个音频文件分别进行解码,包括:
调用与各音频文件的类型相对应的音频解码器对所述多个音频文件分别进行解码。
4.根据权利要求3所述的方法,其特征在于,从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,包括:
在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,从与所述第一音频数据相对应的音频解码器获取解码后的音频数据并存储到所述缓存空间中,
如果所述相对应的音频解码器中已不存在解码后的音频数据,则获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述第一数据长度通过以下公式获得:
第一数据长度=音频播放设备的音频采样率×音频播放设备的声道数量×音频播放设备支持的音频样本长度/帧率。
6.根据权利要求1-4中的任意一项所述的方法,其特征在于,所述解码后的多个音频数据为PCM音频数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第一数据长度的音频数据的时间戳。
8.根据权利要求7所述的方法,其特征在于,所述第一数据长度的音频数据的时间戳通过以下公式获得:
第一数据长度的音频数据的时间戳=已混音的音频数据的长度/(第一数据长度×帧率)。
9.一种音频混音装置,其特征在于,包括:
解码模块,用于对多个音频文件分别进行解码,获得解码后的多个音频数据;
存储模块,用于将所述解码后的多个音频数据存储到缓存空间中;
混音模块,用于从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
10.根据权利要求9所述的装置,其特征在于,所述混音模块包括:
第一混音子模块,用于在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
11.根据权利要求9所述的装置,其特征在于,所述解码模块包括:
解码调用子模块,用于调用与各音频文件的类型相对应的音频解码器对所述多个音频文件分别进行解码。
12.根据权利要求11所述的装置,其特征在于,所述混音模块包括:
数据获取子模块,用于在所述缓存空间中的多个音频数据中的第一音频数据的数据长度小于第一数据长度的情况下,从与所述第一音频数据相对应的音频解码器获取解码后的音频数据并存储到所述缓存空间中;
第二混音子模块,用于如果所述相对应的音频解码器中已不存在解码后的音频数据,则获取所述第一音频数据在缓存空间中的所有音频数据,并且从除所述第一音频数据之外的音频数据的每一个中获取第一数据长度的音频数据,进行混音处理,
其中,第一音频数据为所述多个音频数据中的任意音频数据。
13.根据权利要求9-12中任意一项所述的装置,其特征在于,所述第一数据长度通过以下公式获得:
第一数据长度=音频播放设备的音频采样率×音频播放设备的声道数量×音频播放设备支持的音频样本长度/帧率。
14.根据权利要求9-12中的任意一项所述的装置,其特征在于,所述解码后的多个音频数据为PCM音频数据。
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
时间戳获取模块,用于获取所述第一数据长度的音频数据的时间戳。
16.根据权利要求15所述的装置,其特征在于,所述第一数据长度的音频数据的时间戳通过以下公式获得:
所述第一数据长度的音频数据的时间戳=已混音的音频数据的长度/(第一数据长度×帧率)。
17.一种音频混音装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
对多个音频文件分别进行解码,获得解码后的多个音频数据;
将所述解码后的多个音频数据存储到缓存空间中;
从所述缓存空间中的多个音频数据的每一个中获取第一数据长度的音频数据进行混音处理,获得已混音的音频数据。
CN201710081724.7A 2017-02-15 2017-02-15 音频混音方法及装置 Active CN106782576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710081724.7A CN106782576B (zh) 2017-02-15 2017-02-15 音频混音方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710081724.7A CN106782576B (zh) 2017-02-15 2017-02-15 音频混音方法及装置

Publications (2)

Publication Number Publication Date
CN106782576A true CN106782576A (zh) 2017-05-31
CN106782576B CN106782576B (zh) 2020-05-22

Family

ID=58957328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710081724.7A Active CN106782576B (zh) 2017-02-15 2017-02-15 音频混音方法及装置

Country Status (1)

Country Link
CN (1) CN106782576B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881957A (zh) * 2017-11-02 2018-11-23 北京视联动力国际信息技术有限公司 一种多媒体文件的混合方法和装置
WO2019062541A1 (zh) * 2017-09-26 2019-04-04 华为技术有限公司 一种实时数字音频信号混音的方法及装置
CN112256626A (zh) * 2020-10-16 2021-01-22 北京声智科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN113658602A (zh) * 2021-08-16 2021-11-16 广州大彩光电科技有限公司 一种实时混音方法及装置
CN115250367A (zh) * 2021-11-12 2022-10-28 稿定(厦门)科技有限公司 用于混合多媒体文件的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614590A (zh) * 2004-11-16 2005-05-11 萧学文 一种基于brew平台实现声音流式播放的方法及系统
US20070260780A1 (en) * 2006-04-11 2007-11-08 Nokia Corporation Media subsystem, method and computer program product for adaptive media buffering
CN101697644A (zh) * 2009-10-29 2010-04-21 青岛海信移动通信技术股份有限公司 移动终端的输出混音方法及相关装置
CN102045461A (zh) * 2009-10-09 2011-05-04 杭州华三通信技术有限公司 语音信号的混音方法和装置
CN102572588A (zh) * 2011-12-14 2012-07-11 中兴通讯股份有限公司 一种实现机顶盒混音的方法及装置
CN103578514A (zh) * 2012-08-01 2014-02-12 北大方正集团有限公司 歌曲播放方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614590A (zh) * 2004-11-16 2005-05-11 萧学文 一种基于brew平台实现声音流式播放的方法及系统
US20070260780A1 (en) * 2006-04-11 2007-11-08 Nokia Corporation Media subsystem, method and computer program product for adaptive media buffering
CN102045461A (zh) * 2009-10-09 2011-05-04 杭州华三通信技术有限公司 语音信号的混音方法和装置
CN101697644A (zh) * 2009-10-29 2010-04-21 青岛海信移动通信技术股份有限公司 移动终端的输出混音方法及相关装置
CN102572588A (zh) * 2011-12-14 2012-07-11 中兴通讯股份有限公司 一种实现机顶盒混音的方法及装置
CN103578514A (zh) * 2012-08-01 2014-02-12 北大方正集团有限公司 歌曲播放方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019062541A1 (zh) * 2017-09-26 2019-04-04 华为技术有限公司 一种实时数字音频信号混音的方法及装置
CN108881957A (zh) * 2017-11-02 2018-11-23 北京视联动力国际信息技术有限公司 一种多媒体文件的混合方法和装置
CN112256626A (zh) * 2020-10-16 2021-01-22 北京声智科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN113658602A (zh) * 2021-08-16 2021-11-16 广州大彩光电科技有限公司 一种实时混音方法及装置
CN115250367A (zh) * 2021-11-12 2022-10-28 稿定(厦门)科技有限公司 用于混合多媒体文件的方法及装置
CN115250367B (zh) * 2021-11-12 2024-05-28 稿定(厦门)科技有限公司 用于混合多媒体文件的方法及装置

Also Published As

Publication number Publication date
CN106782576B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN106782576A (zh) 音频混音方法及装置
CN106792075A (zh) 视频播放方法及装置
CN106792170A (zh) 视频处理方法及装置
CN108093315A (zh) 视频生成方法及装置
CN107423106A (zh) 支持多框架语法的方法和装置
CN108259991A (zh) 视频处理方法及装置
CN107729522A (zh) 多媒体资源片段截取方法及装置
CN106960014A (zh) 关联用户推荐方法及装置
CN106899875A (zh) 外挂字幕的显示控制方法及装置
CN108174269A (zh) 可视化音频播放方法及装置
CN108924644A (zh) 视频片段提取方法及装置
CN106791535A (zh) 视频录制方法及装置
CN108540850A (zh) 弹幕显示方法及装置
CN106991018A (zh) 界面换肤的方法及装置
CN110322532A (zh) 动态图像的生成方法及装置
CN110121106A (zh) 视频播放方法及装置
CN106873994A (zh) 界面显示方法及装置
CN106896915A (zh) 基于虚拟现实的输入控制方法及装置
CN106897399A (zh) 文字显示方法和装置
CN107895190A (zh) 神经网络模型的权值量化方法及装置
CN107135147A (zh) 共享位置信息的方法、装置及计算机可读存储介质
CN106850813A (zh) 网络服务地址切换方法及装置
CN108364635A (zh) 一种语音识别的方法和装置
CN108289229A (zh) 多媒体资源的互动方法及装置
CN107959751A (zh) 音频播放方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200526

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.