CN110767203B - 音频处理方法、装置及移动终端及存储介质 - Google Patents

音频处理方法、装置及移动终端及存储介质 Download PDF

Info

Publication number
CN110767203B
CN110767203B CN201810848289.0A CN201810848289A CN110767203B CN 110767203 B CN110767203 B CN 110767203B CN 201810848289 A CN201810848289 A CN 201810848289A CN 110767203 B CN110767203 B CN 110767203B
Authority
CN
China
Prior art keywords
audio
audio data
data
processing
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810848289.0A
Other languages
English (en)
Other versions
CN110767203A (zh
Inventor
李�浩
陈翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201810848289.0A priority Critical patent/CN110767203B/zh
Publication of CN110767203A publication Critical patent/CN110767203A/zh
Application granted granted Critical
Publication of CN110767203B publication Critical patent/CN110767203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling

Abstract

本公开提供一种音频处理方法,所述方法包括以下步骤:获取采集模块采集的第一音频数据;对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;将所述第二音频数据与用于伴奏的第三音频数据进行混音处理生成第一混音数据,所述第三音频数据为预先存储的音频数据;输出所述第一混音数据。本公开能够将音频的延时控制在一个很低的范围内,以便于在最终直播时可以将音频数据与高质量的伴奏进行混音,提高直播k歌的质量。

Description

音频处理方法、装置及移动终端及存储介质
技术领域
本公开涉及信息处理领域,具体涉及一种音频处理方法、装置及移动终端及存储介质。
背景技术
互联网的飞速发展逐渐改变了当代人的生活方式,当代人对精神文化的需求也越来越高,歌唱逐渐成为了人们喜爱的娱乐活动之一。特别是各种k歌软件产品的普及,使越来越多的人随时随地演唱或者录制自己的歌唱声音。k歌软件产品是一种将用户的歌声合成在软件提供的伴奏中,之后通过卡拉音频效果处理编辑,得到品质较好的歌唱录音结果。
目前,虽然karaoke场景在跟唱录制的技术实现已经十分成熟,但是在直播中缺乏实时渲染声音效果。现有技术中,通常是使用iPhone高级封装的AVCaptureSession,并行的采集视频和音频数据,音频采集的buffer较大,输出频次较低,处理背景音乐时不容易对齐时间轴。
因此,现有技术中,时延较大且不可控,k歌功能受限,容易出现人声伴奏无法对齐,伴奏质量差等问题,影响直播k歌的质量。
发明内容
为克服相关技术中存在的问题,本公开提供一种音频处理方法、装置及相应的移动终端,能够将音频的延时控制在一个很低的范围内,以便于在最终直播时可以将音频数据与高质量的伴奏进行混音,提高直播k歌的质量。
为实现该目的,本公开采用如下技术方案:
根据本公开实施例的第一方面,本公开提供一种音频处理方法,包括以下步骤:
获取采集模块采集的第一音频数据;
对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;
将所述第二音频数据与用于伴奏的第三音频数据进行混音处理生成第一混音数据,所述第三音频数据为预先存储的音频数据;
输出所述第一混音数据。
具体的,所述对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据,包括:
对所述第一音频数据进行降噪、混响、均衡以及变声处理。
具体的,所述获取采集模块采集的第一音频数据之后,还包括:
对所述第一音频数据进行第二音效处理以生成第四音频数据。
具体的,所述对所述第一音频数据进行第二音效处理以生成第四音频数据,包括:
依据预设的音效算法对所述第一音频数据进行处理。
具体的,所述对所述第一音频数据进行第二音效处理以生成第四音频数据之后,还包括:
将所述第四音频数据与所述第三音频数据进行混音处理生成第二混音数据。
具体的,所述将所述第四音频数据与所述第三音频数据进行混音处理生成第二混音数据之后,还包括:
将所述第二混音数据通过流媒体模块推送至分发服务器,以使分发服务器将所述第二混音数据分发至各接收音频方终端。
可选的,将所述第四音频数据与所述第三音频数据进行混音处理生成第二混音数据,包括:
将所述第四音频数据与所述第三音频数据进行时间校对,以使所述第四音频数据与所述第三音频数据的时间同步。
具体的,所述输出所述第一混音数据,包括:
将所述第一混音数据发送至接收音频回传方终端的外设声响设备。
具体的,所述第三音频数据为第三音频数据。
具体的,所述采集模块用于采集接收音频回传方终端的外设输入设备输入的所述第一音频数据。
具体的,所述接收音频回传方终端的外设输入设备包括麦克风、耳麦以及主播声卡。
根据本公开实施例的第二方面,本公开提供一种音频处理装置,包括以下步骤:
采集模块,被配置为采集第一音频数据;
处理模块,被配置为对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;
混音模块,被配置为将所述第二音频数据与第三音频数据进行混音处理生成第一混音数据,所述第三音频数据为预先存储的音频数据;
输出模块,被配置为输出所述第一混音数据。
具体的,所述处理模块,包括:
第一处理单元,被配置为对所述第一音频数据进行降噪、混响、均衡以及变声处理。
具体的,还包括:
第二音效处理模块,被配置为对所述第一音频数据进行第二音效处理以生成第四音频数据。
具体的,所述第二音效处理模块,包括:
第二处理单元,被配置为依据预设的音效算法对所述第一音频数据进行处理。
具体的,还包括:
混音单元,被配置为将所述第四音频数据与所述第三音频数据进行混音处理生成第二混音数据。
具体的,还包括:
发送单元,被配置为将所述第二混音数据通过流媒体模块推送至分发服务器,以使分发服务器将所述第二混音数据分发至各接收音频输出接方终端。
具体的,所述混音单元包括:
校对单元,被配置为将所述第四音频数据与所述第三音频数据进行时间校对,以使所述第四音频数据与所述第三音频数据的时间同步。
可选的,所述输出模块,包括:
输出单元,被配置为将所述第一混音数据发送至接收音频回传方终端的外设声响设备。
具体的,所述采集模块用于采集接收音频回传方终端的外设输入设备输入的所述第一音频数据。
具体的,所述接收音频回传方终端的外设输入设备包括麦克风、耳麦以及主播声卡。
根据本公开实施例的第三方面,本公开提供一种移动终端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行如第一方面中任一项所述的音频处理方法的步骤。
根据本公开实施例的第四方面,本公开提供一种非临时性计算机可读存储介质,其特征在于当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种音频处理方法,所述方法包括第一方面中任意一项所述的音频处理方法的步骤。
根据本公开实施例的第五方面,本公开提供一种应用程序,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种音频处理方法,所述方法包括任一技术方案所述的音频处理方法的步骤。
本公开具备如下优点:
1,本公开提供一种音频处理方法,通过获取采集模块采集的第一音频数据;对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;将所述第二音频数据与第三音频数据进行混音处理生成第一混音数据;输出所述第一混音数据。本公开通过并发处理音频数据的处理方式将音频的延时控制在一个很低的范围内,以便于最终直播时将所述第二音频数据与高质量的伴奏进行混音,提高直播k歌的质量,提升K歌效果。
2,本公开第一方面通过在采集模块的采集机制进行改进,能够将采集模块音频采集的buffer控制在很小的范围内,以控制时延;第二方面通过实时对所述第一音频数据以及所述第二音频数据进行处理,以缩短数据处理时间,提升数据处理效率,最终控制音频的时延;第三方面,本公开通过并发处理音频数据,以控制时延。本公开通过以上各种措施能够将音频时延控制在一个很低的范围内,便于后续进行混音时实现人声和伴奏的对齐以及将搞质量的伴奏混音进去,以提升K歌效果。
3,本公开还能够对所述第一音频数据进行音效处理后再与所述第三音频数据进行混音以得到所述第二混音数据,并且进行混音处理时,完成成人声和伴奏的对齐,以达到最优的音频处理效果。
综上所述,本公开在保证实时性、多功能以及高质量音效体验的前提下,获得较低的延时和更好的K歌效果,提升用户体验。
显然,上述有关本公开优点的描述是概括性的,更多的优点描述将体现在后续的实施例揭示中,以及,本领域技术人员也可以本公开所揭示的内容合理地发现本公开的其他诸多优点。
本公开附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据一示例性实施例示出的一种音频处理方法的流程图;
图2是根据一示例性实施例示出的iOS音频系统栈的架构图;
图3是根据一示例性实施例示出的一种音频处理装置的流程图;
图4为根据一示例性实施例示出的一种音频处理装置的结构示意图;
图5是根据一示例性实施例示出的一种移动终端的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种音频处理方法的流程图,如图1所示,所述音频处理方法用于移动终端中,包括以下步骤。
在步骤S11中:获取采集模块采集的第一音频数据。
本公开实施例中,所述采集模块用于采集接收音频回传方终端的外设输入设备输入的所述第一音频数据。其中,所述接收音频回传方终端的外设输入设备包括麦克风、耳麦以及主播声卡。本公开所述的接收音频回传方终端可以为主播端。
本公开利用AudioUnit技术,在保证实时性、性能以及体验的前提下,整合录制时AudioUnit的优点,将其应用于直播场景,以达到最优的音频处理效果。
具体而言,本公开使用的AudioUnit方案更接近iOS音频系统栈的底层,配合使用Audio Unit Processing Graph Services管理IO设备(IO Unit)以及混音器(Mix Unit),效果器(Effect Unit)等多个组件,获得较低的延时和更好的效果。
请参考图2,图2是根据一示例性实施例示出的iOS音频系统栈的架构图。如图2所示,所述iOS音频系统栈包括Low-Level、Mid-Level以及High-Level。
其中,(1)Low-Level主要在MAC上的音频APP实现中并且需要最大限度的实时性能的情况下使用,大部分音频APP不需要使用该层的服务。而且,在iOS上也提供了具备较高实时性能的高层API达到你的需求。例如OpenAL,在游戏中具备与I/O直接调用的实时音频处理能力。
I/O Kit,负责与硬件驱动交互。
Audio HAL,为音频硬件抽象层,使API调用与实际硬件相分离,保持独立。
Core MIDI,为MIDI流和设备提供软件抽象工作层。
Host Time Services,负责访问电脑硬件时钟。
(2)Mid-Level层功能比较齐全,包括音频数据格式转换,音频文件读写,音频流解析,插件工作支持等。
Audio Convert Services负责音频数据格式的转换。
Audio File Services负责音频数据的读写。
Audio Unit Services和Audio Processing Graph Services为支持均衡器和混音器等数字信号处理的插件。
Audio File Scream Services负责流解析。
Core Audio Clock Services负责音频音频时钟同步。
(3)High-Level是一组从低层接口组合起来的高层应用,基本上我们很多关于音频开发的工作在这一层就可以完成。
Audio Queue Services提供录制、播放、暂停、循环、和同步音频它自动采用必要的编解码器处理压缩的音频格式。
AVAudioPlayer是专为IOS平台提供的基于Objective-C接口的音频播放类,可以支持iOS所支持的所有音频的播放。
Extended Audio File Services由Audio File与Audio Converter组合而成,提供压缩及无压缩音频文件的读写能力。
OpenAL是CoreAudio对OpenAL标准的实现,可以播放3D混音效果。
AudioUnit是iOS音频系统栈的底层技术,iOS提供了混音、均衡、格式转换、实时IO录制、回放、离线渲染、语音对讲(VoIP)等音频处理插件,它们都属于不同的AudioUnit,支持动态载入和使用。AudioUnit可以单独创建使用,但更多的是被组合使用在AudioProcessing Graph容器中以达到多样的处理需要。
本公开基于以上原理,整合录制时AudioUnit的优点,将其应用于直播场景,以达到最优的音频处理效果。
在步骤S12中:对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据。
本公开实施例中,对所述第一音频数据通过第一音效处理模块采取并发处理方式进行进行第一音效处理,所述音效处理具体包括对所述第一音频数据进行进行降噪、混响、均衡以及变声处理,所述第一音效处理模块模块对时延要求较高。
需要说明的是,本公开优选对所述第一音频数据通过并发处理方式进行处理,以缩短数据处理的时间,提高数据处理的效率,最终实现控制耳返时延。
另外的,本公开还通过以下措施控制音频时延:
第一方面,本公开通过对采集模块的采集机制进行改进,能够将采集模块音频采集的缓存控制在很小的范围内,以控制时延。本公开通过该机制解决现有技术中,音频采集的缓存较大,输出频次较低,处理背景音乐时不容易对齐时间轴的问题。
第二方面,本公开通过实时对所述第一音频数据以及所述第二音频数据进行处理,以缩短数据处理时间,提升数据处理效率,最终控制音频的时延。
进一步的,本公开在获取到所述第一音频数据之后,还对所述第一音频数据进行第二音效处理生成第四音频数据。具体而言,本公开依据预设的音效算法对所述第一音频数据进行处理。所述第四音频数据用于后续与第三音频数据进行混音后输出至接收音频输出方终端,如各听众的终端,实现各听众能听到主播的音频。
在步骤S13中:将所述第二音频数据与用于伴奏的音频数据进行混音处理生成第一混音数据。
本公开实施例中,所述第二音频数据与所述第三音频数据输入到第一混音模块以通过所述第一混音模块对所述所述第二音频数据与所述第三音频数据进行混音,将所述第一混音数据输出至接收音频回传方终端的外设声响设备。所述接收音频回传方终端的外设声响设备包括但不限于扬声器、耳机等设备。
进一步的,本公开对所述第一音频数据进行第二音效处理生成第四音频数据之后,对所述第四音频数据与所述第三音频数据进行混音生成第二混音数据,同时在对所述第四音频数据与所述第三音频数据进行混音的同时完成将所述第四音频数据与所述第三音频数据进行时间校对,以使所述第四音频数据与所述第三音频数据的时间同步,以实现混音的同时完成人声与伴奏的对齐,提升音效处理效果。所述第二混音数据用于通过流媒体模块推送至分发服务器,以使分发服务器将所述第二混音数据分发至各接收音频方终端,本公开所述接收音频方终端可以各用户终端即各听众终端。
本公开优选其自身的一套音效处理算法对所述第一音频数据进行处理,以达到个性化处理音频数据的目的,并且通过控制时延更好的实现所述第四音频数据与所述第三音频数据的时间校对,完成人声与伴奏的对齐,达到更好的K歌效果,提升用户体验。
在步骤S14中:输出所述第一混音数据。
本公开实施例中,对输入的所述第一混音数据做了两套处理方法最终得到两个输出结果,即所述第一混音数据以及所述第二混音数据。所述第一混音数据对应输出至接收音频回传方终端的外设声响设备,实现主播听到自己的声音。所述第二混音数据输出至分发服务器,以便分发服务器将所述第二混音数据分发至各接收音频方终端,实现各听众可以听到主播的声音。
本公开对输出至主播的所述第一混音数据进行了所述第一音效处理以及混音处理,对输出至听众终端的所述第二混音数据进行了所述第二音效处理以及混音处理。其中所述第二音效处理更注重于音效的处理。在控制时延方面,本公开优选并发处理的方法对所述第一音频数据进行处理;在音效处理方面,本公开优选其自身设定的一套音效处理算法对所述第一音频数据做个性化处理,以提升音效处理的效果,一方面提升了主播的耳返的效果,另一方面提升了听众的体验。
图3是根据一示例性实施例示出的音频处理装置的流程框图。参照图3,该装置包括采集采集模块11、处理模块12、混音模块13以及输出模块14。
所述采集模块11,被配置为采集第一音频数据。
本公开实施例中,所述采集模块用于采集接收音频回传方终端的外设输入设备输入的所述第一音频数据。其中,所述接收音频回传方终端的外设输入设备包括麦克风、耳麦以及主播声卡。
本公开利用AudioUnit技术,在保证实时性、性能以及体验的前提下,整合录制时AudioUnit的优点,将其应用于直播场景,以达到最优的音频处理效果。
具体而言,本公开使用的AudioUnit方案更接近iOS音频系统栈的底层,配合使用Audio Unit Processing Graph Services管理IO设备(IO Unit)以及混音器(Mix Unit),效果器(Effect Unit)等多个组件,获得较低的延时和更好的效果。
请继续参考图2,图2是根据一示例性实施例示出的iOS音频系统栈的架构图。如图2所示,所述iOS音频系统栈包括Low-Level、Mid-Level以及High-Level。
其中,(1)Low-Level主要在MAC上的音频APP实现中并且需要最大限度的实时性能的情况下使用,大部分音频APP不需要使用该层的服务。而且,在iOS上也提供了具备较高实时性能的高层API达到你的需求。例如OpenAL,在游戏中具备与I/O直接调用的实时音频处理能力。
I/O Kit,负责与硬件驱动交互。
Audio HAL,为音频硬件抽象层,使API调用与实际硬件相分离,保持独立。
Core MIDI,为MIDI流和设备提供软件抽象工作层。
Host Time Services,负责访问电脑硬件时钟。
(2)Mid-Level层功能比较齐全,包括音频数据格式转换,音频文件读写,音频流解析,插件工作支持等。
Audio Convert Services负责音频数据格式的转换。
Audio File Services负责音频数据的读写。
Audio Unit Services和Audio Processing Graph Services为支持均衡器和混音器等数字信号处理的插件。
Audio File Scream Services负责流解析。
Core Audio Clock Services负责音频音频时钟同步。
(3)High-Level是一组从低层接口组合起来的高层应用,基本上我们很多关于音频开发的工作在这一层就可以完成。
Audio Queue Services提供录制、播放、暂停、循环、和同步音频它自动采用必要的编解码器处理压缩的音频格式。
AVAudioPlayer是专为IOS平台提供的基于Objective-C接口的音频播放类,可以支持iOS所支持的所有音频的播放。
Extended Audio File Services由Audio File与Audio Converter组合而成,提供压缩及无压缩音频文件的读写能力。
OpenAL是CoreAudio对OpenAL标准的实现,可以播放3D混音效果。
AudioUnit是iOS音频系统栈的底层技术,iOS提供了混音、均衡、格式转换、实时IO录制、回放、离线渲染、语音对讲(VoIP)等音频处理插件,它们都属于不同的AudioUnit,支持动态载入和使用。AudioUnit可以单独创建使用,但更多的是被组合使用在AudioProcessing Graph容器中以达到多样的处理需要。
本公开基于以上原理,整合录制时AudioUnit的优点,将其应用于直播场景,以达到最优的音频处理效果。
所述处理模块12,被配置为对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据。
请参考图4,图4为根据一示例性实施例示出的一种音频处理装置的结构示意图。如图4所示,所述音频处理装置的结构包括输入输出模块1、第一音效处理模块2、第二音效处理模块3、播放模块4、第一混音模块5、第二混音模块6以及流媒体模块7。
具体的,所述输入输出模块1包括输入单元11以及输出单元12,所述播放模块4包括伴奏播放单元41以及原唱播放单元42,所述第一混音模块5包括所述第二音频数据输入单元51、伴奏/原唱输入单元52以及混音输入单元53。
所述输入单元11连接接收音频回传方终端的麦克风、耳麦以及主播声卡等输入设备,所述采集模块即获取所述输入单元11中的所述第一音频数据,所述第一音频数据传输至所述第一音效处理模块2,经过音效处理后生成所述第二音频数据传输至所述第一混音模块5,所述第一混音模块5接收所述第一混音数据以及所述播放模块4传入的所述第三音频数据进行混音生成第一混音数据经过所述混音输出单元53输出至所述输出单元12,最终输出至接收音频回传方终端的外设声响设备如耳机。
所述第一音频数据经过所述第二音效处理模块3处理后生成所述第四音频数据,并输出至所述第二混音模块6,所述第二混音模块6接收所述第四音频数据以及所述播放模块4输入的所述第三音频数据之后进行混音生成所述第二混音数据并输出至所述流媒体模块7,通过所述流媒体模块7推送至所述分发服务器,以便所述分发服务器将所述第二混音数据分发至个用户终端。
所述处理模块12包括第一处理单元,所述第一处理单元被配置为对所述第一音频数据进行降噪、混响、均衡以及变声处理。
本公开还包括音效处理模块,所述音效处理模块被配置为对所述第一音频数据进行第二音效处理以生成第四音频数据。所述音效处理模块,包括:第二处理单元,被配置为依据预设的音效算法对所述第一音频数据进行处理。所述音效处理模块还包括混音单元,所述混音单元被配置为将所述第四音频数据与所述第三音频数据进行混音处理生成第二混音数据。所述音效处理模块还包括发送单元,所述发送单元被配置为将所述第二混音数据通过流媒体模块推送至分发服务器,以使分发服务器将所述第二混音数据分发至各接收音频输出接方终端。所述混音单元包括校对单元,所述校对单元被配置为将所述第四音频数据与所述第三音频数据进行时间校对,以使所述第四音频数据与所述第三音频数据的时间同步。
需要说明的是,本公开优选对所述第一音频数据通过并发处理方式进行处理,以缩短数据处理的时间,提高数据处理的效率,最终实现控制耳返时延。
另外的,本公开还通过以下措施控制音频时延:
第一方面,本公开通过对采集模块的采集机制进行改进,能够将采集模块音频采集的缓存控制在很小的范围内,以控制时延。本公开通过该机制解决现有技术中,音频采集的缓存较大,输出频次较低,处理背景音乐时不容易对齐时间轴的问题。
第二方面,本公开通过实时对所述第一音频数据以及所述第二音频数据进行处理,以缩短数据处理时间,提升数据处理效率,最终控制音频的时延。
进一步的,本公开在获取到所述第一音频数据之后,还对所述第一音频数据进行第二音效处理生成第四音频数据。具体而言,本公开依据预设的音效算法对所述第一音频数据进行处理。所述第四音频数据用于后续与第三音频数据进行混音后输出至接收音频输出方终端,实现各听众能听到主播的音频。
所述混音模块13,被配置为将所述第二音频数据与用于伴奏的第三音频数据进行混音处理生成第一混音数据。
本公开实施例中,所述第二音频数据与所述第三音频数据输入到混音模块以通过所述混音模块对所述所述第二音频数据与所述第三音频数据进行混音,将所述第一混音数据输出至接收音频回传方终端的外设声响设备。所述接收音频回传方终端的外设声响设备包括但不限于扬声器、耳机等设备。
进一步的,本公开对所述第一音频数据进行第二音效处理生成第四音频数据之后,对所述第四音频数据与所述第三音频数据进行混音生成第二混音数据,同时在对所述第四音频数据与所述第三音频数据进行混音的同时完成将所述第四音频数据与所述第三音频数据进行时间校对,以使所述第四音频数据与所述第三音频数据的时间同步,以实现混音的同时完成人声与伴奏的对齐,提升音效处理效果。所述第二混音数据用于通过流媒体模块推送至分发服务器,以使分发服务器将所述第二混音数据分发至各接收音频方终端。
本公开优选其自身的一套音效处理算法对所述第一音频数据进行处理,以达到个性化处理音频数据的目的,并且通过控制时延更好的实现所述第四音频数据与所述第三音频数据的时间校对,完成人声与伴奏的对齐,达到更好的K歌效果,提升用户体验。
所述输出模块14,被配置为输出所述第一混音数据。
所述输出模块14包括输出单元,所述输出单元被配置为将所述第一混音数据发送至接收音频回传方终端的外设声响设备。
本公开实施例中,对输入的所述第一混音数据做了两套处理方法最终得到两个输出结果,即所述第一混音数据以及所述第二混音数据。所述第一混音数据对应输出至接收音频回传方终端的外设声响设备,实现主播听到自己的声音。所述第二混音数据输出至分发服务器,以便分发服务器将所述第二混音数据分发至各接收音频方终端,实现各听众可以听到主播的声音。
本公开对输出至主播的所述第一混音数据进行了所述第一音效处理以及混音处理,对输出至听众终端的所述第二混音数据进行了所述第二音效处理以及混音处理。其中所述第二音效处理更注重于音效的处理。在控制时延方面,本公开优选并发处理的方法对所述第一音频数据进行处理;在音效处理方面,本公开优选其自身设定的一套音效处理算法对所述第一音频数据做个性化处理,以提升音效处理的效果,一方面提升了主播的耳返的效果,另一方面提升了听众的体验。
图5是根据一示例性实施例示出的一种用于移动终端800的框图。例如,该移动终端800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行本公开所述音频处理方法,所述方法包括:获取采集模块采集的第一音频数据;对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;将所述第二音频数据与第三音频数据进行混音处理生成第一混音数据;输出所述第一混音数据。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本公开提供的一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种音频处理方法,所述方法包括:获取采集模块采集的第一音频数据;对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;将所述第二音频数据与第三音频数据进行混音处理生成第一混音数据;输出所述第一混音数据。处理器能实现如图3所示的实施例中的一种音频处理装置的采集模块、处理模块、混音模块以及输出模块的功能。
在示例性实施例中,还提供了一种应用程序,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种音频处理方法,所述方法包括获取采集模块采集的第一音频数据;对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;将所述第二音频数据与第三音频数据进行混音处理生成第一混音数据;输出所述第一混音数据。处理器能实现如图3所示的实施例中的一种音频处理装置的采集模块、处理模块、混音模块以及输出模块的功能。。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种音频处理方法,其特征在于,包括以下步骤:
获取采集模块采集的第一音频数据;
对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;
将所述第二音频数据与第三音频数据进行混音处理生成第一混音数据,所述第三音频数据为预先存储的音频数据;
将所述第一混音数据发送至接收音频回传方终端的外设声响设备;
对所述第一音频数据进行第二音效处理以生成第四音频数据;
将所述第四音频数据与所述第三音频数据进行混音处理生成第二混音数据,包括:将所述第四音频数据与所述第三音频数据进行时间校对,以使所述第四音频数据与所述第三音频数据的时间同步;
将所述第二混音数据发送至接收音频输出方终端;
其中,第一音效处理方式与第二音效处理方式中对所述第一音频数据的处理要求不同;第一音效处理方式对时延要求高于第二音效处理方式,第二音效处理方式对音效处理的要求高于第一音效处理方式。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据,包括:
对所述第一音频数据进行降噪、混响、均衡以及变声处理。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一音频数据进行第二音效处理以生成第四音频数据,包括:
依据预设的音效算法对所述第一音频数据进行处理。
4.根据权利要求1所述的方法,其特征在于,所述将所述第四音频数据与所述第三音频数据进行混音处理生成第二混音数据之后,还包括:
将所述第二混音数据通过流媒体模块推送至分发服务器,以使分发服务器将所述第二混音数据分发至各接收音频输出方终端。
5.根据权利要求1所述的方法,其特征在于,所述采集模块用于采集接收音频回传方终端的外设输入设备输入的所述第一音频数据。
6.根据权利要求5所述的方法,其特征在于,所述接收音频回传方终端的外设输入设备包括麦克风、耳麦以及主播声卡。
7.一种音频处理装置,其特征在于,包括:
采集模块,被配置为采集第一音频数据;
处理模块,被配置为对所述第一音频数据通过并发处理方式进行第一音效处理生成第二音频数据;
混音模块,被配置为将所述第二音频数据与第三音频数据进行混音处理生成第一混音数据,所述第三音频数据为预先存储的音频数据;
输出模块,被配置为将所述第一混音数据发送至接收音频回传方终端的外设声响设备;
第二音效处理模块,被配置为对所述第一音频数据进行第二音效处理以生成第四音频数据;
混音单元,被配置为将所述第四音频数据与所述第三音频数据进行混音处理生成第二混音数据,包括:将所述第四音频数据与所述第三音频数据进行时间校对,以使所述第四音频数据与所述第三音频数据的时间同步;并将所述第二混音数据发送至接收音频输出方终端;
其中,第一音效处理方式与第二音效处理方式中对所述第一音频数据的处理要求不同;第一音效处理方式对时延要求高于第二音效处理方式,第二音效处理方式对音效处理的要求高于第一音效处理方式。
8.根据权利要求7所述的音频处理装置,其特征在于,所述处理模块,包括:
第一处理单元,被配置为对所述第一音频数据进行降噪、混响、均衡以及变声处理。
9.根据权利要求7所述的音频处理装置,其特征在于,所述第二音效处理模块,包括:
第二处理单元,被配置为依据预设的音效算法对所述第一音频数据进行处理。
10.根据权利要求7所述的音频处理装置,其特征在于,还包括:
发送单元,被配置为将所述第二混音数据通过流媒体模块推送至分发服务器,以使分发服务器将所述第二混音数据分发至各接收音频输出接方终端。
11.根据权利要求7所述的音频处理装置,其特征在于,所述采集模块用于采集接收音频回传方终端的外设输入设备输入的所述第一音频数据。
12.根据权利要求11所述的音频处理装置,其特征在于,所述接收音频回传方终端的外设输入设备包括麦克风、耳麦以及主播声卡。
13.一种移动终端,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行如权利要求1至6任一项所述的音频处理方法的步骤。
14.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种音频处理方法,所述方法包括权利要求1至6任意一项所述的音频处理方法的步骤。
CN201810848289.0A 2018-07-27 2018-07-27 音频处理方法、装置及移动终端及存储介质 Active CN110767203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810848289.0A CN110767203B (zh) 2018-07-27 2018-07-27 音频处理方法、装置及移动终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810848289.0A CN110767203B (zh) 2018-07-27 2018-07-27 音频处理方法、装置及移动终端及存储介质

Publications (2)

Publication Number Publication Date
CN110767203A CN110767203A (zh) 2020-02-07
CN110767203B true CN110767203B (zh) 2022-10-28

Family

ID=69328624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810848289.0A Active CN110767203B (zh) 2018-07-27 2018-07-27 音频处理方法、装置及移动终端及存储介质

Country Status (1)

Country Link
CN (1) CN110767203B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445901B (zh) * 2020-03-26 2023-10-03 北京达佳互联信息技术有限公司 音频数据获取方法、装置、电子设备及存储介质
CN112133267B (zh) * 2020-09-04 2024-02-13 腾讯音乐娱乐科技(深圳)有限公司 音频效果处理的方法、设备及存储介质
CN112671966B (zh) * 2021-01-18 2023-06-27 北京字节跳动网络技术有限公司 耳返时延检测装置、方法、电子设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392711A (zh) * 2014-08-27 2015-03-04 贵阳朗玛信息技术股份有限公司 一种实现卡拉ok功能的方法及装置
CN105491393A (zh) * 2015-12-02 2016-04-13 北京暴风科技股份有限公司 多人视频直播业务的实现方法
CN105872253A (zh) * 2016-05-31 2016-08-17 腾讯科技(深圳)有限公司 一种直播声音处理方法及移动终端
CN106569780A (zh) * 2016-11-04 2017-04-19 北京飞利信电子技术有限公司 一种多通道数字音频信号实时音效处理方法及系统
CN108111474A (zh) * 2016-11-25 2018-06-01 北京视联动力国际信息技术有限公司 一种混音方法和装置
CN108235052A (zh) * 2018-01-09 2018-06-29 安徽小马创意科技股份有限公司 基于ios可选择多音频通道硬件混音、采集及播放的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013048986A1 (en) * 2011-09-26 2013-04-04 Knoa Software, Inc. Method, system and program product for allocation and/or prioritization of electronic resources

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392711A (zh) * 2014-08-27 2015-03-04 贵阳朗玛信息技术股份有限公司 一种实现卡拉ok功能的方法及装置
CN105491393A (zh) * 2015-12-02 2016-04-13 北京暴风科技股份有限公司 多人视频直播业务的实现方法
CN105872253A (zh) * 2016-05-31 2016-08-17 腾讯科技(深圳)有限公司 一种直播声音处理方法及移动终端
CN106569780A (zh) * 2016-11-04 2017-04-19 北京飞利信电子技术有限公司 一种多通道数字音频信号实时音效处理方法及系统
CN108111474A (zh) * 2016-11-25 2018-06-01 北京视联动力国际信息技术有限公司 一种混音方法和装置
CN108235052A (zh) * 2018-01-09 2018-06-29 安徽小马创意科技股份有限公司 基于ios可选择多音频通道硬件混音、采集及播放的方法

Also Published As

Publication number Publication date
CN110767203A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN105191252B (zh) 用于电子通信的输出管理
WO2016177296A1 (zh) 一种生成视频的方法和装置
CN106911967B (zh) 直播回放方法及装置
CN110767203B (zh) 音频处理方法、装置及移动终端及存储介质
US20220076688A1 (en) Method and apparatus for optimizing sound quality for instant messaging
JP2017528009A (ja) マルチメディアファイルを再生するための方法及び装置
US20220291897A1 (en) Method and device for playing voice, electronic device, and storage medium
KR20080096040A (ko) 화상채팅 기록을 저장할 수 있는 이동통신 단말기 및 그동작방법
WO2019071808A1 (zh) 视频画面显示的方法、装置、系统、终端设备及存储介质
CN102868862A (zh) 应用于移动终端的视频配音方法及该设备
CN111696554B (zh) 一种翻译方法、装置、耳机和耳机收纳装置
CN110992920B (zh) 直播合唱方法、装置、电子设备及存储介质
CN104539871A (zh) 多媒体通话方法及装置
CN112532931A (zh) 一种视频处理方法、装置和电子设备
CN106792024B (zh) 多媒体信息的分享方法及装置
CN106375846B (zh) 直播音频的处理方法及装置
WO2021244135A1 (zh) 一种翻译方法、装置和耳机
CN102598536A (zh) 移动终端中使用数字生活网络联盟再现多声道内容的装置和方法
EP4009642A1 (en) Data playback method and apparatus
CN111739538B (zh) 一种翻译方法、装置、耳机和服务器
CN104851441A (zh) 实现卡拉ok的方法、装置以及家庭音响
WO2023216119A1 (zh) 音频信号编码方法、装置、电子设备和存储介质
CN111182362A (zh) 视频的控制处理方法及装置
CN113259701B (zh) 个性化音色的生成方法、装置及电子设备
CN107340990B (zh) 播放方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant