CN116634221A - 基于Android系统的多路音频源自动混音方法、系统、装置及介质 - Google Patents
基于Android系统的多路音频源自动混音方法、系统、装置及介质 Download PDFInfo
- Publication number
- CN116634221A CN116634221A CN202310540062.0A CN202310540062A CN116634221A CN 116634221 A CN116634221 A CN 116634221A CN 202310540062 A CN202310540062 A CN 202310540062A CN 116634221 A CN116634221 A CN 116634221A
- Authority
- CN
- China
- Prior art keywords
- audio
- volume
- voice
- parameters
- environmental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 93
- 230000007613 environmental effect Effects 0.000 claims abstract description 68
- 238000001914 filtration Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 14
- 230000006872 improvement Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了基于Android系统的多路音频源自动混音方法、系统、装置及介质,依据获取到的至少两路音频流进行解析,得到所述音频流中的人声音频的人声音频参数和所述音频流中的环境音频的环境音频参数;根据所述人声音频参数进行人声音频的音量控制处理,得到目标人声音频;根据所述人声音频参数和所述环境音频参数进行音量均衡处理,得到音量均衡后的音频;根据所述环境音频参数和所述音量均衡后的音频进行环境音频的音量控制处理,得到目标环境音频;基于所述目标人声音频和所述目标环境音频进行混音处理,得到混音音频。本发明自动调节多路音频,同时自动调节音量大小,提高直播设备的音频体验及观众收听体验。
Description
技术领域
本发明涉及一种音频处理技术领域,尤其涉及一种基于Android系统的多路音频源自动混音方法、系统、装置及介质。
背景技术
随着直播行业的兴起,专业直播设备遍地开花,由于主流的第三方直播平台通常只维护一套基于Android原生SDK开发的应用。如:抖音,快手。然而与手机不同的是,专业的直播设备通常会提供有多路音频接口(如:3.5mm耳机接口,USB接口,HDMI接口等),以满足用户多路音频信号输入的需求。
目前市面上的直播机,音频设置接口相对复杂,通常来源多路音频,例如,一路音频流为背景音乐,另外一路音频流为主播的人声,第三路音频流为导播的人声或者是一些效果音。在处理多路音频流时,一方面手动切换音频通道可能会引入线路噪音(电流音),音量突变(引入POP音);采集到音频时,可能会引入环境噪音,设备底噪等;另一方面对多种音频输入没有做音量均衡的策略,直播很难通过复杂音频设置选项调整到一个比较好效果,并且操作相对复杂,导致用户收看直播的过程中,感受到音质不佳,影响整体的直播体验。
发明内容
本发明的目的在于提供一种基于Android系统的多路音频源自动混音方法、系统、装置及介质,解决了一方面多路处理音频时各种噪声、音量突变;另一方面当多路音频输入设备时没有音量均衡处理,最终导致直播过程音质不佳,直播体验感差的问题。
本发明第一方面提供一种基于Android系统的多路音频源自动混音方法,包括:
依据获取到的至少两路音频流进行解析,得到音频流中的人声音频的人声音频参数和音频流中的环境音频的环境音频参数;
根据人声音频参数进行人声音频的音量控制处理,得到目标人声音频;
根据人声音频参数和环境音频参数进行音量均衡处理,得到音量均衡后的音频;
根据环境音频参数和音量均衡后的音频进行环境音频的音量控制处理,得到目标环境音频;
基于目标人声音频和目标环境音频进行混音处理,得到混音音频。
作为优选,在人声音频的音量控制处理之前,方法还包括:
根据人声音频参数进行音质提升处理,得到音质提升处理音频,其中,音质提升处理包括滤波、降噪、回声消除、人声增强中的至少一种。
作为优选,人声增强包括:
获取当前人声音频参数中的频率;
若当前人声音频参数中的频率在预设范围内,则将当前人声音频参数中的音量相对于当前环境音频参数中的音量进行提高,得到增强后的人声音频。
作为优选,在音量均衡处理之前,方法还包括:
根据环境音频参数对环境音频进行预处理,获得预处理后的环境音频,并将预处理后的环境音频的环境音频参数和人声音频参数作为音量均衡处理的输入。
作为优选,根据环境音频参数对环境音频进行预处理,获得预处理后的环境音频包括:
根据环境音频的音频输入接口,确定环境音频是否进行滤波;
若环境音频的音频输入接口为模拟信号接口,则对环境音频进行滤波,得到滤波后的环境音频;
若环境音频的音频输入接口为数字信号接口,则环境音频不进行滤波。
作为优选,根据人声音频参数和环境音频参数进行音量均衡处理,得到音量均衡后的音频包括:
若人声音频参数中的音量在预设时间内不超过阈值,则将环境音频参数中的音量恢复为默认值,得到音量均衡后的音频;
若人声音频参数中的音量在预设时间内超过阈值,则根据人声音频参数中的音量和环境音频参数中的音量之间的预设比例,调节环境音频参数中的音量,得到音量均衡后的音频。
作为优选,人声音频参数中的音量和环境音频参数中的音量之间的预设比例大于1。
本发明第二方面提供一种基于Android系统的多路音频源自动混音系统,包括:
音频解析模块,用于依据获取到的至少两路音频流进行解析,得到音频流中的人声音频的人声音频参数和音频流中的环境音频的环境音频参数;
人声音频处理模块,用于根据人声音频参数进行人声音频的音量控制处理,得到目标人声音频;
音量均衡处理模块,用于根据人声音频参数和环境音频参数进行音量均衡处理,得到音量均衡后的音频;
环境音频处理模块,用于根据环境音频参数和音量均衡后的音频进行环境音频的音量控制处理,得到目标环境音频;
混音处理模块,用于基于目标人声音频和目标环境音频进行混音处理,得到混音音频。
本发明第三方面提供一种基于Android系统的多路音频源自动混音装置,其特征在于,包括:存储器和一个或多个处理器,存储器中存储有可执行代码,一个或多个处理器执行可执行代码时,用于实现上述中任一项的一种基于Android系统的多路音频源自动混音方法。
本发明第四方面提供一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现上述中任一项的一种基于Android系统的多路音频源自动混音方法。
本发明的有益效果至少包括:本发明降低了用户对音频设备选择以及调试的时间,无需麦克风设备支持低切、降噪,降低信噪比的要求;能够滤除由于直播机与麦克风电流适配问题而产生的电流噪音;无需用户频繁的手动调节音量大小。本发明包含了背景音乐音频和人声音频音量的匹配,无需用户动态的调节不同音量大小,提高了直播设备的音频体验;由于音频采集设备可能存在的大部分噪音问题,加上能通过淡入淡出的方式动态的调节背景音乐音频与人声音频的比例,大大提高了观众的收听体验。
附图说明
图1为本发明实施例提供的一种基于Android系统的多路音频源自动混音方法的流程图;
图2为本发明实施例提供的音质提升处理方法的流程图;
图3为本发明实施例提供的又一种基于Android系统的多路音频源自动混音方法的流程图;
图4为本发明实施例提供的一种基于Android系统的多路音频源自动混音系统的框图;
图5为本发明实施例提供的一种基于Android系统的多路音频源自动混音装置的框图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于Android系统的多路音频源自动混音方法的流程示意图,如图1所示,本发明实施例的一种基于Android系统的多路音频源自动混音方法,包括:
步骤S101、依据获取到的至少两路音频流进行解析,得到音频流中的人声音频的人声音频参数和音频流中的环境音频的环境音频参数。
实际应用中,在Android应用层,提供标准SDK接口,提供给Android应用开发者进行业务逻辑开发。
Android系统服务层:连接SDK接口,用于为Android应用层提供相应的业务,如录音业务等。并定义HIDL接口,要求Audio Hal(硬件抽象层)实现相应的硬件功能,如录音需要采集默认麦克风的音频等。
Android硬件抽象层,用于将硬件的细节封装,实现HIDL接口,为Android系统服务层提供相应的硬件功能业务。如:Android系统服务层使用Android SDK AudioRecord录制音频,音频源选择默认麦克风(InputSource=0),此时Audio Hal会进行默认麦克风音频采集,并将数据按照接口规范将数据发送到音频服务(AudioFlinger)进而再给到AudioRecord。
实际应用中,采用默认设置:3.5mm TRS接口Mic In输入人声音频;3.5mm TRS接口Line In输入背景音乐音频;HDMI接口Line In输入背景音乐音频,但不仅限于此默认设置。
这里的音频参数包括但不限于音量、频率、音频能量;环境音频包括背景音乐、效果音、设备噪声或者电流音等。
需要说明的是,本实施例中依据获取到的至少两路音频流进行解析可采用以下几种方式得到音频流中人声音频的人声音频参数和环境音频的环境音频参数:
1.计算音频能量数据
首先分别累加每个采样点的能量数值,除以采样个数,得到声音数据求平均能量值。然后再将平均能量值做等比量化处理,例如,选取采样信号为16位时,则选择0-32767之间做等比量化处理得到1-100的量化值,返回结果,得到音频能量数据。
2.计算均方根求RMS能量
获取每个音频的采样点数值,将所有值平方求和,求其均值,再开平方,就得到均方根值,得到RMS能量。
3.计算分贝
利用分贝公式求解,分贝(dB)=10×log(声音功率/参考功率)
4.计算频率
将音频信号通过傅里叶变换得到频率曲线,根据频率曲线得到音频对应的频率。
步骤S102、根据人声音频参数进行人声音频的音量控制处理,得到目标人声音频。
步骤S103、根据人声音频参数和环境音频参数进行音量均衡处理,得到音量均衡后的音频。
在音量均衡处理之前,方法还包括:
根据环境音频参数对环境音频进行预处理,获得预处理后的环境音频,并将预处理后的环境音频的环境音频参数和人声音频参数作为音量均衡处理的输入。
预处理具体包括:
根据环境音频的音频输入接口,确定环境音频是否进行滤波;
若环境音频的音频输入接口为模拟信号接口,则对环境音频进行滤波,得到滤波后的环境音频;
若环境音频的音频输入接口为数字信号接口,则环境音频不进行滤波。
需要说明的是,数字音频不需要滤波,如果音频输入接口是模拟信号接口,增加滤波环节主要是滤除低频的信号,将可能存在的电流音滤除。
在音量均衡处理过程中,若人声音频参数中的音量在预设时间内不超过阈值,则将环境音频参数中的音量恢复为默认值,得到音量均衡后的音频;若人声音频参数中的音量在预设时间超过阈值,则根据人声音频参数中的音量和环境音频参数中的音量之间的预设比例,调节环境音频参数中的音量,得到音量均衡后的音频。
这里,人声音频参数中的音量和环境音频参数中的音量之间的预设比例大于1,如此设定可保证人声音频音量高于环境音频音量,从而实现突显人声,弱化环境音量的应用效果。
当然,根据音频处理需求,也可以将预设比例设定为小于1的正实数,达到突显环境音量的效果。
这里,上述阈值设定为零,即当人声音频参数中的音量在预设时间内为零,则将环境音频参数中的音量恢复为默认值,得到音量均衡后的音频;当人声音频参数中的音量在预设时间不为零,则根据人声音频参数中的音量和环境音频参数中的音量之间的预设比例,调节环境音频参数中的音量,得到音量均衡后的音频。此种设定可以灵敏感知人声的存在,也就是说获取到人声音频音量后即进行音量均衡处理。
当然,上述阈值也可以设定为任一大于零的数值a。在某些应用场景中,可能存在远端的人声杂音或低语杂声,这些声音是不希望被进行放大处理的,则当人声音频的音量在预设时间内不超过a时,环境音频参数中的音量恢复为默认值;当人声音频的音量在预设时间内超过阈值a时,则进行上述音量均衡处理。此种设定可以相对缓冲远端的人声杂音或低语杂声对音频均衡处理的影响,突显真正需要表现的人声音频内容。
这里,针对不同的场景,可以设置不同的预设时间,例如,在直播应用场景中会存在主播的人声和背景音乐,若检测到人声的音量,设置预设时间为10s,即10s内未检测到人声,则将背景音乐的音量恢复到默认值;若检测到主播关闭麦克风,设置预设时间为6s,即主播将麦克风关闭6s则将背景音乐的音量恢复到默认值。若检测到主播开始说话,则将背景音乐音量设置为人声音量的1/3,以确保主播的人声能被听清。可以理解,此处背景音乐音量设置相对于人声音量的比例可调,可以按照实际需求进行预设。
步骤S104、根据环境音频参数和音量均衡后的音频进行环境音频的音量控制处理,得到目标环境音频;
在步骤S102和步骤S104中,音量控制处理采用音量控制器Fader处理,Fader处理主要用于平滑的调节音量,以及实现音频的渐入和渐出效果。应用在人声音频的音量控制处理时,当突然大声说话,麦克风可能会出现音量跳变从而导致出现POP音,此时音量控制Fader处理主要采用cubic fader曲线,控制cubic fader曲线中多个值,相邻值之间减低一次音量,使麦克风接收到的音量以淡入淡出的方式调节音量,避免突然大声导致出现的POP音。举个例子,突然大声说话出现的人声音量为100,目标调整的音量为50,那么通过cubicfader曲线,得到10个渐变音量的值如:90 80 75 70 66 63 58 56 54 50,每30ms降低一次音量,约300ms既能完成音量控制处理。同理在环境音频的音量控制处理时为了避免突然环境音频的音量很大,出现音量跳变从而导致出现POP音,也是采用上述方式,使得能够实现以淡入淡出的方式调节音量,此处不再一一赘述。
步骤S105、基于目标人声音频和目标环境音频进行混音处理,得到混音音频。
一种优选的实现方式中,应用程序默认使用AudioRecord麦克风录音,将本申请实施例提供的多路音频处理后的混音音频传输至AudioRecord,第三方应用不需要进行任何适配工作。
图2为本发明实施例提供的音质提升处理方法的流程图,如图2所示,在图1所示流程的基础上,在人声音频的音量控制处理之前,还包括:根据人声音频参数进行音质提升处理,得到音质提升处理音频,其中,音质提升处理包括滤波、降噪、回声消除、人声增强中的至少一种。
作为一个优选地实施例,音质提升处理方法包括:
步骤S201、若人声音频参数中的频率小于预设值,则通过低切滤波对人声音频进行滤波处理,得到滤波后的人声音频。
在步骤S201中先判断人声音频参数中的频率是否小于预设值,若是,则通过低切滤波对人声音频进行滤波处理。实际应用中大部分人声都在100hz频率以上,而把100hz以下恰恰是电流声的高发频率,所以用低切滤波的方式来去除这些噪音,在本实施例中,采用高通滤波器将低频信号去除。
步骤S202、对滤波后的人声音频进行降噪处理,得到降噪后的人声音频。
在本实施例中,采用思必驰降噪算法对低切滤波后的人声音频进行降噪处理,得到降噪后的人声音频。
需要说明的是,思必驰降噪算法采用传统信号处理结合深度学习技术智能降噪,消除稳态噪声和非稳态噪声。
其中,稳态噪声是指在测量时间内,被测声源的声级起伏不大于3dB(A)的噪声;如设备底噪、风扇,空调转动产生的噪音。
非稳态噪声是指在测量时间内,被测声源的声级起伏大于3dB(A)的噪声。
步骤S203、对降噪后的人声音频进行回声消除处理,得到回声消除后的人声音频。
在一种优选示例中,由于用户在使用麦克风录音时的同时会使用扬声器,而通常扬声器发出的声音并不是需要录制进去的声音,可以在音频配置设置回声消除功能,滤除采集中混有扬声器的音频。进一步优选地,回声消除功能具体为采集音频信号和播放信号,通过高通的flence算法将播放信号进行消除。
步骤S204、对回声消除后的人声音频进行增强处理,得到增强后的人声音频。
获取当前回声消除后的人声音频参数中的频率;
若当前回声消除后的人声音频参数中的频率在预设范围内,则将当前回声消除后的人声音频参数中的音量相对于当前环境音频参数中的音量进行提高,得到增强后的人声音频。
具体的,将人声音频中说话的频率150-1000hz,进行增强,以突出人声,获取当前的人声和背景声大小,将人声提高6db左右。一般人正常说话的频段为150-1000hz,因此需要对150-1000hz的声音进行增强,而低于150hz的声音为噪声或者人低语时几乎听不见的声音不需要进行人声增强,高于1000hz不属于人说话声音的频段,因此不需要进行人声增强。提高人声音量的方法可通过自动增益控制算法(AGC),通过实时检测人声音频和背景音乐的音量,确保人声音频比背景音乐音频的音量高。
步骤S205、将增强后的人声音频确定为音质提升处理音频。
图3为本发明实施例提供的又一种优选的基于Android系统的多路音频源自动混音方法的流程图,如图3所示,基于Android系统的多路音频源自动混音方法包括:
依据获取到的人声音频和背景音乐音频进行解析,得到人声音频的音量和频率,以及背景音乐音频的音量和频率;其中,背景音乐音频作为本申请实施例中的环境音频。
针对人声音频的处理过程:
利用低切滤波去除人声音频的频率小于100hz频率的人声音频,得到滤波后的人声音频;
采用思必驰降噪算法对滤波后的人声音频进行降噪处理,得到降噪后的人声音频。
对降噪后的人声音频进行回声消除处理,得到回声消除后的人声音频;
将当前回声消除后的人声音频的频率在150-500hz范围内的人声音频相对于背景音乐音频进行提高,即将人声音频的音量提高6db,得到增强后的人声音频;
将增强后的人声音频确定为音质提升处理音频。
根据实时采集到的人声音频的音量和增强后的人声音频采用音量控制器Fader处理,得到目标人声音频,防止突然大声说话,出现音量跳变或出现POP音。
针对背景音乐音频的处理过程:
若背景音乐音频的音频输入接口为模拟信号接口,则对背景音乐音频进行滤波,得到滤波后的背景音乐音频,并将滤波后的背景音乐音频的音量和人声音频的音量作为音量均衡处理的输入;
音量均衡处理过程:
若检测到人声音频10s内无人说话或者主播关闭麦克风6s则将背景音乐的音量恢复到默认值。
若检测到人声音频的音量不为零,则将背景音乐音频的音量设置为人声音频的音量的1/3,以确保人声音频能被听清。
根据实时采集到的背景音乐音频的音量和音量均衡后的音频音量采用音量控制器Fader处理,控制背景音乐渐入和渐出的效果,得到目标背景音乐音频。
最后将上述处理后的目标人声音频和目标背景音乐音频进行混音处理,得到混音音频。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种基于Android系统的多路音频源自动混音系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4为本发明实施例提供的一种基于Android系统的多路音频源自动混音系统的框图,如图4所示,一种基于Android系统的多路音频源自动混音系统,包括:
音频解析模块301,用于依据获取到的至少两路音频流进行解析,得到音频流中的人声音频的人声音频参数和音频流中的环境音频的环境音频参数;
人声音频处理模块302,用于根据人声音频参数进行人声音频的音量控制处理,得到目标人声音频;
音量均衡处理模块303,用于根据人声音频参数和环境音频参数进行音量均衡处理,得到音量均衡后的音频;
环境音频处理模块304,用于根据环境音频参数和音量均衡后的音频进行环境音频的音量控制处理,得到目标环境音频;
混音处理模块305,用于基于目标人声音频和目标环境音频进行混音处理,得到混音音频。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
与前述一种基于Android系统的多路音频源自动混音方法的实施例相对应,本发明还提供了一种基于Android系统的多路音频源自动混音装置的实施例。
图5为本发明实施例提供的一种基于Android系统的多路音频源自动混音装置,如图5所示,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种基于Android系统的多路音频源自动混音方法。
本发明一种基于Android系统的多路音频源自动混音装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明一种基于Android系统的多路音频源自动混音装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于Android系统的多路音频源自动混音方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于Android系统的多路音频源自动混音方法,其特征在于,包括:
依据获取到的至少两路音频流进行解析,得到所述音频流中的人声音频的人声音频参数和所述音频流中的环境音频的环境音频参数;
根据所述人声音频参数进行人声音频的音量控制处理,得到目标人声音频;
根据所述人声音频参数和所述环境音频参数进行音量均衡处理,得到音量均衡后的音频;
根据所述环境音频参数和所述音量均衡后的音频进行环境音频的音量控制处理,得到目标环境音频;
基于所述目标人声音频和所述目标环境音频进行混音处理,得到混音音频。
2.根据权利要求1所述的基于Android系统的多路音频源自动混音方法,其特征在于,在所述人声音频的音量控制处理之前,所述方法还包括:
根据所述人声音频参数进行音质提升处理,得到音质提升处理音频,其中,所述音质提升处理包括滤波、降噪、回声消除、人声增强中的至少一种。
3.根据权利要求2所述的基于Android系统的多路音频源自动混音方法,其特征在于,所述人声增强包括:
获取当前所述人声音频参数中的频率;
若当前所述人声音频参数中的频率在预设范围内,则将当前所述人声音频参数中的音量相对于当前所述环境音频参数中的音量进行提高,得到增强后的人声音频。
4.根据权利要求1所述的基于Android系统的多路音频源自动混音方法,其特征在于,在所述音量均衡处理之前,所述方法还包括:
根据所述环境音频参数对所述环境音频进行预处理,获得预处理后的环境音频,并将所述预处理后的环境音频的环境音频参数和所述人声音频参数作为所述音量均衡处理的输入。
5.根据权利要求4所述的基于Android系统的多路音频源自动混音方法,其特征在于,根据所述环境音频参数对所述环境音频进行预处理,获得预处理后的环境音频包括:
根据所述环境音频的音频输入接口,确定所述环境音频是否进行滤波;
若所述环境音频的音频输入接口为模拟信号接口,则对所述环境音频进行滤波,得到滤波后的环境音频;
若所述环境音频的音频输入接口为数字信号接口,则所述环境音频不进行滤波。
6.根据权利要求1所述的基于Android系统的多路音频源自动混音方法,其特征在于,根据所述人声音频参数和所述环境音频参数进行音量均衡处理,得到音量均衡后的音频包括:
若所述人声音频参数中的音量在预设时间内不超过阈值,则将所述环境音频参数中的音量恢复为默认值,得到音量均衡后的音频;
若所述人声音频参数中的音量在预设时间内超过阈值,则根据所述人声音频参数中的音量和所述环境音频参数中的音量之间的预设比例,调节所述环境音频参数中的音量,得到音量均衡后的音频。
7.根据权利要求6所述的基于Android系统的多路音频源自动混音方法,其特征在于,所述人声音频参数中的音量和所述环境音频参数中的音量之间的预设比例大于1。
8.一种基于Android系统的多路音频源自动混音系统,其特征在于,包括:
音频解析模块,用于依据获取到的至少两路音频流进行解析,得到所述音频流中的人声音频的人声音频参数和所述音频流中的环境音频的环境音频参数;
人声音频处理模块,用于根据所述人声音频参数进行人声音频的音量控制处理,得到目标人声音频;
音量均衡处理模块,用于根据所述人声音频参数和所述环境音频参数进行音量均衡处理,得到音量均衡后的音频;
环境音频处理模块,用于根据所述环境音频参数和所述音量均衡后的音频进行环境音频的音量控制处理,得到目标环境音频;
混音处理模块,用于基于所述目标人声音频和所述目标环境音频进行混音处理,得到混音音频。
9.一种基于Android系统的多路音频源自动混音装置,其特征在于,包括:存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-7中任一项所述的基于Android系统的多路音频源自动混音方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-7中任一项所述的基于Android系统的多路音频源自动混音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310540062.0A CN116634221A (zh) | 2023-05-11 | 2023-05-11 | 基于Android系统的多路音频源自动混音方法、系统、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310540062.0A CN116634221A (zh) | 2023-05-11 | 2023-05-11 | 基于Android系统的多路音频源自动混音方法、系统、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116634221A true CN116634221A (zh) | 2023-08-22 |
Family
ID=87596580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310540062.0A Pending CN116634221A (zh) | 2023-05-11 | 2023-05-11 | 基于Android系统的多路音频源自动混音方法、系统、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116634221A (zh) |
-
2023
- 2023-05-11 CN CN202310540062.0A patent/CN116634221A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101461141B1 (ko) | 잡음 억제기를 적응적으로 제어하는 시스템 및 방법 | |
US9881635B2 (en) | Method and system for scaling ducking of speech-relevant channels in multi-channel audio | |
US9361901B2 (en) | Integrated speech intelligibility enhancement system and acoustic echo canceller | |
EP2920880B1 (en) | Audio loudness control system | |
US9208767B2 (en) | Method for adaptive audio signal shaping for improved playback in a noisy environment | |
US9431982B1 (en) | Loudness learning and balancing system | |
US20090287496A1 (en) | Loudness enhancement system and method | |
US20110002467A1 (en) | Dynamic enhancement of audio signals | |
CN106878866A (zh) | 音频信号处理方法、装置及终端 | |
KR20140116152A (ko) | 베이스 강화 시스템 | |
CN112954115A (zh) | 一种音量调节方法、装置、电子设备及存储介质 | |
EP4074068B1 (en) | Multiband limiter modes and noise compensation methods | |
KR20160014027A (ko) | 오디오 신호를 압축하는 디지털 압축기 | |
CN112534717A (zh) | 响应于反馈的多声道音频增强、解码及渲染 | |
WO2021133779A1 (en) | Audio device with speech-based audio signal processing | |
CN112585868B (zh) | 响应于压缩反馈进行音频增强 | |
CN103812462A (zh) | 响度控制方法及装置 | |
CN116634221A (zh) | 基于Android系统的多路音频源自动混音方法、系统、装置及介质 | |
CN114727194A (zh) | 麦克风音量控制方法、装置、设备及存储介质 | |
US11343635B2 (en) | Stereo audio | |
EP4333464A1 (en) | Hearing loss amplification that amplifies speech and noise subsignals differently | |
CN113730914A (zh) | 一种音频调节方法、装置及计算机可读存储介质 | |
CN116778949A (zh) | 个性化响度补偿方法、装置、计算机设备和存储介质 | |
GB2494894A (en) | Dynamic range control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |