CN113643719A - 音频信号处理方法、装置、存储介质及终端设备 - Google Patents
音频信号处理方法、装置、存储介质及终端设备 Download PDFInfo
- Publication number
- CN113643719A CN113643719A CN202110992047.0A CN202110992047A CN113643719A CN 113643719 A CN113643719 A CN 113643719A CN 202110992047 A CN202110992047 A CN 202110992047A CN 113643719 A CN113643719 A CN 113643719A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- power
- mixed
- audio
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 575
- 238000003672 processing method Methods 0.000 title abstract description 22
- 230000003321 amplification Effects 0.000 claims abstract description 54
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims description 52
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000010355 oscillation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种音频信号处理方法、装置、存储介质及终端设备,所述方法应用于终端设备,包括:获取接收到的混合音频信号,获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号,基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数,按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号,使得用户听到功率值稳恒的音频的声音,避免在声音时大时小的情况下反复对终端设备进行手动音量调整,提升了会议效果,进而提升了用户体验。
Description
技术领域
本申请涉及音频信号处理技术领域,尤其涉及一种音频信号处理方法、装置、存储介质及终端设备。
背景技术
随着智能语音终端设备的普及,线上会议场景越来越频繁的应用到我们的办公系统。当在线上会议场景或其它线上会议场景时,离麦克风远处的人发言时,其声音往往较小,轮到离麦克风较近的人发言时,声音又突然变大,导致用户听到的声音时大时小,在多人同时发言的场景下,混合的声音中不同发言者的声音有大有小,影响会议效果。
发明内容
本申请实施例提供了一种音频信号处理方法、装置、存储介质及终端设备,应用于终端设备,可以在线上会议场景下,解决有人发言时声音时大时小,多人发言时声音有大有小的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种音频信号处理方法,所述方法应用于终端设备,所述方法包括:
获取接收到的混合音频信号,获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号;
基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数;
按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号。
第二方面,本申请实施例提供了一种音频信号处理装置,所述音频信号处理装置包括:
功率获取模块,用于获取接收到的混合音频信号,获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号;
倍数确定模块,用于基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数;
信号放大模块,用于按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号。
第三方面,本申请实施例提供一种存储介质,所述存储介质存储有至少一条指令,所述至少一条指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端设备,可包括:处理器和存储器;其中,所述存储器存储有至少一条指令,所述至少一条指令适于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
采用本申请实施例提供的音频信号处理方法,首先获取接收到的混合音频信号,然后获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号,基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数,按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号,使得用户听到功率值稳恒的音频信号的声音,避免在声音时大时小的情况下反复对终端设备进行手动音量调整,提升会议效果,进而提升了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供了一种线上会议的通讯架构图;
图2为本申请实施例提供了一种音频信号处理方法的流程示意图;
图3为本申请实施例提供了一种音频信号处理方法的流程示意图;
图4为本申请实施例提供了一种音频信号处理方法的流程示意图;
图5为本申请实施例提供了一种音频信号处理装置的结构示意图;
图6为本申请实施例提供了一种终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了更清楚的描述本发明实施例的技术方案,在描述之前,对本发明中的一些概念进行详细描述以便更好的理解本方案。
音频信号:是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体,在本申请实施例中是指线上会议中,参会人员说话的声音经终端设备采集转换的信号。
频谱:频谱是频率谱密度的简称,就是频率的分布曲线。复杂振荡分解为振幅不同和频率不同的谐振荡,这些谐振荡的幅值按频率排列的图形叫做频谱,它是从频域上对信号的研究。
时域-频域快速傅里叶变换:用于将音频信号从时域变换到频域。
随着社会的进步以及科技的发展,近年来,线上会议在各大小企业变的越来越常见。然而在进行线上会议时,由于每个人设备的性能不同、每个人说话声音大小不同、说话时距离麦克风的远近不同,会使得音频信号接收端接收到音量时大时小的音频信号,这种音量时大时小的音频信号可能会使得用户无法准确听清音频内容,用户为能够清晰听到音频内容需要反复调节终端设备的音频输出的音量值,严重影响用户体验,尤其在多人混合发言时,发言人的声音有大有小,调节终端设备的音频输出的音量值的方式也无法解决多人混合发言时各发言人的声音有大有小的问题。
本申请实施例提出了一种音频信号处理方法,用以解决在线上会议场景下,终端设备接收到的音频信号音量时大时小以及在多人发言时不同发言人的对应的音频信号的音量有大有小的问题。所述音频信号处理方法应用于终端设备,所述终端设备包括但不限于手机、笔记本电脑、平板电脑、智能手表等具有通讯功能的终端设备。
在本申请实施例中,首先获取接收到的混合音频信号,然后获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号,基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数,然后按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出调整后的音频信号,使得用户听到功率值稳恒的音频的声音,避免在声音时大时小的情况下反复对终端设备进行手动音量调整,且通过对混合音频信号中的各音频信号分别计算放大倍数进行调整,使得在多人同时发言的场景下各发言人的声音音量保持一致,提升了用户体验。
请参见图1,为本申请实施例提供了一种线上会议的通讯架构图。如图1所示,所示架构图包括一个音频信号接收端以及至少一个音频信号发出端。所示音频信号发出端包括麦克风组件,用以接收线上会议场景下发言人的发出的声音,并将声音由模拟音频信号转换成数字音频信号,所示音频信号发出端用以将采集声音并将声音以音频信号的形式发送至音频信号接收端。所示音频信号接收端可以接收并播放所示音频信号发出端所发送的音频信号。所示音频信号接收端和音频信号发出端均为终端设备。
需要说明的是,图1所示的线上会议的通讯架构图仅示例性的展示了音频信号由多台终端设备采集产生并传输至一台终端设备的示例性演示。在实际通话过程中,音频信号的接收和发送是同时的,互不干扰的。参与线上会议的终端设备均可以同时作为音频信号接收端和音频信号发出端,当作为音频信号接收端时,可以接收除本设备之外的其余所有终端设备的发送的音频信号,当作为音频信号发出端时,可以将本设备采集到的音频信号发送给其余所有终端设备。本申请实施例提出的音频信号处理方法主要应用于终端设备作为音频信号接收端进行音频信号接收的场景下。
下面结合具体的实施例进行详细说明。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。附图中所示的流程图仅是示例性说明,不是必须按照所示步骤执行。例如,有的步骤是并列的,在逻辑上并没有严格的先后关系,因此实际执行顺序是可变的。
结合图1所示的通讯架构图,请参见图2,为本申请实施例提供了一种音频信号处理方法的流程示意图。本申请实施例以该方法应用于终端设备为例进行说明。如图2所示,所述音频信号处理方法可以包括以下步骤S101~S103。
S101,获取接收到的混合音频信号,获取混合音频信号中各音频信号对应的功率,混合音频信号中包括至少一个音频信号;
其中,所述混合音频信号是指音频信号接收端接收到的音频信号,在线上会议的场景下,所述混合音频信号包括至少一个音频信号发出端发出的至少一种音频信号。
可以理解的是,若音频信号发出端只有一个用户在讲话,那么混合音频信号即为该用户的音频信号;若音频信号发出端有多个用户在讲话,那么混合音频信号包括多个用户分别对应的音频信号。
具体的,音频信号接收端接收由至少一个音频信号发出端发出混合音频信号,并获取混合音频信号中各音频信号分别对应的功率。
可选的,所述获取混合音频信号中各音频信号分别对应的功率可以是基于各音频信号的音频特征在所述混合音频信号中识别出所述混合音频信号所包含的音频信号,以及各音频信号在所述混合音频信号中所占的权重,然后将所述混合音频信号从时域变换到频域,得到所述混合音频信号的频谱图,基于混合音频信号的频谱图计算混合音频信号的功率,然后基于各音频信号在所述混合音频信号中所占的权重以及混合音频信号的功率计算混合音频信号中各音频信号分别对应的功率。
可选的,所述获取混合音频信号中各音频信号分别对应的功率还可以是基于各音频信号的音频特征在所述混合音频信号中识别出所述混合音频信号所包含的音频信号,将所述混合音频信号所包含的各音频信号分别进行时域到频域的变换,得到混合音频信号中各音频信号分别对应的频谱图,基于各音频信号分别对应的频谱图计算各音频信号分别对应的功率。
S102,基于各功率以及功率阈值,计算各音频信号分别对应的放大倍数;
其中,所述功率阈值是指预设的符合人耳听力习惯的音频信号的功率值,所述功率阈值可以根据不同用户的听力习惯进行调节。
具体的,基于混合音频信号中各音频信号分别对应的功率以及功率阈值,计算各音频信号分别对应的放大倍数。所述放大倍数是指功率阈值与各音频信号分别对应的功率之间的比值。
其中,若放大倍数>1,则表示音频信号接收端接收到的音频信号对应的功率较小,需要进行放大;若放大倍数<1,则表示音频信号接收端接收到的音频信号对应的功率较大,需要进行缩小。所述音频信号对应的功率较小,则所述音频信号播放出来的音量就越小,同样的,所述音频信号对应的功率较大,则所述音频信号播放出来的音量就越大。
S103,按照各音频信号分别对应的放大倍数,对各音频信号进行调整,并输出各调整后的音频信号。
具体的,按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,若所述音频信号的对应的放大倍数大于1,则对各音频信号进行放大调整,若所述音频信号的对应的放大倍数小于1,则对各音频信号进行缩小调整,以使得各所述音频信号对应的功率均达到功率阈值,然后输出调整后的各音频信号。
所述对各音频信号进行调整可以是指对音频信号各频点对应的幅值进行调整。
在本申请实施例中,首先获取接收到的混合音频信号,然后获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号,基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数,然后按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号,使得用户听到功率值稳恒的音频的声音,避免在声音时大时小的情况下反复对终端设备进行手动音量调整,且通过对混合音频信号中的各音频信号分别计算放大倍数进行调整,使得在多人同时发言的场景下各发言人的声音音量保持一致,提升会议效果,进而提升了用户体验。
请参见图3,为本申请实施例提供了一种音频信号处理方法的流程示意图。本申请实施例的执行主体为终端设备。如图3所示,所述音频信号处理方法可以包括以下步骤。
S201,分别提取各样本音频信号的音频特征;
具体的,获取各样本音频信号的第一频谱,基于所述第一频谱对所述样本音频信号进行归一化处理,得到所述样本音频信号的音频特征。
可选的,所述获取各样本音频信号的第一频谱可以是通过时域-频域快速傅里叶变换将各样本音频信号由时域转换到频域,得到各样本音频信号的第一频谱。
可选的,所述基于所述第一频谱对所述样本音频信号进行归一化处理,得到所述样本音频信号的音频特征,具体可以由以下方式实现:
假设任一样本音频信号的频谱表示为az1,az2,…,azn,则其归一化信号为:
其中,Pt为样本音频信号的功率,azx为样本音频信号在第一频谱中各频点的幅值,n为频点的数量,为进行归一化之后的各频点的值。即将频谱表示为az1,az2,…,azn的样本音频信号进行归一化之后,可得到一维数组所述一维数组 即为样本音频信号的音频特征。
可以理解的是,若混合音频信号包括不止一个音频信号,为了能在混合音频信号中将各音频信号进行区分,需要在接收混合音频信号之前,提供与混合音频信号中各音频信号音频特征相同的几种样本音频信号,提取各样本音频信号的音频特征,所述音频特征与混合音频信号中各音频信号的音频特征相同。
例如,在线上会议正式开始前,由每个参会人员分别单独说一句话作为样本音频信号,分别提取各样本音频信号的音频特征,即可得到每个参会人员讲话的音频特征,这样在多人发言时,就可以根据每个参会人员讲话的音频特征识别出混合音频信号中包含哪些音频信号。
S202,获取接收到的混合音频信号,基于各样本音频信号的音频特征识别混合音频信号中所包含的各音频信号;
具体的,获取接收到的混合音频信号,基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,通过确定与所述混合音频信号相关的样本音频信号来确定所述混合音频信号中包含的各音频信号,所述样本音频信号和音频信号音频特征相同。
所述短时互相关即将样本音频信号和混合音频信号进行对比,通过提取两种信号的短时互相关函数,可以求得两者之间的相关度。本申请实施例中,样本音频信号是指会议开始前每个参会人员单独发言时的音频信号,基于样本音频信号的音频特征对样本音频信号和混合音频信号进行短时互相关,可以识别所述混合音频信号中包含哪些参会人员发言产生的音频信号。
在一种的可能的实施方式中,基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理之后,可以得到各所述样本音频信号和所述混合音频信号的相关度,将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重,然后排除权重不满足预设权重阈值的音频信号,确定在所述混合音频信号中所占的权重大于预设权重阈值的音频信号为所述混合音频信号中所包含的音频信号。此方法可以排除混合音频信号中的一些无用杂音以及进行短时互相关处理时误识别出的音频信号,避免将一些无用的误差音频信号进行放大。
S203,确定各音频信号对应的功率;
具体的,基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,得到各所述样本音频信号和所述混合音频信号的相关度,将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重,获取所述混合音频信号的第二频谱,基于所述第二频谱计算所述混合音频信号的功率,基于所述混合音频信号的功率以及各所述音频信号在所述混合音频信号中所占的权重,确定各所述音频信号的功率。
可选的,所述获取所述混合音频信号的第二频谱可以是通过时域-频域快速傅里叶变换将混合音频信号由时域转换到频域,得到混合音频信号的第一频谱。
可选的,所述基于所述第二频谱计算所述混合音频信号的功率,具体可由如下方式实现:
其中,Ptotal为混合音频信号的功率,dzx为音频信号在第二频谱中各频点的幅值,n为频点的数量。
可选的,所述基于所述混合音频信号的功率以及各所述音频信号在所述混合音频信号中所占的权重,确定各所述音频信号的功率,具体可由如下方式实现:
在一个实施例中,所述确定各所述音频信号对应的功率还可以通过获取各所述音频信号的第三频谱,基于所述第三频谱计算各所述音频信号的功率。
可选的,所述获取各所述音频信号的第三频谱可以是通过时域-频域快速傅里叶变换将各所述音频信号由时域转换到频域,得到各所述音频信号的第一频谱。
可选的,所述基于所述第三频谱计算各所述音频信号的功率,具体可由如下方式实现:
其中,Px为音频信号的功率,bzx为音频信号在第三频谱中各频点的幅值,n为频点的数量。
S204,基于各功率以及功率阈值,计算各音频信号分别对应的放大倍数;
具体的,基于混合音频信号中各音频信号分别对应的功率以及功率阈值,计算各音频信号分别对应的放大倍数。所述放大倍数是指功率阈值与各音频信号分别对应的功率之间的比值。如下式所示:
其中,所述S为放大倍数,所述Ptarget为功率阈值,所述Px为音频信号对应的功率。
S205,按照各音频信号分别对应的放大倍数,对各音频信号进行调整,并输出各调整后的音频信号。
具体的,按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,以使得各所述音频信号对应的功率均达到功率阈值,然后输出调整后的各音频信号。
在本申请实施例中,首先提取各样本音频信号的音频特征,获取接收到的混合音频信号,然后获取接收到的混合音频信号,基于各样本音频信号的音频特征识别混合音频信号中所包含的各音频信号,再确定各音频信号对应的功率,然后基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数,最后按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号,使得用户听到功率值稳恒的音频信号的声音,避免在声音时大时小的情况下需要反复对终端设备进行手动音量调整,且通过对混合音频信号中的各音频信号分别计算放大倍数进行调整,使得在多人同时发言的场景下各发言人的声音音量保持一致,提升会议效果,进而提升了用户体验。
与上述图2或图3所示的实施例一致的,请参见图4,为本申请实施例提供了一种音频信号处理方法的流程示意图。如图4所示,所述音频信号处理方法可以包括以下步骤。
S301,获取各样本音频信号的第一频谱;
S302,基于第一频谱对样本音频信号进行归一化处理,得到样本音频信号的音频特征;
S303,基于各样本音频信号的音频特征对各样本音频信号和混合音频信号做短时互相关处理,得到各样本音频信号和混合音频信号的相关度,将相关度作为与样本音频信号的音频特征相匹配的音频信号在混合音频信号中所占的权重;
S304,确定在混合音频信号中所占的权重大于预设权重阈值的音频信号为混合音频信号中所包含的音频信号;
S305,获取混合音频信号的第二频谱,基于第二频谱计算混合音频信号的功率;
S306,基于混合音频信号的功率以及各音频信号在混合音频信号中所占的权重,确定各音频信号的功率;
S307,基于各功率以及功率阈值,计算各音频信号分别对应的放大倍数;
S308,按照各音频信号分别对应的放大倍数,对各音频信号进行调整,并输出各调整后的音频信号。
在本申请实施例中,首先获取各样本音频信号的第一频谱,基于所述第一频谱对所述样本音频信号进行归一化处理,得到所述样本音频信号的音频特征,然后基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,得到各所述样本音频信号和所述混合音频信号的相关度,通过将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重,确定在所述混合音频信号中所占的权重大于预设权重阈值的音频信号为所述混合音频信号中所包含的音频信号,滤除了无用的误差音频信号,保证了音频信号处理的效果;然后获取所述混合音频信号的第二频谱,基于所述第二频谱计算所述混合音频信号的功率,基于所述混合音频信号的功率以及各所述音频信号在所述混合音频信号中所占的权重,确定各所述音频信号的功率,再基于各功率以及功率阈值,计算出各音频信号分别对应的放大倍数,最后按照各音频信号分别对应的放大倍数,对各音频信号进行调整,并输出各调整后的音频信号,使得用户听到功率值稳恒的音频信号的声音,避免在声音时大时小的情况下需要反复对终端设备进行手动音量调整,且通过对混合音频信号中的各音频信号分别计算放大倍数进行调整,使得在多人同时发言的场景下各发言人的声音音量保持一致,提升会议效果,进而提升了用户体验。
请参见图5,为本申请实施例提供了一种音频信号处理装置的结构示意图。如图5所示,该音频信号处理装置1可以通过软件、硬件或者两者的结合实现成为终端设备的全部或一部分。根据一些实施例,该音频信号处理装置1包括,功率获取模块11、倍数确定模块12、信号放大模块13,具体包括:
功率获取模块11,用于获取接收到的混合音频信号,获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号;
倍数确定模块12,用于基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数;
信号放大模块13,用于按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号。
可选的,所述装置还包括:
特征提取模块14,用于分别提取各样本音频信号的音频特征;
可选的,所述功率获取模块11,包括:
功率确定单元111,用于基于各样本音频信号的音频特征识别所述混合音频信号中所包含的各音频信号,确定各所述音频信号对应的功率。
可选的,所述特征提取模块14,具体用于:
获取各样本音频信号的第一频谱;
基于所述第一频谱对所述样本音频信号进行归一化处理,得到所述样本音频信号的音频特征。
可选的,所述功率确定单元111,包括:
权重计算子单元1111,用于基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,得到各所述样本音频信号和所述混合音频信号的相关度,将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重;
信号确定子单元1112,用于确定在所述混合音频信号中所占的权重大于预设权重阈值的音频信号为所述混合音频信号中所包含的音频信号。
可选的,所述功率确定单元111,包括:
权重计算子单元1113,用于基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,得到各所述样本音频信号和所述混合音频信号的相关度,将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重;
功率计算子单元1114,用于获取所述混合音频信号的第二频谱,基于所述第二频谱计算所述混合音频信号的功率;
功率确定子单元1115,用于基于所述混合音频信号的功率以及各所述音频信号在所述混合音频信号中所占的权重,确定各所述音频信号的功率。
可选的,所述功率确定子单元1115,具体用于:
可选的,所述功率确定单元111,包括:
频谱获取子单元1116,用于获取各所述音频信号的第三频谱;
功率计算子单元1117,用于基于所述第三频谱计算各所述音频信号的功率。
可选的,所述倍数确定模块12,具体用于:
其中,所述S为放大倍数,所述Ptarget为功率阈值,所述Px为音频信号对应的功率。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,首先获取各样本音频信号的第一频谱,基于所述第一频谱对所述样本音频信号进行归一化处理,得到所述样本音频信号的音频特征,然后基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,得到各所述样本音频信号和所述混合音频信号的相关度,通过将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重,确定在所述混合音频信号中所占的权重大于预设权重阈值的音频信号为所述混合音频信号中所包含的音频信号,滤除了无用的误差音频信号,保证了音频信号处理的效果;然后获取所述混合音频信号的第二频谱,基于所述第二频谱计算所述混合音频信号的功率,基于所述混合音频信号的功率以及各所述音频信号在所述混合音频信号中所占的权重,确定各所述音频信号的功率,再基于各功率以及功率阈值,计算出各音频信号分别对应的放大倍数,最后按照各音频信号分别对应的放大倍数,对各音频信号进行调整,并输出各调整后的音频信号,使得用户听到功率值稳恒的音频信号的声音,避免在声音时大时小的情况下需要反复对终端设备进行手动音量调整,且通过对混合音频信号中的各音频信号分别计算放大倍数进行调整,使得在多人同时发言的场景下各发言人的声音音量保持一致,提升会议效果,进而提升了用户体验。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图4所示实施例的所述音频信号处理方法,具体执行过程可以参见图1~图4所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图4所示实施例的所述音频信号处理方法,具体执行过程可以参见图1~图4所示实施例的具体说明,在此不进行赘述。
请参考图6,其示出了本申请一个示例性实施例提供的终端设备的结构方框图。本申请中的终端设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行终端设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)、可编程逻辑阵列(programmable logicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit,CPU)、图像处理器(graphics processing unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(random Access Memory,RAM),也可以包括只读存储器(read-only memory,ROM)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在本申请实施例中,输入装置130可以为温度传感器,用于获取终端设备的运行温度。输出装置140可以为扬声器,用于输出音频信号。
除此之外,本领域技术人员可以理解,上述附图所示出的终端设备的结构并不构成对终端设备的限定,终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在本申请实施例中,各步骤的执行主体可以是上文介绍的终端设备。可选地,各步骤的执行主体为终端设备的操作系统。操作系统可以是安卓系统,也可以是IOS系统,或者其它操作系统,本申请实施例对此不作限定。
在图6所示的终端设备中,处理器110可以用于调用存储器120中存储的音频信号处理程序,并执行以实现如本申请各个方法实施例所述的音频信号处理方法。
在本申请实施例中,首先获取各样本音频信号的第一频谱,基于所述第一频谱对所述样本音频信号进行归一化处理,得到所述样本音频信号的音频特征,然后基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,得到各所述样本音频信号和所述混合音频信号的相关度,通过将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重,确定在所述混合音频信号中所占的权重大于预设权重阈值的音频信号为所述混合音频信号中所包含的音频信号,滤除了无用的误差音频信号,保证了音频信号处理的效果;然后获取所述混合音频信号的第二频谱,基于所述第二频谱计算所述混合音频信号的功率,基于所述混合音频信号的功率以及各所述音频信号在所述混合音频信号中所占的权重,确定各所述音频信号的功率,再基于各功率以及功率阈值,计算出各音频信号分别对应的放大倍数,最后按照各音频信号分别对应的放大倍数,对各音频信号进行调整,并输出各调整后的音频信号,使得用户听到功率值稳恒的音频信号的声音,避免在声音时大时小的情况下需要反复对终端设备进行手动音量调整,且通过对混合音频信号中的各音频信号分别计算放大倍数进行调整,使得在多人同时发言的场景下各发言人的声音音量保持一致,提升会议效果,进而提升了用户体验。
本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(Field-ProgrammaBLE GateArray,FPGA)、集成电路(Integrated Circuit,IC)等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
Claims (11)
1.一种音频信号处理方法,其特征在于,所述方法包括:
获取接收到的混合音频信号,获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号;
基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数;
按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号。
2.根据权利要求1所述的方法,其特征在于,所述混合音频信号中包括至少两个音频信号,所述获取接收到的混合音频信号之前,还包括:
分别提取各样本音频信号的音频特征;
所述获取所述混合音频信号中各音频信号对应的功率,包括:
基于各样本音频信号的音频特征识别所述混合音频信号中所包含的各音频信号,确定各所述音频信号对应的功率。
3.根据权利要求2所述的方法,其特征在于,所述分别提取各样本音频信号的音频特征,包括:
获取各样本音频信号的第一频谱;
基于所述第一频谱对所述样本音频信号进行归一化处理,得到所述样本音频信号的音频特征。
4.根据权利要求2所述的方法,其特征在于,所述基于各样本音频信号的音频特征识别所述混合音频信号中所包含的各音频信号,包括:
基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,得到各所述样本音频信号和所述混合音频信号的相关度,将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重;
确定在所述混合音频信号中所占的权重大于预设权重阈值的音频信号为所述混合音频信号中所包含的音频信号。
5.根据权利要求2所述的方法,其特征在于,所述确定各所述音频信号对应的功率,包括:
基于各样本音频信号的音频特征对各所述样本音频信号和混合音频信号做短时互相关处理,得到各所述样本音频信号和所述混合音频信号的相关度,将所述相关度作为与所述样本音频信号的音频特征相匹配的音频信号在所述混合音频信号中所占的权重;
获取所述混合音频信号的第二频谱,基于所述第二频谱计算所述混合音频信号的功率;
基于所述混合音频信号的功率以及各所述音频信号在所述混合音频信号中所占的权重,确定各所述音频信号的功率。
7.根据权利要求2所述的方法,其特征在于,所述确定各所述音频信号对应的功率,包括:
获取各所述音频信号的第三频谱;
基于所述第三频谱计算各所述音频信号的功率。
9.一种音频信号处理装置,其特征在于,所述装置包括:
功率获取模块,用于获取接收到的混合音频信号,获取所述混合音频信号中各音频信号对应的功率,所述混合音频信号中包括至少一个音频信号;
倍数确定模块,用于基于各所述功率以及功率阈值,计算各所述音频信号分别对应的放大倍数;
信号放大模块,用于按照各所述音频信号分别对应的放大倍数,对各所述音频信号进行调整,并输出各调整后的音频信号。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~8中任意一项所述方法的步骤。
11.一种终端设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~8中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110992047.0A CN113643719A (zh) | 2021-08-26 | 2021-08-26 | 音频信号处理方法、装置、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110992047.0A CN113643719A (zh) | 2021-08-26 | 2021-08-26 | 音频信号处理方法、装置、存储介质及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113643719A true CN113643719A (zh) | 2021-11-12 |
Family
ID=78424076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110992047.0A Pending CN113643719A (zh) | 2021-08-26 | 2021-08-26 | 音频信号处理方法、装置、存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113643719A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102196338A (zh) * | 2010-03-19 | 2011-09-21 | 宏碁股份有限公司 | 扬声系统及其控制方法 |
US20150310875A1 (en) * | 2013-01-08 | 2015-10-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improving speech intelligibility in background noise by amplification and compression |
JP2016134706A (ja) * | 2015-01-19 | 2016-07-25 | 国立大学法人電気通信大学 | ミキシング装置、信号ミキシング方法、及びミキシングプログラム |
CN106878866A (zh) * | 2017-03-03 | 2017-06-20 | 广东欧珀移动通信有限公司 | 音频信号处理方法、装置及终端 |
CN207572065U (zh) * | 2017-12-26 | 2018-07-03 | 广州视源电子科技股份有限公司 | 多路音频调节装置和音频播放设备 |
CN208046889U (zh) * | 2018-03-07 | 2018-11-02 | 深圳市天道日新科技有限公司 | 音频采集子系统及庭审会议系统 |
CN111345047A (zh) * | 2019-04-17 | 2020-06-26 | 深圳市大疆创新科技有限公司 | 音频信号处理方法、设备及存储介质 |
CN112750444A (zh) * | 2020-06-30 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 混音方法、装置及电子设备 |
-
2021
- 2021-08-26 CN CN202110992047.0A patent/CN113643719A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102196338A (zh) * | 2010-03-19 | 2011-09-21 | 宏碁股份有限公司 | 扬声系统及其控制方法 |
US20150310875A1 (en) * | 2013-01-08 | 2015-10-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improving speech intelligibility in background noise by amplification and compression |
JP2016134706A (ja) * | 2015-01-19 | 2016-07-25 | 国立大学法人電気通信大学 | ミキシング装置、信号ミキシング方法、及びミキシングプログラム |
CN106878866A (zh) * | 2017-03-03 | 2017-06-20 | 广东欧珀移动通信有限公司 | 音频信号处理方法、装置及终端 |
CN207572065U (zh) * | 2017-12-26 | 2018-07-03 | 广州视源电子科技股份有限公司 | 多路音频调节装置和音频播放设备 |
CN208046889U (zh) * | 2018-03-07 | 2018-11-02 | 深圳市天道日新科技有限公司 | 音频采集子系统及庭审会议系统 |
CN111345047A (zh) * | 2019-04-17 | 2020-06-26 | 深圳市大疆创新科技有限公司 | 音频信号处理方法、设备及存储介质 |
CN112750444A (zh) * | 2020-06-30 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 混音方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104954555B (zh) | 一种音量调节方法及系统 | |
CN104521247B (zh) | 蓝牙耳机助听及抗噪方法和装置 | |
CN109119093A (zh) | 语音降噪方法、装置、存储介质及移动终端 | |
CN107172256B (zh) | 耳机通话自适应调整方法、装置、移动终端及存储介质 | |
CN107995360B (zh) | 通话处理方法及相关产品 | |
CN108922558B (zh) | 一种语音处理方法、语音处理装置及移动终端 | |
CN102413218A (zh) | 一种自动调节通话音质的方法、装置及通信终端 | |
CN110956976B (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
CN108418968B (zh) | 语音通话数据处理方法、装置、存储介质及移动终端 | |
CN112017681A (zh) | 定向语音的增强方法及系统 | |
US10540983B2 (en) | Detecting and reducing feedback | |
JP2024507916A (ja) | オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム | |
CN108235181A (zh) | 在音频处理装置中降噪的方法 | |
US20180350382A1 (en) | Noise reduction in audio signals | |
CN107301030A (zh) | 一种音量控制方法、装置以及一种终端 | |
CN108449497B (zh) | 语音通话数据处理方法、装置、存储介质及移动终端 | |
CN107886963B (zh) | 一种语音处理的方法、装置及电子设备 | |
CN104851423B (zh) | 一种声音信息处理方法及装置 | |
CN113284500B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN112071324B (zh) | 应用语音级别估计模型来选择输出通道的方法、系统 | |
CN113517000A (zh) | 回声消除的测试方法、终端以及存储装置 | |
CN113643719A (zh) | 音频信号处理方法、装置、存储介质及终端设备 | |
CN113393863B (zh) | 一种语音评价方法、装置和设备 | |
CN112307161B (zh) | 用于播放音频的方法和装置 | |
CN116312593A (zh) | 音频信号的噪声处理、频段划分方法及装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |