CN116030822A - 一种音频信号增强方法、装置、设备及可读存储介质 - Google Patents

一种音频信号增强方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116030822A
CN116030822A CN202211649357.3A CN202211649357A CN116030822A CN 116030822 A CN116030822 A CN 116030822A CN 202211649357 A CN202211649357 A CN 202211649357A CN 116030822 A CN116030822 A CN 116030822A
Authority
CN
China
Prior art keywords
audio
audio signal
target
actual
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211649357.3A
Other languages
English (en)
Inventor
陈阳振
叶利剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AAC Technologies Holdings Nanjing Co Ltd
Original Assignee
AAC Technologies Holdings Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AAC Technologies Holdings Nanjing Co Ltd filed Critical AAC Technologies Holdings Nanjing Co Ltd
Priority to CN202211649357.3A priority Critical patent/CN116030822A/zh
Priority to PCT/CN2023/081940 priority patent/WO2024130865A1/zh
Publication of CN116030822A publication Critical patent/CN116030822A/zh
Priority to US18/327,009 priority patent/US20240214730A1/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请提供了一种音频信号增强方法、装置、设备及可读存储介质,首先,获取实际音频信号对应的第一音频特征,然后,将第一音频特征输入至训练完成的分类器进行分类识别,得到对应于实际音频信号的音频类型表征数据,最后,参考音频类型表征数据,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。通过本申请方案的实施,采用训练完成的分类器对实际音频信号进行分类识别,对符合目标音频类型的目标音频信号进行增强,从而有效增强目标音频信号以及提高对目标音频信号进行增强的准确性。

Description

一种音频信号增强方法、装置、设备及可读存储介质
【技术领域】
本申请涉及音频处理技术领域,尤其涉及一种音频信号增强方法、装置、设备及可读存储介质。
【背景技术】
随着越来越丰富的国内外游戏不断进入大众视线,通过电子设备玩游戏已经成为人们休闲娱乐一种方式。游戏声音通过手机等电子设备内置的微型扬声器进行外放,但由于其功率小,对游戏中微弱的音频信号例如脚步声的回放效果不好。现有技术中,为了增强节目中的微弱的音频信号,通常使用固定增益的均衡器(EQ,Equaliser)或者使用动态范围控制(DRC,Dynamic Range Control),但这种做法会压缩其他音频信号例如枪声、螺旋桨声音的动态,或者对脚步声进行调优时会影响其它声音信号的音色。
【发明内容】
本申请的目的在于提供一种音频信号增强方法、装置、设备及可读存储介质,至少能够解决相关技术中在增强目标微弱音频信号时会影响其它音频信号的效果的问题。
本申请实施例第一方面提供了一种音频信号增强方法,包括:
获取实际音频信号对应的第一音频特征;
将所述第一音频特征输入至训练完成的分类器进行分类识别,得到对应于所述实际音频信号的音频类型表征数据;
参考所述音频类型表征数据,对所述实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。
本申请实施例第二方面提供了一种音频信号增强装置,包括:
获取模块,用于获取实际音频信号对应的第一音频特征;
分类模块,用于将所述第一音频特征输入至训练完成的分类器进行分类识别,得到对应于所述实际音频信号的音频类型表征数据;
增强模块,用于参考所述音频类型表征数据,对所述实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。
本申请实施例第三方面提供了一种电子设备,包括:存储器及处理器,其中:所述处理器用于执行存储在所述存储器上的计算机程序;所述处理器执行所述计算机程序时,实现本申请实施例第一方面提供的音频信号增强方法中的各步骤。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现本申请实施例第一方面提供的音频信号增强方法中的各步骤。
由上可见,根据本申请方案所提供的音频信号增强方法、装置、设备及可读存储介质,获取实际音频信号对应的第一音频特征;将第一音频特征输入至训练完成的分类器进行分类识别,得到对应于实际音频信号的音频类型表征数据;参考音频类型表征数据,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。通过本申请方案的实施,采用训练完成的分类器对实际音频信号进行分类识别,对符合目标音频类型的目标音频信号进行增强,从而有效增强目标音频信号以及提高对目标音频信号进行增强的准确性。
【附图说明】
图1为本申请第一实施例提供的音频信号增强方法的基本流程示意图;
图2为本申请第一实施例提供的一种分帧处理的示意图;
图3为本申请第一实施例提供的一种输入音频的波形图;
图4为本申请第一实施例提供的一种输出音频的波形图;
图5为本申请第二实施例提供的音频信号增强方法的细化流程示意图;
图6为本申请第三实施例提供的一种音频信号增强装置的程序模块示意图;
图7为本申请第四实施例提供的电子设备的结构示意图。
【具体实施方式】
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决相关技术中在对目标微弱音频信号进行增强时会影响其它音频信号的效果的问题,本申请第一实施例提供了一种音频信号增强方法,如图1为本实施例提供的音频信号增强方法的基本流程图,该音频信号增强方法包括以下的步骤:
步骤101、获取实际音频信号对应的第一音频特征。
具体的,在本实施例中,实际音频信号可以是实际应用场景例如某款游戏中各种类型的音频信号,例如游戏中的人物脚步声、枪声或者螺旋桨声的音频信号。
在本实施例一些实施方式中,获取实际音频信号对应的第一音频特征的步骤之前,还包括:根据分帧指标,对实际音频信号进行分帧处理,得到第二帧信号;分别提取各第二帧信号中的音频特征,得到第二音频特征组合;其中,音频特征包括如下至少一种类型:时域特征、频域特征、时频域特征;对第二音频特征组合中目标音频特征进行平均值以及方差运算,得到第一音频特征;或,对实际音频信号以及历史音频信号的第二音频特征组合进行平均值以及方差运算,得到第一音频特征;其中,历史音频信号的信号采集时刻处于实际音频信号之前。
具体的,在本实施例中,分帧指标包括数据帧的单位长度、相邻数据帧的重叠长度(也即帧移),如图2所示本实施例可选的采用交叠分帧的形式进行分帧,通过交叠分帧可以使帧与帧之间平滑过渡,以保持连续性,单位帧长度可以是20ms,帧重叠长度为单位帧长度的1/2,也即10ms,应当理解的是,本实施例前述单位帧长度以及帧重叠长度的具体取值仅为一种典型示例,并不对本实施例构成唯一限定;在得到帧信号之后,从每一帧信号中提取音频特征,其中,音频特征可以是时域特征、频域特征、时频域特征,例如频域特征MFCC(梅尔频率倒谱系数)、LPCC(线性预测倒谱系数),并将提取得到音频特征进行组合,得到音频特征组合;并对多个相邻的帧信号的音频特征组合进行求平均值以及求方差,以提高音频特征的鲁棒性,例如采用MFCC作为音频特征,对每一个1s片段提取一组40维的MFCC系数,再进行求平均值合求方差后,得到80维的特征向量,从而每一秒钟就可以得到80维的特征向量,有效提高音频特征的鲁棒性;为了减少计算量,进行平均值和方差运算所使用的相邻帧信号数量可以适当减少;在进行实时检测的场景中,可以对当前采集的音频信号与历史采集的音频信号的音频特征组合进行求平均值和求方差。
步骤102、将第一音频特征输入至训练完成的分类器进行分类识别,得到对应于实际音频信号的音频类型表征数据。
具体的,在本实施例中,在获取音频特征之后,使用训练好的分类器对音频特征进行分类识别,并输出对应于实际音频信号的音频类型表征数据;本实施例可选的采用0和1表征音频类型,其中1表征目标音频信号例如脚步声,0表征非目标音频信号例如非脚步声。
在本实施例一些实施方式中,将第一音频特征输入至训练完成的分类器进行分类识别的步骤之前,还包括:获取预设的音频信号样本集;分别获取音频信号样本集中多个音频信号样本对应的第二音频特征,得到音频特征样本集;基于音频特征样本集对预设分类器模型进行训练,获取训练完成的分类器。
具体的,在本实施例中,预设的音频信号样本集包括目标音频信号集(例如脚步声音频数据集)和非目标音频信号集(例如非脚步声音频数据集),其中,目标音频信号集和非目标音频信号集分别包括各个场景的目标音频信号(如脚步声)和非目标音频信号(如非脚步声),由于这两个信号集用于获得一个分类器,从而这两个信号集的大小应该相当,例如脚步声数据集的时长为1小时,非脚步声数据集的时长也为1小时,并且尽可能包含更多场景的音频信号;分别提取音频信号样本集中的音频信号样本的音频特征,得到音频特征样本集,并将音频特征样本集划分为训练集和测试集,并基于该音频特征样本集中的训练集以及机器学习的分类方法对预先准备的分类器模型进行训练,得到能正确区分开目标音频信号和非目标音频信号的分类器;可以使用常用的机器学习的分类方法例如svm(高斯混合模型)、gmm(支持向量机)、卷积神经网络来对分类器模型进行训练。
进一步地,在本实施例一些实施方式中,分别获取音频信号样本集中多个音频信号样本对应的第二音频特征的步骤之前,还包括:根据预设分帧指标,对音频信号样本集中各音频信号样本进行分帧处理,得到第一帧信号;其中,分帧指标包括数据帧单位长度、相邻数据帧的重叠长度;分别提取各第一帧信号中的音频特征,得到第一音频特征组合;其中,音频特征包括如下至少一种类型:时域特征、频域特征、时频域特征;对第一音频特征组合中目标音频特征进行平均值以及方差运算,得到第二音频特征。
具体的,在本实施例中,音频特征样本集中的音频特征的提取以及维度与实际音频信号的音频特征的提取以及维度一致,但在对音频特征样本集中的音频特征组合进行运算时所使用的相邻帧信号数量会更多些;预设分帧指标也包括数据帧的单位长度、数据帧重叠长度,也采用交叠分帧的形式进行分帧,单位帧长度可以是10ms至20ms,帧重叠长度为单位帧长度的1/2;在得到帧信号之后,从每一帧信号中提取音频特征,音频特征也可以是时域特征、频域特征、时频域特征;并将提取得到音频特征进行组合,得到音频特征组合;并对多个相邻的帧信号的音频特征组合进行求平均值以及求方差,得到音频特征样本集中的音频特征。
步骤103、参考音频类型表征数据,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。
具体的,在本实施例中,通过参考分类器识别输出的结果,可以只对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,从而得到增强的音频信号。
在本实施例一些实施方式中,参考音频类型表征数据,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号的步骤,包括:对音频类型表征数据进行预设次数的中值过滤,得到无异常值的音频类型表征数据;当无异常值的音频类型表征数据对应于目标音频类型时,对实际音频信号中符合目标音频类型的不同频段的目标音频信号进行增益和/或动态范围增强,得到增强音频信号。
具体的,在本实施例中,当分类器输出音频类型表征数据0/1信号之后,还可以通过中值滤波器对0/1信号进行中值滤波,可以进行一次滤波也可以进行两次滤波,以去除异常值,得到方波信号,本实施例采用的中值滤波器窗口长度为3;当音频类型表征数据为1时,通过EQ/DRC对不同频段的目标音频信号进行增益和/或动态范围增强;而对于音频类型表征数据为0时,不开启EQ/DRC进行增强处理,其中,EQ用于对不同频段的目标音频信号进行增益,通常使用peak滤波器,DRC可以是多频带的,用于对不同频段的目标音频信号进行不同参数的动态压缩或增强处理,得到增强音频信号。
进一步地,在本实施例一些实施方式中,对实际音频信号中符合目标音频类型的不同频段的目标音频信号进行增益和/或动态范围增强的步骤,包括:针对实际音频信号中符合目标音频类型的不同频段的所述目标音频信号,参考预设的均衡器淡入淡出时间进行增益,和/或,参考预设的动态范围控制的时间参数进行动态范围增强。
具体的,在本实施例中,由于只对目标音频信号进行增强处理,而对于非目标音频信号不开启增强处理,这种增强与不增强来回切换的硬增强的方式,会出现声音忽大忽小甚至POP音(电平跳变),因此可以通过设置淡入时间fadein和淡出时间fadeout来调整EQ对目标音频信号如脚步声进行增益,或者调整DRC的时间参数以对目标音频信号如脚步声进行动态范围增强;这种软增强形式能在脚步声和非脚步声之间进行参数平滑切换,从而提高实际场景中目标音频信号如脚步声音源的整体回放效果。
在本实施例一些实施方式中,参考音频类型表征数据,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号的步骤之后,还包括:对增强音频信号进行限幅处理,得到无削波的增强音频信号。
具体的,在本实施例中,为防止增强后的音频信号过大出现削顶的情况,还会通过限幅器limiter对增强后的音频信号进行限幅处理,得到无削波的增强音频信号。如图3所示为输入的音频信号的波形图,在经过增强以及限幅处理后输出的音频信号的波形如图4所示,其中,图3以及图4所示的波形图的横坐标表示时间,单位为s,纵坐标表示音频信号的声音强度也即声压,单位为V。
基于上述本申请实施例的技术方案,获取实际音频信号对应的第一音频特征;将第一音频特征输入至训练完成的分类器进行分类识别,得到对应于实际音频信号的音频类型表征数据;参考音频类型表征数据,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。通过本申请方案的实施,采用训练完成的分类器对实际音频信号进行分类识别,对符合目标音频类型的目标音频信号进行增强,从而有效增强目标音频信号以及提高对目标音频信号进行增强的准确性。
图5中的方法为本申请第二实施例提供的一种细化的音频信号增强方法,该音频信号增强方法包括:
步骤501、获取实际音频信号对应的第一音频特征。
具体的,在本实施例中,实际音频信号可以是实际应用场景例如某款游戏中各种类型的音频信号,例如游戏中的人物脚步声、枪声或者螺旋桨声的音频信号。
步骤502、基于音频特征样本集对预设分类器模型进行训练,获取训练完成的分类器。
具体的,在本实施例中,预设的音频信号样本集包括目标音频信号集例如脚步声音频数据集和非目标音频信号集例如非脚步声音频数据集,其中,目标音频信号集和非目标音频信号集分别包括各个场景的目标音频信号如脚步声和非目标音频信号如非脚步声;分别提取音频信号样本集中的音频信号样本的音频特征,得到音频特征样本集,并将音频特征样本集划分为训练集和测试集,并基于该音频特征样本集中的训练集以及机器学习的分类方法对预先准备的分类器模型进行训练,得到能正确区分开目标音频信号和非目标音频信号的分类器;可以使用常用的机器学习的分类方法例如svm(高斯混合模型)、gmm(支持向量机)、卷积神经网络来对分类器模型进行训练。
步骤503、将第一音频特征输入至训练完成的分类器进行分类识别,得到对应于实际音频信号的音频类型表征数据。
具体的,在本实施例中,在获取音频特征之后,使用训练好的分类器对音频特征进行分类识别,并输出对应于实际音频信号的音频类型表征数据,本实施例可选的采用0和1表征音频类型,其中1表征目标音频信号例如脚步声,0表征非目标音频信号例如非脚步声。
步骤504、对音频类型表征数据进行预设次数的中值过滤,得到无异常值的音频类型表征数据。
具体的,在本实施例中,当分类器输出音频类型表征数据0/1信号之后,还可以通过中值滤波器对0/1信号进行中值滤波,可以进行一次滤波也可以进行两次滤波,以去除异常值,得到方波信号,本实施例采用的中值滤波器窗口长度为3。
步骤505、当无异常值的音频类型表征数据对应于目标音频类型时,对实际音频信号中符合目标音频类型的不同频段的目标音频信号进行增益和/或动态范围增强,得到增强音频信号。
当音频类型表征数据为1时,通过EQ/DRC对不同频段的目标音频信号进行增益和/或动态范围增强;而对于音频类型表征数据为0时,不开启EQ/DRC进行增强处理,其中,EQ用于对不同频段的目标音频信号进行增益,通常使用peak滤波器,DRC可以是多频带的,用于对不同频段的目标音频信号进行不同参数的动态压缩或增强处理,得到增强音频信号。
步骤506、对增强音频信号进行限幅处理,得到无削波的增强音频信号。
具体的,在本实施例中,为防止增强后的音频信号过大出现削顶的情况,还会通过限幅器limiter对增强后的音频信号进行限幅处理,得到无削波的增强音频信号。
应当理解的是,本实施例中各步骤的序号的大小并不意味着步骤执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成唯一限定。
本申请实施例公开了一种音频信号增强方法,获取实际音频信号对应的第一音频特征;获取训练完成的分类器;将第一音频特征输入至训练完成的分类器进行分类识别,得到对应于实际音频信号的音频类型表征数据;再对该音频类型表征数据进行预设次数的中值过滤,得到无异常值的音频类型表征数据,当无异常值的音频类型表征数据对应于目标音频类型时,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号,还可对增强音频信号进行限幅处理,得到无削波的增强音频信号。通过本申请方案的实施,采用训练完成的分类器对实际音频信号进行分类识别,对符合目标音频类型的目标音频信号进行增强,从而有效增强目标音频信号以及提高对目标音频信号进行增强的准确性,并且再通过限幅处理,可有效保证增强的音频信号的完整性。
图6为本申请第三实施例提供的一种音频信号增强装置。该音频信号增强装置可用于实现前述实施例中的音频信号增强方法。如图6所示,该音频信号增强装置主要包括:
获取模块601,用于获取实际音频信号对应的第一音频特征;
分类模块602,用于将第一音频特征输入至训练完成的分类器进行分类识别,得到对应于实际音频信号的音频类型表征数据;
增强模块603,用于参考音频类型表征数据,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。
在本实施例的一些实施方式中,音频信号增强装置还包括:第一运算模块,用于根据分帧指标,对实际音频信号进行分帧处理,得到第二帧信号;分别提取各第二帧信号中的音频特征,得到第二音频特征组合;其中,音频特征包括如下至少一种类型:时域特征、频域特征、时频域特征;对第二音频特征组合中目标音频特征进行平均值以及方差运算,得到第一音频特征;或,对实际音频信号以及历史音频信号的第二音频特征组合进行平均值以及方差运算,得到第一音频特征;其中,历史音频信号的信号采集时刻处于实际音频信号之前。
在本实施例的一些实施方式中,音频信号增强装置还包括:训练模块,用于获取预设的音频信号样本集;分别获取音频信号样本集中多个音频信号样本对应的第二音频特征,得到音频特征样本集;基于音频特征样本集对预设分类器模型进行训练,获取训练完成的分类器。
进一步地,在本实施例一些实施方式中,音频信号增强装置还包括:第二运算模块,用于根据预设分帧指标,对音频信号样本集中各音频信号样本进行分帧处理,得到第一帧信号;其中,分帧指标包括数据帧单位长度、相邻数据帧的重叠长度;分别提取各第一帧信号中的音频特征,得到第一音频特征组合;其中,音频特征包括如下至少一种类型:时域特征、频域特征、时频域特征;对第一音频特征组合中目标音频特征进行平均值以及方差运算,得到第二音频特征。
在本实施例一些实施方式中,增强模块603具体用于:对音频类型表征数据进行预设次数的中值过滤,得到无异常值的音频类型表征数据;当无异常值的音频类型表征数据对应于目标音频类型时,对实际音频信号中符合目标音频类型的不同频段的目标音频信号进行增益和/或动态范围增强,得到增强音频信号。
进一步地,在本实施例一些实施方式中,增强模块603还用于:针对实际音频信号中符合目标音频类型的不同频段的所述目标音频信号,参考预设的均衡器淡入淡出时间进行增益,和/或,参考预设的动态范围控制的时间参数进行动态范围增强。
在本实施例一些实施方式中,音频信号增强装置还包括:限幅模块,用于对增强音频信号进行限幅处理,得到无削波的增强音频信号。
应当说明的是,第一、二实施例中的音频信号增强方法均可基于本实施例提供的音频信号增强装置实现,所属领域的普通技术人员可以清楚的了解到,为描述的方便和简洁,本实施例中所描述的音频信号增强装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
根据本实施例所提供的音频信号增强装置,获取实际音频信号对应的第一音频特征;将第一音频特征输入至训练完成的分类器进行分类识别,得到对应于实际音频信号的音频类型表征数据;参考音频类型表征数据,对实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。通过本申请方案的实施,采用训练完成的分类器对实际音频信号进行分类识别,对符合目标音频类型的目标音频信号进行增强,从而有效增强目标音频信号以及提高对目标音频信号进行增强的准确性。
请参阅图7,图7为本申请第四实施例提供的一种电子设备。该电子设备可用于实现前述实施例中的音频信号增强方法。如图7所示,该电子设备主要包括:存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序703。处理器702执行该计算机程序703时,实现前述实施例中的音频信号增强方法。其中,处理器的数量可以是一个或多个。
存储器701可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器701用于存储可执行程序代码,处理器702与存储器701耦合。
进一步地,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子设备中,该计算机可读存储介质可以是前述图7所示实施例中的存储器。
该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述实施例中的音频信号增强方法。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的音频信号增强方法、装置、设备及可读存储介质的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种音频信号增强方法,其特征在于,包括:
获取实际音频信号对应的第一音频特征;
将所述第一音频特征输入至训练完成的分类器进行分类识别,得到对应于所述实际音频信号的音频类型表征数据;
参考所述音频类型表征数据,对所述实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。
2.根据权利要求1所述的音频信号增强方法,其特征在于,所述将所述第一音频特征输入至训练完成的分类器进行分类识别的步骤之前,还包括:
获取预设的音频信号样本集;
分别获取所述音频信号样本集中多个音频信号样本对应的第二音频特征,得到音频特征样本集;
基于所述音频特征样本集对预设分类器模型进行训练,获取训练完成的所述分类器。
3.根据权利要求2所述的音频信号增强方法,其特征在于,所述分别获取所述音频信号样本集中多个音频信号样本对应的第二音频特征的步骤之前,还包括:
根据预设分帧指标,对所述音频信号样本集中各音频信号样本进行分帧处理,得到第一帧信号;其中,所述分帧指标包括数据帧单位长度、相邻数据帧的重叠长度;
分别提取各所述第一帧信号中的音频特征,得到第一音频特征组合;其中,所述音频特征包括如下至少一种类型:时域特征、频域特征、时频域特征;
对所述第一音频特征组合中目标音频特征进行平均值以及方差运算,得到所述第二音频特征。
4.根据权利要求3所述的音频信号增强方法,其特征在于,所述获取实际音频信号对应的第一音频特征的步骤之前,还包括:
根据所述分帧指标,对所述实际音频信号进行分帧处理,得到第二帧信号;
分别提取各所述第二帧信号中的音频特征,得到第二音频特征组合;其中,所述音频特征包括如下至少一种类型:时域特征、频域特征、时频域特征;
对所述第二音频特征组合中目标音频特征进行平均值以及方差运算,得到所述第一音频特征;
或,对所述实际音频信号以及历史音频信号的所述第二音频特征组合进行平均值以及方差运算,得到所述第一音频特征;其中,所述历史音频信号的信号采集时刻处于所述实际音频信号之前。
5.根据权利要求1所述的音频信号增强方法,其特征在于,所述参考所述音频类型表征数据,对所述实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号的步骤,包括:
对所述音频类型表征数据进行预设次数的中值过滤,得到无异常值的音频类型表征数据;
当所述无异常值的音频类型表征数据对应于所述目标音频类型时,对所述实际音频信号中符合目标音频类型的不同频段的所述目标音频信号进行增益和/或动态范围增强,得到增强音频信号。
6.根据权利要求5所述的音频信号增强方法,其特征在于,所述对所述实际音频信号中符合目标音频类型的不同频段的所述目标音频信号进行增益和/或动态范围增强的步骤,包括:
针对所述实际音频信号中符合目标音频类型的不同频段的所述目标音频信号,参考预设的均衡器淡入淡出时间进行增益,和/或,参考预设的动态范围控制的时间参数进行动态范围增强。
7.根据权利要求1至6任意一项所述的音频信号增强方法,其特征在于,所述参考所述音频类型表征数据,对所述实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号的步骤之后,还包括:
对所述增强音频信号进行限幅处理,得到无削波的增强音频信号。
8.一种音频信号增强装置,其特征在于,包括:
获取模块,用于获取实际音频信号对应的第一音频特征;
分类模块,用于将所述第一音频特征输入至训练完成的分类器进行分类识别,得到对应于所述实际音频信号的音频类型表征数据;
增强模块,用于参考所述音频类型表征数据,对所述实际音频信号中符合目标音频类型的目标音频信号进行增强处理,得到增强音频信号。
9.一种电子设备,其特征在于,包括:存储器及处理器,其中:
所述处理器用于执行存储在所述存储器上的计算机程序;
所述处理器执行所述计算机程序时,实现权利要求1至7中任意一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7中的任意一项所述方法中的步骤。
CN202211649357.3A 2022-12-21 2022-12-21 一种音频信号增强方法、装置、设备及可读存储介质 Pending CN116030822A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202211649357.3A CN116030822A (zh) 2022-12-21 2022-12-21 一种音频信号增强方法、装置、设备及可读存储介质
PCT/CN2023/081940 WO2024130865A1 (zh) 2022-12-21 2023-03-16 一种音频信号增强方法、装置、设备及可读存储介质
US18/327,009 US20240214730A1 (en) 2022-12-21 2023-05-31 Audio signal enhancement method, apparatus, device, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211649357.3A CN116030822A (zh) 2022-12-21 2022-12-21 一种音频信号增强方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116030822A true CN116030822A (zh) 2023-04-28

Family

ID=86071574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211649357.3A Pending CN116030822A (zh) 2022-12-21 2022-12-21 一种音频信号增强方法、装置、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN116030822A (zh)
WO (1) WO2024130865A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305616B (zh) * 2018-01-16 2021-03-16 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN110503967B (zh) * 2018-05-17 2021-11-19 中国移动通信有限公司研究院 一种语音增强方法、装置、介质和设备
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
CN113614684A (zh) * 2018-09-07 2021-11-05 格雷斯诺特有限公司 经由音频分类进行动态音量调节的方法和装置
US20210065733A1 (en) * 2019-08-29 2021-03-04 Mentor Graphics Corporation Audio data augmentation for machine learning object classification

Also Published As

Publication number Publication date
WO2024130865A1 (zh) 2024-06-27

Similar Documents

Publication Publication Date Title
CN109473123B (zh) 语音活动检测方法及装置
CN111128214B (zh) 音频降噪方法、装置、电子设备及介质
CN108877823B (zh) 语音增强方法和装置
CN110956957A (zh) 语音增强模型的训练方法及系统
CN107464563B (zh) 一种语音交互玩具
JP2005049859A (ja) オーディオデータを自動的に認識する方法及び装置
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
CN110580914A (zh) 一种音频处理方法、设备及具有存储功能的装置
CN108806707A (zh) 语音处理方法、装置、设备及存储介质
CN112185410B (zh) 音频处理方法及装置
CN113571047A (zh) 一种音频数据的处理方法、装置及设备
CN113012710A (zh) 一种音频降噪方法及存储介质
Petkov et al. Spectral dynamics recovery for enhanced speech intelligibility in noise
CN109741761B (zh) 声音处理方法和装置
US20240013775A1 (en) Patched multi-condition training for robust speech recognition
CN116030822A (zh) 一种音频信号增强方法、装置、设备及可读存储介质
CN115910018B (zh) 一种提高静音舱语音私密性的方法和装置
US20240214730A1 (en) Audio signal enhancement method, apparatus, device, and readable storage medium
CN115457973A (zh) 说话人分割方法、系统、终端及存储介质
CN112151054B (zh) 音频降噪处理方法、装置、服务器及存储介质
CN112669872B (zh) 一种音频数据的增益方法及装置
KR20220053498A (ko) 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치
JP2023539121A (ja) オーディオコンテンツの識別
CN111462757A (zh) 基于语音信号的数据处理方法、装置、终端及存储介质
CN117727298B (zh) 基于深度学习的手提电脑语音识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination