CN114302301B - 频响校正方法及相关产品 - Google Patents

频响校正方法及相关产品 Download PDF

Info

Publication number
CN114302301B
CN114302301B CN202111510542.XA CN202111510542A CN114302301B CN 114302301 B CN114302301 B CN 114302301B CN 202111510542 A CN202111510542 A CN 202111510542A CN 114302301 B CN114302301 B CN 114302301B
Authority
CN
China
Prior art keywords
audio data
power spectrum
frequency
gain
data frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111510542.XA
Other languages
English (en)
Other versions
CN114302301A (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111510542.XA priority Critical patent/CN114302301B/zh
Publication of CN114302301A publication Critical patent/CN114302301A/zh
Application granted granted Critical
Publication of CN114302301B publication Critical patent/CN114302301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请属于音视频技术领域,具体涉及一种频响校正方法、频响校正装置、计算机可读介质、电子设备以及计算机程序产品。该方法包括:对音频信号进行分帧加窗处理,得到多个待校正的音频数据帧;对所述音频数据帧进行特征映射处理,得到所述音频数据帧在各个频点上的初级功率谱增益;对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,得到所述多个音频数据帧在所述同一频点上的校正功率谱增益;根据所述校正功率谱增益对所述多个音频数据帧进行频响校正。本申请可以平衡各个音频数据帧在相同频点处的增益幅度,能够获得泛化的频响校正效果。

Description

频响校正方法及相关产品
技术领域
本申请属于音视频技术领域,具体涉及一种频响校正方法、频响校正装置、计算机可读介质、电子设备以及计算机程序产品。
背景技术
在音视频通话、音视频会议、网络直播等应用场景中,需要通过麦克风、扬声器等音频设备进行音频录制和音频播放。音频设备普遍存在有不同程度的频响非线性问题,而且大多数的频响非线性问题是在设备出厂时便已经存在的,一些频响问题较严重的设备从主观听觉上表现为声音严重失真,反映到频域信号上,即为局部频段能量集中声音过于响亮、而部分频段能量衰弱听感不明显。当长期使用频响非线性问题严重的设备进行音频录制或者音频播放时,很容易使用户产生听觉疲劳,难以集中精神继续收听。
发明内容
本申请的目的在于提供一种频响校正方法、频响校正装置、计算机可读介质、电子设备以及计算机程序产品,至少在一定程度上克服相关技术中存在的音频设备声音失真度高的技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种频响校正方法,该方法包括:
对音频信号进行分帧加窗处理,得到多个待校正的音频数据帧;
对所述音频数据帧进行特征映射处理,得到所述音频数据帧在各个频点上的初级功率谱增益;
对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,得到所述多个音频数据帧在所述同一频点上的校正功率谱增益;
根据所述校正功率谱增益对所述多个音频数据帧进行频响校正。
根据本申请实施例的一个方面,提供一种频响校正装置,该装置包括:
分帧模块,被配置为对音频信号进行分帧加窗处理,得到多个待校正的音频数据帧;
映射模块,被配置为对所述音频数据帧进行特征映射处理,得到所述音频数据帧在各个频点上的初级功率谱增益;
平滑模块,被配置为对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,得到所述多个音频数据帧在所述同一频点上的校正功率谱增益;
校正模块,被配置为根据所述校正功率谱增益对所述多个音频数据帧进行频响校正。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的频响校正方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的频响校正方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的频响校正方法。
在本申请实施例提供的技术方案中,通过对分帧加窗处理得到的音频数据帧进行特征映射,可以得到每个音频数据帧在各个频点上的初级功率谱增益,利用多个音频数据帧的初级功率谱增益在同一频点上进行增益平滑,可以平衡各个音频数据帧在相同频点处的增益幅度,因此能够获得泛化的频响校正效果,对于各种不同型号和版本的音频设备均能取得良好的声音保真效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了应用本申请技术方案的示例性系统架构框图。
图2示出了本申请一个实施例中的频响校正方法的步骤流程图。
图3示出了本申请一个实施例中对音频数据帧进行特征提取的步骤流程图。
图4示出了本申请一个实施例中对深度学习网络进行训练的步骤流程图。
图5示出了本申请一个实施例中对待校正音频信号与原始音频信号进行频域特征比较的步骤流程图。
图6示出了本申请一个实施例中的频响校正方法的数据流转框图。
图7示意性地示出了本申请实施例提供的频响校正装置的结构框图。
图8示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本申请的具体实施方式中,涉及到用户信息、音视频通话数据、语音数据等相关的数据,当本申请的各个实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在本申请的具体实施方式中,涉及一些技术术语,其中部分术语解释如下。
频响:频域响应的缩写,指的是声学器件或设备对于不同频率的信号的响应能力。通常频响特性会以频响曲线形式来表现,频响曲线越平直,说明失真越小。
频响校正:通过信号处理方法将频响曲线调节到更为平直的状态,以达到降低音频失真度的目标。
在本申请的相关技术中,常规的频响校正方法是基于一个固定幅值的正弦或余弦扫频信号作为信号激励源,由标准测试仪器测定出对应的频响曲线,针对通话设备中的拾音模块(即麦克风采集部分)和发声模块(即扬声器发声部分)分别进行频响校正。然而,声学器件(特别是扬声器部分)的频响曲线在不同幅值信号下的表现各异,与声学器件物理特性及电子器件(运算放大器、功率放大器等)的工作区间(饱和、截止、放大区间)有关。所以采用固定幅值的测试信号进行频响测定是不合理的,其频响校正结果也是不稳定的。
采用固定幅值的测试信号作为激励源进行测量的方式不能体现声学器件在不同幅值信号下频响表现各异的特性,校正效果有限且不稳定。而且,由于不同品牌厂家设备存在较大的声学差异,即使同一个品牌不同批次的设备、或者不同固件版本设备都有明显的声学差异,所以现有技术方案需要投入大量人力对这些不同声学特性的设备一一进行测量得到对应的校正参数,在实际应用中通过读取设备型号和版本型号进行服务器参数下发并执行在线频响校正。
针对相关技术中存在的问题,本申请实施例提供一种新型的频响校正方法,其优点是不需要人工干预,可以省去了大量的人力投入,而且该方案具有较好的泛化能力,能对新型号、新版本的声学设备都有很好的频响校正效果。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种具有音频输入功能和/或音频输出功能的电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,终端设备可以通过麦克风等音频输入器件进行音频数据采集,并且可以通过扬声器、音箱等音频输出器件进行音频数据播放。为克服因设备自身的频响非线性问题而导致声音失真缺陷,终端设备可以通过本地安装的软件应用程序对采集到的音频数据或者待播放的音频数据进行频响校正;另外,终端设备也可以将音频数据发送至服务器,由服务器对音频数据进行频响校正后,再返回给终端设备。
在本申请的一些实施例中,可以在终端设备或者服务器上安装基于人工智能技术的机器学习模型,并利用训练好的机器学习模型对音频数据进行频响校正。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体可参考如下实施例中的相关内容。
下面结合具体实施方式对本申请提供的频响校正方法、频响校正装置、计算机可读介质、电子设备以及计算机程序产品等技术方案做出详细说明。
图2示出了本申请一个实施例中的频响校正方法的步骤流程图,该频响校正方法可以由图1所示的终端设备或者服务器执行,也可以由终端设备或者服务器共同执行。如图2所示,该频响校正方法可以包括如下的步骤S210至步骤S240。
步骤S210:对音频信号进行分帧加窗处理,得到多个待校正的音频数据帧;
步骤S220:对音频数据帧进行特征映射处理,得到音频数据帧在各个频点上的初级功率谱增益;
步骤S230:对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,得到多个音频数据帧在同一频点上的校正功率谱增益;
步骤S240:根据校正功率谱增益对多个音频数据帧进行频响校正。
在本申请实施例提供的频响校正方法中,通过对分帧加窗处理得到的音频数据帧进行特征映射,可以得到每个音频数据帧在各个频点上的初级功率谱增益,利用多个音频数据帧的初级功率谱增益在同一频点上进行增益平滑,可以平衡各个音频数据帧在相同频点处的增益幅度,因此能够获得泛化的频响校正效果,对于各种不同型号和版本的音频设备均能取得良好的声音保真效果。
下面分别对频响校正方法的各个方法步骤做详细说明。
在步骤S210中,对音频信号进行分帧加窗处理,得到多个待校正的音频数据帧。
音频信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然音频信号具有时变特性,但在一个短时间范围内(例如在10-30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即音频信号具有短时平稳性。为实现对音频信号的短时分析,本申请实施例可以将语音信号分为一段一段来分析其特征参数,其中每一段称为一个音频数据帧。音频数据帧的帧长例如可以在10-30ms的范围内进行取值。分帧可以采用连续分段的方法,也可以采用交叠分段的方法,交叠分段可以使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值可以取值为0~1/2。
加窗处理是指利用窗函数对分帧后的音频信号进行函数映射,使得相邻的两个音频数据帧能够平稳过渡,减少数据帧在起始和结束部分信号不连续的问题,使全局具有更高的连续性,避免出现吉布斯效应。另外,通过加窗处理,也可以使原本没有周期性的音频信号呈现出周期函数的部分特征,有利于对其进行信号分析和处理。
在进行加窗处理时,应当尽量减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的信号波形缓慢降为零,减小音频数据帧的截断效应。窗口长度应当适中,如果窗口长度很大,则等效于很窄的低通滤波器,音频信号通过时,反映波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实地反映音频信号的幅度变化:反之,如果窗口长度太短,则滤波器的通带变宽,短时能量随时间有急剧的变化,不能得到平滑的能量函数。
在本申请的一个实施例中,可以选用汉明窗作为窗函数,汉明窗具有平滑的低通特性,能够在较高的程度上反映短时信号的频率特性。在其他一些实施例中,也可以选用矩形窗、海宁窗等其他类型的窗函数。
在步骤S220中,对音频数据帧进行特征映射处理,得到音频数据帧在各个频点上的初级功率谱增益。
在本申请的一个实施例中,可以将音频信号的频带划分为多个子频带,一个频点即用于对应确定一个子频带。例如,假设音频信号的最大频宽为8kHz,可以将0至8kHz的频带等分为16个子频带,分别对应于编号为0-15的频点。在一些可选的实施方式中,可以根据需要将0至最大频宽Fmax的频带划分为任意数量的子频带,且除了等分划分以外,还可以为不等分划分,本申请对此不做具体限定。
在申请的一个实施例中,对音频数据帧进行特征映射处理的方法可以包括:对音频数据帧进行特征提取,得到音频数据帧的多维度声学特征;将多维度声学特征输入预先训练的深度学习网络,以通过深度学习网络对多维度声学特征进行映射处理,得到音频数据帧在各个频点上的初级功率谱增益。
在本申请的一个实施例中,对音频数据帧进行特征提取,可以得到由多个维度的特征参数组成的多维度声学特征。其中,特征参数例如可以包括过零率、短时能量、短时自相关函数、短时平均幅度差、谱熵、基音频率(Pitch)、基音周期、共振峰、梅尔倒谱系数(MFCC)等参数中的一种或者多种。过零率表示信号过零点的次数,体现的是频率特性。短时能量体现的是信号在不同时刻的强弱程度。短时平均幅度差用于体现平稳噪声情况下音频信号的周期特征。基音频率是声带的振动频率,它是人发出浊音时,气流通过声道,声道一开一合周期的倒数。声带震动的周期即为基音周期,其倒数即为基音频率,简称基频。基频特征主要表征说话人的音色信息,在语音情感识别中非常重要,变化范围大概为50-500Hz。梅尔倒谱系数是根据掩蔽效应原理,在梅尔刻度频域上提取出来的参数,梅尔刻度是一种非线性刻度,其低频段密集、高频段稀疏,符合前面人耳对低频敏感高频迟钝的特征。
图3示出了本申请一个实施例中对音频数据帧进行特征提取的步骤流程图。如图3所示,在以上实施例的基础上,在步骤S220中对音频数据帧进行特征映射处理,得到音频数据帧在各个频点上的初级功率谱增益,可以包括如下的步骤S310至步骤S330。
步骤S310:对音频数据帧进行语音信号分析,得到至少一种用于表征音频数据帧携带语音信号的语音信号特征。
在本申请的一个实施例中,语音信号特征包括基音周期或语音活跃检测值中的至少一种。
对音频数据帧进行语音信号分析的方法可以包括:对音频数据帧进行基音检测,得到音频数据帧的基音周期;对音频数据帧进行语音活跃检测,得到音频数据帧的语音活跃检测值。
基音顾名思义就是声音的基础。以人类的发声为例,根据声带震动方式的不同,可以将声音信号分为清音和浊音。其中浊音需要声带周期性震动,所以具有明显的周期性,这种声带振动的频率称为基音频率,相应的周期就称为基音周期。通常,基音频率与个人的声带的结构有很大的关系,所以基因频率也能用于识别发音源。一般来说,男性说话者的基音频率较低,而女性说话者和小孩的基音频率相对较高,就是通常说的“男的声音高,女的声音低”。基音周期的估计称谓基音检测,基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线。
基音检测的方法可以包括时域法、频域法和混合法。时域法是直接由语音波形来估计基音周期,常见的有:自相关法、并行处理法、平均幅度差法、数据减少法等。频域法是一种将语音信号变换到频域来估计基音周期的方法,首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期,最常用的就是倒谱法。混合法是先提取信号声道模型参数,然后利用它对信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基音周期。
语音活跃检测(Voice Activity Detection,VAD)是通过在带有噪声的语音中准确的定位出语音的开始点和结束点,从而信号中语音和非语音的区域进行区分。VAD检测算法可以包括:基于阈值的VAD、基于分类器的VAD、基于声学模型的VAD。基于阈值的VAD是通过提取时域特征(短时能量、短期过零率等)或频域特征(MFCC、谱熵等),通过合理的设置门限,达到区分语音和非语音的目的。基于分类器的VAD是将语音检测视作语音/非语音的两分类问题,进而用机器学习的方法训练分类器,达到检测语音的目的。基于声学模型的VAD是利用一个完整的声学模型(建模单元的粒度可以很粗),在解码的基础,通过全局信息,判别语音段和非语音段。在本申请的一个实施例中,语音活跃检测值可以用于判定一个音频数据帧为语音帧或者非语音帧。例如,当语音活跃检测值为“1”时代表当前帧为语音帧,当语音活跃检测值为“0”时则代表当前帧为非语音帧。
步骤S320:对音频数据帧进行频域变换,得到音频数据帧的频域特征。
在本申请的一个实施例中,频域特征可以包括能量谱、功率谱或倒频谱中的至少一种。
能量谱也叫能量谱密度,能量谱密度描述了信号或时间序列的能量如何随频率分布,能量谱是原信号傅立叶变换的平方。功率谱是功率谱密度函数(PSD)的简称,它定义为单位频带内的信号功率。倒频谱(Cepstrum)也叫倒谱、二次谱和对数功率谱等,倒频谱是对功率谱求对数,然后再求傅里叶逆变换得到的结果。
对音频数据帧进行频域变换的方法可以是对原始信号做傅里叶变换(FourierTransformation,FT),从而将原始信号由时域转换至频域。在实际计算中,可以选用离散时间傅里叶变换(Discrete Fourier Transform,DFT)、离散傅里叶变换(Discrete FourierTransform,DFT)、快速傅里叶变换(Fast Fourier Transformation,FFT)、傅里叶级数(Fourier Series,FS)、离散傅里叶级数(Discrete Fourier Series,DFS)等多种频域变换算法中的任意一种。
步骤S330:对语音信号特征和频域特征进行特征融合,得到音频数据帧的多维度声学特征。
在本申请的一个实施例中,可以对音频数据帧进行傅里叶变换,得到音频数据帧在各个频点上的功率谱。分别将语音信号特征与各个频点上的功率谱进行特征拼接处理,得到音频数据帧在各个频点上的多维度声学特征。
每个频点上的功率谱为音频数据帧的局部信号特征,而语音信号特征为音频数据帧的全局信号特征,将语音信号特征每个分别与每个频点上的功率谱进行特征拼接,可以实现全局信号特征与局部信号特征的融合,因而能够提高频响校正的泛化效果和全局稳定性。将每个频点作为增益预测的基础,在预先训练的深度学习网络中,分别对每个频点进行增益预测后,可以输出得到各个频点处的初级功率谱增益。
在本申请的一个实施例中,在对音频数据帧进行特征映射处理之前,可以先对深度学习网络进行训练,以便对其进行性能优化。
图4示出了本申请一个实施例中对深度学习网络进行训练的步骤流程图。如图4所示,在以上实施例的基础上,对深度学习网络进行训练的方法包括如下的步骤S410至步骤S450。
步骤S410:获取用于对音频数据帧进行特征映射处理的深度学习网络。
在本申请的一个实施例中,深度学习网络可以选用循环神经网络RNN、长短期记忆网络LSTM或者门控循环单元网络GRU等神经网络结构中的任意一种。
步骤S420:获取用于对深度学习网络进行训练的样本数据,样本数据包括原始音频信号和待校正音频信号,待校正音频信号是通过音频设备对原始音频信号进行输入或输出处理得到的信号。
原始音频信号是未经过音频设备进行输入或者输出处理的信号,因此也不存在频响非线性的问题,在深度学习网络的训练中起到作为训练目标的作用。通过音频设备对原始音频信号进行输入或输出处理后得到的信号,在一定程度上存在有频响非线性的问题,因此作为待校正音频信号,在深度学习网络的训练中起到输入样本的作用。
在本申请的一个实施例中,待校正音频信号可以是通过被测发声设备进行播放输出,再通过标准拾音设备进行声音采集得到的数字信号。标准拾音设备是预先经过频响校正的音频采集设备,可以认为标注拾音设备采集前后的音频信号具有完全相同的频响曲线。因此,待校正音频信号中引入的频响非线性问题,完全由被测发声设备的缺陷而引起。
在本申请的一个实施例中,待校正音频信号可以是通过标准发声设备进行播放输出,再通过被测拾音设备进行声音采集得到的数字信号。标准发声设备是预先经过频响校正的音频播放设备,可以认为标准发声设备播放前后的音频信号具有完全相同的频响曲线。因此,待校正音频信号中引入的频响非线性问题,完全由被测拾音设备的缺陷而引起。
在本申请的一个实施例中,将通过被测拾音设备采集到的数字信号与被测发声设备播放的数字信号进行混合,组成样本数据。使用包含两种生成方式的样本数据进行深度学习网络训练,可以提高网络模型的泛化能力,使其能够普遍适用于各种类型的音频设备。
步骤S430:对原始音频信号进行特征提取,得到原始音频信号的多维度声学特征。
在本申请的一个实施例中,可以首先对原始音频信号进行分帧加窗处理,得到音频数据帧,然后再对音频数据帧进行特征提取,得到由多个维度的特征参数组成的多维度声学特征。其中,特征参数例如可以包括过零率、短时能量、短时自相关函数、短时平均幅度差、谱熵、基音频率(Pitch)、基音周期、共振峰、梅尔倒谱系数(MFCC)等参数中的一种或者多种。
在本申请的一个实施例中,对原始音频信号中的音频数据帧进行特征提取的方法可以包括:对音频数据帧进行语音信号分析,得到至少一种用于表征音频数据帧携带语音信号的语音信号特征;对音频数据帧进行频域变换,得到音频数据帧的频域特征;对语音信号特征和频域特征进行特征融合,得到音频数据帧的多维度声学特征。
在本申请的一个实施例中,语音信号特征包括基音周期或语音活跃检测值中的至少一种。对音频数据帧进行语音信号分析的方法可以包括:对音频数据帧进行基音检测,得到音频数据帧的基音周期;对音频数据帧进行语音活跃检测,得到音频数据帧的语音活跃检测值。
在本申请的一个实施例中,可以对音频数据帧进行傅里叶变换,得到音频数据帧在各个频点上的功率谱。分别将语音信号特征与各个频点上的功率谱进行特征拼接处理,得到音频数据帧在各个频点上的多维度声学特征。
步骤S440:将待校正音频信号与原始音频信号进行频域特征比较,得到待校正音频信号的期望功率谱增益。
图5示出了本申请一个实施例中对待校正音频信号与原始音频信号进行频域特征比较的步骤流程图。如图5所示,在以上实施例的基础上,步骤S440中的将待校正音频信号与原始音频信号进行频域特征比较,得到待校正音频信号的期望功率谱增益,可以包括如下的步骤S510至步骤S540。
步骤S510:分别对待校正音频信号和原始音频信号中的音频数据帧进行频域变换,得到音频数据帧的功率谱。
对音频数据帧进行频域变换的方法可以是对原始信号做傅里叶变换(FourierTransformation,FT),从而将原始信号由时域转换至频域。在实际计算中,可以选用离散时间傅里叶变换(Discrete Fourier Transform,DFT)、离散傅里叶变换(Discrete FourierTransform,DFT)、快速傅里叶变换(Fast Fourier Transformation,FFT)、傅里叶级数(Fourier Series,FS)、离散傅里叶级数(Discrete Fourier Series,DFS)等多种频域变换算法中的任意一种。
步骤S520:对音频数据帧的功率谱进行归一化处理,得到音频数据帧的归一化功率谱。
在本申请的一个实施例中,对音频数据帧的功率谱进行归一化处理的方法可以包括:对音频数据帧的功率谱进行频域划分,得到多个频域区间;根据音频数据帧的功率谱在各个频域区间上的能量分布关系,从多个频域区间中选取一个基准区间;根据基准区间的功率谱能量值对各个频点上的功率谱进行归一化处理。
在本申请的一个实施例中,多个频域区间包括中心频率值依次增大的中低频区间、中高频区间和高频区间;根据音频数据帧的功率谱在各个频域区间上的能量分布关系,从多个频域区间中选取一个基准区间,包括:分别对各个频域区间上的功率谱能量值进行均值运算,得到中低频区间的中低频能量、中高频区间的中高频能量以及高频区间的高频能量;若中低频能量大于高频能量的指定倍数,则将中低频区间选作基准区间;若中低频能量小于高频能量的指定倍数,则将中高频区间选作基准区间。
在本申请的一个实施例中,中低频区间与中高频区间是非连续的频域区间,中高频区间与高频区间是具有部分重叠频域的频域区间。
在本申请的一个实施例中,中低频区间为0.5~1.5kHz,中高频区间为2.5~4kHz,高频区间为3.5~6kHz。
在本申请的一个实施例中,如果音频数据帧的中低频能量(0.5~1.5khz功率谱能量均值)大于高频能量(3.5~6khz功率谱能量均值)的M倍(M例如取值为10),则以频域0.5~1.5khz的功率谱能量均值作为基准,其它频点功率谱能量值与之相除得到各频点的归一化功率谱值;对不满足上述条件的帧将以中高频能量(2.5~4khz功率谱能量均值)为基准,其它频点功率谱能量值与之相除得到各频点的归一化功率谱值。
步骤S530:获取原始音频信号与待校正音频信号的归一化功率谱的功率谱比值。
将原始音频信号与待校正音频信号中的音频数据帧进行时域对齐,从而将对应于同一时域区间中的原始音频信号的归一化功率谱和待校正音频信号的归一化功率谱做除法运算,得到功率谱比值。例如,原始音频信号中第i帧第k个频点的归一化功率谱为pnorm_org(i,k),待校正音频信号中第i帧第k个频点的归一化功率谱为pnorm_deg(i,k),则功率谱比值为
步骤S540:根据功率谱比值与增益阈值的数值关系,确定待校正音频信号的期望功率谱增益。
在本申请的一个实施例中,增益阈值包括增益值上限GainMax和增益值下限GainMin;根据功率谱比值与增益阈值的数值关系,可以确定待校正音频信号的期望功率谱增益为具体而言:
若功率谱比值大于增益值上限GainMax,则将增益值上限GainMax确定为待校正音频信号的期望功率谱增益;
若功率谱比值小于增益值上限GainMax并且大于增益值下限GainMin,则将功率谱比值确定为待校正音频信号的期望功率谱增益;
若功率谱比值小于增益值下限GainMin,则将增益值下限GainMin确定为待校正音频信号的期望功率谱增益。
通过设置增益阈值,可以将期望功率谱增益控制在一定数值范围内,避免出现增益超范围的问题。
步骤S450:以原始音频信号的多维度声学特征作为输入参数,并以待校正音频信号的期望功率谱增益作为输出目标,对深度学习网络进行迭代训练,直至满足设定的训练终止条件。
训练终止条件可以是迭代轮次达到设定的轮次数量或者模型损失函数小于设定的函数阈值。通过对深度学习网络进行迭代训练可以提高模型进行频响校正的精度。
在步骤S230中,对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,得到多个音频数据帧在同一频点上的校正功率谱增益。
在本申请的一个实施例中,对多个音频数据帧在同一频点上的初级功率谱增益进行直方图分析,得到初级功率谱增益在不同增益区间上的直方图统计占比;对分布在占比最高的增益区间中的初级功率谱增益进行均值运算得到增益均值,并将增益均值作为多个音频数据帧在同一频点上的校正功率谱增益。
在本申请实施例中,通过直方图分析,可以确定多个音频数据帧在同一频点上的初级功率谱增益的分布状态,从而确定分布数量占比最高的增益区间。根据分布数量占比最高的增益区间,可以对集中分布的多数初级功率谱增益取算数平均值,得到的增益均值作为多个音频数据帧在同一频点上的校正功率谱增益。
通过直方图分析结果对初级功率谱增益进行筛选,以分布数量占比最高的一部分初级功率谱增益作为基准进行校正功率谱增益的预测,可以提高增益值的分布集中度,使不同数据帧之间的增益效果平滑过渡,避免出现增益突变而影响整体的频响校正效果。
在步骤S240中,根据校正功率谱增益对多个音频数据帧进行频响校正。
在本申请的一个实施例中,将音频数据帧在各个频点上的功率谱与对应的校正功率谱增益进行乘法运算,然后再进行反傅里叶变换,即可得到经过频响校正后的音频信号。
图6示出了本申请一个实施例中的频响校正方法的数据流转框图。如图6所示,本申请实施例基于深度学习网络对输入信号功率谱进行分析预测,可以判断输入信号在不同频点上的期望增益值,并基于该频点的增益值对输入信号进行频响校正。
具体而言,本申请实施例首先对输入信号601进行特征提取,得到多维度声学特征。具体可以通过对输入信号601中的音频数据帧进行语音信号分析得到用于表征音频数据帧携带语音信号的语音信号特征602,并通过对音频数据帧进行频域变换,得到音频数据帧的频域特征603;最后再对语音信号特征602和频域特征603进行特征融合,得到音频数据帧的多维度声学特征。
其中,语音信号特征602包括基音周期和语音活跃检测值。对音频数据帧进行语音信号分析的方法可以包括:对音频数据帧进行基音检测,得到音频数据帧的基音周期;对音频数据帧进行语音活跃检测,得到音频数据帧的语音活跃检测值。
频域特征603包括各个频点上的功率谱。对音频数据帧进行频域变换的方法可以包括:对音频数据帧进行傅里叶变换,得到音频数据帧在各个频点上的功率谱。
分别将语音信号特征与各个频点上的功率谱进行特征拼接处理,得到音频数据帧在各个频点上的多维度声学特征。
在将多维度声学特征输入至深度学习网络604,通过深度学习网络604进行多个网络层的映射处理后,最终输出当前帧频点增益605,例如第i帧第k个频点的初级功率谱增益值为g0(i,k)。
本申请实施例使用的深度学习网络为GRU网络结构,其包括两个全连接层DENSE和三个门控循环单元层GRU。需要说明的是,该深度学习网络仅为示例。在一些可选的实施方式中,也可以使用其他不同的网络结构,例如不同的深度学习单元或不同的层数、节点数等等。
鉴于频响的不稳定特性,本申请实施例通过数据统计对增益值进行修正,这里采用了直方图统计的方法,对深度学习网络输出的多帧功率谱增益值g0(i,k)在各个频点上分别进行独立的直方图统计分析,最终得到各个频点在不同增益区域上的直方图统计占比606,过滤选取各频点直方图统计占比最大的增益区间数据,并对这些过滤出来的频点增益做平均处理,得到该频点上过渡平滑的频响校正增益值607。
将频响校正增益值与输入信号的功率谱进行乘积运算,得到频响校正后的输出信号功率谱608。后续再将输出信号功率谱608做反傅里叶变换,即可得到经过频响校正后的音频信号。
本申请实施例提出了一种基于深度学习的频响校正方法,与传统方法需要大量人力投入不同,本申请实施例不需要对不同品牌、不同型号设备进行大批量频响测量,并且可以对音频设备各频点配置相应频响校正参数做频响校正。本申请实施例通过深度学习对音频设备进行自动频响校正,无需人工校正的繁琐工序,解决了音频设备频响非线性的问题,能够显著改善用户的音频收听效果。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的频响校正方法。图7示意性地示出了本申请实施例提供的频响校正装置的结构框图。如图7所示,频响校正装置700主要可以包括:
分帧模块710,被配置为对音频信号进行分帧加窗处理,得到多个待校正的音频数据帧;
映射模块720,被配置为对所述音频数据帧进行特征映射处理,得到所述音频数据帧在各个频点上的初级功率谱增益;
平滑模块730,被配置为对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,得到所述多个音频数据帧在所述同一频点上的校正功率谱增益;
校正模块740,被配置为根据所述校正功率谱增益对所述多个音频数据帧进行频响校正。
在本申请的一个实施例中,基于以上实施例,映射模块720可以进一步包括:
特征提取模块721,被配置为对所述音频数据帧进行特征提取,得到所述音频数据帧的多维度声学特征;
网络映射模块722,被配置为将所述多维度声学特征输入预先训练的深度学习网络,以通过所述深度学习网络对所述多维度声学特征进行映射处理,得到所述音频数据帧在各个频点上的初级功率谱增益。
在本申请的一个实施例中,基于以上各实施例,特征提取模块721可以进一步包括:
语音分析模块,被配置为对所述音频数据帧进行语音信号分析,得到至少一种用于表征所述音频数据帧携带语音信号的语音信号特征;
频域变换模块,被配置为对所述音频数据帧进行频域变换,得到所述音频数据帧的频域特征;
特征融合模块,被配置为对所述语音信号特征和所述频域特征进行特征融合,得到所述音频数据帧的多维度声学特征。
在本申请的一个实施例中,基于以上各实施例,所述语音信号特征包括基音周期或语音活跃检测值中的至少一种,所述频域特征包括各个频点上的频率谱。
在本申请的一个实施例中,基于以上各实施例,语音分析模块可以进一步被配置为:对所述音频数据帧进行基音检测,得到所述音频数据帧的基音周期;对所述音频数据帧进行语音活跃检测,得到所述音频数据帧的语音活跃检测值。
在本申请的一个实施例中,基于以上各实施例,频域变换模块可以进一步被配置为:对所述音频数据帧进行傅里叶变换,得到所述音频数据帧在各个频点上的功率谱。
在本申请的一个实施例中,基于以上各实施例,所述频域特征包括所述音频数据帧在各个频点上的功率谱;特征融合模块可以进一步被配置为:分别将所述语音信号特征与所述各个频点上的功率谱进行特征拼接处理,得到所述音频数据帧在各个频点上的多维度声学特征。
在本申请的一个实施例中,基于以上各实施例,所述频响校正装置700还包括:
网络获取模块,被配置为获取用于对所述音频数据帧进行特征映射处理的深度学习网络;
样本获取模块,被配置为获取用于对所述深度学习网络进行训练的样本数据,所述样本数据包括原始音频信号和待校正音频信号,所述待校正音频信号是通过音频设备对所述原始音频信号进行输入或输出处理得到的信号;
特征提取模块,被配置为对所述原始音频信号进行特征提取,得到所述原始音频信号的多维度声学特征;
特征比较模块,被配置为将所述待校正音频信号与所述原始音频信号进行频域特征比较,得到所述待校正音频信号的期望功率谱增益;
迭代训练模块,被配置为以所述原始音频信号的多维度声学特征作为输入参数,并以所述待校正音频信号的期望功率谱增益作为输出目标,对所述深度学习网络进行迭代训练。
在本申请的一个实施例中,基于以上各实施例,特征比较模块可以进一步包括:
频域变换模块,被配置为分别对所述待校正音频信号和所述原始音频信号中的音频数据帧进行频域变换,得到所述音频数据帧的功率谱;
归一化模块,被配置为对所述音频数据帧的功率谱进行归一化处理,得到所述音频数据帧的归一化功率谱;
功率谱比值模块,被配置为获取所述原始音频信号与所述待校正音频信号的归一化功率谱的功率谱比值;
增益确定模块,被配置为根据所述功率谱比值与增益阈值的数值关系,确定所述待校正音频信号的期望功率谱增益。
在本申请的一个实施例中,基于以上各实施例,所述增益阈值包括增益值上限和增益值下限;增益确定模块可以进一步被配置为:若所述功率谱比值大于所述增益值上限,则将所述增益值上限确定为所述待校正音频信号的期望功率谱增益;若所述功率谱比值小于所述增益值上限并且大于所述增益值下限,则将所述功率谱比值确定为所述待校正音频信号的期望功率谱增益;若所述功率谱比值小于所述增益值下限,则将所述增益值下限确定为所述待校正音频信号的期望功率谱增益。
在本申请的一个实施例中,基于以上各实施例,归一化模块可以进一步包括:
频域划分模块,被配置为对所述音频数据帧的功率谱进行频域划分,得到多个频域区间;
基准区间选取模块,被配置为根据所述音频数据帧的功率谱在各个频域区间上的能量分布关系,从所述多个频域区间中选取一个基准区间;
基准归一化模块,被配置为根据所述基准区间的功率谱能量值对各个频点上的功率谱进行归一化处理。
在本申请的一个实施例中,基于以上各实施例,所述多个频域区间包括中心频率值依次增大的中低频区间、中高频区间和高频区间;基准区间选取模块可以进一步被配置为:分别对各个频域区间上的功率谱能量值进行均值运算,得到所述中低频区间的中低频能量、所述中高频区间的中高频能量以及所述高频区间的高频能量;若所述中低频能量大于所述高频能量的指定倍数,则将所述中低频区间选作基准区间;若所述中低频能量小于所述高频能量的指定倍数,则将所述中高频区间选作基准区间。
在本申请的一个实施例中,基于以上各实施例,平滑模块730可以进一步包括:
直方图分析模块731,被配置为对多个音频数据帧在同一频点上的初级功率谱增益进行直方图分析,得到所述初级功率谱增益在不同增益区间上的直方图统计占比;
均值运算模块732,被配置为对分布在占比最高的增益区间中的初级功率谱增益进行均值运算得到增益均值,并将所述增益均值作为所述多个音频数据帧在所述同一频点上的校正功率谱增益。
本申请各实施例中提供的频响校正装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图8示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理器801(Central Processing Unit,CPU),其可以根据存储在只读存储器802(Read-Only Memory,ROM)中的程序或者从存储部分808加载到随机访问存储器803(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器803中,还存储有系统操作所需的各种程序和数据。中央处理器801、在只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805(Input/Output接口,即I/O接口)也连接至总线804。
以下部件连接至输入/输出接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理器801执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种频响校正方法,其特征在于,包括:
对音频信号进行分帧加窗处理,得到多个待校正的音频数据帧;
对所述音频数据帧进行特征提取,得到所述音频数据帧的多维度声学特征;
将所述多维度声学特征输入预先训练的深度学习网络,以通过所述深度学习网络对所述多维度声学特征进行映射处理,得到所述音频数据帧在各个频点上的初级功率谱增益;
对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,得到所述多个音频数据帧在所述同一频点上的校正功率谱增益;
根据所述校正功率谱增益对所述多个音频数据帧进行频响校正。
2.根据权利要求1所述的频响校正方法,其特征在于,对所述音频数据帧进行特征提取,包括:
对所述音频数据帧进行语音信号分析,得到至少一种用于表征所述音频数据帧携带语音信号的语音信号特征;
对所述音频数据帧进行频域变换,得到所述音频数据帧的频域特征;
对所述语音信号特征和所述频域特征进行特征融合,得到所述音频数据帧的多维度声学特征。
3.根据权利要求2所述的频响校正方法,其特征在于,所述语音信号特征包括基音周期或语音活跃检测值中的至少一种,所述频域特征包括各个频点上的频率谱。
4.根据权利要求2所述的频响校正方法,其特征在于,对所述音频数据帧进行语音信号分析,包括:
对所述音频数据帧进行基音检测,得到所述音频数据帧的基音周期;
对所述音频数据帧进行语音活跃检测,得到所述音频数据帧的语音活跃检测值。
5.根据权利要求2所述的频响校正方法,其特征在于,对所述音频数据帧进行频域变换,包括:
对所述音频数据帧进行傅里叶变换,得到所述音频数据帧在各个频点上的功率谱。
6.根据权利要求2所述的频响校正方法,其特征在于,所述频域特征包括所述音频数据帧在各个频点上的功率谱;对所述语音信号特征和所述频域特征进行特征融合,包括:
分别将所述语音信号特征与所述各个频点上的功率谱进行特征拼接处理,得到所述音频数据帧在各个频点上的多维度声学特征。
7.根据权利要求1至6中任意一项所述的频响校正方法,其特征在于,在对所述音频数据帧进行特征映射处理之前,所述方法还包括:
获取用于对所述音频数据帧进行特征映射处理的深度学习网络;
获取用于对所述深度学习网络进行训练的样本数据,所述样本数据包括原始音频信号和待校正音频信号,所述待校正音频信号是通过音频设备对所述原始音频信号进行输入或输出处理得到的信号;
对所述原始音频信号进行特征提取,得到所述原始音频信号的多维度声学特征;
将所述待校正音频信号与所述原始音频信号进行频域特征比较,得到所述待校正音频信号的期望功率谱增益;
以所述原始音频信号的多维度声学特征作为输入参数,并以所述待校正音频信号的期望功率谱增益作为输出目标,对所述深度学习网络进行迭代训练。
8.根据权利要求7所述的频响校正方法,其特征在于,将所述待校正音频信号与所述原始音频信号进行频域特征比较,包括:
分别对所述待校正音频信号和所述原始音频信号中的音频数据帧进行频域变换,得到所述音频数据帧的功率谱;
对所述音频数据帧的功率谱进行归一化处理,得到所述音频数据帧的归一化功率谱;
获取所述原始音频信号与所述待校正音频信号的归一化功率谱的功率谱比值;
根据所述功率谱比值与增益阈值的数值关系,确定所述待校正音频信号的期望功率谱增益。
9.根据权利要求8所述的频响校正方法,其特征在于,所述增益阈值包括增益值上限和增益值下限;根据所述功率谱比值与增益阈值的数值关系,确定所述待校正音频信号的期望功率谱增益,包括:
若所述功率谱比值大于所述增益值上限,则将所述增益值上限确定为所述待校正音频信号的期望功率谱增益;
若所述功率谱比值小于所述增益值上限并且大于所述增益值下限,则将所述功率谱比值确定为所述待校正音频信号的期望功率谱增益;
若所述功率谱比值小于所述增益值下限,则将所述增益值下限确定为所述待校正音频信号的期望功率谱增益。
10.根据权利要求8所述的频响校正方法,其特征在于,对所述音频数据帧的功率谱进行归一化处理,包括:
对所述音频数据帧的功率谱进行频域划分,得到多个频域区间;
根据所述音频数据帧的功率谱在各个频域区间上的能量分布关系,从所述多个频域区间中选取一个基准区间;
根据所述基准区间的功率谱能量值对各个频点上的功率谱进行归一化处理。
11.根据权利要求10所述的频响校正方法,其特征在于,所述多个频域区间包括中心频率值依次增大的中低频区间、中高频区间和高频区间;根据所述音频数据帧的功率谱在各个频域区间上的能量分布关系,从所述多个频域区间中选取一个基准区间,包括:
分别对各个频域区间上的功率谱能量值进行均值运算,得到所述中低频区间的中低频能量、所述中高频区间的中高频能量以及所述高频区间的高频能量;
若所述中低频能量大于所述高频能量的指定倍数,则将所述中低频区间选作基准区间;
若所述中低频能量小于所述高频能量的指定倍数,则将所述中高频区间选作基准区间。
12.根据权利要求1至6中任意一项所述的频响校正方法,其特征在于,对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,包括:
对多个音频数据帧在同一频点上的初级功率谱增益进行直方图分析,得到所述初级功率谱增益在不同增益区间上的直方图统计占比;
对分布在占比最高的增益区间中的初级功率谱增益进行均值运算得到增益均值,并将所述增益均值作为所述多个音频数据帧在所述同一频点上的校正功率谱增益。
13.一种频响校正装置,其特征在于,包括:
分帧模块,被配置为对音频信号进行分帧加窗处理,得到多个待校正的音频数据帧;
特征提取模块,被配置为对所述音频数据帧进行特征提取,得到所述音频数据帧的多维度声学特征;
网络映射模块,被配置为将所述多维度声学特征输入预先训练的深度学习网络,以通过所述深度学习网络对所述多维度声学特征进行映射处理,得到所述音频数据帧在各个频点上的初级功率谱增益;
平滑模块,被配置为对多个音频数据帧在同一频点上的初级功率谱增益进行增益平滑处理,得到所述多个音频数据帧在所述同一频点上的校正功率谱增益;
校正模块,被配置为根据所述校正功率谱增益对所述多个音频数据帧进行频响校正。
14.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至12中任意一项所述的频响校正方法。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令使得所述电子设备执行权利要求1至12中任意一项所述的频响校正方法。
CN202111510542.XA 2021-12-10 2021-12-10 频响校正方法及相关产品 Active CN114302301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111510542.XA CN114302301B (zh) 2021-12-10 2021-12-10 频响校正方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111510542.XA CN114302301B (zh) 2021-12-10 2021-12-10 频响校正方法及相关产品

Publications (2)

Publication Number Publication Date
CN114302301A CN114302301A (zh) 2022-04-08
CN114302301B true CN114302301B (zh) 2023-08-04

Family

ID=80967082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111510542.XA Active CN114302301B (zh) 2021-12-10 2021-12-10 频响校正方法及相关产品

Country Status (1)

Country Link
CN (1) CN114302301B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840182B (zh) * 2023-02-21 2023-05-02 成都青翎科技有限公司 一种频响曲线校正方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567673A (zh) * 2009-05-21 2009-10-28 深圳市科莱特斯科技有限公司 音频均衡方法及装置
CN105843581A (zh) * 2016-03-21 2016-08-10 腾讯科技(深圳)有限公司 一种频响校正方法、服务器、终端设备及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5185254B2 (ja) * 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
US9319790B2 (en) * 2012-12-26 2016-04-19 Dts Llc Systems and methods of frequency response correction for consumer electronic devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567673A (zh) * 2009-05-21 2009-10-28 深圳市科莱特斯科技有限公司 音频均衡方法及装置
CN105843581A (zh) * 2016-03-21 2016-08-10 腾讯科技(深圳)有限公司 一种频响校正方法、服务器、终端设备及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
铁奎 ; .一种基于FIR滤波器的频响补偿技术.安徽电子信息职业技术学院学报.2009,(第04期),全文. *

Also Published As

Publication number Publication date
CN114302301A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
Cano et al. Musical source separation: An introduction
Kim et al. Crepe: A convolutional representation for pitch estimation
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN110459241B (zh) 一种用于语音特征的提取方法和系统
CN109599093A (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
CN109256138B (zh) 身份验证方法、终端设备及计算机可读存储介质
CN110364140B (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN108417228A (zh) 乐器音色迁移下的人声音色相似性度量方法
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
CN106997765B (zh) 人声音色的定量表征方法
CN111696580A (zh) 一种语音检测方法、装置、电子设备及存储介质
WO2024055752A9 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN114302301B (zh) 频响校正方法及相关产品
Wei et al. RMVPE: A robust model for vocal pitch estimation in polyphonic music
CN114613387A (zh) 语音分离方法、装置、电子设备与存储介质
CN114491140A (zh) 音频匹配检测方法及装置、电子设备、存储介质
CN117935789A (zh) 语音识别方法及系统、设备、存储介质
Jokinen et al. Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network
CN112233693B (zh) 一种音质评估方法、装置和设备
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
Friedrichs et al. A computational study of auditory models in music recognition tasks for normal-hearing and hearing-impaired listeners
CN111951786A (zh) 声音识别模型的训练方法、装置、终端设备及介质
CN112885380B (zh) 一种清浊音检测方法、装置、设备及介质
CN114512141B (zh) 音频分离的方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant