CN115966218A - 一种骨导辅助的气导语音处理方法、装置、介质及设备 - Google Patents

一种骨导辅助的气导语音处理方法、装置、介质及设备 Download PDF

Info

Publication number
CN115966218A
CN115966218A CN202211720964.4A CN202211720964A CN115966218A CN 115966218 A CN115966218 A CN 115966218A CN 202211720964 A CN202211720964 A CN 202211720964A CN 115966218 A CN115966218 A CN 115966218A
Authority
CN
China
Prior art keywords
conduction
air conduction
bone conduction
audio
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211720964.4A
Other languages
English (en)
Inventor
李强
吴啸威
王尧
叶东翔
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barrot Wireless Co Ltd
Original Assignee
Barrot Wireless Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barrot Wireless Co Ltd filed Critical Barrot Wireless Co Ltd
Priority to CN202211720964.4A priority Critical patent/CN115966218A/zh
Publication of CN115966218A publication Critical patent/CN115966218A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本申请公开了一种骨导辅助的气导语音处理方法、装置、介质和设备,属于音频编解码技术领域。该方法主要包括:将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数;利用骨导谱系数和气导谱系数分别进行梅尔频率倒谱的计算,得到骨导特征和带噪气导特征;利用预先处理的神经网络模型,处理骨导特征和带噪气导特征,得到子带掩膜;利用子带掩膜和气导谱系数计算得到增强谱系数,并利用增强谱系数计算得到增强语音音频码流。本申请能够在节省算力和存储空间的条件下,以较小的时间延迟实现语音信号的增强。

Description

一种骨导辅助的气导语音处理方法、装置、介质及设备
技术领域
本申请涉及音频编解码技术领域,特别涉及一种骨导辅助的气导语音处理方法、装置、介质及设备。
背景技术
传统的麦克风(又称为气导麦克风)采集的语音都是经过空气传导的,容易受到背景噪声干扰。骨导麦克风是利用人体骨头振动形成电信号从而进行语音采集的设备,骨导麦克风可有效避免背景噪声干扰,具有很强抗噪性能。但单独使用骨导麦克风与单独使用气导麦克风仍存在以下问题:1、骨导麦克风采集的语音抗干扰性强,但存在高频部分缺失和中频部分厚重等现象,这使其采集得到语音清晰度和明亮度不够。2、气导麦克风采集的语音使用广泛,频带宽且采集的语音质量高,但其容易受到背景噪声的干扰。
为了解决单独使用骨导麦克风和单独使用气导麦克风存在的问题,现有技术中,通常利用服务器中的传递函数实现对语音信号的增强、或者根据气导音频信号的信噪比和预定的阈值进行比较,从而确定如何增强音频信号、或者采用预先训练的深度神经网络,对音频信号进行增强。
但现有技术中采用的方法在应用于低功耗蓝牙时,仍存在延时较大、占用带宽较大、计算量大和需求存储空间大的问题,且存在增强后的音频信号音质差,用户体验感较差的问题。
发明内容
针对现有技术存在的延时较大、占用带宽较大和计算量大需求存储空间大的问题,本申请主要提供一种骨导辅助的气导语音处理方法、装置、介质及设备。
为了实现上述目的,本申请采用的一个技术方案是:提供一种骨导辅助的气导语音处理方法,其包括:将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数;利用骨导谱系数和气导谱系数分别进行梅尔频率倒谱的计算,得到骨导特征和带噪气导特征;利用预先处理的神经网络模型,处理骨导特征和带噪气导特征,得到子带掩膜;利用子带掩膜和气导谱系数计算得到增强谱系数,并利用增强谱系数计算得到增强语音音频码流。
可选的,对骨导音频进行重采样处理、长期后置滤波处理、冲击检测处理和带宽检测处理。
可选的,获取气导语音和对应的骨导音频,并将气导语音与噪声按照预定的信噪比进行混音,得到带噪气导音频;利用气导语音、骨导音频和带噪气导音频,分别计算得到纯净气导特征、带噪气导特征和骨导特征;将骨导特征和带噪气导特征进行拼接,得到拼接特征,并将拼接特征输入神经网络模型计算得到子带掩膜;利用子带掩膜和带噪气导音频的离散余弦变换谱系数,计算得到增强谱系数;根据增强谱系数和纯净气导特征,计算得到气导语音和增强语音音频之间的源失真比;根据源失真比,调节神经网络模型的模型参数,直至得到预先处理的神经网络模型。
可选的,对气导语音进行低延迟改进型离散余弦变换处理,得到纯净气导特征;对带噪气导音频进行梅尔频率倒谱的计算,得到带噪气导特征;对骨导音频进行梅尔频率倒谱的计算和长期后置滤波器的处理,得到骨导特征。
可选的,在源失真比大于预设阈值时,锁定神经网络模型和神经网络模型对应的模型参数,并将锁定的神经网络模型作为预先处理的神经网络模型。
可选的,将子带掩膜和气导谱系数相乘,得到增强谱系数;将增强谱系数进行包括变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码和码流封装的处理步骤,得到增强语音音频码流。
本申请采用的另一个技术方案是:提供一种骨导辅助的气导语音处理装置,其包括:谱系数获取模块,用于将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数;特征获取模块,用于利用骨导谱系数和气导谱系数分别进行梅尔频率倒谱的计算,得到骨导特征和带噪气导特征;
子带掩膜获取模块,用于利用预先处理的神经网络模型,处理骨导特征和带噪气导特征,得到子带掩膜;增强语音音频码流获取模块,用于利用子带掩膜和气导谱系数计算得到增强谱系数,并利用增强谱系数计算得到增强语音音频码流。
可选的,用于对骨导音频进行重采样处理、长期后置滤波处理、冲击检测处理和带宽检测处理的模块。
可选的,预先处理的神经网络模型获取模块,用于获取气导语音和对应的骨导音频,并将气导语音与噪声按照预定的信噪比进行混音,得到带噪气导音频;利用气导语音、骨导音频和带噪气导音频,分别计算得到纯净气导特征、带噪气导特征和骨导特征;将骨导特征和带噪气导特征进行拼接,得到拼接特征,并将拼接特征输入神经网络模型计算得到子带掩膜;利用子带掩膜和带噪气导音频的离散余弦变换谱系数,计算得到增强谱系数;根据增强谱系数和纯净气导特征,计算得到气导语音和增强语音音频之间的源失真比;根据源失真比,调节神经网络模型的模型参数,直至得到预先处理的神经网络模型。
可选的,用于对气导语音进行低延迟改进型离散余弦变换处理,得到纯净气导特征;对带噪气导音频进行梅尔频率倒谱的计算,得到带噪气导特征;对骨导音频进行梅尔频率倒谱的计算和长期后置滤波器的处理,得到骨导特征的模块。
可选的,用于在源失真比大于预设阈值时,锁定神经网络模型和神经网络模型对应的模型参数,将锁定的神经网络模型作为预先处理的神经网络模型的模块。
可选的,用于将子带掩膜和气导谱系数相乘,得到增强谱系数;将增强谱系数进行包括变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码和码流封装的处理步骤,得到增强语音音频码流的模块。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的骨导辅助的气导语音处理方法。
本申请采用的另一个技术方案是:提供一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行方案一中的骨导辅助的气导语音处理方法。
本申请的技术方案可以达到的有益效果是:能够在减小延时时间的条件下、以较小的占用带宽实现音频信号的增强,且本申请的算法结构简单对算力的需求量较小,能够使增强音频的音质更好,更加适用于低功耗蓝牙中。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种骨导辅助的气导语音处理方法的一个具体实施方式的示意图;
图2是本申请一种骨导辅助的气导语音处理方法的在LC3中应用的示意图;
图3是本申请一种骨导辅助的气导语音处理方法的神经网络模型的离线训练和在线增强过程的示意图;
图4是本申请一种骨导辅助的气导语音处理装置的一个具体实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为解决单独使用骨导麦克风和单独使用气导麦克风存在的问题,现有技术中,通常采用的方法包括:
1、在终端设备上通过骨导麦克风获取骨导信号;将骨导信号发送至服务器;服务器根据接收到的骨导信号,获取云端数据库中保存的与初始音频匹配的低频,以及低频传递函数对应的高频传递函数,并将获取到的低频传递函数和高频传递函数发送至终端设备;最后,终端根据低频传递函数及高频传递函数对骨导音频信号进行频域扩展,获得增强的音频信号。
从理论上来说此方法得到的增强音频信号能够有较好的音质,但其较难应用于低功耗蓝牙中,原因在于此方法实现过程中需要通过与服务器交互实现音频信号的增强,这种方式不仅需要占用较大的通信带宽,而且会造成较大的系统延迟,不满足低功耗蓝牙的低延迟需求,进一步造成用户体验较差的问题。其次,该方法中所应用的高频传递函数在理论上是可应用的,但现实中由于处理器的精度有限,采用高频传递函数很难实现转换。
2、利用骨导麦克风采集第一音频信号和气导麦克风采集第二音频信号;计算第二音频信号的信噪比,并将该信噪比与既定阈值比较;当该信噪比大于阈值时,直接输出第二音频信号;当该信噪比不大于阈值时,将第一音频信号和第二音频信号融合并输出。
此方法的不足在于:融合音频信号中的低频部分来自经增益调整的骨导信号,因此质量较好,但融合音频信号中的高频部分来自于气导信号的高频部分,此时由于第二音频信号的信噪比较低,当环境噪声为宽带信号时,气导信号的高频部分的信噪比也很低,此时直接使用气导信号的高频部分作为融合信号的高频部分即使后续的步骤有降噪模块,仍然无法改变融合音频信号高频部分音质差的问题。
3、同步录制骨导音频与气导语音,并且给气导语音添加环境噪声进而得到带噪气导语音;然后利用骨导音频、气导语音和带噪气导语音对深度神经网络进行训练,从而利用训练好的深度学习神经网络,计算增强的语音信号。其训练过程和推理过程的具体处理过程是训练阶段:基于骨导音频与带噪气导语音训练深度神经网络,当信噪比达到期望时固化神经网络。推理阶段:使用训练好的神经网络,输入骨导音频与带噪气导语音,输出增强的语音信号。
这种端到端的方法虽然能够获得较好的音质,但其在训练与推理时输入的音频数据长度较大,这会造成延时且基于时域的端到端增强技术很难优化数据长度,这就使得其在蓝牙特别是低功耗蓝牙音频领域无法应用,因为,基于时域信号实现端到端的增强,虽然结构简单,但其运算量和存储量都比较大,无法满足低功耗蓝牙的应用。
4、基于骨导音频与气导语音分别提取STFT(即短时傅里叶变换,Short TimeFourier Transform)幅度谱作为骨导特征和气导特征;将骨导特征与气导特征输入训练好的神经网络,得到增强的语音特征;对增强的语音特征执行短时傅里叶逆变换,得到增强的语音信号。
这种方法的不足在于神经网络只能增强幅度谱,相位谱仍然是带噪气导信号的相位谱,使得音质提升幅度较低;并且基于短时傅里叶变换与短时傅里叶逆变换的音频处理过程,需要执行重叠相加步骤以避免波形不连续导致的音质下降,但重叠相加会增加系统的算法延迟,难以应用在一些对延迟要求较高的场合。
上述所有的技术都是作为一个独立模块存在的,其在具体的场景中通常属于语音预处理模块。典型的处理流程是在信号发送端首先通过麦克风获取的输入音频信号然后将输入音频信号进行语音预处理,将完成处理的音频信号进行编码,然后通过基带将码流进行射频发射;在信号接收端首先通过射频接收模块接收到码流,然后将码流进行解码,将解码得到的语音信号进行语音后处理,然后进行扬声器输出。上述处理流程中的语音预处理模块不仅会导致算法延迟和算力增加,还会导致系统延迟,进一步导致了系统延迟问题的优化处理过程困难。
因此,现有技术主要存在引入独立模块导致的算法延迟大、模块间难以复用导致的运算量和存储量需求大,以及,输入和输出的数据量均很大导致的神经网络结构复杂、对算力要求高,不易在低功耗蓝牙平台应用。为解决上述技术问题,本申请提出一种骨导辅助的气导语音处理方法、装置、介质及设备。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请一种骨导辅助的气导语音处理方法的一个实施方式。
图1所示的骨导辅助的气导语音处理方法,包括:步骤S101,将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数;
步骤S102,利用骨导谱系数和气导谱系数分别进行梅尔频率倒谱的计算,得到骨导特征和带噪气导特征;
步骤S103,利用预先处理的神经网络模型,处理骨导特征和带噪气导特征,得到子带掩膜;
步骤S104,利用子带掩膜和气导谱系数计算得到增强谱系数,并利用增强谱系数计算得到增强语音音频码流。该具体实施方式,能够在减小延时时间的条件下、以较小的占用带宽实现音频信号的增强,且本申请的方法算法结构简单对算力的需求量较小,能够使计算的增强音频的音质更好,更加适用于低功耗蓝牙中。
具体的,如图2,在低功耗蓝牙中,利用低功耗蓝牙既有的低延迟改进型离散余弦变换模块将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数。计算骨导谱系数和气导谱系数的梅尔频率倒谱,并将对应的计算结果作为骨导特征和带噪气导特征,并将骨导特征和带噪气导特征输入到预先处理的神经网络模型中。预先处理的神经网络模型,利用骨导特征和带噪气导特征计算得到子带掩膜。将子带掩膜和气导谱系数相乘得到增强谱系数,通过变换域噪声整形、时域噪声整形、量化处理、噪声电平估计、算术编码残差编码和码流封装步骤对增强谱系数进行处理,得到增强语音音频码流。该方法通过利用LC3编码器中既有的功能模块,避免了二次运算,从而节省算力和存储空间,同时利用深度学习的神经网络模型,使得增强语音音频的音质较好,本申请的神经网络复杂度较低,避免了现有技术中端到端直接输出频谱系数,导致的神经网络模型复杂运算量大的问题,并且本申请的全部处理过程都在嵌入式终端中实现,避免了与服务器交互带来的高延迟。
在图1所示的实施方式中,骨导辅助的气导语音处理方法包括步骤S101,将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数。该具体实施方式,基于低延迟改进型离散余弦变换获取骨导谱系数和气导谱系数,同时获取了骨导音频和带噪气导音频的幅度谱和相位谱,为保证增强音频的音质奠定基础,并且通过利用解码器中的重叠相加结构,避免了引入语音增强功能造成的算法延迟。
具体的,将骨导音频和带噪气导音频按帧输入到蓝牙编码器中,利用编码器中的低延迟改进型离散余弦变换模块,计算得到骨导音频和带噪气导音频对应的频谱系数作为骨导谱系数和气导谱系数。
例如,将配置为8kHz采样率且帧长是10ms的骨导音频和带噪气导音频按帧输入到蓝牙编码器中,此时每帧对应的采样点是80。利用LC3编码器中的低延迟改进型离散余弦变换模块,对输入的骨导音频帧和带噪气导音频帧进行时频的转换,得到骨导音频帧和带噪气导音频帧对应的音频频谱系数,即输出的骨导音频对应的谱系数为XBC(k),输出的带噪气导音频帧对应的音频谱系数为XAC-Noise(k),其中,k=0…NF-1,NF=80。
在图1所示的具体实施方式中,骨导辅助的气导语音处理方法,还包括步骤S102,利用骨导谱系数和气导谱系数分别进行梅尔频率倒谱的计算,得到骨导特征和带噪气导特征。该具体实施方式,通过将特征提取及其逆变换分别部署在蓝牙发射端和蓝牙接收端,使得算力消耗分布均匀,减少了对带宽的占用。
具体的,利用骨导谱系数和气导谱系数分别进行梅尔频率倒谱(MFCC)的计算,在进行带噪气导谱系数和骨导谱系数的提取特征时,按帧将音频帧进行Bark频率分段,根据分段得到的子带计算带噪气导特征和骨导特征。带噪气导谱系数的MFCC特征包括13个MFCC、3个MFCC的一阶差分和3个MFCC的二阶差分。
由于骨导音频的有效带宽通常在2kHz以下,所以骨导音频的MFCC特征只须计算前8个子带,通过减少MFCC特征计算的子带数量,减少了神经网络模型的输入特征数量,进一步有效的降低了神经网络模型的模型复杂度和算力需求。骨导音频的MFCC特征包括8个MFCC、3个一阶差分和3个二阶差分。
例如,将80个带噪气导谱系数,即改进离散余弦变换(MDCT)谱系数,划分成13个子带,每个子带拥有的谱系数数量分布为:4,4,4,4,4,4,4,4,8,8,8,8,16,利用改进离散余弦变换谱系数划分的子带进行梅尔频率倒谱的计算。此外,根据谱系数计算MFCC是较为成熟的技术,本申请不做赘述。
在图1所示的具体实施方式中,骨导辅助的气导语音处理方法,还包括步骤S103,利用预先处理的神经网络模型,处理骨导特征和带噪气导特征,得到子带掩膜。该具体实施方式,基于频域特征进行深度神经网络模型的训练,并在训练得到的深度神经网络中利用骨导音频的抗干扰性辅助气导语音进行信号增强,避免了基于时域信号进行信号增强时的高算力和高存储空间需求。
具体的,将骨导特征和带噪气导特征输入到预先处理的神经网络模型中,预先处理的神经网络模型输出对应的子带掩膜。本发明使用的神经网络并无限制,例如使用输入为全连接层、中间为3层的LSTM网络、输出为全连接层的网络模型。
例如,向预先处理的神经网络模型中输入38个特征,神经网络模型输出13个子带掩膜,此处的38个特征包括骨导特征和带噪气导特征。
在本申请的一个具体实施例中,子带掩膜通过预先处理的神经网络模型计算得出,其中,子带掩膜是音频信号处理领域的使用较多的概念,其主要应用于语音降噪。在常规的降噪过程中,子带掩膜的计算过程为:首先,将时域的音频信号变换到频域,然后将频域的音频谱系数进行子带划分,得到多个子带并计算每个子带的信噪比,最后将子带的信噪比的值与预设的门限值进行对比,得到子带对应的子带掩膜。即,当子带的信噪比低于预设的门限值时,表示当前子带主要是噪声其包含的语音极少,则子带对应的子带掩膜为0;当子带的信噪比大于预设的门限值时,表示当前子带主要是语音噪声极少,则子带对应的子带掩膜为1;当子带的信噪比在预设的门限值的预定范围内时,表明当前子带中既有语音又有噪声,则子带对应的子带掩膜根据其对应的信噪比设为0-1之间的数值。
在本申请的一个具体实施例中,神经网络模型的训练过程包括,获取气导语音和对应的骨导音频,并将气导语音与噪声按照预定的信噪比进行混音,得到带噪气导音频;利用气导语音、骨导音频和带噪气导音频,分别计算得到纯净气导特征、带噪气导特征和骨导特征;将骨导特征和带噪气导特征进行拼接,得到拼接特征,并将拼接特征输入神经网络模型计算得到子带掩膜;利用子带掩膜和带噪气导音频的离散余弦变换谱系数,计算得到增强谱系数;根据增强谱系数和纯净气导特征,计算得到气导语音和增强语音音频之间的源失真比;根据源失真比,调节神经网络模型的模型参数,直至得到预先处理的神经网络模型。
进一步,对气导语音进行低延迟改进型离散余弦变换处理,得到纯净气导特征;对带噪气导音频进行梅尔频率倒谱的计算,得到带噪气导特征;对骨导音频进行梅尔频率倒谱的计算和长期后置滤波器的处理,得到骨导特征。
进一步,在源失真比大于预设阈值时,锁定神经网络模型和神经网络模型对应的模型参数,将锁定的神经网络模型作为预先处理的神经网络模型。该具体实施例,通过对预定长度帧长的音频信号进行训练和推理,减少了系统对于缓冲空间需求,减少了系统延迟。
具体的,如图3,利用骨导麦克风和气导麦克风同时录制语音音频,得到纯净的气导音频和骨导音频。将气导音频与噪声按照一定的信噪比进行混合,模拟实际场景中的带噪气导语音,此处的信噪比可以根据需求进行大小调节,其具体的取值本申请不作限制。
对气导语音进行低延迟改进型离散余弦变换处理,得到纯净气导特征;对带噪气导音频进行梅尔频率倒谱的计算,得到带噪气导特征;对骨导音频进行梅尔频率倒谱的计算和长期后置滤波器的处理,得到骨导特征。其中,对骨导音频进行长期后置滤波器处理得到长期后置滤波特征的步骤为利用LC3编码器中已有的长期后置滤波器处理得到,其具体的处理步骤本申请不作赘述。此处获取的LTPF特征既用于神经网络的推理,同时也作为LC3编码过程中的LTPF模块输出的数据,进行后续的编码处理。此处的LTPF特征主要包括:当前帧是否检测到有效基音的指示、基音的整数值、基音的小数值,粗略的归一化相关值和精细的归一化细相关值,其中基音的相关信息通常用来作为VAD的重要参考,是语音增强中非常重要的参考信息。在基于单个麦克风进行语音增强时,通常需要基于带噪音频计算LTPF特征,并且由于受到噪声的干扰计算出的LTPF特征往往准确度不够高,本申请基于骨导音频计算LTPF特征,准确度更高。
基于骨导特征、带噪气导特征和纯净气导特征训练神经网络模型,直至得到预期的神经网络模型,固化此时的神经网络模型和模型对应的相关参数,并将此时的神经网络模型作为预先处理的神经网络模型进行在线处理过程中的子带掩膜的计算。此处神经网络模型的训练过程是:首先,将骨导特征和带噪气导特征进行拼接输入到神经网络模型中,神经网络输出子带掩膜,将计算得到的子带掩膜和带噪气导音频的MDCT谱系数相乘,得到新的MDCT谱系数,即增强谱系数,利用增强谱系数和纯净气导特征计算源失真比,将计算得到的源失真比与预定的阈值进行比较得到比较结果,反向传播数据结果不断调节神经网络模型的模型参数,直至源失真比大于预设阈值时,锁定神经网络模型和神经网络模型对应的模型参数,将锁定的神经网络模型作为预先处理的神经网络模型。此处的预设阈值的大小本申请不作限制,优选的,当源失真比的值不再增加时,将此时的神经网络模型和神经网络模型对应的模型参数进行锁定。其中,此处的拼接是指将骨导特征和带噪气导特征按照一定的顺序放置到一维的数组中,从而得到拼接特征。
考虑到人耳听觉特性是非线性的,此处使用源失真比作为衡量准则,来衡量参考谱系数(纯净气导特征)与增强谱系数之间的L2范数损失(能够反映两者之间的最小平方误差)。本申请模型的训练目标是获得尽可能最大的源失真比,源失真比越大则增强谱系数的L2范数损失越小,则利用该增强谱系数计算得到的增强音频的增强效果越好。源失真比的计算公式为:
Figure BDA0004029707680000101
其中XSE(k)为增强谱系数。
在图1所示的具体实施方式中,骨导辅助的气导语音处理方法,还包括步骤S104,利用子带掩膜和气导谱系数计算得到增强谱系数,并利用增强谱系数计算得到增强语音音频码流。该具体实施方式,能够在减小延时时间的条件下、以较小的占用带宽实现音频信号的增强,且算法结构简单对算力的需求量较小,能够使计算的增强音频的音质更好,更加适用于低功耗蓝牙中。
在本申请的一个具体实施例中,步骤S104包括,将子带掩膜和气导谱系数相乘,得到增强谱系数;将增强谱系数进行包括变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码和码流封装的处理步骤,得到增强语音音频码流。
在本申请的一个具体实施例中,骨导辅助的气导语音处理方法,还包括对骨导音频进行重采样处理、长期后置滤波处理、冲击检测处理和带宽检测处理。该具体实施例,在编码过程中通过编码器中的模块对骨导音频进行处理获取信息,而不是对带噪气导音频进行处理,能够在减少计算量的条件下,提高编码得到的增强语音的音质,提高用户体验。
具体的,在利用骨导音频对带噪气导音频进行增强处理时,利用编码器中的重采样模块和长期后置滤波器对骨导音频进行处理,从而获取长期后置滤波的相关参数。骨导音频在2kHz以下时其语音性能较好,而基音成分主要集中在2kHz以下的低频段,因此使用骨导音频计算长期后置滤波相关参数可以有效地增强基音成分。
利用编码器中的冲击检测对骨导音频进行处理,基于骨导音频完成编码过程中的冲击检测,避免了非平稳的背景噪声对此模块的干扰,可以有效防止误检测。
利用编码器中的带宽检测对骨导音频进行处理。编码器中的带宽检测模块主要针对来自移动通信网络的语音信号,而本发明的目标是将骨导音频与气导音频更好的进行信号融合,输入全频带的增强信号。因此,在实际应用过程中,用户可以选择忽略此模块或对此模块的工作模式进行改进。优选的,在实际应用过程中,带宽检测模块不做实际的检测,直接输出全频带的标志,进一步节省算力。
图4示出了本申请一种骨导辅助的气导语音处理装置的具体实施方式。
在图4所示的具体实施方式中,骨导辅助的气导语音处理装置主要包括:谱系数获取模块401,用于将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数;
特征获取模块402,用于利用骨导谱系数和气导谱系数分别进行梅尔频率倒谱的计算,得到骨导特征和带噪气导特征;
子带掩膜获取模块403,用于利用预先处理的神经网络模型,处理骨导特征和带噪气导特征,得到子带掩膜;
增强语音音频码流获取模块404,用于利用子带掩膜和气导谱系数计算得到增强谱系数,并利用增强谱系数计算得到增强语音音频码流。
在本申请的一个具体实施例中,骨导辅助的气导语音处理装置包括,用于对骨导音频进行重采样处理、长期后置滤波处理、冲击检测处理和带宽检测处理的模块。
在本申请的一个具体实施例中,子带掩膜获取模块包括预先处理的神经网络模型获取模块,其用于获取气导语音和对应的骨导音频,并将气导语音与噪声按照预定的信噪比进行混音,得到带噪气导音频;利用气导语音、骨导音频和带噪气导音频,分别计算得到纯净气导特征、带噪气导特征和骨导特征;将骨导特征和带噪气导特征进行拼接,得到拼接特征,并将拼接特征输入神经网络模型计算得到子带掩膜;利用子带掩膜和带噪气导音频的离散余弦变换谱系数,计算得到增强谱系数;根据增强谱系数和纯净气导特征,计算得到气导语音和增强语音音频之间的源失真比;根据源失真比,调节神经网络模型的模型参数,直至得到预先处理的神经网络模型。
在本申请的一个具体实施例中,预先处理的神经网络模型获取模块包括,用于对气导语音进行低延迟改进型离散余弦变换处理,得到纯净气导特征;对带噪气导音频进行梅尔频率倒谱的计算,得到带噪气导特征;对骨导音频进行梅尔频率倒谱的计算和长期后置滤波器的处理,得到骨导特征的模块。
在本申请的一个具体实施例中,预先处理的神经网络模型获取模块包括,用于在源失真比大于预设阈值时,锁定神经网络模型和神经网络模型对应的模型参数,将锁定的神经网络模型作为预先处理的神经网络模型的模块。
在本申请的一个具体实施例中,增强语音音频码流获取模块包括,用于将子带掩膜和气导谱系数相乘,得到增强谱系数;将增强谱系数进行包括变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码和码流封装的处理步骤,得到增强语音音频码流的模块。
本申请提供的骨导辅助的气导语音处理装置,可用于执行上述任一实施例描述的骨导辅助的气导语音处理方法,其实现原理和技术效果类似,在此不再赘述。
在本申请的一个具体实施例中,本申请一种骨导辅助的气导语音处理装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述实施例中描述的骨导辅助的气导语音处理方法。
在本申请的一个具体实施方式中,一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行上述实施例中描述的骨导辅助的气导语音处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种骨导辅助的气导语音处理方法,其特征在于,包括:
将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数;
利用所述骨导谱系数和所述气导谱系数分别进行梅尔频率倒谱的计算,得到骨导特征和带噪气导特征;
利用预先处理的神经网络模型,处理所述骨导特征和所述带噪气导特征,得到子带掩膜;
利用所述子带掩膜和所述气导谱系数计算得到增强谱系数,并利用所述增强谱系数计算得到增强语音音频码流。
2.根据权利要求1所述的骨导辅助的气导语音处理方法,其特征在于,还包括:
对所述骨导音频进行重采样处理、长期后置滤波处理、冲击检测处理和带宽检测处理。
3.根据权利要求1所述的骨导辅助的气导语音处理方法,其特征在于,所述利用预先处理的神经网络模型,处理所述骨导特征和所述带噪气导特征,得到子带掩膜,包括:
获取气导语音和对应的骨导音频,并将所述气导语音与噪声按照预定的信噪比进行混音,得到带噪气导音频;
利用所述气导语音、所述骨导音频和所述带噪气导音频,分别计算得到纯净气导特征、带噪气导特征和骨导特征;
将所述骨导特征和所述带噪气导特征进行拼接,得到拼接特征,并将所述拼接特征输入神经网络模型计算得到子带掩膜;
利用所述子带掩膜和所述带噪气导音频的离散余弦变换谱系数,计算得到增强谱系数;
根据所述增强谱系数和所述纯净气导特征,计算得到所述气导语音和增强语音音频之间的源失真比;
根据所述源失真比,调节所述神经网络模型的模型参数,直至得到所述预先处理的神经网络模型。
4.根据权利要求3所述的骨导辅助的气导语音处理方法,其特征在于,所述利用所述气导语音、所述骨导音频和所述带噪气导音频,分别计算得到纯净气导特征、带噪气导特征和骨导特征,进一步包括:
对所述气导语音进行低延迟改进型离散余弦变换处理,得到所述纯净气导特征;
对所述带噪气导音频进行梅尔频率倒谱的计算,得到所述带噪气导特征;以及,
对所述骨导音频进行梅尔频率倒谱的计算和长期后置滤波器的处理,得到所述骨导特征。
5.根据权利要求3所述的骨导辅助的气导语音处理方法,其特征在于,所述根据所述源失真比,调节所述神经网络模型的模型参数,包括:
在所述源失真比大于预设阈值时,锁定所述神经网络模型和所述神经网络模型对应的所述模型参数。
6.根据权利要求1所述的骨导辅助的气导语音处理方法,其特征在于,所述利用所述子带掩膜和所述气导谱系数计算得到增强谱系数,并利用所述增强谱系数计算得到增强语音音频码流,包括:
将所述子带掩膜和所述气导谱系数相乘,得到所述增强谱系数;
将所述增强谱系数进行包括变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码和码流封装的处理步骤,得到增强语音音频码流。
7.一种骨导辅助的气导语音处理装置,其特征在于,包括:
谱系数获取模块,用于将骨导音频和带噪气导音频分别进行加窗处理和低延迟改进型离散余弦变换处理,得到骨导谱系数和气导谱系数;
特征获取模块,用于利用所述骨导谱系数和所述气导谱系数分别进行梅尔频率倒谱的计算,得到骨导特征和带噪气导特征;
子带掩膜获取模块,用于利用预先处理的神经网络模型,处理所述骨导特征和所述带噪气导特征,得到子带掩膜;
增强语音音频码流获取模块,用于利用所述子带掩膜和所述气导谱系数计算得到增强谱系数,并利用所述增强谱系数计算得到增强语音音频码流。
8.根据权利要求7所述的骨导辅助的气导语音处理装置,其特征在于,所述增强语音音频码流获取模块,包括:
用于将所述子带掩膜和所述气导谱系数相乘,得到所述增强谱系数;将所述增强谱系数进行包括变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码和码流封装的处理步骤,得到增强语音音频码流的模块。
9.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-6中任一项所述的骨导辅助的气导语音处理方法。
10.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器进行通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述至少一个处理器操作所述计算机指令以执行如权利要求1-6任一项所述的骨导辅助的气导语音处理方法。
CN202211720964.4A 2022-12-30 2022-12-30 一种骨导辅助的气导语音处理方法、装置、介质及设备 Pending CN115966218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211720964.4A CN115966218A (zh) 2022-12-30 2022-12-30 一种骨导辅助的气导语音处理方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211720964.4A CN115966218A (zh) 2022-12-30 2022-12-30 一种骨导辅助的气导语音处理方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN115966218A true CN115966218A (zh) 2023-04-14

Family

ID=87352657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211720964.4A Pending CN115966218A (zh) 2022-12-30 2022-12-30 一种骨导辅助的气导语音处理方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN115966218A (zh)

Similar Documents

Publication Publication Date Title
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
KR102367538B1 (ko) 다중 채널 신호 인코딩 방법 및 인코더
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN104969290B (zh) 用于对音频帧丢失隐藏进行控制的方法和设备
CN109065067A (zh) 一种基于神经网络模型的会议终端语音降噪方法
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
Pulakka et al. Speech bandwidth extension using gaussian mixture model-based estimation of the highband mel spectrum
KR20210151931A (ko) 오디오 디코더, 필터의 특성을 정의하는 값의 세트를 결정하는 장치, 디코딩된 오디오 표현을 제공하는 방법, 필터 및 컴퓨터 프로그램의 특성을 정의하는 값의 세트를 결정하는 방법
CN107221334B (zh) 一种音频带宽扩展的方法及扩展装置
CN103137133A (zh) 非激活音信号参数估计方法及舒适噪声产生方法及系统
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
CN103155035A (zh) 基于celp的语音编码器中的音频信号带宽扩展
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
Abka et al. Speech recognition features: Comparison studies on robustness against environmental distortions
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
Bulut et al. Low-Latency Single Channel Speech Dereverberation Using U-Net Convolutional Neural Networks.
Chen et al. Speech bandwidth extension based on Wasserstein generative adversarial network
WO2017193551A1 (zh) 多声道信号的编码方法和编码器
CN114863942B (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
Schlien et al. Acoustic tube interpolation for spectral envelope estimation in artificial bandwidth extension
Roy Single channel speech enhancement using Kalman filter
US20220277754A1 (en) Multi-lag format for audio coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination