CN115881142A - 一种骨导语音编码模型的训练方法、装置及存储介质 - Google Patents
一种骨导语音编码模型的训练方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115881142A CN115881142A CN202211511992.5A CN202211511992A CN115881142A CN 115881142 A CN115881142 A CN 115881142A CN 202211511992 A CN202211511992 A CN 202211511992A CN 115881142 A CN115881142 A CN 115881142A
- Authority
- CN
- China
- Prior art keywords
- bone conduction
- conduction
- voice data
- air conduction
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
本申请公开了一种骨导语音编码模型的训练方法、装置及存储介质,属于音频编解码技术领域。该方法主要包括:获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征;利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征;利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码。本申请在进行骨导语音的编码时能够在增强音质的条件下,同时节省算力和存储需求。
Description
技术领域
本申请涉及音频编解码技术领域,特别涉及一种骨导语音编码模型的训练方法、装置及存储介质。
背景技术
传统的麦克风采集语音都是经过空气传导从而收集到语音数据,这种方式容易受到背景噪声干扰。骨导麦克风是利用人体骨头振动形成的电信号来进行语音采集的设备,利用骨导麦克风采集语音可有效避免背景噪声干扰,因此得到广泛应用。骨导麦克风在蓝牙领域也有很多应用场景,例如骨导麦克风的蓝牙耳机。
目前在蓝牙耳机上使用骨导麦克风存在以下问题:首先,骨导麦克风采集的语音存在高频部分缺失、中频部分厚重的现象,这会使语音的清晰度和明亮度不够,导致用户体验感较低。其次,在利用LC3编解码器进行骨导语音编码时,因为LC3编解码器中存在用于检测输入语音的真实带宽并根据真实带宽调节编码策略,从而避免频谱泄露的带宽检测模块,因此,在采集得到的语音数据是骨导语音时无法使用LC3编解码器对其进行编码。这是因为LC3中的带宽检测模块所能检测到的最小带宽为4kHz,而骨导麦克风采集的骨导语音的真实带宽通常在2kHz以下。
为了在蓝牙设备中使用LC3对骨导语音进行编码,现有技术采用的方法是先对骨导语音进行增强,然后再对其编码,然而这种方法,通过独立处理语音的增强步骤与编码步骤,增加了系统的复杂度以及算法延迟,从而导致计算量大、需求存储空间大和语音延迟的问题。
发明内容
针对现有技术存在的骨导麦克风的蓝牙耳机音质差、计算量大和延迟的问题,本申请主要提供一种骨导语音编码模型的训练方法、装置及存储介质。
为了实现上述目的,本申请采用的一个技术方案是:提供一种骨导语音编码模型的训练方法,其包括:获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征;利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征;利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码;在气导语音特征和假气导特征之间的差异不小于预定阈值的条件下,重新设置第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。
可选的,利用编码过程中的低延迟改进型离散余弦变换、重采样和长期后置滤波器分别对骨导语音数据和气导语音数据进行处理,提取得到气导语音特征和骨导语音特征。
可选的,利用蓝牙编码器的低延迟改进型离散余弦变换模块对骨导语音数据进行处理,得到骨导语音数据的骨导谱系数特征,并利用蓝牙编码器的重采样模块和长期后置滤波器模块对骨导语音数据进行处理,得到骨导语音数据的骨导滤波特征,将骨导谱系数特征和骨导滤波特征作为骨导语音特征。
可选的,根据气导语音数据和骨导语音数据的时间节点,将气导语音数据和骨导语音数据进行对齐,得到同一时间节点的气导语音特征和骨导语音特征。
可选的,利用自编码器或者神经网络模型处理骨导语音特征,得到骨导语音数据的假气导特征。
可选的,利用深度神经网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断。
可选的,当蓝牙编码器接收到新的骨导语音数据后,利用低延迟改进型离散余弦变换、重采样和长期后置滤波器对新的骨导语音数据进行处理,得到新的骨导语音数据对应的骨导特征;利用冻结参数的第一网络模型对骨导特征进行处理得到增强骨导特征;对增强骨导特征执行除带宽检测外的其它编码步骤。
本申请采用的另一个技术方案是:提供一种骨导语音编码模型的训练装置,其包括:特征获取模块,用于获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征;假气导特征获取模块,用于利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征;判断模块,用于利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码;在气导语音特征和假气导特征之间的差异不小于预定阈值的条件下,重新设置第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。
可选的,用于当蓝牙编码器接收到新的骨导语音数据后,利用低延迟改进型离散余弦变换、重采样和长期后置滤波器对新的骨导语音数据进行处理,得到新的骨导语音数据对应的骨导特征;利用冻结参数的第一网络模型对骨导特征进行处理得到增强骨导特征;对增强骨导特征执行除带宽检测外的其它编码步骤的模块。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的骨导语音编码模型的训练方法。
本申请的技术方案可以达到的有益效果是:在进行骨导语音编码时,在增强音质的条件下,减少计算量和对存储空间的要求,同时减少语音的延迟现象,提高用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种骨导语音编码模型的训练方法的一个具体实施方式的示意图;
图2是本申请一种骨导语音编码模型的训练方法的利用LC3进行骨导语音编码流程的示意图;
图3是本申请一种骨导语音编码模型的训练方法的生成网络处理过程的具体实施方式的示意图;
图4是本申请一种骨导语音编码模型的训练方法的对抗网络训练过程的具体实施方式的示意图;
图5是本申请一种骨导语音编码模型的训练方法的基于深度学习的骨导特征增强模块的具体实施方式的示意图;
图6是本申请一种骨导语音编码模型的训练装置的一个具体实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在现有技术中对骨导语音增强的方法主要有均衡法、频带扩展法、分析合成法,现有技术采用的方法对骨导语音有一定效果但仍然无法满足目前用户对于音质的高要求。
为满足用户对高音质需求,在现有技术中会通过获取骨导的低频传递函数和高频传递函数映射得到近似的气导语音,上述两种传递函数反映了骨导信号与气导信号之间的映射关系,从而可以根据骨导信号与传递函数生成与气导信号接近的信号,进一步获得增强的骨导语音信号。这种现有技术仍存在一些问题,首先骨导语音的高频部分的衰减较大,仅仅根据骨导语音和传递函数很难重建高频部分的语音信号。其次,由于个体的差异,通用的传递函数的获取过程难度较大,因此,在使用此方法时需要保存大量的传递函数。最后,该现有技术在实际应用时,通过分析用户的低频特性在数据库中找到与之最匹配的低频传递函数和低频传递函数对应的高频传递函数,然而低频特性分析以及保存大量传递函数都对蓝牙设备的算力和存储提出了较高的要求。
现有技术还会通过深度学习,实现利用低频信号重建高频信号。即利用自编码器的强大学习能力,通过大量的训练,建立骨导信号和气导信号之间的非线性映射关系,从而利用骨导语音的低频信号重建得到气导语音的高频信号。这种方法的不足之处在于所使用的深度学习模型复杂度较高,需要同时完成两个神经网络的训练,需要同时使用傅里叶变换的实部和虚部,导致输入的参数量过大。其次,现有技术在推理时复杂度较高,需要完成骨导信号的加窗、短时傅里叶变换、深度学习的推理、短时傅里叶逆变换以及重叠相加,这需要消耗大量的计算和存储资源,并且上述重叠相加会引入延迟,然而基于蓝牙通话对延时要求很敏感,过高的延时会降低用户体验。
因此,本申请提出一种骨导语音编码模型的训练方法、装置及存储介质,该方法在进行骨导语音的蓝牙编码时,能够在保证编码得到的语音音质较好且不增加蓝牙计算量和存储空间的条件下,利用简单的模型实现骨导语音的蓝牙编码。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请一种骨导语音编码模型的训练方法的一个实施方式。
图1所示的骨导语音编码模型的训练方法,包括:步骤S101,获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征;
步骤S102,利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征;
步骤S103,利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码;在气导语音特征和假气导特征之间的差异不小于预定阈值的条件下,重新设置第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。该具体实施方式,能够在进行骨导语音编码时,在增强音质的条件下,减少计算量和对存储空间的要求,同时减少语音的延迟现象,提高用户体验。
在图1所示的实施方式中,骨导语音编码模型的训练方法包括步骤S101,获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征。
具体的,分别获取同一音频信号的气导语音数据和骨导语音数据,并利用蓝牙编码器分别处理气导语音数据和骨导语音数据。在蓝牙编码器的编码过程中获取气导语音数据对应的气导语音特征,以及骨导语音数据对应的骨导语音特征。
在本申请的一个具体实施例中,步骤S101包括,利用编码过程中的低延迟改进型离散余弦变换、重采样和长期后置滤波器分别对骨导语音数据和气导语音数据进行处理,提取得到气导语音特征和骨导语音特征。
具体的,将气导语音经低延迟改进型离散余弦变换处理得到的谱系数,以及经重采样和长期后置滤波器处理得到的谱系数作为气导语音特征。将骨导语音经低延迟改进型离散余弦变换处理得到的谱系数,以及经重采样和长期后置滤波器处理得到的标志作为骨导语音特征。该步骤通过利用蓝牙编码器编码过程中的处理步骤,获得骨导语音数据的骨导语音特征和气导语音数据的气导语音特征,无需引入其他模块和设备即可满足在蓝牙编码器上进行骨导语音数据的编码,无需独立处理语音的增强步骤与编码步骤,因此系统的复杂度低,同时能够有效的减少数据的延迟。
具体的,如图2,以LC3编码器为例将输入蓝牙编码器的PCM格式的音频数据,通过以下计算处理完成低延迟改进型离散余弦变换,得到输出的谱系数,其中PCM格式的音频数据包括骨导语音数据和气导语音数据。
蓝牙编码器的低延迟改进型离散余弦变换的处理过程为:
t(n)=xs(Z-NF+n),for n=0…2·NF-1-Z
t(2NF-Z+n)=0,for n=0…Z-1
k=0…NF-1
其中,xs(n)是输入蓝牙编码器的时域音频pcm信号,X(k)是经过离散余弦变换的频域谱系数,NF为帧长。
具体的,如图2,在LC3编码器的重采样和长期后置滤波器中将骨导语音数据和气导语音数据进行处理。判断该语音数据是否包含基音成分,并在包含基音成分时指示基音的整数部分。
在本申请的一个具体实施例中,步骤S101包括,利用蓝牙编码器的低延迟改进型离散余弦变换模块对骨导语音数据进行处理,得到骨导语音数据的骨导谱系数特征,并利用蓝牙编码器的重采样模块和长期后置滤波器模块对骨导语音数据进行处理,得到骨导语音数据的骨导滤波特征,将骨导谱系数特征和骨导滤波特征作为骨导语音特征。
例如,当音频帧的配置为16kHz、10ms时,其一帧长度是160个采样点,即NF=160,在经过低延迟改进型离散余弦变换模块处理后其包含160个有效的谱系数,其中,该160个有效的谱系数为当前帧的骨导谱系数特征。将该音频帧利用重采样模块和长期后置滤波器模块进行处理,得到该音频帧是否包含基音的指示和包含基音时基音整数部分的指示,其中,音频帧是否包含基音的指示和包含基音时基音整数部分的指示就是骨导滤波特征。将该160个有效的谱系数、音频帧是否包含基音的指示和包含基音时基音整数部分的指示作为骨导语音数据的骨导语音特征。
特别的,虽然骨导语音数据的有效谱系数的数量与气导语音的有效谱系数的数量相同,但由于骨导语音数据的特性,在骨导语音的谱系数中能量主要集中在低频上,特别是谱系数0~19上,即2kHz以下。
在本申请的一个具体实施例中,步骤S101包括,根据气导语音数据和骨导语音数据的时间节点,将气导语音数据和骨导语音数据进行对齐,得到同一时间节点的气导语音特征和骨导语音特征。
具体的,因为音频数据在时间上具有延续性,根据气导语音数据和骨导语音数据的时间节点,将气导语音数据与骨导语音数据执行对齐,使得提取的骨导语音特征和气导语音特征在时间上是对齐的,便于加快后续第一网络模型和第二网络模型的学习速度,减少模型的计算量,提高模型的训练速度。
在图1所示的具体实施方式中,骨导语音编码模型的训练方法,还包括步骤S102,利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征。该步骤通过复用编码过程和深度学习进行特征提取,节省了代码存储量和算力需求。
具体的,在第一网络模型中将骨导语音数据的骨导谱系数特征和骨导滤波特征(骨导LTPF特征)进行增强处理,得到增强的骨导谱系数特征和增强的骨导滤波特征。
在本申请的一个具体实施例中,步骤S102包括,利用自编码器或者神经网络模型处理骨导语音特征,得到骨导语音数据的假气导特征。
具体的,第一网络模型(生成网络模型)可以基于自编码器,也可以基于如CNN、RNN、LSTM等其他神经网络模型,第一网络模型的模型类型本申请不限制。
例如,如图3,当第一网络模型是基于卷积自编码器时,其实现方式为:向生成网络模型中输入骨导谱系数特征即X(k),k=0…159和骨导LTPF特征。此时生成网络模型的编码器部分得到162个节点,而经过隐藏处理后的第一隐藏层得到80个节点,编码器最终输出40个节点。解码器的输入是40个节点,经过处理后的第一隐藏层有80个节点,最终解码器的输出是162个节点。其中,编码器和解码器之间还包括残差连接层,每一层还包括批标准化函数和激活函数。
在图1所示的具体实施方式中,骨导语音编码模型的训练方法,还包括步骤S103,利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码;在气导语音特征和假气导特征之间的差异不小于预定阈值的条件下,重新设置第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。该步骤能够在进行骨导语音编码时,在增强音质的条件下,减少计算量和对存储空间的要求,同时减少语音的延迟现象,提高用户体验。
具体的,在第二网络模型中对同一时间节点的气导语音特征和假气导特征进行相似程度的判别,即判断气导语音特征和假气导特征之间的差异与预定阈值之间的大小,并根据判别结果训练第一网络模型和第二网络模型。在第二网络模型能够分辨第一网络模型输出的假气导特征和气导语音特征时,调整第一模型的模型参数重新生成假气导特征,直至第二网络模型无法分辨第一网络模型输出的假气导特征和气导语音特征时,停止对第一网络模型和第二网络模型的训练,并冻结第一网络模型的模型参数。此时的第一网络模型即可用于后续的推理过程。其中,本申请对第二网络模型的类型不做限制,第二网络模型可以是基于深度神经网络,也可以是基于其他的神经网络模型。
在本申请的一个具体实施例中,步骤S103包括,利用深度神经网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断。
例如,在利用深度神经网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断时,以配置采样率16kHz、帧长配置10ms为例,深度神经网络模型的输入层获取得到320个节点,处理后在第一隐藏层是640个节点、在第二隐藏层是640个节点、在输出层是1个节点。其中,深度神经网络模型的每一层还包括批标准化函数和激活函数。
在本申请的一个实施例中,第一网络模型和第二网络模型组成得到对抗网络。
具体的,对抗网络是一种无监督学习方法,其通过第一网络模型和第二网络模型之间相互博弈的方式使模型进行学习训练,能够减少人工干预,提高学习的效率和质量。如图4,对抗网络主要由一个生成网络(第一网络模型)和一个判别网络(第二网络模型)组成。
第一网络模型主要用于生成样本,其输入为骨导语音特征,输出则是生成的目标样本,即假气导特征;第二网络模型主要用于区分其输入的样本是生成网络生成的目标样本还是真实存在的样本,即判断输入的语音特征是气导语音特征还是假气导特征。第一网络模型和第二网络模型在进行训练时,第一网络模型的输出结果需要尽量模仿真实样本,而第二网络模型则需要尽可能地分辨样本的真假性。这两个网络模型在训练过程中不断调整参数、相互对抗,最终达到纳什均衡,使得第一网络模型生成的假气导特征接近真实的气导语音特征,以至于第二网络模型无法判断假气导特征是否为真实样本。
如图4,其具体训练过程为先固定生成网络(第一网络模型)不变,当判别网络(第二网络模型)的输入数据是真数据时,使用‘真’数据去监督并更新判别网络参数,当判别网络输入为假数据时,用‘假’数据去监督并更新判别网络参数,以此找出当前最优的判别网络。然后固定判别网络D不变,用‘真’数据去监督并更新生成网络的参数,找出当前最优的生成网络。
在图1所示的具体实施方式中,骨导语音编码模型的训练方法,还包括,当蓝牙编码器接收到新的骨导语音数据后,利用低延迟改进型离散余弦变换、重采样和长期后置滤波器对新的骨导语音数据进行处理,得到新的骨导语音数据对应的骨导特征;利用冻结参数的第一网络模型对骨导特征进行处理得到增强骨导特征;对增强骨导特征执行除带宽检测外的其它编码步骤。
具体的,如图5,将骨导语音数据进行特征提取,即进行如图2中的低延迟改进型离散余弦变换处理、重采样处理和长期后置滤波器处理,得到骨导语音的骨导语音特征。利用生成网络(第一网络模型)对骨导语音特征进行增强处理得到增强骨导特征,如图2,将增强骨导特征进行除带宽检测外的其它编码步骤,这是因为带宽检测模块不适合应用于骨导语音,且本申请的目标是将骨导语音进行增强处理,特别是对语音的高频成分进行增强,从而输出全带宽信号,所以此处直接输出带宽指示为全带宽供后续模块使用。
特别的,图5中的音频编码处理部分即为图2的全部处理过程,图2中的基于深度学习的骨导特征增强是指图5中的生成网络。本申请的音频编码不局限于图2所示的LC3编码器,本申请的使用领域不局限于蓝牙领域。
图6示出了本申请一种骨导语音编码模型的训练装置的具体实施方式。
在图6所示的具体实施方式中,骨导语音编码模型的训练装置主要包括:特征获取模块601,用于获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征;
假气导特征获取模块602,用于利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征;
判断模块603,用于利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码;在气导语音特征和假气导特征之间的差异不小于预定阈值的条件下,重新设置第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。
在本申请的一个具体实施例中,判断模块603包括,用于当蓝牙编码器接收到新的骨导语音数据后,利用低延迟改进型离散余弦变换、重采样和长期后置滤波器对新的骨导语音数据进行处理,得到新的骨导语音数据对应的骨导特征;利用冻结参数的第一网络模型对骨导特征进行处理得到增强骨导特征;对增强骨导特征执行除带宽检测外的其它编码步骤的模块。
本申请提供的骨导语音编码模型的训练装置,可用于执行上述任一实施例描述的骨导语音编码模型的训练方法,其实现原理和技术效果类似,在此不再赘述。
在本申请的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述实施例中描述的骨导语音编码模型的训练方法。
在本申请的一个具体实施例中,本申请一种骨导语音编码模型的训练方法中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行上述实施例中描述的骨导语音编码模型的训练方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种骨导语音编码模型的训练方法,其特征在于,包括:
获取同一音频的气导语音数据和骨导语音数据,并利用所述气导语音数据和所述骨导语音数据分别提取气导语音特征和骨导语音特征;
利用第一网络模型处理所述骨导语音特征,得到所述骨导语音数据的假气导特征;
利用第二网络模型对同一时间节点的所述气导语音特征和所述假气导特征进行对比判断;
在所述气导语音特征和所述假气导特征之间的差异小于预定阈值条件下,冻结所述第一网络模型的模型参数,并利用所述第一网络模型进行骨导语音编码;
在所述气导语音特征和所述假气导特征之间的差异不小于预定阈值的条件下,重新设置所述第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。
2.根据权利要求1所述的骨导语音编码模型的训练方法,其特征在于,所述利用所述气导语音数据和所述骨导语音数据分别提取气导语音特征和骨导语音特征,包括:
利用编码过程中的低延迟改进型离散余弦变换、重采样和长期后置滤波器分别对所述骨导语音数据和所述气导语音数据进行处理,提取得到所述气导语音特征和所述骨导语音特征。
3.根据权利要求2所述的骨导语音编码模型的训练方法,其特征在于,所述利用编码过程中的低延迟改进型离散余弦变换、重采样和长期后置滤波器分别对所述骨导语音数据和所述气导语音数据进行处理,提取得到所述气导语音特征和所述骨导语音特征,包括:
利用蓝牙编码器的低延迟改进型离散余弦变换模块对所述骨导语音数据进行处理,得到所述骨导语音数据的骨导谱系数特征,并利用蓝牙编码器的重采样模块和长期后置滤波器模块对所述骨导语音数据进行处理,得到所述骨导语音数据的骨导滤波特征,将所述骨导谱系数特征和所述骨导滤波特征作为所述骨导语音特征。
4.根据权利要求1所述的骨导语音编码模型的训练方法,其特征在于,所述利用第二网络模型对同一时间节点的所述气导语音特征和所述假气导特征进行对比判断,包括:
根据所述气导语音数据和所述骨导语音数据的时间节点,将所述气导语音数据和所述骨导语音数据进行对齐,得到同一时间节点的所述气导语音特征和所述骨导语音特征。
5.根据权利要求1所述的骨导语音编码模型的训练方法,其特征在于,所述利用第一网络模型处理所述骨导语音特征,得到所述骨导语音数据的假气导特征,包括:
利用自编码器或者神经网络模型处理所述骨导语音特征,得到所述骨导语音数据的假气导特征。
6.根据权利要求1所述的骨导语音编码模型的训练方法,其特征在于,所述利用第二网络模型对同一时间节点的所述气导语音特征和所述假气导特征进行对比判断,包括:
利用深度神经网络模型对同一时间节点的所述气导语音特征和所述假气导特征进行对比判断。
7.根据权利要求1所述的骨导语音编码模型的训练方法,其特征在于,所述利用所述第一网络模型进行骨导语音编码,包括:
当蓝牙编码器接收到新的骨导语音数据后,利用低延迟改进型离散余弦变换、重采样和长期后置滤波器对所述新的骨导语音数据进行处理,得到所述新的骨导语音数据对应的骨导特征;
利用冻结参数的所述第一网络模型对所述骨导特征进行处理得到增强骨导特征;
对所述增强骨导特征执行除带宽检测外的其它编码步骤。
8.一种骨导语音编码模型的训练装置,其特征在于,包括:
特征获取模块,用于获取同一音频的气导语音数据和骨导语音数据,并利用所述气导语音数据和所述骨导语音数据分别提取气导语音特征和骨导语音特征;
假气导特征获取模块,用于利用第一网络模型处理所述骨导语音特征,得到所述骨导语音数据的假气导特征;
判断模块,用于利用第二网络模型对同一时间节点的所述气导语音特征和所述假气导特征进行对比判断;在所述气导语音特征和所述假气导特征之间的差异小于预定阈值的条件下,冻结所述第一网络模型的模型参数,并利用所述第一网络模型进行骨导语音编码;在所述气导语音特征和所述假气导特征之间的差异不小于预定阈值的条件下,重新设置所述第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。
9.根据权利要求8所述的骨导语音编码模型的训练装置,其特征在于,所述判断模块,包括:
用于当蓝牙编码器接收到新的骨导语音数据后,利用低延迟改进型离散余弦变换、重采样和长期后置滤波器对所述新的骨导语音数据进行处理,得到所述新的骨导语音数据对应的骨导特征;利用冻结参数的所述第一网络模型对所述骨导特征进行处理得到增强骨导特征;对所述增强骨导特征执行除带宽检测外的其它编码步骤的模块。
10.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-7中任一项所述的骨导语音编码模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211511992.5A CN115881142A (zh) | 2022-11-29 | 2022-11-29 | 一种骨导语音编码模型的训练方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211511992.5A CN115881142A (zh) | 2022-11-29 | 2022-11-29 | 一种骨导语音编码模型的训练方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115881142A true CN115881142A (zh) | 2023-03-31 |
Family
ID=85764647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211511992.5A Pending CN115881142A (zh) | 2022-11-29 | 2022-11-29 | 一种骨导语音编码模型的训练方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115881142A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854518A (zh) * | 2024-03-05 | 2024-04-09 | 深圳市时代经纬科技有限公司 | 一种WebGPU实现语音编解码及转码的方法和装置 |
-
2022
- 2022-11-29 CN CN202211511992.5A patent/CN115881142A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854518A (zh) * | 2024-03-05 | 2024-04-09 | 深圳市时代经纬科技有限公司 | 一种WebGPU实现语音编解码及转码的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
EP3739582A1 (en) | Voice detection | |
CN113870885B (zh) | 蓝牙音频啸叫检测和抑制方法、装置、介质及设备 | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN111696580B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN111383646A (zh) | 一种语音信号变换方法、装置、设备和存储介质 | |
JP4050350B2 (ja) | 音声認識をする方法とシステム | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN115881142A (zh) | 一种骨导语音编码模型的训练方法、装置及存储介质 | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Wang et al. | Joint noise and mask aware training for DNN-based speech enhancement with sub-band features | |
CN114420140B (zh) | 基于生成对抗网络的频带扩展方法、编解码方法及系统 | |
CN111883181A (zh) | 音频检测方法、装置、存储介质及电子装置 | |
CN111862978A (zh) | 一种基于改进mfcc系数的语音唤醒方法及系统 | |
CN117612545A (zh) | 语音转换方法、装置、设备及计算机可读介质 | |
CN116746887A (zh) | 一种基于音频的睡眠分期的方法、系统、终端及存储介质 | |
CN114863942B (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
CN115966218A (zh) | 一种骨导辅助的气导语音处理方法、装置、介质及设备 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
CN112750469A (zh) | 语音中检测音乐的方法、语音通信优化方法及对应的装置 | |
CN114999503B (zh) | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 | |
CN114566174B (zh) | 一种优化语音编码的方法、装置、系统、介质及设备 | |
Thakur et al. | Speech enhancement using Open-Unmix music source separation architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |