CN115035908A - 基于深度学习的语音频带扩展方法、装置及编码方法 - Google Patents
基于深度学习的语音频带扩展方法、装置及编码方法 Download PDFInfo
- Publication number
- CN115035908A CN115035908A CN202210636744.7A CN202210636744A CN115035908A CN 115035908 A CN115035908 A CN 115035908A CN 202210636744 A CN202210636744 A CN 202210636744A CN 115035908 A CN115035908 A CN 115035908A
- Authority
- CN
- China
- Prior art keywords
- audio data
- spectral
- parameter
- band
- vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000013135 deep learning Methods 0.000 title claims abstract description 37
- 230000003595 spectral effect Effects 0.000 claims abstract description 141
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 37
- 230000007774 longterm Effects 0.000 claims abstract description 34
- 238000003062 neural network model Methods 0.000 claims abstract description 26
- 238000012952 Resampling Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种基于深度学习的语音频带扩展方法、装置及编码方法,属于音频编码技术领域,该方法包括:对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;将第一特征参数和第二特征参数输入到预训练的神经网络模型中,生成音频数据对应的全带宽谱系数。本申请利用编码过程中的已有参数,并进行特征提取,获取音频数据中关于元音和摩擦音的特征,充分考虑原有音频数据中元音和摩擦音的不同,进行更加准确的频带扩展,提升用户体验。
Description
技术领域
本申请涉及音频编解码技术领域,特别涉及一种基于深度学习的语音频带扩展方法、装置及编码方法。
背景技术
目前窄带语音信号仍然在广泛的使用,如AMR-NB,其在移动电话系统中仍然占据重要地位,它的采样率为8kHz,有效带宽为300~3400Hz,但是音质一般而且可懂性也不理想。现有技术中,一种简便的方法是盲带宽扩展(Blind bandwidth extension,简称BBWE),以蓝牙耳机通话为例,在蓝牙耳机接收到窄带音频码流时,先解码为窄带语音信号(有效带宽300~3400Hz),再使用BBWE将其带宽扩展为宽带语音信号播放(50~7000Hz),此种方法不需要更新整个通信系统,只需要在音频信号接收端执行带宽扩展即可,以较低的代价提升了音质和可懂性。不足之处在于,对音频数据中的摩擦音的处理效果不佳。由于元音与摩擦音的特性不同,元音的主要能量集中在低频成分,其低频谐波结构与高频谐波结构相似,而且在高频部分衰减迅速,而摩擦音无明显的周期成分,其主要能量集中在高频成分。现有技术的解决方法在扩展带宽时并不做区分,导致频带扩展的效果较差,影响最终的音质;同时该种处理方法,需要占用较大的存储空间和运算量大,不适用对存储空间和运算量有着限制的嵌入式蓝牙系统。
发明内容
针对在进行窄带语音的扩展时,现有方法不对窄带语音数据中的元音和摩擦音进行区分,进行无差别的频带扩展,导致频带扩展的效果较差,影响用户使用体验的问题,本申请提出一种基于深度学习的语音频带扩展方法、装置及编码方法。
第一方面,本申请提出一种基于深度学习的语音频带扩展方法,包括:对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;将第一特征参数和第二特征参数输入到预训练的神经网络模型中,生成音频数据对应的全带宽谱系数。
可选的,对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数,包括:对谱系数进行特征提取,得到谱熵,其中,在谱熵小于谱熵阈值的条件下,该片段的音频数据对应语音数据;在谱熵不小于谱熵阈值的条件下;该片段的音频数据对应非语音数据;对谱系数进行特征提取,得到子带能量,其中在低频带的子带能量大于第一能量阈值的条件下,音频数据包含元音,在高频带的子带能量大于第二能量阈值的条件下,音频数据包含摩擦音。
可选的,对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数,还包括:对谱系数进行特征提取,得到频谱质心,其中,在低频带,频谱质心小于第一阈值的条件下,音频数据包含元音;在高频带,频谱质心大于第二阈值的条件下,音频数据包含摩擦音。
可选的,对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数,包括:通过长期后置滤波器对音频数据进行处理,得到音频数据对应的基音存在标志,其中在基音存在标志是第一数值的条件下,音频数据包含元音,在基音存在标志是第二数值的条件下,音频数据包含摩擦音。
可选的,对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数,还包括:通过长期后置滤波器对音频数据进行处理,得到音频数据对应的归一化自相关值、基音延迟参数以及长期后置滤波器激活参数。
可选的,神经网络的预训练模型过程,包括:对全带宽语音进行重采样,得到窄带语音;对窄带语音进行特征提取,得到窄带语音对应的第一特征参数和第二特征参数;利用窄带语音对应的第一特征参数、第二特征参数和宽带语言进行模型训练,使得训练后的网络模型能够根据窄带语音对应的第一特征参数和第二特征参数得到宽带语音的预测带宽谱系数。
可选的,神经网络的预训练模型过程,还包括:根据预测带宽谱系数和宽带语音的真实带宽谱系数进行对比,得到对比结果;根据对比结果对网络模型进行优化,使得预测带宽谱系数与真实带宽谱系数之间的误差低于预设阈值。
第二方面,本申请提出一种基于深度学习的语音频带扩展装置,包括:第一特征提取模块,其对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;第二特征提取模块,其对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;频带扩展模块,其将第一特征参数和第二特征参数输入到预训练的神经网络模型中,生成音频数据对应的全带宽谱系数。
第三方面,本申请提出一种基于深度学习语音频带扩展的音频编码方法,包括:对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;将第一特征参数和第二特征参数输入到预训练的神经网络模型中,生成音频数据对应的全带宽谱系数;对编码器的编码参数进行更新,并根据全带宽谱系数对音频数据继续编码,得到具有全带宽谱系数的编码结果。
第四方面,本申请提出一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被执行时,使得计算机执行方案一或方案三中的方法。
本申请利用对音频数据的编码过程中的参数,并进行特征提取,获取音频数据中关于元音和摩擦音的特征,并在通过网络模型进行频带扩展时,充分考虑原有音频数据中元音和摩擦音的不同,进行更加准确的频带扩展,提高频带扩展的效果,提升用户体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图示例性的示出了本申请的一些实施例。
图1是本申请基于深度学习的语音频带扩展方法的一个实施方式的示意图;
图2是本申请神经网络模型训练过程的一个实例的示意图;
图3是本申请基于深度学习的语音频带扩展装置的一个实施方式的示意图;
图4是本申请基于深度学习语音频带扩展的音频编码方法的一个实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前窄带语音信号仍然在广泛的使用,如AMR-NB,其在移动电话系统中仍然占据重要地位,它的采样率为8kHz,有效带宽为300~3400Hz,但是音质一般而且可懂性也不理想。现有技术中,一种简便的方法是盲带宽扩展(Blind bandwidth extension,简称BBWE),以蓝牙耳机通话为例,在蓝牙耳机接收到窄带音频码流时,先解码为窄带语音信号(有效带宽300~3400Hz),再使用BBWE将其带宽扩展为宽带语音信号播放(50~7000Hz),此种方法不需要更新整个通信系统,只需要在音频信号接收端执行带宽扩展即可,以较低的代价提升了音质和可懂性。不足之处在于,对音频数据中的摩擦音的处理效果不佳。由于元音与摩擦音的特性不同,元音的主要能量集中在低频成分,其低频谐波结构与高频谐波结构相似,而且在高频部分衰减迅速,而摩擦音无明显的周期成分,其主要能量集中在高频成分。现有技术的解决方法在扩展带宽时并不做区分,导致频带扩展的效果较差,影响最终的音质;同时该种处理方法,需要占用较大的存储空间和运算量大,不适用对存储空间和运算量有着限制的嵌入式蓝牙系统。
针对上述问题,本申请提出一种基于深度学习的语音频带扩展方法、装置及编码方法。该频带扩展方法包括:对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;将第一特征参数和第二特征参数输入到预训练的神经网络模型中,生成音频数据对应的全带宽谱系数。
本申请利用对音频数据编码过程中原有参数,通过特征提取,得到音频数据中关于元音和摩擦音的不同特征参数。然后通过预训练的神经网络模型,对得到的第一特征参数和第二特征参数进行处理,并对该音频数据的频带进行扩展,使得扩展得到的宽带语音保有原来音频数据的元音和摩擦音的特征,提高频带扩展的处理效果,提升用户体验。解决现有技术在进行频带扩展时,不考虑音频数据自身的特征,进行盲目扩展,可能导致带宽扩展后得到的宽带语音丢失原有音频数据特点的问题,进一步提高用户在收听时的音质效果。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请基于深度学习的语音频带扩展方法的一个实施方式。
在图1所示的实施方式中,本申请的基于深度学习的语音频带扩展方法包括过程S101,对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数。
在该实施方式中,本申请的频带扩展方法,利用对音频数据现有的编码过程,通过编码过程中得到的中间参数进行特征提取,具体来分析音频数据中关于元音和摩擦音的信息,也就是在低延迟改进型离散余弦变换后,得到音频数据相应的谱系数,对谱系数进行特征提取,得到第一特征参数。其中第一特征参数包括谱熵、子带能量以及频谱质心等。然后利用得到的第一特征参数进行后续的神经网路模型的训练,进行频带的扩展。使得频带扩展后得到新的全带宽谱系数能够保持有原有音频数据的元音和摩擦音的特征,保持音频的音质,提升用户体验。
可选的,对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数,包括:对谱系数进行特征提取,得到谱熵,其中,在谱熵小于谱熵阈值的条件下,该片段的音频数据对应语音数据;在谱熵不小于谱熵阈值的条件下;该片段的音频数据对应非语音数据;对谱系数进行特征提取,得到子带能量,其中在低频带的子带能量大于第一能量阈值的条件下,音频数据包含元音,在高频带的子带能量大于第二能量阈值的条件下,音频数据包含摩擦音。
在该可选实施例中,利用编码过程中得到原有音频数据的谱系数,通过谱系数得到音频数据对应的谱熵,其中谱熵主要反映频谱的分布,是一个区分该音频数据是语音还是非语音的重要信息。其中,对于语音部分,往往能量分布不均匀,对应谱熵的数值较小;而对于飞语音部分,也就是静音或者背景噪音,其对应的能量分布较为均匀,谱熵的数值较大,因此通过谱熵能够反映出当前进行编码的音频数据的语音或者非语音的特性,
具体的,在谱熵小于谱熵阈值的条件下,该片段的音频数据对应语音数据;在谱熵不小于谱熵阈值的条件下,该片段的音频数据对应非语音数据。谱熵阈值可在0.5-0.6的范围内进行选择,优选的,谱熵阈值可选择0.55。需要说明的是,谱熵阈值的选取,可根据实际的判断要求进行合理的选择,上述仅仅为较优的实施例,不对本申请进行具体限值。
在该可选实施例中,通过谱系数能够确定该音频数据的子带能量。其中子带能量要反映能量在不同子带上的分布,有助于区分音频数据中的元音、摩擦音和静音,引导神经网络训练时合成的高频频谱包络符合不同音频类型的特征。其中静音通常在所有子带上能量很小;元音在低频子带能量较大,在高频子带能量较小,且能量衰减迅速;摩擦音在低频子带能量较小,在高频子带能量较大。
具体的,在低频带的子带能量大于第一能量阈值的条件下,音频数据包含元音,在高频带的子带能量大于第二能量阈值的条件下,音频数据包含摩擦音。为了便于进行子带能量的简单计算,此处的子带能量均转化为归一化子带能量。其中第一能量阈值取值为0.7,第二能量阈值选择为0.5。需要说明的是,第一能量阈值和第二能量阈值的选取,可根据实际的判断要求进行合理的选择,上述仅仅为较优的实施例,不对本申请进行具体限值。
可选的,对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数,还包括:对谱系数进行特征提取,得到频谱质心,其中,在低频带,频谱质心小于第一阈值的条件下,音频数据包含元音;在高频带,频谱质心大于第二阈值的条件下,音频数据包含摩擦音。
在该可选实施例中,对于音频数据中含有元音,则主要的频谱能量集中在低频,频谱质心比较小;对于音频数据中的摩擦音,主要的频谱能量集中在高频,频谱质心比较大,引导神经网络训练时合成的频谱符合实际的能量分布。因此,通过在低频带,频谱质心小于第一阈值的条件下,音频数据包含元音;在高频带,频谱质心大于第二阈值的条件下,音频数据包含摩擦音。通过频谱质心进行音频数据中元音和摩擦音的判断。其中,第一阈值的取值范围为0.3-0.4,优选的,第一阈值取值0.35;第二阈值的取值范围为0.6-0.7,优选的,第二阈值的取值为0.65。需要说明的是,第一阈值和第二阈值的选取,可根据实际的判断要求进行合理的选择,上述仅仅为较优的实施例,不对本申请进行具体限值。
通过第一特征参数中的谱熵、子带能量以及频谱质心的特征,对音频数据中语音与非语音,元音与摩擦音进行表示,从而引导神经网络训练时合成的高频频谱符合不同音频类型的特征。本申请通过第一特征参数和第二特征参数不同的角度反映了音频数据中元音和摩擦音的特征,通过两者的结合使用,确保特征参数的全面性,进而可以有效提高神经网络在频带扩展时的准确性。
具体的,输入PCM格式的音频数据,完成低延迟改进型离散余弦变换输出谱系数,简述如下;
t(n)=xs(Z-NF+n),for n=0…2·NF-1-Z
t(2NF-Z+n)=0,for n=0…Z-1
k=0…NF-1
其中xs(n)是输入的时域音频pcm的信号,以8kHz、10ms的配置为例,其一帧长度是80个采样点,即NF=80,X(k)是经过离散余弦变换的频域谱系数,其包含80个有效的谱系数。
在图1所示的实施例中,本申请的基于深度学习的语音频带扩展方法包括过程S102,对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数。
在该实施方式中,在对原有音频数据的编码过程中,在完成重采样和长期后置滤波器处理后,对得到的处理结果进行特征提取,得到音频数据中的反映元音和摩擦音信息的第二特征参数。其中,第二特征参数包括基因存在标志、归一化自相关值、基音延迟参数以长期后置滤波器激活参数等。
可选的,对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数,包括:通过长期后置滤波器对音频数据进行处理,得到音频数据对应的基音存在标志,其中在基音存在标志是第一数值的条件下,音频数据包含元音,在基音存在标志是第二数值的条件下,音频数据包含摩擦音。
在该可选实施例中,利用长期后置滤波器对重采样后的音频数据进行处理后,输出相关信息,得到基音存在标志Pitch resent。其中当基音存在标志为第一数值1时,表示当前编码的音频数据的当前帧通常是元音,当基音存在标志为第二数值0时,当前帧一般为摩擦音、噪音或静音。因此,可通过基音存在标志进一步反映出进行编码的音频数据中元音和摩擦音的区分。进而为后续的神经网络模型进行频带扩展过提供指导。
可选的,对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数,还包括:通过长期后置滤波器对音频数据进行处理,得到音频数据对应的归一化自相关值、基音延迟参数以长期后置滤波器激活参数。
在该可选实施例中,归一化自相关值normal correlation,是反映基音是否存在的重要标志,根据LC3规范,当其超过门限0.6时,设置基音存在标志为1,标志基音存在,否则,表示基音不存在或当前帧的基音处于开始阶段。基音延迟Pitch_lag,表示编码的音频数据中当前帧的基音的具体的值;长期后置滤波器激活参数Ltpf_active,表示是否激活长期后置滤波器。
上述的第一特征参数和第二特征参数,是区分元音与摩擦音的重要信息,在神经网络模型进行频带的扩展过程中,引导神经网络训练时生成的高频频谱细节符合元音或摩擦音的特征。
第二特征参数的计算过程简述如下,计算伪谱:
其中X(-1)=X(NF)=0
子带划分:将每一帧音频信号得到的全部谱系数划分为均匀的子带,举例来说,当配置为采样率8kHz、帧长10ms时,每帧音频的离散余弦变换输出80个谱系数,可以划分为8个子带,每个子带拥有10个谱系数。伪谱系数为:Xpseudo(0),Xpseu(1),…Xpse(79),第1个子带的谱系数为:Xpse(0),Xpseudo(1),…Xpseud(9),第2个子带的谱系数为:Xpseud(10),Xpse(11),…Xpseu(19),第8个子带的谱系数为:Xpseudo(70),Xpseudo(71),…Xpseudo(79)。
子带的能量计算:
for sb=1…SUBBAND_NUM
如上,在一个实施例中,子带数SUBBAND_NUM是8,子带宽度SUBBAND_WIDTH是10。
计算子带总能量:
计算每一个子带的能量概率:SUBBAND_ENERYG_PROB(k)=SUBBANDENERYG(k)/SUBBAND_ENERYG_TOTAL
For k=1to SUBBAND_NUM
计算谱熵:
子带能量的计算详见上述第三步。
频谱质心的计算:
在图1所示的实施方式中,本申请的基于深度学习的语音频带扩展方法包括过程S103,将第一特征参数和第二特征参数输入到预训练的神经网络模型中,生成音频数据对应的全带宽谱系数。
在该实施方式中,在分别得到上述的反映编码音频数据中元音和摩擦音信息的第一特征参数和第二特征参数后,利用预训练的神经网络模型对音频数据的频带进行扩展,得到全带宽谱系数。
可选的,神经网络的预训练模型过程,包括:对全带宽语音进行重采样,得到窄带语音;对窄带语音进行特征提取,得到窄带语音对应的第一特征参数和第二特征参数;利用窄带语音对应的第一特征参数、第二特征参数和宽带语言进行模型训练,使得训练后的网络模型能够根据窄带语音对应的第一特征参数和第二特征参数得到宽带语音的预测带宽谱系数。
在该可选实施例中,在进行神经网络模型的训练时,在获取训练的训练数据时,准备一段宽带语音,例如有效带宽为8KHz,用于训练神经网络,宽带语音的来源可以基于公开的语音材料或者自己录制的,其中采样率为16kHz,其有效带宽为8kHz。然后通过重采样,对宽带语音重采样到8kHz,生成有效带宽为4kHz的窄带语音。然后进行窄带语音的特征提取,得到窄带语音对应的第一特征参数和第二特征参数。也就是分别获取窄带语音对应的谱系数、谱熵、子带能量、频谱质心以及基音存在标志等。同时获取宽带语音的谱系数。其中窄带语音的谱系数表示为X(k),k=0~79,宽带语音的谱系数表示为XW(k),k=0~159。在对神经网络模型的训练规程中,将窄带语音的第一特征参数、第二特征参数、窄带语音的谱系数输入到模型中进行训练,得到宽带语音的预测带宽谱系数。
可选的,神经网络的预训练模型过程,还包括:根据预测带宽谱系数和宽带语音的真实带宽谱系数进行对比,得到对比结果;根据对比结果对网络模型进行优化,使得预测带宽谱系数与真实带宽谱系数之间的误差低于预设阈值。
在该可选实施例中,为了保证训练出的神经网络模型的处理效果,会将模型输出的预测带宽谱系数和宽带语言的真实带宽谱系数进行对比,然后根据对比的结果对神经网络模型进行优化,直到预测带宽谱系数和真实带宽谱系数之间的差异足够小,满足条件,则完成神经网络模型的训练。
具体的,图2示出了本申请神经网络模型训练过程的一个实例。
在图2所示的实例中,神经网络模型包括离线训练部分和在线推理的实际使用部分。在离线训练部分中,首先获取一段宽带语音,例如采样率为16KHz,有效带宽为8KHz的宽带语音,然后对宽带语音进行宽带特征提取,获取宽带语音的谱系数。另外,对宽带语音进行重采样,得到采样率为8KHz,有效带宽为4KHz的窄带语音。然后对得到的窄带语音进行特征提取,得到窄带语音对应的第一特征参数和第二特征参数。利用宽带语音的谱系数,窄带语音的谱系数、第一特征参数以及第二特征参数进行神经网络的训练,在得到的宽带语音的预测带宽谱系数和真实带宽谱系数之间的差异小于预设阈值的条件下,则完成模型的训练,将神经网络参数进行固定。在神经网络模型的在线推理阶段,通过对窄带语音的处理,得到相应的全带宽谱系数,完成频带的扩展。然后对完成频带扩展的窄带语音进行剩余的编码步骤,完成编码,再通过蓝牙通信发送到接收端进行解码,展现给用户。本发明使用的神经网络可以基于DNN、CNN、RNN、LSTM等,本申请并不限制。
具体的,语音的编解码是一个整体的过程。本申请在音频的编码端进行频带的扩展后,在音频解码端,也就相应的对频带扩展后的编码结果进行解码。因此,在进行本申请的频带扩展前,需要判断蓝牙接收端是否支持全带宽语音的解码流程。例如,在蓝牙发射端如果语音信号的采样率是8kHz,则优先按照16kHz与蓝牙接收端协商参数:如果蓝牙接收端可以接收16kHz的语音,则双方按照16kHz的采样率建立通话连接,蓝牙发射端启动频带扩展功能的编码;如果蓝牙接收端无法支持16kHz的语音,只能支持8kHz的语音,则双方按照8kHz的采样率建立通话连接,蓝牙发射端启动普通模式的编码,不进行频带的扩展过程。
本申请的基于深度学习的语音频带扩展方法利用对音频数据的编码过程中的参数,并进行特征提取,获取音频数据中关于元音和摩擦音的特征,并在通过网络模型进行频带扩展时,充分考虑原有音频数据中元音和摩擦音的不同,进行更加准确的频带扩展,提高频带扩展的效果,提升用户体验。本申请在编码时即可生成全频带信号,有效提高了音质、增强了用户体验;在神经网络模型的推理过程中,使用的特征利用了LC3编码器编码时现有的参数加上少量的计算,避免了现有技术中的时频变换的特征提取运算;本发明以8kHz采样率的窄带语音信号为例,原理对其他采样率的信号也适用,例如将16kHz的语音信号扩展到24kHz或32kHz;本发明既可以应用于帧长10ms的配置可以应用于帧长7.5ms的配置;本发明以蓝牙领域举例,其他领域也可以适用。
图3示出了本申请基于深度学习的语音频带扩展装置的一个实施方式。
在图3所示的实施方式中,本申请的基于深度学习的语音频带扩展装置包括:第一特征提取模块301,其对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;第二特征提取模块302,其对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;频带扩展模块303,其将第一特征参数和第二特征参数输入到预训练的神经网络模型中,生成音频数据对应的全带宽谱系数。
可选的,在第一特征提取模块301中,对谱系数进行特征提取,得到谱熵,其中,在谱熵小于谱熵阈值的条件下,该片段的音频数据对应语音数据;在谱熵不小于谱熵阈值的条件下;该片段的音频数据对应非语音数据;对谱系数进行特征提取,得到子带能量,其中在低频带的子带能量大于第一能量阈值的条件下,音频数据包含元音,在高频带的子带能量大于第二能量阈值的条件下,音频数据包含摩擦音。
可选的,在第一特征提取模块301中,对谱系数进行特征提取,得到频谱质心,其中,在低频带,频谱质心小于第一阈值的条件下,音频数据包含元音;在高频带,频谱质心大于第二阈值的条件下,音频数据包含摩擦音。
可选的,在第二特征提取模块302中,通过长期后置滤波器对音频数据进行处理,得到音频数据对应的基音存在标志,其中在基音存在标志是第一数值的条件下,音频数据包含元音,在基音存在标志是第二数值的条件下,音频数据包含摩擦音。
可选的,在第二特征提取模块302中,通过长期后置滤波器对音频数据进行处理,得到音频数据对应的归一化自相关值、基音延迟参数以长期后置滤波器激活参数。
可选的,神经网络的预训练模型过程,包括:对全带宽语音进行重采样,得到窄带语音;对窄带语音进行特征提取,得到窄带语音对应的第一特征参数和第二特征参数;利用窄带语音对应的第一特征参数、第二特征参数和宽带语言进行模型训练,使得训练后的网络模型能够根据窄带语音对应的第一特征参数和第二特征参数得到宽带语音的预测带宽谱系数。
可选的,神经网络的预训练模型过程,还包括:根据预测带宽谱系数和宽带语音的真实带宽谱系数进行对比,得到对比结果;根据对比结果对网络模型进行优化,使得预测带宽谱系数与真实带宽谱系数之间的误差低于预设阈值。
本申请的基于深度学习的语音频带扩展装置利用对音频数据的编码过程中的参数,并进行特征提取,获取音频数据中关于元音和摩擦音的特征,并在通过网络模型进行频带扩展时,充分考虑原有音频数据中元音和摩擦音的不同,进行更加准确的频带扩展,提高频带扩展的效果,提升用户体验。
图4示出了本申请基于深度学习语音频带扩展的音频编码方法的一个实施方式。
在图4所示的实施方式中,本申请的基于深度学习语音频带扩展的音频编码方法包括过程S401,对音频数据进行编码至低延迟改进型离散余弦变换后,得到音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;过程S402,对音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;过程S403,将第一特征参数和第二特征参数输入到预训练的神经网络模型中,生成音频数据对应的全带宽谱系数;过程S404,对编码器的编码参数进行更新,并根据全带宽谱系数对音频数据继续编码,得到具有全带宽谱系数的编码结果。
具体的,在完成带宽的扩展后,需要对编码器的编码参数经更新,以便对带宽扩展后的音频数据进行后续的编码。其中,编码器参数的更新主要是NF和采样率。例如,将采样率8KHz,有效带宽4KHz的音频数据进行频带扩展为采样率为16KHz,带宽为8KHz的宽带语音数据。因此,为了保证后续对频带扩展后的音频数据的正常编码,将采样率由8KHz调整为16KHz,单帧谱系数的数量NF由80调整为160。更新完成后,跳过原有的带宽检测,并设置带宽指示为WB,对应8kHz带宽的信号;并执行标准LC3编码的其余步骤,包括冲击检测、变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码和码流封装,最终输出码流。关于过程S401至过程S403的具体说明详见上述实施例的描述,本申请在此不再赘述。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的基于深度学习的语音频带扩展方法或基于深度学习语音频带扩展的音频编码方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的基于深度学习的语音频带扩展方法或基于深度学习语音频带扩展的音频编码方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于深度学习的语音频带扩展方法,其特征在于,包括:
对音频数据进行编码至低延迟改进型离散余弦变换后,得到所述音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;
对所述音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;
将所述第一特征参数和所述第二特征参数输入到预训练的神经网络模型中,生成所述音频数据对应的全带宽谱系数。
2.根据权利要求1所述的基于深度学习的语音频带扩展方法,其特征在于,所述对音频数据进行编码至低延迟改进型离散余弦变换后,得到所述音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数,包括:
对所述谱系数进行特征提取,得到谱熵,其中,在所述谱熵小于谱熵阈值的条件下,该片段的所述音频数据对应语音数据;在所述谱熵不小于所述谱熵阈值的条件下,该片段的所述音频数据对应非语音数据;
在所述音频数据为语音数据的条件下,对所述谱系数进行特征提取,得到子带能量,其中在低频带的子带能量大于第一能量阈值的条件下,所述音频数据包含元音,在高频带的子带能量大于第二能量阈值的条件下,所述音频数据包含摩擦音。
3.根据权利要求2所述的基于深度学习的语音频带扩展方法,其特征在于,所述对音频数据进行编码至低延迟改进型离散余弦变换后,得到所述音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数,还包括:
对所述谱系数进行特征提取,得到频谱质心,其中,在低频带,所述频谱质心小于第一阈值的条件下,所述音频数据包含元音;在高频带,所述频谱质心大于第二阈值的条件下,所述音频数据包含摩擦音。
4.根据权利要求1所述的基于深度学习的语音频带扩展方法,其特征在于,所述对所述音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数,包括:
通过所述长期后置滤波器对所述音频数据进行处理,得到所述音频数据对应的基音存在标志,其中在所述基音存在标志是第一数值的条件下,所述音频数据包含元音,在所述基音存在标志是第二数值的条件下,所述音频数据包含摩擦音。
5.根据权利要求4所述的基于深度学习的语音频带扩展方法,其特征在于,所述对所述音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数,还包括:
通过所述长期后置滤波器对所述音频数据进行处理,得到所述音频数据对应的归一化自相关值、基音延迟参数以长期后置滤波器激活参数。
6.根据权利要求1所述的基于深度学习的语音频带扩展方法,其特征在于,所述神经网络的预训练模型过程,包括:
对全带宽语音进行重采样,得到窄带语音;
对所述窄带语音进行特征提取,得到所述窄带语音对应的所述第一特征参数和所述第二特征参数;
利用所述窄带语音对应的所述第一特征参数、所述第二特征参数和所述宽带语音进行模型训练,使得训练后的网络模型能够根据所述窄带语音对应的所述第一特征参数和所述第二特征参数得到所述宽带语音的预测带宽谱系数。
7.根据权利要求6所述的基于深度学习的语音频带扩展方法,其特征在于,所述神经网络的预训练模型过程,还包括:
根据所述预测带宽谱系数和所述宽带语音的真实带宽谱系数进行对比,得到对比结果;
根据所述对比结果对所述网络模型进行优化,使得所述预测带宽谱系数与所述真实带宽谱系数之间的误差低于预设阈值。
8.一种基于深度学习的语音频带扩展装置,其特征在于,包括:
第一特征提取模块,其对音频数据进行编码至低延迟改进型离散余弦变换后,得到所述音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;
第二特征提取模块,其对所述音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;
频带扩展模块,其将所述第一特征参数和所述第二特征参数输入到预训练的神经网络模型中,生成所述音频数据对应的全带宽谱系数。
9.一种基于深度学习语音频带扩展的音频编码方法,其特征在在于,包括:
对音频数据进行编码至低延迟改进型离散余弦变换后,得到所述音频数据对应的谱系数,并进行特征提取,得到具有元音和摩擦音信息的第一特征参数;
对所述音频数据进行重采样和长期后置滤波器处理,并对处理的结果进行特征提取,得到具有元音和摩擦音信息的第二特征参数;
将所述第一特征参数和所述第二特征参数输入到预训练的神经网络模型中,生成所述音频数据对应的全带宽谱系数;
对编码器的编码参数进行更新,并根据所述全带宽谱系数对所述音频数据继续编码,得到具有全带宽谱系数的编码结果。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,其特征在于,所述计算机指令被执行时,使得计算机执行权利要求1-7中任一项所述的基于深度学习的语音频带扩展方法或权利要求9所述的基于深度学习语音频带扩展的音频编码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210636744.7A CN115035908A (zh) | 2022-06-07 | 2022-06-07 | 基于深度学习的语音频带扩展方法、装置及编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210636744.7A CN115035908A (zh) | 2022-06-07 | 2022-06-07 | 基于深度学习的语音频带扩展方法、装置及编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115035908A true CN115035908A (zh) | 2022-09-09 |
Family
ID=83122349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210636744.7A Pending CN115035908A (zh) | 2022-06-07 | 2022-06-07 | 基于深度学习的语音频带扩展方法、装置及编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035908A (zh) |
-
2022
- 2022-06-07 CN CN202210636744.7A patent/CN115035908A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
JP2021502588A (ja) | ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム | |
KR101871644B1 (ko) | 적응적 대역폭 확장 및 그것을 위한 장치 | |
US10062390B2 (en) | Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
KR20130023289A (ko) | 광대역 스피치 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 프로그램 제품들 | |
Kontio et al. | Neural network-based artificial bandwidth expansion of speech | |
CN105765653B (zh) | 自适应高通后滤波器 | |
US20020065649A1 (en) | Mel-frequency linear prediction speech recognition apparatus and method | |
CA2983813C (en) | Audio encoder and method for encoding an audio signal | |
Borsky et al. | Dithering techniques in automatic recognition of speech corrupted by MP3 compression: Analysis, solutions and experiments | |
CN115035908A (zh) | 基于深度学习的语音频带扩展方法、装置及编码方法 | |
Gibson et al. | Speech signal processing | |
Beauford | Improving the automatic recognition of distorted speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |