CN115497488A - 一种语音滤波方法、装置、存储介质及设备 - Google Patents
一种语音滤波方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN115497488A CN115497488A CN202211199937.7A CN202211199937A CN115497488A CN 115497488 A CN115497488 A CN 115497488A CN 202211199937 A CN202211199937 A CN 202211199937A CN 115497488 A CN115497488 A CN 115497488A
- Authority
- CN
- China
- Prior art keywords
- voice
- spectrum
- neural network
- coefficient
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000001228 spectrum Methods 0.000 claims abstract description 177
- 238000003062 neural network model Methods 0.000 claims abstract description 91
- 230000003595 spectral effect Effects 0.000 claims abstract description 84
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000007493 shaping process Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 42
- 230000009466 transformation Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 230000007774 longterm Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000012952 Resampling Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种语音滤波方法、装置、存储介质及设备,属于语音编解码技术领域。该方法主要包括:根据无后置滤波模块的标准蓝牙编码器对语音信号进行编码,并根据无后置滤波模块的标准解码器对经编码的语音信号解码至变换域噪声整形解码模块,获取语音谱系数;将语音谱系数输入预训练的神经网络模型中,获取语音谱系数对应的目标谱系数;以及根据无后置滤波模块的标准解码器的剩余解码步骤,将目标谱系数输入标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号。本申请省略了蓝牙编码过程中复杂的后置滤波运算,仅在蓝牙解码过程中利用预训练的神经网络模型进行滤波,使其达到与标准解码接近的音质。
Description
技术领域
本申请涉及语音编解码技术领域,特别涉及一种语音滤波方法、装置、存储介质及设备。
背景技术
在现有技术中,为了增强语音数据的音质,LC3引入了基于时域信号处理的长期后置滤波(LTPF)模块,通过衰减谱谷中的量化噪声来锐化信号的谐波结构,其具体操作步骤为:在编码端:判断是否需要激活LTPF,同时提取相关的基音参数,编码端主要包括重采样、高通滤波、下采样、基音检测、基音延迟估计和激活判断;在解码端,根据编码端提取的参数,当LTPF激活时,使用IIR滤波器来实施滤波。
然而,在上述的滤波步骤中,编码端的重采样、基音检测(基于自相关)和基音延迟(基于自相关)的运算量很大,使得LTPF(长期后置滤波模块)成为LC3中运算复杂度最高的模块之一,影响了其在低功耗蓝牙设备上的应用;在解码端,仅通过根据编码端提取的参数,当LTPF(长期后置滤波模块)激活时,利用IIR滤波器来实现滤波。
例如,随着用户体验的要求越来越高,TWS蓝牙耳机和主播使用的蓝牙麦克风倾向于使用高清音频模式采集语音,以增强用户体验。以采样率48kHz的配置为例,LC3编码器需要的算力与采样率成正比,其中的LTPF(长期后置滤波模块)不仅占用较多的算力,而且需要较多的存储器资源,而诸如TWS蓝牙耳机的低功耗设备体积的限制导致电池容量极其有限、存储器容量也较小,这个矛盾限制了高清类音频应用在低功耗设备的应用。
发明内容
针对现有技术存在的LTPF(长期后置滤波模块)的复杂度过高的问题,本申请主要提供一种语音滤波方法、装置、存储介质及设备。
为了实现上述目的,本申请采用的一个技术方案是:提供一种语音滤波方法,其包括:根据无后置滤波模块的标准蓝牙编码器对语音信号进行编码,并根据无后置滤波模块的标准解码器对经编码的语音信号解码至变换域噪声整形解码模块,获取语音信号对应的语音谱系数;将语音谱系数输入预训练的神经网络模型中,获取语音谱系数对应的目标谱系数;以及根据无后置滤波模块的标准解码器的剩余解码步骤,将目标谱系数输入标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号。
本申请采用的另一个技术方案是:提供一种语音滤波装置,其包括:用于根据无后置滤波模块的标准蓝牙编码器对语音信号进行编码,并根据无后置滤波模块的标准解码器对经编码的语音信号解码至变换域噪声整形解码模块,获取语音信号对应的语音谱系数的模块;用于将语音谱系数输入预训练的神经网络模型中,获取语音谱系数对应的目标谱系数的模块;以及用于根据无后置滤波模块的标准解码器的剩余解码步骤,将目标谱系数输入标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号的模块。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的语音滤波方法。
本申请采用的另一个技术方案是:提供一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行方案一中的语音滤波方法。
本申请的技术方案可以达到的有益效果是:省略了蓝牙编码过程中复杂的后置滤波运算,仅在蓝牙解码过程中利用预训练的神经网络模型对语音谱系数进行滤波,使得其达到与标准解码接近的音质,降低编解码器的复杂度,同时减少系统运算量,提高运算效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种语音滤波方法的一个可选实施方式的示意图;
图2是现有技术中标准编解码步骤的一个可选实例的示意图;
图3示是本申请一种语音滤波方法中发射端与接收端参数配置对应关系的可选实例的示意图;
图4是本申请中编解码步骤的一个实例的示意图;
图5是本申请一种语音滤波装置的一个可选实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在现有技术中,为了增强语音数据的音质,LC3引入了基于时域信号处理的长期后置滤波(LTPF)模块,通过衰减谱谷中的量化噪声来锐化信号的谐波结构,其具体操作步骤为:在编码端:判断是否需要激活LTPF,同时提取相关的基音参数,编码端主要包括重采样、高通滤波、下采样、基音检测、基音延迟估计和激活判断;在解码端,根据编码端提取的参数,当LTPF激活时,使用IIR滤波器来实施滤波。
然而,在上述的滤波步骤中,编码端的重采样、基音检测(基于自相关)和基音延迟(基于自相关)的运算量很大,使得LTPF(长期后置滤波模块)成为LC3中运算复杂度最高的模块之一,影响了其在低功耗蓝牙设备上的应用;在解码端,仅通过根据编码端提取的参数,当LTPF(长期后置滤波模块)激活时,利用IIR滤波器来实现滤波。
例如,随着用户体验的要求越来越高,TWS蓝牙耳机和主播使用的蓝牙麦克风倾向于使用高清音频模式采集语音,以增强用户体验。以采样率48kHz的配置为例,LC3编码器需要的算力与采样率成正比,其中的LTPF(长期后置滤波模块)不仅占用较多的算力,而且需要较多的存储器资源,而诸如TWS蓝牙耳机的低功耗设备体积的限制导致电池容量极其有限、存储器容量也较小,这个矛盾限制了高清类音频应用在低功耗设备的应用。
针对现有技术存在的LTPF(长期后置滤波模块)的复杂度过高的问题,本申请主要提供一种语音滤波方法、装置、存储介质及设备。该语音滤波方法包括:根据无后置滤波模块的标准蓝牙编码器对语音信号进行编码,并根据无后置滤波模块的标准解码器对经编码的语音信号解码至变换域噪声整形解码模块,获取语音信号对应的语音谱系数;将语音谱系数输入预训练的神经网络模型中,获取语音谱系数对应的目标谱系数;以及根据无后置滤波模块的标准解码器的剩余解码步骤,将目标谱系数输入标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号。
在蓝牙编码过程中省略了中复杂的后置滤波模块,仅对语音信号进行除后置滤波模块的其余解码步骤,在蓝牙解码的过程中,对前述经编码的语音信号解码至变换域噪声整形解码模块,获取语音信号对应的语音谱系数;利用预训练的神经网络模型代替标准蓝牙解码器中的后置滤波模块,对语音谱系数进行滤波,获取目标谱系数,将目标谱系数输入标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号。使得目标语音信号达到与标准解码接近的音质,降低编解码器的复杂度,同时减少系统运算量,提高预算效率,延长编解码器的使用寿命。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请一种语音滤波方法的一个可选实施方式。
在图1所示的可选实施方式中,语音滤波方法主要包括步骤S101,根据无后置滤波模块的标准蓝牙编码器对语音信号进行编码,并根据无后置滤波模块的标准解码器对经编码的语音信号解码至变换域噪声整形解码模块,获取语音信号对应的语音谱系数。
在该可选实施方式中,由于在现有技术中的标准蓝牙编码步骤如图2的左图所示,其中,其采用长期后置滤波器对输入的语音信号进行滤波,以确保语音信号的音质;然而,上述滤波方式中采用的长期后置滤波器不仅占用较多的算力,而且需要较多的存储器资源,不利于在小而精巧的设备上使用,并且会造成编码器的使用寿命缩短。因此,本申请提供一种语音滤波方法,首先在蓝牙编码的编码过程中省略掉滤波步骤,即删除图2的左图中的长期后置滤波模块,利用图2的左图中的其他模块对语音信号进行编码,获取该语音信号对应的码流。在解码过程中,根据标准蓝牙解码器即图2的右图的解码步骤对该码流进行部分解码,解码至变换域噪声整形解码模块输出该码流对应的语音谱系数;使得后续的滤波步骤均在频域状态下进行,为后续的滤波步骤提供必要基础。
在图1所示的可选实施方式中,语音滤波方法还包括步骤S102,将语音谱系数输入预训练的神经网络模型中,获取语音谱系数对应的目标谱系数。
在该可选实施方式中,由于前述获取的语音谱系数,在编码与解码的过程中均未进行滤波,因此此时语音谱系数为带噪的语音谱系数;将预训练的神经网络模型作为本申请的滤波器,对语音谱系数进行滤波,以获得去噪的目标谱系数,达到滤波目的;本申请提供的语音滤波方法仅在解码端进行一次滤波步骤即达到与标准编解码过程中均进行滤波步骤后所获得的语音信号相近的音质。
需要说明的是,本申请所使用的神经网络模型包括但不限于自编码器,CNN、RNN、CRNN、LSTM。本申请对于神经网络模型的类型不做限制,能够实现本申请的滤波效果即可。
在本申请的一个可选实施例中,神经网络模型的预训练过程,包括:根据标准编解码器对训练语音信号编解码至变换域噪声整形解码模块,获取训练语音信号对应的纯净语音谱系数;根据无后置滤波模块的标准编码器对训练语音信号进行编码,并根据无后置滤波模块的标准解码器对经编码的训练语音信号解码至变换域噪声整形解码模块,获取训练语音信号对应的带噪语音谱系数;分别对纯净语音谱系数与带噪语音谱系数进行特征提取,获取纯净语音谱系数对应的纯净幅度谱与带噪语音谱系数对应的带噪幅度谱;将带噪语音谱系数的绝对值输入预设的神经网络模型中,获取带噪语音谱系数的增益;以及根据增益与带噪幅度谱和纯净幅度谱之间的关系,对预设的神经网络模型的相关参数进行相应的调整,获取预训练的神经网络模型。
在该可选实施例中,首先根据标准编解码器的编解码步骤,即图2中左图的编码步骤与右图的解码步骤,对训练语音信号根据标准编解码器中的长期后置滤波模块进行滤波,以保证训练语音信号的音质;并将此时经后置滤波的训练语音信号对应的纯净语音谱系数作为对照组。同时,根据无后置滤波模块的标准编解码器,对训练语音信号进行编解码,获取未经滤波的带噪语音谱系数,并将其作为实验组。分别对对照组的纯净语音谱系数与实验组的带噪语音谱系数进行特征提取,获取纯净语音谱系数对应的纯净幅度谱与带噪语音谱系数对应的带噪幅度谱;将实验组的带噪语音谱系数的绝对值输入预设的神经网络模型中,获取神经网络模型根据自身当前的相关参数,计算带噪语音谱系数的增益,根据增益与带噪幅度谱和纯净幅度谱之间的关系,对神经网络模型中的相关参数进行相应的调整,以获取预训练的神经网络模型。为本申请获取目标谱系数提供必要基础。
本申请的一个可选实施例中,分别对纯净语音谱系数与带噪语音谱系数进行特征提取,获取纯净语音谱系数对应的纯净幅度谱与带噪语音谱系数对应的带噪幅度谱,进一步包括:对纯净语音谱系数进行离散正弦变换,获取纯净语音谱系数对应的纯净正弦幅度谱;将纯净语音谱系数与纯净正弦幅度谱的和值作为纯净幅度谱。
在该可选实施例中,对纯净语音谱系数的特征提取的方式为:首先对该纯净语音谱系数进行离散正弦变换,获取该纯净语音谱系数的纯净正弦幅度谱,将纯净正弦幅度谱与纯净语音谱系数的和值即为前述的纯净幅度谱。
在本申请的一个可选实例中,计算纯净幅度谱的计算公式如下:
在本申请的一个可选实施例中,分别对纯净语音谱系数与带噪语音谱系数进行特征提取,获取纯净语音谱系数对应的纯净幅度谱与带噪语音谱系数对应的带噪幅度谱,还包括:对带噪语音谱系数进行离散正弦变换,获取带噪语音谱系数对应的带噪正弦幅度谱;将带噪语音谱系数与带噪正弦幅度谱的和值作为带噪幅度谱。
在该可选实施例中,对带噪语音谱系数的特征提取的方式为:首先对该带噪语音谱系数进行离散正弦变换,获取该带噪语音谱系数的纯净正弦幅度谱,将带噪正弦幅度谱与带噪语音谱系数的和值即为前述的带噪幅度谱。
在本申请的一个可选实例中,计算带噪幅度谱的计算公式如下:
在本申请的一个可选实例中,在上述计算的纯净幅度谱与带噪幅度谱的过程中,利用下述公式分别计算获取纯净语音谱系数与带噪语音谱系数:
其中上式中的Xmdct(k)即为语音谱系数;在计算纯净语音谱系数与带噪语音谱系数的过程中分别在公式中带入纯净语音谱系数与带噪语音谱系数各自对应的相关数据,即可获取上述纯净语音谱系数与带噪语音谱系数。
根据下述公式分别计算获取纯净正弦幅度谱与带噪正弦幅度谱:
t(n)=x(Z-NF+n),for n=0...2·NF-1-Z
t(2NF-Z+n)=0,forn=0...Z-1
其中上式中的Xmdst(k)即为正弦幅度谱;在计算纯净正弦幅度谱与带噪正弦幅度谱的过程中分别在公式中带入纯净正弦幅度谱与带噪正弦幅度谱各自对应的相关数据,即可获取上述纯净正弦幅度谱与带噪正弦幅度谱。
在本申请的一个可选实施例中,根据增益与带噪幅度谱,对预设的神经网络模型的相关参数进行相应的调整,获取预训练的神经网络模型,进一步包括:根据增益与带噪幅度谱的乘积,计算获取带噪语音谱系数对应的第一更新幅度谱;计算第一更新幅度谱与纯净幅度谱之间的第一误差;当第一误差大于预设误差阈值时,根据第一误差对预设的神经网络模型的相关参数进行相应的调整,获取预训练的神经网络模型。
在该可选实施例中,将增益与带噪幅度谱作为第一更新幅度谱;对纯净幅度谱与第一更新幅度谱之间的第一误差进行计算;由于纯净幅度谱为本申请的对照组的纯净语音谱系数对应的幅度谱,带噪幅度谱为本申请中未经滤波的带噪语音谱系数对应的幅度谱,本方案的目标是,将带噪语音谱系数的绝对值输入神经网络模型后,其输出的增益,与带噪幅度谱之间的乘积,即获取的更新幅度谱与纯净幅度谱之间的误差小于预设误差阈值。使得语音信号的音质得以保证。因此,首先计算获取第一更新幅度谱,利用该第一更新幅度谱与纯净幅度之间的第一误差,当第一误差小于或等于预设误差阈值时,表示此时的神经网络模型已经能够满足本方案所要求的滤波效果,保证音质,将此时的神经网络模型作为预训练的神经网络模型;当第一误差大于预设误差阈值时,表示此时的神经网络模型不能满足本方案所要求的滤波效果,因此需要对该神经网络模型中的偏置与权重进行调整使得其滤波效果达到要求。
在本申请的一个可选实施例中,根据第一误差对预设的神经网络模型的相关参数进行相应的调整,获取预训练的神经网络模型,进一步包括:根据第N误差对相关参数进行调整,获取第N+1更新神经网络模型,其中N为不为0的自然数;将带噪语音谱系数的绝对值输入第N+1更新神经网络模型,获取带噪语音谱系数对应的第N+1更新幅度谱;计算第N+1更新幅度谱与纯净幅度谱之间的第N+1误差;当第N+1误差大于预设误差阈值时,对第N+1更新神经网络模型的相关参数进行相应的调整,获取预训练的神经网络模型。当第N+1误差小于或等于预设误差阈值时,将第N+1更新神经网络模型作为预训练的神经网络模型。
在该可选实施例中,在更新神经网络模型后,确定该第N+1更新神经网络模型是否能够达到滤波效果,即利用更新后的第N+1神经网络模型输出的增益与带噪幅度谱相乘,将该乘积与纯净幅度谱进行对比,计算两者之间的第N+1误差,当该第N+1误差小于预设误差阈值时,表示此时第N+1神经网络模型已经能够满足本方案所要求的的滤波效果,将第N+1更新神经网络模型作为预训练的神经网络模型即可;当该第N+1误差大于或等于预设误差阈值时,表示此时第N+1神经网络模型不能够满足本方案所要求的的滤波效果,对第N+1更新神经网络模型的相关参数进行调整,直到更新后的神经网络模型输出的增益经计算后能够达到本方案所要求的的滤波效果为止。
在本申请的一个可选实例中,以48kHz采样率、10ms帧长举例,将自编码器作为本申请的神经网络模型;此时神经网络模型的配置可以为:输入层大小5x400,其中5代表当前帧和当前帧之前的4帧,第1层卷积层输入1x5x400,输出40x5x199;第2层卷积层输入40x5x199,输出80x5x99;第3层卷积层输入80x5x99,输出160x5x49;第4层反卷积层输入160x5x49,输出80x5x99;第5层反卷积层输入80x5x99,输出40x5x199第6层反卷积层输入40x5x199,输出1x5x399。输出层为全连接层,大小400,对应一帧谱系数的增益,将此增益应用于当前帧的谱系数即得到新的谱系数,再对400个谱系数后补80个0,然后继续执行IMDCT和重叠相加,输出时域音频信号。
另外,第1层卷积层的输出和第6层反卷积层之间跳跃连接(skip connection),第2层卷积层的输出和第5层反卷积层的输入之间跳跃连接。
其中,前向传播函数如下所示:
上式中的Xnoise,mdct即为无LTPF解码器部分解码输出的谱系数,Gain(j)为输出的谱系数增益,f()为激活函数;其中,可将Softplus函数作为本申请的激活函数,其表达式如下:
f(x)=log(1+exp(x))
在训练过程中,可基于反向传播以更新神经网络隐藏层的权重Weights与偏移bias,其具体公式如下:
其中上式中μ为学习率,其影响收敛的速度,E是损失函数,计算新的幅度谱和参考幅度谱的差别,计算方法如下:
其中上式中的k为输出谱系数的数量,当配置为48kHz采样率、10ms帧长时,k=400。
上述神经网络在训练阶段,其意义是将无LTPF解码器输出的谱系数Xnoise,mdct,输入神经网络,经神经网络的非线性处理,输出增益Gain,通过大量输入的训练样本,调节权重和偏移,使得应用此增益的新的MDFT幅度谱与纯净MDFT幅度谱(即参考幅度谱)之间的均方误差最小。在推理阶段,输入无LTPF解码器部分解码的谱系数,输出增益,将增益应用到谱系数得到新的谱系数,再执行IMDCT与重叠相加,输出时域音频信号。
在本申请的一个可选实施例中,根据误差对预设的神经网络模型的相关参数进行相应的调整,获取预训练的神经网络模型,还包括:记录对预设的神经网络模型的训练次数M;若训练次数M小于或等于预设的训练次数阈值,则对第N+1更新神经网络模型继续进行训练;若训练次数M大于训练次数阈值,则将第N+1更新神经网络模型确定为预训练的神经网络模型。
在该可选实施例中,在获得第一更新神经网络模型时,即记录神经网络模型的训练次数为1,以此类推,获得第N+1更新神经网络模型时,即记录神经网络模型的训练次数为M;当第N+1误差大于预设误差阈值时,对比训练次数M与训练次数阈值的大小,当训练次数M大于或等于训练次数阈值时,即不再对该第N+1更新神经网络模型进行训练,将该第N+1更新神经网络模型确定为预训练的神经网络模型模型即可;当训练次数M小于训练次数阈值时,对该第N+1更新神经网络模型进行训练,即将该第N+1更新神经网络模型的相关参数进行调整获取第N+2更新神经网络模型,以为下一次循环、训练提供基础。
在图1所示的可选实施方式中,语音滤波方法还包括步骤S103,根据无后置滤波模块的标准编解码器的剩余解码步骤,将目标谱系数输入标准编解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号。
在该可选实施方式中,对上述确定的目标谱系数进行剩余的解码步骤,即将该目标谱系数输入低延迟改进型离散余弦反变换模块,获取目标谱系数对应的目标语音信号。
在本申请的一个可选实例中,在蓝牙发射端与蓝牙接收端均进行参数协商与配置,即在应用启动时,蓝牙发射端和蓝牙接收端便进行协商参数的步骤,即根据蓝牙发射端和蓝牙接收端的参数判断该蓝牙发射端和蓝牙接收端是否能够支持仅在解码端进行滤波;当蓝牙发射端和蓝牙接收端的参数均符合预设解码端滤波标准时,表示该蓝牙发射端和蓝牙接收端支持仅在解码端进行滤波。
图3示出了本申请一种语音滤波方法中发射端与接收端参数配置对应关系的可选实例。
根据图3所示的实例,在开始进行语音通话时,首先在蓝牙发射端和蓝牙接收端协商参数,即将音频格式、采样率、码率范围均与预设解码端滤波标准进行比较,判断上述参数是否符合预设解码端滤波标准,以获知蓝牙发射端和蓝牙接收端是否支持仅在解码端进行滤波;若蓝牙发射端和蓝牙接收端都支持仅在解码端进行滤波,则在蓝牙发射端选择基于无LTPF编码模式,在编码过程中完全跳过LTPF相关的操作;在蓝牙接收端选择使用基于自编码器LTPF的解码;否则,选择标准模式的编码与解码。
在蓝牙编码过程中省略了中复杂的后置滤波模块,仅对语音信号进行除后置滤波模块的其余解码步骤,在蓝牙解码的过程中,对前述经编码的语音信号解码至变换域噪声整形解码模块,获取语音信号对应的语音谱系数;利用预训练的神经网络模型代替标准蓝牙解码器中的后置滤波模块,对语音谱系数进行滤波,获取目标谱系数,将目标谱系数输入标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号。使得目标语音信号达到与标准解码接近的音质,降低编解码器的复杂度,同时减少系统运算量,提高预算效率,延长编解码器的使用寿命。
在本申请的一个可选实例中,在全局使能仅在解码端进行滤波时,每帧的输出码流中增加一个bit指示,位于时域噪声整形的码流之后,1:表示当前帧使能,0:表示当前帧不使能;可将上述bit写入side information(辅助信息)的最后;其中Side information(辅助信息)是蓝牙编码输出码流的一部分,主要用来存储一些帧级的信息,如带宽、全局增益和TNS激活标志等。
图4示出了本申请编解码步骤的一个实例的示意图。
在图4所示的实例中,与图2中所示的标准编解码步骤相比,在对音频数据的编码过程中,省略了长期后置滤波器的处理过程;在解码过程中,如图4所示,新增加预训练的神经网络模型的后置滤波处理部分,将语音谱系数进行处理得到对应的目标谱系数,然后将目标谱系数输入到低延迟改进型离散余弦反变换中,得到最终的解码结果。与图2中的标准编解码步骤相比,省去了解码步骤中的长期后置滤波解码步骤。
本方案提供的语音滤波方法,仅在解码端进行滤波即可实现与现有技术中编解码端均滤波的音质相近的效果,省略了LC3编码过程中复杂的后置滤波运算,对于功耗受限的蓝牙设备可以延长使用时间;本申请提供两种滤波方式:对于标准LC3码流,既可以使用标准LTPF(需使能相关模块),也可以使用新的频域后置滤波模块,也可以二者都使用;对于无LTPF码流,可以使用新的频域后置滤波模块,达到与标准编解码接近的音质。
由于标准规范的LC3编码器中,如果码率较高则通常会关闭LTPF功能,此时如果在解码端应用本发明的后置滤波,则仍然可以一定程度上增强音质;在标准规范的LC3编码器中,对于LTPF相关参数的计算比较严格,对于某些临界情形,如虽然检测到基音,但属于起始阶段,此时很可能编码器输出pitch_present=0,从而解码端不会使用LTPF增强音质,应用本发明的后置滤波,仍可以增强音质。提高编解码器对于滤波方式的灵活性。
图5示出了本申请一种语音滤波装置的可选实施方式。
在图5所示的可选实施方式中,语音滤波装置主要包括:用于根据无后置滤波模块的标准蓝牙编码器对语音信号进行编码,并根据无后置滤波模块的标准编解码器对经编码的语音信号解码至变换域噪声整形解码模块,获取语音信号对应的语音谱系数的模块501;用于将语音谱系数输入预训练的神经网络模型中,获取语音谱系数对应的目标谱系数的模块502;以及用于根据无后置滤波模块的标准解码器的剩余解码步骤,将目标谱系数输入标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号的模块503。
在本申请的一个可选实施例中,本申请一种语音滤波装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
本申请提供的语音滤波装置,可用于执行上述任一实施例描述的语音滤波方法,其实现原理和技术效果类似,在此不再赘述。
在本申请的另一个可选实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述实施例中描述的语音滤波方法。
在本申请的一个可选实施方式中,一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行上述实施例中描述的语音滤波方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音滤波方法,其特征在于,包括:
根据无后置滤波模块的标准蓝牙编码器对语音信号进行编码,并根据无所述后置滤波模块的标准解码器对经编码的所述语音信号解码至变换域噪声整形解码模块,获取所述语音信号对应的语音谱系数;
将所述语音谱系数输入预训练的神经网络模型中,获取所述语音谱系数对应的目标谱系数;以及
根据所述无所述后置滤波模块的标准解码器的剩余解码步骤,将所述目标谱系数输入所述无所述后置滤波模块的标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号。
2.根据权利要求1所述的语音滤波方法,其特征在于,所述神经网络模型的预训练过程,包括:
根据标准编解码器对训练语音信号编解码至变换域噪声整形解码模块,获取所述训练语音信号对应的纯净语音谱系数;
根据所述无后置滤波模块的标准编码器对所述训练语音信号进行编码,并根据所述无所述后置滤波模块的标准解码器对经编码的所述训练语音信号解码至所述变换域噪声整形解码模块,获取所述训练语音信号对应的带噪语音谱系数;
分别对所述纯净语音谱系数与所述带噪语音谱系数进行特征提取,获取所述纯净语音谱系数对应的纯净幅度谱与所述带噪语音谱系数对应的带噪幅度谱;
将所述带噪语音谱系数的绝对值输入预设的神经网络模型中,获取所述带噪语音谱系数的增益;以及
根据所述增益与所述带噪幅度谱和所述纯净幅度谱之间的关系,对所述预设的神经网络模型的相关参数进行相应的调整,获取所述预训练的神经网络模型。
3.根据权利要求2所述的语音滤波方法,其特征在于,所述分别对所述纯净语音谱系数与所述带噪语音谱系数进行特征提取,获取所述纯净语音谱系数对应的纯净幅度谱与所述带噪语音谱系数对应的带噪幅度谱,进一步包括:
对所述纯净语音谱系数进行离散正弦变换,获取所述纯净语音谱系数对应的纯净正弦幅度谱;
将所述纯净语音谱系数与所述纯净正弦幅度谱的和值作为所述纯净幅度谱。
4.根据权利要求2所述的语音滤波方法,其特征在于,所述分别对所述纯净语音谱系数与所述带噪语音谱系数进行特征提取,获取所述纯净语音谱系数对应的纯净幅度谱与所述带噪语音谱系数对应的带噪幅度谱,还包括:
对所述带噪语音谱系数进行离散正弦变换,获取所述带噪语音谱系数对应的带噪正弦幅度谱;
将所述带噪语音谱系数与所述带噪正弦幅度谱的和值作为所述带噪幅度谱。
5.根据权利要求2所述的语音滤波方法,其特征在于,所述根据所述增益与所述带噪幅度谱和所述纯净幅度谱之间的关系,对所述预设的神经网络模型的相关参数进行相应的调整,获取所述预训练的神经网络模型,进一步包括:
根据所述增益与所述带噪幅度谱的乘积,计算获取所述带噪语音谱系数对应的第一更新幅度谱;
计算所述第一更新幅度谱与所述纯净幅度谱之间的第一误差;
当所述第一误差大于预设误差阈值时,根据所述第一误差对所述预设的神经网络模型的相关参数进行相应的调整,获取所述预训练的神经网络模型。
6.根据权利要求5所述的语音滤波方法,其特征在于,所述根据所述第一误差对所述预设的神经网络模型的相关参数进行相应的调整,获取所述预训练的神经网络模型,进一步包括:
根据所述第N误差对所述相关参数进行调整,获取第N+1更新神经网络模型,其中所述N为不为0的自然数;
将所述带噪语音谱系数的绝对值输入所述第N+1更新神经网络模型,获取所述带噪语音谱系数对应的第N+1更新幅度谱;
计算所述第N+1更新幅度谱与所述纯净幅度谱之间的第N+1误差;
当所述第N+1误差大于所述预设误差阈值时,对所述第N+1更新神经网络模型的相关参数进行相应的调整,获取所述预训练的神经网络模型。
当所述第N+1误差小于或等于所述预设误差阈值时,将所述第N+1更新神经网络模型作为所述预训练的神经网络模型。
7.根据权利要求6所述的语音滤波方法,其特征在于,所述根据所述误差对所述预设的神经网络模型的相关参数进行相应的调整,获取所述预训练的神经网络模型,还包括:
记录对所述预设的神经网络模型的训练次数M;
若所述训练次数M小于或等于预设的训练次数阈值,则对所述第N+1更新神经网络模型继续进行训练;
若所述训练次数M大于所述训练次数阈值,则将所述第N+1更新神经网络模型确定为所述预训练的神经网络模型。
8.一种语音滤波装置,其特征在于,包括:
用于根据无后置滤波模块的标准蓝牙编码器对语音信号进行编码,并根据无所述后置滤波模块的标准解码器对经编码的所述语音信号解码至变换域噪声整形解码模块,获取所述语音信号对应的语音谱系数模块;
用于将所述语音谱系数输入预训练的神经网络模型中,获取所述语音谱系数对应的目标谱系数的模块;以及
用于根据所述无所述后置滤波模块的标准解码器的剩余解码步骤,将所述目标谱系数输入所述无所述后置滤波模块的标准解码器的低延迟改进型离散余弦反变换模块获取目标谱系数对应的目标语音信号的模块。
9.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-7中任一项所述的语音滤波方法。
10.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器进行通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述至少一个处理器操作所述计算机指令以执行如权利要求1-7任一项所述的语音滤波方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211199937.7A CN115497488A (zh) | 2022-09-29 | 2022-09-29 | 一种语音滤波方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211199937.7A CN115497488A (zh) | 2022-09-29 | 2022-09-29 | 一种语音滤波方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497488A true CN115497488A (zh) | 2022-12-20 |
Family
ID=84472970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211199937.7A Pending CN115497488A (zh) | 2022-09-29 | 2022-09-29 | 一种语音滤波方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497488A (zh) |
-
2022
- 2022-09-29 CN CN202211199937.7A patent/CN115497488A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101699898B1 (ko) | 스펙트럼 영역에서 디코딩된 오디오 신호를 처리하기 위한 방법 및 장치 | |
CN101180676B (zh) | 用于谱包络表示的向量量化的方法和设备 | |
CN111179954B (zh) | 用于降低时域解码器中的量化噪声的装置和方法 | |
TWI590238B (zh) | 用以使用諧波後置濾波器處理音訊信號之裝置及方法 | |
US7324937B2 (en) | Method for packet loss and/or frame erasure concealment in a voice communication system | |
KR101698905B1 (ko) | 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법 | |
EP1315150A2 (en) | Adaptive postfiltering methods and systems for decoding speech | |
AU2012361423B2 (en) | Method, apparatus, and system for processing audio data | |
US9852741B2 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
IL295473B2 (en) | After–selective bass filter | |
JP4961042B2 (ja) | 整数変換ベースの符号化及び復号化のためのラウンディング雑音シェーピング | |
US20200335118A1 (en) | Signal filtering | |
WO2015196835A1 (zh) | 编解码方法、装置及系统 | |
RU2707144C2 (ru) | Аудиокодер и способ для кодирования аудиосигнала | |
KR102271224B1 (ko) | 프레임에 따른 가변 샘플링 주파수에 의한 후처리 상태들의 업데이트 | |
CN115497488A (zh) | 一种语音滤波方法、装置、存储介质及设备 | |
CN114863942A (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
JP4024427B2 (ja) | 線形予測係数抽出装置、線形予測係数抽出方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN116978391A (zh) | 音频编码方法、系统、编码器、介质及设备 | |
CN116504256A (zh) | 一种语音编码方法、装置、介质、设备和程序产品 | |
KR20080092823A (ko) | 부호화/복호화 장치 및 방법 | |
CN115428069A (zh) | 低音后置滤波器的低成本适配 | |
CN116884423A (zh) | 混响检测与抑制方法、系统、介质及设备 | |
CN115762547A (zh) | 一种检测和消除噪声的方法、装置、编码方法、介质及设备 | |
CN114999503A (zh) | 一种基于生成对抗网络的全带宽谱系数生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |