CN108198571A - 一种基于自适应带宽判断的带宽扩展方法及系统 - Google Patents
一种基于自适应带宽判断的带宽扩展方法及系统 Download PDFInfo
- Publication number
- CN108198571A CN108198571A CN201711394223.0A CN201711394223A CN108198571A CN 108198571 A CN108198571 A CN 108198571A CN 201711394223 A CN201711394223 A CN 201711394223A CN 108198571 A CN108198571 A CN 108198571A
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- signal
- frequency
- sample rate
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 239000004615 ingredient Substances 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于自适应带宽判断的带宽扩展方法,所述方法包括:步骤1)根据设置的语音信号的输入采样率和输出采样率,对输入语音信号x(n)进行采样率转换,输出信号y(n),其采样率为输出采样率;步骤2)计算信号y(n)的帧能量值,依次对信号y(n)进行低通、带通和高通滤波处理,计算处理后信号与信号y(n)的帧能量值的比值,将比值与相应阈值进行比较,从而判定信号的有效频带宽度是否存在,并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展,如果需要,转入步骤3),否则,直接将输入信号y(n)进行输出;步骤3)对信号y(n)的进行带宽扩展,然后输出。本发明的方法及系统在可变采样率、可变带宽条件下,能够稳健地实现对语音带宽的扩展。
Description
技术领域
本发明涉及语音信号的带宽扩展方法,更具体地说,涉及一种基于自适应带宽判断的带宽扩展方法及系统。
背景技术
根据人们对语音质量的实际需求,数字语音技术所重现信号的带宽会受到一定的限制。为此,语音可以分为窄带、宽带、超宽带和全带四种。其中全带信号的有效带宽覆盖了人耳能感知全部频率范围(20Hz~20kHz),这类音频主要用于音乐信号的高保真重现,所需要的网络传输速率和终端计算能力相对较高,不适合语音信号的即时通信。传统电话语音通常采用窄带语音信号,其频率分布在300Hz~3.4kHz内,采样率为8kHz,可以满足人们基本通话需求,但存在语音主观感知质量不高等缺陷。电话语音通信领域中,采样率16kHz、有效带宽为50Hz~7kHz宽带音频的引入可以获得更好的语音可懂度。此外,与宽带语音信号相比,32kHz采样的超宽带语音频带范围进一步扩大到50Hz~14kHz,其重现声音具有更好的自然度和表现力。
鉴于较高带宽的语音信号具有良好的听觉质量,宽带、超宽带语音处理技术日益成为电视电话会议、网络流媒体等通信传输市场的热点。然而,信号带宽的提高必然导致处理数据量的增加,而数据量增加所导致网络服务器在传输、运算、存储能力方面的设备改动将会十分繁琐,对基站设备的大规模升级也将会耗资巨大。与此同时,超宽带语音传输需要终端设备至少包含更加先进的前端声电器件和数模转换器,同时还要具备新的超宽带语音编码器以及向下兼容宽窄带通信的处理能力。而要求大多数用户为终端设备的更新进行投资也是不切实际的。并且在复杂的语音通信传输系统中,由于受到码率限制、设备缺陷等方面影响,输入信号带宽不够稳定,存在可变带宽的现象。因此,受到历史、经济、技术等诸多问题的限制,在不同带宽设备长期共存的过渡时期中,如何最小代价地改善现有宽带通信设备的兼容性使其能够较为稳定地达到宽带甚至超宽带处理能力就成为现代通信系统亟待解决的问题。
作为一种有效的语音增强方法,语音带宽扩展(Bandwidth Extension,BE)日臻成为过渡时期宽带、超宽带语音处理领域研究的最新热点。它在不影响网络传输和宽带信号信源编码的前提下,通过分析原始全带语音的信号特点,在接收端对重建的窄带或者宽带语音人为增加一定的频率信息,恢复其截去的高频带成分,从而达到增强听觉质量、重现宽带或者超宽带语音的目的。在目前网络传输条件下,该技术的引入对于缓解通信设备兼容性不足和用户高质量语音需求间的矛盾具有十分重要的现实意义,因此近几年来国内外学者针对带宽扩展技术进行了广泛而深入的研究。然而,目前传统的音频带宽扩展方法一般仅针对具有固定频带宽度的信号进行处理,能够在固定采样率和固定带宽条件下,对高频部分进行较好的重建。但在实际语音通信系统中,输入语音信号的采样率和带宽通常并不满足固定传输的条件,针对可变带宽语音通信,现有的带宽扩展方法中难以找到合适的解决方案。
发明内容
本发明的目的在于克服目前带宽扩展方法无法满足可变带宽语音通信的问题,提出了一种基于自适应带宽判断的带宽扩展方法,该方法对于不同带宽的语音,根据采样率和帧能量判断其是否能够进行带宽扩展,对于满足带宽扩展条件的进行后续的带宽扩展处理,否则,直接输出原语音信号。
为了实现上述目的,本发明提供了一种基于自适应带宽判断的带宽扩展方法,所述方法包括:
步骤1)根据设置的语音信号的输入采样率和输出采样率,对输入语音信号x(n)进行采样率转换,输出信号y(n),其采样率为输出采样率;
步骤2)计算信号y(n)的帧能量值,依次对信号y(n)进行低通、带通和高通滤波处理,计算处理后信号与信号y(n)的帧能量值的比值,将比值与相应阈值进行比较,从而判定信号的有效频带宽度是否存在,并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展,如果需要,转入步骤3),否则,直接将输入信号y(n)进行输出;
步骤3)对信号y(n)的进行带宽扩展,然后输出。
作为上述方法的一种改进,所述步骤1)具体为:
设输入采样率为SRin,输出采样率为SRout;
当满足SRout=SRin条件时,输出信号y(n)为输入语音信号x(n);
当满足SRout=2*SRin条件时,对输入语音信号x(n)进行上二采样和低通滤波处理,得到采样率加倍而带宽不变的信号y(n)。
作为上述方法的一种改进,所述步骤2)具体包括:
步骤2-1)计算信号y(n)的帧能量值E;
步骤2-2)将信号y(n)采用截止频率为FL的低通滤波器进行处理,得到滤波后的信号,计算该信号y(n)的帧能量值ELW,然后,计算能量比例RL=ELW/E,将RL与第一阈值R1进行比较,若大于第一阈值R1,则判定该带宽成分存在,然后,转入步骤2-3);否则,直接将信号y(n)进行输出;其中,FL表示较低带宽频率值;
步骤2-3)将信号y(n)采用上下截止频率分别为FL和FH的带通滤波器进行处理,得到滤波后的信号,计算该信号的帧能量值EBW,然后计算能量比例RB=EBW/E,将RB与第二阈值R2进行比较,若大于第二阈值R2,则判定该带宽成分存在,然后转入步骤2-4);否则,转入步骤3),进行当前采样率下FL~FH的带宽扩展;其中,FH表示较高带宽频率值;
步骤2-4)将信号y(n)采用截止频率为FH,FH<FMAX的高通滤波器进行处理,得到滤波后的信号;计算该信号的帧能量值EHW,然后计算能量比例RH=EHW/E,将RH与第三阈值R3进行比较,若大于第三阈值R3,则判定该带宽成分存在,直接将信号y(n)进行输出;否则,转入步骤3),进行当前采样率下FH~FMAX的带宽扩展处理;FMAX表示在某一固定采样率下语音信号所能达到的最大带宽频率值。
作为上述方法的一种改进,所述FL和FH是根据信号输出采样率和需求设定的经验值。
作为上述方法的一种改进,所述第一阈值R1、第二阈值R2和第三阈值R3采用概率统计方法进行确定。
作为上述方法的一种改进,所述步骤3)之前还包括:
根据不同采样率和带宽的训练样本数据,采用线性预测分析、高斯混合模型、隐马尔可夫模型或深度神经网络,训练出固定采样率下针对带宽FL~FH范围进行扩展的中频带宽扩展模型和固定采样率下针对带宽FH~FMAX范围进行扩展的高频带宽扩展模型。
作为上述方法的一种改进,所述步骤3)具体包括:
若y(n)已包含0~FL带宽成分但不包含FL~FH带宽成分,采用中频带宽扩展模型进行扩展;
若y(n)已包含0~FL带宽成分和FL~FH带宽成分但不包含FH~FMAX带宽成分,则采用高频带宽扩展模型进行扩展;
最后,将带宽扩展后的信号进行输出。
一种基于自适应带宽判断的带宽扩展系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优势在于:
本发明的方法及系统不仅可以保证原始输入语音信号的质量,而且在可变采样率、可变带宽条件下,能够稳健地实现对语音带宽的扩展,从而获得更加饱满、音质更加清晰透亮的宽带或超宽带语音信号。
附图说明
图1为本发明的基于自适应带宽判断的带宽扩展方法的流程图;
图2为本发明的采样率转换框图;
图3为本发明的基于滤波器和能量比例的带宽判断原理框图;
图4为本发明的基于源-滤波器模型的带宽扩展方法框图。
具体实施方式
如图1所示,本发明的基于自适应带宽判断的带宽扩展方法,首先,将输入语音信号分帧,依照给定的输入输出采样率对其进行采样率转换,并计算该信号的有效频带宽度。然后,根据BE控制开关(标识符置为1表示打开BE模块,置为0表示关闭)、输入输出采样率和实际语音带宽,判断输入语音是否需要进行BE。具体判断策略如表1所示。
表1输入参数与BE配置对应表
当判断语音无需进行BE时,直接输出原始语音或采样率加倍、带宽不变的语音信号;当判断语音需要进行BE时,针对不同情况对输入语音进行相应的带宽扩展,BE的不同情况如下:
1、超宽带语音BE:采样率32kHz带宽12kHz的超宽带语音扩展为采样率32kHz带宽16kHz的超宽带语音信号(采样率不变)。
2、宽带语音BE:采样率16kHz带宽6kHz的宽带语音扩展为采样率16kHz带宽8kHz的宽带语音信号(采样率不变)、采样率16kHz带宽8kHz的宽带语音扩展为采样率32kHz带宽16kHz的超宽带语音信号(采样率加倍、带宽加倍)。
3、窄带语音BE:采样率8kHz带宽4kHz的窄带语音扩展为采样率16kHz带宽8kHz的宽带语音信号(采样率加倍、带宽加倍)。
对语音带宽进行扩展后,为避免频谱混叠对扩展后频谱采用高通滤波得到纯净的高频成分;下一步,根据系统输入的BE程度控制参数以及模糊映射软判决等方法对重建高频成分进行增益调整,最后结合原始低频成分,恢复重建具有更高带宽的语音信号。
综上所述,基于自适应带宽判断的BE系统主要包括带宽判断、带宽扩展和高频增益调整,下面主要针对前两部分进行详细介绍。
带宽判断模块主要包括采样率转换和带宽判断两部分内容,如图2和3所示:
如图2所示,当输入输出采样率满足SRout=SRin条件时,直接输出原始语音信号;当输入输出采样率满足SRout=2*SRin条件时,系统对输入语音进行上2采样和低通滤波处理,得到采样率加倍而带宽不变的语音信号并输出。无论采样率是否变化,本发明将经过采样率转换模块处理后的语音信号一律采用y(n)表示。经过采样率转换之后,系统开始对信号y(n)的带宽进行判断,如图3所示。
如图3所示,第一步,根据输入的每帧信号y(n),计算其帧能量E。然后,根据采样率转换之前的原始输入采样率SRin对信号y(n)的有效带宽进行判断,分为以下三种情况:
(1)当SRin=8kHz时,直接判定y(n)有效带宽为4kHz;
(2)当SRin=16kHz时,首先将y(n)通过截止频率为6kHz的高通滤波器,得到滤波后的信号yh(n);然后计算yh(n)信号能量值Ew及其占帧能量E的比例值Rw;最后将Rw与统计方法得到的阈值RT进行比较,若Rw大于RT,则判定原始宽带语音信号的6kHz~8kHz高频成分存在,带宽输出结果为8kHz;否则判定这部分不存在,带宽输出结果为6kHz。
(3)当SRin为32kHz时,首先将y(n)通过截止频率为12kHz的高通滤波器,得到滤波后的信号y’h(n);然后计算y’h(n)信号能量值Esw及其占帧能量E的比例值Rsw;最后将Rsw与阈值R’T进行比较,若Rsw大于R’T,则判定原始超宽带语音信号的12kHz~16kHz高频成分存在,带宽输出结果为16kHz;否则判定该部分不存在,带宽输出结果为12kHz。
另外,上述带宽判断方法具有很大程度的推广性。根据原始语音信号的输入采样率SRin,本发明方法不仅可以判断宽带语音信号带宽为6kHz~8kHz或超宽带语音带宽为12kHz~16kHz的高频部分是否存在,同样也可以对原始窄带、宽带、超宽带和全带语音信号的低频带宽成分、中频带宽成分甚至是任意频率范围带宽成分的存在情况进行判定。具体方法可分为以下三类:
其中,FL表示较低带宽频率值,FH表示较高带宽频率值,FMAX表示在某一固定采样率下所能达到的最大带宽频率值:
步骤2-1)计算信号y(n)的帧能量值E;
步骤2-2)将信号y(n)采用截止频率为FL的低通滤波器进行处理,得到滤波后的信号,计算该信号的帧能量值ELW,然后计算能量比例RL=ELW/E,将RL与第一阈值R1进行比较,若大于第一阈值R1,则判定该带宽成分存在,然后转入步骤2-3);否则,直接将信号y(n)进行输出;
步骤2-3)将信号y(n)采用上下截止频率分别为FL和FH的带通滤波器进行处理,得到滤波后的信号,计算该信号的帧能量值EBW,然后计算能量比例RB=EBW/E,将RB与第二阈值R2进行比较,若大于第二阈值R2,则判定该带宽成分存在,然后转入步骤2-4);否则,进行当前采样率下FL~FH的带宽扩展;
步骤2-4)将信号y(n)采用截止频率为FH,FH<FMAX的高通滤波器进行处理,得到滤波后的信号;计算该信号的帧能量值EHW,然后计算能量比例RH=EHW/E,将RH与第三阈值R3进行比较,若大于第三阈值R3,则判定该带宽成分存在,直接将信号y(n)进行输出;否则,进行当前采样率下FH~FMAX的带宽扩展处理;
通过带宽判断处理得到原始输入语音的带宽情况后,系统根据BE控制开关标识符、输入采样率SRin和输出采样率SRout这三个输入参数的设定情况,结合带宽判断结果进一步判断是否将对输入语音进行BE处理,具体分析如表1所示。
若系统已判定需要对输入语音进行BE,则算法开始进行下面的带宽扩展。
BE具体步骤如图4所示,如图4所示,基于线性源-滤波器模型的带宽扩展理论,BE方法主要分为清浊判决、线性预测分析、包络扩展、激励扩展、线性预测合成和高通滤波等步骤。该方法首先对经过采样率转换和带宽判断处理后的语音y(n)进行清浊判决,包括预处理(去均值、低通滤波、数值滤波)、对数能量计算、互相关函数计算和最优基音延迟计算等步骤,得到语音清浊音标识符号;同时,对y(n)进行线性预测分析,得到较低带宽的谱包络特征(采用线谱频率参数Line Spectrum Frequency,即LSF来表示)和激励信号;然后根据清浊判决结果,采用码书映射、高斯混合模型、隐马尔科夫模型或者神经网络等方法分别针对信号y(n)的清、浊音较高带宽谱包络部分进行估计;同时采用频谱复制、频谱折叠、非线性计算或综合多带激励等方法实现对激励信号的扩展,在较大程度上保持了较高带宽语音信号的本质规律,还原了重建高频信号的音色;最后,采用线性预测合成对较高带宽的包络和激励进行重建,并通过高通滤波处理,得到重建较高带宽语音的纯净高频成分。
通过上述带宽判断和带宽扩展处理后,系统可以得到重建较高带宽语音的高频成分,然后采用模糊映射软判决和输入参数中的BE程度控制标识符(范围0~1:数值越接近于1,高频能量越接近于BE系统重建的高频成分;当标识符置为0时,语音带宽无扩展)对重建语音高频进行增益调整;最后结合经过采样率转换后语音信号的低频成分,恢复重建具有更高带宽的语音信号。
根据不同采样率和带宽的训练样本数据,采用线性预测分析、高斯混合模型、隐马尔可夫模型或深度神经网络训练出固定采样率下针对带宽FL~FH范围进行扩展的中频带宽扩展模型和固定采样率下针对带宽FH~FMAX范围进行扩展的高频带宽扩展模型。所以带宽扩展模块包含不同的中频、高频带宽扩展模型。根据上述带宽判断过程,本专利可以自适应匹配不同的带宽扩展模型进行带宽扩展,重建不同采样率条件下的高频成分。
不同采样率条件下,带宽扩展模块包含不同的中频带宽扩展模型和不同的高频带宽扩展模型,原因在于训练模型样本不同,所得到的带宽扩展模型各项参数均有所差异。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于自适应带宽判断的带宽扩展方法,所述方法包括:
步骤1)根据设置的语音信号的输入采样率和输出采样率,对输入语音信号x(n)进行采样率转换,输出信号y(n),其采样率为输出采样率;
步骤2)计算信号y(n)的帧能量值,依次对信号y(n)进行低通、带通和高通滤波处理,计算处理后信号与信号y(n)的帧能量值的比值,将比值与相应阈值进行比较,从而判定信号的有效频带宽度是否存在,并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展,如果需要,转入步骤3),否则,直接将输入信号y(n)进行输出;
步骤3)对信号y(n)的进行带宽扩展,然后输出。
2.根据权利要求1所述的基于自适应带宽判断的带宽扩展方法,其特征在于,所述步骤1)具体为:
设输入采样率为SRin,输出采样率为SRout;
当满足SRout=SRin条件时,输出信号y(n)为输入语音信号x(n);
当满足SRout=2*SRin条件时,对输入语音信号x(n)进行上二采样和低通滤波处理,得到采样率加倍而带宽不变的信号y(n)。
3.根据权利要求1所述的基于自适应带宽判断的带宽扩展方法,其特征在于,所述步骤2)具体包括:
步骤2-1)计算信号y(n)的帧能量值E;
步骤2-2)将信号y(n)采用截止频率为FL的低通滤波器进行处理,得到滤波后的信号,计算该信号y(n)的帧能量值ELW,然后,计算能量比例RL=ELW/E,将RL与第一阈值R1进行比较,若大于第一阈值R1,则判定该带宽成分存在,然后,转入步骤2-3);否则,直接将信号y(n)进行输出;其中,FL表示较低带宽频率值;
步骤2-3)将信号y(n)采用上下截止频率分别为FL和FH的带通滤波器进行处理,得到滤波后的信号,计算该信号的帧能量值EBW,然后计算能量比例RB=EBW/E,将RB与第二阈值R2进行比较,若大于第二阈值R2,则判定该带宽成分存在,然后转入步骤2-4);否则,转入步骤3),进行当前采样率下FL~FH的带宽扩展;其中,FH表示较高带宽频率值;
步骤2-4)将信号y(n)采用截止频率为FH,FH<FMAX的高通滤波器进行处理,得到滤波后的信号;计算该信号的帧能量值EHW,然后计算能量比例RH=EHW/E,将RH与第三阈值R3进行比较,若大于第三阈值R3,则判定该带宽成分存在,直接将信号y(n)进行输出;否则,转入步骤3),进行当前采样率下FH~FMAX的带宽扩展处理;FMAX表示在某一固定采样率下语音信号所能达到的最大带宽频率值。
4.根据权利要求3所述的基于自适应带宽判断的带宽扩展方法,其特征在于,所述FL和FH是根据信号输出采样率和需求设定的经验值。
5.根据权利要求3所述的基于自适应带宽判断的带宽扩展方法,其特征在于,其中,所述第一阈值R1、第二阈值R2和第三阈值R3采用概率统计方法进行确定。
6.根据权利要求1所述的基于自适应带宽判断的带宽扩展方法,其特征在于,所述步骤3)之前还包括:
根据不同采样率和带宽的训练样本数据,采用线性预测分析、高斯混合模型、隐马尔可夫模型或深度神经网络,训练出固定采样率下针对带宽FL~FH范围进行扩展的中频带宽扩展模型和固定采样率下针对带宽FH~FMAX范围进行扩展的高频带宽扩展模型。
7.根据权利要求6所述的基于自适应带宽判断的带宽扩展方法,其特征在于,所述步骤3)具体包括:
若y(n)已包含0~FL带宽成分但不包含FL~FH带宽成分,采用中频带宽扩展模型进行扩展;
若y(n)已包含0~FL带宽成分和FL~FH带宽成分但不包含FH~FMAX带宽成分,则采用高频带宽扩展模型进行扩展;
最后,将带宽扩展后的信号进行输出。
8.一种基于自适应带宽判断的带宽扩展系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~7之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711394223.0A CN108198571B (zh) | 2017-12-21 | 2017-12-21 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711394223.0A CN108198571B (zh) | 2017-12-21 | 2017-12-21 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108198571A true CN108198571A (zh) | 2018-06-22 |
CN108198571B CN108198571B (zh) | 2021-07-30 |
Family
ID=62583467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711394223.0A Expired - Fee Related CN108198571B (zh) | 2017-12-21 | 2017-12-21 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108198571B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322891A (zh) * | 2019-07-03 | 2019-10-11 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
CN110556123A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556121A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
WO2021003811A1 (zh) * | 2019-07-11 | 2021-01-14 | 网宿科技股份有限公司 | 基于深度学习的带宽滤波方法、装置、服务器及存储介质 |
US11005689B2 (en) | 2019-07-11 | 2021-05-11 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for bandwidth filtering based on deep learning, server and storage medium |
CN114629515A (zh) * | 2020-12-14 | 2022-06-14 | 通用汽车环球科技运作有限责任公司 | 使用神经网络的高分辨率无线电 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1261713A (zh) * | 1998-12-11 | 2000-08-02 | 索尼公司 | 接收装置和方法,通信装置和方法 |
US20010027390A1 (en) * | 2000-03-07 | 2001-10-04 | Jani Rotola-Pukkila | Speech decoder and a method for decoding speech |
US6449244B1 (en) * | 1999-05-10 | 2002-09-10 | Trw Inc. | Implementation of orthogonal narrowband channels in a digital demodulator |
US20040117764A1 (en) * | 2002-11-06 | 2004-06-17 | Engim, Inc. | Programmable sample rate conversion engine for wideband systems |
CN1529882A (zh) * | 2001-05-11 | 2004-09-15 | 西门子公司 | 用于扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法 |
US20040259601A1 (en) * | 2003-05-27 | 2004-12-23 | Ihle Marc | Frequency expansion for synthesizer |
CN101083076A (zh) * | 2006-06-03 | 2007-12-05 | 三星电子株式会社 | 使用带宽扩展技术对信号编码和解码的方法和设备 |
CN101164104A (zh) * | 2005-04-20 | 2008-04-16 | Qnx软件操作系统(威美科)有限公司 | 用于改善语音质量和可懂度的系统 |
CN101208972A (zh) * | 2005-06-30 | 2008-06-25 | 摩托罗拉公司 | 用于语音通信的带宽扩展的方法及系统 |
US20080215344A1 (en) * | 2007-03-02 | 2008-09-04 | Samsung Electronics Co., Ltd. | Method and apparatus for expanding bandwidth of voice signal |
CN101345548A (zh) * | 2008-08-22 | 2009-01-14 | 清华大学 | 基于可调流水线频率变换tpft的抗窄带干扰的方法 |
CN101461159A (zh) * | 2006-04-06 | 2009-06-17 | Adc长途电讯有限公司 | 用于增强宽带数字射频传送系统性能的系统和方法 |
CN102318004A (zh) * | 2009-09-18 | 2012-01-11 | 杜比国际公司 | 改进的谐波转置 |
CN102694528A (zh) * | 2011-03-23 | 2012-09-26 | 美国亚德诺半导体公司 | 异步采样率转换器中抽取率的自适应控制方法和装置 |
CN102820853A (zh) * | 2011-06-06 | 2012-12-12 | 特克特朗尼克公司 | 测试和测量仪器上的交织数字下变频转换 |
CN103258543A (zh) * | 2013-04-12 | 2013-08-21 | 大连理工大学 | 一种人工语音带宽扩展的方法 |
CN103413557A (zh) * | 2013-07-08 | 2013-11-27 | 深圳Tcl新技术有限公司 | 语音信号带宽扩展的方法和装置 |
CN104036781A (zh) * | 2013-03-05 | 2014-09-10 | 深港产学研基地 | 语音信号带宽扩展装置及方法 |
CN104459256A (zh) * | 2013-09-13 | 2015-03-25 | 特克特朗尼克公司 | 用于扩展示波器带宽和采样率的谐波时域交织 |
CN106256000A (zh) * | 2014-04-30 | 2016-12-21 | 高通股份有限公司 | 高频带激励信号生成 |
-
2017
- 2017-12-21 CN CN201711394223.0A patent/CN108198571B/zh not_active Expired - Fee Related
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1261713A (zh) * | 1998-12-11 | 2000-08-02 | 索尼公司 | 接收装置和方法,通信装置和方法 |
US6449244B1 (en) * | 1999-05-10 | 2002-09-10 | Trw Inc. | Implementation of orthogonal narrowband channels in a digital demodulator |
US20010027390A1 (en) * | 2000-03-07 | 2001-10-04 | Jani Rotola-Pukkila | Speech decoder and a method for decoding speech |
CN1193344C (zh) * | 2000-03-07 | 2005-03-16 | 诺基亚有限公司 | 语音解码器和一种语音解码方法 |
CN1529882A (zh) * | 2001-05-11 | 2004-09-15 | 西门子公司 | 用于扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法 |
US20040117764A1 (en) * | 2002-11-06 | 2004-06-17 | Engim, Inc. | Programmable sample rate conversion engine for wideband systems |
US20040259601A1 (en) * | 2003-05-27 | 2004-12-23 | Ihle Marc | Frequency expansion for synthesizer |
CN101164104A (zh) * | 2005-04-20 | 2008-04-16 | Qnx软件操作系统(威美科)有限公司 | 用于改善语音质量和可懂度的系统 |
CN101208972A (zh) * | 2005-06-30 | 2008-06-25 | 摩托罗拉公司 | 用于语音通信的带宽扩展的方法及系统 |
CN101461159A (zh) * | 2006-04-06 | 2009-06-17 | Adc长途电讯有限公司 | 用于增强宽带数字射频传送系统性能的系统和方法 |
CN101083076A (zh) * | 2006-06-03 | 2007-12-05 | 三星电子株式会社 | 使用带宽扩展技术对信号编码和解码的方法和设备 |
US20080215344A1 (en) * | 2007-03-02 | 2008-09-04 | Samsung Electronics Co., Ltd. | Method and apparatus for expanding bandwidth of voice signal |
CN101345548A (zh) * | 2008-08-22 | 2009-01-14 | 清华大学 | 基于可调流水线频率变换tpft的抗窄带干扰的方法 |
CN102318004A (zh) * | 2009-09-18 | 2012-01-11 | 杜比国际公司 | 改进的谐波转置 |
CN102694528A (zh) * | 2011-03-23 | 2012-09-26 | 美国亚德诺半导体公司 | 异步采样率转换器中抽取率的自适应控制方法和装置 |
CN102820853A (zh) * | 2011-06-06 | 2012-12-12 | 特克特朗尼克公司 | 测试和测量仪器上的交织数字下变频转换 |
CN104036781A (zh) * | 2013-03-05 | 2014-09-10 | 深港产学研基地 | 语音信号带宽扩展装置及方法 |
CN103258543A (zh) * | 2013-04-12 | 2013-08-21 | 大连理工大学 | 一种人工语音带宽扩展的方法 |
CN103413557A (zh) * | 2013-07-08 | 2013-11-27 | 深圳Tcl新技术有限公司 | 语音信号带宽扩展的方法和装置 |
CN104459256A (zh) * | 2013-09-13 | 2015-03-25 | 特克特朗尼克公司 | 用于扩展示波器带宽和采样率的谐波时域交织 |
CN106256000A (zh) * | 2014-04-30 | 2016-12-21 | 高通股份有限公司 | 高频带激励信号生成 |
Non-Patent Citations (2)
Title |
---|
DIMITRIOS MARMANIS: "《Deep Learning Earth Observation Classification Using ImageNet Pretrained Networks》", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》 * |
王迎雪: "《基于受限玻尔兹曼机的语音带宽扩展》", 《电子与信息学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322891A (zh) * | 2019-07-03 | 2019-10-11 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
CN110322891B (zh) * | 2019-07-03 | 2021-12-10 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
WO2021003811A1 (zh) * | 2019-07-11 | 2021-01-14 | 网宿科技股份有限公司 | 基于深度学习的带宽滤波方法、装置、服务器及存储介质 |
US11005689B2 (en) | 2019-07-11 | 2021-05-11 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for bandwidth filtering based on deep learning, server and storage medium |
CN110556123A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556121A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
WO2021052285A1 (zh) * | 2019-09-18 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556121B (zh) * | 2019-09-18 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556123B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
US12002479B2 (en) | 2019-09-18 | 2024-06-04 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
CN114629515A (zh) * | 2020-12-14 | 2022-06-14 | 通用汽车环球科技运作有限责任公司 | 使用神经网络的高分辨率无线电 |
Also Published As
Publication number | Publication date |
---|---|
CN108198571B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198571A (zh) | 一种基于自适应带宽判断的带宽扩展方法及系统 | |
CN1750124B (zh) | 带限音频信号的带宽扩展 | |
CN103026407B (zh) | 带宽扩展器 | |
CN107358966B (zh) | 基于深度学习语音增强的无参考语音质量客观评估方法 | |
RU2507608C2 (ru) | Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US7734462B2 (en) | Method and apparatus for extending the bandwidth of a speech signal | |
KR101214684B1 (ko) | 대역폭 확장 시스템에서 고-대역 에너지를 추정하기 위한 방법 및 장치 | |
CN101976566B (zh) | 语音增强方法及应用该方法的装置 | |
US20040138876A1 (en) | Method and apparatus for artificial bandwidth expansion in speech processing | |
JP2003514263A (ja) | マッピング・マトリックスを用いた広帯域音声合成 | |
DE10041512A1 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
JP2000515987A (ja) | 音声活性度検出器 | |
DE112014000945B4 (de) | Sprachbetonungsgerät | |
CA2596411A1 (en) | Method and system for providing an acoustic signal with extended bandwidth | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
CN106340303A (zh) | 一种基于时间频率域的语音降噪方法 | |
Qian et al. | Combining equalization and estimation for bandwidth extension of narrowband speech | |
US8064699B2 (en) | Method and device for ascertaining feature vectors from a signal | |
Gandhiraj et al. | Auditory-based wavelet packet filterbank for speech recognition using neural network | |
CN111816208A (zh) | 一种语音分离质量评估方法、装置及计算机存储介质 | |
Fraile et al. | Mfcc-based remote pathology detection on speech transmitted through the telephone channel-impact of linear distortions: Band limitation, frequency response and noise | |
CN108010533A (zh) | 音频数据码率的自动识别方法和装置 | |
CN110010150A (zh) | 基于多分辨率的听觉感知语音特征参数提取方法 | |
CN110168640B (zh) | 用于增强信号中需要分量的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210730 |
|
CF01 | Termination of patent right due to non-payment of annual fee |