CN107533848A - 用于话音恢复的系统和方法 - Google Patents
用于话音恢复的系统和方法 Download PDFInfo
- Publication number
- CN107533848A CN107533848A CN201680011243.2A CN201680011243A CN107533848A CN 107533848 A CN107533848 A CN 107533848A CN 201680011243 A CN201680011243 A CN 201680011243A CN 107533848 A CN107533848 A CN 107533848A
- Authority
- CN
- China
- Prior art keywords
- subband
- recovered
- electronic installation
- noise
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 149
- 238000009434 installation Methods 0.000 claims abstract description 174
- 238000011084 recovery Methods 0.000 claims abstract description 58
- 238000004458 analytical method Methods 0.000 claims description 40
- 238000001514 detection method Methods 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 description 114
- 238000005259 measurement Methods 0.000 description 42
- 230000036961 partial effect Effects 0.000 description 35
- 230000005236 sound signal Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 26
- 230000009467 reduction Effects 0.000 description 23
- 230000001629 suppression Effects 0.000 description 23
- 230000005284 excitation Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 17
- 230000002708 enhancing effect Effects 0.000 description 13
- 238000001914 filtration Methods 0.000 description 13
- 239000002131 composite material Substances 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000002085 persistent effect Effects 0.000 description 8
- 238000007670 refining Methods 0.000 description 8
- 230000008439 repair process Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000005611 electricity Effects 0.000 description 7
- 238000009499 grossing Methods 0.000 description 7
- 238000002156 mixing Methods 0.000 description 7
- 238000005086 pumping Methods 0.000 description 7
- 206010019133 Hangover Diseases 0.000 description 6
- 230000001771 impaired effect Effects 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000002045 lasting effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 241000581364 Clinitrachus argentatus Species 0.000 description 1
- 101000746134 Homo sapiens DNA endonuclease RBBP8 Proteins 0.000 description 1
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 1
- 102100021133 Nuclear protein 1 Human genes 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000011469 building brick Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/005—Tone control or bandwidth control in amplifiers of digital signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
描述一种通过电子装置进行话音恢复的方法。所述方法包含获得嘈杂话音信号。所述方法还包含抑制所述嘈杂话音信号中的噪声以产生噪声受抑制的话音信号。所述噪声受抑制的话音信号具有包含至少三个子带的带宽。所述方法进一步包含反复地恢复所述至少三个子带中的每一个子带。基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
Description
技术领域
本发明大体上涉及电子装置。更确切地说,本发明涉及用于话音恢复的系统和方法。
背景技术
在最近几十年中,电子装置的使用已变得普遍。明确地说,电子技术的进步已降低了愈加复杂且有用的电子装置的成本。成本降低和消费者需求已使电子装置的使用剧增,使得其在现代社会中几乎随处可见。由于电子装置的使用已推广开来,因此具有对电子装置的新的且改进的特征的需求。更确切地说,人们常常寻求执行新功能和/或更快、更有效或以更高质量执行功能的电子装置。
一些电子装置(例如,蜂窝式电话、智能手机、录音机、摄录影机、计算机等)捕获和/或利用音频信号。例如,智能手机可捕获话音信号。音频信号可进行存储和/或发射。
在一些情况下,音频信号可包含所要音频信号(例如,话音信号)和噪声。音频信号中的高噪声电平可减弱音频信号。这可致使所要音频信号难以辨析或难以解译。如从此论述可观测到,改进音频信号处理的系统和方法可为有益的。
发明内容
描述一种通过电子装置进行话音恢复的方法。所述方法包含获得嘈杂话音信号。所述方法还包含抑制嘈杂话音信号中的噪声以产生噪声受抑制的话音信号。噪声受抑制的话音信号具有包含至少三个子带的带宽。所述方法进一步包含反复地恢复所述至少三个子带中的每一个子带。基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
所有先前经恢复子带的频率可能比正在恢复的当前子带低。每一先前经恢复子带可嵌套在任何先前经恢复子带和正在恢复的当前子带的组合频率范围内。在所述带宽上反复地恢复所述至少三个子带中的每一个子带可比在所述带宽上不基于经恢复子带而恢复噪声受抑制的话音信号减少更多的失真。
所述方法可包含分析所述至少三个子带中的第一子带。所述方法还可包含基于所述分析而清除第一子带。
恢复所述至少三个子带中的第一子带可包含对第一子带的包络进行建模和对第一子带的相位进行建模。恢复第一子带还可包含基于所述包络和所述相位而调整第一子带。
反复地恢复所述至少三个子带中的每一个子带可包含仅基于所述至少三个子带中的第一子带而搜索码本以确定选中条目。码本的条目可跨越所述至少三个子带中的第一子带和第二子带的带宽。反复地恢复所述至少三个子带中的每一个子带还可包含基于选中条目而调整噪声受抑制的话音信号的第二子带。
反复地恢复所述至少三个子带中的每一个子带可包含确定建模置信度以及基于所述建模置信度而确定定标因数。反复地恢复所述至少三个子带中的每一个子带还可包含基于所述定标因数而混合对应于所述至少三个子带中的一或多个子带的包络。
反复地恢复所述至少三个子带中的每一个子带可包含检测有声帧的麦克风电平以及检测有声帧的经处理话音电平。反复地恢复所述至少三个子带中的每一个子带还可包含基于所述麦克风电平和所述经处理话音电平而确定增益以及在所述带宽上将所述增益应用到经处理话音信号。
反复地恢复所述至少三个子带中的每一个子带可包含恢复所述至少三个子带中的第一子带以产生经恢复第一子带,以及基于所述经恢复第一子带而恢复所述至少三个子带中的第二子带以产生经恢复第二子带。反复地恢复所述至少三个子带中的每一个子带还可包含基于所述经恢复第一子带和所述经恢复第二子带而恢复所述至少三个子带中的第三子带以产生经恢复第三子带。
所述方法可包括恢复所述至少三个子带中的每一个子带,其可包含汇集所述至少三个子带中的经恢复第一子带和经恢复第二子带。所述方法可包含恢复所述至少三个子带中的每一个子带,其可包含汇集所述至少三个子带中的先前经恢复第一子带和先前经恢复第二子带以及基于所述汇集的经恢复第一子带和经恢复第二子带而预测所述至少三个子带中的第三子带。
还描述一种用于话音恢复的电子装置。所述电子装置包含处理器和存储器,所述存储器与所述处理器成电子通信。所述电子装置还包含存储在存储器中的指令。所述指令可执行以获得嘈杂话音信号。所述指令还可执行以抑制嘈杂话音信号中的噪声以产生噪声受抑制的话音信号。所述噪声受抑制的话音信号具有包括至少三个子带的带宽。所述指令进一步可执行以反复地恢复所述至少三个子带中的每一个子带。基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
还描述一种用于话音恢复的设备。所述设备包含用于获得嘈杂话音信号的装置。所述设备还包含用于抑制嘈杂话音信号中的噪声以产生噪声受抑制的话音信号的装置。所述噪声受抑制的话音信号具有包括至少三个子带的带宽。所述设备进一步包含用于反复地恢复所述至少三个子带中的每一个子带的装置。基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
还描述一种用于话音恢复的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性计算机可读媒体。所述指令包含用于使电子装置获得嘈杂话音信号的代码。所述指令还包含用于使所述电子装置抑制嘈杂话音信号中的噪声以产生噪声受抑制的话音信号的代码。所述噪声受抑制的话音信号具有包括至少三个子带的带宽。所述指令进一步包含用于使电子装置反复地恢复所述至少三个子带中的每一个子带的代码。基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
附图说明
图1是说明其中可实施用于话音恢复的系统和方法的电子装置的一个实例的框图;
图2一种说明用于话音恢复的方法的实例的流程图;
图3是说明其中可实施用于话音恢复的系统和方法的电子装置的更特定实例的框图;
图4是说明根据本文中揭示的系统和方法的在话音包络恢复之前和之后的话音帧的一个实例的曲线图;
图5是说明在话音清除之后的经处理话音频谱图的实例的曲线图;
图6是说明在第一子带恢复之后的经处理话音频谱图的实例的曲线图;
图7是说明在第二子带恢复之后的经处理话音频谱图的实例的曲线图;
图8是说明在第三子带恢复之后的经处理话音频谱图的实例的曲线图;
图9是说明在第三子带恢复之后的经处理话音频谱图的实例的曲线图;
图10是说明用于谐波分析和话音清除的方法的更特定实例的框图;
图11是说明用于第一子带恢复的方法的更特定实例的框图;
图12A包含说明第一子带恢复的实例的曲线图A;
图12B说明用于第一子带的经清除话音和经恢复话音的频谱图的实例;
图13是说明用于第二子带恢复的方法的更特定实例的框图;
图14是说明根据本文中揭示的系统和方法的在话音防消音之前和之后的话音的一个实例的曲线图;
图15是说明用于第三子带恢复的方法的更特定实例的框图;
图16是说明根据本文中揭示的系统和方法的在话音包络调整之前和之后的话音的一个实例的曲线图;
图17是说明用于话音电平均衡的方法的更特定实例的框图;
图18包含说明根据本文中揭示的系统和方法的在话音均衡之前和之后的话音的实例的曲线图;
图19包含说明本文中揭示的系统和方法的性能的实例的曲线图;
图20是说明孤峰抑制器的一个实例的框图;
图21是说明孤峰的一个实例的曲线图;
图22是说明用于孤峰检测的方法的一个配置的流程图;
图23包含孤峰检测的一个配置的状态图(例如,状态机视图);
图24包含说明峰值检测的实例的曲线图;
图25是说明谐波分析模块的一个配置的框图;
图26包含说明根据本文中揭示的系统和方法的谐波分析的实例的曲线图;
图27包含说明音高候选者的实例的曲线图;
图28包含说明根据本文中揭示的系统和方法的谐波分析的实例的曲线图;
图29是说明其中可实施用于增强音频信号的系统和方法的电子装置的另一配置的框图;
图30是说明用于增强音频信号的方法的一个实例的流程图;
图31是说明用于增强音频信号的方法的更特定配置的流程图;
图32包含说明根据本文中揭示的系统和方法的全极点建模的一个实例的曲线图;
图33包含说明根据本文中揭示的系统和方法的利用最大包络的全极点建模的一个实例的曲线图;
图34包含说明根据本文中揭示的系统和方法的经扩展分音的一个实例的曲线图;
图35是说明被噪声损坏的话音信号(例如,经记录话音信号)的频谱的一个实例的曲线图;
图36是说明在噪声抑制之后的被噪声损坏的话音信号(例如,经记录话音信号)的频谱的一个实例的曲线图;
图37是说明用于包络建模的方法的实例的流程图;
图38是说明用于挑选谐波峰值的方法的一个配置的流程图;
图39说明在整个谐波频率中的经挑选谐波峰值的实例;
图40说明峰值建模的实例;
图41是说明为个别谐波峰值分配局部包络的实例的曲线图;
图42是说明为谐波峰值群组或共振峰群组分配单个局部包络的实例的曲线图;
图43是说明全局包络的实例的曲线图;
图44是说明缺失分音恢复的实例的曲线图;
图45说明可在电子装置中利用的各种组件;以及
图46是说明用于带宽扩展的一个方法的实例的框图。
具体实施方式
本文中描述用于话音恢复的系统和方法。本文中揭示的系统和方法的一些配置可提供基于逐频带话音建模的噪声抑制和话音包络恢复。
话音增强系统的一些问题给出如下。由于来自空间滤波的噪声参考的低估,话音增强系统可能会遭受感知明显的残余噪声。由于低子带信噪比(SNR),话音包络可能会在子带中损坏。由于较低高频带SNR和高频带噪声参考的高估,可能会发生经消音话音。由于高度非静态噪声参考的低估,话音增强系统还可能会遭受高频带音乐噪声漏泄。
在一些方法中,经处理话音遭受从清晰话音包络的较大包络偏离。因此,需要一种用于恢复话音包络以在各种SNR和噪声条件下大致匹配清晰话音包络的独立话音建模系统和方法。
现在参考附图描述各种配置,在附图中相似的附图标号可指示功能相似的元件。如在本文的附图中一般描述和说明的系统和方法可以各种不同的配置进行布置和设计。因此,如附图中所表示,以下对若干种配置的更详细描述并不意图如所要求的那样限制范围,而是仅仅代表所述系统和方法。
图1是说明其中可实施用于话音恢复的系统和方法的电子装置102的一个实例的框图。电子装置102的实例包含蜂窝式电话、智能手机、平板计算机装置、录音机、膝上型计算机、桌上型计算机、陆线电话、摄录影机、静态相机、嵌入式电子装置、游戏系统、电视、电器等。电子装置102的组件中的一或多个可实施在硬件(例如,电路)或硬件与软件的组合中。如本文所使用,“模块”可实施在硬件(例如,电路)或硬件与软件的组合中。
箭头和/或线可表示附图中所说明的框图中的组件或元件之间的耦合。术语“耦合(couple)”的“耦合(coupling)”或其变化形式可表示组件或元件之间的直接连接或间接连接。例如,耦合到第二组件的第一组件可直接连接到第二组件(无需中间组件)或可间接连接到第二组件(利用一或多个中间组件)。
电子装置102可包含噪声抑制模块106和反复子带恢复模块110。电子装置102可获得嘈杂话音信号104。例如,电子装置102可从包含在电子装置102中的一或多个麦克风(图1中未示出)捕获嘈杂话音信号104。在一些配置中,嘈杂话音信号104可以是已经通过包含在电子装置102中的模/数转换器(ADC)(图1中未示出)转换的模拟音频信号的采样形式。在另一实例中,电子装置102可从另一装置获得嘈杂话音信号104。例如,电子装置102可从蓝牙耳机或某一其它远程装置(例如,智能手机、相机等)接收嘈杂话音信号104。在一些配置中,嘈杂话音信号104可格式化(例如,划分)成帧。嘈杂话音信号104(例如,嘈杂话音信号104的一或多个帧)可被提供到噪声抑制模块106和/或迭代子带恢复模块110。应注意,噪声抑制模块106可为任选的。例如,本文中揭示的系统和方法可结合噪声抑制起作用或独立地起作用。
应注意,电子装置102的组件中的一或多个可为任选的。例如,电子装置102的一些实施方案可包含所示出的组件中的仅一个。其它实施方案可包含所示出的组件中的两个或更多个。明确地说,电子装置102的一些实施方案可包含噪声抑制模块106和反复子带恢复模块110中的仅一个。其它实施方案可包含所示出的组件中的两个或更多个。
噪声抑制模块106可抑制嘈杂话音信号104中的噪声。例如,噪声抑制模块106可检测和/或去除来自嘈杂话音信号104的一或多个干扰信号或其分量。噪声抑制模块106可产生噪声受抑制的话音信号108。噪声受抑制的话音信号108可具有包含一或多个子带(例如,两个、三个或更多个子带)的带宽(例如,整个带宽或频率范围)。例如,噪声受抑制的话音信号108的带宽可在0到8千赫兹(kHz)的频率范围内。在一些配置中,噪声受抑制的话音信号108的带宽可包含三个子带,其中第一子带在0到2kHz范围内,第二子带在2到4kHz范围内,且第三子带在4到8kHz范围内。应注意,尽管本文中给出带宽和子带的实例,但是本文中揭示的系统和方法还可应用于其它带宽和/或子带。在另一实例中,噪声受抑制的话音信号108可具有16kHz的带宽,所述16kHz的带宽具有在0到1.9kHz、1.9到3.8kHz、3.8到7.8kHz和7.8到16kHz范围内的四个子带。
噪声受抑制的话音信号108和/或(原始)嘈杂话音信号104可被提供到反复子带恢复模块110。反复子带恢复模块110可反复地恢复噪声受抑制的话音信号(和/或嘈杂话音信号104)的子带中的每一个子带。可基于(例如,噪声受抑制的话音信号108的)所有先前经恢复子带而恢复(例如,噪声受抑制的话音信号108的)子带中的每一个子带。举例来说,反复子带恢复模块110可一次一个地恢复子带中的每一个子带。一旦子带恢复,就可将所述子带用作恢复下一子带的基础。例如,一旦第一子带恢复,就可基于经恢复第一子带而恢复第二子带。此外,一旦第一子带和第二子带恢复,就可基于经恢复第一子带和经恢复第二子带两者(例如,经恢复第一子带和经恢复第二子带的组合)而恢复第三子带。在一些配置中,可针对更多子带反复进行这个过程。例如,可基于经恢复第一子带、经恢复第二子带和经恢复第三子带而恢复第四子带。应注意,待恢复的初始子带(例如,第一子带)可能没有基于任何先前经恢复子带(因为,例如,针对那个帧,先前没有恢复任何子带)。反复子带恢复模块110可基于所有经恢复子带而产生增强话音信号112。例如,增强话音信号112可以是所有经恢复子带的组合。
另外地或可替代地,反复子带恢复模块110可恢复至少三个子带中的每一个子带,包含汇集两个或更多个先前经恢复子带。所汇集的经恢复子带可用于预测另一子带。另外地或可替代地,反复子带恢复模块110可恢复至少三个子带,其中每一个先前经恢复子带嵌套在任何先前经恢复子带和正在恢复的当前子带的组合频率范围内。
在一些配置中,所有先前经恢复子带的频率比正在恢复的当前子带低。例如,反复子带恢复可开始于最低子带频率(例如,子带范围中的最低最小频率),且接着按频率增加(例如,在相应的子带范围中增加最小频率)的次序连续恢复子带。在一些配置中,带宽(例如,0到2kHz)中的最低子带可以是一或多个额外子带从其反复恢复的锚点。锚点子带可以是比包含在所述带宽中的一或多个其它子带能容纳更多噪声的子带。
以递增次序逐渐或连续恢复子带出于一或多个原因可为有利的。例如,话音结构在低频带(例如,低于2kHz的频带)下对噪声相当具有鲁棒性。可在噪声抑制(例如,去噪)之前和之后清楚地确定谐波话音峰和它们的时间演变,因此较低频带(例如,0到2kHz子带)可有利地用作经由码本方法查找其余的缺失包络子带的锚点。因此,本文中揭示的系统和方法的一些配置可使用嵌套方法,以基于经反复恢复的子带来复原完整带宽(例如,宽带话音信号,0到8kHz、0到16kHz等)。
根据本文中揭示的系统和方法的一些配置的反复子带恢复的实例给出如下。第一,嘈杂话音信号104的第一子带(例如,最低子带,0到2kHz子带等)进行去噪(例如通过噪声抑制模块106)。可基于谐波分析而恢复第一子带的话音结构。第二,可相对于码本匹配经恢复(例如,经复原)第一子带以预测对应的第二子带(例如,2到4kHz)清晰话音包络。随后可通过将增益应用到经去噪第二子带频谱以使得所得包络近似(例如,尽可能地接近)经预测清晰话音码本包络来恢复经去噪第二子带包络。第三,第一和第二步骤的结果(例如,经恢复第一子带和经恢复第二子带)可进行汇集或嵌套以预测第三子带(例如,4到8kHz高频带)清晰话音包络。可将增益应用于经去噪第三子带话音信号以估算清晰话音信号的经预测包络(例如,尽可能接近地匹配经预测包络)。
由于最初依赖于嘈杂环境中最稳固的话音子带信息,所以这个方法可提供更稳定的结果,所述方法在反复步骤中可逐渐扩展到更高子带。由于每一经恢复子带获得更高的置信度且每一先前子带恢复的结果汇集在一起以提供预测下一子带的基础,所以获得了一种稳固的话音恢复方法。
在本文中揭示的系统和方法的一些配置中,经恢复子带可能不是由盲带宽扩展产生的合成信号。例如,一些盲带宽扩展方法依赖于人工激励信号以在没有可用原始话音信号或替代原始话音信号的频率范围中产生合成话音。然而,通过调整(例如,校正、定标等)包络域中的原始受损话音信号,本文中揭示的系统和方法的一些配置可恢复(例如,在一或多个子带中)受损的(例如,噪声受抑制的)话音信号。这不同于一些带宽扩展方法,所述方法依赖于人工激励信号以再合成话音(例如,从而在没有可用话音信号的频率范围中产生合成信号)。避免直接估计激励信号以产生合成话音可能是有利的,因为这可能由于话音参数估计误差而易于产生伪声,这是由于大部分盲带宽扩展应用针对精确音高/参数估计假设了高SNR条件。相反地,为了估计无伪声话音信号,经去噪信号(例如,噪声受抑制的话音信号108)可经由定标进行校正,以尝试匹配理想的清晰话音包络。恢复包络域中的话音在频谱能量方面可能更有效,和/或还可对可听伪声更不敏感。
在一些配置中,增强话音信号112可任选地被提供到任选的时域合成模块114。时域合成模块114可基于增强话音信号112而产生时域话音信号116。可(例如)通过针对每一帧应用频率/时间变换,且接着针对每一帧将经加权叠加操作应用到经变换信号来获得时域话音信号。
在一些配置中,增强话音信号112(和/或用于导出增强话音信号112的一或多个信号和/或参数可任选地被提供到任选的发射器118。发射器118可发射增强话音信号112和/或用于导出增强话音信号112的一或多个信号和/或参数。在一些配置中,信号和/或参数120中的一或多个可在发射之前进行量化。
图2是说明用于话音恢复的方法200的实例的流程图。方法200可由电子装置102执行。电子装置102可获得202嘈杂话音信号104。这可如上文结合图1所描述的那样实现。
电子装置102可抑制204嘈杂话音信号104中的噪声以产生噪声受抑制的话音信号108。这可如上文结合图1所描述的那样实现。噪声受抑制的话音信号108(和/或嘈杂话音信号104)可具有带宽,所述带宽具有一或多个子带(例如,两个、三个或更多个子带)。例如,带宽可包含一或多个子带,其中每一子带是所述带宽的一部分。在一些配置中,电子装置102可分析所述带宽中的第一子带,并基于所述分析而清除第一子带。用于分析和/或清除子带的方法的更特定实例结合图10给出。
电子装置102可反复地恢复206所述子带中的每一个子带。可基于所有先前经恢复子带而恢复所述子带中的每一个子带。这可如上文结合图1所描述的那样实现。在一些配置中,所有先前经恢复子带的频率可能比正在恢复的当前子带低。在所述带宽上反复地恢复206所述至少三个子带中的每一个子带可比在所述带宽上不基于经恢复子带而恢复噪声受抑制的话音信号108减少更多的失真。
在一些配置中,恢复所述子带中的每一个子带可包含汇集(举例来说,所述至少三个子带中的)两个或更多个先前经恢复子带。例如,汇集两个或更多个先前经恢复子带可包含组合(例如,级联)所述两个或更多个先前经恢复子带,其中经组合的经恢复子带(例如,经汇集子带)可以是预测另一子带的基础。电子装置102可恢复所述子带中的每一个子带。恢复所述子带中的每一个子带可包含汇集经恢复第一子带和经恢复第二子带。
经汇集的经恢复子带可用于预测一或多个额外子带。例如,经汇集的经恢复子带可用作搜索码本(其中码本扩展到经汇集子带外部的频率范围中)和/或将经汇集子带的带宽扩展到经汇集子带外部的频率范围的基础。在一些配置中,通过汇集所述至少三个子带中的先前经恢复第一子带和先前经恢复第二子带,电子装置102可恢复所述子带中的每一个子带。可基于经汇集的经恢复第一子带和经恢复第二子带而预测第三子带。在一些配置中,经汇集子带的频率范围可为连续的。
另外地或可替代地,每一先前经恢复子带可嵌套在任何先前经恢复子带和正在恢复的当前子带的组合频率范围内。例如,子带恢复的每一反复可基于任何先前经恢复子带而恢复子带,其中所有先前经恢复子带在先前经恢复子带和正在恢复的子带的组合频率范围内。因此,每一反复可扩大经恢复子带的总(例如,连续)频率范围。
反复地恢复206所述子带中的每一个子带的一个实例给出如下,其中带宽包含三个子带。第一,电子装置102可恢复所述三个子带中的第一子带以产生经恢复第一子带。第二,电子装置102可基于经恢复第一子带而恢复所述至少三个子带中的第二子带以产生经恢复第二子带。第三,电子装置102可基于经恢复第一子带和经恢复第二子带而恢复所述三个子带中的第三子带以产生经恢复第三子带。
在一些配置中,恢复206带宽中的第一子带可包含对第一子带的包络进行建模和对第一子带的相位进行建模。可基于所述包络和所述相位而调整第一子带。用于对包络进行建模和/或对相位进行建模的方法的更特定实例结合图11给出。
在一些配置中,反复地恢复206所述子带中的每一个子带可包含仅基于(带宽的)第一子带而搜索码本以确定选中条目。码本的条目可跨越第一子带和第二子带(例如,的频率范围)的带宽。第一子带和第二子带可以是整个带宽的子带,并且第一子带和第二子带的跨距可以是整个带宽的子带宽(例如,子频率范围)。可基于选中条目而调整噪声受抑制的话音信号的第二子带。用于搜索码本和调整子带的方法的更特定实例结合图13给出。
在一些配置中,反复地恢复206所述子带中的每一个子带可包含确定建模置信度和基于所述建模置信度而确定定标因数。可基于所述定标因数而混合对应于所述子带中的一或多个子带的包络。用于确定建模置信度、确定定标因数和/或混合包络的方法的更特定实例结合图13和图15中的一或多个图给出。
在一些配置中,反复地恢复206所述子带中的每一个子带可包含检测有声帧的麦克风电平以及检测有声帧的经处理话音电平。可基于所述麦克风电平和所述经处理话音电平而确定增益。可在所述带宽上将增益应用于经处理话音信号。用于确定麦克风电平、确定经处理话音电平、确定增益和/或应用增益的方法的更特定实例结合图17给出。
在一些配置中,电子装置102可提供增强话音信号112。这可如上文结合图1所描述的那样实现。例如,电子装置102可基于增强话音信号112而产生时域话音信号116。另外地或可替代地,电子装置102可发射增强话音信号112和/或用于导出增强话音信号112的一或多个信号和/或参数120。
图3是说明其中可实施用于话音恢复的系统和方法的电子装置302的更特定实例的框图。结合图3描述的电子装置302可以是结合图1描述的电子装置102的一个实例。
本文中揭示的系统和方法的一些配置可遵循单通道逐频带方法,所述方法通过谐波分析和话音建模而去除残余噪声和/或重构话音包络,其中所述方法不取决于空间信息和/或噪声估计(例如,根据空间处理的噪声估计)。在一些配置中,具有两个阶段的逐频带处理可在噪声抑制处理之后执行。
电子装置302可包含噪声抑制模块306、任选的话音清除模块322和/或反复子带恢复模块310。电子装置302可获得嘈杂话音信号304。例如,这可如结合图1所描述的那样实现。嘈杂话音信号304(例如,嘈杂话音信号304的一或多个帧)可被提供到噪声抑制模块306和反复子带恢复模块310。
噪声抑制模块306可抑制嘈杂话音信号304中的噪声。例如,这可如结合图1所描述的那样实现。噪声抑制模块306可产生噪声受抑制的话音信号308。噪声受抑制的话音信号308可具有包含至少三个子带(例如,三个或更多个子带)的带宽。例如,噪声受抑制的话音信号308的带宽可在0到8kHz的范围内,其中第一子带在0到2kHz范围内,第二子带在2到4kHz 4kHz范围内且第三子带在4到8kHz范围内。如上文所提到,可利用其它带宽和/或子带范围。尽管噪声抑制模块306可抑制嘈杂话音信号中的噪声,但是所得噪声受抑制的话音信号308仍可包含一些残余噪声和/或由于噪声抑制而可包含受损话音信号。在噪声抑制之后进一步去除噪声和/或增强所得噪声受抑制的话音信号308可为有益的。
噪声受抑制的话音信号308可被提供到任选的话音清除模块322。话音清除模块322可包含第一子带话音分析模块324和/或第一子带残余噪声清除模块326。在一些配置中,通过话音清除模块322执行的操作可被视为用于改进噪声受抑制的话音信号308的处理的(两个阶段中的)第一阶段。例如,这个第一阶段(其可为任选的)可包含第一子带(例如,在0到2kHz范围内的子带)的谐波分析和/或话音清除。
噪声受抑制的话音信号308可被提供到第一子带话音分析模块324。第一子带话音分析模块324可分析第一子带。例如,第一子带话音分析模块324可基于噪声受抑制的话音信号308的第一子带而执行峰值分析(例如,挑选峰值和/或细化峰值)和谐波分析(例如,计算调和性和/或选择音高候选者)中的一或多个。用于第一子带话音分析的方法的一或多个实例可结合图10、20到28和37到38中的一或多个图给出。
第一子带残余噪声清除模块326可从噪声受抑制的话音信号308的第一子带去除一或多个非话音峰值、可清除话音沟谷(例如,话音峰值之间的区域)和/或可白化非话音帧。用于第一子带残余噪声清除的方法的一或多个实例可结合图10、20到28和37到38中的一或多个图给出。执行第一子带话音分析和/或第一子带残余噪声清除可产生噪声受抑制的话音信号308的经清除第一子带。经清除第一子带(以及例如噪声受抑制的话音信号308的其余带宽)可被提供到反复子带恢复模块310(例如,第一子带恢复模块328)。
反复子带恢复模块310可恢复噪声受抑制的话音信号308的子带中的每一个子带。反复子带恢复模块310可包含第一子带恢复模块328、第二子带恢复模块330、第三子带恢复模块332和/或均衡模块334。
在一些配置中,第一子带恢复模块328可通过执行话音增浓(例如,对于0到2kHz的低频带话音增浓)而恢复第一子带。用于话音增浓的方法的更特定实例结合图11给出。
在一些配置中,第二子带恢复模块330可通过执行话音防消音(例如,对于2到4kHz的低频带话音防消音)而恢复第二子带。用于话音防消音的方法的更特定实例结合图13给出。
在一些配置中,第三子带恢复模块332可通过执行包络调整(例如,对于4到8kHz的高频带包络校正)而恢复第三子带。用于包络调整的方法的更特定实例结合图15给出。
在一些配置中,均衡模块334可均衡带宽(例如,对于0到8kHz执行话音电平均衡)。用于带宽均衡的方法的更特定实例结合图17给出。
应注意,在一些配置中,反复子带恢复模块310(例如,子带话音恢复模块)的操作中的一或多个操作可被视为用于改进噪声受抑制的话音信号308的处理的第二阶段(例如,对于0到8kHz的话音包络恢复)。反复子带恢复模块310可产生增强话音信号312。
图4是说明根据本文中揭示的系统和方法的在话音包络恢复之前和之后的话音帧的一个实例的曲线图。所述曲线图以信号量值436(以分贝(dB)为单位)相对于频率438(以赫兹(Hz)为单位)的形式说明。明确地说,所述曲线图说明受损话音446(例如,噪声受抑制的话音信号)的曲线和经恢复话音448的曲线。如图4中所说明,话音增浓440、防消音442和包络校正444可改进话音信号结构。
本文中揭示的系统和方法的一些益处给出如下。在本文中揭示的系统和方法的一些配置中,建模方法独立于空间信息和噪声参考估计,所述噪声参考估计可能不可靠(例如,当装置处于不是最佳的说话位置和/或在较差的SNR情形中时)。话音包络恢复可从低频率到高频率以逐频带方式实施。相比于直接恢复整个频带包络,逐渐匹配清晰话音包络可能更加可靠。因此,恢复可开始于更可靠的频谱子带(例如,0到2kHz),其中可获得显著谐波和/或峰值内容。这可后跟着话音清除和增浓440。话音清除和增浓440可首先在最低子带中执行。基于经恢复第一子带话音包络,可利用基于码本的方法对第二子带(例如,2到4kHz)包络进行建模,以便恢复由比第一子带(例如,0到2kHz)中的子带SNR条件更差的子带SNR条件导致的经消音话音。因为SNR在第三子带(例如,4到8kHz)中可能变得更糟,尤其是在有爆声和音乐噪声的情况中,第三(例如,高)子带话音包络可借助于经复原低频带(例如,第一子带和第二子带,例如0到4kHz)话音而恢复和调整(例如,大致匹配)到清晰话音包络。定量评估已经显示出使用话音包络恢复方法相比另一方法的显著改进。图5到9说明对应于结合图3描述的操作中的一些操作的噪声受抑制的话音频谱的改进。
图5是说明在话音清除之后的经处理话音频谱图的实例的曲线图。所述曲线图以频率(Hz)538相对于时间(小时、分钟和秒(hms))550的形式说明。确切地说,图5说明用于6dB爆声噪声情况的0到2kHz子带中的第一阶段话音清除552。这可以是由结合图3描述的第一子带残余噪声清除产生的信号的一个实例。
图6是说明在第一子带恢复之后的经处理话音频谱图的实例的曲线图。所述曲线图以频率(Hz)638相对于时间(hms)650的形式说明。确切地说,图6说明用于6dB爆声噪声情况的0到2kHz子带中的第二阶段话音增浓654。这可以是由结合图3描述的第一子带恢复产生的信号的一个实例。
图7是说明在第二子带恢复之后的经处理话音频谱图的实例的曲线图。所述曲线图以频率(Hz)738相对于时间(hms)750的形式说明。确切地说,图7说明用于6dB爆声噪声情况的2到4kHz子带中的第二阶段话音防消音。这可以是由结合图3描述的第二子带恢复756产生的信号的一个实例。
图8是说明在第三子带恢复之后的经处理话音频谱图的实例的曲线图。所述曲线图以频率(Hz)838相对于时间(hms)850的形式说明。确切地说,图8说明用于6dB爆声噪声情况的4到8kHz子带中的第二阶段高频带包络调整(例如,校正)858。这可以是由结合图3描述的第三子带恢复产生的信号的一个实例。
图9是说明在第三子带恢复之后的经处理话音频谱图的实例的曲线图。所述曲线图以频率(Hz)938相对于时间(hms)950的形式说明。确切地说,图8说明用于6dB爆声噪声情况的0到8kHz带宽中的第二阶段话音电平均衡960。这可以是由结合图3描述的均衡产生的信号的一个实例。
图10是说明用于谐波分析和话音清除的方法的更特定实例的框图。在一些配置中,结合图10描述的模块中的一或多个模块可实施在结合图3描述的话音清除模块322中。例如,图10可提供用于第一子带话音分析和第一子带残余噪声清除的方法的更特定实例。在一些配置中,结合图10描述的操作可被视为第一阶段操作。
电子装置302可执行峰值分析1068。例如,话音频谱1098(例如,噪声受抑制的话音信号308)可被提供到峰值挑选模块1062。峰值挑选模块1062可挑选(例如,确定、选择)话音频谱1098中的显著峰值。峰值细化模块1064可基于峰值属性(例如,量值、频率、相位、质量中心和群组延迟)而细化峰值。在一些配置中,可执行所述细化以细化峰值到超过快速傅里叶变换(FFT)分辨率。峰值细化模块1064可产生峰值集1066,其可被提供到调和性模块1070、短期电平模块1082和话音清除模块1092。
电子装置302可执行谐波分析1084。调和性模块1070可计算符合每一音高假设的频谱峰值的程度(例如,调和性hp)和/或可将具有高调和性的音高假设选择作为音高候选者。调和性可被提供到完整性模块1072和音高(例如,基频f0)分辨模块1076。
针对每一音高(例如,f0)候选者,完整性模块1072可计算完整性度量(例如,cp)。所述完整性度量可指示话音分音在频谱中的存在程度。所述完整性度量可被提供到音高分辨模块1076。
音高分辨模块1076可基于一或多个特征(例如,调和性、完整性度量和/或上一个帧音高1074(例如,f0))而分辨音高候选者。明确地说,音高分辨模块1076可基于调和性、完整性度量和/或上一个帧音高1074而选择符合一或多个条件的音高1080。选中音高1080可被提供到短期电平模块1082。音高分辨模块1076还可标记或标注锚帧。锚帧可以是呈现高调和性(例如,大于调和性阈值的调和性)和完整性(例如,大于完整性阈值的完整性)的帧。锚帧标签1078可被提供到长期电平模块1086。短期电平模块1082可根据谐波话音峰值1066而确定短期时域峰值电平。短期时域峰值电平可被提供到长期电平模块1086。
电子装置302可执行话音分段1090。明确地说,长期电平模块1086可经由锚帧而将长期电平确定为平滑化短期电平。长期电平可被提供到话音状态模块1088。话音状态模块1088可确定任何话音状态过渡(例如在有声、有声开始、有声截止和/或无声/非话音之间)。例如,话音状态模块1088可操作为通过长期电平和锚帧标签1078驱动的有限状态机。话音状态模块1088可向话音清除模块1092指示话音状态。
电子装置302可执行话音清除1094。明确地说,话音清除模块1092可去除任何非话音峰值、清理一或多个话音沟谷和/或白化一或多个非话音帧。话音清除模块1092可产生经清除话音峰值集1096。应注意,话音清除模块1092可实施为结合图3描述的话音清除模块322的元件或组件。
图11是说明用于第一子带恢复的方法的更特定实例的框图。例如,结合图11描述的模块中的一或多个模块可实施在结合图3描述的第一子带恢复模块328中。在一些配置中,第一子带恢复可以是低频带(例如,0到2kHz)话音增浓和/或可被视为第二阶段话音包络恢复处理的一部分。
电子装置302可执行包络建模1107(例如,对话音频谱包络进行建模)。经清除话音峰值集1196(例如,从如结合图3所描述的第一子带残余噪声清除模块326和/或从如结合图10所描述的话音清除模块1092提供)可被提供到单极点包络模块1101和离散全极点(DAP)包络模块1103。单极点包络模块1101可使用现有话音分音执行单极点建模以产生回退包络。DAP包络模块1103可基于从现有分音检测到的话音共振峰而执行DAP建模。DAP建模可受单极点建模保护以用于稳定性。合并包络1105模块可合并单极点包络和DAP包络以产生合并包络。
电子装置302可执行相位建模1113或话音分音相位建模。例如,合并包络可被提供到帧间相位模块1109。帧间相位模块1109可执行帧间相位建模以约束帧到帧的话音波连续性。此外,帧内相位模块1111可执行帧内相位建模以加强横跨话音分音的相干性。
电子装置302还可执行话音频谱再合成1117。明确地说,话音分音恢复模块1115可将标准话音峰值或现有话音峰值用作模板以利用经重构量值和相位恢复缺失分音。因此,话音分音恢复模块1115可产生经恢复话音频谱1119(例如,经恢复第一子带)。
应注意,在一些配置中,图10到11的模块、功能、程序、结构和/或元件中的一或多个的额外实例可结合图20到44中的一或多个图提供。例如,在一些配置中,根据本文中揭示的系统和方法,结合图20到44中的一或多个图描述的模块、功能、程序、结构和/或元件中的一或多个可作为结合图10到11中的一或多个描述的模块、功能、程序、结构和/或元件中的一或多个的增补或替代实施。
图12A包含说明第一子带恢复的实例的曲线图A 1221a。所述曲线图以振幅(以分贝(dB)为单位)1236相对于频率(Hz)1238的形式说明。确切地说曲线图A 1221a说明频域中的经清除噪声受抑制的话音信号1223(例如,经清除噪声受抑制的话音信号的FFT)、经清除话音峰值集1225、DAP包络1229和经恢复第一子带(例如,再合成信号1227)。如曲线图A1221a中所说明,来自原始话音信号的一些峰值(例如,一个在大致460Hz处,且若干个在600Hz和1200Hz之间)由于噪声遮蔽和/或噪声抑制而可能已经丢失或破坏。如结合图11所描述,电子装置302可基于经清除话音峰值集1225而产生DAP包络1229。DAP包络可用于恢复(例如,再合成)缺失峰值(例如,缺失谐波分音)。经恢复第一子带信号(例如,再合成信号1227)可用于恢复一或多个额外子带。
图12B说明用于第一子带的经清除话音和经恢复话音的频谱图的实例。明确地说,图12B包含曲线图B 1221b和曲线图C 1221c。曲线图B 1221b以频率(Hz)1238b相对于时间(hms)1250b的形式说明经清除(第一子带)话音的实例。举例来说,曲线图B 1221b中所说明的清晰话音可以是在如结合图3和10中的一或多个图所描述的第一子带残余噪声清除之后的话音信号的实例。尽管此时已经去除许多噪声,但是还可观察到有一些谐波分音已经丢失或破坏。曲线图C 1221c以频率(Hz)1238c相对于时间(hms)1250c的形式说明经恢复(第一子带)话音的实例。举例来说,曲线图C 1221c中所说明的经恢复话音可以是在如结合图3和11中的一或多个图所描述的第一子带恢复之后的话音信号的实例。如曲线图C 1221c中所说明,已经恢复多个缺失谐波分音或峰值。
图13是说明用于第二子带恢复的方法的更特定实例的框图。例如,结合图13描述的模块中的一或多个模块可实施在结合图3描述的第二子带恢复模块330中。在一些配置中,第二子带恢复可以是低频带(例如,2到4kHz)话音防消音和/或可被视为第二阶段话音包络恢复处理的一部分。
电子装置302可执行话音包络建模1347(例如,针对第二子带,例如0到4kHz)。经恢复第一子带(例加,话音增浓输出1331)可被提供到输入帧模块1333。输入帧模块可组合经恢复第一子带与一或多个子带(例如,第二子带和/或第三子带)以产生输入(例如,“输入”到第二子带恢复模块330中)信号(例如,Xin)。例如,经恢复第一子带(例如,0到2kHz)可与第二子带(例如,2到4kHz)组合以产生组合子带信号(例如,Xin_first_second),其跨越第一子带和第二子带两者。举例来说,(输入到第二子带恢复模块330中的)输入帧可以是其第一子带(例如,0到2kHz)进行噪声抑制和恢复且其第二子带(例如,2到4kHz)进行噪声抑制但不进行恢复的输入信号。在一些配置中,组合经恢复第一子带和第二子带可包含级联经恢复第一子带与第二子带。
经恢复第一子带和第二子带(例如,Xin_first_second)可被提供到特征提取模块1335。特征提取模块1335可估计经恢复第一子带的Mel频谱(例如,Xin_mel_first)(例如,0到2kHz,14Mel频带)和合并信号的Mel频谱(例如,Xin_mel_first_second,0到4kHz,20Mel频带)。例如,Xin_mel_first_second可基于与第二子带级联的经恢复第一子带。
在一些配置中,电子装置302可执行码本1339训练。例如,电子装置302可使用Mel频谱而联合训练第一子带(例如,0到2kHz)码本和组合子带(例如,0到4kHz)码本。在一些配置中,第一子带码本可以是组合子带码本1339的子集。例如,组合子带码本1339的条目可跨越第一子带和第二子带的带宽(例如,频率范围)。码本训练可利用数据库(例如,五种语言下的说本族语的3名男性和3女性)。另外地或可替代地,码本训练可通过向量量化(例如,Linde-Buzo-Gray(LBG)算法))而离线执行。
第一子带Mel频谱(例如,Xin_mel_first)可被提供到码本搜索模块1337。码本搜索模块1337可搜索组合子带码本1339。例如,码本搜索模块1337可仅基于经恢复第一子带而搜索组合子带码本1339。换句话说,可通过试图找到最接近于经恢复第一子带的一或多个(例如,N个)最接近码本条目(利用它们对应的索引)来搜索码本1339。举例来说,码本搜索模块1337可寻找前N个最接近码本候选者索引。
在一些配置中,搜索组合子带码本1339可基于距离度量,所述距离度量使用基于欧几里得距离的对数频谱偏离。例如,可使用基于欧几里得距离的均方根(RMS)对数频谱偏离而确定第一子带距离度量(例如,dfirst,关于码本1339中的第一子带范围的距离和/或失真度量(例如,0到2kHz的第一子带的d0-2k))。这可根据以下等式实现:
应注意,#first_subband_mel_bands是对应于第一子带的Mel频带的数目,first_subband_mel_bands是对应于第一子带的Mel频带,Xin_mel_first是(经由经恢复第一子带(例如,0到2kHz)观察到的Xin的Mel频谱,且Xcodebook是码本1339条目。所得N个最接近索引可被提供到特征估计模块1341。
特征估计模块1341可执行频谱特征估计。例如,特征估计模块1341可通过计算最接近N个码本条目的加权和来估计组合子带(例如,0到4kHz)Mel频谱。加权可与输入特征到第一子带(例如,0到2kHz)码本条目的反距离成比例。在一些配置中,特征估计模块1341可根据来自第一子带(例如,0到2kHz)码本(例如,Xin_mel)的候选者而找到N个对应的组合子带(例如,0到4kHz)码本1339索引。这可能是用于基于第一经恢复子带而预测第二子带的一个方法。
来自组合子带(例如,0到4kHz)码本1339的经估计Mel频带(例如,预测Mel频谱Xest_mel_first_second)可被提供到频谱包络估计模块1345。频谱包络估计模块1345可通过插入经估计Mel频谱向量来估计或预测组合子带(例如,0到4kHz)频谱包络(例如,Xest_env)。观察到的话音包络(例如,经由组合子带(例如,0到4kHz)的Xin_env)和经估计或经预测话音包络(例如,Xest_env)可被提供到频谱失真分析模块1349。应注意,观察到的话音包络(例如,Xin_env)可基于输入帧1333(例如,Xin),所述输入帧1333可包含与第二子带级联的经恢复第一子带。
电子装置302可执行失真分析1351。例如,频谱失真分析模块1349可确定频谱失真和/或建模置信度度量。第一子带和/或第二子带(例如,0到4kHz)的频谱包络失真可如下。第一子带(例如,0到2kHz)频谱失真(例如,dfirst)测量建模误差。第二子带(例如,2到4kHz)频谱失真(例如,dsecond)测量当前帧的消音度。例如,第二子带的频谱失真度量(例如,2到4kHz的第二子带的d2-4k)表明当前帧的失真和/或消音程度。在一些配置中,第二子带频谱失真可根据以下等式确定:应注意,#second_subband_FFT_bins是对应于第二子带的FFT仓的数目,且second_subband_FFT_bins是对应于第二子带的FFT仓。
在一些配置中,频谱失真分析模块1349可确定(例如,计算)建模置信度。例如,建模置信度可表达为conf=y(dfirst,dsecond)(例如,用于0到2kHz的第一子带和2到4kHz的第二子带的conf=y(d0-2k,d24k))。建模置信度可有助于在防消音阶段中做出决定。建模置信度可表明所述模型与清晰话音模型匹配的精确程度。在一些配置中,建模置信度可根据以下等式确定:conf=(thresholddist-dsecond)/thresholddist,其中thresholddist是将失真度量转换成置信度度量的阈值(例如,调谐参数),其为正值。
电子装置302可执行防消音1355。例如,Xin_env、Xest_env和建模置信度可被提供到话音防消音模块1353。话音防消音模块1353可执行第二子带(例如,2到4kHz)的防消音。例如,话音防消音模块1353可计算第二子带(例如,2到4kHz)的包络增益。在一些配置中,第二子带包络增益可根据以下等式计算:其中k是仓索引。
如果建模置信度大于阈值(例如,conf>threshold),那么话音防消音模块1353可将包络增益应用到经消音量值频谱。例如,第二子带恢复输出帧(例如,Xout_second)的第二子带(例如,2到4kHz)可根据以下等式计算:其中.*是逐个元素相乘。举例来说,包络增益可根据以下等式而应用于输入帧1333的第二子带:话音防消音模块可向输出帧模块1357提供经恢复第二子带(例如,Xout_second)。
输出帧模块1357可在带宽上产生输出帧。例如,输出帧模块1357可组合经恢复第一子带(例如,0到2kHz)、经恢复第二子带(例如,2到4kHz)和第三子带(例如,4到8kHz)以在所述带宽(例如,0到8kHz)上产生输出帧(例如,Xout)。输出(例如,从第二子带恢复模块330“输出”)帧可被提供到高频带话音包络调整模块1358(例如,第三子带恢复模块332)。
图14是说明根据本文中揭示的系统和方法的在话音防消音之前和之后的话音的一个实例的曲线图。所述曲线图以信号量值1436(以分贝(dB)为单位)相对于频率1438(以赫兹(Hz)为单位)的形式说明。明确地说,所述曲线图说明在6dB爆声噪声情况中的在防消音之前的话音的曲线1459和在防消音之后的话音的曲线1461。如图14中所说明,话音防消音可改进话音信号结构。
图15是说明用于第三子带恢复的方法的更特定实例的框图。例如,结合图15描述的模块中的一或多个模块可实施在结合图3描述的第三子带恢复模块332中。在一些配置中,第三子带恢复可以是高频带(例如,2到4kHz)话音包络调整(例如,校正)和/或可被视为第二阶段话音包络恢复处理的一部分。
电子装置302可执行第三子带(例如,4到8kHz)的话音包络建模1573。第二子带恢复输出(例如,话音防消音输出1563)可被提供到输入(例如,“输入”到第三子带恢复模块332)帧模块1565。还应注意,根据第二子带恢复处理的建模置信度(例如,如结合图13所描述的建模置信度)可被提供到包络混合模块1575。输入帧模块1565可向一或多个模块提供输入帧(例如,Xin_first_second_third)的部分。例如,输入帧模块1565可向带宽扩展模块1567和输出宽带频谱模块1581提供第一子带和第二子带(例如,Xin_first_second)。输入帧模块1565还可向特征提取模块1569提供第三子带(例如,Xin_third)。
带宽扩展模块1567可对第一子带和第二子带执行带宽扩展。例如,带宽扩展模块1567可应用输入低频带频谱(例如,Xin_first_second,0到4kHz)以预测高频带频谱(例如,Xin_third,4到8kHz)。在一些配置中,带宽扩展模块1567可执行如结合图46所描述的带宽扩展。带宽扩展模块1567可产生对应于第三子带的扩展信号(例如,Xbe,4到8kHz)。扩展信号可被提供到特征提取模块1569。
特征提取模块1569可基于第三子带(例如,Xin_third)和扩展信号(例如,Xbe)而执行特征提取。例如,特征提取模块1569可估计输入第三子带和扩展信号(例如,经带宽扩展信号)的第三子带(例如,高频带)Mel频谱。特征提取模块1569可产生第三子带Mel频谱(例如,Xin_mel)和经估计或经预测第三子带Mel频谱(例如,Xest_mel)。第三子带Mel频谱(例如,Xin_mel)和经估计或经预测第三子带Mel频谱(例如,Xest_mel)可被提供到包络估计模块1571。
包络估计模块1571可通过插入Mel频谱向量来估计对应于第三子带输入(例如,Xin_env_third)和/或扩展信号(例如,Xbe_env)的频谱包络。频谱包络可被提供到包络混合模块1575。
电子装置302可执行话音包络混合1577。例如,包络混合模块1575可混合对应于第三子带输入(例如,Xin_env_third)和/或扩展信号(例如,Xbe_env,经估计高频带话音包络)的频谱包络。所述混合可根据来自先前阶段(例如,第二子带恢复模块330)的建模置信度而执行。例如,电子装置302可基于建模置信度而确定定标因数。在一些配置中,定标因数可根据以下等式确定:scaling=α*conf,其中0<α<1。α可以是调谐参数。在一些配置中,所述混合可根据以下等式执行:Xmix_env=scaling*Xbe_env+(1-scaling)*Xin_env_third,其中Xmix_env是混合包络,scaling是与建模置信度成比例的定标因数。混合包络(例如,Xmix_env)和第三子带输入包络(例如,Xin_env_third)可被提供到包络调整模块1579。
电子装置302可执行第三子带(例如,4到8kHz)的话音包络校正1585。例如,包络调整模块1579可基于第三子带包络增益而调整(例如,校正)第三子带。在一些配置中,第三子带包络增益可根据以下等式计算:其中k是仓索引。包络调整模块1579可将增益应用于输入频谱的第三子带。例如,包络调整模块1579可根据以下等式应用所述增益:包络调整模块1579可向输出宽带频谱模块1581提供经恢复第三子带(例如,Xout_third,经调整第三子带信号)。
输出宽带频谱模块1581可组合经恢复第一子带、第二子带和经恢复第三子带以产生输出(例如,从第三子带恢复模块332“输出”)信号(例如,Xout)。输出信号可被提供到话音电平均衡模块1583(例如,均衡模块334)。
应注意,在一些配置中,带宽扩展模块1567可产生和/或利用激励信号。例如,对于第三子带(例如,4到8kHz)的恢复,结合图46描述的带宽扩展方法可执行激励信号扩展过程以再合成高频带(例如,4到8kHz)话音。然而,如图15中所说明,从再合成高频带(例如,4到8kHz)话音信号中提取频谱特征,并估计频谱包络。接着,原始受损(例如,噪声受抑制的)信号在包络域中进行恢复。任何人工激励信号提供的信息可在这一程序期间被舍弃。因此,激励信号自身并不应用在第三子带的最终话音包络恢复(例如,包络调整、包络校正等)中。例如,激励信号或基于所述激励信号的再合成信号不是经恢复第三子带。相反,经恢复第三子带可以是原始受损话音信号(例如,第三子带中的噪声受抑制的信号)的经调整(例如,已按比例调整、经校正、已应用增益等)形式。还应注意,尽管在本文中揭示的系统和方法的一些配置中可利用带宽扩展方法,但是经估计人工激励信号对最终第三子带话音包络恢复(例如,包络校正1585)来说可能不是必要的。
图16是说明根据本文中揭示的系统和方法的在话音包络调整之前和之后的话音的一个实例的曲线图。所述曲线图以信号量值1636(以分贝(dB)为单位)相对于频率1638(以赫兹(Hz)为单位)的形式说明。明确地说,所述曲线图说明在6dB爆声噪声情况中的在包络调整之前的话音的曲线1687和在包络校正之后的话音的曲线1689。如图16中所说明,话音包络调整可改进话音信号结构。
图17是说明用于话音电平均衡的方法的更特定实例的框图。例如,结合图17描述的模块中的一或多个模块可实施在结合图3描述的均衡模块334中。在一些配置中,话音电平均衡可在所述带宽(例如,0到8kHz)上执行和/或可被视为第二阶段话音包络恢复处理的一部分。
主要麦克风电平模块1791可检测有声帧的主要麦克风电平。例如,可检测单个输入麦克风的电平。经处理话音电平模块1793可检测有声帧的经处理话音电平。经处理话音电平可以是来自第三子带恢复模块332的信号(例如,0到8kHz)输出。主要麦克风电平和经处理话音电平可被提供到增益平滑模块1795。
增益平滑模块1795可利用增益限制在所有帧中执行增益平滑。例如,增益平滑模块1795可将增益应用到经处理话音频谱。
平滑话音频谱可被提供到电平均衡模块1797。电平均衡模块1797可均衡平滑话音频谱以产生均衡话音。
图18包含说明根据本文中揭示的系统和方法的在话音均衡之前和之后的话音的实例的曲线图1821a到1821b。曲线图B 1821b以信号量值1836(以分贝(dB)为单位)相对于频率1838(以赫兹(Hz)为单位)的形式说明。明确地说,曲线图B 1821说明在均衡之前的经处理话音的曲线1802和在均衡之后的话音的曲线1899。曲线图A 1821a以振幅1804a到1804b相对于时间(hms)1806的形式说明。曲线图A 1821a中的上部曲线是在话音均衡之前的话音波形的实例。曲线图A 1821a中的下部曲线是在话音均衡之后的话音波形的实例。应注意,振幅A 1804a和振幅B 1804b的单元是经归一化的线性值(例如,最大=1,最小=-1)。如图18中所说明,话音均衡可改进话音信号结构。
图19包含说明本文中揭示的系统和方法的性能的实例的曲线图1921a到1921b。曲线图A 1921a以针对各种噪声类型1908a的S平均意见得分(SMOS)1910的形式说明。SMOS是3QUEST(电信话音质量的3重评估)的客观评估的一个实例。确切地说,曲线图A 1921a说明用于最佳噪声抑制、在向外60度(例如,“out60°”)握持位置处的噪声抑制、根据本文中揭示的系统和方法的最佳恢复和根据本文中揭示的系统和方法的在向外60度(例如,“out60°”)握持位置处的恢复的SMOS。如曲线图A 1921a中所说明,SMOS 1910与恢复几乎相同。
曲线图B 1921b以针对各种噪声类型1908b的N平均意见得分(NMOS)1912的形式说明。NMOS是3QUEST的客观评估的另一实例。确切地说,曲线图B 1921b说明用于最佳噪声抑制、次最佳噪声抑制、根据本文中揭示的系统和方法的最佳恢复和根据本文中揭示的系统和方法的次最佳恢复的NMOS 1912。如曲线图B 1921b中所说明,NMOS 1912示出了恢复的很大改进。
本文中所描述的话音包络恢复的进一步评估给出如下。表(1)到(4)说明仅经由噪声抑制的本文中所描述的话音包络恢复的增益。表(1)说明其中智能手机位于扬声器的前方的第一测试用例。
表(1)
表(2)说明其中智能手机位于平坦表面上(例如,桌子上)的第一测试用例。
表(2)
表(3)说明其中智能手机位于扬声器的前方的第二测试用例。
表(3)
表(4)说明其中智能手机位于平坦表面上(例如,桌子上)的第二测试用例。
表(4)
如表(1)到(4)中所说明,如本文中所描述的恢复仅经由噪声抑制而提供显著增益。
图20是说明孤峰抑制器2020的一个实例的框图。在一些配置中,孤峰抑制器2020可实施在本文中所描述的电子装置102、302中的一或多个中。明确地说,图20提供抑制孤峰的观察结果和解决方案。
孤峰抑制器2020可执行孤峰抑制。例如,基于滤波的噪声抑制系统通常产生音调孤峰。这些音调孤峰可能听起来不自然且令人讨厌。音调孤峰可由对非静态噪声的噪声低估、麦克风增益不匹配、声学室条件等导致。孤峰抑制器2020可包含嘈杂帧检测模块2054、峰值搜索模块2056、峰值孤立度量计算模块2058、状态变量更新模块2060、抑制增益确定模块2062和/或峰值抑制模块2064。
嘈杂帧检测模块2054可基于音频信号2016(例如,噪声抑制输入)和噪声受抑制的音频信号2030(例如,噪声抑制输出)而检测嘈杂帧。明确地说,可观察到音调孤峰通常产生于其中主要是噪声的帧中。因此,噪声受抑制的音频信号2030(例如,噪声抑制输出)能量和音频信号2016(例如,输入)能量之间的比率可用于区分含有孤峰的帧与话音帧。例如,嘈杂帧检测模块2054可计算噪声受抑制的音频信号2030和音频信号2016之间的能量比率。能量比率可与阈值相比较。在一些配置中,具有低于所述阈值的能量比率的帧可表示为嘈杂帧。
峰值搜索模块2056可探索峰值(任选地,在检测为嘈杂的帧中)。例如,峰值搜索模块2056可探索噪声受抑制的音频信号2030的频谱中的局部最大值。
峰值孤立度量计算模块2058可基于通过峰值搜索模块2056检测到的任何峰值而确定一或多个峰值孤立度量。孤峰的相邻仓通常具有极低能量。因此,比较峰值能量和相邻仓能量可用于检测孤峰。例如,峰值孤立度量计算模块2058可计算测量峰值孤立度的一或多个度量。在一些配置中,峰值孤立度量计算模块2058可计算第一峰值孤立度量(例如,peak_Q1)和第二峰值孤立度量(例如,peak_Q2)。
举例来说,针对孤峰抑制可限定两个峰值孤立度量。第一峰值孤立度量可定义为在一些配置中,peak_energy(例如,用于帧t和频率仓f)可基于在整个峰值范围(例如,其中限定峰值的样本范围)中的样本的平方和而确定。此peak_energy可除以帧(例如,当前帧帧t)的neighboring_bin_energy的最大值。第一峰值孤立度量peak_Q1可在帧内进行计算。在概念上,这可被视为与滤波设计中的“Q因数”类似。尽管当相邻仓的范围足够宽时自然话音信号维持低值,但是孤峰可具有高值。在一些配置中,抑制增益可被确定为与peak_Q1成反比。
第二峰值孤立度量可定义为第二峰值孤立度量peak_Q2可在前一帧(t-1)和当前帧(t)之间进行计算。这可用于检测孤峰的开始。
在一些情况下,在孤峰产生(或“出生”)之后,它们持续一或多个帧。峰值可经由状态更新进行跟踪。状态变量更新模块2060可基于峰值孤立度量而更新孤峰状态。例如,状态变量更新模块2060可基于峰值孤立度量而确定状态。在一些配置中,状态变量更新模块2060可确定孤峰状态是空闲、开始还是持续。开始状态可指示已检测到孤峰的开始。持续状态可指示孤峰正在继续。空闲状态可指示未检测到孤峰。
抑制增益确定模块2062可确定用于抑制孤峰的抑制增益。例如,抑制增益可以是用于抑制孤峰的抑制程度。在一些配置中,抑制增益确定模块2062可将抑制增益确定为与峰值孤立度量(例如,第一峰值孤立度量或peak_Q1)成反比。当状态变量更新模块2060指示开始或持续(例如)时,抑制增益确定模块2062可进行操作。
峰值抑制模块2064可抑制(例如,衰减、减少、减去、去除等)噪声受抑制的音频信号2030(例如,噪声抑制输出)中的孤峰。例如,峰值抑制模块2064可应用通过抑制增益确定模块2062确定的抑制增益。孤峰抑制器2020的输出可以是孤峰受抑制的音频信号(例如,具有一或多个受抑制孤峰的音频信号)。额外细节提供如下。
图21是说明孤峰的一个实例的曲线图。明确地说,图21包含信号频谱的曲线图,其中电平轴以频率(Hz)2104的形式说明,且垂直轴以单位为分贝(dB)的振幅2176的形式说明。确切地说,图21说明孤峰范围2178和相邻仓范围2180,其可用于确定(例如,计算)结合图20描述的孤立峰值度量中的一或多个。例如,峰值度量孤立度量计算模块2058可基于峰值范围2178和相邻仓范围2180而确定峰值孤立度量。
图22是说明用于孤峰检测的方法2200的一个配置的流程图。方法2200可通过结合图20描述的孤峰抑制器2020执行。孤峰检测可基于孤峰状态更新,其可用于孤峰抑制。在图22所说明的配置中,每一频率仓具有对应的状态变量,所述状态变量具有三个状态:“空闲”、“开始”和“持续”。状态基于第一峰值孤立度量(例如,peak_Q1)和第二峰值孤立度量(例如,peak_Q2)而更新。
孤峰抑制器2020可执行2202峰值搜索。这可如上文结合图20所描述的那样实现。例如,孤峰抑制器2020可探索噪声受抑制的音频信号2030的频谱中的局部最大值。在一些配置中,可针对嘈杂帧执行峰值搜索。
孤峰抑制器2020可计算2204峰值孤立度量。这可如上文结合图20所描述的那样实现。例如,孤峰抑制器2020可计算第一峰值孤立度量(例如,peak_Q1)和第二峰值孤立度量(例如,peak_Q2)。
峰值孤立度量可与对应的阈值(例如,threshold1和threshold2)相比较以便更新状态。在一些配置中,变量(例如,Q1、Q2和hangover)可用于确定所述状态。例如,如果peak_Q1>threshold1,那么Q1=1。否则,Q1=0。另外,如果peak_Q2>threshold2,那么Q2=1。否则,Q2=0。应注意,在一些配置中,如果状态是空闲,那么抑制增益可为“1”。此外,如果状态是开始或持续,那么抑制增益可小于“1”。如上文所描述,抑制增益可确定为与peak_Q1成反比。
孤峰抑制器2020可确定2206第一峰值孤立度量是否大于第一阈值(例如,peak_Q1>threshold1)。例如,孤峰抑制器2020可确定Q1。如果第一峰值孤立度量不大于第一阈值(例如,peak_Q1≤threshold1,并且因此Q1=0),那么孤峰抑制器2020可重置2208持续状态。如果第一峰值孤立度量大于第一阈值(例如,peak_Q1>threshold1,并且因此Q1=1),那么孤峰抑制器2020可确定2210第二峰值孤立度量(例如,peak_Q2)是否大于第二阈值(例如,peak_Q2>threshold2)。例如,孤峰抑制器2020可确定Q2。
如果第二峰值孤立度量不大于第二阈值(例如,peak_Q2≤threshold2,并且因此Q2=0),那么孤峰抑制器2020可设定2212持续状态并重置释放延迟(例如,hangover变量可设定为0)。例如,孤峰抑制器2020可在某一时间段内跟踪检测到的峰值。如果第二峰值孤立度量大于第二阈值(例如,peak_Q2>threshoId2,并且因此Q2=1),那么孤峰抑制器2020可设定2214开始状态和释放延迟(例如,hangover变量可设定为1)。例如,孤峰抑制器2020可检测新的孤峰的“出生”。
图23包含孤峰检测的一个配置的状态图(例如,状态机视图)。例如,结合图20描述的孤峰抑制器2020(例如,状态变量更新模块2060)可根据结合图22描述的方法2200和/或根据结合图23描述的状态进行操作。如图23中所说明,峰值检测和/或跟踪可根据空闲状态2382、开始状态2384和持续状态2386进行操作。在此配置中,状态之间的过渡可基于如上文结合图22所描述的变量Q1和Q2而发生。如上文所描述,如果peak_Q1>threshold1,那么Q1=1(否则Q1=0),并且如果peak_Q2>threshold2,那么Q2=1(否则Q2=0)。尽管为方便起见在Q1和Q2方面进行描述,但是应注意,在图23中描述的过渡可在第一峰值孤立度量是否大于第一阈值和第二峰值孤立度量是否大于第二阈值的方面等效地进行描述。
如果Q1=1且Q2=1(例如,如果peak_Q1>threshold1且peak_Q2>threshold2),那么空闲状态2382可过渡到开始状态2384。否则,孤峰检测保持在空闲状态2382中。
如果Q1=0(例如,无论Q2是0还是1),那么开始状态2384可过渡到空闲状态2382。如果Q1=1且Q2=1,那么孤峰检测可保持在开始状态2384中。如果Q1=1且Q2=0,那么开始状态2384可过渡到持续状态2386。如果Q1=1且Q2=0,那么孤峰检测可保持在持续状态2386中。如果Q1=1且Q2=1,那么持续状态2386可过渡到开始状态2384。如果Q1=0(例如,无论Q2是0还是1)或如果hangover=0,那么持续状态2386可过渡到空闲状态2382。
图24包含说明峰值检测的实例的曲线图。明确地说,图24包含基于帧号2402的话音频谱的曲线图,其中电平轴以帧号2402的形式说明,且垂直轴以频率(Hz)2404的形式说明。明确地说,曲线图上的圆点说明检测到的峰值,其中第一圆点表示孤峰的开始2488(例如,如结合图22和/或23所描述的开始状态),随后的圆点表示孤峰持续2490(例如,如结合图22和/或23所描述的持续状态)。
图25是说明谐波分析模块2522的一个配置的框图。谐波分析模块2522可使用峰值执行嘈杂且不完整的频谱的谐波分析。在一些配置中,谐波分析模块2522可执行结合图10描述的谐波分析1084。谐波分析模块2522可利用话音频谱信号2509以用于音高检测和跟踪。话音频谱信号2509的实例包含如上文所描述的音频信号、噪声受抑制的音频信号和孤峰受抑制的音频信号。
谐波分析模块2522可包含峰值跟踪模块2594、峰值修整模块2596、谐波匹配模块2598、发声状态更新模块2501、音高跟踪模块2503、非谐波峰值检测模块2505和/或帧延迟模块2507a到2507b。谐波分析模块2522可执行峰值跟踪和修整以获得可靠信息(例如,经细化峰值、可靠峰值等)。例如,谐波分析模块2522可排除某些峰值。在一些配置中,峰值跟踪模块2594可确定话音频谱信号2509中的一或多个峰值的位置(例如,频率)。
峰值跟踪模块2594可确定和/或跟踪话音频谱信号2509中的一或多个峰值。例如,峰值跟踪模块2594可将话音频谱信号2509中的局部最大值确定为峰值。在一些配置中,峰值跟踪模块2594可使话音频谱信号2509平滑。例如,话音频谱信号2509可经滤波(例如,低通滤波)以获得平滑频谱。
峰值跟踪模块2594可从帧延迟模块A 2507a获得来自前一帧的非谐波峰值(例如,位置)。峰值跟踪模块2594可比较当前帧中任何检测到的峰值与来自前一帧的非谐波峰值(例如,位置)。峰值跟踪模块2594可将当前帧中对应于来自前一帧的非谐波峰值的任何峰值标示为连续非谐波峰值。
峰值跟踪模块2594可向峰值修整模块2596提供峰值位置,可提供平滑频谱和/或可指示连续非谐波峰值。峰值跟踪模块2594还可向非谐波峰值检测模块2505提供峰值位置。
非谐波峰值检测模块2505可检测为非谐波峰值的(在峰值位置处)峰值中的一或多个。例如,非谐波峰值检测模块2505可利用基频2515(例如,音高f0(t)),以确定哪些峰值不是基频的谐波。举例来说,非谐波峰值检测模块2505可将不是基频2515的近似整数倍数(例如,在基频2515的整数倍数的范围内)的一或多个峰值位置确定为非谐波峰值。非谐波峰值检测模块2505可向帧延迟模块A2507a提供非谐波峰值(例如,位置)。帧延迟模块A2507a可向峰值跟踪模块2594提供非谐波峰值(例如,位置)。换句话说,被提供到峰值跟踪模块2594的非谐波峰值(例如,位置)可对应于前一帧。
峰值修整模块2596可(例如,从话音频谱信号2509中)去除满足一或多个准则的一或多个峰值。例如,峰值修整模块2596可排除相对于最强峰值和平滑频谱过小的峰值,可排除具有过低音值(基于与标准峰值模板的差)的峰值,可排除过于接近更强峰值(例如,小于f0的下限值)的峰值和/或可排除从前一帧的非谐波峰值开始连续的峰值。
在一些配置中,峰值修整模块2596可去除具有小于最强峰值(例如,具有话音频谱信号2509的帧的最高振幅的峰值)的振幅的特定百分比和/或在平滑频谱的特定振幅范围内的振幅的任何峰值。另外地或可替代地,峰值修整模块2596可去除具有低于音值阈值的音值的任何峰值。例如,可去除与峰值模板相差超过一定量的峰值。另外地或可替代地,峰值修整模块2596可去除在从更强峰值(例如,具有高振幅的相邻峰值)开始的特定频率范围内的任何峰值。另外地或可替代地,峰值修整模块2596可去除从前一帧的非谐波峰值开始连续的任何峰值。例如,可去除由峰值跟踪模块2594指示为从前一帧的非谐波峰值开始连续的峰值。
在峰值修整之后剩余的峰值可被称为经细化峰值2511(例如,“经修整峰值”或“可靠峰值”)。经细化峰值2511可被提供到谐波匹配模块2598。在一些配置中,经细化峰值2511可包含经细化峰值位置(例如,fl)、经细化峰值振幅(例如,Al)和/或经细化峰值相位(例如,)。
谐波匹配模块2598可执行谐波匹配以寻找基频(例如,f0)。例如,谐波匹配模块2598可寻找具有很少经细化峰值2511的基频(例如,fl),其中基频(例如,f0)是经细化峰值2511(例如,fl/f0的分数部分,表示为{fl/f0}r,针对每一fl尽可能的小)的广义最大公约数。例如,在f0使得每一{fl/f0}r在f0的整个给定范围中尽可能小的意义上,这可用于寻找最佳匹配观察到的峰值频率{fl}的f0。表示谐波匹配频谱(例如,经加权谐波匹配得分),其中这是通过峰值fl的振幅Al进行加权的峰值fl的谐波匹配得分的总和。在一些配置中,加权函数是其为振幅提供权值。g({fl/f0}r)表示谐波匹配度量,其(例如)可以是这提供在0和1之间的得分,其反映了fl/f0接近某一整数的程度。谐波匹配模块2598可向音高跟踪模块2503提供谐波匹配频谱(例如,)。谐波匹配模块2598可提供谐波匹配度量(例如,g({fl/f0}r))。
发声状态更新模块2501可如下执行发声状态分类。在一些配置中,可存在三种发声状态:无声(例如,V(t)=0)、持续有声(例如,V(t)=1)和开始有声(例如,V(t)=0.5)。这可允许针对话音和动态音高差异控制的无声、持续有声和开始有声(和/或静音)部分的不同策略。
在一些配置中,可如下执行帧与帧之间的状态跟踪。低频带谐波能量可基于检测到的低于截止频率(例如,fcutoff)的基频(例如,f0)。例如,M(f0)=∑fl<fcutoff Alg({fl/f0}r)。在一些配置中,fcutoff=1千赫兹(kHz)。发声状态更新模块2501可初始化跟踪计数(例如,在0处)。如果大于预定阈值,那么跟踪计数可(例如,逐一)增加。跟踪计数可被限制在3。例如,如果增加跟踪计数将使跟踪计数大于3,那么跟踪计数可能不会增加,但是可限制在3。如果小于或等于预定阈值(例如,与用于增加跟踪计数的预定阈值相同或不同),那么跟踪计数可(例如,逐一)减小。跟踪计数可被限制在0。例如,如果降低跟踪计数将使跟踪计数小于0,那么跟踪计数可能不会减小,但是可限制在0。
跟踪计数可如下映射到发声状态。如果跟踪计数=0,那么发声状态可为无声(例如,V(t)=0),从而指示无声帧。如果在当前帧中跟踪计数=1,且在前一帧中跟踪计数=0,那么发声状态可为开始有声(例如,V(t)=0.5),从而指示帧中的语音开始。在其它情况下,发声状态可为持续有声(例如,V(t)=1),从而指示帧中的持续语音。在一些配置中,跟踪计数可限制在[0、1、2、3]:0用于无声,3用于持续有声,且1和2用于开始有声。发声状态更新模块2501可向音高跟踪模块2503提供发声状态(例如,指示无声、开始有声或持续有声)。
音高跟踪模块2503可执行连续轮廓的音高跟踪。这可被称为“动态音高差异控制”。音高跟踪模块2503可计算和/或利用音高差度量。音高差度量可以是帧与帧之间音高改变速率的度量。在一些配置中,音高差度量可在对数域中。例如,音高差度量可表示为df0(t)=|log2(f0(t)/f0(t-1))|。当连续有声帧(例如,V(t)>0)的数目一直增加到当前帧增加时,自适应音高搜索范围可单调降低。例如,当更深地进入有声区段(举例来说,在5个帧中从1.5深入到.4)时,自适应音高搜索范围可逐渐缩小。音高候选者可以是谐波匹配频谱的数个最大峰值。例如,音高候选者可以是的三个最大峰值,涵盖减半和加倍。音高跟踪模块2503可利用前向路径跟踪以最大化持续谐波能量。例如,音高跟踪模块2503可将基频2515(例如,音高)确定为
如图25中所说明,基频2515(例如,音高)可被提供到非谐波峰值检测模块2505和帧延迟模块B 2507b。非谐波峰值检测模块2505可利用基频2515以检测如上文所描述的一或多个非谐波峰值。帧延迟模块B 2507b可将基频2515延迟一个帧。换句话说,帧延迟模块B2507b可向音高跟踪模块2503提供来自前一帧的基频(例如,f0(t-1))。音高跟踪模块2503可利用来自前一帧的基频以计算如上文所描述的音高差度量。
图26包含说明根据本文中揭示的系统和方法的谐波分析的实例的曲线图2617a到2617b。曲线图A 2617a说明基于结合图25描述的准则而修整的峰值的实例。明确地说,曲线图A 2617a说明因为过小2619、无音调2621或过于接近2623另一峰值而被去除的峰值的实例。曲线图B 2617b说明基于谐波余数2627的谐波匹配度量2625的实例。
图27包含说明音高候选者2731的实例的曲线图。明确地说,所述曲线图说明基于频率(Hz)2704的谐波匹配得分2729的实例。音高候选者2731可如结合图25所描述的那样获得。明确地说,图27说明音高搜索范围中的音高候选者2731。
图28包含说明根据本文中揭示的系统和方法的谐波分析的实例的曲线图。明确地说,图28包含可如结合图25所描述的那样确定的连续音高跟踪2835和非谐波峰值2833的实例。例如,所述曲线图说明非谐波峰值2833可出现在谐波分音(例如,对于音乐噪声)之间。图28还说明不完整频谱2837(例如,缺失分音)。
图29是说明其中可实施用于增强音频信号2916的系统和方法的电子装置2914的另一配置的框图。电子装置2914的实例包含蜂窝式电话、智能手机、平板计算机装置、录音机、膝上型计算机、桌上型计算机、陆线电话、摄录影机、静态相机、嵌入式电子装置、游戏系统、电视、电器等。电子装置2914的组件中的一或多个可实施在硬件(例如,电路)或硬件与软件的组合中。
电子装置2914可包含包络建模模块2924。结合图29描述的包络建模模块2924可执行结合包络建模描述的功能和/或程序中的一或多个。应注意,在一些配置中,包络建模模块2924只能在有声帧上操作。例如,包络建模模块2924可接收发声状态(例如,V(t))。如果发声状态指示有声帧(例如,持续有声帧或开始有声帧),那么包络建模模块2924可产生全局包络。然而,如果发声状态指示无声帧,那么包络建模模块2924可能不在无声帧上操作(例如,可能绕过无声帧)。在一些配置中,发声状态可通过已知的语音活动检测器(例如,VAD)提供。在其它配置中,包络建模模块2924可从如上文所描述的谐波分析模块接收发声状态。
包络建模模块2924可包含共振峰峰值确定模块2939和/或全局包络产生模块2943。共振峰峰值确定模块2939可基于音频信号2916而确定共振峰峰值2941。在一些配置中,共振峰峰值确定模块2939可基于音频信号2916而获得频谱信息(例如,峰值位置、峰值振幅和/或基频)。在其它配置中,共振峰峰值确定模块2939可基于音频信号2916而接收频谱信息。例如,共振峰峰值确定模块2939可从谐波分析模块接收经细化峰值位置(例如,fl)、经细化峰值振幅(例如,Al)和/或基频(例如,f0(t))。
在一些配置中,共振峰峰值确定模块2939可将共振峰峰值2941确定为数个(例如,3到4个)经细化峰值的最大峰值(例如,局部最大值)。然而,应注意,在其它配置中,共振峰峰值确定模块2939可直接根据音频信号2916、噪声受抑制的音频信号或孤峰受抑制的音频信号而确定共振峰峰值2941。共振峰峰值2941可被提供到全局包络产生模块2943。
全局包络产生模块2943可产生共振峰峰值模型。共振峰峰值模型中的每一个可以是对共振峰峰值进行建模的共振峰峰值包络(例如,在整个频谱中)。产生共振峰峰值模型可包含个别地对每一共振峰峰值进行建模。例如,全局包络产生模块2943可利用一或多个模型类型以个别地对每一共振峰峰值进行建模。可用于产生共振峰峰值模型的模型类型的一些实例包含滤波器、全极点模型(其中全极点模型在共振峰峰值处谐振)、全零模型、自回归移动平均(ARMA)模型等。应注意,可利用不同阶数的模型。例如,全极点模型可以是二阶全极点模型、三阶全极点模型等。
在一些配置中,个别地对每一共振峰峰值进行建模可包含确定是否支持每一共振峰峰值。如果存在相邻峰值(例如,在相邻谐波处),那么可支持共振峰峰值。如果缺失一或多个相邻峰值(例如,在相邻谐波处),那么可能不支持共振峰峰值。
个别地对每一共振峰峰值进行建模还可包含基于是否支持每一相应的共振峰峰值而针对每一共振峰峰值选择建模类型。例如,全局包络产生模块2943可利用第一建模(例如,局部匹配的两个极点建模)对一或多个受支持共振峰峰值进行建模,和/或可利用第二建模(例如,固定p、两个极点建模)对一或多个不受支持的共振峰峰值进行建模。
在一些配置中,全局包络产生模块2943可执行来自不完整频谱的包络的主要局部全极点建模。例如,全局包络产生模块2943可使用共振峰峰值(例如,仅共振峰峰值)以进行局部全极点建模。
全局包络产生模块2943可基于共振峰峰值模型而产生全局包络(例如,H(f))。例如,全局包络产生模块2943可确定共振峰峰值模型(例如,包络),并合并共振峰峰值模型以产生帧(例如,有声帧)的全局包络。这可根据极其不完整的频谱信息产生包络。在一些配置中,全局包络产生模块2943可级联共振峰峰值模型以产生全局包络。另外地或可替代地,全局包络产生模块2943可对共振峰峰值模型执行最大(例如,“max”)操作。例如,全局包络产生模块2943可基于最大操作而合并来自局部全极点建模的单独包络。举例来说,在整个频谱中的所有共振峰峰值模型(例如,包络)的最大振幅可产生最大包络。这可维持共振峰峰值处和其附近的局部一致性。在一些配置中,可对最大包络执行离散全极点(DAP)建模以产生全局包络。在其它配置中,最大包络可利用平滑滤波或平滑算法进行平滑化以产生全局包络。在又其它配置中,最大包络自身可用作全局包络。
在一些配置中,全局包络产生模块2943可执行缺失分音预测。例如,全局包络产生模块2943可确定在基频的谐波频率(例如,fk=kf0,其中k是整数集合)下的缺失分音。全局包络产生模块2943可将缺失分音振幅确定为在谐波频率(例如,Ak=|H(fk)|)中的每一个下的全局包络的量值(例如,绝对值)。全局包络产生模块2943还可确定缺失分音最小相位(例如,)。
全局包络产生模块2943可提供包络信息2936。在一些配置中,包络信息2936可包含全局包络(例如,H(f))。另外地或可替代地,包络信息2936可包含经扩展峰值信息(例如,谐波频率fk、缺失分音振幅Ak和/或缺失分音最小相位)。举例来说,包络信息2936可包含H(f)、fk、Ak和/或
在一些配置中,电子装置2914可基于包络信息2936(例如,全局包络)而产生时域话音信号。另外地或可替代地,电子装置2914可发射共振峰峰值模型中的一或多个(例如,表示共振峰峰值模型的一或多个参数)。在一些配置中,共振峰峰值模型(和/或基于共振峰峰值模型的参数)可进行量化。例如,向量量化和/或一或多个码本可用于执行量化。
图30是说明用于增强音频信号2916的方法3000的一个实例的流程图。电子装置2914可基于音频信号2916而确定3002共振峰峰值2941。这可如上文结合图29所描述的那样实现。例如,电子装置2914可从峰值(例如,经细化峰值)集中选择数个最大峰值(例如,具有最高振幅的峰值)。
电子装置2914可通过个别地对每一共振峰峰值进行建模来产生3004共振峰峰值模型。这可如上文结合图29所描述的那样实现。例如,电子装置2914可确定是否支持每一共振峰峰值,并且可基于是否支持每一相应的共振峰峰值而选择建模类型。
电子装置2914可基于共振峰峰值模型而产生3006全局包络。这可如上文结合图29所描述的那样实现。例如,电子装置2914可合并共振峰峰值模型(例如,级联共振峰峰值模型、对共振峰峰值模型执行最大操作等)。在一些配置中,电子装置2914可对合并包络执行一或多个额外操作(例如,DAP建模、滤波、平滑化等)。在一些配置中,在仅检测到一个共振峰峰值的情况下,电子装置2914可能不合并共振峰峰值模型(例如,包络)。
如上文所描述,在一些配置中,电子装置2914可基于包络信息2936(例如,全局包络)而产生时域话音信号。另外地或可替代地,电子装置2914可发射共振峰峰值模型中的一或多个(例如,表示共振峰峰值模型的一或多个参数)。
图31是说明用于增强音频信号的方法3100的更特定配置的流程图。例如,图31说明用于来自不完整频谱的包络的主要局部全极点建模的方法的实例。例如,图31说明通过主要峰值的局部全极点建模或包络建模的实例。
电子装置2914可执行3102共振峰峰值检测。这可如结合图29到30中的一或多个图所描述的那样实现。例如,共振峰峰值可以是经细化峰值(例如,{fl})的三个到四个最大局部最大值。这些可能是显著且稳定的有声特征。
电子装置2914可确定3104每一共振峰峰值是孤立的(例如,不受支持)还是受支持的。孤立共振峰峰值(例如,(fI,AI))在(例如,fI的)相邻谐波位置处可具有至少一个缺失峰值。在此情况下,电子装置2914可应用3106具有预设极点强度的固定p、2个极点建模(例如,20dB/200Hz,p=0.9843)。例如,固定p、2个极点建模可提供另外地或可替代地,电子装置2914可利用具有预设极点强度的局部1个极点滤波(20dB/200Hz,p=0.9843)。例如,孤立共振峰峰值(AI,fI)的
受支持共振峰峰值(例如,(fl±1,0,Al±1,0))可包含在当前fl的相邻谐波位置处的两个峰值。在此情况下,电子装置2914可应用3108局部匹配2个极点建模以通过求解如通过提供的(Fm,pm,αm)而匹配三个连续峰值。另外地或可替代地,电子装置2914可利用1个极点滤波器以匹配三个连续峰值(例如,通过闭型近似公式求解)。
电子装置2914可缓冲3110帧中的所有共振峰峰值的每一共振峰峰值模型,无论是受支持的还是孤立的(例如,不受支持的)。对于共振峰峰值模型集合,电子装置2914可基于对应的全极点模型而确定3112最大包络。例如,在每一频率处,根据最大操作或Lp范数操作而使用最强的局部全极点模型。这可维持共振峰区域中的一致性。举例来说,可根据而提供最大包络。
电子装置2914可基于最大包络而执行3114全局全极点建模。例如,电子装置2914可执行3114离散全极点(DAP)建模。举例来说,电子装置2914可确定全极点滤波H(f),其利用所有谐波频率fk的最大包络来最小化Itakura-Saito距离(DI-S(x,y))(例如,频谱响应和合并包络之间)。这可通过提供。
电子装置2914可执行3116缺失分音预测。例如,电子装置2914可确定在具有振幅Ak=|H(fk)|和最小相位的fk=kf0处的缺失分音。换句话说,电子装置2914可确定经扩展峰值(例如,谐波频率fk、缺失分音振幅Ak和/或缺失分音最小相位)。在一些配置中,电子装置2914可利用用于平滑频谱包络和最小相位的线性预测编码(LPC)系数(αm)。
图32包含说明根据本文中揭示的系统和方法的全极点建模的一个实例的曲线图。所述曲线图以振幅(dB)3276相对于频率(弧度)3204的形式说明。举例来说,图32说明用于如结合图31所描述的受支持共振峰峰值的2个极点建模的一个实例。
图33包含说明根据本文中揭示的系统和方法的利用最大包络的全极点建模的一个实例的曲线图。所述曲线图以振幅3376相对于频率3304的形式说明。举例来说,图33说明用于如结合图31所描述的三个共振峰的最大包络的一个实例。例如,H3(f)可以是用于共振峰3的局部模型的一个实例,H1(f)可以是用于共振峰1的局部模型的一个实例,且H2(f)可以是用于共振峰2的局部模型的一个实例。
图34包含说明根据本文中揭示的系统和方法的经扩展分音的一个实例的曲线图。所述曲线图以频率3404相对于时间A 3402a、时间B 3402b和时间C 3402c的形式说明。举例来说,图34说明如结合图31所描述的噪声抑制输出、其对应的包络和所得经扩展分音的一个实例。
图35到44提供关于包络建模的额外细节(例如,包络建模的处理流程的实例)。举例来说,图35到44中描述的程序中的一或多个可由上文所述的包络建模模块中的一或多个执行,和/或可以是上文所述的包络建模功能的实例、可结合上文所述的包络建模功能执行,和/或可代替上文所述的包络建模功能执行。在一些配置中,结合图35到44描述的程序中的一或多个可与上文所述的其它功能中的一或多个(例如,噪声抑制、孤峰抑制、谐波分析和/或相位合成)组合。替代地,结合图35到44描述的程序中的一或多个可独立于上文所述的其它功能、程序和/或模块而执行。
图35是说明被噪声损坏的话音信号(例如,经记录话音信号)的频谱的一个实例的曲线图。图35中的曲线图以振幅(dB)3576相对于频谱(Hz)3504的形式说明。
图36是说明在噪声抑制之后被噪声损坏的话音信号(例如,经记录话音信号)的频谱的一个实例的曲线图。图36中的曲线图以振幅(dB)3676相对于频谱(Hz)3604的形式说明。如图36中所说明,当话音信号(例如,经记录话音信号)在噪声抑制之后过于嘈杂时,频谱中的较弱部分可能完全或几乎完全消失。举例来说,从400Hz到1400的频带显著衰减。恢复这个频带中的缺失频谱分量可改进话音质量和可懂度。
图37是说明用于包络建模的方法3700的实例的流程图。例如,方法3700可以是用于如上文所描述的对包络进行建模的方法。方法3700可采用有声话音信号(例如,音频信号2916)的输入和对应的基频。在一些配置中,有声话音信号在频域中不包含显著嘈杂且不调和的峰值。例如,有声话音信号可以是在噪声抑制、孤峰抑制、非谐波峰值抑制/去除和/或其它清除预处理之后的嘈杂话音记录。但是相比于清晰话音,此类有声话音信号在一些频带中可能缺少主要频谱分量。此类有声话音信号的实例在图36中给出。
电子装置2914可挑选3702谐波峰值。例如,清晰有声话音信号具有通过基频均匀间隔开的频谱峰值。频谱峰值的频率可被称为谐波频率,并且对应的频谱峰值可被称为谐波峰值。
电子装置2914可使用谐波峰值而对包络进行局部建模3704(例如,个别地对共振峰峰值进行建模)。电子装置2914可合并3706局部包络以产生全局包络。电子装置2914可以任选地执行3708(合并)全局包络的后处理。这可产生频谱包络。这些程序中的一或多个程序可如上文结合图29到31中的一或多个图所描述的那样实现。
图38是说明用于挑选谐波峰值的方法3800的一个配置的流程图。明确地说,图38说明用于如结合图37所描述的挑选谐波峰值的一个方法。为了挑选谐波峰值,例如,电子装置2914可首先挑选3802局部最大值(例如,大于它们直接相邻的左仓和右仓的频率仓)。接着,针对每一谐波频率,电子装置2914可在包含所述谐波频率的连续频率仓的搜索范围内挑选3804最接近这一谐波频率或对于这一谐波频率来说最强的局部最大值。对于一些谐波频率,由于在搜索范围内没有局部最大值,所以可能不存在谐波峰值。并且,即使存在谐波峰值,如果它过低(例如,低于人类的听觉阈值),那么它可能会从谐波峰值集中去除3806。这在图39中示出。从0Hz到2000Hz的21个谐波频率中仅挑选出9个谐波峰值。明确地说,图39说明在整个谐波频率(由虚垂直线指示)中的经挑选谐波峰值3945a到3945i的实例。
电子装置2914可任选地执行3808谐波峰值的超分辨率分析。例如,通过围绕谐波峰值进行内插(例如,使用二次内插),还可能将谐波峰值的频率精度改进到超过频率仓分辨率(超分辨率)。结合图38描述的方法3800可提供谐波峰值(例如,经挑选或经选中的谐波峰值)。
图39是说明具有所挑选的谐波峰值3945a到3945i的话音信号的频谱的一个实例的曲线图。图39中的曲线图以振幅(dB)3976相对于频谱(Hz)3904的形式说明。谐波峰值可如结合图38所描述的那样进行挑选或选择。在这个实例中,从0Hz到2000Hz的21个谐波频率中仅挑选出9个谐波峰值。明确地说,图39说明在整个谐波频率(由虚垂直线指示)中的经挑选谐波峰值3945a到3945i的实例。
图40说明峰值建模的实例。明确地说,图40说明如结合图37所描述的使用谐波峰值而对包络进行局部建模。明确地说,图40描绘基于个别(例如,不受支持的)谐波峰值而执行4002固定2个极点建模以产生局部包络。图40还描绘基于共振峰群组而执行4004自适应2个极点建模以产生局部包络。例如,电子装置2914可执行4002固定2个极点建模和/或可执行4004自适应2个极点建模。
清晰有声话音信号的谐波峰值通常具有不同量值,这主要归因于声道谐振。声道的谐振频率称为共振峰频率,并且在共振峰频率附近的频谱内容称为共振峰,且可通过全极点滤波器的频率响应进行估算。
为了获得大致匹配所有谐波峰值的全局包络,电子装置2914可通过执行局部匹配(例如,匹配个别谐波峰值或连续谐波峰值群组(下文称为共振峰群组))而开始。局部匹配包络在下文称为局部包络(例如,共振峰峰值模型)。如果不支持谐波峰值(例如,如果不存在直接相邻的左谐波峰值和/或右谐波峰值),那么这个谐波峰值称为不受支持的共振峰峰值。如果支持谐波峰值(例如,存在直接相邻的左谐波峰值和右谐波峰值),那么这个谐波峰值称为受支持谐波峰值。在共振峰群组内,最大的受支持谐波峰值称为受支持共振峰峰值。应注意,即使谐波峰值受支持,它们仍然可被视为个别谐波峰值。例如,在一些配置中,电子装置2914可针对个别谐波峰值中的每一个峰值而对局部包络进行建模,一般来说,这具有低系统复杂性的益处,但代价是包络建模误差较大。
在个别谐波峰值的情况下,一种分配局部包络的方法是使用全极点滤波频率响应。在一些配置中,这个全极点滤波器可仅具有2个极点,它们由于是复数而与彼此共轭。对于具有正虚数部分的极点,它的角度可被电子装置2914设定成等于所关注的谐波峰值的角度频率。极点强度(例如,极点的绝对值)可被(电子装置2914)设定成对应于在清晰话音信号中观察到的合理共振峰形状的某一预定数(例如,0.98)。这种2个极点滤波器的增益可被(电子装置2914)设定成谐波峰值的振幅。图41提供通过滤波器建模的局部包络的图示,其中滤波增益可被设定成谐波峰值的振幅。应注意,还存在分配包络的其它方式,只要它们相似于话音共振峰形状。另外,不是所有的谐波峰值都可被分配到局部包络(例如,极低的谐波峰值)。
图41是说明为个别谐波峰值分配局部包络的实例的曲线图。图41中的曲线图以振幅(dB)4176相对于频谱(Hz)4104的形式说明。图41中所说明的局部包络(例如,共振峰峰值模型)对应于结合图39描述的峰值。例如,在图41中示出图39中所说明的第二、第四和第二十一个谐波峰值和对应的经分配局部包络。
在共振峰群组(例如,受支持峰值)的情况下,电子装置2914还可向共振峰群组分配单个局部包络。例如,电子装置2914可向由来自图39的第十六、第十七和第十八个峰值形成的连续谐波峰值群组分配单个局部包络,如结合图42所描述。单个局部包络可进行分配以匹配所有这三个谐波峰值,而不是分配个别匹配谐波峰值的三个局部包络。为了分配单个局部包络,例如,电子装置2914还可使用全极点滤波频率响应。确切地说这个全极点滤波器仍然可具有与彼此共轭的2个极点。然而,在此情况下,极点的角度和强度以及滤波增益可通过使这个滤波频率响应匹配所有这三个谐波峰值的方式设定(通过电子装置2914)。例如,电子装置2914可求解管理在这三个谐波频率下的频率响应的一组等式。这还可通过被称为离散全极点建模的技术来实现。
图42是说明为谐波峰值群组或共振峰群组分配单个局部包络的实例的曲线图。图42中的曲线图以振幅(dB)4276相对于频谱(Hz)4204的形式说明。在这个实例中,由来自图39的第十六、第十七和第十八个峰值组成的共振峰群组被分配单个2个极点滤波响应作为局部包络。
电子装置2914可合并局部包络以产生全局包络。局部包络可基于个别谐波峰值、基于共振峰群组或基于这两者的组合。在一些配置中,电子装置2914可形成全局包络,而不会破坏局部匹配(例如,上文所述的局部包络建模)。例如,电子装置2914可使用最大操作(例如,在每一频率仓处,全局包络是在相同频率仓处的所有局部包络的最大值)。图43提供所有局部包络(例如,包含图41到42中描绘的那些)的最大值的一个实例。应注意,电子装置2914可利用其它方法来合并局部包络。例如,电子装置2914可获得在每一频率仓处的局部包络的欧几里得范数(例如,对应于无限范数的最大操作)。
图43是说明全局包络的实例的曲线图。图43中的曲线图以振幅(dB)4376相对于频谱(Hz)4304的形式说明。明确地说,图43说明在整个话音频谱4349中的全局包络4347。从400Hz到1400Hz,全局包络明显高于话音频谱(例如,高达大致30dB)。
电子装置2914可任选地执行合并全局包络的后处理。合并包络可能连续但不一定平滑,如图43中所说明。在一些配置中,电子装置2914可应用某一后处理(例如,合并全局包络的移动平均,如图44中所示)以使包络更光滑。在一些配置中(例如,对于对应于话音包络的最小相位),电子装置2914可应用离散全极点建模以从合并全局包络中导出全极点滤波。在这些配置中,最小相位可以是全极点滤波频率响应的角度。
图44是说明缺失分音恢复的实例的曲线图。图44中的曲线图以振幅(dB)4476相对于频谱(Hz)4404的形式说明。明确地说,图44说明话音频谱4449、平滑全局包络4451和经恢复话音频谱4453。虚垂直线表示谐波频率。
全局包络的一个应用是恢复话音频谱的缺失分量。给定基频和全局包络,通过放置具有在缺失时由全局包络确定的振幅的谐波峰值,电子装置2914可恢复频谱。例如,如图44中所说明,可恢复第五到第十五个谐波峰值(从大致400Hz到1400Hz)。如果谐波峰值存在但低于全局包络,那么电子装置2914可将谐波峰值的振幅增加到包络(例如,如图44中的第十六和第十八个谐波峰值所说明)。如果谐波峰值存在但高于全局包络,那么电子装置2914可维持它的振幅(例如,如图44中的第二和第三个谐波峰值所说明)。
在本文中揭示的系统和方法的一些配置中,电子装置2914可产生用于第一局部峰值的第一模型。第一局部峰值可具有位于第一局部峰值的相邻谐波位置处的至少一个缺失相邻峰值。例如,第一局部峰值可以是不受支持的局部峰值,并且电子装置2914可基于固定2个极点建模而产生第一模型。电子装置2914可基于在第二局部峰值的相邻谐波位置处的相邻峰值而产生用于第二局部峰值的第二模型。例如,第二局部峰值可以是受支持局部峰值,并且电子装置2914可基于自适应2个极点建模而产生第二模型。电子装置2914可基于第一模型和第二模型的组合而产生合并包络。例如,电子装置2914可利用模型执行最大操作。举例来说,最大操作可采用用于每一频率仓的模型之间的最大(例如,最高振幅)值以产生最大包络。
图45说明可在电子装置4514中利用的各种组件。所说明的组件可位于同一物理结构内或单独的外壳或结构中。可根据本文中所描述的电子装置102、302、2914中的一或多个而实施结合图45描述的电子装置4514。电子装置4514包含处理器4585。处理器4585可以是通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器4585可被称为中央处理单元(CPU)。尽管图45的电子装置4514中仅示出单个处理器4585,但在替代性配置中,可使用处理器(例如,ARM和DSP)的组合。
电子装置4514还包含与处理器4585成电子通信的存储器4579。也就是说,处理器4585可从存储器4579读取信息和/或将信息写入到存储器4579。存储器4579可以是能够存储电子信息的任何电子组件。存储器4579可以是随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储装置、包含在处理器中的机载存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等等,包含其组合。
数据4583a和指令4581a可存储于存储器4579中。指令4581a可包含一或多个编程、例程、子例程、功能、程序等。指令4581a可包含单个计算机可读陈述或多个计算机可读陈述。指令4581a可通过处理器4585执行以实施本文中所描述的方法、功能和程序中的一或多个。执行指令4581a可涉及使用存储于存储器4579中的数据4583a。图45示出了加载到处理器4585的一些指令4581b和数据4583b(它们可来自指令4581a和数据4583a)。
电子装置4514还可包含用于与其它电子装置通信的一或多个通信接口4589。通信接口4589可基于有线通信技术、无线通信技术或这两者。不同类型的通信接口4589的实例包含串行端口、并行端口、通用串行总线(USB)、以太网调适器、IEEE 1394总线接口、小型计算机系统接口(SCSI)总线接口、红外(IR)通信端口、蓝牙无线通信调适器等等。
电子装置4514还可包含一或多个输入装置4591和一或多个输出装置4595。不同种类的输入装置4591的实例包含键盘、鼠标、麦克风、远程控制装置、按钮、操纵杆、导航球、触摸板、光笔等。举例来说,电子装置4514可包含用于捕获声学信号的一或多个麦克风4593。在一个配置中,麦克风4593可以是将声学信号(例如,语音、话音)转换成电或电子信号的转换器。不同种类的输出装置4595的实例包含扬声器、打印机等。举例来说,电子装置4514可包含一或多个扬声器4597。在一个配置中,扬声器4597可以是将电或电子信号转换成声学信号的转换器。可通常包含在电子装置4514中的一个特定类型的输出装置是显示装置4599。与本文中所揭示的配置一起使用的显示装置4599可利用任何合适的图像投影技术,例如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、气体等离子体、电致发光等等。还可提供显示控制器4501,以将存储于存储器4579中的数据(按需要)转换成在显示装置4599上显示的文本、曲线图和/或移动图像。
电子装置4514的各种组件可通过一或多个总线耦合在一起,所述一或多个总线可包含电力总线、控制信号总线、状态信号总线、数据总线等。为简单起见,各种总线在图45中说明为总线系统4587。应注意,图45说明电子装置4514的仅一个可能配置。可利用各种其它架构和组件。
图46是说明用于带宽扩展的一个方法的实例的框图。确切地说,图46说明低频带(LB)分析模块4603、频谱估计模块4605、激励产生模块4607、激励增益模块4609、自动增益控制(AGC)增益模块4611、高频带合成模块4613、低音增强模块4617、上取样模块4619、混合器或乘法器4615、4623,以及求和器4621。结合图46描述的元件和/或模块中的一或多个可实施在电子装置(例如,电子装置102、302、2914)中。例如,结合图15描述的带宽扩展模块1567可包含结合图46描述的元件和/或模块中的一或多个。还应注意,在图46中,Snb(n)表示窄带信号,Swb(n)表示宽带信号,Slb(n)表示低频带上取样信号,Shb(n)表示高频带合成信号,lsp(f)表示窄带线谱对(LSP)系数,lspwb(f)表示宽带LSP系数,r(n)表示残余信号,ex(n)表示高频带激励信号,gp表示音高增益,gex表示激励增益,en表示噪声功率,以及ghb表示高频带合成增益。
在一些配置中,窄带信号(例如,Snb(n))可以是组合子带信号(例如,Xin_first_second)的时域形式。例如,电子装置(例如,电子装置102、302、2914)可对组合子带信号(例如,Xin_first_second,0到4kHz)执行逆短时傅里叶变换(ISTFT),以获得时域窄带信号(例如,Snb(n))。另外地或可替代地,电子装置(例如,电子装置102、302、2914)可对带宽扩展模块1576的输出(例如,Swb(n))执行短时傅里叶变换(STFT),并且仅采用第三子带(例如,Xbe,4到8kHz)以供带宽扩展之后的处理。
更确切地说,例如,窄带信号(例如,Snb(n))可被提供到LB分析模块4603和低音增强模块4617。LB分析模块4603可产生LSP系数(例如,lsp(f))、残余信号(例如,r(n))、音高增益(例如,gp)和噪声功率(例如,en)。
窄带LSP系数(例如,lsp(f))可被提供到频谱估计模块4605。频谱估计模块4605可基于窄带LSP系数而确定宽带LSP系数(例如,lspwb(f))。宽带LSP系数可被提供到高频带合成模块4613。
残余信号(例如,r(n))可被提供到激励产生模块4607。激励产生模块4607可基于残余信号而产生高频带激励信号(例如,ex(n))。高频带激励信号可被提供到混合器或乘法器4623。
音高增益(例如,gp)可被提供到激励增益模块4609。激励增益模块4609可基于音高增益而确定激励增益(例如,gex)。激励增益可被提供到混合器或乘法器4623。混合器或乘法器4623可混合高频带激励信号与激励增益或使高频带激励信号与激励增益相乘。所得乘积(例如,经增益调整高频带激励信号)可被提供到高频带合成模块4613。
高频带合成模块4613可基于宽带LSP系数和经增益调整高频带激励信号而产生高频带合成信号(例如,Shb(n))。高频带合成信号可被提供到混合器或乘法器4615。
噪声功率(例如,en)可被提供到AGC增益模块4611。AGC增益模块4611可基于噪声功率而确定高频带合成增益(例如,ghb)。高频带合成增益可被提供到混合器或乘法器4615。混合器或乘法器4615可混合高频带合成增益与高频带合成信号或使高频带合成增益与高频带合成信号相乘。所得乘积(例如,经增益调整高频带合成信号)可被提供到求和器4621。
低音增强模块4617可增强(例如,放大、应用增益等)窄带信号。例如,低音增强模块4617可增强所有窄带信号或窄带信号的部分(例如,较低部分)。经增强信号可被提供到上取样模块4619。上取样模块4619可对经增强信号进行上取样以产生低频带上取样信号(例如,Slb(n))。例如,上取样模块4619可使经增强信号的样本数目加倍(例如,以2倍对经增强信号进行上取样)。低频带上取样信号可被提供到求和器4621。
求和器4621可对低频带上取样信号和经增益调整高频带合成信号进行求和以产生宽带信号(例如,Swb(n))。如上文所描述,电子装置(例如,电子装置102、302、2914)可对带宽扩展模块1576的输出(例如,宽带信号,Swb(n))执行短时傅里叶变换(STFT),并且仅采用宽带信号的第三子带(例如,Xbe,4到8kHz)以供带宽扩展之后的处理。
在以上描述中,有时结合各种术语而使用参考标号。在术语结合参考标号使用的情况下,这可意在指代图中的一或多个图中所示的特定元件。在无参考标号而使用术语的情况下,这可意在大体上指代所述术语,而不限于任何特定图。
术语“确定”涵盖各种动作,并且因此,“确定”可包含计算、运算、处理、导出、研究、查找(例如,查找表、数据库或另一数据结构)、确认等等。而且,“确定”可包含接收(例如,接收信息)、存取(例如,在存储器中存取数据)等等。并且,“确定”可包含分辨、选择、挑选、建立等等。
除非另外明确地指定,否则短语“基于”并不意味着“仅基于”。换句话说,短语“基于”同时描述“仅基于”与“至少基于”两者。
应注意,在兼容的情况下,结合本文中所描述的配置中的任一个所描述的特征、功能、程序、组件、元件、结构等中的一或多个可与结合本文中所描述的其它配置中的任一个所描述的功能、程序、组件、元件、结构等中的一或多个组合。换句话说,可根据本文中揭示的系统和方法实施本文中所描述的功能、程序、组件、元件等的任何相容的组合。
可将本文中所描述的功能作为一或多个指令而存储在处理器可读或计算机可读媒体上。术语“计算机可读媒体”是指可由计算机或处理器存取的任何可用媒体。借助于实例而非限制,此类媒体可包括RAM、ROM、EEPROM、快闪存储器、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或任何其它可用于存储呈指令或数据结构的形式的期望程序代码并且可由计算机存取的媒体。如本文所使用的磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘其中磁盘通常是以磁性方式再现数据,而光盘是用激光以光学方式再现数据。应注意,计算机可读媒体可为有形且非暂时性的。术语“计算机程序产品”是指计算装置或处理器,以及可由所述计算装置或处理器执行、处理或计算的代码或指令(例如,“程序”)。如本文中所使用,术语“代码”可指可由计算装置或处理器执行的软件、指令、代码或数据。
还可经由发射媒体发射软件或指令。例如,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发射软件,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包含于发射媒体的定义中。
本文中所揭示的方法包括用于实现所描述方法的一或多个步骤或动作。在不脱离权利要求书的范围的情况下,方法步骤和/或动作可与彼此互换。换句话说,除非正描述的方法的适当操作需要步骤或动作的特定次序,否则,在不脱离权利要求书的范围的情况下,可修改特定步骤和/或动作的次序及/或使用。
应理解,所附权利要求书不限于上文所说明的精确配置和组件。在不脱离权利要求书的范围的情况下,可在本文中所描述的系统、方法和设备的布置、操作和细节方面作出各种修改、改变和变更。
Claims (30)
1.一种用于通过电子装置进行话音恢复的方法,其包括:
获得嘈杂话音信号;
抑制所述嘈杂话音信号中的噪声以产生噪声受抑制的话音信号,其中所述噪声受抑制的话音信号具有包括至少三个子带的带宽;以及
反复地恢复所述至少三个子带中的每一个子带,其中基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
2.根据权利要求1所述的方法,其中所有先前经恢复子带的频率比正在恢复的当前子带低。
3.根据权利要求1所述的方法,其进一步包括:
分析所述至少三个子带中的第一子带;以及
基于所述分析而清除所述第一子带。
4.根据权利要求1所述的方法,其中恢复所述至少三个子带中的第一子带包括:
对所述第一子带的包络进行建模;
对所述第一子带的相位进行建模;以及
基于所述包络和所述相位而调整所述第一子带。
5.根据权利要求1所述的方法,其中反复地恢复所述至少三个子带中的每一个子带包括:
仅基于所述至少三个子带中的第一子带而搜索码本以确定选中条目,其中所述码本的条目跨越所述至少三个子带中的所述第一子带和第二子带的带宽;以及
基于所述选中条目而调整所述噪声受抑制的话音信号的所述第二子带。
6.根据权利要求1所述的方法,其中在所述带宽上反复地恢复所述至少三个子带中的每一个子带比在所述带宽上不基于经恢复子带而恢复所述噪声受抑制的话音信号减少更多的失真。
7.根据权利要求1所述的方法,其中反复地恢复所述至少三个子带中的每一个子带包括:
确定建模置信度;
基于所述建模置信度而确定定标因数;以及
基于所述定标因数而混合对应于所述至少三个子带中的一或多个子带的包络。
8.根据权利要求1所述的方法,其中反复地恢复所述至少三个子带中的每一个子带包括:
检测有声帧的麦克风电平;
检测所述有声帧的经处理话音电平;
基于所述麦克风电平和所述经处理话音电平而确定增益;以及
在所述带宽上将所述增益应用到经处理话音信号。
9.根据权利要求1所述的方法,其中反复地恢复所述至少三个子带中的每一个子带包括:
恢复所述至少三个子带中的第一子带以产生经恢复第一子带;
基于所述经恢复第一子带而恢复所述至少三个子带中的第二子带以产生经恢复第二子带;以及
基于所述经恢复第一子带和所述经恢复第二子带而恢复所述至少三个子带中的第三子带以产生经恢复第三子带。
10.根据权利要求1所述的方法,其包括恢复所述至少三个子带中的每一个子带,包括汇集所述至少三个子带中的经恢复第一子带和经恢复第二子带。
11.根据权利要求1所述的方法,其包括恢复所述至少三个子带中的每一个子带,包括汇集所述至少三个子带中的先前经恢复第一子带和先前经恢复第二子带,以及基于所述经汇集的经恢复第一子带和经恢复第二子带而预测所述至少三个子带中的第三子带。
12.根据权利要求1所述的方法,其中每一先前经恢复子带嵌套在任何先前经恢复子带与正在恢复的当前子带的组合频率范围内。
13.一种用于话音恢复的电子装置,其包括:
处理器;
存储器,其与所述处理器成电子通信;
存储在存储器中的指令,所述指令可执行以:
获得嘈杂话音信号;
抑制所述嘈杂话音信号中的噪声以产生噪声受抑制的话音信号,其中所述噪声受抑制的话音信号具有包括至少三个子带的带宽;以及
反复地恢复所述至少三个子带中的每一个子带,其中基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
14.根据权利要求13所述的电子装置,其中所有先前经恢复子带的频率比正在恢复的当前子带低。
15.根据权利要求13所述的电子装置,其中所述指令进一步可执行以:
分析所述至少三个子带中的第一子带;以及
基于所述分析而清除所述第一子带。
16.根据权利要求13所述的电子装置,其中恢复所述至少三个子带中的第一子带包括:
对所述第一子带的包络进行建模;
对所述第一子带的相位进行建模;以及
基于所述包络和所述相位而调整所述第一子带。
17.根据权利要求13所述的电子装置,其中反复地恢复所述至少三个子带中的每一个子带包括:
仅基于所述至少三个子带中的第一子带而搜索码本以确定选中条目,其中所述码本的条目跨越所述至少三个子带中的所述第一子带和第二子带的带宽;以及
基于所述选中条目而调整所述噪声受抑制的话音信号的所述第二子带。
18.根据权利要求13所述的电子装置,其中在所述带宽上反复地恢复所述至少三个子带中的每一个子带比在所述带宽上不基于经恢复子带而恢复所述噪声受抑制的话音信号减少更多的失真。
19.根据权利要求13所述的电子装置,其中反复地恢复所述至少三个子带中的每一个子带包括:
确定建模置信度;
基于所述建模置信度而确定定标因数;以及
基于所述定标因数而混合对应于所述至少三个子带中的一或多个子带的包络。
20.根据权利要求13所述的电子装置,其中反复地恢复所述至少三个子带中的每一个子带包括:
检测有声帧的麦克风电平;
检测所述有声帧的经处理话音电平;
基于所述麦克风电平和所述经处理话音电平而确定增益;以及
在所述带宽上将所述增益应用到经处理话音信号。
21.根据权利要求13所述的电子装置,其中反复地恢复所述至少三个子带中的每一个子带包括:
恢复所述至少三个子带中的第一子带以产生经恢复第一子带;
基于所述经恢复第一子带而恢复所述至少三个子带中的第二子带以产生经恢复第二子带;以及
基于所述经恢复第一子带和所述经恢复第二子带而恢复所述至少三个子带中的第三子带以产生经恢复第三子带。
22.根据权利要求13所述的电子装置,其中所述指令可执行以恢复所述至少三个子带中的每一个子带,包括汇集所述至少三个子带中的经恢复第一子带和经恢复第二子带。
23.根据权利要求13所述的电子装置,其中所述指令可执行以恢复所述至少三个子带中的每一个子带,包括汇集所述至少三个子带中的先前经恢复第一子带和先前经恢复第二子带,以及基于所述经汇集的经恢复第一子带和经恢复第二子带而预测所述至少三个子带中的第三子带。
24.根据权利要求13所述的电子装置,其中每一先前经恢复子带嵌套在任何先前经恢复子带与正在恢复的当前子带的组合频率范围内。
25.一种用于话音恢复的设备,其包括:
用于获得嘈杂话音信号的装置;
用于抑制所述嘈杂话音信号中的噪声以产生噪声受抑制的话音信号的装置,其中所述噪声受抑制的话音信号具有包括至少三个子带的带宽;以及
用于反复地恢复所述至少三个子带中的每一个子带的装置,其中基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
26.根据权利要求25所述的设备,其中用于恢复所述至少三个子带中的第一子带的所述装置包括:
用于对所述第一子带的包络进行建模的装置;
用于对所述第一子带的相位进行建模的装置;以及
用于基于所述包络和所述相位而调整所述第一子带的装置。
27.根据权利要求25所述的设备,其中用于反复地恢复所述至少三个子带中的每一个子带的所述装置包括:
用于仅基于所述至少三个子带中的第一子带而搜索码本以确定选中条目的装置,其中所述码本的条目跨越所述至少三个子带中的所述第一子带和第二子带的带宽;以及
用于基于所述选中条目而调整所述噪声受抑制的话音信号的所述第二子带的装置。
28.一种用于话音恢复的计算机程序产品,其包括上面具有指令的非暂时性计算机可读媒体,所述指令包括:
用于使电子装置获得嘈杂话音信号的代码;
用于使所述电子装置抑制所述嘈杂话音信号中的噪声以产生噪声受抑制的话音信号的代码,其中所述噪声受抑制的话音信号具有包括至少三个子带的带宽;以及
用于使电子装置反复地恢复所述至少三个子带中的每一个子带的代码,其中基于所述至少三个子带中的所有先前经恢复子带而恢复所述至少三个子带中的每一个子带。
29.根据权利要求28所述的计算机程序产品,其中用于使所述电子装置恢复所述至少三个子带中的第一子带的所述代码包括:
用于使所述电子装置对所述第一子带的包络进行建模的代码;
用于使所述电子装置对所述第一子带的相位进行建模的代码;以及
用于使所述电子装置基于所述包络和所述相位而调整所述第一子带的代码。
30.根据权利要求28所述的计算机程序产品,其中用于使所述电子装置反复地恢复所述至少三个子带中的每一个子带的所述代码包括:
用于使所述电子装置仅基于所述至少三个子带中的第一子带而搜索码本以确定选中条目的代码,其中所述码本的条目跨越所述至少三个子带中的所述第一子带和第二子带的带宽;以及
用于使所述电子装置基于所述选中条目而调整所述噪声受抑制的话音信号的所述第二子带的代码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/634,637 US9536537B2 (en) | 2015-02-27 | 2015-02-27 | Systems and methods for speech restoration |
US14/634,637 | 2015-02-27 | ||
PCT/US2016/016314 WO2016137696A1 (en) | 2015-02-27 | 2016-02-03 | Systems and methods for speech restoration |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107533848A true CN107533848A (zh) | 2018-01-02 |
CN107533848B CN107533848B (zh) | 2019-02-15 |
Family
ID=55404815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680011243.2A Expired - Fee Related CN107533848B (zh) | 2015-02-27 | 2016-02-03 | 用于话音恢复的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9536537B2 (zh) |
EP (1) | EP3262641B1 (zh) |
JP (1) | JP6374120B2 (zh) |
CN (1) | CN107533848B (zh) |
WO (1) | WO2016137696A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036457A (zh) * | 2018-09-10 | 2018-12-18 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
CN110265055A (zh) * | 2019-06-17 | 2019-09-20 | 杭州叙简科技股份有限公司 | 一种poc对讲的语音去噪增强系统及语音去噪增强方法 |
WO2021212985A1 (zh) * | 2020-04-21 | 2021-10-28 | 北京字节跳动网络技术有限公司 | 声学网络模型训练方法、装置及电子设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017141317A1 (ja) * | 2016-02-15 | 2017-08-24 | 三菱電機株式会社 | 音響信号強調装置 |
WO2022269789A1 (ja) * | 2021-06-23 | 2022-12-29 | 日本電気株式会社 | 波動信号処理装置、波動信号処理方法、および記録媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5764516A (en) * | 1995-12-29 | 1998-06-09 | Atlantic Richfield Company | Method and system for surface-consistent phase and time lag correction of seismic data |
EP1918910A1 (en) * | 2006-10-31 | 2008-05-07 | Harman Becker Automotive Systems GmbH | Model-based enhancement of speech signals |
US20090271187A1 (en) * | 2008-04-25 | 2009-10-29 | Kuan-Chieh Yen | Two microphone noise reduction system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002054744A1 (en) | 2000-12-29 | 2002-07-11 | Nokia Corporation | Audio signal quality enhancement in a digital network |
US8463599B2 (en) | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
US9390718B2 (en) | 2011-12-27 | 2016-07-12 | Mitsubishi Electric Corporation | Audio signal restoration device and audio signal restoration method |
US9305567B2 (en) | 2012-04-23 | 2016-04-05 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9613633B2 (en) | 2012-10-30 | 2017-04-04 | Nuance Communications, Inc. | Speech enhancement |
US10013975B2 (en) * | 2014-02-27 | 2018-07-03 | Qualcomm Incorporated | Systems and methods for speaker dictionary based speech modeling |
-
2015
- 2015-02-27 US US14/634,637 patent/US9536537B2/en not_active Expired - Fee Related
-
2016
- 2016-02-03 WO PCT/US2016/016314 patent/WO2016137696A1/en active Application Filing
- 2016-02-03 CN CN201680011243.2A patent/CN107533848B/zh not_active Expired - Fee Related
- 2016-02-03 EP EP16705644.9A patent/EP3262641B1/en not_active Not-in-force
- 2016-02-03 JP JP2017544725A patent/JP6374120B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5764516A (en) * | 1995-12-29 | 1998-06-09 | Atlantic Richfield Company | Method and system for surface-consistent phase and time lag correction of seismic data |
EP1918910A1 (en) * | 2006-10-31 | 2008-05-07 | Harman Becker Automotive Systems GmbH | Model-based enhancement of speech signals |
US20090271187A1 (en) * | 2008-04-25 | 2009-10-29 | Kuan-Chieh Yen | Two microphone noise reduction system |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036457A (zh) * | 2018-09-10 | 2018-12-18 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
CN109036457B (zh) * | 2018-09-10 | 2021-10-08 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
CN110265055A (zh) * | 2019-06-17 | 2019-09-20 | 杭州叙简科技股份有限公司 | 一种poc对讲的语音去噪增强系统及语音去噪增强方法 |
CN110265055B (zh) * | 2019-06-17 | 2021-04-20 | 杭州叙简科技股份有限公司 | 一种poc对讲的语音去噪增强系统及语音去噪增强方法 |
WO2021212985A1 (zh) * | 2020-04-21 | 2021-10-28 | 北京字节跳动网络技术有限公司 | 声学网络模型训练方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2018506078A (ja) | 2018-03-01 |
EP3262641B1 (en) | 2018-12-12 |
US9536537B2 (en) | 2017-01-03 |
EP3262641A1 (en) | 2018-01-03 |
US20160254007A1 (en) | 2016-09-01 |
WO2016137696A1 (en) | 2016-09-01 |
CN107533848B (zh) | 2019-02-15 |
JP6374120B2 (ja) | 2018-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101521368B1 (ko) | 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체 | |
KR101564151B1 (ko) | 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해 | |
CN107533848B (zh) | 用于话音恢复的系统和方法 | |
EP2742435B1 (en) | Processing a sound signal including transforming the sound signal into a frequency-chirp domain | |
JP4945586B2 (ja) | 信号帯域拡張装置 | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP2010055000A (ja) | 信号帯域拡張装置 | |
CA3017558C (en) | Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms | |
JP2010210758A (ja) | 音声を含む信号の処理方法及び装置 | |
Ick et al. | Sound event detection in urban audio with single and multi-rate PCEN | |
CN108369803A (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
Ming et al. | Robust speaker recognition in unknown noisy conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190215 Termination date: 20210203 |