CN110556123B - 频带扩展方法、装置、电子设备及计算机可读存储介质 - Google Patents
频带扩展方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110556123B CN110556123B CN201910883374.5A CN201910883374A CN110556123B CN 110556123 B CN110556123 B CN 110556123B CN 201910883374 A CN201910883374 A CN 201910883374A CN 110556123 B CN110556123 B CN 110556123B
- Authority
- CN
- China
- Prior art keywords
- frequency
- spectrum
- low
- sub
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000001228 spectrum Methods 0.000 claims abstract description 887
- 238000003062 neural network model Methods 0.000 claims abstract description 55
- 230000003595 spectral effect Effects 0.000 claims description 139
- 230000015654 memory Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 description 35
- 238000012545 processing Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
- G10L19/0216—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请实施例提供了一种频带扩展方法、装置、电子设备及计算机可读存储介质,该方法可以包括:确定待处理的窄带信号的低频频谱参数,将低频频谱参数输入至神经网络模型,基于神经网络模型的输出得到相关性参数,基于相关性参数和低频幅度谱,得到目标高频幅度谱;基于窄带信号的低频相位谱和目标高频幅度谱,得到高频频谱;基于低频频谱和高频频谱,得到频带扩展后的宽带信号。在本方案中,由于相关性参数可反应出高频部分与低频部分的相关性,则基于该相关性参数和低频幅度谱可实现对窄带信号的频带扩展,基于频带扩展得到的宽带信号,可以得到音色洪亮、音量较大的信号,使得用户有更好的听觉体验。
Description
技术领域
本申请涉及音频信号处理技术领域,具体而言,本申请涉及一种频带扩展方法、装置、电子设备及计算机可读存储介质。
背景技术
频带扩展,也可称为频带复制,是音频编码领域的一项经典技术。频带扩展技术是一种参数编码技术,通过频带扩展可以在接收端实现有效带宽的扩展,以提高音频信号的质量,使用户可以直观感受到更亮的音色、更大的音量和更好的可懂度。
在现有技术中,一种频带扩展的经典实现方法是利用语音信号中高频与低频的相关性进行频带扩展,在音频编码系统中,上述相关性作为边信息(side information),在编码端,将上述边信息合并到码流并传输出去,解码端通过解码,顺序恢复低频频谱,并进行频带扩展操作恢复高频频谱。但是该方法需要系统消耗相应的比特(例如:在编码低频部分信息的基础上,额外花费10%的比特编码上述边信息),即需要额外的比特进行编码,且存在前向兼容的问题。
另一种常用的频带扩展方法是基于数据分析的盲式方案,该方案基于神经网络或者深度学习,输入是低频系数、输出是高频系数。这种系数-系数的映射方式,对网络的泛化能力要求很高;为了保证效果,网络深度和体积较大,复杂度高;在实际过程中,在超出训练库所包含的模式外的场景,该方法的性能一般。
发明内容
本申请实施例的主要目的在于提供一种频带扩展方法、装置、电子设备及计算机可读存储介质,以解决现有技术中存在的至少一种技术缺陷,更好的满足实际应用需求。本申请实施例提供的技术方案如下:
第一方面,本申请实施例提供了一种频带扩展方法,该方法包括:
确定待处理的窄带信号的低频频谱参数,低频频谱参数包括低频幅度谱;
将低频频谱参数输入至神经网络模型,基于神经网络模型的输出得到相关性参数,其中,相关性参数表征了目标宽频频谱的高频部分与低频部分的相关性,相关性参数包括高频频谱包络;
基于相关性参数和低频幅度谱,得到目标高频幅度谱;
基于窄带信号的低频相位谱,生成相应的高频相位谱;
根据目标高频幅度谱和高频相位谱,得到高频频谱;
基于低频频谱和高频频谱,得到频带扩展后的宽带信号。
第二方面,本申请提供了一种频带扩展装置,该装置包括:
低频频谱参数确定模块,用于确定待处理的窄带信号的低频频谱参数,低频频谱参数包括低频幅度谱;
相关性参数确定模块,用于将低频频谱参数输入至神经网络模型,基于神经网络模型的输出得到相关性参数,其中,相关性参数表征了目标宽频频谱的高频部分与低频部分的相关性,相关性参数包括高频频谱包络;
高频幅度谱确定模块,用于基于相关性参数和低频幅度谱,得到目标高频幅度谱;
高频相位谱生成模块,用于基于窄带信号的低频相位谱,生成相应的高频相位谱;
高频频谱确定模块,用于根据目标高频幅度谱和高频相位谱,得到高频频谱;
宽带信号确定模块,用于基于低频频谱和高频频谱,得到频带扩展后的宽带信号。
第二方面的一种可选实施例中,
高频幅度谱确定模块在基于相关性参数和低频幅度谱,得到目标高频幅度谱时,具体用于:
根据低频幅度谱,得到窄带信号的低频频谱包络;
基于低频幅度谱,生成初始高频幅度谱;
基于高频频谱包络和低频频谱包络,对初始高频幅度谱进行调整,得到目标高频幅度谱。
第二方面的一种可选实施例中,高频频谱包络和低频频谱包络均为对数域的频谱包络;
高频幅度谱确定模块在基于高频频谱包络和低频频谱包络,对初始高频幅度谱进行调整,得到目标高频幅度谱时,具体用于:
确定高频频谱包络和低频频谱包络的差值;
基于差值对初始高频幅度谱进行调整,得到目标高频幅度谱。
第二方面的一种可选实施例中,高频幅度谱确定模块在基于低频幅度谱,生成初始高频幅度谱时,具体用于:
对低频幅度谱中高频段部分的幅度谱进行复制。
第二方面的一种可选实施例中,高频频谱包络包括第一数量的第一子频谱包络,初始高频幅度谱包括第一数量的子幅度谱,其中,每个第一子频谱包络是基于初始高频幅度谱中对应的子幅度谱确定的;
高频幅度谱确定模块在确定高频频谱包络和低频频谱包络的差值,基于差值对初始高频幅度谱进行调整,得到目标高频幅度谱时,具体用于:
确定每个第一子频谱包络与低频频谱包络中对应的频谱包络的差值;
基于每个第一子频谱包络所对应的差值,对对应的初始子幅度谱进行调整,得到第一数量的调整后的子幅度谱;
基于第一数量的调整后的子幅度谱,得到目标高频幅度谱。
第二方面的一种可选实施例中,相关性参数还包括相对平坦度信息,相对平坦度信息表征了目标宽频频谱的高频部分的频谱平坦度与低频部分的频谱平坦度的相关性;
高频幅度谱确定模块在确定高频频谱包络和低频频谱包络的差值时,具体用于:
基于相对平坦度信息以及低频频谱的能量信息,确定高频频谱包络的增益调整值;
基于增益调整值对高频频谱包络进行调整,得到调整后的高频频谱包络;
确定调整后的高频频谱包络和低频频谱包络的差值。
第二方面的一种可选实施例中,相对平坦度信息包括对应于高频部分的至少两个子带区域的相对平坦度信息,一个子带区域所对应的相对平坦度信息,表征了高频部分的一个子带区域的频谱平坦度与低频部分的高频频段的频谱平坦度的相关性;
高频幅度谱确定模块在基于相对平坦度信息以及低频频谱的能量信息,确定高频频谱包络的增益调整值时,具体用于:
基于每个子带区域所对应的相对平坦度信息、以及低频频谱中每个子带区域所对应的频谱能量信息,确定高频频谱包络中对应频谱包络部分的增益调整值;
高频幅度谱确定模块在基于增益调整值对高频频谱包络进行调整时,具体用于:
基于高频频谱包络中每个对应频谱包络部分的增益调整值,对相应的频谱包络部分进行调整。
第二方面的一种可选实施例中,若高频频谱包络包括第一数量的第一子频谱包络,高频幅度谱确定模块在基于每个子带区域所对应的相对平坦度信息,以及低频频谱中每个子带区域对应的频谱能量信息,确定高频频谱包络中对应频谱包络部分的增益调整值时,具体用于:
对于每一个第一子频谱包络,根据低频频谱包络中与第一子频谱包络对应的频谱包络所对应的频谱能量信息、低频频谱包络中与第一子频谱包络对应的频谱包络所对应的子带区域所对应的相对平坦度信息、低频频谱包络中与第一子频谱包络对应的频谱包络所对应的子带区域对应的频谱能量信息,确定第一子频谱包络的增益调整值;
高频幅度谱确定模块在根据高频频谱包络中每个对应频谱包络部分的增益调整值,对相应的频谱包络部分进行调整时,具体用于:
根据高频频谱包络中每个第一子频谱包络的增益调整值,对相应的第一子频谱包络进行调整。
第二方面的一种可选实施例中,低频频谱参数还包括窄带信号的低频频谱包络。
第二方面的一种可选实施例中,该装置还可以包括:
低频幅度谱处理模块,用于将低频幅度谱划分为第二数量的子幅度谱;分别确定每个子幅度谱对应的子频谱包络;低频频谱包络包括确定出的第二数量的子频谱包络。
第二方面的一种可选实施例中,低频幅度谱处理模块在确定每个子幅度谱对应的子频谱包络时,具体用于:
基于每个子幅度谱所包括的谱系数的对数取值,得到每个子幅度谱对应的子频谱包络。
第二方面的一种可选实施例中,若窄带信号包括至少两路关联的信号,该装置还包括:
窄带信号确定模块,用于将至少两路关联的信号进行融合,得到窄带信号;或者,将至少两路关联的信号中的每一路信号分别作为窄带信号。
第三方面,本申请实施例提供了一种电子设备,电子设备包括处理器和存储器;存储器中存储有可读指令,可读指令由处理器加载并执行时,实现如上述第一方面或第一方面中的任一可选实施例中所示的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储介质中存储有可读指令,可读指令由处理器加载并执行时,实现如上述第一方面或第一方面中的任一可选实施例中所示的方法。
本申请实施例所提供的频带扩展方案,可以基于待处理的窄带信号的低频频谱参数,通过神经网络模型的输出得到上述相关性参数,由于是采用神经网络模型进行预测,因此,无需对额外的比特进行编码,是一种盲式分析方法,具有较好的前向兼容性,且由于模型的输出是能够反映出目标宽频频谱的高频部分与低频部分的相关性的参数,实现了频谱参数到相关性参数的映射,与现有的系数至系数的映射方式相比,具有更好的泛化能力。基于本申请实施例的频带扩展方案,可以得到音色洪亮、音量较大的信号,使得用户有更好的听觉体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1示出了本申请实施例中提供的一种频带扩展方法的流程示意图;
图2示出了本申请实施例中提供的一种神经网络模型的网络结构示意图;
图3示出了本申请实施例中提供的一示例中频带扩展方法的流程示意图;
图4示出了本申请实施例中提供的一种频带扩展装置的结构示意图;
图5示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面详细描述本申请的实施例,该实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为了更好的理解及说明本申请实施例的方案,下面对本申请实施例中所涉及到的一些技术用语进行简单说明。
频带扩展(Band Width Extension,BWE):是音频编码领域中的一项将窄频带信号扩展为宽带信号的技术。
频谱:是频率谱密度的简称,是频率的分布曲线。
频谱包络(Spectrum Envelope,SE):是信号对应的频率轴上,信号所对应的谱系数的能量表示,对于子带而言,是子带所对应的谱系数的能量表示,如子带所对应的谱系数的平均能量。
频谱平坦度(Spectrum Flatness,SF):表征待测信号在其所在信道内功率平坦的程度。
神经网络(Neural Network,NN):是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
深度学习(Deep Learning,DL):是机器学习的一种,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
PSTN(Public Switched Telephone Network,公共交换电话网络):一种常用旧式电话系统,即我们日常生活中常用的电话网。
VoIP(Voice over Internet Protocol,网络电话):是一种语音通话技术,经由网际协议来达成语音通话与多媒体会议,也就是经由互联网来进行通信。
3GPP EVS:3GPP(3rd Generation Partnership Project,第三代合作伙伴计划)主要是制订以全球移动通信系统为基础,为无线接口的第三代技术规范;EVS(EnhanceVoice Services,增强型话音业务)编码器是新一代的语音频编码器,不仅对于语音和音乐信号都能够提供非常高的音频质量,而且还具有很强的抗丢帧和抗延时抖动的能力,可以为用户带来全新的体验。
IEFT OPUS:Opus是一个有损声音编码格式,由互联网工程任务组(IETF,TheInternet Engineering Task Force)开发。
SILK:Silk音频编码器是Skype网络电话向第三方开发人员和硬件制造商提供免版税认证的Silk宽带。
频带扩展是音频编码领域的一项经典技术,由前文描述可知,在现有技术中,频带扩展可通过以下方式实现:
第一种方式:在低采样率下的窄频带信号,选择窄频带信号中的低频部分的频谱复制到高频;根据提前记录的边界信息(描述高频与低频的能量相关性的信息)将窄频带信号(即窄带信号)扩展为宽频带信号(即宽带信号)。
第二种方式:盲式频带扩展,顾名思义,就是无需额外比特,直接完成频带扩展,在低采样率下的窄频带信号,利用神经网络或深度学习等技术,神经网络或深度学习的输入为窄频带信号的低频频谱,输出为高频频谱,基于高频频谱将窄频带信号扩展为宽频带信号。
但是,通过第一种方式进行频带扩展,其中的边信息需要消耗相应的比特,且存在前向兼容的问题,比如,一个典型的场景是PSTN(窄带语音)和VoIP(宽带语音)互通场景。在PSTN至VoIP(简写为PSTN-VoIP)的传输方向,如果不修改传输协议(添加对应的频带扩展码流),则无法完成PSTN-VoIP的传输方向输出宽带语音的目的。通过第二种方式进行频带扩展,输入是低频频谱,输出是高频频谱。这种方式虽然不需要消耗额外的比特,但是对网络的泛化能力要求很高,为了保证网络输出的准确性,网络的深度和体积较大,复杂度较高,性能较差。因此,基于上述两种频带扩展方式均不能满足实际频带扩展的性能要求。
针对现有技术存在的问题,以及更好的满足实际应用需求,本申请实施例提供了一种频带扩展方法,通过该方法不但不需要额外的比特,还可以减少网络的深度和体积,降低网络复杂度。
在本申请的实施例中,以PSTN和VoIP互通的语音场景为例,对本申请的方案进行描述,即在PSTN-VoIP的传输方向,将窄带语音扩展为宽带语音。在实际应用中,本申请并不限定上述应用场景,也适用于其它编码系统,包括但不限于:3GPP EVS、IEFT OPUS、SILK等主流音频编码器。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
需要说明的是,下面以PSTN和VoIP互通的语音场景为例对本申请的方案进行描述的过程中,采样率为8000Hz、一帧语音帧的帧长为10ms(相当于80个样本点/帧)。在实际应用中,考虑到PSTN帧的帧长为20ms,因此,只需要对每一个PSTN帧进行两次操作。
本申请实施例的描述过程中,将以数据帧长固定为10ms为例,然而,对于本领域技术人员来说清楚的是,帧长为其它值的场景,如20ms(相当于160个样本点/帧)的场景,本申请依然适用,在此不做限定。同样的,本申请实施例中以采样率为8000Hz为例,并不是用于限定本申请实施例所提供的频带扩展的作用范围。比如,虽然本申请主要实施例是将采样率为8000Hz的信号频带扩展到16000Hz采样率的信号,但是,本申请也可以适用于其它采样率场景,如将16000Hz采样率的信号扩展为32000Hz采样率的信号、将8000Hz采样率的信号扩展为12000Hz采样率的信号等。本申请实施例的方案可以应用于任意的需要进行信号频带扩展的场景中。
图1示出了本申请提供的一种频带扩展方法的流程示意图,如图中所示,该方法可以包括步骤S110至步骤S160,其中:
步骤S110:确定待处理的窄带信号的低频频谱参数,低频频谱参数包括低频幅度谱。
其中,待处理的窄带信号可以是需要进行频带扩展的语音帧信号,比如,在PSTN-VoIP通路中,需要将PSTN窄带语音信号扩展为VoIP宽带语音信号,则窄带信号可以是PSTN窄带语音信号。如果窄带信号是语音帧,则该窄带信号可以是一帧语音帧的全部或部分语音信号。
具体的,在实际的应用场景中,对于需要处理的信号,可以将该信号作为窄带信号一次完成频带扩展,亦可以该信号划分为多个子信号,对多个子信号分别进行处理,如上述PSTN帧的帧长为20ms,可以将该20ms语音帧的信号进行一次频带扩展,也可以将该20ms的语音帧划分为两个10ms的语音帧,分别对两个10ms的语音帧进行频带扩展。
步骤S120:将低频频谱参数输入至神经网络模型,基于神经网络模型的输出得到相关性参数,其中,相关性参数表征了目标宽频频谱的高频部分与低频部分的相关性,相关性参数包括高频频谱包络。
其中,神经网络模型可以是预先基于样本信号的低频频谱参数训练得到的模型,该模型用于预测信号的相关性参数。目标宽频频谱指的是与窄带信号想要扩展到的宽带信号(目标宽带信号)所对应的频谱。目标宽频频谱可以基于窄带信号的低频频谱得到的,比如,目标宽频频谱可以是将窄带信号的低频频谱进行复制得到的。
步骤S130:基于相关性参数和低频幅度谱,得到目标高频幅度谱。
由于相关性参数可以表征目标宽频频谱的高频部分与低频部分的相关性相关性,因此,基于该相关性参数和低频幅度谱(低频部分对应的参数),可以预测出需要扩展得到的宽带信号的目标高频频谱参数(高频部分对应的参数)。
步骤S140:基于窄带信号的低频相位谱,生成相应的高频相位谱。
其中,基于低频相位谱生成相应的高频相位谱的方式本申请实施例并不做限定,可以包括但不限于以下任一种:
第一种:通过复制低频相位谱,得到相应的高频相位谱。
第二种:对低频相位谱进行翻折,翻折后得到一个与低频相位谱相同的相位谱,将这两个低频相位谱映射到相应的高频频点,得到相应的高频相位谱。
步骤S150:根据高频幅度谱和高频相位谱,得到高频频谱。
步骤S160:基于低频频谱和高频频谱,得到频带扩展后的宽带信号。
在根据高频幅度谱和高频相位谱得到高频频谱之后,即可以将低频频谱和高频频谱合并,并对合并后的频谱进行时频反变换即频时变换后,得到新的宽带信号,实现窄带信号的频带扩展。
由于扩展后的宽带信号的带宽大于窄带信号的带宽,因此,基于该宽带信号,可以得到音色洪亮、音量较大的语音帧,使得用户可以有更好的听觉体验。
本申请实施例所提供的频带扩展方法,通过神经网络模型的输出得到上述相关性参数,由于是采用神经网络模型进行预测,因此,无需对额外的比特进行编码,是一种盲式分析方法,具有较好的前向兼容性,且由于模型的输出是能够反映出目标宽频频谱的高频部分与低频部分的相关性的参数,实现了频谱参数到相关性参数的映射,与现有的系数至系数的映射方式相比,具有更好的泛化能力。基于本申请实施例的频带扩展方案,可以得到音色洪亮、音量较大的信号,使得用户有更好的听觉体验。
本申请的可选方案中,神经网络模型可以是预先基于样本数据训练得到的模型,每个样本数据包括样本窄带信号和该样本窄带信号所对应的样本宽带信号,对于每个样本数据,可以确定出其样本宽带信号的频谱的高频部分与低频部分的相关性参数(该参数可以理解为样本数据的标注信息,即样本标签,简称为标注结果),该相关性参数包括高频频谱包络,还可以包括样本宽带信号的频谱的高频部分与低频部分的相对平坦度信息,在基于样本数据对神经网络模型进行训练时,初始的神经网络模型的输入为样本窄带信号的低频频谱参数,输出为预测出的相关性参数(简称为预测结果),可以基于各样本数据所对应的预测结果和标注结果的相似程度来判断模型训练是否结束,如通过模型的损失函数是否收敛来判断模型训练是否结束,该损失函数表征了各样本数据的预测结果和标注结果的差异程度,将训练结束时的模型作为本申请实施例应用时的神经网络模型。
在神经网络模型的应用阶段,对于上述窄带信号,则可以将该窄带信号的低频频谱参数输入至训练好的神经网络模型中,得到该窄带信号所对应的相关性参数。由于在基于样本数据对模型进行训练时,样本数据的样本标签为样本宽带信号的高频部分与低频部分的相关性参数,因此,基于该神经网络模型的输出得到的该窄带信号的相关性参数,则该相关性参数可以很好的表征出目标宽带信号的频谱的高频部分与低频部分的相关性。本申请的可选方案中,确定待处理的窄带信号的低频频谱参数,可以包括:
对窄带信号进行采样因子为第一设定值的上采样处理,得到上采样信号;
对上采样信号进行时频变换,得到低频频域系数;
基于低频频域系数,确定窄带信号的低频幅度谱。
进一步的,在确定出窄带信号的低频幅度谱之后,还可以基于低频幅度谱,确定窄带信号的低频频谱包络。
本申请的一可选实施例中,上述低频频谱参数还包括窄带信号的低频频谱包络。
具体的,为了使输入神经网络模型的数据更丰富,还可以选择与低频部分的频谱相关的参数作为神经网络模型的输入,窄带信号的低频频谱包络是与信号的频谱相关的信息,则可以将低频频谱包络作为神经网络模型的输入,从而基于低频频谱包络和低频幅度谱可以得到更加准确的相关性参数。从而将低频频谱包络和低频幅度谱输入至神经网络模型,可以得到相关性参数。
为了更好的说明本申请所提供的方案,下面结合一个示例对确定低频频谱参数的方式进行进一步详细的说明。该示例中以前文描述的PSTN和VoIP互通的语音场景、语音信号的采样率为8000Hz、一帧语音帧的帧长为10ms为例进行描述。
该示例中,PSTN信号采样率为8000Hz,根据Nyquist(奈奎斯特)采样定理,窄带信号的有效带宽为4000Hz。本示例的目的是将该窄带信号进行频带扩展后,得到带宽为8000Hz的信号,即宽带信号的带宽为8000Hz。考虑到在实际的语音通信场景中,有效带宽为4000Hz的信号,其一般有效带宽的上界为3500Hz。因此,在本方案中,实际得到的宽带信号的有效带宽为7000Hz,则本示例的目的是将带宽为3500Hz的信号进行频带扩展,得到带宽为7000Hz的宽带信号,即将采样率为8000Hz信号频带扩展到采样率为16000Hz的信号。
本示例中,采样因子为2,对窄带信号进行采样因子为2的上采样处理,得到采样率为16000Hz的上采样信号。由于窄带信号的采样率为8000Hz,帧长为10ms,则该上采样信号对应160个样本点。
之后,对上采样信号进行时频变换,时频变换可采用短时傅立叶变换(STFT,Short-Term Fourier Transform)和快速傅立叶变换(FFT:Fast Fourier Transform),具体的时频变换过程为:
对上采样信号进行短时傅立叶变换,考虑到消除帧间数据的不连续性,可采用将上一帧语音帧对应的频点和当前语音帧(待处理的窄带信号)对应的频点组合成一个数组,然后对该数组中的频点进行加窗处理,本实施例中可采用汉宁窗进行加窗处理。接着对加窗处理后的信号进行快速傅立叶变换,得到低频频域系数,考虑到快速傅立叶变换的共轭对称关系,第一个系数为直流分量,如果得到的低频频域系数为M个,则可选择(1+M/2)个低频频域系数进行后续的处理。
具体的,对于上述包含160个样本点的上采样信号,将上一语音帧对应的160个样本点与当前语音帧对应的160个样本点组成一个数组,该数组包括320个样本点。接着对该数组中的样本点进行加窗处理(如使用汉宁窗进行加窗处理),假设得到的加窗交叠后的信号为sLow(i,j)。之后,对sLow(i,j)进行快速傅立叶变换,得到320个低频频域系数SLow(i,j),同样的,i为语音帧的帧索引,j为帧内样本索引(j=0,1,…,319)。考虑到FFT的共扼对称关系,第一个系数为直流分量,因此可以只考虑前161个低频频域系数。
在得到低频频域系数之后,即可基于低频频域系数,确定窄带信号的低频幅度谱,具体的,可以通过以下公式(1)计算得到低频幅度谱:
PLow(i,j)=SQRT(Real(SLow(i,j))2+Imag(SLow(i,j))2) (1)
其中,PLow(i,j)表示低频幅度谱,SLow(i,j)为低频频域系数,Real和Imag分别为低频频域系数的实部和虚部,SQRT为开根号操作。若窄带信号为采样率为16000Hz,带宽为0~3500Hz的信号,则可以基于窄带信号的采样率和帧长,通过低频频域系数确定出70个低频幅度谱的谱系数(低频幅度谱系数)PLow(i,j),j=0,1,…69。在实际应用中,可以直接将计算出的70个低频幅度谱系数作为窄带信号的低频幅度谱,进一步的,为了计算方便,也可以进一步将低频幅度谱转换到对数域,即对通过公式(1)计算得到的幅度谱进行对数运算,将对数运算后的幅度谱作为后续处理时的低频幅度谱。
在得到包含70个系数的低频幅度谱之后,即可基于低频幅度谱确定出窄带信号的低频谱包络。
本申请的可选方案中,该方法还可以包括:
将低频幅度谱划分为第二数量的子幅度谱;
分别确定每个子幅度谱对应的子频谱包络,低频频谱包络包括确定出的第二数量的子频谱包络。
具体的,将低频幅度谱的谱系数划分为M个(第二数量)子幅度谱的一种可实现方式为:对窄带信号进行分带处理,得到M个子幅度谱,每个子带可以对应相同或不同数量的子幅度谱的谱系数,所有子带对应的谱系数的总数量等于低频幅度谱的谱系数的个数。
在划分为M个子幅度谱后,可以基于每个子幅度谱,确定每个子幅度谱对应的子频谱包络,其中,一种可实现方式为:基于每个子幅度谱对应的低频幅度谱的谱系数,可以确定每个子带的子频谱包络,即每个子幅度谱对应的子频谱包络,M个子幅度谱可以对应确定出M个子频谱包络,则低频频谱包络包括确定出的M个子频谱包络。
作为一个示例,比如,对于上述70个低频幅度谱的谱系数(可以是基于公式(1)计算出的系数,也可以是基于公式(1)计算出之后再转换到对数域的系数),如果每个子带包含相同数量的谱系数,比如5个,则每5个子幅度谱的谱系数对应的频带可以划分为一个子带,此时共划分为14(M=14)个子带,每个子带对应有5个谱系数。则在划分14个子幅度谱之后,可基于该14个子幅度谱对应确定出14个子频谱包络。
其中,确定每个子幅度谱对应的子频谱包络,可以包括:
基于每个子幅度谱所包括的谱系数的对数取值,得到每个子幅度谱对应的子频谱包络。
具体的,基于每个子幅度谱的谱系数,通过公式(2)确定每个子幅度谱对应的子频谱包络。
其中,公式(2)为:
其中,eLow(i,k)表示子频谱包络,i为语音帧的帧索引,k表示子带的索引号,共M个子带,k=0,1,2……M,则低频频谱包络中包括M个子频谱包络。
一般地,子带的谱包络定义为相邻系数的平均能量(或者进一步转换成对数表示),但是该方式,有可能会导致幅值较小的系数不能够起到实质性的作用,本而发明实施例所提供的该种将每个子幅度谱所包括的谱系数的对数标识直接求平均,得到子幅度谱对应的子频谱包络的方案,与现有常用的包络确定方案相比,可以更好的在神经网络模型训练过程的失真控制中保护好幅值较小的系数,从而使更多的信号参数能够在频带扩展中起到相应的作用。
作为一个示例,比如,低频幅度谱的谱系数为70个,每个子带对应的谱系数的个数相同,共划分14个子带,则子幅度谱为14个,每个子幅度谱对应5个谱系数,即将相邻的5个谱系数对应为一个子带,每个子带对应5个谱系数,低频频谱包络中包括14个子频谱包络。
由此,如果将低频幅度谱和低频频谱包络作为神经网络模型的输入,低频幅度谱为70维的数据,低频频谱包络为14维的数据,则模型的输入为84维的数据,由此,本方案中的神经网络模型的体积小,复杂度低。
本申请的可选方案中,步骤S130中,基于相关性参数和低频幅度谱,得到目标高频幅度谱,可以包括:
根据低频幅度谱,得到窄带信号的低频频谱包络;
基于低频幅度谱,生成初始高频幅度谱;
基于高频频谱包络和低频频谱包络,对初始高频幅度谱进行调整,得到目标高频幅度谱。
其中,具体可以是通过对低频幅度谱进行复制得到初始高频幅度谱。可以理解的是,在实际应用中,对低频幅度谱进行复制的具体方式,根据最后需要得到的宽带信号的频带宽度、进行复制的所选择的低频幅度谱部分的频带宽度的不同,复制方式也会不同。例如,假设宽带信号的频带宽度为窄带信号的2倍,且选择对窄带信号全部的低频幅度谱进行复制,则只需进行一次复制,如果选择对窄带信号部分的低频幅度谱进行复制,则需要根据所选择的部分对应的频带宽度,进行相应次数的复制,如选择窄带信号1/2的低频幅度谱进行复制,则需要复制2次,如果选择窄带信号1/4的低频幅度谱进行复制,则需要复制4次。
作为一个示例,比如,扩展后的宽带信号的带宽为7kHz,所选择进行复制的低频幅度谱对应的带宽为1.75kHz,则基于低频幅度谱对应的带宽和扩展后的宽带信号的带宽,可以将低频幅度谱对应的带宽复制3次,得到初始高频幅度谱对应的带宽(5.25kHz)。如果所选择进行复制的低频幅度谱对应的带宽为3.5kHz,扩展后的宽带信号的带宽为7kHz,则将低频幅度谱对应的带宽复制1次即可得到初始高频幅度谱对应的带宽(3.5kHz)。
本申请的可选实施方式中,基于低频幅度谱,生成初始高频幅度谱的一种实现方式可以为:对低频幅度谱中高频段部分的幅度谱进行复制,得到初始高频幅度谱。
由于低频幅度谱的低频段部分包含大量谐波,影响扩展后宽带信号的信号质量,因此,可以选择低频幅度谱中高频段部分的幅度谱进行复制,以得到初始高频幅度谱。
作为一个示例,如前述场景为例,进行继续说明,低频幅度谱共对应70个频点,如果选择低频幅度谱对应的35-69个频点(频幅度谱中高频段部分的幅度谱)作为待复制的频点,即“母板”,且扩展后的宽带信号的有效带宽为7000Hz,则需要对所选择的低频幅度谱对应的频点进行复制得到包含70个频点的初始高频幅度谱,为了得到该包含70个频点的初始高频幅度谱,可以将低频幅度谱对应的35-69,共计35个频点复制两次,生成初始高频幅度谱。同样的,如果选择低频幅度谱对应的0-69个频点作为待复制的频点,且扩展后的宽带信号的有效带宽为7000Hz,则可将低频幅度谱对应的0-69,共计70个频点复制一次,生成初始高频幅度谱,该初始高频幅度谱共包括70个频点。
由于低频幅度谱对应的信号中可能包含大量的谐波,仅通过复制得到的初始高频幅度谱对应的信号中同样会包含大量的谐波,则为了减少频带扩展后的宽带信号中的谐波,可以通过高频频谱包络和低频频谱包络的差值对初始高频幅度谱进行调整,将调整后的初始高频幅度谱作为目标高频幅度谱,可以减少最终频点扩展后得到的宽带信号中的谐波。
本申请的可选方案中,高频频谱包络和低频频谱包络均为对数域的频谱包络,基于高频频谱包络和低频频谱包络,对初始高频幅度谱进行调整,得到目标高频幅度谱,可以包括:
确定高频频谱包络和低频频谱包络的差值;
基于差值对初始高频幅度谱进行调整,得到目标高频幅度谱。
具体的,可以将高频频谱包络和低频频谱包络通过对数域的频谱包络表示,则可基于对数域的频谱包络确定出的差值对初始高频幅度谱进行调整,得到目标高频幅度谱,通过对数域的频谱包络来表示高频频谱包络和低频频谱包络,以便于计算。
本申请的可选方案中,高频频谱包络包括第一数量的第一子频谱包络,初始高频幅度谱包括第一数量的子幅度谱,其中,每个第一子频谱包络是基于初始高频幅度谱中对应的子幅度谱确定的。
进一步地,确定高频频谱包络和低频频谱包络的差值,基于差值对初始高频幅度谱进行调整,得到目标高频幅度谱,可以包括:
确定每个第一子频谱包络与低频频谱包络中对应的频谱包络(下文将低频频谱包络中对应的频谱包络描述为第二子频谱包络)的差值;
基于每个第一子频谱包络所对应的差值,对对应的初始子幅度谱进行调整,得到第一数量的调整后的子幅度谱;
基于第一数量的调整后的子幅度谱,得到目标高频幅度谱。
具体的,一个第一子频谱包络可以基于相对应的初始高频幅度谱中对应的子幅度谱确定,一个第二子频谱包络也可以基于相对应的低频幅度谱中对应的子幅度谱确定。每个子幅度谱对应的谱系数的数量可以是相同的,也可以是不同的,如果每个子频谱包络是基于相对应的幅度谱中对应的子幅度谱确定,则每个子频谱包络对应的幅度谱中的子幅度谱的谱系数的数量也可以是不同的。其中,第一数量与第二数量可以相同也可以不同,也可以不同,第一数量通常不小于第二数量。
基于前述场景为例,进行继续说明,如果第一数量与第二数量相同,模型的输出为14维的高频频谱包络(第一数量为14),模型的输入包括低频幅度谱和低频频谱包络,其中,低频幅度谱包含70维低频频域系数,低频频谱包络包含14维子频谱包络(第二数量为14),则模型的输入为84维的数据,输出维度远小于输入维度,由此,将低频频谱包络划分为第三数量的子频谱包络,可以减小神经网络模型的体积和深度,同时降低模型的复杂度。
具体的,通过神经网络模型得到的高频频谱包络可以包括第一数量的第一子频谱包络,通过前文描述可知,这第一数量的第一子频谱包络是基于低频幅度谱中对应的子幅度谱确定的,即一个子频频谱包络是基于低频幅度谱中对应的一个子幅度谱确定的。基于前述场景为例,进行继续说明,低频幅度谱中的子幅度谱为14个,则高频频谱包络包括14个子频谱包络。
则高频频谱包络和低频频谱包络的差值即为每一个第一子频谱包络与对应的第二子频谱包络的差值,在基于差值对高频频谱包络进行调整则是基于每个第一子频谱包络与对应的第二子频谱包络的差值对对应的初始子幅度谱进行调整。基于前述场景为例,进行继续说明,如果第一数量和第二数量相同,即高频频谱包络包括14个第一子频谱包络,低频频谱包络包括14个第二子频谱包络,则可以基于确定出的14个第二子频谱包络与对应的14个第一子频谱包络,确定出14个差值,基于这14个差值,对对应的子带对应的初始子幅度谱进行调整。
本申请的可选方案中,相关性参数还包括相对平坦度信息,相对平坦度信息表征了所述目标宽频频谱的高频部分的频谱平坦度与低频部分的频谱平坦度的相关性;
确定高频频谱包络和低频频谱包络的差值,可以包括:
基于相对平坦度信息以及低频频谱的能量信息,确定高频频谱包络的增益调整值;
基于增益调整值对高频频谱包络进行调整,得到调整后的高频频谱包络;
确定调整后的高频频谱包络和低频频谱包络的差值。
其中,基于前文的描述,在神经网络模型训练的过程中,标注结果可以包括相对平坦度信息,即样本数据的样本标签包括样本宽带信号的高频部分与低频部分的相对平坦度信息,该相对平坦度信息是基于样本宽带信号的频谱的高频部分与低频部分确定的,因此,在神经网络模型应用时,在模型的输入为窄带信号的低频频谱参数时,可以基于该神经网络模型的输出预测出目标宽频频谱的高频部分与低频部分的相对平坦度信息。
其中,相对平坦度信息可以反应出目标宽频频谱的高频部分与低频部分的相对频谱平坦度,即高频部分相对于低频部分的频谱是否是平坦的,如果相关性参数中还包括相对平坦度信息,则可以先基于相对平坦度信息和低频频谱的能量信息对高频频谱包络进行调整,再基于调整后的高频频谱包络和低频频谱包络的差值对初始高频频谱进行调整,使得最终得到的宽带信号中的谐波更少。其中,低频频谱的能量信息可以基于低频幅度谱的谱系数确定得到,低频频谱的能量信息可以表示频谱平坦度。
本申请的可选实施例中,上述相关性参数可以包括高频频谱包络和相对平坦度信息,神经网络模型至少包括输入层和输出层,输入层输入低频频谱参数的特征向量(该特征向量包括70维低频幅度谱和14维低频频谱包络),输出层至少包括单边长短期记忆网络(LSTM,Long Short-Term Memory)层以及分别连接LSTM层的两个全连接网络层,每个全连接网络层可以包括至少一个全连接层,其中,LSTM层将输入层处理后的特征向量进行转换,其中一个全连接网络层根据LSTM层转换后的向量值进行第一分类处理,并输出高频频谱包络(14维),另一个全连接网络层根据LSTM层转换后的向量值进行第二分类处理,并输出相对平坦度信息(4维)。
作为一个示例,图2中示出了本申请实施例提供的一种神经网络模型的结构示意图,如图中所示,该神经网络模型主要可以包括两个部分:单边LSTM层和两个全连接层,即该示例中的每个全连接网络层包括一个全连接层,其中,一个全连接层的输出为高频频谱包络,另一个全连接层的输出为相对平坦度信息。
本申请的可选方案中,相对平坦度信息包括对应于高频部分的至少两个子带区域的相对平坦度信息,一个子带区域所对应的相对平坦度信息,表征了高频部分的一个子带区域的频谱平坦度与低频部分的高频频段的频谱平坦度的相关性。
其中,相对平坦度信息是基于样本宽带信号的频谱的高频部分与低频部分确定的,由于样本窄带信号的低频部分的低频频段包含的谐波更为丰富,因此,可以选择样本窄带信号的低频部分的高频频段作为确定相对平坦度信息的参考,将该低频部分的高频频段作为母版,将样本宽带信号的高频部分划分为至少两个子带区域,每个子带区域的相对平坦度信息是基于相对应的子带区域的频谱和低频部分的频谱确定的。
基于前文的描述,在神经网络模型训练的过程中,标注结果可以包括每个子带区域的相对平坦度信息,即样本数据的样本标签可以包括样本宽带信号的高频部分的各个子带区域与低频部分的相对平坦度信息,该相对平坦度信息是基于样本宽带信号的高频部分的子带区域的频谱与低频部分的频谱确定的,因此,在神经网络模型应用时,在模型的输入为窄带信号的低频频谱参数时,可以基于该神经网络模型的输出预测出目标宽频频谱的高频部分的子带区域与低频部分的相对平坦度信息。
其中,如果高频部分包括至少两个子带区域的幅度谱,则对应于该至少两个子带区域,相对平坦度信息也包括对应于至少两个子带区域的相对平坦度信息。低频部分的低频频段包含的谐波更为丰富,因此选择低频部分的高频频段作为确定相对平坦度信息的参考,将该低频部分的高频频段作为母版,基于高频部分的至少两个子带区域的幅度谱和低频部分的幅度谱来确定相对平坦度信息。
其中,为了达到频带扩展的目的,目标宽频频谱的低频部分的幅度谱的谱系数的个数可以与高频部分的幅度谱的谱系数的个数相同,也可以不同,每个子带区域对应的谱系数的数量可以相同,也可以不同,只要至少两个子带区域对应的谱系数的总数量与初始高频幅度谱对应的谱系数的数量一致即可。
作为一个示例,比如,至少两个子带区域为2个子带区域,分别为第一子带区域和第二子带区域,低频部分的高频频段为第35个至第69个频点所对应的频段,第一子带区域对应谱系数的数量与第二子带区域对应的谱系数的数量相同,第一子带区域和第二子带区域对应的谱系数的总数量与低频部分对应的谱系数的数量一致,则第一子带区域对应的频段是第70个至第104个频点对应的频段,第二子带区域对应的频段是第105个至第139个频点对应的频段,每个子带区域的幅度谱的谱系数的个数为35个,与低频部分的高频频段的幅度谱的谱系数的个数相同。如果选择的低频部分的高频频段为第56个至第69个频点所对应的频段,则可以将高频部分划分为5个子带区域,每个子带区域对应14个谱系数。
基于相对平坦度信息以及低频频谱的能量信息,确定高频频谱包络的增益调整值,可以包括:
基于每个子带区域所对应的相对平坦度信息、以及低频频谱中每个子带区域所对应的频谱能量信息,确定高频频谱包络中对应频谱包络部分的增益调整值;
其中,基于增益调整值对高频频谱包络进行调整,可以包括:
基于高频频谱包络中每个对应频谱包络部分的增益调整值,对相应的频谱包络部分进行调整。
具体的,如果高频部分包括至少两个子带区域,则可以基于个子带区域所对应的相对平坦度信息和低频频谱中每个子带区域所对应的频谱能量信息,确定每个子带区域对应的高频频谱包络中对应频谱包络部分的增益调整值,然后基于确定得到的增益调整值,对相应的频谱包络部分进行调整。
作为一个示例,如前文所描述的至少两个子带区域为两个子带区域,分别为第一子带区域和第二子带区域,第一子带区域与低频部分的高频频段的相对平坦度信息为第一相对平坦度信息,第二子带区域与低频部分的高频频段的相对平坦度信息为第二相对平坦度信息,基于第一相对平坦度信息和第一子带区域对应的频谱能量信息确定出的增益调整值,可以对第一子带区域对应的高频频谱包络的包络部分进行调整,基于第二相对平坦度信息和第二子带区域对应的频谱能量信息确定出的增益调整值,可以对第二子带区域对应的高频频谱包络的包络部分进行调整。
本申请的可选方案中,由于样本窄带信号的低频部分的低频频段包含的谐波更为丰富,因此,可以选择样本窄带信号的低频部分的高频频段作为确定相对平坦度信息的参考,将该低频部分的高频频段作为母版,将样本宽带信号的高频部分划分为至少两个子带区域,基于高频部分的每个子带区域的频谱和低频部分的频谱来确定每个子带区域的相对平坦度信息。
基于前文的描述,在神经网络的训练阶段,可以基于样本数据(样本数据中包括样本窄带信号和对应的样本宽带信号),通过方差分析法来确定样本宽带信号的频谱的高频部分的每个子带区域的相对平坦度信息。
作为一个示例,如果样本宽带信号的高频部分划分为两个子带区域,分别为第一子带区域和第二子带区域,则样本宽带信号的高频部分与低频部分的相对平坦度信息可以为,第一子带区域与样本宽带信号的低频部分的高频频段的第一相对平坦度信息,以及第二子带区域与样本宽带信号的低频部分的高频频段的第二相对平坦度信息。
其中,第一相对平坦度信息和第二相对平坦坦度信息的具体确定方式可以为:
基于样本窄带信号的幅度谱PLow,sample(i,j)和样本宽带信号的高频部分的幅度谱PHigh,sample(i,j),通过公式(3)至公式(5)计算如下三个方差:
varL(PLow,sample(i,j)),j=35,36,…,69 (3)
varH1(PHigh,sample(i,j)),j=70,71,…,104 (4)
varH2(PHigh,sample(i,j)),j=105,106,…,139 (5)
其中,公式(3)为样本窄带信号的低频部分的高频频段的幅度谱的方差,公式(4)为第一子带区域的幅度谱的方差,公式(5)为第二子带区域的幅度谱的方差,var()表示求方差。
基于上述三个方差,通过公式(6)和公式(7)确定每个子带区域的幅度谱与低频部分的高频频段的幅度谱的相对平坦度信息:
其中,fc(0)表示第一子带区域的幅度谱与低频部分的高频频段的幅度谱的第一相对平坦度信息,fc(1)表示第二子带区域的幅度谱与低频部分的高频频段的幅度谱的第二相对平坦度信息。
其中,可以将上述两个值fc(0)和fc(1)以是否大于等于0分类(本申请实施例中,用1表示大于等于0,用0表示小于0),将fc(0)和fc(1)定义为一个二分类数组,因此该数组包含4种排列组合:{0,0}、{0,1}、{1,0}、{1,1}。
由此,模型输出的相对平坦度信息可以为4个概率值,该概率值用于标识相对平坦度信息属于上述4个数组的概率。
通过概率最大原则,可以选择出4个数组的排列组合中其中一个,作为预测出的两个子带区域的幅度谱与低频部分的高频频段的幅度谱的相对平坦度信息。具体的可以通过公式(8)表示:
v(i,k)=0or 1,k=0,1 (8)
其中,v(i,k)表示两个子带区域的幅度谱与低频部分的高频频段的幅度谱的相对平坦度信息,k表示不同子带区域的索引,则每个子带区域可以对应一个相对平坦度信息,例如,k=0时,v(i,k)=0表示第一子带区域相对于低频部分较为振荡,即平坦度较差,v(i,k)=1则表示第一子带区域相对于低频部分较为平坦,即平坦度较好。,
在本发明的实施例中,将窄带信号的低频频谱参数输入至训练好的神经网络模型,可以通过神经网络模型预测得到目标宽频频谱的高频部分的相对平坦度信息。如果选择窄带信号的低频部分的高频频段对应的低频频谱参数作为神经网络模型的输入,则基于该训练好的神经网络模型可以预测得到目标宽频频谱的高频部分的至少两个子带区域的相对平坦度信息。本申请的可选方案中,若高频频谱包络包括第一数量的第一子频谱包络,基于每个子带区域所对应的相对平坦度信息,以及低频频谱中每个子带区域对应的频谱能量信息,确定高频频谱包络中对应频谱包络部分的增益调整值,可以包括:
对于每一个第一子频谱包络,根据低频频谱包络中与第一子频谱包络对应的频谱包络所对应的频谱能量信息(下文将低频频谱包络中与第一子频谱包络对应的频谱包络描述为第二子频谱包络)、第二子频谱包络所对应的子带区域所对应的相对平坦度信息、第二子频谱包络所对应的子带区域对应的频谱能量信息,确定第一子频谱包络的增益调整值;
根据高频频谱包络中每个对应频谱包络部分的增益调整值,对相应的频谱包络部分进行调整,可以包括:
根据高频频谱包络中每个第一子频谱包络的增益调整值,对相应的第一子频谱包络进行调整。
具体的,高频频谱包络的每个第一子频谱包络对应一个增益调整值,该增益调整值是基于第二子频谱包络所对应的频谱能量信息、第二子频谱包络所对应的子带区域所对应的相对平坦度信息、第二子频谱包络所对应的子带区域对应的频谱能量信息确定的,且该第二子频谱包络是与该第一子频谱包络对应的,高频频谱包络包括第一数量的第一子频谱包络,则高频频谱包络包括对应的第一数量的增益调整值。
可以理解的是,如果高频部分包括对应于至少两个子带区域,对于至少两个子带区域对应的高频频谱包络,可基于每个子带区域对应的第一子频谱包络对应的增益调整值对对应子带区域的第一子频谱包络进行调整。
作为一个示例,下面以第一子带区域中包括35个频点为例,基于第二子频谱包络所对应的频谱能量信息、第二子频谱包络所对应的子带区域所对应的相对平坦度信息、第二子频谱包络所对应的子带区域对应的频谱能量信息,确定第二子频谱包络对应的第一子频谱包络的增益调整值的一种可实现方案为:
(1)、解析v(i,k),如果为1,表示高频部分非常平坦,如果为0,表示高频部分振荡。
(2)、对于第一子带区域中的35个频点,分成7个子带,每个子带对应一个第一子频谱包络。分别计算每个子带的平均能量pow_env(第二子频谱包络所对应的频谱能量信息),并计算上述7个平均能量的平均值Mpow_env(第二子频谱包络所对应的子带区域对应的频谱能量信息)。其中,每个子带的平均能量为基于对应的低频幅度谱确定的,比如,将每个低频幅度谱的谱系数的绝对值的平方作为一个低频幅度谱的能量,一个子带对应5个低频幅度谱的谱系数,则可将一个子带对应的低频幅度谱的能量的平均值作为该子带的平均能量。
(3)、基于解析的第一子带区域对应的相对平坦度信息、平均能量pow_env和平均值Mpow_env,计算每个第一子频谱包络的增益调整值,具体包括:
当v(i,k)=1,G(j)=a1+b1*SQRT(Mpow_env/pow_env(j)),j=0,1,…,6;
当v(i,k)=0,G(j)=a0+b0*SQRT(Mpow_env/pow_env(j)),j=0,1,…,6;
其中,作为一可选方案,a1=0.875,b1=0.125,a0=0.925,b0=0.075,G(j)为增益调整值。
其中,对于v(i,k)=0的情况,增益调整值为1,即无需对高频频谱包络进行平坦化操作(调整)。
基于上述方式可确定出高频频谱包络中7个第一子频谱包络的增益调整值,基于7个第一子频谱包络的增益调整值,对相应的第一子频谱包络进行调整,上述操作可以拉近不同子带的平均能量差异,对第一子带区域对应的频谱进行不同程度的平坦化处理。
可以理解的是,可以通过上述相同的方式对第二子带区域对对应的高频频谱包络进行调整,在此不再赘述。高频频谱包络一共包括14个子频带,则可以对应确定出14个增益调整值,基于该14个增益调整值对相应的子频谱包络进行调整。
本申请的可选方案中,低频频域参数还包括低频频域系数,根据高频幅度谱和高频相位谱,得到高频频谱,可以包括:
根据高频幅度谱和高频相位谱,生成高频频域系数;
基于低频频域系数和高频频域系数,生成高频频谱。
本申请的可选方案中,步骤S160中,基于低频频谱和高频频谱,得到频带扩展后的宽带信号,可以包括:
将低频频谱和高频频谱合并,得到宽频带频谱;
对宽频带频谱进行频时变换,得到频带扩展后的宽带信号。
具体的,宽带信号中包括窄带信号中的低频部分的信号以及扩展后的高频部分的信号,则在得到低频部分对应的低频频谱和高频部分对应的高频频谱后,可以将低频频谱和高频频谱合并,得到宽频带频谱,进而对宽频带频谱进行频时变换(时频变换的反变换,将频域信号变换为时域信号),就可以得到频带扩展后的目标语音信号。
本发明的可选方案中,若窄带信号包括至少两路关联的信号,该方法还可以包括:
将至少两路关联的信号进行融合,得到窄带信号;
或者,
将至少两路关联的信号中的每一路信号分别作为窄带信号。
具体的,窄带信号可以为多路关联的信号,比如,相邻的语音帧,则可以将至少两路关联的信号进行融合,得到一路信号,将该一路信号作为窄带信号,然后通过本申请中的频带扩展方法对该窄带信号进行扩展,得到宽带信号。
或者,也可以将至少两路关联的信号中的每一路信号作为窄带信号,通过本申请中的频带扩展方法对该窄带信号进行扩展,得到对应的至少两路宽带信号,该至少两路宽带信号可以合并成一路信号输出,也可以分别输出,本申请中不作限定。
为了更好的理解本申请实施例所提供的方法,下面结合具体应用场景的示例对本发明实施例的方案进行进一步详细说明。
作为一个示例,应用场景为PSTN(窄带语音)和VoIP(宽带语音)互通场景,即将PSTN电话机对应的窄带语音作为待处理的窄带信号,对该待处理的窄带信号进行频带扩展,使得VoIP接收端接收到的语音帧为宽带语音,从而提高接收端的听觉体验。
在本示例中,待处理的窄带信号为采用率为8000Hz,帧长为10ms的信号,根据Nyquist采样定理,待处理的窄带信号的有效带宽为4000Hz。在实际的语音通信场景,一般有效带宽的上界为3500Hz。因此,在本示例中,扩展后的宽带信号的有效带宽为7000Hz为例进行说明。
如图3所示,本实施例的流程包括以下步骤:
步骤S1,前端信号处理:
对待处理的窄带信号进行因子为2的上采样处理,输出采样率为16000Hz的上采样信号。
由于窄带信号的采样率为8000Hz,帧长为10ms,则该上采样信号对应160个样本点(频点),对上采样信号进行短时傅立叶变换,具体为:将上一语音帧对应的160个样本点与当前语音帧(待处理的窄带信号)对应的160个样本点组成一个数组,该数组包括320个样本点。接着对该数组中的样本点进行加窗处理,假设得到的加窗交叠后的信号为sLow(i,j)。之后,对sLow(i,j)进行快速傅立叶变换,得到320个低频频域系数SLow(i,j),同样的,i为语音帧的帧索引,j为帧内样本索引(j=0,1,…,319)。考虑到FFT的共扼对称关系,第一个系数为直流分量,因此可以只考虑前161个低频频域系数。
步骤S2,特征提取:
a)、基于低频频域系数,通过公式(1)计算低频幅度谱:
PLow(i,j)=SQRT(Real(SLow(i,j))2+Imag(SLow(i,j))2) (1)
其中,PLow(i,j)表示低频幅度谱,SLow(i,j)为低频频域系数,Real和Imag分别为低频频域系数的实部和虚部,SQRT为开根号操作。若窄带信号为采样率为8000Hz,有效带宽为0~3500Hz的信号,则可以基于窄带信号的采样率和帧长,通过低频频域系数确定出70个低频幅度谱的谱系数(低频幅度谱系数)PLow(i,j),j=0,1,…69。在实际应用中,可以直接将计算出的70个低频幅度谱系数作为窄带信号的低频幅度谱,进一步的,为了计算方便,也可以进一步将低频幅度谱转换到对数域。
在得到包含70个系数的低频幅度谱之后,即可基于低频幅度谱确定出窄带信号的低频谱包络。
b)、进一步地,还可以通过以下方式基于低频幅度谱,确定低频频谱包络:
对窄带信号进行分带,针对70个低频幅度谱的谱系数,可以将每5个相邻的子幅度谱的谱系数对应的频带划分为一个子带,共划分为14个子带,每个子带对应有5个谱系数。对于每个子带,该子带的低频频谱包络定义为相邻谱系数的平均能量。具体可通过公式(2)计算得到:
其中,eLow(i,k)表示子频谱包络(每个子带的低频频谱包络),k表示子带的索引号,共14个子带,k=0,1,2……13,则低频频谱包络中包括14个子频谱包络。
一般地,子带的谱包络定义为相邻系数的平均能量(或者进一步转换成对数表示),但是该方式,有可能会导致幅值较小的系数不能够起到实质性的作用,本而发明实施例所提供的该种将每个子幅度谱所包括的谱系数的对数标识直接求平均,得到子幅度谱对应的子频谱包络的方案,与现有常用的包络确定方案相比,可以更好的在神经网络模型训练过程的失真控制中保护好幅值较小的系数,从而使更多的信号参数能够在频带扩展中起到相应的作用。
由此,可以将70维的低频幅度谱和14维的低频频谱包络作为神经网络模型的输入。
步骤S3,输入神经网络模型:
输入层:神经网络模型输入上述84维特征向量,
输出层:考虑到本实施例中频带扩展的目标宽带是7000Hz,因此,需要预测14个对应于3500-7000Hz频段的子带的高频频谱包络,即可完成基本的频带扩展功能。通常,语音帧的低频部分包含大量的基音和共振峰等类谐波结构;高频部分的频谱更为平坦;如果仅是简单地将低频频谱复制到高频,得到初始高频幅度谱,并对初始高频幅度谱进行基于子带的增益控制,重建的高频部分将产生过多的类谐波结构,会引起失真,影响听感;因此,本示例中基于神经网络模型预测出的相对平坦度信息,描述低频部分和高频部分的相对平坦度,对初始高频幅度谱进行调整,使得调整后的高频部分更为平坦,减少谐波的干扰。
在本示例中,通过对低频幅度谱中高频段部分的幅度谱进行两次复制,生成初始高频幅度谱,同时将高频部分的频段平均分成两个子带区域,分别为第一子带区域和第二子带区域,高频部分对应70个谱系数,每个子带区域对应35个谱系数,因此,高频部分将做两次平坦度分析,即对每个子带区域进行一次平坦度分析,由于低频部分特别是1000Hz以下对应的频段,谐波成分更为丰富;因此,本实施例中选择35-69的频点对应的谱系数作为“母板”,则第一子带区域对应的频段是第70个至第104个频点对应的频段,第二子带区域对应的频段是第105个至第139个频点对应的频段。
平坦度分析可以使用经典统计学中定义的方差(Variance)分析方法。通过方差分析方法可以描述出频谱的振荡程度,值越高说明谐波成份更丰富。
基于前文的描述,由于样本窄带信号的低频部分的低频频段包含的谐波更为丰富,因此,可以选择样本窄带信号的低频部分的高频频段作为确定相对平坦度信息的参考,即将该低频部分的高频频段(35-69的频点所对应的频段)作为母版,对应将样本宽带信号的高频部分划分为至少两个子带区域,基于高频部分的每个子带区域的频谱和低频部分的频谱来确定出每个子带区域的相对平坦度信息。
在神经网络模型的训练阶段,可以基于样本数据(样本数据中包括样本窄带信号和对应的样本宽带信号),通过方差分析法来确定样本宽带信号的频谱的高频部分的每个子带区域的相对平坦度信息。
作为一个示例,如果样本宽带信号的高频部分划分为两个子带区域,分别为第一子带区域和第二子带区域,则样本宽带信号的高频部分与低频部分的相对平坦度信息可以为,第一子带区域与样本宽带信号的低频部分的高频频段的第一相对平坦度信息,以及第二子带区域与样本宽带信号的低频部分的高频频段的第二相对平坦度信息。
其中,第一相对平坦度信息和第二相对平坦坦度信息的具体确定方式可以为:
基于样本窄带信号的幅度谱PLow,sample(i,j)和样本宽带信号的高频部分的幅度谱PHigh,sample(i,j),通过公式(3)至公式(5)计算如下三个方差:
varL(PLow,sample(i,j)),j=35,36,…,69 (3)
varH1(PHigh,sample(i,j)),j=70,71,…,104 (4)
varH2(PHigh,sample(i,j)),j=105,106,…,139 (5)
其中,公式(3)为样本窄带信号的低频部分的高频频段的幅度谱的方差,公式(4)为第一子带区域的幅度谱的方差,公式(5)为第二子带区域的幅度谱的方差,var()表示求方差。
基于上述三个方差,通过公式(6)和公式(7)确定每个子带区域的幅度谱与低频部分的高频频段的幅度谱的相对平坦度信息:
其中,fc(0)表示第一子带区域的幅度谱与低频部分的高频频段的幅度谱的第一相对平坦度信息,fc(1)表示第二子带区域的幅度谱与低频部分的高频频段的幅度谱的第二相对平坦度信息。
其中,可以将上述两个值fc(0)和fc(1)以是否大于等于0分类,将fc(0)和fc(1)定义为一个二分类数组,因此该数组包含4种排列组合:{0,0}、{0,1}、{1,0}、{1,1}。
由此,模型输出的相对平坦度信息可以为4个概率值,该概率值用于标识相对平坦度信息属于上述4个数组的概率。
通过概率最大原则,可以选择出4个数组的排列组合中其中一个,作为预测出的两个子带区域的幅度谱与低频部分的高频频段的幅度谱的相对平坦度信息。具体的可以通过公式(8)表示:
v(i,k)=0or 1,k=0,1 (8)
其中,v(i,k)表示两个子带区域的幅度谱与低频部分的高频频段的幅度谱的相对平坦度信息,k表示不同子带区域的索引,比如,k为0时表示第一子带区域,k为1时表示第二子带区域,则每个子带区域可以对应一个相对平坦度信息。,
步骤S4,生成高频幅度谱:
如前文,将低频幅度谱(35-69共计35个点)复制两次,生成高频的幅度谱(共70个频点),基于窄带信号对应的低频频谱参数,通过训练好的神经网络模型,可以得到预测得到的目标宽频频谱的高频部分的相对平坦度信息。由于在本示例中选择的是35-69对应的低频幅度谱的频域系数,则通过该训练好的神经网络模型可以预测得到目标宽频频谱的高频部分的至少两个子带区域的相对平坦度信息,即目标宽频频谱的高频部分被划分为至少两个子带区域,在本示例中,以2个子带区域为例,则神经网络模型的输出为针对于该2个子带区域的相对平坦度信息。
根据预测出2个子带区域对应的相对平坦度信息,对重建的高频幅度谱进行后滤波。以其中第一子带区域为例,主要步骤包括:
(1)解析v(i,k),如果为1,表示高频部分非常平坦,如果为0,表示高频部分振荡。
(2)对于第一子带区域中的35个频点,分成7个子带,高频频谱包络包括14个第一子频谱包络,低频频谱包络包括14个第二子频谱包络,则每个子带可以对应一个第一子频谱包络。分别计算每个子带的平均能量pow_env(第二子频谱包络所对应的频谱能量信息),并计算上述7个平均能量的平均值Mpow_env(第二子频谱包络所对应的子带区域对应的频谱能量信息)。其中,每个子带的平均能量为基于对应的低频幅度谱确定的,比如,将每个低频幅度谱的谱系数的绝对值的平方作为一个低频幅度谱的能量,一个子带对应5个低频幅度谱的谱系数,则可将一个子带对应的低频幅度谱的能量的平均值作为该子带的平均能量。
(3)基于解析的第一子带区域对应的相对平坦度信息、平均能量pow_env和平均值Mpow_env,计算每个第一子频谱包络的增益调整值,具体包括:
当v(i,k)=1,G(j)=a1+b1*SQRT(Mpow_env/pow_env(j)),j=0,1,…,6;
当v(i,k)=0,G(j)=a0+b0*SQRT(Mpow_env/pow_env(j)),j=0,1,…,6;
其中,在本示例中,a1=0.875,b1=0.125,a0=0.925,b0=0.075,G(j)为增益调整值。
其中,对于v(i,k)=0的情况,增益调整值为1,即无需对高频频谱包络进行平坦化操作(调整)。
(4)基于上述方式可确定出高频频谱包络ehigh(i,k)中每个第一子频谱包络对应的增益调整值,基于每个第一子频谱包络对应的增益调整值,对相应的第一子频谱包络进行调整,上述操作可以拉近不同子带的平均能量差异,对第一子带区域对应的频谱进行不同程度的平坦化处理。
可以理解的是,可以通过上述相同的方式对第二子带区域对对应的高频频谱包络进行调整,在此不再赘述。高频频谱包络一共包括14个子频带,则可以对应确定出14个增益调整值,基于该14个增益调整值对相应的子频谱包络进行调整。
进一步地,基于调整后的高频频谱包络,确定调整后的高频频谱包络和低频频谱包络的差值,基于差值对初始高频幅度谱进行调整,得到目标高频幅度谱PHigh(i,j)。
步骤S5,生成高频频谱:
基于低频相位谱Phlow(i,j)生成相应的高频相位谱PhHigh(i,j),可以包括以下任一种:
第一种:通过复制低频相位谱,得到相应的高频相位谱。
第二种:对低频相位谱进行翻折,翻折后得到一个与低频相位谱相同的相位谱,将这两个低频相位谱映射到相应的高频频点,得到相应的高频相位谱。
根据高频幅度谱和高频相位谱,生成高频频域系数SHigh(i,j);基于低频频域系数和高频频域系数,生成高频频谱。
步骤S6,频时变换:
基于低频频谱和高频频谱,得到频带扩展后的宽带信号。
具体的,将低频频域系数SLow(i,j)和高频频域系数SHigh(i,j)合并,生成高频频谱,基于低频频谱和高频频谱,进行时频变换反变换,可以生成新的语音帧sRec(i,j),即宽带信号。此时,待处理的窄带信号的有效频谱已经扩展为7000Hz。
通过本方案的方法,在PSTN与VoIP互通的语音通信场景,VoIP侧只能收到来自于PSTN的窄带话音(采样率为8kHz,有效带宽一般是3.5kHz)。用户的直观感受是声音不够亮、音量不够大、可懂度一般。基于本申请公开的技术方案进行频带扩展,无需额外比特,可以在VoIP侧接收端将有效带宽扩展到7kHz。用户可以直观感受到更亮的音色、更大的音量和更好的可懂度。此外,基于本方案没有前向兼容的问题,即无需修改协议,可以完美兼容PSTN。
在本申请的实施例中,可以将本申请的方法应用在PSTN-VoIP通路的下行侧,比如,可以在装有会议系统的客户端集成本申请实施例所提供的方案的功能模块,则可以在客户端实现对窄频带信号的频带扩展,得到宽带信号。具体,该场景中的信号处理为一种信号后处理技术,以PSTN(编码系统可以是ITU-T G.711)为例,在会议系统客户端内部,当完成G.711解码后恢复出语音帧;对语音帧进行本申请实施涉及的后处理技术,可以让VoIP用户接收到宽带信号,即使发送端是窄带信号。
本申请实施例的方法也可以应用在PSTN-VoIP通路的混音服务器内,在通过该混音服务器进行频带扩展后,将频带扩展后的宽带信号发送给VoIP客户端,VoIP客户端在收到宽带信号对应的VoIP码流后,通过解码VoIP码流,可以恢复出经过频带扩展输出的宽带语音。混音服务器中一个典型功能是进行转码,例如,将PSTN链路的码流(如使用G.711编码)转码中VoIP常用的码流(如OPUS或者SILK等)。在混音服务器中,可以将G.711解码后的语音帧上采样到16000Hz,然后使用本申请实施例所提供的方案,完成频带扩展;然后,转码成VoIP常用的码流。VoIP客户端在收到一路或者多路的VoIP码流,通过解码,可以恢复出经过频带扩展输出的宽带语音。
基于与图1中所示的方法相同的原理,本发明实施例还提供了一种频带扩展装置20,如图4中所示,该频带扩展装置10可以包括低频频谱参数确定模块210,相关性参数确定模块220,高频幅度谱确定模块230,高频相位谱生成模块240,高频频谱确定模块250和宽带信号确定模块260,其中,
低频频谱参数确定模块210,用于确定待处理的窄带信号的低频频谱参数,低频频谱参数包括低频幅度谱;
相关性参数确定模块220,用于将低频频谱参数输入至神经网络模型,基于神经网络模型的输出得到相关性参数,其中,相关性参数表征了目标宽频频谱的高频部分与低频部分的相关性,相关性参数包括高频频谱包络;
高频幅度谱确定模块230,用于基于相关性参数和低频幅度谱,得到目标高频幅度谱;
高频相位谱生成模块240,用于基于窄带信号的低频相位谱,生成相应的高频相位谱;
高频频谱确定模块250,用于根据目标高频幅度谱和高频相位谱,得到高频频谱;
宽带信号确定模块260,用于基于低频频谱和高频频谱,得到频带扩展后的宽带信号。
通过本实施例中的方案,可以基于待处理的窄带信号的低频频谱参数,通过神经网络模型的输出得到上述相关性参数,由于是采用神经网络模型进行预测,因此,无需对额外的比特进行编码,是一种盲式分析方法,具有较好的前向兼容性,且由于模型的输出是能够反映出目标宽频频谱的高频部分与低频部分的相关性的参数,实现了频谱参数到相关性参数的映射,与现有的系数至系数的映射方式相比,具有更好的泛化能力。基于本申请实施例的频带扩展方案,可以得到音色洪亮、音量较大的信号,使得用户有更好的听觉体验。
可选的,高频幅度谱确定模块230在基于相关性参数和低频幅度谱,得到目标高频幅度谱时,具体用于:
根据低频幅度谱,得到窄带信号的低频频谱包络;
基于低频幅度谱,生成初始高频幅度谱;
基于高频频谱包络和低频频谱包络,对初始高频幅度谱进行调整,得到目标高频幅度谱。
可选的,高频频谱包络和低频频谱包络均为对数域的频谱包络,高频幅度谱确定模块230在基于高频频谱包络和低频频谱包络,对初始高频幅度谱进行调整,得到目标高频幅度谱时,具体用于:
确定高频频谱包络和低频频谱包络的差值;
基于差值对初始高频幅度谱进行调整,得到目标高频幅度谱。
可选的,高频幅度谱确定模块230在基于低频幅度谱,生成初始高频幅度谱时,具体用于:对低频幅度谱中高频段部分的幅度谱进行复制。
可选的,高频频谱包络包括第一数量的第一子频谱包络,初始高频幅度谱包括第一数量的子幅度谱,其中,每个第一子频谱包络是基于初始高频幅度谱中对应的子幅度谱确定的;
高频幅度谱确定模块230在确定高频频谱包络和低频频谱包络的差值,基于差值对初始高频幅度谱进行调整,得到目标高频幅度谱时,具体用于:
确定每个第一子频谱包络与低频频谱包络中对应的频谱包络的差值;
基于每个第一子频谱包络所对应的差值,对对应的初始子幅度谱进行调整,得到第一数量的调整后的子幅度谱;
基于第一数量的调整后的子幅度谱,得到目标高频幅度谱。
可选的,相关性参数还包括相对平坦度信息,相对平坦度信息表征了目标宽频频谱的高频部分的频谱平坦度与低频部分的频谱平坦度的相关性;
高频幅度谱确定模块230在确定高频频谱包络和低频频谱包络的差值时,具体用于:
基于相对平坦度信息以及低频频谱的能量信息,确定高频频谱包络的增益调整值;
基于增益调整值对高频频谱包络进行调整,得到调整后的高频频谱包络;
确定调整后的高频频谱包络和低频频谱包络的差值。
可选的,相对平坦度信息包括对应于高频部分的至少两个子带区域的相对平坦度信息,一个子带区域所对应的相对平坦度信息,表征了所述高频部分的一个子带区域的频谱平坦度与低频部分的高频频段的频谱平坦度的相关性;
高频幅度谱确定模块230在基于相对平坦度信息以及低频频谱的能量信息,确定高频频谱包络的增益调整值时,具体用于:基于每个子带区域所对应的相对平坦度信息、以及低频频谱中每个子带区域所对应的频谱能量信息,确定高频频谱包络中对应频谱包络部分的增益调整值;
高频幅度谱确定模块230在基于增益调整值对高频频谱包络进行调整时,具体用于:基于高频频谱包络中每个对应频谱包络部分的增益调整值,对相应的频谱包络部分进行调整。
可选的,高频频谱包络包括第一数量的第一子频谱包络,高频幅度谱确定模块在基于每个子带区域所对应的相对平坦度信息,以及低频频谱中每个子带区域对应的频谱能量信息,确定高频频谱包络中对应频谱包络部分的增益调整值时,具体用于:
对于每一个第一子频谱包络,根据低频频谱包络中与第一子频谱包络对应的频谱包络所对应的频谱能量信息、低频频谱包络中与第一子频谱包络对应的频谱包络所对应的子带区域所对应的相对平坦度信息、低频频谱包络中与第一子频谱包络对应的频谱包络所对应的子带区域对应的频谱能量信息,确定第一子频谱包络的增益调整值;
高频幅度谱确定模块在根据高频频谱包络中每个对应频谱包络部分的增益调整值,对相应的频谱包络部分进行调整时,具体用于:
根据高频频谱包络中每个第一子频谱包络的增益调整值,对相应的第一子频谱包络进行调整。
可选的,低频频谱参数还包括窄带信号的低频频谱包络。
可选的,该装置还可以包括:
低频幅度谱处理模块,用于将低频幅度谱划分为第二数量的子幅度谱;分别确定每个子幅度谱对应的子频谱包络;低频频谱包络包括确定出的第二数量的子频谱包络。
可选的,低频幅度谱处理模块在确定每个子幅度谱对应的子频谱包络时,具体用于:基于每个子幅度谱所包括的谱系数的对数取值,得到每个子幅度谱对应的子频谱包络。
可选的,若窄带信号包括至少两路关联的信号,该装置还包括:
窄带信号确定模块,用于将至少两路关联的信号进行融合,得到窄带信号;或者,将至少两路关联的信号中的每一路信号分别作为窄带信号。
由于本申请实施例所提供的频带扩展装置为可以执行本申请实施例中的频带扩展方法的装置,故而基于本申请实施例中所提供的频带扩展方法,本领域所属技术人员能够了解本申请实施例的频带扩展装置的具体实施方式以及其各种变化形式,所以在此对于该装置如何实现本申请实施例中的频带扩展方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的频带扩展方法所采用的频带扩展装置,都属于本申请所欲保护的范围。
基于与本申请实施例所提供的频带扩展方法和频带扩展装置相同的原理,本申请实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器。其中,存储器中存储有可读指令,可读指令由处理器加载并执行时,可以实现本申请任一实施例中所示的方法。
作为一个示例,图5中示出了本申请实施例的方案所适用的一种电子设备4000的结构示意图,如图5中所示,该电子设备4000可以包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的方案。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种频带扩展方法,其特征在于,包括:
确定待处理的窄带信号的低频频谱参数,所述低频频谱参数包括低频幅度谱;
将所述低频频谱参数输入至神经网络模型,基于所述神经网络模型的输出得到相关性参数,其中,所述相关性参数表征了目标宽频频谱的高频部分与低频部分的相关性,所述相关性参数包括高频频谱包络;
基于所述相关性参数和所述低频幅度谱,得到目标高频幅度谱;
基于所述窄带信号的低频相位谱,生成相应的高频相位谱;
根据所述目标高频幅度谱和所述高频相位谱,得到高频频谱;
基于所述低频频谱和所述高频频谱,得到频带扩展后的宽带信号;
其中,所述基于所述相关性参数和所述低频幅度谱,得到目标高频幅度谱,包括:
根据所述低频幅度谱,得到所述窄带信号的低频频谱包络;
基于所述低频幅度谱,生成初始高频幅度谱;
基于所述高频频谱包络和所述低频频谱包络,对所述初始高频幅度谱进行调整,得到所述目标高频幅度谱。
2.根据权利要求1所述的方法,其特征在于,所述高频频谱包络和所述低频频谱包络均为对数域的频谱包络,所述基于所述高频频谱包络和所述低频频谱包络,对所述初始高频幅度谱进行调整,得到所述目标高频幅度谱,包括:
确定所述高频频谱包络和所述低频频谱包络的差值;
基于所述差值对所述初始高频幅度谱进行调整,得到所述目标高频幅度谱。
3.根据权利要求1所述的方法,其特征在于,所述基于所述低频幅度谱,生成初始高频幅度谱,包括:
对所述低频幅度谱中高频段部分的幅度谱进行复制。
4.根据权利要求2所述的方法,其特征在于,所述高频频谱包络包括第一数量的第一子频谱包络,所述初始高频幅度谱包括所述第一数量的子幅度谱,其中,每个所述第一子频谱包络是基于所述初始高频幅度谱中对应的子幅度谱确定的;
所述确定所述高频频谱包络和所述低频频谱包络的差值,基于所述差值对所述初始高频幅度谱进行调整,得到所述目标高频幅度谱,包括:
确定每个第一子频谱包络与所述低频频谱包络中对应的频谱包络的差值;
基于每个第一子频谱包络所对应的差值,对对应的初始子幅度谱进行调整,得到所述第一数量的调整后的子幅度谱;
基于所述第一数量的调整后的子幅度谱,得到所述目标高频幅度谱。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述相关性参数还包括相对平坦度信息,所述相对平坦度信息表征了所述目标宽频频谱的高频部分的频谱平坦度与低频部分的频谱平坦度的相关性;
所述确定所述高频频谱包络和所述低频频谱包络的差值,包括:
基于所述相对平坦度信息以及所述低频频谱的能量信息,确定所述高频频谱包络的增益调整值;
基于所述增益调整值对所述高频频谱包络进行调整,得到调整后的高频频谱包络;
确定所述调整后的高频频谱包络和所述低频频谱包络的差值。
6.根据权利要求5所述的方法,其特征在于,所述相对平坦度信息包括对应于所述高频部分的至少两个子带区域的相对平坦度信息,一个子带区域所对应的相对平坦度信息,表征了所述高频部分的一个子带区域的频谱平坦度与所述低频部分的高频频段的频谱平坦度的相关性;
所述基于所述相对平坦度信息以及所述低频频谱的能量信息,确定所述高频频谱包络的增益调整值,包括:
基于每个子带区域所对应的相对平坦度信息、以及所述低频频谱中每个子带区域所对应的频谱能量信息,确定所述高频频谱包络中对应频谱包络部分的增益调整值;
所述基于所述增益调整值对所述高频频谱包络进行调整,包括:
基于所述高频频谱包络中每个对应频谱包络部分的增益调整值,对相应的频谱包络部分进行调整。
7.根据权利要求6所述的方法,其特征在于,若所述高频频谱包络包括第一数量的第一子频谱包络,所述基于每个子带区域所对应的相对平坦度信息,以及所述低频频谱中每个子带区域对应的频谱能量信息,确定所述高频频谱包络中对应频谱包络部分的增益调整值,包括:
对于每一个第一子频谱包络,根据所述低频频谱包络中与所述第一子频谱包络对应的频谱包络所对应的频谱能量信息、所对应的子带区域所对应的相对平坦度信息、所对应的子带区域对应的频谱能量信息,确定所述第一子频谱包络的增益调整值;
所述根据所述高频频谱包络中每个对应频谱包络部分的增益调整值,对相应的频谱包络部分进行调整,包括:
根据所述高频频谱包络中每个第一子频谱包络的增益调整值,对相应的第一子频谱包络进行调整。
8.根据权利要求1至4中任一项所述的方法,其特征在于,所述低频频谱参数还包括所述窄带信号的低频频谱包络。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
将所述低频幅度谱划分为第二数量的子幅度谱;
分别确定每个子幅度谱对应的子频谱包络,所述低频频谱包络包括确定出的所述第二数量的子频谱包络。
10.根据权利要求9所述的方法,其特征在于,所述确定每个子幅度谱对应的子频谱包络,包括:
基于每个子幅度谱所包括的谱系数的对数取值,得到每个子幅度谱对应的子频谱包络。
11.根据权利要求1至4中任一项所述的方法,其特征在于,若所述窄带信号包括至少两路关联的信号,所述方法还包括:
将所述至少两路关联的信号进行融合,得到所述窄带信号;
或者,
将所述至少两路关联的信号中的每一路信号分别作为所述窄带信号。
12.一种频带扩展装置,其特征在于,包括:
低频频谱参数确定模块,用于确定待处理的窄带信号的低频频谱参数,所述低频频谱参数包括低频幅度谱;
相关性参数确定模块,用于将所述低频频谱参数输入至神经网络模型,基于所述神经网络模型的输出得到相关性参数,其中,所述相关性参数表征了目标宽频频谱的高频部分与低频部分的相关性,所述相关性参数包括高频频谱包络;
高频幅度谱确定模块,用于基于所述相关性参数和所述低频幅度谱,得到目标高频幅度谱;
高频相位谱生成模块,用于基于所述窄带信号的低频相位谱,生成相应的高频相位谱;
高频频谱确定模块,用于根据所述目标高频幅度谱和所述高频相位谱,得到高频频谱;
宽带信号确定模块,用于基于所述低频频谱和所述高频频谱,得到频带扩展后的宽带信号;
其中,所述高频幅度谱确定模块在基于所述相关性参数和所述低频幅度谱,得到目标高频幅度谱时,用于:
根据所述低频幅度谱,得到所述窄带信号的低频频谱包络;
基于所述低频幅度谱,生成初始高频幅度谱;
基于所述高频频谱包络和所述低频频谱包络,对所述初始高频幅度谱进行调整,得到所述目标高频幅度谱。
13.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;
所述存储器中存储有可读指令,所述可读指令由所述处理器加载并执行时,实现如权利要求1至11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有可读指令,所述可读指令由处理器加载并执行时,实现如权利要求1至11中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910883374.5A CN110556123B (zh) | 2019-09-18 | 2019-09-18 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
PCT/CN2020/115010 WO2021052285A1 (zh) | 2019-09-18 | 2020-09-14 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
JP2021558881A JP7297367B2 (ja) | 2019-09-18 | 2020-09-14 | 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム |
EP20865303.0A EP3923282B1 (en) | 2019-09-18 | 2020-09-14 | Frequency band expansion method and apparatus, electronic device, and computer readable storage medium |
US17/511,537 US12002479B2 (en) | 2019-09-18 | 2021-10-26 | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910883374.5A CN110556123B (zh) | 2019-09-18 | 2019-09-18 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110556123A CN110556123A (zh) | 2019-12-10 |
CN110556123B true CN110556123B (zh) | 2024-01-19 |
Family
ID=68740695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910883374.5A Active CN110556123B (zh) | 2019-09-18 | 2019-09-18 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US12002479B2 (zh) |
EP (1) | EP3923282B1 (zh) |
JP (1) | JP7297367B2 (zh) |
CN (1) | CN110556123B (zh) |
WO (1) | WO2021052285A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556123B (zh) | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
JP2023512178A (ja) * | 2020-02-03 | 2023-03-24 | ピンドロップ セキュリティー、インコーポレイテッド | 音声バイオメトリクスのクロスチャネル登録と認証 |
CN112086102B (zh) * | 2020-08-31 | 2024-04-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 扩展音频频带的方法、装置、设备以及存储介质 |
CN114664319A (zh) * | 2022-03-28 | 2022-06-24 | 北京百度网讯科技有限公司 | 频带扩展方法、装置、设备、介质及程序产品 |
CN114420140B (zh) * | 2022-03-30 | 2022-06-21 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
CN115116456B (zh) * | 2022-06-15 | 2024-09-13 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备、存储介质及计算机程序产品 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003003350A1 (en) * | 2001-06-28 | 2003-01-09 | Koninklijke Philips Electronics N.V. | Wideband signal transmission system |
WO2009076871A1 (zh) * | 2007-12-12 | 2009-06-25 | Huawei Technologies Co., Ltd. | 带宽扩展中激励信号的生成及信号重建方法和装置 |
WO2010048827A1 (zh) * | 2008-10-29 | 2010-05-06 | 华为技术有限公司 | 高频带信号的编解码方法及装置 |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
CN103026407A (zh) * | 2010-05-25 | 2013-04-03 | 诺基亚公司 | 带宽扩展器 |
CN107705801A (zh) * | 2016-08-05 | 2018-02-16 | 中国科学院自动化研究所 | 语音带宽扩展模型的训练方法及语音带宽扩展方法 |
CN108198571A (zh) * | 2017-12-21 | 2018-06-22 | 中国科学院声学研究所 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
CN109599123A (zh) * | 2017-09-29 | 2019-04-09 | 中国科学院声学研究所 | 基于遗传算法优化模型参数的音频带宽扩展方法及系统 |
WO2019081070A1 (en) * | 2017-10-27 | 2019-05-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08278800A (ja) * | 1995-04-05 | 1996-10-22 | Fujitsu Ltd | 音声通信システム |
US10347271B2 (en) * | 2015-12-04 | 2019-07-09 | Synaptics Incorporated | Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network |
US10008218B2 (en) * | 2016-08-03 | 2018-06-26 | Dolby Laboratories Licensing Corporation | Blind bandwidth extension using K-means and a support vector machine |
KR102002681B1 (ko) | 2017-06-27 | 2019-07-23 | 한양대학교 산학협력단 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
CN107993672B (zh) * | 2017-12-12 | 2020-07-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 频带扩展方法及装置 |
CN110556123B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
-
2019
- 2019-09-18 CN CN201910883374.5A patent/CN110556123B/zh active Active
-
2020
- 2020-09-14 JP JP2021558881A patent/JP7297367B2/ja active Active
- 2020-09-14 EP EP20865303.0A patent/EP3923282B1/en active Active
- 2020-09-14 WO PCT/CN2020/115010 patent/WO2021052285A1/zh unknown
-
2021
- 2021-10-26 US US17/511,537 patent/US12002479B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003003350A1 (en) * | 2001-06-28 | 2003-01-09 | Koninklijke Philips Electronics N.V. | Wideband signal transmission system |
CN1520590A (zh) * | 2001-06-28 | 2004-08-11 | �ʼҷ����ֵ�������˾ | 宽带信号传输系统 |
WO2009076871A1 (zh) * | 2007-12-12 | 2009-06-25 | Huawei Technologies Co., Ltd. | 带宽扩展中激励信号的生成及信号重建方法和装置 |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
WO2010048827A1 (zh) * | 2008-10-29 | 2010-05-06 | 华为技术有限公司 | 高频带信号的编解码方法及装置 |
CN103026407A (zh) * | 2010-05-25 | 2013-04-03 | 诺基亚公司 | 带宽扩展器 |
CN107705801A (zh) * | 2016-08-05 | 2018-02-16 | 中国科学院自动化研究所 | 语音带宽扩展模型的训练方法及语音带宽扩展方法 |
CN109599123A (zh) * | 2017-09-29 | 2019-04-09 | 中国科学院声学研究所 | 基于遗传算法优化模型参数的音频带宽扩展方法及系统 |
WO2019081070A1 (en) * | 2017-10-27 | 2019-05-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR |
CN108198571A (zh) * | 2017-12-21 | 2018-06-22 | 中国科学院声学研究所 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110556123A (zh) | 2019-12-10 |
US20220068285A1 (en) | 2022-03-03 |
WO2021052285A1 (zh) | 2021-03-25 |
JP7297367B2 (ja) | 2023-06-26 |
EP3923282B1 (en) | 2023-11-08 |
EP3923282A4 (en) | 2022-06-08 |
US12002479B2 (en) | 2024-06-04 |
EP3923282A1 (en) | 2021-12-15 |
JP2022527810A (ja) | 2022-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110556123B (zh) | 频带扩展方法、装置、电子设备及计算机可读存储介质 | |
CN110556122B (zh) | 频带扩展方法、装置、电子设备及计算机可读存储介质 | |
CN110556121B (zh) | 频带扩展方法、装置、电子设备及计算机可读存储介质 | |
RU2501097C2 (ru) | Устройство и способ формирования синтезированного аудиосигнала и кодирования аудиосигнала | |
JP5301471B2 (ja) | 音声符号化システム及び方法 | |
ES2582475T3 (es) | Generación de una extensión de banda ancha de una señal de audio de ancho de banda extendido | |
EP3992964B1 (en) | Voice signal processing method and apparatus, and electronic device and storage medium | |
EP3252767B1 (en) | Voice signal processing method, related apparatus, and system | |
US9280978B2 (en) | Packet loss concealment for bandwidth extension of speech signals | |
JP6752936B2 (ja) | ノイズ変調とゲイン調整とを実行するシステムおよび方法 | |
TWI775838B (zh) | 用於在多源環境中之非諧波語音偵測及頻寬擴展之裝置、方法、電腦可讀媒體及設備 | |
TW201140563A (en) | Determining an upperband signal from a narrowband signal | |
CN104603872A (zh) | 用以再现音频信号的装置及方法、用以产生编码的音频信号的装置及方法、计算机程序及编码的音频信号 | |
EP2559026A1 (en) | Audio communication device, method for outputting an audio signal, and communication system | |
CN102612712A (zh) | 低频带音频信号的带宽扩展 | |
Iser et al. | Neural networks versus codebooks in an application for bandwidth extension of speech signals. | |
WO2016021412A1 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
Bhatt et al. | A novel approach for artificial bandwidth extension of speech signals by LPC technique over proposed GSM FR NB coder using high band feature extraction and various extension of excitation methods | |
CN112530446B (zh) | 频带扩展方法、装置、电子设备及计算机可读存储介质 | |
Nizampatnam et al. | Bandwidth extension of narrowband speech using integer wavelet transform | |
Prasad et al. | Speech bandwidth extension aided by magnitude spectrum data hiding | |
JP2005114814A (ja) | 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体 | |
Nizampatnam et al. | Bandwidth extension of telephone speech using magnitude spectrum data hiding | |
Hosoda et al. | Speech bandwidth extension using data hiding based on discrete hartley transform domain | |
Choo et al. | Blind bandwidth extension system utilizing advanced spectral envelope predictor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40013085 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |