CN107993672A - 频带扩展方法及装置 - Google Patents
频带扩展方法及装置 Download PDFInfo
- Publication number
- CN107993672A CN107993672A CN201711321259.6A CN201711321259A CN107993672A CN 107993672 A CN107993672 A CN 107993672A CN 201711321259 A CN201711321259 A CN 201711321259A CN 107993672 A CN107993672 A CN 107993672A
- Authority
- CN
- China
- Prior art keywords
- default
- signal
- frequency
- network
- narrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001228 spectrum Methods 0.000 claims abstract description 141
- 230000009466 transformation Effects 0.000 claims abstract description 23
- 230000003595 spectral effect Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 66
- 238000013527 convolutional neural network Methods 0.000 claims description 31
- 238000009432 framing Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 10
- 230000007935 neutral effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 29
- 238000012545 processing Methods 0.000 description 25
- 230000015654 memory Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 230000006854 communication Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000008439 repair process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供了一种频带扩展方法及装置,其中,频带扩展方法包括:将待处理窄频带信号的梅尔频率倒谱系数输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络;根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱;将扩展得到的高频频谱进行频时变换,得到第一目标高频信号;将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号;将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。本发明实施例能够满足音乐信号对质量的高要求。
Description
技术领域
本发明实施例涉及音频处理领域,具体涉及一种频带扩展方法及装置。
背景技术
频带扩展是音频信号处理中常见的技术,该技术通常应用在音频的编解码系统中,以提高音频信号的质量。传统的面向音频信号的频带扩展技术,基本都是在频域进行的处理。
音乐信号,相对于普通的音频信号(例如:语音信号),具有更高的质量要求,采用传统的基于频域的频带扩展技术对音乐信号进行频带扩展,无法满足音乐信号对质量的高要求。
发明内容
本发明实施例提供了一种频带扩展方法及装置,能够满足音乐信号对质量的高要求。
发明实施例提供的频带扩展方法,包括:
将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络;
根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱;
将扩展得到的高频频谱进行频时变换,得到第一目标高频信号;
将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号;
将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。
发明实施例提供的频带扩展装置,包括:
包络预测单元,用于将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络;
频谱扩展单元,用于根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱;
频时变换单元,用于将扩展得到的高频频谱进行频时变换,得到第一目标高频信号;
时域插值单元,用于将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号;
信号融合单元,用于将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。
本发明实施例中,在对窄频带信号进行频带扩展时,可以在频域对待处理窄频带信号进行一次频带扩展处理,得到一个处理结果,再在时域对待处理窄频带信号进行一次频带扩展处理,得到另一个处理结果,将两个处理结果进行融合得到最终的频带扩展信号。针对低质量的音乐信号,可以联合频域和时域,对其进行频带扩展,以此提高扩展后的信号的质量,可以修复频带过窄带来的音质差的问题,满足音乐信号对质量的高要求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例所提供的频带扩展方法的应用场景示意图。
图2是本发明实施例所提供的频带扩展方法的流程示意图。
图3a是是本发明实施例所提供的频带扩展方法的另一流程示意图。
图3b是是本发明实施例所提供的频带扩展方法的又一流程示意图
图4是本发明实施例所提供的频带扩展装置的结构示意图。
图5是本发明实施例所提供的频带扩展装置的另一结构示意图。
图6是本发明实施例所提供的频带扩展装置的又一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
由于现有的频带扩展方法,都是在频域进行的处理,扩展得到的信号的质量无法满足要求,因而,本发明实施例提供了一种频带扩展方法及装置,能够提高扩展得到的信号的质量。本发明实施例提供的频带扩展方法,可实现在频带扩展装置中,该频带扩展装置具体可以集成在电子设备或其他具有音视频数据处理功能的设备中,其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
请参阅图1,图1为本申请实施例提供的频带扩展方法的应用场景示意图,以频带扩展装置为电子设备为例,电子设备在得到待处理窄频带信号(例如:低质量的音乐信号、低质量的语音信号)之后,可以先在频域对待处理窄频带信号进行频带扩展,即:将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络,根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱,将扩展得到的高频频谱进行频时变换,得到第一目标高频信号;然后,可以在时域对待处理窄频带信号进行频带扩展,即:将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号;最后将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号(即高质量信号)。
本申请实施例将从频带扩展装置的角度,描述本申请实施例提供的频带扩展方法,该频带扩展装置具体可以集成在电子设备中。该频带扩展方法包括:将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络;根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱;将扩展得到的高频频谱进行频时变换,得到第一目标高频信号;将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号;将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。
以下将分别进行详细说明,以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。
实施例一
请参阅图2,图2为本申请实施例提供的频带扩展方法的流程示意图。本申请实施例提供的频带扩展方法的具体流程可以如下:
步骤S201、将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络。
待处理窄频带信号指的是待处理的音频信号,例如:低质量的音乐信号、低质量的语音信号等。
具体实现中,在对待处理窄频带信号进行频带扩展处理之前,需要先利用预设信号训练好所需的相关网络。所需的相关网络包括:用于进行频域包络预测的第一预设网络,用于进行时域插值的第二预设网络,以及用于进行信号融合的第三预设网络。
预设信号包括:预设宽频带信号(例如:高质量的音乐信号,高质量的语音信号)和预设窄频带信号(例如:低质量的音乐信号,低质量的语音信号)。预设窄频带信号为从预设宽频带信号中进行采样生成的信号,采样率可以是采样音频信号常用的采样率,即44.1kHz,采样过程可结合低通滤波器来实现。
采样生成预设窄频带信号之后,需要对预设窄频带信号进行分帧。本实施例中,为了与所需的网络模型兼容,可以将每帧的长度设置为2n,n为正整数。可选地,可以设置每帧长为16384(即2128)个采样点,约0.37秒采集得到的样本点。另外,为避免信号丢失,相邻帧之间可以设置一段重叠区域。例如:重叠区域可以设置为帧长的1/2或1/3。
分帧之后,可以对每帧预设窄频带信号进行短时傅里叶变换(short-timeFourier transform,STFT),得到预设窄频带信号的低频频谱,从得到的低频频谱中提取频谱特征。本实施例中,所提取的频谱特征可以是梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)。为便于后续处理,可以将所提取的MFCC采用离差标准化(max-min)的方法,归一化到区间(0,1)。
下面以第一预设网络、第二预设网络、以及第三预设网络均为卷积神经网络为例,说明网络的具体训练过程。卷积神经网络,本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力。卷积神经网络,具有对高维数据处理无压力、复杂度低、处理效果准确等一系列优点。三个网络的具体训练过程可如下:
(1)训练第一预设网络。
可以将从预设窄频带信号的低频频谱中提取的MFCC作为卷积神经网络的输入,将卷积神经网络输出的高频频谱包络与对应的所述预设宽频带信号的高频频谱包络的均方误差(Mean Square Error,MSE)作为损失函数,进行网络训练,直至损失函数最小时,得到所述第一预设网络。
(2)训练第二预设网络。
可以将所述预设窄频带信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,直至损失函数最小时,得到所述第二预设网络。
(3)训练第三预设网络。
可以将从所述预设窄频带信号的低频频谱中提取的MFCC,输入已训练好的所述第一预设网络,得到高频频谱包络,根据得到的高频频谱包络将所述预设窄频带信号的低频频谱扩展为高频频谱,将扩展得到的高频频谱进行频时变换,得到第一预设高频信号;
将所述预设窄频带信号输入已训练好的所述第二预设网络,得到第二预设高频信号;
将所述第一预设高频信号和所述第二预设高频信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,直至损失函数最小时,得到所述第三预设网络。
需要说明的是,实际中,第一预设网络、第二预设网络、以及第三预设网络还可以是除卷积神经网络之外的其他网络,例如深度信念网络,此处不做具体限定。
网络训练完成后,若需要对某个窄频带信号进行频带扩展,则可以先对待处理窄频带信号进行分帧,相邻帧之间有一定长度的重叠。分帧之后对每帧待处理窄频带信号进行STFT变换,得到待处理窄频带信号的低频频谱,并从得到的低频频谱中提取MFCC,将提取的MFCC输入第一预设网络,利用第一预设网络进行频域包络预测,得到高频频谱包络。
步骤S202、根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱。
具体地,可以将待处理窄频带信号的低频频谱通过尺度缩放,变换到与预测得到的高频频谱包络相同的尺度,得到高频频谱。
例如,低频频谱的一个区间内,信号的均方根值(RMS)为r1,对应的高频频谱包络的均方根值是r2,则将该区间内每个频点i都缩放为i*r1/r2,得到高频频谱。
步骤S203、将扩展得到的高频频谱进行频时变换,得到第一目标高频信号。
由于对待处理窄频带信号进行分帧时,相邻帧之间存在重叠区域,因而,在得到第一目标高频信号之后,针对第一目标高频信号中的重叠区域,可以进行平均运算,即可以对重叠区域的信号除以2。
步骤S201~S203即实现了基于频域信息的频带扩展。
步骤S204、将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号。
同样,在第二目标高频信号中,针对重叠区域,可以进行平均运算。
步骤S204即实现了基于时域信息的频带扩展。
步骤S205、将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。
在得到目标宽频带信号之后,可以根据实际情况滤除目标宽频带信号中的噪声,以进一步提高频带扩展之后得到的信号的质量。例如:目标宽频带信号中存在毛刺点,则可以采用中值滤波法去除毛刺点。
本实施例中,在对窄频带信号进行频带扩展时,可以在频域对待处理窄频带信号进行一次频带扩展处理,得到一个处理结果,再在时域对待处理窄频带信号进行一次频带扩展处理,得到另一个处理结果,将两个处理结果进行融合得到最终的频带扩展信号。针对低质量的音乐信号,可以联合频域和时域,对其进行频带扩展,以此提高扩展后的信号的质量,可以修复频带过窄带来的音质差的问题,满足音乐信号对质量的要求。
实施例二
实施例一所描述的方法,以下将举例作进一步详细说明。
在本实施例中,以将低质量的音乐信号扩展为高质量的音乐信号为例,说明本申请实施例提供的频带扩展方法。
请一并参阅3a和图3b,本实施例的频带扩展方法,具体流程可以如下:
步骤S301、从预设宽频带信号中进行采样,生成预设窄频带信号。
步骤S302、将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第一预设网络、所述第二预设网络和所述第三预设网络。
所述第一预设网络、所述第二预设网络和所述第三预设网络的具体训练过程,可参阅上述实施例的描述,此处不再赘述。
步骤S303、将低质量音乐信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用第一预设网络进行频域包络预测,得到高频频谱包络。
具体地,可以先对低质量音乐信号进行分帧,相邻帧之间有一定长度的重叠,分帧之后对每帧低质量音乐信号进行STFT变换,得到低质量音乐信号的低频频谱,并从得到的低频频谱中提取MFCC,将提取的MFCC输入第一预设网络,利用第一预设网络进行频域包络预测,得到高频频谱包络。
步骤S304、根据预测得到的高频频谱包络将所述低质量音乐信号的低频频谱扩展为高频频谱。
具体地,可以将低质量音乐信号的低频频谱通过尺度缩放,变换到与预测得到的高频频谱包络相同的尺度,得到高频频谱。
例如,低频频谱的一个区间内,信号的均方根值(RMS)为r1,对应的高频频谱包络的均方根值是r2,则将该区间内每个频点i都缩放为i*r1/r2,得到高频频谱。
步骤S305、将扩展得到的高频频谱进行频时变换,得到第一目标高频信号。
由于对低质量音乐信号进行分帧时,相邻帧之间存在重叠区域,因而,在得到第一目标高频信号之后,针对第一目标高频信号中的重叠区域,可以进行平均运算,即可以对重叠区域的信号除以2。
以上即实现了基于频域信息对低质量音乐信号进行频带扩展。
步骤S306、将所述低质量音乐信号输入第二预设网络,利用第二预设网络进行时域插值,得到第二目标高频信号。
同样,在第二目标高频信号中,针对重叠区域,可以进行平均运算。
本步骤即实现了基于时域信息对低质量音乐信号进行频带扩展。
步骤S307、将第一目标高频信号和第二目标高频信号输入第三预设网络,利用第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到高质量音乐信号。
步骤S308、滤除所述高质量音乐信号中的噪声。
在得到高质量音乐信号之后,可以根据实际情况滤除高质量音乐信号中的噪声,以进一步提高音乐信号的质量。
本实施例中,针对低质量的音乐信号,联合频域和时域,对其进行频带扩展,以此提高了扩展后的信号的质量,可以修复频带过窄带来的音质差的问题,满足音乐信号对质量的高要求。
实施例三
为了更好地实施以上方法,本发明还提供了一种频带扩展装置,如图4所示,本实施例的频带扩展装置包括:包络预测单元401、频谱扩展单元402、频时变换单元403、时域插值单元404及信号融合单元405,如下:
(1)包络预测单元401;
包络预测单元401,用于将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络。
待处理窄频带信号指的是待处理的音频信号,例如:低质量的音乐信号、低质量的语音信号等。
在对待处理窄频带信号进行频带扩展处理之前,需要先利用预设信号训练好所需的相关网络。所需的相关网络包括:用于进行频域包络预测的第一预设网络,用于进行时域插值的第二预设网络,以及用于进行信号融合的第三预设网络。
预设信号包括:预设宽频带信号(例如:高质量的音乐信号,高质量的语音信号)和预设窄频带信号(例如:低质量的音乐信号,低质量的语音信号)。
在一个具体的实施例中,如图5所示,本实施例的频带扩展装置还可以包括采样单元406、信号分帧单元407、以及训练单元408。
采样单元406用于从预设宽频带信号中进行采样,生成预设窄频带信号,采样单元406所用的采样率可以是采样音频信号常用的采样率,即44.1kHz,采样过程可结合低通滤波器来实现。
在采样单元406采样生成预设窄频带信号之后,信号分帧单元407需要对预设窄频带信号进行分帧。本实施例中,为了与所需的网络模型兼容,信号分帧单元407可以将每帧的长度设置为2n,n为正整数。可选地,可以设置每帧长16384(即2128),约0.37秒采集得到的样本点。另外,为避免信号丢失,相邻帧之间可以设置一段重叠区域。例如:重叠区域可以设置为帧长的1/2或1/3。
分帧之后,可以对每帧预设窄频带信号进行短时傅里叶变换(short-timeFourier transform,STFT),得到预设窄频带信号的低频频谱,从得到的低频频谱中提取频谱特征。本实施例中,所提取的频谱特征可以是梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)。为便于后续处理,可以将所提取的MFCC采用离差标准化(max-min)归一化的方法,归一化到区间(0,1)。
具体地,如图5所示,训练单元408可以包括第一训练单元4081、第二训练单元4082、以及第三训练单元4083,这三个训练单元分别用于第一预设网络、第二预设网络、以及第三预设网络的训练。下面以第一预设网络、第二预设网络、以及第三预设网络均为卷积神经网络为例,说明各个训练单元训练网络的具体过程。
卷积神经网络,本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力。卷积神经网络,具有对高维数据处理无压力、复杂度低、处理效果准确等一系列优点。三个网络的具体训练过程如下:
第一训练单元4081,可以将从预设窄频带信号的低频频谱中提取的MFCC作为卷积神经网络的输入,将卷积神经网络输出的高频频谱包络与对应的所述预设宽频带信号的高频频谱包络的均方误差(Mean Square Error,MSE)作为损失函数,进行网络训练,直至损失函数最小时,得到所述第一预设网络。
第二训练单元4082,可以将所述预设窄频带信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,直至损失函数最小时,得到所述第二预设网络。
第二训练单元4083,可以将从所述预设窄频带信号的低频频谱中提取的MFCC输入已训练好的所述第一预设网络,得到高频频谱包络,根据得到的高频频谱包络将所述预设窄频带信号的低频频谱扩展为高频频谱,将扩展得到的高频频谱进行频时变换,得到第一预设高频信号;将所述预设窄频带信号输入已训练好的所述第二预设网络,得到第二预设高频信号;将所述第一预设高频信号和所述第二预设高频信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,直至损失函数最小时,得到所述第三预设网络。
需要说明的是,实际中,第一预设网络、第二预设网络、以及第三预设网络还可以是除卷积神经网络之外的其他网络,例如深度信念网络,此处不做具体限定。
网络训练完成后,若需要对某个窄频带信号进行频带扩展,则信号分帧单元407可以对待处理窄频带信号进行分帧,相邻帧之间有一定长度的重叠。分帧之后,由包络预测单元401对每帧待处理窄频带信号进行STFT变换,得到待处理窄频带信号的低频频谱,并从得到的低频频谱中提取MFCC,将提取的MFCC输入第一预设网络,利用第一预设网络进行频域包络预测,得到高频频谱包络。
(2)频谱扩展单元402;
频谱扩展单元402,用于根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱。
具体地,频谱扩展单元402可以将待处理窄频带信号的低频频谱通过尺度缩放,变换到与预测得到的高频频谱包络相同的尺度,得到高频频谱。
例如,低频频谱的一个区间内,信号的均方根值(RMS)为r1,对应的高频频谱包络的均方根值是r2,则频谱扩展单元402可以将该区间内每个频点i都缩放为i*r1/r2,得到高频频谱。
(3)频时变换单元403;
频时变换单元403,用于将扩展得到的高频频谱进行频时变换,得到第一目标高频信号。
由于对待处理窄频带信号进行分帧时,相邻帧之间存在重叠区域,因而,在得到第一目标高频信号之后,针对第一目标高频信号的重叠区域,频时变换单元403可以进行平均运算,即可以对重叠区域的信号除以2。
(4)时域插值单元404;
时域插值单元404,用于将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号。
同样,在第二目标高频信号中,针对重叠区域,时域插值单元404可以进行平均运算。
(5)信号融合单元405;
信号融合单元405,用于将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。
进一步地,如图5所示,本实施例的频带扩展装置还包括噪声滤除单元409。在得到目标宽频带信号之后,噪声滤除单元409可以根据实际情况滤除目标宽频带信号中的噪声,以进一步提高频带扩展之后得到的信号的质量。例如:目标宽频带信号中存在毛刺点,则噪声滤除单元409可以采用中值滤波法去除毛刺点。
需要说明的是,上述实施例提供的频带扩展装置在实现频带扩展时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的频带扩展装置与频带扩展方法属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
由上可知,本实施例采用在频带扩展装置中,在对窄频带信号进行频带扩展时,由包络预测单元401、频谱扩展单元402以及频时变换单元403在频域对待处理窄频带信号进行一次频带扩展处理,得到一个处理结果,再由时域插值单元404在时域对待处理窄频带信号进行一次频带扩展处理,得到另一个处理结果,由信号融合单元405将两个处理结果进行融合得到最终的频带扩展信号。针对低质量的音乐信号,可以联合频域和时域,对其进行频带扩展,以此提高扩展后的信号的质量,可以修复频带过窄带来的音质差的问题,满足音乐信号对质量的要求。
实施例四
本发明实施例还提供一种频带扩展装置,如图6所示,该装置可以包括射频(RF,Radio Frequency)电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线保真(WiFi,Wireless Fidelity)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解,图6中示出的装置结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路501可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器508处理;另外,将涉及上行的数据发送给基站。通常,RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路501还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器502可用于存储软件程序以及模块,处理器508通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据装置的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器508和输入单元503对存储器502的访问。
输入单元503可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元503可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器508,并能接收处理器508发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元503还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元504可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器508以确定触摸事件的类型,随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图6中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
装置还可包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在装置移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路506、扬声器,传声器可提供用户与终端之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路506接收后转换为音频数据,再将音频数据输出处理器508处理后,经RF电路501以发送给比如另一装置,或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔,以提供外设耳机与装置的通信。
WiFi属于短距离无线传输技术,装置通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块507,但是可以理解的是,其并不属于装置的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器508是装置的控制中心,利用各种接口和线路连接整个装置的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行终端的各种功能和处理数据,从而对装置进行整体监控。可选的,处理器508可包括一个或多个处理核心;优选的,处理器508可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器508中。
装置还包括给各个部件供电的电源509(比如电池),优选的,电源可以通过电源管理系统与处理器508逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,装置还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,装置中的处理器508会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器508来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络;
根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱;
将扩展得到的高频频谱进行频时变换,得到第一目标高频信号;
将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号;
将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。
在某些实施方式中,在将待处理窄频带信号的MFCC输入第一预设网络之前,处理器508还用于执行以下步骤:
从预设宽频带信号中进行采样,生成预设窄频带信号;
将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第一预设网络、所述第二预设网络和所述第三预设网络。
在某些实施方式中,在将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第一预设网络时,处理器508具体用于执行以下步骤:
获取所述预设窄频带信号的低频频谱,并从获取的低频频谱中提取MFCC;
将从所述预设窄频带信号的低频频谱中提取的MFCC作为卷积神经网络的输入,将卷积神经网络输出的高频频谱包络与对应的所述预设宽频带信号的高频频谱包络的均方误差作为损失函数,进行网络训练,得到所述第一预设网络。
在某些实施方式中,在将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第二预设网络时,处理器508具体用于执行以下步骤:
将所述预设窄频带信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,得到所述第二预设网络。
在某些实施方式中,在将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第三预设网络时,处理器508具体用于执行以下步骤:
将从所述预设窄频带信号的低频频谱中提取的MFCC输入所述第一预设网络,得到高频频谱包络,根据得到的高频频谱包络将所述预设窄频带信号的低频频谱扩展为高频频谱,将扩展得到的高频频谱进行频时变换,得到第一预设高频信号;
将所述预设窄频带信号输入所述第二预设网络,得到第二预设高频信号;
将所述第一预设高频信号和所述第二预设高频信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,得到所述第三预设网络。
在某些实施方式中,在从预设宽频带信号中进行采样,生成预设窄频带信号之后,处理器508还用于执行以下步骤:
对所述预设窄频带信号进行分帧,每帧长度为2n,n为正整数。
在某些实施方式中,处理器508还用于执行以下步骤:
滤除所述目标宽频带信号中的噪声。
由上可知,本实施例的装置,在对窄频带信号进行频带扩展时,可以在频域对待处理窄频带信号进行一次频带扩展处理,得到一个处理结果,再在时域对待处理窄频带信号进行一次频带扩展处理,得到另一个处理结果,将两个处理结果进行融合得到最终的频带扩展信号。针对低质量的音乐信号,可以联合频域和时域,对其进行频带扩展,以此提高扩展后的信号的质量,可以修复频带过窄带来的音质差的问题,满足音乐信号对质量的要求。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,装置,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (14)
1.一种频带扩展方法,其特征在于,包括:
将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络;
根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱;
将扩展得到的高频频谱进行频时变换,得到第一目标高频信号;
将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号;
将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。
2.根据权利要求1所述的频带扩展方法,其特征在于,在将待处理窄频带信号的MFCC输入第一预设网络之前,还包括:
从预设宽频带信号中进行采样,生成预设窄频带信号;
将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第一预设网络、所述第二预设网络和所述第三预设网络。
3.根据权利要求2所述的频带扩展方法,其特征在于,将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第一预设网络,包括:
获取所述预设窄频带信号的低频频谱,并从获取的低频频谱中提取MFCC;
将从所述预设窄频带信号的低频频谱中提取的MFCC作为卷积神经网络的输入,将卷积神经网络输出的高频频谱包络与对应的所述预设宽频带信号的高频频谱包络的均方误差作为损失函数,进行网络训练,得到所述第一预设网络。
4.根据权利要求3所述的频带扩展方法,其特征在于,将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第二预设网络,包括:
将所述预设窄频带信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,得到所述第二预设网络。
5.根据权利要求4所述的频带扩展方法,其特征在于,将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第三预设网络,包括:
将从所述预设窄频带信号的低频频谱中提取的MFCC输入所述第一预设网络,得到高频频谱包络,根据得到的高频频谱包络将所述预设窄频带信号的低频频谱扩展为高频频谱,将扩展得到的高频频谱进行频时变换,得到第一预设高频信号;
将所述预设窄频带信号输入所述第二预设网络,得到第二预设高频信号;
将所述第一预设高频信号和所述第二预设高频信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,得到所述第三预设网络。
6.根据权利要求2所述的频带扩展方法,其特征在于,在从预设宽频带信号中进行采样,生成预设窄频带信号之后,还包括:
对所述预设窄频带信号进行分帧,每帧长度为2n,n为正整数。
7.根据权利要求1至6任意一项所述的频带扩展方法,其特征在于,所述方法还包括:
滤除所述目标宽频带信号中的噪声。
8.一种频带扩展装置,其特征在于,包括:
包络预测单元,用于将待处理窄频带信号的梅尔频率倒谱系数MFCC输入第一预设网络,利用所述第一预设网络进行频域包络预测,得到高频频谱包络;
频谱扩展单元,用于根据预测得到的高频频谱包络将所述待处理窄频带信号的低频频谱扩展为高频频谱;
频时变换单元,用于将扩展得到的高频频谱进行频时变换,得到第一目标高频信号;
时域插值单元,用于将所述待处理窄频带信号输入第二预设网络,利用所述第二预设网络进行时域插值,得到第二目标高频信号;
信号融合单元,用于将所述第一目标高频信号和所述第二目标高频信号输入第三预设网络,利用所述第三预设网络将所述第一目标高频信号与所述第二目标高频信号进行融合,得到目标宽频带信号。
9.根据权利要求8所述的频带扩展装置,其特征在于,所述装置还包括:
采样单元,用于从预设宽频带信号中进行采样,生成预设窄频带信号;
训练单元,用于将所述预设宽频带信号和所述预设窄频带信号作为训练数据,进行网络训练,得到所述第一预设网络、所述第二预设网络和所述第三预设网络。
10.根据权利要求9所述的频带扩展装置,其特征在于,所述训练单元包括第一训练单元,所述第一训练单元用于:
获取所述预设窄频带信号的低频频谱,并从获取的低频频谱中提取MFCC;
将从所述预设窄频带信号的低频频谱中提取的MFCC作为卷积神经网络的输入,将卷积神经网络输出的高频频谱包络与对应的所述预设宽频带信号的高频频谱包络的均方误差作为损失函数,进行网络训练,得到所述第一预设网络。
11.根据权利要求10所述的频带扩展装置,其特征在于,所述训练单元包括第二训练单元,所述第二训练单元用于:
将所述预设窄频带信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,得到所述第二预设网络。
12.根据权利要求11所述的频带扩展装置,其特征在于,所述训练单元包括第三训练单元,所述第三训练单元用于:
将从所述预设窄频带信号的低频频谱中提取的MFCC输入所述第一预设网络,得到高频频谱包络,根据得到的高频频谱包络将所述预设窄频带信号的低频频谱扩展为高频频谱,将扩展得到的高频频谱进行频时变换,得到第一预设高频信号;
将所述预设窄频带信号输入所述第二预设网络,得到第二预设高频信号;
将所述第一预设高频信号和所述第二预设高频信号作为卷积神经网络的输入,将卷积神经网络输出的宽频带信号与对应的所述预设宽频带信号的均方误差作为损失函数,进行网络训练,得到所述第三预设网络。
13.根据权利要求9所述的频带扩展装置,其特征在于,所述装置还包括:
信号分帧单元,用于对所述预设窄频带信号进行分帧,每帧长度为2n,n为正整数。
14.根据权利要求8至13任意一项所述的频带扩展装置,其特征在于,所述装置还包括:
噪声滤除单元,用于滤除所述目标宽频带信号中的噪声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711321259.6A CN107993672B (zh) | 2017-12-12 | 2017-12-12 | 频带扩展方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711321259.6A CN107993672B (zh) | 2017-12-12 | 2017-12-12 | 频带扩展方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107993672A true CN107993672A (zh) | 2018-05-04 |
CN107993672B CN107993672B (zh) | 2020-07-03 |
Family
ID=62036003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711321259.6A Active CN107993672B (zh) | 2017-12-12 | 2017-12-12 | 频带扩展方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107993672B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106871934A (zh) * | 2017-03-27 | 2017-06-20 | 华中科技大学 | 一种拓宽磁电传感器工作频率范围的方法 |
CN110556121A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
CN112086102A (zh) * | 2020-08-31 | 2020-12-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 扩展音频频带的方法、装置、设备以及存储介质 |
WO2021052285A1 (zh) * | 2019-09-18 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN114063169A (zh) * | 2021-11-10 | 2022-02-18 | 中国石油大学(北京) | 一种波阻抗反演方法、系统、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1496559A (zh) * | 2001-01-12 | 2004-05-12 | 艾利森电话股份有限公司 | 语音带宽扩展 |
CN102637436A (zh) * | 2011-02-09 | 2012-08-15 | 索尼公司 | 声音信号处理装置、声音信号处理方法和程序 |
CN102930863A (zh) * | 2012-10-19 | 2013-02-13 | 河海大学常州校区 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
WO2014157954A1 (ko) * | 2013-03-28 | 2014-10-02 | 한국과학기술원 | 뇌의 음성처리에 기반한 음성신호 프레임 가변 분할 방법 |
CN105070293A (zh) * | 2015-08-31 | 2015-11-18 | 武汉大学 | 基于深度神经网络的音频带宽扩展编码解码方法及装置 |
-
2017
- 2017-12-12 CN CN201711321259.6A patent/CN107993672B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1496559A (zh) * | 2001-01-12 | 2004-05-12 | 艾利森电话股份有限公司 | 语音带宽扩展 |
CN102637436A (zh) * | 2011-02-09 | 2012-08-15 | 索尼公司 | 声音信号处理装置、声音信号处理方法和程序 |
CN102930863A (zh) * | 2012-10-19 | 2013-02-13 | 河海大学常州校区 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
WO2014157954A1 (ko) * | 2013-03-28 | 2014-10-02 | 한국과학기술원 | 뇌의 음성처리에 기반한 음성신호 프레임 가변 분할 방법 |
CN105070293A (zh) * | 2015-08-31 | 2015-11-18 | 武汉大学 | 基于深度神经网络的音频带宽扩展编码解码方法及装置 |
Non-Patent Citations (1)
Title |
---|
张丽燕 等: "基于非线性音频特征分类的频带扩展方法", 《通信学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106871934A (zh) * | 2017-03-27 | 2017-06-20 | 华中科技大学 | 一种拓宽磁电传感器工作频率范围的方法 |
CN106871934B (zh) * | 2017-03-27 | 2019-08-13 | 华中科技大学 | 一种拓宽磁电传感器工作频率范围的方法 |
WO2021052285A1 (zh) * | 2019-09-18 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556121A (zh) * | 2019-09-18 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
US20210407526A1 (en) * | 2019-09-18 | 2021-12-30 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
US20220068285A1 (en) * | 2019-09-18 | 2022-03-03 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
US11763829B2 (en) * | 2019-09-18 | 2023-09-19 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
CN110556121B (zh) * | 2019-09-18 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
US12002479B2 (en) | 2019-09-18 | 2024-06-04 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
CN112086102A (zh) * | 2020-08-31 | 2020-12-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 扩展音频频带的方法、装置、设备以及存储介质 |
CN112086102B (zh) * | 2020-08-31 | 2024-04-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 扩展音频频带的方法、装置、设备以及存储介质 |
CN114063169A (zh) * | 2021-11-10 | 2022-02-18 | 中国石油大学(北京) | 一种波阻抗反演方法、系统、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107993672B (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107993672A (zh) | 频带扩展方法及装置 | |
CN103702297B (zh) | 短信增强方法、装置及系统 | |
CN105912918B (zh) | 一种指纹解锁方法及终端 | |
CN111580815B (zh) | 一种页面元素的编辑方法及相关设备 | |
CN107239737A (zh) | 一种光学指纹识别方法及相关产品 | |
CN104091600B (zh) | 一种歌声位置检测方法及装置 | |
CN107071129B (zh) | 一种亮屏控制方法及移动终端 | |
CN107276602B (zh) | 射频干扰处理方法、装置、存储介质及终端 | |
CN104239343A (zh) | 一种用户输入信息的处理方法和装置 | |
CN106294308A (zh) | 命名实体识别方法及装置 | |
CN104699501B (zh) | 一种运行应用程序的方法及装置 | |
CN109274437A (zh) | 一种摄像头抗干扰方法、设备及计算机可读存储介质 | |
CN104820546B (zh) | 功能信息展示方法和装置 | |
CN106921791A (zh) | 一种多媒体文件的存储和查看方法、装置及移动终端 | |
CN107171740A (zh) | 射频干扰处理方法、装置、存储介质及终端 | |
CN106936516A (zh) | 显示屏显示状态控制方法、存储介质及终端 | |
CN103399657B (zh) | 鼠标指针的控制方法、装置及终端设备 | |
CN107256380A (zh) | 指纹注册方法及相关产品 | |
CN107153576A (zh) | 一种内存资源的分配方法及终端设备 | |
CN106249992A (zh) | 一种网页控制方法及移动终端 | |
CN106570001A (zh) | 一种音译文字的方法及装置 | |
CN106356071A (zh) | 一种噪声检测方法,及装置 | |
CN106057213B (zh) | 一种显示人声音高数据的方法和装置 | |
CN106682189A (zh) | 文件名显示方法及装置 | |
CN106713636A (zh) | 图片数据的加载方法、装置及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |