CN109599123B - 基于遗传算法优化模型参数的音频带宽扩展方法及系统 - Google Patents
基于遗传算法优化模型参数的音频带宽扩展方法及系统 Download PDFInfo
- Publication number
- CN109599123B CN109599123B CN201710911340.3A CN201710911340A CN109599123B CN 109599123 B CN109599123 B CN 109599123B CN 201710911340 A CN201710911340 A CN 201710911340A CN 109599123 B CN109599123 B CN 109599123B
- Authority
- CN
- China
- Prior art keywords
- frequency spectrum
- sequence
- frequency
- audio
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000002068 genetic effect Effects 0.000 title claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 36
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 86
- 230000005236 sound signal Effects 0.000 claims abstract description 31
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 230000005284 excitation Effects 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 230000003595 spectral effect Effects 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 7
- 238000011161 development Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005316 response function Methods 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 230000002087 whitening effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- JJFQTKHGJJWAJZ-UHFFFAOYSA-N 2-benzylsulfanyl-5-(trifluoromethyl)benzoic acid Chemical compound OC(=O)C1=CC(C(F)(F)F)=CC=C1SCC1=CC=CC=C1 JJFQTKHGJJWAJZ-UHFFFAOYSA-N 0.000 claims 2
- 230000006870 function Effects 0.000 description 14
- 230000035772 mutation Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
Description
技术领域
本发明涉及一种音频带宽扩展技术领域,更具体地说,本发明涉及一种基于遗传算法优化模型参数的音频带宽扩展方法及系统。
背景技术
根据人们对音频质量的实际需求,数字音频技术所重现信号的带宽会受到一定的限制。为此,音频信号可以分为窄带、宽带、超宽带和全带四种。其中全带信号的有效带宽覆盖了人耳能感知全部频率范围(20Hz~20kHz),这类音频主要用于音乐信号的高保真重现,所需要的网络传输速率和终端计算能力相对较高。传统电话语音通常采用窄带信号,其频率分布在300Hz~3.4kHz内,采样率为8kHz,可以满足人们基本通话需求,但存在语音主观感知质量不高等缺陷。电话语音通信领域中,采样率16kHz、有效带宽为50Hz~7kHz宽带音频的引入可以获得更好的可懂度。此外,与宽带音频信号相比,32kHz采样的超宽带音频频带范围进一步扩大到50Hz~14kHz,其重现声音具有更好的自然度和表现力。
鉴于较高带宽的音频信号具有良好的听觉质量,宽带、超宽带音频处理技术日益成为电视电话会议、网络流媒体等通信传输市场的热点。然而,信号带宽的提高必然导致处理数据量的增加,而数据量增加所导致网络服务器在传输、运算、存储能力方面的设备改动将会十分繁琐,对基站设备的大规模升级也将会耗资巨大。与此同时,超宽带音频传输需要终端设备至少包含更加先进的前端声电器件和数模转换器,同时还要具备新的超宽带音频编码器以及向下兼容宽窄带通信的处理能力。而要求大多数用户为终端设备的更新进行投资也是不切实际的。并且在复杂的音频通信传输系统中,由于受到码率限制、设备缺陷等方面影响,输入信号带宽不够稳定,存在可变带宽的现象。因此,受到历史、经济、技术等诸多问题的限制,在不同带宽设备长期共存的过渡时期中,如何最小代价地改善现有宽带通信设备的兼容性使其能够较为稳定地达到宽带甚至超宽带处理能力就成为现代通信系统亟待解决的问题。
作为一种有效的音频增强方法,音频带宽扩展日臻成为过渡时期宽带、超宽带音频处理领域研究的最新热点。它在不影响网络传输和宽带信号信源编码的前提下,通过分析原始全带音频的信号特点,在接收端对重建的窄带或者宽带音频人为增加一定的频率信息,恢复其截去的高频带成分,从而达到增强听觉质量、重现宽带或者超宽带音频的目的。在目前网络传输条件下,该技术的引入对于缓解通信设备兼容性不足和用户高质量音频需求间的矛盾具有十分重要的现实意义,因此近几年来国内外学者针对带宽扩展技术进行了广泛而深入的研究。然而,目前传统的音频带宽扩展方法一般采用传统的统计模型对频谱包络部分进行扩展,并非从音频信号高低频频谱包络本身的变化趋势进行研究,导致扩展的高频部分比较均匀、自然度较差,且不同音频扩展部分之间区分度较低。
发明内容
本发明的目的在于,针对传统统计模型在音频带宽扩展上存在的缺陷,提出了一种采用灰色模型(Grey Model,GM)对音频高频频谱包络成分进行估计的方法,结合常规高频频谱细节预测技术,实现了一种新的音频带宽扩展技术。本发明创造性地将灰色模型引入信号处理领域,同时对该模型中的背景值序列进行了优化,从而设计实现了一种基于遗传算法来优化灰色模型参数的音频带宽扩展方法和系统,有效地实现了音频高频频谱成分的恢复和重建。
为了实现上述目的,本发明提供了一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:
步骤1)对输入音频信号x(n)进行预处理,获得采样率加倍而带宽不变的滤波信号;
步骤2)对滤波信号进行调制重叠变换,得到低频调制重叠变换系数;
步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;
步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;
步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;
步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;
步骤7)根据音频信号x(n)的高频频谱信息,结合信号x(n)的原始低频成分,利用调制重叠反变换实现x(n)的音频带宽扩展。
作为上述方法的一种改进,所述步骤2)具体包括:
步骤201)将滤波信号按照固定的时间长度进行分帧,并进行时频变换,得到宽带音频频域信息;
步骤202)使用调制重叠变换对音频频域信息进行时频分析,得到m个频谱参数Cmlt(i),i=0…,m-1;
步骤203)经过时频变换后得到的m个Cmlt(i)频谱参数中前k点有实际幅度值,将低频部分相应的MLT系数表示为Cmlt(i),i=0…,k-1。
作为上述方法的一种改进,所述步骤3)具体包括:
步骤302)分别计算每个子带的均方根能量erms (0)(n),n=0,…,q-1:
步骤303)构建原始音频信号的低频谱包络序列:
E(0)={erms (0)(0),erms (0)(1),…,erms (0)(q-1)}。
作为上述方法的一种改进,所述步骤4)具体包括:
步骤401)建立灰色模型GM(1,1),具体包括:
步骤401-1)根据原始音频信号的频谱包络序列E(0),计算其一次累加序列E(1):
E(1)={erms (1)(0),erms (1)(1),…,erms (1)(q-1)} (3)
其中:
式中n为音频频谱序列的子带数;
步骤401-2)对一次累加序列E(1)构造音频频谱包络的背景值序列Zb (1);
背景值序列Zb (1)={zb (1)(1),zb (1)(2),…,zb (1)(q-1)},其中:
α为背景值参数,0≤α≤1;
步骤401-3)根据背景值序列Zb (1)和原始频谱包络序列E(0),建立灰色微分方程来描述频谱包络序列的变化趋势,即
erms (0)(n)+az(1)(n)=b (7)
该式即为GM(1,1)模型的基本形式;其中,参数a和b分别称为发展系数和灰色作用量;
步骤402)计算高频频谱包络的累加序列;
灰色微分方程的白化方程为:
其时间响应函数表示为:
进一步,上式对应的时间响应序列表示为:
其中:
作为上述方法的一种改进,所述步骤401-2)中背景值参数α取值为0.5;此时,背景值序列Zb (1)为紧邻均值生成序列。
作为上述方法的一种改进,采用标准遗传算法优化步骤4)的灰色模型GM(1,1)的背景值参数α时,具体步骤为:
步骤S1)采用灰色模型GM(1,1)对低频频谱包络序列进行拟合;
步骤S2)将其平均绝对百分比误差的倒数作为适应度函数Ffitness来对背景值参数α的优化效果进行评价:
步骤S2)采用二进制编码方法对频谱包络背景值生成序列中的背景值参数进行编码;
步骤S3)采用已设定的适应度函数来对初始集合中的参数进行评价,然后从集合中选取较优的参数利用遗传算子进行组合,从而产生新一代参数集合中的候选解,并不断重复上述过程,直到满足某种收敛条件;
遗传算法中需要选择的运行参数有背景值参数集合中的个数t,遗传算法的进化终止代数T,交叉概率Pc和变异概率Pm;运行参数的大小会直接影响收敛时间和搜索效率,通常取20≤t≤100,100≤T≤500,0.4≤Pc≤0.99,0.0001≤Pm≤0.1;
收敛条件为:当最优参数个体的适应度达到给定的阈值Rf=200,或最优参数的适应度和群体适应度不再上升时,或迭代次数达到预设的遗传代数T=100时,算法终止。
作为上述方法的一种改进,所述步骤4)的灰色模型GM(1,1)的参数a和b通过最小二乘法求出,具体为:
当q=14,令A=(a,b)T,且
可以看出Y=B[a,b]T=BA;
下面采用最小二乘法进行推导:
定义预测误差ES为:
ES=εTε=(Y-BA)T(Y-BA) (9)
为了使ES得到最小值,利用
可以得到
BTBA=BTY (11)
即灰色微分方程的最小二乘估计参数列满足:
A=(BTB)-1BTY (12)
由此求出A,得到灰色模型GM(1,1)的参数a和b。
一种基于遗传算法优化模型参数的音频带宽扩展系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优势在于:
1、本发明的方法从音频信号高低频频谱包络本身的变化趋势进行研究,扩展后的高频成分更接近原始全带音频信号,频谱分布更加自然,不同音频扩展成分之间区分性更好;
2、本发明中的灰色模型背景值序列的设置更为合理,对高频频谱包络部分的预测更为精准;
3、本发明的方法降低了音频带宽扩展技术,尤其是频谱包络估计模块的计算复杂度,在保证扩展效果不变甚至更优的前提下,实现效率更高、运行速度更快的扩展过程。
附图说明
图1为本发明的基于遗传算法优化模型参数的音频带宽扩展方法的流程图;
图2为本发明的基于GM(1,1)的高频子带能量估计流程图;
图3为本发明的GM(1,1)背景值参数与模型预测值的关系框图;
图4为现有技术的遗传算法寻优流程图;
图5为本发明的GA-GM(1,1)背景值参数优化流程图;
图6为现有技术的轮盘赌模型的原理图。
具体实施方式
下面结合附图和具体实施例对本发明的方法进行详细地说明。
如图1所示,一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:
在本实施例中,采用有效带宽7kHz采样率16kHz的宽带音频信号作为频带扩展方法的输入信号。该信号通过基2上采样和低通滤波器,可获得同样7kHz有效带宽而采样率为32kHz的滤波信号x(n)。首先,将该输入信号x(n)按照20ms的时间长度进行分帧,并进行时频变换,得到宽带音频频域信息。本实施例将选取调制重叠变换(Modulated LappedTransform,MLT)方法对音频信号进行时频分析,得到音频信号的频域序列。由于MLT的时间叠接窗长为40ms,所以在进行时频分析时需将上一帧和本帧数据共1280个采样点一起进行MLT变换,得到640个频谱参数Cmlt(i)来表示0~16kHz的频谱信息。MLT变换公式如下:
由于输入的时域信号和滤波信号有效带宽均为7kHz,所以经过时频变换得到的640个Cmlt(i)频谱参数中仅有前280点有实际幅度值,其他参数幅度值为0,低频部分相应的MLT系数可以表示为Cmlt(i),i=0…,279。
本发明的频带扩展方法主要由频谱包络扩展和频谱细节扩展两部分构成。当输入信号经过MLT变换后,将对这两个部分分别进行处理。
首先是频谱包络部分的扩展。将7kHz以下的280个Cmlt(i)参数进行子带划分,每个子带由20个频点构成,可以得到14个子带。然后,分别计算每个子带均方根能量erms (0)(n),n=0,…,13来表示音频低频频谱包络信息,如下式所示,
在频谱包络估计模块中,本实施例采用一阶单变量灰色模型GM(1,1),根据7kHz以下的低频能量信息来估计7~14kHz的高频子带均方根能量,从而实现对高频频谱包络的估计。
GM(1,1)通过建立一个描述高低频频谱包络之间变化趋势的灰色微分方程,根据已知的宽带音频频谱的包络能量来恢复丢失的高频频谱成分。首先对原始频谱包络序列进行一次累加生成(Accumulated Generating Operation,AGO)和紧邻均值生成;然后利用所得紧邻均值序列及原始序列建立灰色微分方程;最后通过数据序列的最小二乘拟合,确定高频频谱包络序列的预测模型。所提方法的原理如图2所示。
首先,根据原始音频信号的频谱包络序列E(0),可以得到其一次累加(1-AGO)序列E(1),
E(1)={erms (1)(0),erms (1)(1),…,erms (1)(13)} (3)
式中n为音频频谱序列的子带数。
对所得1-AGO序列E(1)进行紧邻均值生成,可以获得紧邻均值序列Z(1),
Z(1)={z(1)(1),z(1)(2),…,z(1)(13)} (5)
其中,
接下来,根据上面得到的紧邻均值序列Z(1)和原始频谱包络序列E(0),可以建立灰色微分方程来描述频谱包络序列的变化趋势,即
erms (0)(n)+az(1)(n)=b (7)
该式即为GM(1,1)模型的基本形式。其中,参数a和b分别称为发展系数和灰色作用量,a的大小和符号反映所要估计的高频频谱包络累加序列和原始序列的发展态势;b反映了高低频频谱包络序列变化的关系;而紧邻均值生成序列Z(1)也叫做GM(1,1)的背景值序列。
下一步,通过最小二乘法可以求出式(7)中的参数a和b。
令A=(a,b)T,且
可以看出Y=B[a,b]T=BA。下面采用最小二乘法进行推导:
定义预测误差ES为:
ES=εTε=(Y-BA)T(Y-BA) (9)
为了使ES得到最小值,利用
可以得到
BTBA=BTY (11)
即灰色微分方程的最小二乘估计参数列满足:
A=(BTB)-1BTY (12)
灰色微分方程的白化方程为:
该方程也可以称作影子方程。其时间响应函数可以表示为:
进一步,上式对应的时间响应序列可以表示为:
通过上述过程可以对每个高频子带能量值逐个进行预测。结合原始的低频频谱包络序列,该方法能够较好地重建超宽带音频信号的频谱包络信息。
根据上面得到的子带均方根能量,本实施例采用归一化的MLT频谱参数Cnorm(i)来表示频谱细节信息,即
根据音频频谱序列的特性,可以采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测等技术实现对激励信号的扩展,在较大程度上保持较高带宽音频信号的本质规律,还原重建高频信号的音色,从而实现对高频频谱细节的恢复。最后,根据得到的音频频谱包络和细节来恢复高频信号的频谱信息,并结合原始低频成分,借助MLT反变换(Inverse Modulated Lapped Transform,IMLT)得到有效带宽为14kHz采样率为32kHz的超宽带音频信号,从而实现完整的频带扩展。
下面针对本发明主要的创新点——基于遗传算法针对灰色模型背景值序列进行优化的方法,进行详细介绍。
由于GM(1,1)的预测精度取决于发展系数a和灰色作用量b的大小,而这两个参数值与原始音频序列和背景值序列Z(1)的构造形式有关,因此下面将对背景值序列的构造形式展开讨论,从而对模型参数做出最佳的调整。首先对GM(1,1)的背景值序列进行简要介绍。
根据音频频谱包络的1-AGO序列E(1),可以进一步构造音频频谱包络的背景值序列Zb (1)={zb (1)(1),zb (1)(2),…,zb (1)(13)},其中:
zb (1)(n)=αerms (1)(n)+(1-α)erms (1)(n-1),n=1,2,...,13 (20)
由上述公式可知,由于参数α值的大小直接决定了背景值序列的构造形式,而背景值序列的构造直接决定了灰色微分方程中关键参数a,b的大小,从而会直接影响GM(1,1)预测的准确性,其关系如图3表示。
由此可知,背景值参数α的大小直接影响GM(1,1)对音频高频频谱包络序列进行预测的效果。所以下面对背景值参数的选取进行了详细讨论。
一般取α=0.5,如上节高频子带能量估计方法中所得的紧邻均值生成序列Z(1),它是频谱包络背景值序列的一种特殊形式。紧邻均值生成可以看成是对频谱包络序列的一种平滑处理方法,它适用于频谱包络数据变化平缓的音频信号,能够适当降低GM(1,1)的预测误差。但当音频信号频谱包络序列数据变化急剧时,该背景值序列构造方法的平滑特性往往会产生较大的滞后误差,会在一定程度上影响高频预测精度。所以,本发明采用遗传算法通过对背景值序列构造形式的改进来进一步提高GM(1,1)建模精度。
遗传算法是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法,它模拟自然选择和自然遗传过程中发生的繁殖、交叉和基因突变现象,在每次迭代过程中保留一组候选解,并按某种指标从中选取较优的个体,利用遗传算子(选择、交叉、变异)对这些个体进行组合,产生新一代候选解,并重复此过程,直到满足某种收敛目标,如图4所示。
图4中,编码及产生初始参数群体、适应度值评价、遗传算子操作是遗传算法中最为核心的三个部分。该算法通过某种编码机制把问题空间中的对象抽象为由特定符号按一定顺序排成的串,实现从表现型(个体的性状)到基因型(内部染色体特征)的映射。编码方法决定了个体染色体的排列形式,而个体适应度的大小决定了它继续繁衍还是消亡,适应度较高的个体被(遗传)复制到下一代的概率大。在遗传算子操作过程中,选择算子的作用是使种群中优秀的个体有更多的机会传到下一代,交叉算子则体现了自然界中种群个体间的信息交换,而变异算子是在种群中引入新的变种确保种群中信息的多样性。
鉴于遗传算法较好的全局搜索能力、对适应度函数较低的约束要求以及广泛的适应性,本发明采用该方法来求解音频频谱包络的最佳背景值参数。首先,确定约束条件并随机生成初始参数集合。然后,利用该集合中的背景值参数生成背景值序列,并根据该序列和原始序列建立GM(1,1)预测模型来对低频频谱包络序列进行拟合。其次,利用低频频谱包络拟合误差设置适应度函数,并根据适应度值的大小来对参数进行评价。接下来,将适应度评价较高的参数进行选择、交叉、变异操作,生成新的参数集合。最后,根据以上步骤进行循环,直到达到收敛标准为止。本文通过遗传算法可以选取最佳背景值参数,从而进一步提高GM(1,1)的预测精度,该优化方法可以简记为GA-GM(1,1)。
本文采用标准遗传算法对GM(1,1)的背景值参数进行优化,如图1-5所示。具体步骤为:
第一步:确定决策变量及其约束条件。
GA-GM(1,1)的最优背景值参数估计过程中,背景值参数α是唯一的决策变量。根据背景值序列的构造形式,可知该参数α的约束条件为:0≤α≤1。
第二步:建立参数优化模型。
参数优化模型中最重要的评价方法是适应度函数值的大小,它决定了背景值参数个体是继续保留还是被舍弃,该选择方法与生物个体在每一代遗传时的繁衍和消亡过程相对应。设计适应度函数时要求最终选取参数的优劣性与适应度之间具有严格单调升的函数关系。另外,由于遗传算子进行操作前需按照适应度值大小来比较排序、计算选择概率,因而一般将适应度函数值设置为非负数,且最终评价标准为求该函数最大值的形式。本发明采用GM(1,1)对低频频谱包络序列进行拟合,将其平均绝对百分比误差(Mean AbsolutePercent Error,MAPE)的倒数作为适应度函数Ffitness来对背景值参数的优化效果进行评价,即适应度函数值越大背景值参数的设置效果越好,从而根据低频频谱包络较小的拟合误差来选择背景值参数,最终达到高频频谱包络的预测误差最小的目的。
采用灰色模型GM(1,1)对低频频谱包络序列进行拟合;
第三步:确定编码方法。
本发明采用二进制编码方法对频谱包络背景值生成序列中的背景值参数进行编码。首先利用二进制串随机生成初始参数集合,并设定该集合中初始参数的数目。其中,用于表示每个参数的二进制串编码长度与求解精度有关。背景值参数的取值范围是[0,1],用长度为k的二进制编码符号串来表示该参数,则该符号串代表小数点之后的所有位数,总共能够产生2k种不同的编码,参数编码时的对应关系如下:
其中δ∈(0,1)。
算法中采用已设定的适应度函数来对初始集合中的参数进行评价,然后从集合中选取较优的参数利用遗传算子进行组合,从而产生新一代参数集合中的候选解,并不断重复上述过程,直到满足某种收敛条件。
第四步:设计遗传算子。
(1)选择算子:
选择算子从集合中按某一概率选择参数,采用轮盘赌(roulette wheel)模型(又称比例选择算子)来实现该操作。设群体大小为n,背景值参数编码值i的适应度为Ffitness(i),则i被选中遗传到下一代集合的概率Pi为:
轮盘赌模型的基本思想:是某个背景值参数i被选择的概率Pi与其适应度函数值大小成正比。该算法原理如图1-6所示,图中的圆环代表每个参数的适应度,它可以自由转动,上面的刻度值代表其适应度的大小,图中的指针代表所选中的参数个体,它是固定不动的。当圆环旋转若干圈后停止,指针所指位置便是被选中的参数值。从统计意义讲,适应度值大的参数,在圆环上刻度区间较长,被选中的可能性较大;反之,适应度值小的被选中的可能性较小。
(2)交叉算子
根据预先设定的交叉概率Pc,对两个采用二进制编码表示的参数按某种方式相互交换其部分二进制片段,从而形成两个新的个体,其中Pc是系统参数。本文采用单点交叉算子。首先按照交叉概率选出要进行交叉的背景值参数编码个体,形成交叉配对集合,然后进行随机配对,最后对每一对初始参数随机确定交叉点,交换编码片段(即两个二进制串的尾部互换),形成两个新的参数个体。如下例:
交叉前 交叉后
S1:00010|0111000110010000 00010|0000011111000101
S2:11100|0000011111000101 11100|0111000110010000
(3)变异算子
根据预先设定或自适应的变异概率Pm将背景值参数编码后的二进制串中的某些片段进行替换,形成一个新的参数个体。本文采用基本位变异算子对所选定的二进制片段进行变异。由于采用二进制编码,因此变异操作时仅需将某些位的值直接取反,即1与0之间进行互换。
例如:变异前:S2:100000110011111000101
变异后:S2:100000110010111000101
第五步:确定遗传算法的运行参数。
标准遗传算法中需要选择的运行参数主要有背景值参数集合中的个数n,遗传算法的进化终止代数T,以及交叉概率Pc和变异概率Pm。运行参数的大小会直接影响收敛时间和搜索效率,在实际应用中,通常取20≤n≤100,100≤T≤500,0.4≤Pc≤0.99,0.0001≤Pm≤0.1。根据实验结果,本实施例设定背景值参数个数n为20,交叉概率Pc和变异概率Pm分别为0.7和0.1。
第六步:算法终止的条件。
当最优参数个体的适应度达到给定的阈值Rf=200,或最优参数的适应度和群体适应度不再上升时,或迭代次数达到预设的遗传代数T=100时,算法终止。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:
步骤1)对输入音频信号x(n)进行预处理,获得采样率加倍而带宽不变的滤波信号;
步骤2)对滤波信号进行调制重叠变换,得到低频调制重叠变换系数;
步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;
步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;
步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;
步骤6)根据步骤4)所得高频频谱包络和步骤5)所得的高频频谱细节,恢复音频信号x(n)的高频频谱信息;
步骤7)根据音频信号x(n)的高频频谱信息,结合信号x(n)的原始低频成分,利用调制重叠反变换实现x(n)的音频带宽扩展。
2.根据权利要求1所述的基于遗传算法优化模型参数的音频带宽扩展方法,其特征在于,所述步骤2)具体包括:
步骤201)将滤波信号按照固定的时间长度进行分帧,并进行时频变换,得到宽带音频频域信息;
步骤202)使用调制重叠变换对音频频域信息进行时频分析,得到m个频谱参数Cmlt(i),i=0…,m-1;
步骤203)经过时频变换后得到的m个Cmlt(i)频谱参数中前k点有实际幅度值,将低频部分相应的MLT系数表示为Cmlt(i),i=0…,k-1。
4.根据权利要求3所述的基于遗传算法优化模型参数的音频带宽扩展方法,其特征在于,所述步骤4)具体包括:
步骤401)建立灰色模型GM(1,1),具体包括:
步骤401-1)根据原始音频信号的频谱包络序列E(0),计算其一次累加序列E(1):
E(1)={erms (1)(0),erms (1)(1),…,erms (1)(q-1)} (3)
其中:
式中n为音频频谱序列的子带数;
步骤401-2)对一次累加序列E(1)构造音频频谱包络的背景值序列Zb (1);
背景值序列Zb (1)={zb (1)(1),zb (1)(2),…,zb (1)(q-1)},其中:
α为背景值参数,0≤α≤1;
步骤401-3)根据背景值序列Zb (1)和原始频谱包络序列E(0),建立灰色微分方程来描述频谱包络序列的变化趋势,即
erms (0)(n)+az(1)(n)=b (7)
该式即为GM(1,1)模型的基本形式;其中,参数a和b分别称为发展系数和灰色作用量;
步骤402)计算高频频谱包络的累加序列;
灰色微分方程的白化方程为:
其时间响应函数表示为:
上式对应的时间响应序列表示为:
其中:
5.根据权利要求4所述的基于遗传算法优化模型参数的音频带宽扩展方法,其特征在于,所述步骤401-2)中背景值参数α取值为0.5;此时,背景值序列Zb (1)为紧邻均值生成序列。
7.一种基于遗传算法优化模型参数的音频带宽扩展系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710911340.3A CN109599123B (zh) | 2017-09-29 | 2017-09-29 | 基于遗传算法优化模型参数的音频带宽扩展方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710911340.3A CN109599123B (zh) | 2017-09-29 | 2017-09-29 | 基于遗传算法优化模型参数的音频带宽扩展方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109599123A CN109599123A (zh) | 2019-04-09 |
CN109599123B true CN109599123B (zh) | 2021-02-09 |
Family
ID=65955453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710911340.3A Active CN109599123B (zh) | 2017-09-29 | 2017-09-29 | 基于遗传算法优化模型参数的音频带宽扩展方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109599123B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246508B (zh) * | 2019-06-14 | 2021-08-31 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种信号调制方法、装置和存储介质 |
US11514883B2 (en) | 2019-08-02 | 2022-11-29 | Rda Microelectronics (Shanghai) Co., Ltd. | Active noise reduction system and method, and storage medium |
CN110556123B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN117935826A (zh) * | 2024-03-22 | 2024-04-26 | 深圳市东微智能科技股份有限公司 | 音频升采样方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101518083A (zh) * | 2006-09-22 | 2009-08-26 | 三星电子株式会社 | 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法、介质和系统 |
US20090319278A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (mclt) |
CN103971692A (zh) * | 2013-01-28 | 2014-08-06 | 北京三星通信技术研究有限公司 | 音频处理方法、装置及系统 |
CN105070293A (zh) * | 2015-08-31 | 2015-11-18 | 武汉大学 | 基于深度神经网络的音频带宽扩展编码解码方法及装置 |
CN105280190A (zh) * | 2015-09-16 | 2016-01-27 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
-
2017
- 2017-09-29 CN CN201710911340.3A patent/CN109599123B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101518083A (zh) * | 2006-09-22 | 2009-08-26 | 三星电子株式会社 | 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法、介质和系统 |
US20090319278A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (mclt) |
CN103971692A (zh) * | 2013-01-28 | 2014-08-06 | 北京三星通信技术研究有限公司 | 音频处理方法、装置及系统 |
CN105070293A (zh) * | 2015-08-31 | 2015-11-18 | 武汉大学 | 基于深度神经网络的音频带宽扩展编码解码方法及装置 |
CN105280190A (zh) * | 2015-09-16 | 2016-01-27 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109599123A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599123B (zh) | 基于遗传算法优化模型参数的音频带宽扩展方法及系统 | |
CA2800208C (en) | A bandwidth extender | |
CN102576542B (zh) | 从窄频带信号确定上频带信号的方法和设备 | |
Liu et al. | Steganography integrated into linear predictive coding for low bit-rate speech codec | |
CN103155031B (zh) | 音乐信号编码装置和方法以及音乐信号解码装置和方法 | |
CN104966517A (zh) | 一种音频信号增强方法和装置 | |
CN108198571B (zh) | 一种基于自适应带宽判断的带宽扩展方法及系统 | |
TW201131555A (en) | Frequency band enlarging apparatus and method, encoding apparatus and method, decoding apparatus and method, and program | |
CN104011793A (zh) | 帧错误隐藏方法和设备以及音频解码方法和设备 | |
CN106409313A (zh) | 一种音频信号分类方法和装置 | |
EP1766614A2 (en) | Neuroevolution-based artificial bandwidth expansion of telephone band speech | |
TW201209808A (en) | Frequency band enlarging apparatus and method, encoding apparatus and method, decoding apparatus and method, and program | |
JP2017138616A (ja) | オーディオ信号符号化及び復号化方法並びにオーディオ信号符号化及び復号化装置 | |
CN104217727A (zh) | 信号解码方法及设备 | |
CN110674924B (zh) | 一种深度学习推理自动量化方法和装置 | |
JP6650540B2 (ja) | 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、及びプログラム | |
CN107077855A (zh) | 信号编码方法和装置以及信号解码方法和装置 | |
CN105280190A (zh) | 带宽扩展编码和解码方法以及装置 | |
JP2017151466A (ja) | 符号化方法、復号化方法、符号化装置及び復号化装置 | |
WO2024051412A1 (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
Hao et al. | Time-domain neural network approach for speech bandwidth extension | |
CN101208741A (zh) | 一种适用于数字信号短时相关性模型之间的互用性的方法 | |
CN115422264B (zh) | 一种时序数据处理方法、装置、设备及可读存储介质 | |
CN1198397C (zh) | 解码器、解码方法 | |
CN108010533A (zh) | 音频数据码率的自动识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |