CN106898357A - 一种基于正态分布规律的矢量量化方法 - Google Patents

一种基于正态分布规律的矢量量化方法 Download PDF

Info

Publication number
CN106898357A
CN106898357A CN201710083683.5A CN201710083683A CN106898357A CN 106898357 A CN106898357 A CN 106898357A CN 201710083683 A CN201710083683 A CN 201710083683A CN 106898357 A CN106898357 A CN 106898357A
Authority
CN
China
Prior art keywords
code word
training sample
code
degree
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710083683.5A
Other languages
English (en)
Other versions
CN106898357B (zh
Inventor
贺前华
蔡梓文
王亚楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710083683.5A priority Critical patent/CN106898357B/zh
Publication of CN106898357A publication Critical patent/CN106898357A/zh
Application granted granted Critical
Publication of CN106898357B publication Critical patent/CN106898357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于正态分布规律的矢量量化方法,在码本生成中,首先将训练样本集的特征中心作为初始码字,然后再对初始码字进行码字分裂,当码字为非首次分裂时,将各码字的码字宽度和隶属于各码字中的训练样本数作乘积,将上述乘积最大的L个码字选取出来作为待分裂码字,得到新的码字均值,实现码字分裂,在码字每完成一次分裂后,进入数据划分阶段;数据划分时将各码字描述为正态分布,计算每个训练样本对各个码字隶属度,划分胞腔更新码字;判断量化失真度是否收敛,若否,继续数据划分;若是,则判断码字总量是否达到一定值,若否,则继续码字分裂,若是,则输出最终码本。本发明方法能够提高码字分裂准确性,降低了矢量量化的误差。

Description

一种基于正态分布规律的矢量量化方法
技术领域
本发明涉及一种矢量量化方法,特别涉及一种基于正态分布规律的矢量量化方法。
背景技术
伴随着信息与通信等领域的迅速发展,大量的语音、图像等多媒体信息要进行存储、处理与传输,需要很大的存储空间和信道带宽。为了提高存储效率和减小存储空间,在允许的失真条件下,应尽可能地消除媒体信息中的冗余信息。量化是数据压缩的常用技术,量化方法分为两种:标量量化和矢量量化。标量量化是指对信号波形的每个取样值或信号的每个参数值分别独立的进行量化。矢量量化是指将信号波形的取样值或信号的参数值分成一些组,每组构成一个矢量,然后分别对每个矢量进行量化,因此,各矢量中的元素是作为一个整体联合进行量化的,可以压缩了数据而不损失多少信息,矢量量化技术作为一种有效的有损压缩技术,具有压缩比大、解码算法简单的特点。
矢量量化是70年代后期发展起来的一种数据压缩技术,广泛应用于语音编码、语音合成、语音识别和说话人识别等领域,在语音信号处理中占有十分重要的地位。矢量量化有三个方面的关键技术:码本设计、码本搜索和码本索引分配,其中码本设计是首要问题,码本设计的主要目标是找到训练矢量的一个最佳分类,即将M个k维的训练矢量分成N个类别的最佳方案。目前,码本设计经典算法LBG得到广泛应用,LBG码本的产生通过计算最小失真准则下的最优质心来实现。LBG算法利用当前的码本将训练矢量集合分为不相交的簇,然后再寻找这些簇的质心,从而获得新的码字,通过上述迭代过程总的平均失真将逐渐得到改进;然而,码字的分裂过程忽略了样本的分布特性,是一种随机分裂的形式。其中随机分裂时,由于矢量量化每次迭代过程都要进行一次K均值聚类,迭代过程终止于一个局部最优状态,这种算法的结果与初始中心的选择关系较大,初始中心选择不当时,容易受到类边缘点和噪声点的影响,因此码字分裂的合理性比较低。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于正态分布规律的矢量量化方法,该方法能够提高码本建立过程中码字的分裂准确性,降低了矢量量化的误差。
本发明的目的通过下述技术方案实现:一种基于正态分布规律的矢量量化方法,包括码本生成过程、码本搜索过程和码本索引分配过程,所述码本生成过程具体如下:
S1、预处理:对获取到的音频信号进行静音检测,提取出非静音音频信号,并且对非静音音频信号进行分帧处理,将分帧处理得到的每帧非静音音频信作为训练样本,组成训练样本集;
S2、提取训练样本集中每个训练样本的频谱特征,计算出训练样本集的特征中心,并且将训练样本集的特征中心作为初始码字;然后进入步骤S3;
S3、码字分裂:判断当前码字分裂是否为初次分裂;
若是,则对初始码字进行随机分裂,在随机分裂后进入步骤S5;
若否,则进入步骤S4;
S4、确定分裂的码字及其分裂方向和尺度,分裂得到新的码字,具体过程如下:
S41、定义各码字ci的码字宽度δi为各码字ci中所有维度归一化后的方差乘积;取定值L,判断当前存在的码字总量是否大于L;
若否,则将当前存在的所有码字选取出来作为待分裂码字;
若是,将各码字ci的码字宽度δi和隶属于各码字中ci的训练样本数Ni作乘积,然后将上述乘积以从大到小的顺序排名前L的对应L个码字选取出来作为待分裂码字;
S42、计算训练样本集中各训练样本与上述选取出的各待分裂码字之间的距离,将计算出的最大距离对应的训练样本和待分裂的码字所构成的直线方向作为码字的分类方向,并将其归一化矢量记为w;
S43、根据当前存在的码字总量I、选取出的各待分裂码字的均值以及步骤S42中获取到的归一化矢量w确定新的码字的均值,从而得到分裂后的码字:
其中Xh为选取出的待分裂码字ch的均值矢量,δh为选取出的待分裂码字ch的码字宽度,Xh′为计算得到的新的码字的均值矢量;
S44、进入步骤S5;
S5、数据划分,具体如下:
S51、首先采用最近邻原则对训练样本集进行首次量化分类,划分胞腔,根据得到的胞腔更新码字,然后进入步骤S52;
S52、接着用正态分布描述各码字,然后根据正态分别描述的码字计算训练样本集中每个训练样本对各个码字的隶属度,根据每个训练样本对各个码字的隶属度划分胞腔,根据得到的胞腔更新码字,然后进入步骤S53;
S53、计算量化失真度,判断量化失真度是否收敛;若是,则停止数据划分,然后进入步骤S6;若否,则返回步骤S52;具体操作如下:
S6、判断当前存在的码字总量I是否大于等于定值M;
若否,当前存在的码字总量I小于定值M,则回到步骤S3;
若是,则输出最终的码本。
优选的,所述步骤S3中初始码字随机分裂得到:
C1=(1+η)C0
C2=(1-η)C0
其中C0为初始码字,C1和C2是初始码字C0随机分裂后的码字,η为一常数。
优选的,所述步骤S41中码字ci的码字宽度δi为:
mid=(σmaxmin)/2;
σmax=max(σim),i=1,2,...,I,m=0,1,...DIM-1;
σmin=min(σim),i=1,2,...,I,m=0,1,...DIM-1;
其中σim为码字ci的方差矢量σi中第m维度对应的方差值,σmax为所有码字的方差矢量中所有维度里最大的方差值,σmin为所有码字的方差矢量中所有维度里最小的方差值,DIM为码字ci中的维度数。
优选的,所述步骤S52中更新码字的具体过程:
S521、用一个正态分布描述一个码字,计算训练样本集中每个训练样本对各码字的隶属度,并且保留隶属度中最大的K个,其他隶属度归为零,即定义各训练样本仅隶属于上述K个隶属度所对应的码字;
S522、计算各码字的隶属空间,即获取隶属于各码字的训练样本以及隶属于各码字的训练样本的隶属度之和;
S523、根据步骤S521保留的各训练样本隶属度以及步骤S522中得到的隶属于各码字的训练样本的隶属度之和更新码字各维度的均值和方差,从而更新码字,得到新的码字。
更进一步的,所述步骤S521中,训练样本集中每个训练样本对各码字的隶属度为:
其中yn表示训练样本集中各训练样本n的特征参数值,N表示训练样本集中训练样本的总数,I为当前存在的码字总量;xi为码字ci更新前的均值矢量,σi码字ci更新前的方差矢量,DIM为码字ci的维度数,p(yn/ci)表示训练样本n对码字ci的隶属度。
更进一步的,所述步骤S523中,各码字更新后的均值为:
步骤S523中,各码字更新后的方差值为:
其中yj表示隶属于码字ci的训练样本j的特征参数值,p(yj|ci)表示训练样本j对码字ci的隶属度,sumi为隶属于码字ci的所有训练样本的隶属度之和,xi′为码字ci更新后的均值,σi′为码字ci更新后的方差值。
更进一步的,所述步骤S53中,计算码字更新后的量化失真度,将码字更新后的当前量化失真度与码字更新前的量化失真度进行对比,以判断量化失真度是否收敛,具体为:
判断是否成立,若是,则表示量化失真度收敛;
其中
优选的,所述S6中当前存在的码字总量I大于等于定值M的情况下,若当前存在的码字总量I大于定制M,则将当前存在的码字中重叠度最大的I-M对码字进行合并,然后输出最终的码本;
若当前存在的码字总量I等于定制M,则直接输出最终的码本。
优选的,所述码本搜索过程,对于获取到的需要进行矢量量化的音频信号,首先进行静音检测,提取出非静音的各段音频信号,然后对上述各段音音频信号进行分帧处理,并且提取出上述各段音音频信号中各帧音频信号的频谱特征;其中对于非静音的各段音音频信号中各帧音频信号,考虑语音的准平稳特性,将当前帧音频信号的量化结果受制约于上一帧音频信号的量化结果,具体操作如下:
S71、对于s段音频信号中的第一帧音频信号的特征参数值f=1,采用K邻近准则量化,量化码字对应为
S72、对于s段音频信号中的第f帧音频信号的特征参数值f>1,计算其隶属于码本中各个码字的隶属度,将得到的最大的K各隶属度对应的码字选取出来,其中选取出来的码字分别为对于s段音频信号中的第f帧音频信号的量化结果码字根据下述原则确定其总量化失真度量及来源:
其中表示s段音频信号中的第f帧音频信号对应量化结果为码字时的量化误差;其中表示s段音频信号中的第f-1帧音频信号对应量化结果为码字时的量化误差,码字表示s段音频信号中的第f-1帧音频信号其中一个量化结果;Ts为s段音频信号的总帧数;
其中
其中表示码字和码字之间的距离度量,为码字和码字之间的距离度量,其中p=1,2,...K,表示s段音频信号中的第f-1帧音频信号其中一个量化结果;εlk为一修正常数,该值与s段音频信号中的第f帧音频信号对应量化结果码字和s段音频信号中的第f-1帧音频信号对应量化结果码字之间的距离度量成正相关;
表示s段音频信号中的第f帧音频信号与码字之间的距离度量;
其中
其中为码字的均值矢量,为码字的方差矢量;
S73、对于s段音频信号中的各帧音频信号的各个量化结果码字通过步骤S72依次求取s段音频信号中的各帧音频信号的总量化失真度量及来源
S74、k取1,2,...,K,然后从中选取最小的一个作为s段音频信号中最后一帧音频信号的特征参数值的量化失真度;最后根据该最小的量化失真度,通过步骤S72中的总量化失真度量及来源公式依次反索确定s段音频信号中各帧音频信号的特征参数值对应的最小的量化失真度,从而根据各最小的量化失真度确定s段音频信号各帧音频信号的量化结果。
优选的,所述码本索引分配过程具体如下:
S81、对量化后的每段音频信号,分别作为样本,定义第g段样本的关联码字为该段样本中每一帧音频信号关联码字的并集,用集合表示;其中,定义为第g段样本第f帧音频信号的量化结果,包括K个隶属码字及相应的隶属度值;Lg表示第g段样本的帧数;用集合A={A1,A2...AG}表示所有量化后数据的关联码字信息,G为量化后的音频信号的总段数;
S82、首先统计当前各码字的隶属度之和,即集合A中,与各码字关联的各样本的音频信号帧对各码字的隶属度之和;选择隶属度最大的码字并且存入最大码字集合Cmax中,即此时最大码字集合
S83、根据码字对集合A进行第一次筛选,得到集合A(1),使得集合A(1)中量化结果对应的样本至少有一帧是隶属于的最大码字
S84、统计集合A(b),b≥1中量化结果对应的样本隶属于除当前最大码字集合Cmax中的码字之外的其他码字,并且从这些码字中选择隶属度之和最大的一个码字b≥1,然后存入最大码字集合Cmax中,即此时最大码字集合根据码字对集合A(b)进行筛选,得到集合A′(b),使得集合A′(b)中量化结果对应的样本至少有一帧是隶属于码字的;
S85、判断步骤S84当前获取到的集合A′(b)量化结果所对应的样本数是否小于预设值F(F为常数);
若否,则b加1后返回大步骤S84;
若是,则将集合A′(b)量化结果对应的样本作为目标样本,即索引样本,此时集合A′(b)量化结果对应的样本同时隶属于当前最大码字集合中的各个最大码字。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明矢量量化方法在码本生成过程中,首先将训练样本集的特征中心作为初始码字,然后再对初始码字进行码字分裂,当码字分裂为初次分裂时,通过随机分裂对初始码字进行分裂,当码字再次分裂时,将各码字的码字宽度和隶属于各码字中的训练样本数作乘积,将上述乘积最大的L个码字选取出来作为待分裂码字;根据待分裂码字的均值得到新的码字的均值,从而实现码字分裂,在码字完成一次分裂后,进入数据划分阶段;在数据划分阶段,首先通过最近邻原则进行数据首次划分,首次划分后将各码字视为一个正态分布,计算每个训练样本对各个码字的隶属度,根据隶属度划分胞腔更新码字;接着判断量化失真度是否收敛,在未收敛的情况下继续如上所述进行数据划分;在收敛的情况下,则判断当前存在的码字总量是否达到一定值,若没有,则如上述所述继续进行码字分裂,若已经达到,则输出最终码本。本发明方法在码字分裂时只是选取出码字宽度和隶属于各码字中的训练样本数乘积最大的L个码字进行分裂,由于方差大且隶属于的训练样本数越大,说明码字的聚集度较低,本发明上述的操作使得本发明只将聚集度较低的L个码字选取出来作为待分裂的码字,相比现有技术中针对每个码字进行分裂的方式,本发明有效提高了码字分裂的合理性。
(2)本发明矢量方法在码本生成过程中进行数据划分时,用正态分布描述各码字,因此各码字中包含均值方差和矢量方差,通均值方差和矢量方差本发明就可以计算出各个训练样本对各个码字的具体隶属度,而不是单单采用均值矢量作为码字仅能判断出各个训练样本是否属于各个码字,因此本发明方法能够针对音频空间进行更好的表达,克服了矢量硬量化带来的量化误差。另外本发明矢量方法在数据划分过程中,根据每个训练样本对各个码字的隶属度划分胞腔,在划分胞腔过程中,保留隶属度中最大的K个,其他隶属度归为零,即定义各训练样本仅隶属于上述K个隶属度所对应的码字;然后根据保留的各训练样本隶属度以及各码字的隶属空间更新各码字的均值和方差,从而更新码字,得到新的码字;本发明上述操作能够使得音频信号量化过程中大大降低了量化误差,同时减少了量化过程中的计算量。
(3)本发明矢量方法在码本搜索阶段,考虑了语音的准平稳特性,将当前帧音频信号的量化结果受制约于上一帧音频信号的量化结果,即考虑了各帧音频信号直接的相关性,利用动态规划的思想,使得音频段内的量化过程平滑,减小局部杂音带来的误差。
(4)本发明在码本索引分配阶段,通过统计所有码字的隶属度之和,获得核心码字,根据核心码字逐次筛选出来的样本更具代表性,能以较高概率获得样本集合中占主要比重的音频类型。
具体实施方式
下面结合实施例对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例公开了一种基于正态分布规律的矢量量化方法,包括码本生成过程、和码本搜索过程,
本实施例中码本生成过程具体如下:
S1、预处理:对获取到的音频信号进行静音检测,提取出非静音音频信号,并且对非静音音频信号进行分帧处理,将分帧处理得到的每帧非静音音频信作为训练样本,组成训练样本集;
S2、提取训练样本集中每个训练样本的频谱特征,计算出训练样本集的特征中心,并且将训练样本集的特征中心作为初始码字;然后进入步骤S3;
S3、码字分裂:判断当前码字分裂是否为初次分裂;
若是,则对初始码字进行随机分裂,在随机分裂后进入步骤S5;其中初始码字随机分裂得到:
C1=(1+η)C0
C2=(1-η)C0
其中C0为初始码字,C1和C2是初始码字C0随机分裂后的码字,η为一常数。
若否,则进入步骤S4;
S4、确定分裂的码字及其分裂方向和尺度,分裂得到新的码字,具体过程如下:
S41、定义各码字ci的码字宽度δi为各码字ci中所有维度归一化后的方差乘积;取定值L,判断当前存在的码字总量是否大于L;
若否,则将当前存在的所有码字选取出来作为待分裂码字;
若是,将各码字ci的码字宽度δi和隶属于各码字中ci的训练样本数Ni作乘积,然后将上述乘积以从大到小的顺序排名前L的对应L个码字选取出来作为待分裂码字;
本步骤中码字ci的码字宽度δi为:
mid=(σmaxmin)/2;
σmax=max(σim),i=1,2,...,I,m=0,1,...DIM-1;
σmin=min(σim),i=1,2,...,I,m=0,1,...DIM-1;
其中σim为码字ci的方差矢量σi中第m维度对应的方差值,σmax为所有码字的方差矢量中所有维度里最大的方差值,σmin为所有码字的方差矢量中所有维度里最小的方差值,DIM为码字ci中的维度数。
S42、计算训练样本集中各训练样本与上述选取出的各待分裂码字之间的距离,将计算出的最大距离对应的训练样本和待分裂的码字所构成的直线方向作为码字的分类方向,并将其归一化矢量记为w;
S43、根据当前存在的码字总量I、步骤S41中选取出的各待分裂码字的均值以及步骤S42中获取到的归一化矢量w确定新的码字的均值,从而得到分裂后的码字:
其中Xh为选取出的待分裂码字ch的均值矢量,δh为选取出的待分裂码字ch的码字宽度,Xh′为计算得到的新的码字的均值矢量;
S44、进入步骤S5;
S5、数据划分,具体如下:
S51、首先采用最近邻原则对训练样本集进行首次量化分类,划分胞腔,根据得到的胞腔更新码字,然后进入步骤S52;
S52、接着用正态分布描述各码字,然后根据正态分别描述的码字计算训练样本集中每个训练样本对各个码字的隶属度,根据每个训练样本对各个码字的隶属度划分胞腔,根据得到的胞腔更新码字,然后进入步骤S53;
其中本步骤S52中更新码字的具体过程如下:
S521、用一个正态分布描述一个码字,计算训练样本集中每个训练样本对各码字的隶属度,并且保留隶属度中最大的K个,,其他隶属度归为零,即定义各训练样本仅隶属于上述K个隶属度所对应的码字;K为2~8,在本实施例中K取4。(其中本步骤中训练样本集中每个训练样本对各码字的隶属度为:
其中yn表示训练样本集中各训练样本n的特征参数值,N表示训练样本集中训练样本的总数,I为当前存在的码字总量;xi为码字ci更新前的均值矢量,σi码字ci更新前的方差矢量,DIM为码字ci的维度数,p(yn/ci)表示训练样本n对码字ci的隶属度。
S522、计算各码字的隶属空间,即获取隶属于各码字的训练样本以及隶属于各码字的训练样本的隶属度之和;
S523、根据步骤S521保留的各训练样本隶属度以及步骤S522中得到的隶属于各码字的训练样本的隶属度之和更新码字各维度的均值和方差,从而更新码字,得到新的码字。其中本步骤中,各码字更新后的均值为:
本步骤S523中,各码字更新后的方差值为:
其中yj表示隶属于码字ci的训练样本j的特征参数值,p(yj|ci)表示训练样本j对码字ci的隶属度,sumi为隶属于码字ci的所有训练样本的隶属度之和,xi′为码字ci更新后的均值,σi′为码字ci更新后的方差值。
S53、计算量化失真度,判断量化失真度是否收敛;若是,则停止数据划分,然后进入步骤S6;若否,则返回步骤S52;
S6、判断当前存在的码字总量I是否大于等于定值M;本实施例中M为128~512。
若当前存在的码字总量I小于定值M,则回到步骤S3;
若当前存在的码字总量I大于定制M,则将当前存在的码字中重叠度最大的I-M对码字进行合并,然后输出最终的码本;其中重叠度的定义为:码字a的数据量为Na,码字b的数据量为Nb,若它们有Ns个是重叠的,则重叠度为
若当前存在的码字总量I等于定制M,则直接输出最终的码本。
本实施例上述步骤S6中M为128~512,上述步骤S4中L取值为:如本实施例定值M取256时,L取16。
本实施例中码本搜索过程具体如下:对于获取到的需要进行矢量量化的音频信号,首先进行静音检测,提取出非静音的各段音频信号,然后对上述各段音音频信号进行分帧处理,并且提取出上述各段音音频信号中各帧音频信号的频谱特征;其中对于非静音的各段音音频信号中各帧音频信号,考虑语音的准平稳特性,将当前帧音频信号的量化结果受制约于上一帧音频信号的量化结果,具体操作如下:
S71、对于s段音频信号中的第一帧音频信号f=1,采用K邻近准则量化,量化码字对应为
S72、对于s段音频信号中的第f帧音频信号f>1,计算其隶属于码本中各个码字的隶属度,将得到的最大的K各隶属度对应的码字选取出来,其中选取出来的码字分别为对于s段音频信号中的第f帧音频信号的量化结果码字根据下述原则确定其总量化失真度量及来源:
其中表示s段音频信号中的第f帧音频信号对应量化结果为码字时的量化误差;其中表示s段音频信号中的第f-1帧音频信号对应量化结果为码字时的量化误差,码字表示s段音频信号中的第f-1帧音频信号其中一个量化结果;Ts为s段音频信号的总帧数。
其中
其中表示码字和码字之间的距离度量,为码字和码字之间的距离度量,其中p=1,2,...K,表示s段音频信号中的第f-1帧音频信号其中一个量化结果;εlk为一修正常数,该值与s段音频信号中的第f帧音频信号对应量化结果码字和s段音频信号中的第f-1帧音频信号对应量化结果码字之间的距离度量成正相关,
表示s段音频信号中的第f帧音频信号与码字之间的距离度量;
其中
其中为码字的均值矢量,为码字的方差矢量;
S73、对于s段音频信号中的各帧音频信号的各个量化结果码字通过步骤S62依次求取s段音频信号中的各帧音频信号的总量化失真度量及来源
S74、k取1,2,...,K,然后从中选取最小的一个作为s段音频信号中最后一帧音频信号的量化失真度;最后根据该最小的量化失真度,通过步骤S72中的总量化失真度量及来源公式依次反索确定s段音频信号中各帧音频信号对应的最小的量化失真度,从而根据各最小的量化失真度确定s段音频信号各帧音频信号的量化结果。
本实施例中经过上述矢量量化后,通过下述方案进行码本索引分配,筛选具体过程如下:
S81、对量化后的每段音频信号,分别作为样本,定义第g段样本的关联码字为该段样本中每一帧关联码字的并集,用集合表示;其中,定义为第g段第f帧音频的量化结果,包括K个隶属码字及相应的隶属度值;Lg表示第g段音频样本的帧数;用集合A={A1,A2...AG}表示所有量化后数据的关联码字信息,G为量化后的音频信号的总段数;
S82、首先统计当前各码字的隶属度之和,即集合A中,与各码字关联的样本帧对各码字的隶属度之和;选择隶属度最大的码字并且存入最大码字集合Cmax中,即此时最大码字集合
S83、根据码字对集合A进行第一次筛选,得到集合A(1),使得集合A(1)中量化结果对应的样本至少有一帧是隶属于的最大码字
S84、统计集合A(b),b≥1中量化结果对应的样本隶属于除当前最大码字集合Cmax中的码字之外的其他码字,并且从这些码字中选择隶属度之和最大的一个码字b≥1,然后存入最大码字集合Cmax中,即此时最大码字集合根据码字对集合A(b)进行筛选,得到集合A′(b),使得集合A′(b)中量化结果对应的样本至少有一帧是隶属于码字的;
S85、判断步骤S84当前获取到的集合A′(b)量化结果所对应的样本数是否小于预设值F(F为常数);
若否,则b加1后返回大步骤S84;
若是,则将集合A′(b)量化结果对应的样本作为目标样本,即索引样本,此时集合A′(b)量化结果对应的样本同时隶属于当前最大码字集合中的各个最大码字;
步骤S85中预设值F取10~100,在本实施例中预设值F取20。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于正态分布规律的矢量量化方法,包括码本生成过程、码本搜索过程和码本索引分配过程,其特征在于,所述码本生成过程具体如下:
S1、预处理:对获取到的音频信号进行静音检测,提取出非静音音频信号,并且对非静音音频信号进行分帧处理,将分帧处理得到的每帧非静音音频信作为训练样本,组成训练样本集;
S2、提取训练样本集中每个训练样本的频谱特征,计算出训练样本集的特征中心,并且将训练样本集的特征中心作为初始码字;然后进入步骤S3;
S3、码字分裂:判断当前码字分裂是否为初次分裂;
若是,则对初始码字进行随机分裂,在随机分裂后进入步骤S5;
若否,则进入步骤S4;
S4、确定分裂的码字及其分裂方向和尺度,分裂得到新的码字,具体过程如下:
S41、定义各码字ci的码字宽度δi为各码字ci中所有维度归一化后的方差乘积;取定值L,判断当前存在的码字总量是否大于L;
若否,则将当前存在的所有码字选取出来作为待分裂码字;
若是,将各码字ci的码字宽度δi和隶属于各码字中ci的训练样本数Ni作乘积,然后将上述乘积以从大到小的顺序排名前L的对应L个码字选取出来作为待分裂码字;
S42、计算训练样本集中各训练样本与上述选取出的各待分裂码字之间的距离,将计算出的最大距离对应的训练样本和待分裂的码字所构成的直线方向作为码字的分类方向,并将其归一化矢量记为w;
S43、根据当前存在的码字总量I、选取出的各待分裂码字的均值以及步骤S42中获取到的归一化矢量w确定新的码字的均值,从而得到分裂后的码字:
X h ′ = X h ± δ h w , h = 1 , 2 , ... , L , I > L X h ± δ h w , h = 1 , 2 , ... , I , I ≤ L ;
其中Xh为选取出的待分裂码字ch的均值矢量,δh为选取出的待分裂码字ch的码字宽度,Xh′为计算得到的新的码字的均值矢量;
S44、进入步骤S5;
S5、数据划分,具体如下:
S51、首先采用最近邻原则对训练样本集进行首次量化分类,划分胞腔,根据得到的胞腔更新码字,然后进入步骤S52;
S52、接着用正态分布描述各码字,然后根据正态分别描述的码字计算训练样本集中每个训练样本对各个码字的隶属度,根据每个训练样本对各个码字的隶属度划分胞腔,根据得到的胞腔更新码字,然后进入步骤S53;
S53、计算量化失真度,判断量化失真度是否收敛;若是,则停止数据划分,然后进入步骤S6;若否,则返回步骤S52;具体操作如下:
S6、判断当前存在的码字总量I是否大于等于定值M;
若否,当前存在的码字总量I小于定值M,则回到步骤S3;
若是,则输出最终的码本。
2.根据权利要求1所述的基于正态分布规律的矢量量化方法,其特征在于,所述步骤S3中初始码字随机分裂得到:
C1=(1+η)C0
C2=(1-η)C0
其中C0为初始码字,C1和C2是初始码字C0随机分裂后的码字,η为一常数。
3.根据权利要求1所述的基于正态分布规律的矢量量化方法,其特征在于,所述步骤S41中码字ci的码字宽度δi为:
δ i = Π m = 0 D I M - 1 σ i m m i d ;
mid=(σmaxmin)/2;
σmax=max(σim),i=1,2,...,I,m=0,1,...DIM-1;
σmin=min(σim),i=1,2,...,I,m=0,1,...DIM-1;
其中σim为码字ci的方差矢量σi中第m维度对应的方差值,σmax为所有码字的方差矢量中所有维度里最大的方差值,σmin为所有码字的方差矢量中所有维度里最小的方差值,DIM为码字ci中的维度数。
4.根据权利要求1所述的基于正态分布规律的矢量量化方法,其特征在于,所述步骤S52中更新码字的具体过程:
S521、用一个正态分布描述一个码字,计算训练样本集中每个训练样本对各码字的隶属度,并且保留隶属度中最大的K个,其他隶属度归为零,即定义各训练样本仅隶属于上述K个隶属度所对应的码字;
S522、计算各码字的隶属空间,即获取隶属于各码字的训练样本以及隶属于各码字的训练样本的隶属度之和;
S523、根据步骤S521保留的各训练样本隶属度以及步骤S522中得到的隶属于各码字的训练样本的隶属度之和更新码字各维度的均值和方差,从而更新码字,得到新的码字。
5.根据权利要求4所述的基于正态分布规律的矢量量化方法,其特征在于,所述步骤S521中,训练样本集中每个训练样本对各码字的隶属度为:
p ( y n / c i ) = 1 ( 2 π ) D I M / 2 | σ i | 1 / 2 exp { - 1 2 ( y n - x i ) T ( σ i ) - 1 ( y n - x i ) } ; n = 1 , 2 , ... , N , i = 1 , 2 , ... , I ;
其中yn表示训练样本集中各训练样本n的特征参数值,N表示训练样本集中训练样本的总数,I为当前存在的码字总量;xi为码字ci更新前的均值矢量,σi码字ci更新前的方差矢量,DIM为码字ci的维度数,p(yn/ci)表示训练样本n对码字ci的隶属度。
6.根据权利要求5所述的基于正态分布规律的矢量量化方法,其特征在于,所述步骤S523中,各码字更新后的均值为:
x i ′ = Σ j = 1 N i y j · p ( y j | c i ) / sum i ; i = 1 , 2 , ... , I , y j ∈ c i ;
步骤S523中,各码字更新后的方差值为:
σ i ′ = Σ j = 1 N i ( y j - x i ′ ) 2 · p ( y j | c i ) / sum i , i = 1 , 2 , ... , I , y j ∈ c i ;
其中yj表示隶属于码字ci的训练样本j的特征参数值,p(yj|ci)表示训练样本j对码字ci的隶属度,sumi为隶属于码字ci的所有训练样本的隶属度之和,xi′为码字ci更新后的均值,σi′为码字ci更新后的方差值。
7.根据权利要求6所述的基于正态分布规律的矢量量化方法,其特征在于,所述步骤S53中,计算码字更新后的量化失真度,将码字更新后的当前量化失真度与码字更新前的量化失真度进行对比,以判断量化失真度是否收敛,具体为:
判断是否成立,若是,则表示量化失真度收敛;
其中
8.根据权利要求1所述的基于正态分布规律的矢量量化方法,其特征在于,
所述S6中当前存在的码字总量I大于等于定值M的情况下,若当前存在的码字总量I大于定制M,则将当前存在的码字中重叠度最大的I-M对码字进行合并,然后输出最终的码本;
若当前存在的码字总量I等于定制M,则直接输出最终的码本。
9.根据权利要求1所述的基于正态分布规律的矢量量化方法,其特征在于,所述码本搜索过程,对于获取到的需要进行矢量量化的音频信号,首先进行静音检测,提取出非静音的各段音频信号,然后对上述各段音音频信号进行分帧处理,并且提取出上述各段音音频信号中各帧音频信号的频谱特征;其中对于非静音的各段音音频信号中各帧音频信号,考虑语音的准平稳特性,将当前帧音频信号的量化结果受制约于上一帧音频信号的量化结果,具体操作如下:
S71、对于s段音频信号中的第一帧音频信号的特征参数值f=1,采用K邻近准则量化,量化码字对应为
S72、对于s段音频信号中的第f帧音频信号的特征参数值f>1,计算其隶属于码本中各个码字的隶属度,将得到的最大的K各隶属度对应的码字选取出来,其中选取出来的码字分别为对于s段音频信号中的第f帧音频信号的量化结果码字k=1,2,...K,根据下述原则确定其总量化失真度量及来源:
其中表示s段音频信号中的第f帧音频信号对应量化结果为码字时的量化误差;其中表示s段音频信号中的第f-1帧音频信号对应量化结果为码字时的量化误差,码字l=1,2,...K表示s段音频信号中的第f-1帧音频信号其中一个量化结果;Ts为s段音频信号的总帧数;
其中
ϵ l k = Kd c k ( s f ) c l ( s ( f - 1 ) ) Σ p = 1 K d c k ( s f ) c l ( s ( f - 1 ) ) ;
其中表示码字和码字之间的距离度量,为码字和码字之间的距离度量,其中p=1,2,...K,表示s段音频信号中的第f-1帧音频信号其中一个量化结果;εlk为一修正常数,该值与s段音频信号中的第f帧音频信号对应量化结果码字和s段音频信号中的第f-1帧音频信号对应量化结果码字之间的距离度量成正相关;
表示s段音频信号中的第f帧音频信号与码字之间的距离度量;
其中
其中为码字的均值矢量,为码字的方差矢量;
S73、对于s段音频信号中的各帧音频信号的各个量化结果码字k=1,2,...K,通过步骤S72依次求取s段音频信号中的各帧音频信号的总量化失真度量及来源k=1,2,...K;
S74、k取1,2,...,K,然后从中选取最小的一个作为s段音频信号中最后一帧音频信号的特征参数值的量化失真度;最后根据该最小的量化失真度,通过步骤S72中的总量化失真度量及来源公式依次反索确定s段音频信号中各帧音频信号的特征参数值对应的最小的量化失真度,从而根据各最小的量化失真度确定s段音频信号各帧音频信号的量化结果。
10.根据权利要求1所述的基于正态分布规律的矢量量化方法,其特征在于,所述码本索引分配过程具体如下:
S81、对量化后的每段音频信号,分别作为样本,定义第g段样本的关联码字为该段样本中每一帧音频信号关联码字的并集,用集合表示;其中,定义为第g段样本第f帧音频信号的量化结果,包括K个隶属码字及相应的隶属度值;Lg表示第g段样本的帧数;用集合A={A1,A2...AG}表示所有量化后数据的关联码字信息,G为量化后的音频信号的总段数;
S82、首先统计当前各码字的隶属度之和,即集合A中,与各码字关联的各样本的音频信号帧对各码字的隶属度之和;选择隶属度最大的码字并且存入最大码字集合Cmax中,即此时最大码字集合
S83、根据码字对集合A进行第一次筛选,得到集合A(1),使得集合A(1)中量化结果对应的样本至少有一帧是隶属于的最大码字
S84、统计集合A(b),b≥1中量化结果对应的样本隶属于除当前最大码字集合Cmax中的码字之外的其他码字,并且从这些码字中选择隶属度之和最大的一个码字b≥1,然后存入最大码字集合Cmax中,即此时最大码字集合根据码字对集合A(b)进行筛选,得到集合A′(b),使得集合A′(b)中量化结果对应的样本至少有一帧是隶属于码字的;
S85、判断步骤S84当前获取到的集合A′(b)量化结果所对应的样本数是否小于预设值F(F为常数);
若否,则b加1后返回大步骤S84;
若是,则将集合A′(b)量化结果对应的样本作为目标样本,即索引样本,此时集合A′(b)量化结果对应的样本同时隶属于当前最大码字集合中的各个最大码字。
CN201710083683.5A 2017-02-16 2017-02-16 一种基于正态分布规律的矢量量化方法 Active CN106898357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710083683.5A CN106898357B (zh) 2017-02-16 2017-02-16 一种基于正态分布规律的矢量量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710083683.5A CN106898357B (zh) 2017-02-16 2017-02-16 一种基于正态分布规律的矢量量化方法

Publications (2)

Publication Number Publication Date
CN106898357A true CN106898357A (zh) 2017-06-27
CN106898357B CN106898357B (zh) 2019-10-18

Family

ID=59183993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710083683.5A Active CN106898357B (zh) 2017-02-16 2017-02-16 一种基于正态分布规律的矢量量化方法

Country Status (1)

Country Link
CN (1) CN106898357B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304859A (zh) * 2017-12-29 2018-07-20 达闼科技(北京)有限公司 图像识别方法及云端系统
US10742282B2 (en) 2018-10-30 2020-08-11 Samsung Electronics Co., Ltd. System and method for generating codebook for analog beamforming
WO2021159635A1 (zh) * 2020-02-14 2021-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN101710988A (zh) * 2009-12-08 2010-05-19 深圳大学 应用于图像压缩的图像矢量量化的邻域粒子对优化方法
CN101785049A (zh) * 2007-07-26 2010-07-21 创新科技有限公司 为话音识别导出压缩声学模型的方法
JP5250576B2 (ja) * 2010-02-25 2013-07-31 日本電信電話株式会社 ユーザ判定装置、方法、プログラム及びコンテンツ配信システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101785049A (zh) * 2007-07-26 2010-07-21 创新科技有限公司 为话音识别导出压缩声学模型的方法
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN101710988A (zh) * 2009-12-08 2010-05-19 深圳大学 应用于图像压缩的图像矢量量化的邻域粒子对优化方法
JP5250576B2 (ja) * 2010-02-25 2013-07-31 日本電信電話株式会社 ユーザ判定装置、方法、プログラム及びコンテンツ配信システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIJUN HE ET AL.: "A FAST CODEBOOK GENERATION ALGRITHM BASED ON MULTIPLE SPLIT INITIALIZATION METHOD", 《CHINASIP 2015》 *
李天昊: "基于进化算法的矢量量化索引值分配算法", 《电子学报》 *
邹领等: "基于设备噪声估计的录音设备源识别", 《吉林大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304859A (zh) * 2017-12-29 2018-07-20 达闼科技(北京)有限公司 图像识别方法及云端系统
US10742282B2 (en) 2018-10-30 2020-08-11 Samsung Electronics Co., Ltd. System and method for generating codebook for analog beamforming
WO2021159635A1 (zh) * 2020-02-14 2021-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN106898357B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN108122562A (zh) 一种基于卷积神经网络和随机森林的音频分类方法
CN102508907B (zh) 一种基于训练集优化的推荐系统的动态推荐方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105760889A (zh) 一种高效的不均衡数据集分类方法
CN104077598B (zh) 一种基于语音模糊聚类的情感识别方法
CN111723874B (zh) 一种基于宽度和深度神经网络的声场景分类方法
CN110782658A (zh) 一种基于LightGBM算法的交通量预测方法
CN106898357A (zh) 一种基于正态分布规律的矢量量化方法
CN104091602A (zh) 一种基于模糊支持向量机的语音情感识别方法
CN106531174A (zh) 基于小波包分解和声谱图特征的动物声音识别方法
CN110135167A (zh) 一种随机森林的边缘计算终端安全等级评估方法
CN103000172A (zh) 信号分类方法和装置
CN111583957B (zh) 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法
CN101944358B (zh) 基于蚁群聚类算法的码书分类方法及其码书分类装置
CN106384123A (zh) 基于相关性的特征加权过滤方法及朴素贝叶斯分类方法
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
CN104809229A (zh) 一种文本特征词提取方法及系统
Liu et al. Birdsong classification based on multi feature channel fusion
CN106611180A (zh) 基于测试代价的决策树分类器构造方法
Li et al. Speech recognition based on k-means clustering and neural network ensembles
Jleed et al. Open set audio recognition for multi-class classification with rejection
CN106295667B (zh) 一种基于遗传算法选择最优光谱谱段的方法及其应用
CN113239199A (zh) 一种基于多方数据集的信用分类方法
Rizzi et al. Genre classification of compressed audio data
Rashno et al. Text-independent speaker verification with ant colony optimization feature selection and support vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant