CN105702251A - 基于Top-k加强音频词袋模型的语音情感识别方法 - Google Patents

基于Top-k加强音频词袋模型的语音情感识别方法 Download PDF

Info

Publication number
CN105702251A
CN105702251A CN201610248979.3A CN201610248979A CN105702251A CN 105702251 A CN105702251 A CN 105702251A CN 201610248979 A CN201610248979 A CN 201610248979A CN 105702251 A CN105702251 A CN 105702251A
Authority
CN
China
Prior art keywords
characteristic vector
speech
speech samples
frame
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610248979.3A
Other languages
English (en)
Other versions
CN105702251B (zh
Inventor
刘文举
梁雅萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201610248979.3A priority Critical patent/CN105702251B/zh
Publication of CN105702251A publication Critical patent/CN105702251A/zh
Application granted granted Critical
Publication of CN105702251B publication Critical patent/CN105702251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Top-k加强音频词袋模型的语音情感识别方法,其包括:确定语音情感数据库及其中的训练集和测试集,并提取每一语音样本的帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典;通过计算帧特征向量与码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到语音情感识别结果。通过本发明实施例,提高了语音情感识别的识别精度。

Description

基于Top-k加强音频词袋模型的语音情感识别方法
技术领域
本发明实施例涉及机器学习建模技术领域,具体涉及一种基于Top-k加强音频词袋模型的语音情感识别方法。
背景技术
语音是人和人之间交流的一种直接有效的方式,语音在形成的过程中会包含发音人的情感,例如高兴、生气、害怕,甚至中性(即,无明显情感流露)。语音情感识别,其目的是识别语音信号所属的情感类型。语音情感识别是人工智能领域的重点研究方向,对自然流畅的人机交互有良好的促进作用。通过对语音信号提取适宜的音频特征,对音频特征进行相应处理,再根据已训练完成的机器学习识别模型,可以最终识别出此语音信号所属的情感类型。
特征提取和识别模型是语音情感识别任务中非常重要的部分。通过提取合适的特征向量来表征每一条语音样本,并基于良好的识别模型来识别每一条语音样本所属的情感类型。
有鉴于此,特提出本发明。
发明内容
本发明实施例的主要目的在于提供一种基于Top-k加强音频词袋模型的语音情感识别方法,其至少部分地解决了如何提高语音情感识别的识别精度的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
一种基于Top-k加强音频词袋模型的语音情感识别方法,所述方法包括:
步骤a:确定语音情感数据库及其中的训练集和测试集,且分别对所述语音情感数据库中的每一语音样本进行加窗分帧,并在所述每一音频帧语音样本上提取帧特征向量;
步骤b:将所述训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到m个聚类中心,并用m个聚类中心组成音频词字典;其中,所述m取正整数,所述聚类中心与所述帧特征向量具有相同的维度;
步骤c:对于所述训练集和所述测试集中的语音样本,基于所述Top-k加强音频词袋模型,通过计算所述语音样本中的帧特征向量与所述音频词字典中码词之间的距离,得到对于所述训练集和所述测试集中语音样本的第一句特征向量;其中,所述第一句特征向量的维度与所述音频词字典中的码词数量相同;
步骤d:对所述第一句特征向量进行特征选择,得到第二句特征向量;
步骤e:基于所述训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用所述测试集中语音样本的第二句特征向量作为所述训练后的机器学习识别模型的输入,以得到所述机器学习识别模型的语音情感识别结果;
步骤f:重复步骤b至步骤e,确定适于所述语音情感识别任务的聚类中心的数量及所述Top-k加强音频词袋模型的k值,其中,k表示所述语音样本中的帧特征向量与所述音频词字典中码词之间距离最近的码词数量。
与现有技术相比,上述技术方案至少具有以下有益效果:
本发明实施例利用词袋模型在文本领域的计算统计特征,及词袋模型在语音领域的延伸应用,确定语音情感数据库及其中的训练集和测试集,且分别对语音情感数据库中的每一语音样本进行加窗分帧,并在每一音频帧语音样本上提取帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到m个聚类中心,并用m个聚类中心组成一个音频词字典;对于训练集和测试集中的语音样本,通过计算语音样本中的帧特征向量与音频词字典中码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到机器学习识别模型的情感识别结果。本发明实施例通过采用Top-k加强音频词袋模型,使语音文件的原始帧特征向量在被音频词袋模型计算统计成句特征向量的过程中,解决了与语音情感相关的信息的丢失问题,使对语音文件进行全局表征的句特征向量能充分包含与情感相关的信息;从而提高语音情感识别的识别精度。
当然,实施本发明的任一产品不一定需要同时实现以上所述的所有优点。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为根据一示例性实施例示出的基于Top-k加强音频词袋模型的语音情感识别方法的流程示意图;
图2为根据另一示例性实施例示出的在每一音频帧语音样本上提取帧特征向量的流程示意图;
图3为根据一示例性实施例示出的将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典的流程示意图;
图4为根据一示例性实施例示出的对于训练集和测试集中的语音样本,通过计算语音样本中的帧特征向量与音频词字典中码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量的流程示意图;
图5为根据一示例性实施例示出的基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为训练后的机器学习识别模型的输入,以得到机器学习识别模型的情感识别结果的流程示意图。
这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
以下结合具体实施例,并参照实验附图,对本发明作进一步的详细说明。需明确,不同实施例及附图的相关详细说明不是意在把本发明限制在特殊的实施环境内,被详细解释说明的实施例仅是例证本发明的各个步骤。
需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。
需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。
现有语音情感识别在非相关特征干扰上存在问题。为了减少特征向量中对情感识别任务无用或有干扰的信息,使得句特征向量能更加准确的描述语音的情感信息,本发明实施例提出一种基于Top-k加强音频词袋模型的语音情感识别方法。如图1所示,该方法可以包括:步骤a至步骤f。其中:
步骤a:确定语音情感数据库及其中的训练集和测试集,且分别对所述语音情感数据库中的每一语音样本进行加窗分帧,并在所述每一音频帧语音样本上提取帧特征向量。
本发明实施例基于一个语音情感数据库。该语音情感数据库的语种、情感类型、采样频率都可以有不同的选择。优选地,本发明实施例选用柏林情感语料库,语种为德语,情感类型有7种,包括:生气、烦恼、厌恶、害怕、开心、和中性情感。中性情感用来标记无明显情感色彩的语音文件。语音情感数据库中语音文件的采样频率为16kHz。此外,语音情感数据库需要被分为训练集和测试集。如果语音情感数据库中未明确指出训练集和测试集的范围,则采用k折交叉验证方法得到训练集和测试集。优选地,k常取5或10。由于柏林情感语料库中对此没有明确的加以区分,所以在本发明实施例中,例如:可以采用十折交叉验证的方法,把语音情感数据库中的所有语音文件随机分成十份,例如Part1、Part2、……、Part10。其中一份作为测试集,剩余九份作为训练集。为保证系统识别结果的有效性,可分别采用Part1、Part2、……、Part10作为测试集,对识别过程重复10次,得到基于十折交叉验证方法的系统平均识别率。利用十折交叉验证方法得到的训练集和测试集里可以分别包含480条语音文件、约50条语音文件。
特征提取是语音情感识别任务非常重要的部分,合适的特征能更准确的表征不同的语音情感类型,促进识别结果的准确性。特征提取需要考虑多方面的因素,例如对特征应用场合的分析,适用于某类任务的最佳特征类型等等。为了有效的促进情感识别系统的性能,许多声学特征已被应用到研究过程中。当前常用的特征包括基频相关特征、能量相关特征、梅尔倒谱系数(MFCC)、线性预测系数(LPC)等等。这些特征来源于语音识别、说话人识别等相关研究问题,并不是专为语音情感识别问题而设计,特征中包含与语音情感识别问题相关的信息,也包含与语音情感识别问题无关或相关性差的干扰信息。所以,在对语音样本进行特征提取之后,需要对特征进行处理,例如特征变换或特征选择,使处理之后的特征充分包含描述语音情感类型的信息,得到对识别任务有良好性能的特征集合,进而提升语音情感识别模型的性能。
在本步骤中,还可以对语音情感数据库中的每一语音样本进行预加重。
作为示例,加窗分帧操作可以采用汉明窗(窗长25ms,窗移10ms,即每一帧语音信号时长为25ms)来予以实施。
在提取特征向量的过程中,例如对语音样本提取13维MFCC特征,需要首先把语音样本分帧,为保证语音信号的短时平稳性,帧长度通常设置为25ms,接下来分别对每一帧语音提取13维MFCC(梅尔倒谱系数)特征向量。如果语音样本被分为n帧,则对此语音样本提取到的MFCC特征是13×n规模的矩阵,通过这种方法得到的特征向量叫做帧特征向量。
如图2所示,在每一音频帧语音样本上提取帧特征向量具体可以包括:
步骤a1:对每一帧语音样本进行快速傅立叶变换,得到能量分布。
由于信号在时域上的变化通常较难看出信号的特性,所以通常将信号转换成频域上的能量分布来进行观察,不同的能量分布可以代表不同的语音特性。经过快速傅立叶变换FFT,可以得到信号在频谱上的能量分布。
具体地,可以通过以下公式进行快速傅立叶变换FFT:
X &lsqb; k &rsqb; = &Sigma; n = 0 N - 1 S ( n ) e - j 2 &pi; n k / N , 0 &le; k < N
其中,S(n)为输入的语音信号,N为所加窗内的采样点个数,即傅立叶变换的点数,X[k]表示能量分布;优选地,N取值为256或512。
步骤a2:对能量分布进行取幅度平方处理。
本步骤可以通过以下公式进行:
Y[k]=|X[k]|2,0≤k<N
其中,Y[k]表示对能量分布进行取幅度平方处理后的结果;X[k]表示能量分布。
步骤a3:将步骤a2的处理结果通过一组Mel尺度的三角形滤波器组,计算每一滤波器输出的能量。
在实际应用中,首先需定义一个有M个滤波器的滤波器组,采用的滤波器为三角形滤波器,其中心频率为f(m),m=1,2,...,M。其中,优选地,M取22-26。此外,这M个三角形滤波器在“梅尔频率”上是平均分布的。
通过以下公式计算得到滤波器输出的能量:
Y[m]=Y[k]*Hm[k],0≤m<M
其中,Y[k]表示对能量分布进行取幅度平方处理后的结果;Y[m]表示滤波器输出的能量。
步骤a4:计算每一滤波器输出的对数能量。
具体地,本步骤可以通过以下公式完成:
Y &OverBar; &lsqb; m &rsqb; = L o g Y &lsqb; m &rsqb; , 0 &le; m &le; M
其中,Y[m]表示滤波器输出的能量;表示对数能量。
步骤a5:对对数能量进行离散余弦变换,得到梅尔倒谱系数。
其中,梅尔倒谱系数(MFCC系数)只反映语音参数的静态特性。标准的MFCC系数是13维向量(包括能量维)。
步骤a6:对梅尔倒谱系数进行一阶差分和二阶差分处理,得到帧特征向量。
每一个帧特征向量都叫做一个音频词。帧特征向量也即语音参数的动态特性,例如可以为39维的MFCC特征向量。通过把动、静态特性结合起来,可以有效地提高语音特征的性能。
步骤b:将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到m个聚类中心,并用m个聚类中心组成音频词字典;其中,m取正整数,聚类中心与帧特征向量具有相同的维度。
音频词袋模型是在词袋模型的基础上,应用于音频处理领域的一种算法。词袋模型主要应用于文本处理,且词袋模型中需要的字典,可使用已有的汉字字典。但在音频词袋模型中,实际上并没有通用的音频词字典,所以,本步骤用来建立音频词字典。
在得到音频词字典的过程中,需要考虑两个参数。其一,由于音频词字典由聚类算法聚类得到,所以要确定所使用的聚类算法;其二,音频词字典中的码词在实际上是聚类算法得到的聚类中心,因此需确定音频词字典的规模,即聚类中心的个数。
作为示例,本发明实施例可以采用Litekmeans聚类算法,音频词字典规模是700。其中,Litekmeans算法是一种运行速度非常快的聚类算法,其由浙江大学蔡登教授于2011年提出,具体论证可参考论文Litekmeans:thefastestmatlabimplementationofkmeans。
如图3所示,步骤b可以具体包括:
步骤b1:确定语音情感数据库。
其中,语音情感数据库可以是柏林情感语料库。
步骤b2:从语音情感数据库中随机分出训练集。
例如:从柏林情感语料库中取出基于十折交叉验证方法随机分出的训练集,其包含约480条语音文件,该训练集用于计算音频词字典。仅用训练集计算音频词字典,是为了保证测试集与音频词字典的无关联性,使识别结果更加准确、更加严密。
步骤b3:提取训练集中所有语音样本的帧特征向量。
在实际应用中,经过加窗分帧操作后,根据语音样本的时长,每个语音样本可被分成几十至上百帧。例如:每一帧音频样本通过步骤b3,可以提取出39维度MFCC特征向量。
例如:在提取帧特征向量的过程中,例如对语音样本提取13维的MFCC特征向量,需要首先把语音样本分帧,为保证语音信号的短时平稳性,帧长度通常设置为25ms,接下来分别对每一语音帧提取13维的MFCC特征向量。如果语音样本被分为n帧,则对此语音样本最终可以提取到的MFCC特征向量是13×n规模的矩阵,通过以上方法得到的特征向量叫做帧特征向量。
步骤b4:集合训练集中所有语音样本的帧特征向量,作为训练集的帧特征向量集合。
步骤b5:基于帧特征向量集合,利用聚类算法得到聚类中心,并用聚类中心组成音频词字典。
例如:本步骤可以利用Litekmeans聚类算法,得到m个聚类中心。其中,m取正整数。由于聚类算法基于的数据集是39维的帧特征向量集合,所以聚类中心的维度也是39维,其与语音帧特征向量的维度相同。在确定聚类中心个数时,设定m=100,200,……,1000。遍历不同的m值,观察Top-k加强音频词袋模型的识别效果,确定适用于识别问题的最佳m值。优选地,当m取700时,可以取得最佳识别效果,从而得到了规模为700的音频词字典。
步骤c:对于训练集和测试集中的语音样本,基于所述Top-k加强音频词袋模型,通过计算语音样本中的帧特征向量与音频词字典中码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;其中,第一句特征向量的维度与音频词字典中的码词数量相同。
由于语音情感是通过连续的信号表达出来的,所以在用特征向量表征语音样本的时候,本发明实施例考虑通过统计方法把每条语音样本的帧特征向量转化成句子级别的全局特征向量,即句特征向量,并把句特征向量输入到机器学习识别模型中来确定该语音样本的情感类型。
需要说明的是,本文提到的机器学习识别模型用来对语音文件的句特征向量进行建模。
为了得到语音样本的句特征向量,可以对每一个语音样本进行量化统计处理。
例如:对于柏林情感语料库中的每一个语音样本,设该语音样本包含n个音频帧,并且对每个音频帧,提取该音频帧的39维MFCC帧特征向量。该语音样本的第i帧音频的帧特征向量表示如下:
z(i)=[x1,x2,...,x39],1≤i≤n
其中,z(i)代表从该语音样本中第i帧提取得到的39维帧特征向量,x1,x2,...,x39分别表示39维帧特征向量中对应维度的元素值,n取正整数。
音频词字典中包含m个码词,每个码词都是39维的向量。
为音频词字典中所有码词标上标号,标号从1到m。音频词字典中第j个码词表示如下:
c(j)=[y1,y2,...,y39],1≤j≤m
其中,c(j)代表音频词字典中的第j个码词;由于码词是39维的向量,所以y1,y2,...,y39分别表示该向量每一维度上的元素值。
在得到第一句特征向量(量化统计)之前,设语音样本的句特征向量为Result,并把Result向量中的每个元素初始化为0,即:
Result=[r1,r2,...,rm],(r1,r2,...,rm=0)
其中,Result表示基于量化统计工作获得的语音样本的句特征向量;r1,r2,...,rm分别表示该句特征向量中的元素值。
如图4所示,在一个可选的实施例中,步骤c具体可以包括:
步骤c1:基于Top-k加强音频词袋模型,计算语音样本中的帧特征向量与音频词字典中码词之间的欧氏距离。
具体地,可以根据以下公式计算帧特征向量与音频词字典中码词之间的欧氏距离:
d ( j ) = E u c l i d ( z ( i ) , c ( j ) ) = &Sigma; p = 1 39 ( x p - y p ) 2 , 1 &le; j &le; m
其中,z(i)表示语音样本中第i个帧特征向量,c(j)表示音频词字典中第j个码词,m表示码词个数,d(j)表示z(i)与c(j)之间的欧式距离,xp和yp分别代表z(i)和c(j)中第p维的元素值,p的取值范围是1~39。Euclid(z(i),c(j))表示计算z(i)和c(j)的欧氏距离。
当z(i)与音频词字典中所有码词都经过计算后,可得到z(i)与所有码词之间的距离向量D:
D=[d1,d2,...,dm]
其中,d1,d2,...,dm分别表示z(i)与音频词字典中m个码词之间的欧氏距离
步骤c2:对于每一帧特征向量,选取与其距离最近的k个码词,并在量化统计直方图向量的对应位置,对k个码词分别统计一次,其中k取正整数。
其中,在向量D中,可以找到k个最小的欧式距离值,记录下它们的位置,并在Result向量的对应位置上做加1操作。从而可以将一个语音样本统计成m维的句特征向量。
步骤c3:对于每一语音样本,遍历语音样本中所有帧特征向量,执行步骤c2,得到句特征向量。
步骤c4:对步骤c3得到的句特征向量进行归一化处理,得到第一句特征向量。
具体地,可以根据以下公式对步骤c3得到的句特征向量进行归一化处理:
Result'=Result/(N*k)
其中,N为语音文件的音频帧数量,Result'表示经过归一化的句特征向量,k表示码词个数。
由于步骤c中采用了多码词量化统计的构思,减少了从帧到句的转换过程中有效情感信息的丢失,使获得的句特征向量包含着充分的情感信息。
本领域技术人员应能理解,上述步骤c采用的得到第一句特征向量的方式仅为举例,任意现有及今后可能出现的得到第一句特征向量的方式均在本发明的保护范围之内,在此以引用的方式结合于此。
步骤d:对第一句特征向量进行特征选择,得到第二句特征向量。
由于在得到的第一句特征向量中依然存在干扰或无用的信息,所以,需要从第一句特征向量中选择出分类性能好的特征子集,以使新的句特征向量(即第二句特征向量)能更加准确地描述语音的情感信息。
在一个可选的实施例中,基于语音情感数据库中训练集中语音样本所属类别的类内平均值,利用特征选择算法对第一句特征向量进行特征选择,得到第二句特征向量。
下面以一优选实施例来对特征选择进行详细的说明。
假设柏林情感语料库的训练集中包含N个语音样本,且分别属于7个情感类型。其中,N1个语音样本属于第1类,N2个语音样本属于第2类,以此类推,N7个语音样本属于第7类。再假设m1,m2,...,m7分别表示第1类、第2类至第7类的类内平均值。其中,N、N1……N7取正整数。
本领域技术人员应能理解,上述假设仅仅是为了更好地说明本发明,不应视为对本发明保护范围的不当限定。
步骤d1:根据以下公式计算类内平均值:
m i = 1 N i &Sigma; p = 1 N i x p ( i ) , i &Element; { 1 , 2 , ... , C }
其中,mi表示第i类的类内平均值,Ni表示第i类中语音样本的数量,表示第i类中第p个语音样本的句特征向量,p表示语音样本的序号,C表示柏林情感语料库中的类别数量。
步骤d2:根据以下公式对第一句特征向量进行特征选择:
J = &Sigma; 1 &le; i < j &le; C ( m i - m j ) . * ( m i - m j ) &Sigma; i &Sigma; p = 1 N i ( x p ( i ) - m i ) . * ( x p ( i ) - m i )
其中,mi和mj分别表示第i类和第j类的类内平均值,J为维度与语音样本的第一句特征向量相同的向量。
J的公式中的分子用来衡量不同类别之间的差距,分母用来衡量同类样本之间的紧凑程度。所以,J向量的每个元素值,代表着对应维度的特征对于分类任务的分类能力,元素值越大,代表分类能力越好,最后选择分类能力好的特征留下,得到有良好分类性能的特征子集,即第二句特征向量,以用于机器学习识别模型的训练和测试。
步骤e:基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到机器学习识别模型的语音情感识别结果。
对于不同的识别任务、不同规模的实验数据库,采用合适的识别算法,才能使识别模型训练得更加高效。当前已有不少识别算法被用于对语音文件的帧特征或者句特征进行建模,例如朴素贝叶斯分类算法(Bayesian)、决策树算法(DecisionTree)、k近邻算法(kNearestNeighbor)、高斯混合模型算法(GaussianMixtureModel)、支持向量机算法(SupportVectorMachines)、神经网络算法(NeuralNetwork)等等。
如图5所示,下面以采用支持向量机作为分类器来对本步骤进行详细说明:
步骤e1:基于训练集中语音样本的第二句特征向量,利用支持向量机SVM算法,并采用libsvm工具包中的svmtrain函数来训练SVM识别模型。
其中,libsvm工具包由台湾林智仁教授团队开发。
步骤e2:将测试集中语音样本的第二句特征向量输入SVM识别模型中进行测试,得到对测试语音样本的情感识别结果。
在实际测试过程中,可以利用libsvm工具包中的svmpredict函数进行测试。
由于柏林情感语料库的训练集和测试集是基于十折交叉验证方法划分得到的,所以对SVM识别模型的训练和测试过程重复10次,得到本发明实施例在柏林情感语料库上的平均识别率。经验证,本实施例中,对柏林情感语料库的7种情感的平均识别率为91.3%。
本实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。
需要说明的是,本文中涉及到的流程图不仅仅局限于本文所示的形式,其还可以进行划分和/或组合。
需要说明的是:附图中的标记和文字只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的保护范围。

Claims (5)

1.一种基于Top-k加强音频词袋模型的语音情感识别方法,其特征在于,所述方法包括:
步骤a:确定语音情感数据库及其中的训练集和测试集,且分别对所述语音情感数据库中的每一语音样本进行加窗分帧,并在所述每一音频帧语音样本上提取帧特征向量;
步骤b:将所述训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到m个聚类中心,并用m个聚类中心组成音频词字典;其中,所述m取正整数,所述聚类中心与所述帧特征向量具有相同的维度;
步骤c:对于所述训练集和所述测试集中的语音样本,基于所述Top-k加强音频词袋模型,通过计算所述语音样本中的帧特征向量与所述音频词字典中码词之间的距离,得到对于所述训练集和所述测试集中语音样本的第一句特征向量;其中,所述第一句特征向量的维度与所述音频词字典中的码词数量相同;
步骤d:对所述第一句特征向量进行特征选择,得到第二句特征向量;
步骤e:基于所述训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用所述测试集中语音样本的第二句特征向量作为训练后的机器学习识别模型的输入,以得到所述机器学习识别模型的语音情感识别结果;
步骤f:重复步骤b至步骤e,确定适于所述语音情感识别任务的聚类中心的数量及所述Top-k加强音频词袋模型的k值,其中,k表示所述语音样本中的帧特征向量与所述音频词字典中码词之间距离最近的码词数量。
2.根据权利要求1所述的方法,其特征在于,所述步骤a还包括:如果所述语音情感数据库中未明确指出所述训练集和所述测试集的范围,则采用k折交叉验证方法得到所述训练集和所述测试集。
3.根据权利要求1所述的方法,其特征在于,在所述步骤a中,所述在每一音频帧语音样本上提取帧特征向量具体包括:
步骤a1:对每一帧语音样本进行快速傅立叶变换,得到能量分布;
步骤a2:对所述能量分布进行取幅度平方处理;
步骤a3:将所述步骤a2的处理结果通过一组Mel尺度的三角形滤波器组,求出每一滤波器输出的能量;
步骤a4:计算每一滤波器输出的对数能量;
步骤a5:对所述对数能量进行离散余弦变换,得到梅尔倒谱系数;
步骤a6:对所述梅尔倒谱系数进行一阶差分和二阶差分处理,得到帧特征向量。
4.根据权利要求1所述的方法,其特征在于,所述步骤c具体包括:
步骤c1:基于所述Top-k加强音频词袋模型,计算所述语音样本中的帧特征向量与所述音频词字典中码词之间的欧氏距离;
步骤c2:对于每一帧特征向量,选取与其距离最近的k个码词,并在量化统计直方图向量的对应位置,对所述k个码词分别统计一次,其中k取正整数;
步骤c3:对于每一语音样本,遍历所述语音样本中所有帧特征向量,执行所述步骤c2,得到句特征向量;
步骤c4:对所述步骤c3得到的句特征向量进行归一化处理,得到所述第一句特征向量。
5.根据权利要求1所述的方法,其特征在于,所述步骤d具体包括:基于所述语音情感数据库中训练集中语音样本所属类别的类内平均值,利用特征选择算法对所述第一句特征向量进行特征选择,得到所述第二句特征向量。
CN201610248979.3A 2016-04-20 2016-04-20 基于Top-k加强音频词袋模型的语音情感识别方法 Active CN105702251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610248979.3A CN105702251B (zh) 2016-04-20 2016-04-20 基于Top-k加强音频词袋模型的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610248979.3A CN105702251B (zh) 2016-04-20 2016-04-20 基于Top-k加强音频词袋模型的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN105702251A true CN105702251A (zh) 2016-06-22
CN105702251B CN105702251B (zh) 2019-10-22

Family

ID=56216385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610248979.3A Active CN105702251B (zh) 2016-04-20 2016-04-20 基于Top-k加强音频词袋模型的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN105702251B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107195312A (zh) * 2017-05-05 2017-09-22 深圳信息职业技术学院 情绪宣泄模式的确定方法、装置、终端设备和存储介质
CN110249320A (zh) * 2017-04-28 2019-09-17 惠普发展公司有限责任合伙企业 利用使用音频持续时间的机器学习模型进行的音频分类
CN111079705A (zh) * 2019-12-31 2020-04-28 北京理工大学 一种振动信号分类方法
CN112466299A (zh) * 2020-11-26 2021-03-09 广东工业大学 一种声音主题识别方法
CN113987267A (zh) * 2021-10-28 2022-01-28 上海数禾信息科技有限公司 视频文件的标签生成方法、装置、计算机设备和存储介质
CN114358988A (zh) * 2022-03-11 2022-04-15 深圳市中文路教育科技有限公司 基于ai技术的教学方式推送方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN102723078A (zh) * 2012-07-03 2012-10-10 武汉科技大学 基于自然言语理解的语音情感识别方法
CN104200814A (zh) * 2014-08-15 2014-12-10 浙江大学 基于语义细胞的语音情感识别方法
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN102723078A (zh) * 2012-07-03 2012-10-10 武汉科技大学 基于自然言语理解的语音情感识别方法
CN104200814A (zh) * 2014-08-15 2014-12-10 浙江大学 基于语义细胞的语音情感识别方法
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李荣杰等: "一种基于音频词袋的暴力视频分类方法", 《上海交通大学学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110249320A (zh) * 2017-04-28 2019-09-17 惠普发展公司有限责任合伙企业 利用使用音频持续时间的机器学习模型进行的音频分类
CN107195312A (zh) * 2017-05-05 2017-09-22 深圳信息职业技术学院 情绪宣泄模式的确定方法、装置、终端设备和存储介质
CN107195312B (zh) * 2017-05-05 2020-03-27 深圳信息职业技术学院 情绪宣泄模式的确定方法、装置、终端设备和存储介质
CN111079705A (zh) * 2019-12-31 2020-04-28 北京理工大学 一种振动信号分类方法
CN111079705B (zh) * 2019-12-31 2023-07-25 北京理工大学 一种振动信号分类方法
CN112466299A (zh) * 2020-11-26 2021-03-09 广东工业大学 一种声音主题识别方法
CN112466299B (zh) * 2020-11-26 2023-11-17 广东工业大学 一种声音主题识别方法
CN113987267A (zh) * 2021-10-28 2022-01-28 上海数禾信息科技有限公司 视频文件的标签生成方法、装置、计算机设备和存储介质
CN114358988A (zh) * 2022-03-11 2022-04-15 深圳市中文路教育科技有限公司 基于ai技术的教学方式推送方法及装置
CN114358988B (zh) * 2022-03-11 2022-06-14 深圳市中文路教育科技有限公司 基于ai技术的教学方式推送方法及装置

Also Published As

Publication number Publication date
CN105702251B (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
Lanjewar et al. Implementation and comparison of speech emotion recognition system using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (K-NN) techniques
CN101562012B (zh) 语音分级测定方法及系统
Zeghidour et al. A deep scattering spectrum—deep siamese network pipeline for unsupervised acoustic modeling
CN107610707A (zh) 一种声纹识别方法及装置
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN112562741B (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
CN103544963A (zh) 一种基于核半监督判别分析的语音情感识别方法
CN104167208A (zh) 一种说话人识别方法和装置
CN102592593B (zh) 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN105810191B (zh) 融合韵律信息的汉语方言辨识方法
CN103489445A (zh) 一种识别音频中人声的方法及装置
Principi et al. Acoustic template-matching for automatic emergency state detection: An ELM based algorithm
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
Singhal et al. Multi-level region-of-interest CNNs for end to end speech recognition
Iqbal et al. Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
Martín-Morató et al. A case study on feature sensitivity for audio event classification using support vector machines
Xu Intelligent automobile auxiliary propagation system based on speech recognition and AI driven feature extraction techniques
CN112489689A (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
KR101092352B1 (ko) 문장 코퍼스에 대한 영역 자동분류 방법 및 장치
Elnagar et al. Automatic classification of reciters of quranic audio clips
Liu et al. A fast speaker verification with universal background support data selection
Bicego et al. Volcano-seismic events classification using document classification strategies
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant