CN102637433B - 识别语音信号中所承载的情感状态的方法和系统 - Google Patents

识别语音信号中所承载的情感状态的方法和系统 Download PDF

Info

Publication number
CN102637433B
CN102637433B CN201110037314.5A CN201110037314A CN102637433B CN 102637433 B CN102637433 B CN 102637433B CN 201110037314 A CN201110037314 A CN 201110037314A CN 102637433 B CN102637433 B CN 102637433B
Authority
CN
China
Prior art keywords
speech
emotional
affective state
model
subclass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110037314.5A
Other languages
English (en)
Other versions
CN102637433A (zh
Inventor
王彬
郭庆
李鹏
陆应亮
徐露
徐明星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Fujitsu Ltd
Original Assignee
Tsinghua University
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Fujitsu Ltd filed Critical Tsinghua University
Priority to CN201110037314.5A priority Critical patent/CN102637433B/zh
Publication of CN102637433A publication Critical patent/CN102637433A/zh
Application granted granted Critical
Publication of CN102637433B publication Critical patent/CN102637433B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

公开了一种生成语音情感模型的方法、设备以及识别语音信号中所承载的情感状态的方法、设备。生成语音情感模型的方法包括以下步骤:通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式;以及为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于n个子类的n个语音情感模型,n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态,其中,n为大于或等于2的整数。

Description

识别语音信号中所承载的情感状态的方法和系统
技术领域
本发明涉及语音信号识别技术,尤其涉及生成语音情感模型的方法和设备,以及识别语音信号中所承载的情感状态的方法和设备。
背景技术
语音是人类最重要的交流工具之一,可以承载和传递多种不同的信息,如语义内容、说话人身份、语言种类、情感状态等。语音情感识别是研究如何通过语音信号识别说话人的情感状态。通过获取语音信号中蕴含的丰富情感信息,可识别说话人通过语音表达的情感状态。
中国专利第200610097301.6号公开一种基于支持向量机的语音情感识别方法,提取基音频率轨迹、振幅、共振峰频率轨迹等声学特征;加入性别规整,对说话人性别的差异进行处理;采用支持向量机(SVM)训练情感识别模型,为每一种情感状态训练一个SVM模型,用最少支持向量在错分样本和算法复杂度之间获得识别结果。
非专利文献HiddenMarkovmodel-basedspeechemotionrecognition(B.Schuller,G.Rigoll,M.Lang,ProceedingsofICASSP2003,HongKong,China,2003,401-405)研究了隐马尔科夫模型(HMM)在语音情感识别中的应用,对于基音频率和能量提取全局统计特征,利用单一状态的HMM进行情感识别,对于语音信号的短时特征,利用连续的HMM进行情感识别。
非专利文献EmotionrecognitionofspeechinMandarinbasedonneuralnetwork(Q.Wang,B.Xie,G.C.Chen,Proceedingsofthe1stChineseConferenceonAffectiveComputingandIntelligentInteraction(ACII),Beijing,China,2003,185-190)研究了人工神经网络(ANN)在语音情感识别中的应用,提取了基音频率、能量、以及语速等特征,分别利用OCON、ACON、LVQ三种类型的ANN,对汉语情感语音进行情感识别。
发明内容
本发明的一个实施例是一种生成语音情感模型的方法,包括以下步骤:通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式;以及为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于n个子类的n个语音情感模型,n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态,其中n为大于或等于2的整数。
本发明的一个实施例是一种生成语音情感模型的设备,包括:无监督聚类部,通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式;以及语音情感模型生成部,为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于n个子类的n个语音情感模型,n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态,其中n为大于或等于2的整数。
本发明的一个实施例是一种识别语音信号中所承载的情感状态的方法,包括以下步骤:将预处理后的语音信号与至少一个情感状态中的每一个情感状态的n个语音情感模型中的每一个分别进行相似度匹配,以识别语音信号所承载的不同情感表达方式的每一个情感状态,其中,同一情感状态的n个语音情感模型中的每一个对应于同一情感状态的不同情感表达方式中的一种情感表达方式,以及n为大于或等于2的整数。
本发明的一个实施例是一种识别语音信号中所承载的情感状态的设备,包括:语音情感识别部,将预处理后的语音信号与至少一个情感状态中的每一个情感状态的n个语音情感模型中的每一个分别进行相似度匹配,以识别语音信号所承载的不同情感表达方式的每一个情感状态,其中,同一情感状态的n个语音情感模型中的每一个对应于同一情感状态的不同情感表达方式中的一种情感表达方式,以及n为大于或等于2的整数。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图1是示出根据本发明的一个实施例的生成语音情感模型的设备的示例性结构的框图;
图2是示出根据本发明的一个实施例的语音情感模型生成部的示例性结构的框图;
图3是示出根据本发明的另一个实施例的语音情感模型生成部的示例性结构的框图;
图4是示出根据本发明的另一个实施例的生成语音情感模型的设备的示例性结构的框图;
图5是示出根据本发明的一个实施例的生成语音情感模型的方法的示例性过程的流程图;
图6是示出根据本发明的一个实施例的生成步骤的示例性过程的流程图;
图7是示出根据本发明的另一个实施例的生成步骤的示例性过程的流程图;
图8是示出根据本发明的另一个实施例的生成语音情感模型的方法的示例性过程的流程图;
图9是示出根据本发明的一个实施例的修正步骤的示例性过程的流程图;
图10是示出根据本发明的一个实施例的识别语音信号中所承载的情感状态的设备的示例性结构的框图;
图11是示出根据本发明的一个实施例的语音情感识别部的示例性结构的框图;
图12是示出根据本发明的一个实施例的识别语音信号中所承载的情感状态的方法的示例性过程的流程图;
图13是示出根据本发明的一个实施例的识别步骤的示例性过程的流程图。
具体实施方式
本文中所用的术语,仅仅是为了描述特定的实施例,而不意图限定本发明。本文中所用的单数形式的“一”和“该”,旨在也包括复数形式,除非上下文中明确地另行指出。还要知道,“包含”一词在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
应当明白,附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
情感的表示是语音情感识别的重要基础之一,情感表示方法主要有以下两种:基本情感论和情感维度论。
基本情感论认为情感是离散的实体,并且存在数种“基本情感”,其它情感都可以由基本情感修改和/或组合得到。在语音情感识别中应用基本情感论时,存在以下一些不足:基本情感论提供的粒度过大,不易分辨人类丰富、细腻的情感,如紧张、焦虑、郁闷、挫折感等;另外,基本情感论也不能提供有效的建模方法来解决人与人之间在情感认知和心理体验上的差异。
情感维度论是用连续的维度空间来描述情感,用情感在维度空间中的相对距离来衡量彼此的相似性和差异性,且情感状态转变是逐渐的和平稳的。在语音情感识别中应用情感维度论,也存在以下一些问题:维度论情感空间中所有的点都是用数值表示的,不仅缺少直观性,也难以理解和体验;另外,情感空间各维度的测量手段和计算方法,在客观性和确定性上也与人们的期待有差距。
发明人通过观察认识到,不同人的情感表达方式具有差异性。例如,对于“高兴”,不同的人会有“高兴”的不同的表达方式。如果为某一种情感状态仅建立一种语音情感模型,则无法表示同一情感状态的各种不同的情感表达方式,导致语音情感识别的可靠性差。
发明人相应认识到,人类的情感丰富且复杂,同一情感状态具有各种不同的情感表达方式,并且情感状态的转变是逐渐的和平稳的,因此可以用连续的维度空间来描述情感。同时,不同的情感状态之间又具有相对的边界,从而可以将不同的情感状态彼此区分开。基于人类情感的上述特点,本发明通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式;并且为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于n个子类的n个语音情感模型,n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态,其中n为大于或等于2的整数。
图1是示出根据本发明的一个实施例的生成语音情感模型的设备的示例性结构的框图。如图1所示,该生成语音情感模型的设备包括无监督聚类部101和语音情感模型生成部102。无监督聚类部101通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式;语音情感模型生成部102为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于n个子类的n个语音情感模型,n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态,其中n为大于或等于2的整数。
可以通过各种方式来收集情感语音样本,例如来自非专业演员的录音数据,或者来自电视剧的演员录音数据,或者来自广播、电视中访谈类节目的录音数据等。对于非专业演员的录音数据,例如通过设计不同的对话场景,以两人对话的形式录制语音,通过一方的话语激发另一方产生期待的情感变化,以获得真实性较高的情感语音样本。参考语音呼叫中心经常发生的事情来编写录音语料,以保证对话内容的合理性。挑选一些性格特点不同、文化背景不同的录音人员,可以尽可能涵盖不同情感表达方式的情感语音。另外两种情感语音可以从电视、电影、广播等多媒体文件中截取。收集的情感语音样本可以以数据库的形式存储到标注情感语音库中。本领域技术人员可以理解,收集的情感语音数据也可以以其它形式存储。
无监督聚类的方法例如是最近距离聚类法、系统聚类法、逐步形成聚类法等。然而应当明白,可采用的无监督聚类的方法并不限于此。通过无监督聚类,每种情感状态可以建立多个语音情感模型。例如,当有“高兴”、“中性”、“生气”三种情感状态时,针对“高兴”可能聚类出四个语音情感模型H1、H2、H3和H4,针对“中性”可能聚类出两个语音情感模型M1和M2,针对“生气”可能聚类出六个语音情感模型A1、A2、A3、A4、A5和A6。这些不同情感状态的多个语音情感模型以数据库的形式存储到情感模型知识库中。本领域技术人员可以理解,这些不同情感状态的多个语音情感模型也可以以其它形式存储。
图2是示出根据本发明的一个实施例的语音情感模型生成部的示例性结构的框图。语音情感模型生成部102包括声学模型建立部202和分类器训练部203。
声学模型建立部202根据从每个子类中的情感语音样本中所提取的声学特征建立每个子类的声学模型。可以提取的声学特征有很多种,例如基音频率轨迹、振幅、共振峰频率轨迹等。然而应当明白,可提取的声学特征并不限于此。分类器训练部203训练与每个子类的声学模型相适应的情感分类器。可以采用多种方法来建立声学模型和训练情感分类器,例如可以采用支持向量机(SVM)、隐马尔科夫模型(HMM)、人工神经网络(ANN)等方法。具体的SVM、HMM、ANN等方法由于众多文献都有详细论述,这里就不再展开说明。然而应当明白,可采用的方法并不限于此。
由声学模型建立部202得到的声学模型和由分类器训练部203得到的分类器构成了初始的语音情感模型。语音情感模型可以以数据库的形式存储到语音情感模型知识库中。本领域技术人员可以理解,语音情感模型也可以以其它形式存储。
图3是示出根据本发明的另一个实施例的语音情感模型生成部的示例性结构的框图。图3所示的情感模型生成部102’与图2所示的基本相同,不同在于图3所示的情感模型生成部102’还包括语音情感模型更新部204。语音情感模型更新部204根据所标注的多个情感语音样本与所述初始的语音情感模型的匹配结果更新初始的语音情感模型的参数。经过更新的语音情感模型可以以数据库的形式存储到语音情感模型知识库中。本领域技术人员可以理解,经过更新的语音情感模型也可以以其它形式存储。
图4是示出根据本发明的另一个实施例的生成语音情感模型的设备的示例性结构的框图。图4所示的生成语音情感模型的设备与图1所示的基本相同,不同在于图4所示的生成语音情感模型的设备还包括语音情感模型测试部7010和测试结果反馈部7012。其中,语音情感模型测试部7010采用所述标注情感语音样本对生成的语音情感模型进行测试,根据测试结果生成所述标注情感语音样本的新标注信息;测试结果反馈部7012将所述新标注信息与相应的原始的标注信息进行比较,若不一致,则采用所述新标注信息修正所述相应的原始的标注信息。由于充分利用标注情感语音样本对生成的语音情感模型进行测试,能够避免由情感语音样本的标注错误导致的模型缺陷,训练得到更加鲁棒的语音情感模型。
图5是示出根据本发明的一个实施例的生成语音情感模型的方法的示例性过程的流程图。如图5所示,该方法从步骤500开始。在步骤501中,通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式;在步骤502中,为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于n个子类的n个语音情感模型,n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态,其中n为大于或等于2的整数。该方法在步骤503结束。
可以通过各种方式来收集情感语音样本,例如来自非专业演员的录音数据,或者来自电视剧的演员录音数据,或者来自广播、电视中访谈类节目的录音数据等。无监督聚类的方法例如是最近距离聚类法、系统聚类法、逐步形成聚类法等。然而应当明白,可采用的无监督聚类的方法并不限于此。
图6是示出根据本发明的一个实施例的生成步骤的示例性过程的流程图。如图6所示,在步骤5020中,根据从每个子类中的情感语音样本中所提取的声学特征建立所述每个子类的声学模型。接着,在步骤5022中,训练与每个子类的声学模型相适应的情感分类器。最后,在步骤503结束。可以采用多种方法来建立声学模型和训练情感分类器,例如可以采用支持向量机(SVM)、隐马尔科夫模型(HMM)、人工神经网络(ANN)等方法。具体的SVM、HMM、ANN等方法由于众多文献都有详细论述,这里就不再展开说明。然而应当明白,可采用的方法并不限于此。
由步骤5020得到的声学模型和由步骤5022得到的分类器构成了初始的语音情感模型。语音情感模型可以以数据库的形式存储到语音情感模型知识库中。本领域技术人员可以理解,语音情感模型也可以以其它形式存储。
图7是示出根据本发明的另一个实施例的生成步骤的示例性过程的流程图。图7所示的生成步骤与图6所示的基本相同,下面仅描述不同之处。在步骤5024中,判断是否对初始的语音情感模型进行更新。如果为“是”,则执行步骤5026;如果为“否”,则结束(步骤503)。在步骤5026中,根据所标注的多个情感语音样本与所述初始的语音情感模型的匹配结果更新初始的语音情感模型的参数。执行完步骤5026后,返回步骤5020。经过更新的语音情感模型可以以数据库的形式存储到语音情感模型知识库中。本领域技术人员可以理解,经过更新的语音情感模型也可以以其它形式存储。
图8是示出根据本发明的另一个实施例的生成语音情感模型的方法的示例性过程的流程图。图8所示的生成语音情感模型的方法与图5所示的基本相同,下面仅描述不同之处。如图8所示,在步骤603中,判断是否对标注情感语音样本进行修正。如果为“是”,则执行步骤604;如果为“否”,则结束(步骤605)。在步骤604中,采用标注情感语音样本对生成的语音情感模型进行测试,并根据测试结果修正所述标注情感语音样本的标注信息。由于充分利用标注情感语音样本对生成的语音情感模型进行测试,能够避免由情感语音样本的标注错误所导致的模型缺陷,训练得到更加鲁棒的语音情感模型。执行完步骤604后,返回到步骤603。
图9是示出根据本发明的一个实施例的修正步骤的示例性过程的流程图。如图9所示,在步骤6040中,采用所述标注情感语音样本对生成的语音情感模型进行测试,根据测试结果生成所述标注情感语音样本的新标注信息。接着,在步骤6042中,将新标注信息与相应的原始的标注信息进行比较。在步骤6044中,判断新标注信息与相应的原始的标注信息是否一致。如果一致,则返回步骤603;若不一致,执行步骤6046。在步骤6046中,采用新标注信息修正相应的原始的标注信息。执行完步骤6046后,返回步骤603。
图10是示出根据本发明的一个实施例的识别语音信号中所承载的情感状态的设备的示例性结构的框图。该识别语音信号中所承载的情感状态的设备包括语音情感识别部103。语音情感识别部103将预处理后的语音信号与至少一个情感状态中的每一个情感状态的n个语音情感模型中的每一个分别进行相似度匹配,以识别语音信号所承载的不同情感表达方式的每一个情感状态,其中,同一情感状态的n个语音情感模型中的每一个对应于同一情感状态的不同情感表达方式中的一种情感表达方式,并且n为大于或等于2的整数。
图11是示出根据本发明的一个实施例的语音情感识别部的示例性结构的框图。语音情感识别部103包括模型语音情感模型匹配部401和投票部403。语音情感模型匹配部401计算在所述语音情感模型中的每一个的条件下预处理后的语音信号承载语音情感模型中的每一个的相应情感状态的概率值,从计算得到的概率值中选择前几个作为投票候选概率值。例如,若存在“高兴”、“中性”、“生气”3种情感状态的12个语音情感模型,其中针对“高兴”有四个语音情感模型H1、H2、H3和H4,针对“中性”有两个语音情感模型M1和M2,针对“生气”有六个语音情感模型A1、A2、A3、A4、A5和A6。计算在12个语音情感模型中的每一个的条件下预处理后的语音信号承载该12个语音情感模型中的每一个的相应情感状态的概率值,这样共得到12个概率值。从这12个概率值中选择前N个作为投票候选概率值。
投票部403对N个投票候选概率值按对应的情感状态进行计票,将相应投票候选概率值的数目最大的情感状态确定为语音信号所承载的情感状态。将N个投票候选概率值按照语音情感模型对应的情感状态进行分类,统计每类中投票候选概率值的票数(即语音情感模型出现的次数)。如果相应投票候选概率值的数目最大的情感状态的数目为2或2以上,则分别计算每个情感状态的相应投票候选概率值的数目之和,将最大投票候选概率值的数目之和的相应情感状态确定为语音信号所承载的情感状态。所确定的情感状态所对应的语音情感模型的概率值中,最大的概率值就是输入的语音信号所承载的情感状态与该语音情感模型之间的相似度。
以上述“3种情感的12个模型”为例,模型匹配部401得到12个概率值,取这些概率值中最大的N=5个作为投票候选概率值。例如,如果“高兴”的H2模型的概率值为0.9,“生气”的A2模型的概率值0.85,“高兴”的H3模型的概率值为0.82,“中性”的M1模型的概率值为0.76,“高兴”的H4模型的概率值为0.68,则“高兴”的票数计为3,“生气”的票数计为1,“中性”的票数计为1。由于“高兴”的票数最多,因此当前语音信号所承载的情感状态被确定为“高兴”。在“高兴”对应的3个模型H2、H3和H4中,模型H2的概率值最大,因此确定“高兴”以模型H2的情感表达方式来表达,情感相似度为0.9。
再例如,如果“高兴”的H2模型的概率值为0.9,“生气”的A2模型的概率值为0.85,“高兴”的H3模型的概率值为0.82,“中性”的M1模型的概率值为0.76,“生气”的A5模型的概率值为0.68,则“高兴”的票数计为2,“生气”的票数计为2,“中性”的票数计为1,其中,“高兴”对应的2个模型的概率值之和为0.9(H2)+0.82(H3)=1.72;“生气”对应的2个模型的概率值之和为0.85(A2)+0.68(A5)=1.53。由于“高兴”对应的2个模型的概率值之和1.72大于“生气”对应的2个模型的概率值之和1.53,因此当前语音信号所承载的情感状态被确定为“高兴”。在“高兴”对应的2个模型H2、H3中,模型H2的概率值最大,因此确定“高兴”以模型H2的情感表达方式来表达,情感相似度为0.9。
图12是示出根据本发明的一个实施例的识别语音信号中所承载的情感状态的方法的示例性过程的流程图。如图12所示,该方法从步骤800开始。接着,在步骤801中,将预处理后的语音信号与至少一个情感状态中的每一个情感状态的n个语音情感模型中的每一个分别进行相似度匹配,以识别语音信号所承载的不同情感表达方式的每一个情感状态,其中,同一情感状态的n个语音情感模型中的每一个对应于同一情感状态的不同情感表达方式中的一种情感表达方式,并且n为大于或等于2的整数。最后,在步骤802结束。
图13是示出根据本发明的一个实施例的识别步骤的示例性过程的流程图。如图13所示,从步骤800开始。接着,在步骤8010中,计算在语音情感模型中的每一个的条件下预处理后的语音信号承载语音情感模型中的每一个的相应情感状态的概率值,从计算得到的概率值中选择前几个作为投票候选概率值。
接着,在步骤8012中,对投票候选概率值按对应的情感状态进行计票,将包含投票候选概率值的数目最大的情感状态确定为语音信号所承载的情感状态。将这些投票候选概率值按照语音情感模型对应的情感状态进行分类,统计每类中投票候选概率值的票数(即语音情感模型出现的次数)。如果相应投票候选概率值的数目最大的情感状态的数目为2或2以上,则分别计算每个所述情感状态的相应投票候选概率值的数目之和,将最大投票候选概率值的数目之和的相应情感状态确定为语音信号所承载的情感状态。所确定的情感状态所对应的语音情感模型的概率值中,最大的概率值就是输入的语音信号所承载的情感状态与该语音情感模型之间的相似度。最后,在步骤802结束。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解,在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。

Claims (14)

1.一种生成语音情感模型的方法,包括以下步骤:
通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于所述同一情感状态的不同情感表达方式中的一种情感表达方式;以及
为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于所述n个子类的n个语音情感模型,所述n个语音情感模型用于识别语音信号所承载的不同情感表达方式的所述情感状态,
其中,n为大于或等于2的整数。
2.根据权利要求1所述的方法,其中所述生成步骤包括以下步骤:
根据从所述每个子类中的情感语音样本中所提取的声学特征建立所述每个子类的声学模型;以及
训练与所述每个子类的声学模型相适应的情感分类器,
其中,所述声学模型和所述情感分类器构成初始的语音情感模型。
3.根据权利要求2所述的方法,其中所述生成步骤还包括以下步骤:
根据所标注的多个情感语音样本与所述初始的语音情感模型的匹配结果更新所述初始的语音情感模型的参数。
4.根据权利要求1-3中任一项所述的方法,在所述生成步骤之后还包括以下步骤:
采用所标注的多个情感语音样本对生成的语音情感模型进行测试,并根据测试结果生成所标注的多个情感语音样本的新标注信息;以及
将所述新标注信息与相应的原始的标注信息进行比较,若不一致,则采用所述新标注信息修正所述相应的原始的标注信息。
5.一种生成语音情感模型的设备,包括:
无监督聚类部,通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于所述同一情感状态的不同情感表达方式中的一种情感表达方式;以及
语音情感模型生成部,为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于所述n个子类的n个语音情感模型,所述n个语音情感模型用于识别语音信号所承载的不同情感表达方式的所述情感状态,
其中,n为大于或等于2的整数。
6.根据权利要求5所述的设备,其中所述语音情感模型生成部进一步包括:
声学模型建立部,根据从所述每个子类中的情感语音样本中所提取的声学特征建立所述每个子类的声学模型;以及
分类器训练部,训练与所述每个子类的声学模型相适应的情感分类器,
其中,所述声学模型和所述情感分类器构成初始的语音情感模型。
7.根据权利要求6所述的设备,其中所述语音情感模型生成部还包括:
语音情感模型更新部,根据所标注的多个情感语音样本与所述初始的语音情感模型的匹配结果更新所述初始的语音情感模型的参数。
8.根据权利要求5-7中任一项所述的设备,所述设备还包括:
语音情感模型测试部,采用所标注的多个情感语音样本对生成的语音情感模型进行测试,并根据测试结果生成所标注的多个情感语音样本的新标注信息;以及
测试结果反馈部,将所述新标注信息与相应的原始的标注信息进行比较,若不一致,则采用所述新标注信息修正所述相应的原始的标注信息。
9.一种识别语音信号中所承载的情感状态的方法,包括以下步骤:
将预处理后的语音信号与至少一个情感状态中的每一个情感状态的n个语音情感模型中的每一个分别进行相似度匹配,以识别所述语音信号所承载的不同情感表达方式的所述每一个情感状态,
其中,同一情感状态的n个语音情感模型中的每一个对应于所述同一情感状态的不同情感表达方式中的一种情感表达方式,以及
n为大于或等于2的整数。
10.根据权利要求9所述的方法,其中所述识别步骤包括以下步骤:
计算在所述语音情感模型中的每一个的条件下所述预处理后的语音信号承载所述语音情感模型中的每一个的相应情感状态的概率值,从计算得到的概率值中选择前几个作为投票候选概率值;以及
对所述投票候选概率值按对应的情感状态进行计票,将包含投票候选概率值的数目最大的情感状态确定为所述语音信号所承载的情感状态。
11.根据权利要求10所述的方法,其中,
如果所述相应投票候选概率值的数目最大的情感状态的数目等于或大于2,则分别计算每个所述情感状态的相应投票候选概率值的数目之和,将最大投票候选概率值的数目之和的相应情感状态确定为所述语音信号所承载的情感状态。
12.一种识别语音信号中所承载的情感状态的设备,包括:
语音情感识别部,将预处理后的语音信号与至少一个情感状态中的每一个情感状态的n个语音情感模型中的每一个分别进行相似度匹配,以识别所述语音信号所承载的不同情感表达方式的所述每一个情感状态,
其中,同一情感状态的n个语音情感模型中的每一个对应于所述同一情感状态的不同情感表达方式中的一种情感表达方式,以及
n为大于或等于2的整数。
13.根据权利要求12所述的设备,其中所述语音情感识别部包括:
语音情感模型匹配部,计算在所述语音情感模型中的每一个的条件下所述预处理后的语音信号承载所述语音情感模型中的每一个的相应情感状态的概率值,从计算得到的概率值中选择前几个作为投票候选概率值;以及
投票部,对所述投票候选概率值按对应的情感状态进行计票,将相应投票候选概率值的数目最大的情感状态确定为所述语音信号所承载的情感状态。
14.根据权利要求13所述的设备,其中,
如果所述相应投票候选概率值的数目最大的情感状态的数目等于或大于2,则分别计算每个所述情感状态的相应投票候选概率值的数目之和,将最大投票候选概率值的数目之和的相应情感状态确定为所述语音信号所承载的情感状态。
CN201110037314.5A 2011-02-09 2011-02-09 识别语音信号中所承载的情感状态的方法和系统 Expired - Fee Related CN102637433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110037314.5A CN102637433B (zh) 2011-02-09 2011-02-09 识别语音信号中所承载的情感状态的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110037314.5A CN102637433B (zh) 2011-02-09 2011-02-09 识别语音信号中所承载的情感状态的方法和系统

Publications (2)

Publication Number Publication Date
CN102637433A CN102637433A (zh) 2012-08-15
CN102637433B true CN102637433B (zh) 2015-11-25

Family

ID=46621805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110037314.5A Expired - Fee Related CN102637433B (zh) 2011-02-09 2011-02-09 识别语音信号中所承载的情感状态的方法和系统

Country Status (1)

Country Link
CN (1) CN102637433B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679190B (zh) * 2012-09-20 2019-03-01 富士通株式会社 分类装置、分类方法以及电子设备
CN104240719B (zh) * 2013-06-24 2018-01-12 浙江大华技术股份有限公司 音频的特征提取方法、音频的分类方法和相关装置
US9547471B2 (en) * 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
JP6565500B2 (ja) * 2015-08-31 2019-08-28 富士通株式会社 発話状態判定装置、発話状態判定方法、及び判定プログラム
CN106598948B (zh) * 2016-12-19 2019-05-03 杭州语忆科技有限公司 基于长短期记忆神经网络结合自动编码器的情绪识别方法
CN107633851B (zh) * 2017-07-31 2020-07-28 极限元(杭州)智能科技股份有限公司 基于情感维度预测的离散语音情感识别方法、装置及系统
CN107767869B (zh) * 2017-09-26 2021-03-12 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN109660853B (zh) * 2017-10-10 2022-12-30 腾讯科技(北京)有限公司 视频直播中的互动方法、装置及系统
CN108010512B (zh) * 2017-12-05 2021-04-30 广东小天才科技有限公司 一种音效的获取方法及录音终端
CN110719544A (zh) * 2018-07-11 2020-01-21 惠州迪芬尼声学科技股份有限公司 提供vui特定回应的方法及其应用在智能音箱
CN111355715B (zh) * 2020-02-21 2021-06-04 腾讯科技(深圳)有限公司 待决议事件的处理方法、系统、装置、介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN101751923A (zh) * 2008-12-03 2010-06-23 财团法人资讯工业策进会 语音情绪的分类方法及其情绪语意模型的建立方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
WO2003081578A1 (en) * 2002-03-21 2003-10-02 U.S. Army Medical Research And Materiel Command Methods and systems for detecting, measuring, and monitoring stress in speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN101751923A (zh) * 2008-12-03 2010-06-23 财团法人资讯工业策进会 语音情绪的分类方法及其情绪语意模型的建立方法
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法

Also Published As

Publication number Publication date
CN102637433A (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
CN102637433B (zh) 识别语音信号中所承载的情感状态的方法和系统
Issa et al. Speech emotion recognition with deep convolutional neural networks
Hazarika et al. Self-attentive feature-level fusion for multimodal emotion detection
CN107578775B (zh) 一种基于深度神经网络的多分类语音方法
Gu et al. Speech intention classification with multimodal deep learning
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN104978587B (zh) 一种基于文档类型的实体识别合作学习算法
CN105206258A (zh) 声学模型的生成方法和装置及语音合成方法和装置
CN108417205A (zh) 语义理解训练方法和系统
JPWO2010047019A1 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
Li et al. Speech emotion recognition using 1d cnn with no attention
Padi et al. Improved speech emotion recognition using transfer learning and spectrogram augmentation
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
Wagner et al. Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
Nwe et al. Speaker clustering and cluster purification methods for RT07 and RT09 evaluation meeting data
Wu et al. Speech synthesis with face embeddings
CN111883101B (zh) 一种模型训练及语音合成方法、装置、设备和介质
CN111402919A (zh) 一种基于多尺度多视图的戏曲唱腔风格识别方法
Yuan et al. Rba-gcn: Relational bilevel aggregation graph convolutional network for emotion recognition
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
CN111159463A (zh) 一种音乐情感识别方法及系统
Bourlard et al. Processing and linking audio events in large multimedia archives: The eu inevent project

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125

Termination date: 20190209