CN115881103A - 语音情绪识别模型训练方法、语音情绪识别方法及装置 - Google Patents
语音情绪识别模型训练方法、语音情绪识别方法及装置 Download PDFInfo
- Publication number
- CN115881103A CN115881103A CN202211479089.5A CN202211479089A CN115881103A CN 115881103 A CN115881103 A CN 115881103A CN 202211479089 A CN202211479089 A CN 202211479089A CN 115881103 A CN115881103 A CN 115881103A
- Authority
- CN
- China
- Prior art keywords
- data set
- training
- emotion recognition
- labeled
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 297
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 155
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000008451 emotion Effects 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 description 16
- 238000002372 labelling Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明提供语音情绪识别模型训练方法、语音情绪识别方法及装置,该方法包括:获取无标注语音数据集及有标注语音数据集;基于无标注语音数据集进行自监督训练,得到预训练模型;基于有标注语音数据集对预训练模型进行训练,得到初始语音情绪识别模型;基于初始语音情绪识别模型,对无标注语音数据集进行筛选,得到无标注训练数据集;基于无标注训练数据集和有标注语音数据集对预训练模型进行半监督训练,得到目标语音情绪识别模型。通过本发明,能够利用很少的标注语音数据,通过自监督学习及半监督学习,训练得到语音情绪识别模型,大幅度降低了对有标注语音的依赖性,训练得到的语音情绪识别模型具备鲁棒性高、泛化能力强、可跨领域使用的特点。
Description
技术领域
本发明涉及计算机技术领域,具体涉及语音情绪识别模型训练方法、语音情绪识别方法及装置。
背景技术
语音是日常生活中交流的主要媒介,它不仅传达了思想,还表达了说话人的情绪状态。语音情绪识别的目标是从语音中识别出人类的情绪状态。语音情绪识别是计算机对人类上述情绪感知和理解过程的模拟,利用计算机分析情绪,提取出情绪特征值,并利用这些参数进行相应的建模和识别,建立特征值与情绪的映射关系,目标实现对情绪分类。
相关技术中,语音情绪识别系统依赖大量的人工标注,标注难度大,成本高,且鲁棒性和跨领域泛化的能力非常差。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中语音情绪识别系统依赖大量的人工标注的缺陷,从而提供语音情绪识别模型训练方法、语音情绪识别方法及装置。
结合第一方面,本发明提供一种语音情绪识别模型训练方法,所述方法包括:
获取无标注语音数据集及有标注语音数据集,所述有标注语音数据集中的标注为语音对应的情绪;
基于所述无标注语音数据集进行自监督训练,得到预训练模型;
基于所述有标注语音数据集对所述预训练模型进行训练,得到初始语音情绪识别模型;
基于所述初始语音情绪识别模型,对所述无标注语音数据集进行筛选,得到无标注训练数据集;
基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练,得到目标语音情绪识别模型。
在该方式中,能够利用很少的标注语音数据,通过自监督学习及半监督学习,训练得到语音情绪识别模型,大幅度降低了对有标注语音的依赖性,减少了语音标注的工作量,大幅度提高了语音情绪识别工作效率。与此同时,通过自监督学习及半监督学习训练得到的语音情绪识别模型,具备鲁棒性高、泛化能力强、可跨领域使用的特点。
结合第一方面,在第一方面的第一实施例中,所述基于所述初始语音情绪识别模型,对所述无标注语音数据集进行筛选,得到无标注训练数据集,包括:
基于所述初始语音情绪识别模型,对所述无标注语音数据集的情绪进行分类,得到包含不同情绪的所述无标注语音数据,以相同的比例选取包含不同情绪种类的无标注语音数据,得到所述无标注训练数据集。
结合第一方面,在第一方面的第二实施例中,所述基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练,得到目标语音情绪识别模型包括:
对所述无标注训练数据集进行数据增强,得到增强数据集;
基于所述有标注语音数据集、无标注训练数据集及增强数据集,对所述预训练模型进行训练,得到所述目标语音情绪识别模型。
结合第一方面的第二实施例,在第一方面的第三实施例中,所述基于所述有标注语音数据集、无标注训练数据集及增强数据集,对所述预训练模型进行训练,得到目标语音情绪识别模型,包括:
将所述有标注语音数据集、无标注训练数据集及增强数据集输入所述预训练模型,计算得到所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率;
基于所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到有标注语音数据集损失及无标注训练数据集损失;
基于所述有标注语音数据集损失及无标注训练数据集损失,对所述预训练模型进行训练,得到所述目标语音情绪识别模型。
结合第一方面的第三实施例,在第一方面的第四实施例中,基于所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到所述有标注语音数据集损失及无标注训练数据集损失,包括:
基于所述有标注语音数据集输出概率及所述有标注语音数据集对应的标注类别,计算得到所述有标注语音数据集的交叉熵损失作为所述有标注语音数据集损失;
设定阈值,在所述无标注训练数据集输出概率大于所述阈值时,基于所述无标注训练数据集输出概率,计算得到所述无标注训练数据集的伪标签;
基于所述无标注训练数据集的伪标签和增强数据集输出概率,计算得到所述增强数据集的交叉熵损失;
基于所述无标注训练数据集输出概率及增强数据集输出概率,计算得到所述无标注训练数据集与增强数据集的KL散度损失;
基于所述增强数据集的交叉熵损失及所述无标注训练数据集与增强数据集的KL散度损失,得到所述无标注训练数据集损失。
在本发明的第二方面,本发明还提供一种语音情绪识别方法,所述方法包括:
获取待识别语音数据;
将所述待识别语音数据输入语音情绪识别模型中,识别出所述待识别语音数据的情绪结果,其中所述语音情绪识别模型是利用第一方面及其可选实施方式中任一项的语音情绪识别模型的训练方法训练得到的。
在本发明的第三方面,本发明还提供一种语音情绪识别模型训练装置,所述装置包括:
第一获取单元,用于获取无标注语音数据集及有标注语音数据集,所述有标注语音数据集中的标注为语音对应的情绪;
第一训练单元,用于基于所述无标注语音数据集进行自监督训练,得到预训练模型;
第二训练单元,用于基于所述有标注语音数据集对所述预训练模型进行训练,得到初始语音情绪识别模型;
筛选单元,用于基于所述初始语音情绪识别模型,对所述无标注语音数据集进行筛选,得到无标注训练数据集;
第三训练单元,用于基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练,得到目标语音情绪识别模型。
结合第三方面,在第三方面的第一实施例中,所述筛选单元,包括:
分类单元,用于基于所述初始语音情绪识别模型,对所述无标注语音数据集的情绪进行分类,得到包含不同情绪的所述无标注语音数据,以相同的比例选取包含不同情绪种类的无标注语音数据,得到所述无标注训练数据集。
结合第三方面,在第三方面的第二实施例中,所述第三训练单元,包括:
增强单元,用于对所述无标注训练数据集进行数据增强,得到增强数据集;
第四训练单元,用基于所述有标注语音数据集、无标注训练数据集及增强数据集,对所述预训练模型进行训练,得到所述目标语音情绪识别模型。
结合第三方面的第二实施例,在第三方面的第三实施例中,所述第四训练单元,包括:
第一计算单元,用于将所述有标注语音数据集、无标注训练数据集及增强数据集输入所述预训练模型,计算得到所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率;
第二计算单元,用于基于所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到有标注语音数据集损失及无标注训练数据集损失;
第五训练单元,用于基于所述有标注语音数据集损失及无标注训练数据集损失,对所述预训练模型进行训练,得到所述目标语音情绪识别模型。
结合第三方面的第三实施例,在第三方面的第四实施例中,所述第二计算单元,包括:
第一损失计算单元,基于所述有标注语音数据集输出概率及所述有标注语音数据集对应的标注类别,计算得到所述有标注语音数据集的交叉熵损失作为所述有标注语音数据集损失;
伪标签计算单元,用于设定阈值,在所述无标注训练数据集输出概率大于所述阈值时,基于所述无标注训练数据集输出概率,计算得到所述无标注训练数据集的伪标签;
第二损失计算单元,用于基于所述无标注训练数据集的伪标签和增强数据集输出概率,计算得到所述增强数据集的交叉熵损失;
第三损失计算单元,用于基于所述无标注训练数据集输出概率及增强数据集输出概率,计算得到所述无标注训练数据集与增强数据集的KL散度损失;
第四损失计算单元,用于基于所述增强数据集的交叉熵损失及所述无标注训练数据集与增强数据集的KL散度损失,得到所述无标注训练数据集损失。
在本发明的第四方面,本发明还提供一种语音情绪识别装置,所述装置包括:
第二获取单元,用于获取待识别语音数据;
识别单元,用于将所述待识别语音数据输入语音情绪识别模型中,识别出所述待识别语音数据的情绪结果,其中所述语音情绪识别模型是利用第一方面及其可选实施方式中任一项的语音情绪识别模型的训练方法训练得到的。
根据第五方面,本发明实施方式还提供一种计算机设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面及其可选实施方式中任一项的语音情绪识别模型训练方法或者执行第二方面中的语音情绪识别方法。
根据第六方面,本发明实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的语音情绪识别模型训练方法或者执行第二方面中的语音情绪识别方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提出的一种语音情绪识别模型训练方法的流程图。
图2是根据一示例性实施例提出的一种语音情绪识别方法的流程图。
图3是根据一示例性实施例提出的一种语音情绪识别模型训练装置的结构框图。
图4是根据一示例性实施例提出的一种语音情绪识别装置的结构框图。
图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,语音情绪识别的目标是从语音中识别出人类的情绪状态。语音情绪识别是计算机对人类上述情绪感知和理解过程的模拟,利用计算机分析情绪,提取出情绪特征值,并利用这些参数进行相应的建模和识别,建立特征值与情绪的映射关系,目标实现对情绪分类。现有技术中,语音情绪识别系统依赖大量的人工标注,标注难度大,成本高,且鲁棒性和跨领域泛化的能力非常差。
为解决上述问题,本发明实施例中提供一种语音情绪识别模型训练方法,用于计算机设备中,需要说明的是,其执行主体可以是语音情绪识别模型训练装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该计算机设备可以是终端或客户端或服务器,服务器可以是一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
本实施例中的计算机设备,适用于在对语音数据进行情绪识别的使用场景。通过本发明提供的语音情绪识别模型训练方法,能够利用很少的标注语音数据,通过自监督学习及半监督学习,训练得到语音情绪识别模型,大幅度降低了对标注语音的依赖性,减少了语音标注的工作量,大幅度提高了语音情绪识别工作效率。与此同时,通过自监督学习及半监督学习训练得到的语音情绪识别模型,具备鲁棒性高、泛化能力强、可跨领域使用的特点。
图1是根据一示例性实施例提出的一种语音情绪识别模型训练方法的流程图。如图1所示,语音情绪识别模型训练方法包括如下步骤S101至步骤S105。
在步骤S101中,获取无标注语音数据集及有标注语音数据集。
在本发明实施例中,有标注语音数据集中的标注为语音数据对应的情绪。
在步骤S102中,基于无标注语音数据集进行自监督训练,得到预训练模型。
在本发明实施例中,在获取无标注语音数据集之后,为便于对语音数据进行准确情绪识别,则预先得到初始化的预训练模型,以便在接下来的模型训练中实现更快更好的收敛。
在一示例中,基于无标注语音数据集进行自监督训练,可以包括:基于海量无标注数据集进行自监督学习,获得自监督预训练模型wav2vec2.0。通过向量量化(VectorQuantization,VQ)构造自监督训练目标,对输入做大量掩码后利用对比学习损失函数进行训练。
在步骤S103中,基于有标注语音数据集对预训练模型进行训练,得到初始语音情绪识别模型。
在本发明实施例中,通过利用少量的有标注语音数据,训练得到的初始语音情绪识别模型,用于为接下来的语音情绪识别模型的训练提供支持。由于仅利用少量的有标注语音数据,初始语音情绪识别模型虽然可以进行语音情绪识别,但是语音情绪识别不够准确,因而可以通过利用初始语音情绪识别模型,对海量的无标注语音数据进行粗筛。
在一示例中,对预训练模型进行训练,可以包括:使用预训练模型在少量人工标注数据上进行微调,得到初始语音情绪识别模型;在预训练wav2vec2.0模型顶部增加一层全连接网络,基于获取的无标注语音数据集,采用交叉熵损失进行有监督训练,获得初始语音情绪识别模型。
在步骤S104中,基于初始语音情绪识别模型,对无标注语音数据集进行筛选,得到无标注训练数据集。
在本发明实施例中,由于在语音数据中,包含情绪的语音数据为少数,将海量的无情绪语音排除,可以大幅度减少无效的训练数据,提高语音情绪识别模型的训练效率。无标注训练数据集为具有相同的比例不同情绪种类的无标注语音数据集,为下一步的目标语音情绪识别模型的训练提供数据支持。对无标注语音数据集进行筛选可以包括:基于初始语音情绪识别模型,对无标注语音数据集的情绪进行分类,得到包含不同情绪的无标注语音数据,以相同的比例选取包含不同情绪种类的无标注语音数据,得到无标注训练数据集。
在一示例中,在有1万条无标注的语音数据的情况下,以1万条无标注语音数据包含1000条积极情绪的语音、1000条消极情绪的语音与8000条无情绪的语音为例,通过利用初始语音情绪识别模型,筛选得到的无标注训练数据集中包含1000条积极情绪的语音、1000条消极情绪的语音与1000条无情绪的语音,三种情绪语音混合均匀。
在步骤S105中,基于无标注训练数据集和有标注语音数据集对预训练模型进行半监督训练,得到目标语音情绪识别模型。
在本发明实施例中,通过利用无标注训练数据集对预训练模型进行训练,可以得到目标语音情绪识别模型,进而实现利用少量有标注语音数据,训练得到语音情绪识别模型,大幅度降低了对标注语音的依赖性,减少了语音标注的工作量,大幅度提高了语音情绪识别工作效率。
通过上述实施例,能够利用很少的标注语音数据,通过自监督学习及半监督学习,训练得到语音情绪识别模型,大幅度降低了对标注语音的依赖性,减少了语音标注的工作量,大幅度提高了语音情绪识别工作效率。与此同时,通过自监督学习及半监督学习训练得到的语音情绪识别模型,具备鲁棒性高、泛化能力强、可跨领域使用的特点。
以下实施例将具体说明基于无标注训练数据集和有标注语音数据集对预训练模型进行半监督训练,得到目标语音情绪识别模型的过程。
在一实施例中,基于无标注训练数据集和有标注语音数据集对预训练模型进行半监督训练,得到目标语音情绪识别模型包括:对无标注训练数据集进行数据增强,得到增强数据集;基于有标注语音数据集、无标注训练数据集及增强数据集,对预训练模型进行训练,得到目标语音情绪识别模型。
在本发明实施例中,基于有标注语音数据集、无标注训练数据集及增强数据集,对预训练模型进行训练,得到目标语音情绪识别模型,包括:将有标注语音数据集、无标注训练数据集及增强数据集输入预训练模型,计算得到有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率;基于有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到有标注语音数据集损失及无标注训练数据集损失;基于有标注语音数据集损失及无标注训练数据集损失,对预训练模型进行训练,得到目标语音情绪识别模型。
在本发明实施例中,基于有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到有标注语音数据集损失及无标注训练数据集损失,包括:基于有标注语音数据集输出概率及有标注语音数据集对应的标注类别,计算得到有标注语音数据集的交叉熵损失作为有标注语音数据集损失;设定阈值,在无标注训练数据集输出概率大于阈值时,基于无标注训练数据集输出概率,计算得到无标注训练数据集的伪标签;基于无标注训练数据集的伪标签和增强数据集输出概率,计算得到增强数据集的交叉熵损失;基于无标注训练数据集输出概率及增强数据集输出概率,计算得到无标注训练数据集与增强数据集的KL散度损失;基于增强数据集的交叉熵损失及无标注训练数据集与增强数据集的KL散度损失,得到无标注训练数据集损失。
在一示例中,半监督训练的方法可以包括:
步骤1、对无标注训练数据集进行语音增强处理,增强方法为音量扰动、音调扰动、加噪声、加混响;
步骤2、将有标注语音数据集、无标注训练数据集和增强数据集同时输入预训练模型,得到有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率;
步骤3、根据步骤2中得到的有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到有标注语音数据集损失和无标注训练数据集损失,基于有标注语音数据集损失和无标注训练数据集损失对预训练模型进行训练。其中,计算方法可以包括:
有标注语音数据集损失:基于有标注语音数据集输出概率和对应的标注类别,计算有标注语音数据集的交叉熵损失。
无标注训练数据集损失:设定阈值,当无标注训练数据集输出概率大于阈值时,将无标注训练数据集输出概率通过argmax计算得到伪标签,基于增强数据集输出概率,使用伪标签计算增强数据集的交叉熵损失;再根据无标注训练数据集输出概率与增强数据集输出概率计算无标注训练数据集与增强数据集的KL散度损失,最终得到无标注训练数据集损失为增强数据集的交叉熵损失和无标注训练数据集与增强数据集的KL散度损失的求和。
通过上述实施例,根据无标注训练数据集以及有标注语音数据集,对预训练模型进行训练,得到目标语音情绪识别模型,有助于通过较少的有标注语音数据训练得到目标语音情绪识别模型,进而有助于减少对有标注语音数据的依赖,从而使语音情绪识别更准确。通过将自监督学习与半监督学习结合的训练流程,最大程度上降低了对标注数据的依赖,使得训练得到的模型具有鲁棒性高、泛化能力强、可跨领域使用的特点。
图2是根据一示例性实施例提出的一种语音情绪识别方法的流程图。如图2所示,语音情绪识别方法包括如下步骤。
在步骤S201中,获取待识别语音数据;
在步骤S202中,将待识别语音数据输入语音情绪识别模型中,识别出待识别语音数据的情绪结果。
在本发明实施例中,通过利用上述语音情绪识别模型的训练方法训练得到的语音情绪识别模型,可以仅需很少的人工标注语音数据,得到更为准确的语音情绪识别模型,节省了大量标注成本,大幅度提高了语音情绪识别效率。
基于相同发明构思,本发明还提供一种语音情绪识别模型训练装置。
图3是根据一示例性实施例提出的一种语音情绪识别模型训练装置的结构框图。如图3所示,语音情绪识别模型训练装置包括第一获取单元301、第一训练单元302、第二训练单元303、筛选单元304和第三训练单元305。
第一获取单元301,用于获取无标注语音数据集及有标注语音数据集,所述有标注语音数据集中的标注为语音对应的情绪;
第一训练单元302,用于基于无标注语音数据集进行自监督训练,得到预训练模型;
第二训练单元303,用于基于有标注语音数据集对预训练模型进行训练,得到初始语音情绪识别模型;
筛选单元304,用于基于初始语音情绪识别模型,对无标注语音数据集进行筛选,得到无标注训练数据集;
第三训练单元305,用于基于无标注训练数据集和有标注语音数据集对预训练模型进行半监督训练,得到目标语音情绪识别模型。
在一实施例中,筛选单元304,包括:分类单元,用于基于初始语音情绪识别模型,对无标注语音数据集的情绪进行分类,得到包含不同情绪的无标注语音数据,以相同的比例选取包含不同情绪种类的无标注语音数据,得到无标注训练数据集。
在另一实施例中,第三训练单元305,包括:增强单元,用于对无标注训练数据集进行数据增强,得到增强数据集;第四训练单元,用于基于有标注语音数据集、无标注训练数据集及增强数据集,对预训练模型进行训练,得到目标语音情绪识别模型。
在又一实施例中,第四训练单元,包括:第一计算单元,用于将有标注语音数据集、无标注训练数据集及增强数据集输入预训练模型,计算得到有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率;第二计算单元,用于基于有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到有标注语音数据集损失及无标注训练数据集损失;第五训练单元,用于基于有标注语音数据集损失及无标注训练数据集损失,对预训练模型进行训练,得到目标语音情绪识别模型。
在又一实施例中,第二计算单元,包括:第一损失计算单元,用于基于有标注语音数据集输出概率及有标注语音数据集对应的标注类别,计算得到有标注语音数据集的交叉熵损失作为有标注语音数据集损失;伪标签计算单元,用于设定阈值,在无标注训练数据集输出概率大于阈值时,基于无标注训练数据集输出概率,计算得到无标注训练数据集的伪标签;第二损失计算单元,用于基于无标注训练数据集的伪标签和增强数据集,计算得到增强数据集的交叉熵损失;第三损失计算单元,用于基于无标注训练数据集输出概率及增强数据集输出概率,计算得到无标注训练数据集与增强数据集的KL散度损失;第四损失计算单元,用于基于增强数据集的交叉熵损失及无标注训练数据集与增强数据集的KL散度损失,得到无标注训练数据集损失。
上述语音情绪识别模型训练装置的具体限定以及有益效果可以参见上文中对于语音情绪识别模型训练方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于相同发明构思,本发明还提供一种语音情绪识别模型训练装置。
图4是根据一示例性实施例提出的一种语音情绪识别装置的结构框图。如图4所示,语音情绪识别装置包括:第二获取单元401与识别单元402。
第二获取单元401,用于获取待识别语音数据;
识别单元402,用于将待识别语音数据输入语音情绪识别模型中,识别出待识别语音数据的情绪结果,其中语音情绪识别模型是利用上述语音情绪识别模型训练方法及其可选实施方式中任一项训练得到的。
图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图5所示,该设备包括一个或多个处理器510以及存储器520,存储器520包括持久内存、易失内存和硬盘,图5中以一个处理器510为例。该设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器510可以为中央处理器(Central Processing Unit,CPU)。处理器510还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器520作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的语音情绪识别模型训练方法及语音情绪识别方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述任意一种语音情绪识别模型训练方法及语音情绪识别方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
一个或者多个模块存储在存储器520中,当被一个或者多个处理器510执行时,执行如图1-图2所示的方法。
上述产品可执行本发明实施例所提供的语音情绪识别模型训练方法及语音情绪识别方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1-图2所示的实施例中的相关描述。
本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种语音情绪识别模型训练方法,其特征在于,所述方法包括:
获取无标注语音数据集及有标注语音数据集,所述有标注语音数据集中的标注为语音对应的情绪;
基于所述无标注语音数据集进行自监督训练,得到预训练模型;
基于所述有标注语音数据集对所述预训练模型进行训练,得到初始语音情绪识别模型;
基于所述初始语音情绪识别模型,对所述无标注语音数据集进行筛选,得到无标注训练数据集;
基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练,得到目标语音情绪识别模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始语音情绪识别模型,对所述无标注语音数据集进行筛选,得到无标注训练数据集,包括:
基于所述初始语音情绪识别模型,对所述无标注语音数据集的情绪进行分类,得到包含不同情绪的所述无标注语音数据,以相同的比例选取包含不同情绪种类的无标注语音数据,得到所述无标注训练数据集。
3.根据权利要求1所述的方法,其特征在于,所述基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练,得到目标语音情绪识别模型包括:
对所述无标注训练数据集进行数据增强,得到增强数据集;
基于所述有标注语音数据集、无标注训练数据集及增强数据集,对所述预训练模型进行训练,得到所述目标语音情绪识别模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述有标注语音数据集、无标注训练数据集及增强数据集,对所述预训练模型进行训练,得到目标语音情绪识别模型,包括:
将所述有标注语音数据集、无标注训练数据集及增强数据集输入所述预训练模型,计算得到所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率;
基于所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到有标注语音数据集损失及无标注训练数据集损失;
基于所述有标注语音数据集损失及无标注训练数据集损失,对所述预训练模型进行训练,得到所述目标语音情绪识别模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率,计算得到所述有标注语音数据集损失及无标注训练数据集损失,包括:
基于所述有标注语音数据集输出概率及所述有标注语音数据集对应的标注类别,计算得到所述有标注语音数据集的交叉熵损失作为所述有标注语音数据集损失;
设定阈值,在所述无标注训练数据集输出概率大于所述阈值时,基于所述无标注训练数据集输出概率,计算得到所述无标注训练数据集的伪标签;
基于所述无标注训练数据集的伪标签和增强数据集输出概率,计算得到所述增强数据集的交叉熵损失;
基于所述无标注训练数据集输出概率及增强数据集输出概率,计算得到所述无标注训练数据集与增强数据集的KL散度损失;
基于所述增强数据集的交叉熵损失及所述无标注训练数据集与增强数据集的KL散度损失,得到所述无标注训练数据集损失。
6.一种语音情绪识别方法,其特征在于,所述方法包括:
获取待识别语音数据;
将所述待识别语音数据输入语音情绪识别模型中,识别出所述待识别语音数据的情绪结果,其中所述语音情绪识别模型是利用权利要求1-5任意一项所述的语音情绪识别模型的训练方法训练得到的。
7.一种语音情绪识别模型训练装置,其特征在于,所述装置包括:
第一获取单元,用于获取无标注语音数据集及有标注语音数据集,所述有标注语音数据集中的标注为语音对应的情绪;
第一训练单元,用于基于所述无标注语音数据集进行自监督训练,得到预训练模型;
第二训练单元,用于基于所述有标注语音数据集对所述预训练模型进行训练,得到初始语音情绪识别模型;
筛选单元,用于基于所述初始语音情绪识别模型,对所述无标注语音数据集进行筛选,得到无标注训练数据集;
第三训练单元,用于基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练,得到目标语音情绪识别模型。
8.一种语音情绪识别装置,其特征在于,所述装置包括:
第二获取单元,用于获取待识别语音数据;
识别单元,用于将所述待识别语音数据输入语音情绪识别模型中,识别出所述待识别语音数据的情绪结果,其中所述语音情绪识别模型是利用权利要求1-5任意一项所述的语音情绪识别模型的训练方法训练得到的。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-5中任一项所述的语音情绪识别模型训练方法或者执行权利要求6所述的语音情绪识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的语音情绪识别模型训练方法或者执行权利要求6所述的语音情绪识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211479089.5A CN115881103B (zh) | 2022-11-23 | 2022-11-23 | 语音情绪识别模型训练方法、语音情绪识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211479089.5A CN115881103B (zh) | 2022-11-23 | 2022-11-23 | 语音情绪识别模型训练方法、语音情绪识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115881103A true CN115881103A (zh) | 2023-03-31 |
CN115881103B CN115881103B (zh) | 2024-03-19 |
Family
ID=85760759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211479089.5A Active CN115881103B (zh) | 2022-11-23 | 2022-11-23 | 语音情绪识别模型训练方法、语音情绪识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115881103B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392331A (zh) * | 2021-01-27 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法及设备 |
CN113409823A (zh) * | 2021-06-30 | 2021-09-17 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置、电子设备及存储介质 |
US20210357704A1 (en) * | 2020-05-14 | 2021-11-18 | International Business Machines Corporation | Semi-supervised learning with group constraints |
CN114596844A (zh) * | 2022-03-18 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 声学模型的训练方法、语音识别方法及相关设备 |
CN114937465A (zh) * | 2022-05-18 | 2022-08-23 | 北京中科智加科技有限公司 | 一种基于自监督学习的语音情感识别方法和计算机设备 |
CN115101061A (zh) * | 2022-07-14 | 2022-09-23 | 京东科技信息技术有限公司 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
CN115240659A (zh) * | 2022-09-21 | 2022-10-25 | 深圳市北科瑞声科技股份有限公司 | 分类模型训练方法、装置、计算机设备及存储介质 |
-
2022
- 2022-11-23 CN CN202211479089.5A patent/CN115881103B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210357704A1 (en) * | 2020-05-14 | 2021-11-18 | International Business Machines Corporation | Semi-supervised learning with group constraints |
CN113392331A (zh) * | 2021-01-27 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法及设备 |
CN113409823A (zh) * | 2021-06-30 | 2021-09-17 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置、电子设备及存储介质 |
CN114596844A (zh) * | 2022-03-18 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 声学模型的训练方法、语音识别方法及相关设备 |
CN114937465A (zh) * | 2022-05-18 | 2022-08-23 | 北京中科智加科技有限公司 | 一种基于自监督学习的语音情感识别方法和计算机设备 |
CN115101061A (zh) * | 2022-07-14 | 2022-09-23 | 京东科技信息技术有限公司 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
CN115240659A (zh) * | 2022-09-21 | 2022-10-25 | 深圳市北科瑞声科技股份有限公司 | 分类模型训练方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115881103B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
WO2018133761A1 (zh) | 一种人机对话的方法和装置 | |
CN112712813B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN110766142A (zh) | 模型生成方法和装置 | |
CN111523640B (zh) | 神经网络模型的训练方法和装置 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN114787844A (zh) | 模型训练方法、视频处理方法、装置、存储介质及电子设备 | |
US20210390370A1 (en) | Data processing method and apparatus, storage medium and electronic device | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN113656563B (zh) | 一种神经网络搜索方法及相关设备 | |
WO2021127982A1 (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
KR20180103671A (ko) | 언어 모델을 압축하기 위한 전자 장치, 추천 워드를 제공하기 위한 전자 장치 및 그 동작 방법들 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN111653274A (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN114610851A (zh) | 意图识别模型的训练方法、意图识别方法、设备及介质 | |
CN116737895A (zh) | 一种数据处理方法及相关设备 | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
WO2022246986A1 (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN114428838A (zh) | 内容召回方法、装置、计算机设备及存储介质 | |
CN112989843A (zh) | 意图识别方法、装置、计算设备及存储介质 | |
WO2021047103A1 (zh) | 一种语音识别方法及装置 | |
CN116542289A (zh) | 一种数据处理方法及其装置 | |
CN116362301A (zh) | 一种模型的量化方法以及相关设备 | |
CN116129881A (zh) | 语音任务处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |