CN112863549A - 一种基于元-多任务学习的语音情感识别方法及装置 - Google Patents

一种基于元-多任务学习的语音情感识别方法及装置 Download PDF

Info

Publication number
CN112863549A
CN112863549A CN202110077573.4A CN202110077573A CN112863549A CN 112863549 A CN112863549 A CN 112863549A CN 202110077573 A CN202110077573 A CN 202110077573A CN 112863549 A CN112863549 A CN 112863549A
Authority
CN
China
Prior art keywords
meta
learner
data
training
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110077573.4A
Other languages
English (en)
Inventor
蔡瑞初
郭锴槟
许柏炎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110077573.4A priority Critical patent/CN112863549A/zh
Publication of CN112863549A publication Critical patent/CN112863549A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种基于元‑多任务学习的语音情感识别方法及装置。该方法包括:通过将元学习和多任务学习结合起来,学习辅助任务之间的相关性,以及学习辅助任务到主任务的知识迁移能力,其优势主要体现在:对于语音情感识别,考虑情感在连续空间和离散空间的相关性,在支持集上,元学习能够像多任务学习一样学习辅助任务的相关性,同时多任务学习也能够像元学习一样共享学习器。而在查询集上,通过引入知识迁移机制,使得模型能够对主任务和辅助任务间的相关性进行建模。该装置包括:获取单元、数据处理单元、元数据生成单元、初始化单元、元训练单元、元预测微调单元以及元预测识别单元。本发明显著提高了语音情感识别的准确度。

Description

一种基于元-多任务学习的语音情感识别方法及装置
技术领域
本发明涉及计算机语音领域,更具体地,涉及一种基于元-多任务学习的语音情感识别方法及装置。
背景技术
科技的发展日益改变着人类的生活方式,新时代的计算机日渐朝着能够像人类一样进行交流、思考和决策的方向发展。其中人机交互技术促使人类与计算机更加自然,更加智能的交互。语音情感识别是人机交互和人工智能领域的一个重要内容,在电子远程教学、疾病治疗、谎言检测、客服呼叫中心系统等实际应用发挥着重要作用。深度学习在语音情感识别的研究发挥着重要作用,如卷积神经网络,循环神经网络,深度神经网络等。研究人员通过这些神经网络提取时域以及频域上与情感相关信息。这类方法大多是基于单任务学习的。然而人的情感特征是复杂,与人表达情感的方式有关。因此,仅仅通过单任务学习的方式,是无法进行语音情感识别的。
进一步,科研人员通过数据分析发现,语音情感在离散空间和维度情感空间两个空间的分布存在相关性。因此,可以利用维度情感空间的信息辅助离散情感空间标签的预测。多任务学习是结合多个任务一起学习的方式,通常主任务和辅助任务同时训练,并且只共享特征提取器,而分类器不共享。虽然也有不少多任务学习在语音情感识别的研究,但是多任务学习没有对主任务和辅助任务的知识迁移方式进行显式建模,具体而言,就是知道了辅助任务的信息,如何根据辅助任务引导模型在主任务上的训练和预测。为了更好地提高语音情感识别的精度,需要对多任务学习进行适当地改进。
发明内容
本发明为克服上述现有技术所述的语音情感识别准确度不够高的缺陷,提供一种基于元-多任务学习的语音情感识别方法及装置。
所述方法包括以下步骤:
S1:从情感维度空间和离散维度空间收集描述情感的语音情感数据集;
其中,语音情感数据集包括多个人的数据集。
S2:根据说话人的个数,将语音情感数据集划分成对应多个子数据,每个数据集对应于元学习的任务集合中的一个任务,并且选择其中一个说话人的数据作为测试集,其余说话人的数据集作为训练集;
S3:对于每个说话人,将其对应的数据集划分成支持集和查询集,查询集为主任务,而支持集为与主任务相关的辅助任务;
S4:元训练的辅助任务关系建模:在训练集上的每个说话人的支持集上,训练元学习器,并临时更新元学习器参数,得到基于该说话人的临时元学习器;
S5:元训练的知识迁移训练:在训练集上,对于每个说话人的查询集上,基于自身的临时元学习器,训练并更新迁移学习器参数,以对辅助任务到主任务的知识迁移能力进行建模;
S6:在训练集上的每个说话人的查询集上,基于更新过的元学习器参数和迁移学习器参数,重新计算损失。
S7:对S6所得的损失求和取平均,作为总损失,采用梯度下降,更新元学习器和迁移学习器的初始参数;
S8,在训练集上重复S5-S7,迭代至模型收敛后,放到测试集;在测试集的支持集上,对元学习器参数进行微调;
S9,基于微调后的元学习器和元训练阶段得到的迁移学习器,预测测试集的查询集的标签,从而实现语音情感识别。其中,测试集的查询集的标签就是语音情感识别的标签。
优选地,S4中元学习器更新方式为:
Figure BDA0002908053610000021
其中,θ′s,j为第j个任务学习器更新后的参数,θs为第j个任务学习器的参数,α为学习器的学习率,
Figure BDA0002908053610000022
为第i个支持集上的损失,k为任务的个数。
优选地,迁移学习器的更新方式为:
Figure BDA0002908053610000023
θ′t,j为第j个任务迁移学习器更新后的参数,θt为迁移学习器的参数,β为迁移学习器的学习参数,
Figure BDA0002908053610000024
为第j个任务迁移学习器的参数。
优选地,S7中总损失为:
Figure BDA0002908053610000031
其中,
Figure BDA0002908053610000032
为总损失,
Figure BDA0002908053610000033
是关于θ′s,j和θ′t,j的函数,即
Figure BDA0002908053610000034
元学习器和迁移学习器的初始参数更新公式分别为:
Figure BDA0002908053610000035
Figure BDA0002908053610000036
其中,γ为微调的学习率。
本发明还提供一种基于元-多任务学习的语音情感识别装置,所述装置包括:获取单元、数据处理单元、元数据生成单元、初始化单元、元训练单元、元预测微调单元、元测识别单元;
所述获取单元用于获取语音数据集以及对应的情感标签;
所述数据处理单元用于对语音数据集进行特征提取,同时将声学特征和对应的情感标签组成数据对,将数据按照预设的数据划分规则,归到训练集或测试集;
所述元数据生成单元用于将训练集和测试集上的数据按照说话人进行再次划分,使得训练集/测试集变成由不同说话人的数据组成的集合,接着再对每个说话人的数据做划分,划分成支持集和查询集;
所述初始化单元用于将元学习器和迁移学习器具体化为神经网络,同时对元学习器和元学习器的参数,以及学习率的超参做初始化。
所述元训练单元用于在训练集上,反复迭代,训练元学习器和迁移学习器。
所述元预测微调单元用于在测试集的支持集上,微调元学习器;
所述元测识别单元用于在测试集上,利用在训练集上训练的迁移学习器和经过微调的元学习器,预测查询集的标签。
优选地,获取单元还具体用来对获取的语音数据集,选择离散空间情感标签为高兴、生气、悲伤和中立对应的数据,除了离散情感空间标签,每段语音还标有维度情感空间的标签。
优选地,数据处理单元具体用于:预先将语音数据做切片处理,使得每个语音分片长度相等,且不超过3秒,然后利用声学处理方法,从语音数据提取声谱图,并将每个音频对应的声谱图和情感标签组成数据对;接着按照说话人进行数据集的初次划分,选择某一个说话人的数据划分到测试集,而其他归入训练集。
优选地,数据生成单元具体用于:
将训练集和测试集上的数据按照说话人再次进行划分,使得训练集/测试集变成由不同说话人的数据组成的集合,对应于元学习的任务集;接着将每个说话人的数据划分成支持集和查询集,支持集用于识别语音在维度情感空间上的标签,而查询集用于识别语音在离散情感空间的标签。
优选地,元训练单元具体用于:
对于训练集上的每一次迭代,在各个任务上,先利用支持集上的任务,先训练元学习器,对元学习器做临时更新;
接着,利用临时更新的元学习器,在查询集,先对知识迁移器做临时更新,以学习如何将辅助任务的信息迁移到主任务上;然后基于临时更新的元学习器和迁移学习器,计算各个任务在查询集的损失,求和取平均作为本次迭代的总损失;
最后,用总损失分别对元学习器和迁移学习器的初始参数做求导,并利用梯度下降更新元学习器和迁移学习器的参数;循环进行上述参数更新过程,当迭代到一定步骤后,进入元预测单元。
优选地,元测试识别单元具体用于:
在测试集的查询集上,利用元预测微调单元提供的元学习器和元训练单元提供的迁移学习器,预测一段语音在离散情感空间的标签;对于经过切片过的语音,预测的标签为各个语音片段经过元学习器和迁移学习器所得的输出概率加和后,最大值所对应的标签;最后计算测试集上的加权准确度和未加权准确度,以和其他算法作对比。
与现有技术相比,本发明技术方案的有益效果是:
本发明将元学习算法和多任务学习算法集合在一起,将已学习的知识迁移到新的知识。可有效提高语音情感识别的准确度。
附图说明
图1为实施例1所述基于元-多任务学习的语音情感识别方法的图示;
图2为实施例1所述基于元-多任务学习的语音情感识别方法的流程图;
图3为实施例2所述基于元-多任务学习的语音情感识别装置的示意图;
图4为可选元学习器结构。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于元-多任务学习的语音情感识别方法。如图1所示,基于元-多任务学习的语音情感识别方法主要包括以下两个关键阶段:
1)通过将元学习和多任务学习结合起来,学习辅助任务之间的相关性,对应于Multi-trainStage。
2)学习辅助任务到主任务的知识迁移能力,对应于KnowledgeTransferStage。
如图2所示,基于元-多任务学习的语音情感识别方法具体包括以下步骤:
1)数据集采集:可以选择从情感维度空间和离散维度空间描述情感的数据集IEMOCAP。一般来讲,语音情感可以用连续情感空间表示,如Valence-Arousal空间等,或者用离散情感空间表示,如开心,悲伤等。
2)数据集划分:将IEMOCAP按照说话人划分成几个数据集合,对应于元学习的任务集
Figure BDA0002908053610000051
并选择其中一个说话人的数据作为测试集。
3)元数据划分:对于每个说话人,将数据划分成支持集和查询集。但与普通的元学习不一样,在支持集的数据为多任务形式,而不再是单任务形式。而查询集的任务和支持集的任务不再是一样的,可以是不同但相关的。并且支持集和查询集共享相同的特征集。假设说话人的编号为j,对应的任务编号为
Figure BDA0002908053610000052
X为声学特征,
Figure BDA0002908053610000053
为在支持集第i个任务上对应的标签集,而
Figure BDA0002908053610000054
为在查询集上对应的标签集。则从数学上,可以按照下面的方式定义支持集的数据
Figure BDA0002908053610000055
和查询集的数据
Figure BDA0002908053610000056
Figure BDA0002908053610000057
Figure BDA0002908053610000058
Figure BDA0002908053610000061
4)元训练的辅助任务关系建模:在训练集上,对于每个任务
Figure BDA0002908053610000062
(也就是第j个说话人)的支持集,训练元学习器以对辅助任务之间的相关性进行建模。这里,假设元学习器的参数为θs。在特征X通过元学习器后,算法分别在支持集的各个辅助任务上计算相应的梯度,再将所有梯度加和后取平均作为这个阶段的总梯度。假设在第i个支持集上的损失为
Figure BDA0002908053610000063
学习率为α,则在这个阶段,对于任务
Figure BDA0002908053610000064
元学习器的参数更新方式为:
Figure BDA0002908053610000065
5)元训练的知识迁移训练:在训练集,对于每个任务
Figure BDA0002908053610000066
的查询集,对支持集的任务到查询集的任务的知识迁移能力进行建模。不同于元学习的训练方式,本实施例引入了知识迁移阶段。具体来讲,即在元学习器后添加一个用于学习知识迁移的网络层,称为迁移学习器。在这个阶段,声学特征会依次通过元学习器和知识迁移器。但是在这只训练迁移学习器,以使得迁移学习器能够尽快学习知识迁移。假设迁移学习器的参数为θt,学习率为β,任务
Figure BDA0002908053610000067
在这个阶段的损失为
Figure BDA0002908053610000068
则迁移学习器的参数更新方式为
Figure BDA0002908053610000069
6)元训练的知识迁移微调:在训练集,对于每个任务
Figure BDA00029080536100000610
的查询集,基于步骤4和5训练得到的元学习器和迁移学习器,重新计算查询集的损失
Figure BDA00029080536100000611
但是这个阶段,
Figure BDA00029080536100000612
是关于θ′s,j和θ′t,j的函数,即
Figure BDA00029080536100000613
以对θ′s,j和θ′t,j进行微调,使得模型能够朝着优化主任务预测的方向发展。
7)总损失计算:累加步骤6所得的损失再取平均,将结果作为总损失
Figure BDA00029080536100000614
并且基于梯度下降,更新元学习器和迁移学习器的初始参数。假设微调的学习率为γ,则上述过程可以公式化:
Figure BDA0002908053610000071
Figure BDA0002908053610000072
Figure BDA0002908053610000073
8)元测试阶段的预训练:重复步骤5)-7),迭代到一定步骤后,利用测试集的支持集,将声学特征输入到元学习器中,并计算在支持集上的损失,按照梯度下降对元学习器的参数进行微调,而整个过程迁移学习器不参与训练,对应参数也不更新。
9)元测试阶段的测试:基于步骤8微调的元学习器以及预训练好的迁移学习器,直接预测测试集查询集的标签。
实施例2:
本实施例提供一种基于元-多任务学习的语音情感识别装置,所述装置可实现实施例1所述方法,如图3所示,所述装置包括:
1)获取单元,具体配置成:
对获取的语音数据集,选择离散空间情感标签为高兴、生气、悲伤和中立对应的数据,除了离散情感空间标签,每段语音还标有维度情感空间的标签,本实施例的维度情感空间,选择Valence-Activation-Dominance空间。
2)数据处理单元,具体配置成:
预先将语音数据做切片处理,使得每个语音分片长度近似相等,且不超过3秒,然后利用傅里叶变换,滤波器等声学处理方法,从语音数据提取声谱图,并将每个音频对应的声谱图和情感标签组成数据对。接着按照说话人进行数据集的初次划分,选择某一个说话人的数据划分到测试集,而其他归入训练集。
3)元数据生成单元,具体配置成:
将训练集和测试集上的数据按照说话人再次进行划分,使得训练集/测试集变成由不同说话人的数据组成的集合,对应于元学习的任务集。接着将每个说话人的数据划分成支持集和查询集,支持集主要用于识别语音在维度情感空间上的标签,而查询集主要用于识别语音在离散情感空间的标签。
4)初始化单元,具体配置成:
选择语音情感识别经典模型CNN-LSTM作为元学习器,如附图4所示。而选择全连接层作为知识迁移器。而在选择优化器选择上,元训练和元预测统一选择Adam优化器。
5)元训练单元,具体配置成:
对于训练集上的每一次迭代,在各个任务上,先利用支持集上的任务,先训练元学习器,对元学习器做临时更新,这个阶段负责对辅助任务间的相关性建模。接着,利用临时更新的元学习器,在查询集,先对知识迁移器做临时更新,以学习如何将辅助任务的信息迁移到主任务上。然后,基于临时更新的元学习器和迁移学习器,计算各个任务在查询集的损失,求和取平均作为本次迭代的总损失。最后,用总损失分别对元学习器和迁移学习器的初始参数做求导,并利用梯度下降更新元学习器和迁移学习器的参数。循环进行上述参数更新过程,当迭代到一定步骤后,进入元预测单元。
6)测试微调单元,具体配置成:
在测试集的支持集上,利用元训练单元提供的元学习器,对元学习器做参数微调,当微调到一定步骤时,转入元预测识别单元。
7)测试识别单元,具体配置成:
在测试集的查询集上,利用元预测微调单元提供的元学习器和元训练单元提供的迁移学习器,预测一段语音在离散情感空间的标签。对于经过切片过的语音,预测的标签为各个语音片段经过元学习器和迁移学习器所得的输出概率加和后,最大值所对应的标签。最后计算测试集上的加权准确度和未加权准确度,以和其他算法作对比。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于元-多任务学习的语音情感识别方法,其特征在于,所述方法包括以下步骤:
S1:从情感维度空间和离散维度空间收集描述情感的语音情感数据集;
S2:根据说话人的个数,将语音情感数据集划分成对应若干个子数据,每个数据集对应于元学习的任务集合中的一个任务,并且选择其中一个说话人的数据作为测试集,其余说话人的数据集作为训练集;
S3:对于每个说话人,将其对应的数据集划分成支持集和查询集,查询集为主任务,而支持集为与主任务相关的辅助任务;
S4:元训练的辅助任务关系建模:在训练集上的每个说话人的支持集上,训练元学习器,并临时更新元学习器参数,得到基于该说话人的临时元学习器;
S5:元训练的知识迁移训练:在训练集上,对于每个说话人的查询集上,基于自身的临时元学习器,训练并更新迁移学习器参数,以对辅助任务到主任务的知识迁移能力进行建模;
S6:在训练集上的每个说话人的查询集上,基于更新过的元学习器参数和迁移学习器参数,重新计算损失。
S7:对S6所得的损失求和取平均,作为总损失,采用梯度下降,更新元学习器和迁移学习器的初始参数;
S8,在训练集上重复S5-S7,迭代至模型收敛后,放到测试集;在测试集的支持集上,对元学习器参数进行微调;
S9,基于微调后的元学习器和元训练阶段得到的迁移学习器,预测测试集的查询集的标签,从而实现语音情感识别。
2.根据权利要求1所述的基于元-多任务学习的语音情感识别方法,其特征在于,S4中元学习器更新方式为:
Figure FDA0002908053600000011
其中,θ′s,j为第j个任务学习器更新后的参数,θs为第j个任务学习器的参数,α为学习器的学习率,
Figure FDA0002908053600000012
为第i个支持集上的损失,k为任务的个数。
3.根据权利要求2所述的基于元-多任务学习的语音情感识别方法,其特征在于,迁移学习器的更新方式为:
Figure FDA0002908053600000021
θ′t,j为第j个任务迁移学习器更新后的参数,θt为迁移学习器的参数,β为迁移学习器的学习参数,
Figure FDA0002908053600000022
为第j个任务迁移学习器的参数。
4.根据权利要求3所述的基于元-多任务学习的语音情感识别方法,其特征在于,S7中总损失为:
Figure FDA0002908053600000023
其中,
Figure FDA0002908053600000024
为总损失,
Figure FDA0002908053600000025
是关于θ′s,j和θ′t,j的函数,即
Figure FDA0002908053600000026
元学习器和迁移学习器的初始参数更新公式分别为:
Figure FDA0002908053600000027
Figure FDA0002908053600000028
其中,γ为微调的学习率。
5.一种基于元-多任务学习的语音情感识别装置,其特征在于,所述装置包括:获取单元、数据处理单元、元数据生成单元、初始化单元、元训练单元、元预测微调单元、元测识别单元;
所述获取单元用于获取语音数据集以及对应的情感标签;
所述数据处理单元用于对语音数据集进行特征提取,同时将声学特征和对应的情感标签组成数据对,将数据按照预设的数据划分规则,归到训练集或测试集;
所述元数据生成单元用于将训练集和测试集上的数据按照说话人进行再次划分,使得训练集/测试集变成由不同说话人的数据组成的集合,接着再对每个说话人的数据做划分,划分成支持集和查询集;
所述初始化单元用于将元学习器和迁移学习器具体化为神经网络,同时对元学习器和元学习器的参数,以及学习率的超参做初始化。
所述元训练单元用于在训练集上,反复迭代,训练元学习器和迁移学习器。
所述元预测微调单元用于在测试集的支持集上,微调元学习器;
所述元测识别单元用于在测试集上,利用在训练集上训练的迁移学习器和经过微调的元学习器,预测查询集的标签。
6.根据权利要求5所述的基于元-多任务学习的语音情感识别装置,其特征在于,获取单元还具体用来对获取的语音数据集,选择离散空间情感标签为高兴、生气、悲伤和中立对应的数据,除了离散情感空间标签,每段语音还标有维度情感空间的标签。
7.根据权利要求5或6所述的基于元-多任务学习的语音情感识别装置,其特征在于,数据处理单元具体用于:预先将语音数据做切片处理,使得每个语音分片长度相等,且不超过3秒,然后利用声学处理方法,从语音数据提取声谱图,并将每个音频对应的声谱图和情感标签组成数据对;接着按照说话人进行数据集的初次划分,选择某一个说话人的数据划分到测试集,而其他归入训练集。
8.根据权利要求7所述的基于元-多任务学习的语音情感识别装置,其特征在于,数据生成单元具体用于:
将训练集和测试集上的数据按照说话人再次进行划分,使得训练集/测试集变成由不同说话人的数据组成的集合,对应于元学习的任务集;接着将每个说话人的数据划分成支持集和查询集,支持集用于识别语音在维度情感空间上的标签,而查询集用于识别语音在离散情感空间的标签。
9.根据权利要求8所述的基于元-多任务学习的语音情感识别装置,其特征在于,元训练单元具体用于:
对于训练集上的每一次迭代,在各个任务上,先利用支持集上的任务,先训练元学习器,对元学习器做临时更新;
接着,利用临时更新的元学习器,在查询集,先对知识迁移器做临时更新,以学习如何将辅助任务的信息迁移到主任务上;然后基于临时更新的元学习器和迁移学习器,计算各个任务在查询集的损失,然后求和取平均作为总损失;
最后,用总损失分别对元学习器和迁移学习器的初始参数做求导,并利用梯度下降更新元学习器和迁移学习器的参数;循环进行参数更新,当模型迭代至收敛后,进入元预测单元。
10.根据权利要求9所述的基于元-多任务学习的语音情感识别装置,其特征在于,元测试识别单元具体用于:
在测试集的查询集上,利用元预测微调单元提供的元学习器和元训练单元提供的迁移学习器,预测一段语音在离散情感空间的标签;对于经过切片过的语音,预测的标签为各个语音片段经过元学习器和迁移学习器所得的输出概率加和后,最大值所对应的标签;最后计算测试集上的加权准确度和未加权准确度。
CN202110077573.4A 2021-01-20 2021-01-20 一种基于元-多任务学习的语音情感识别方法及装置 Pending CN112863549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110077573.4A CN112863549A (zh) 2021-01-20 2021-01-20 一种基于元-多任务学习的语音情感识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110077573.4A CN112863549A (zh) 2021-01-20 2021-01-20 一种基于元-多任务学习的语音情感识别方法及装置

Publications (1)

Publication Number Publication Date
CN112863549A true CN112863549A (zh) 2021-05-28

Family

ID=76008269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110077573.4A Pending CN112863549A (zh) 2021-01-20 2021-01-20 一种基于元-多任务学习的语音情感识别方法及装置

Country Status (1)

Country Link
CN (1) CN112863549A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034514A (zh) * 2022-07-06 2022-09-09 吉林大学 一种基于元学习的小样本时序预测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN110263822A (zh) * 2019-05-29 2019-09-20 广东工业大学 一种基于多任务学习方式的图像情感分析方法
WO2019191554A1 (en) * 2018-03-29 2019-10-03 Tencent Technology (Shenzhen) Company Limited Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
US20200160212A1 (en) * 2018-11-21 2020-05-21 Korea Advanced Institute Of Science And Technology Method and system for transfer learning to random target dataset and model structure based on meta learning
CN111476292A (zh) * 2020-04-03 2020-07-31 北京全景德康医学影像诊断中心有限公司 医学图像分类处理人工智能的小样本元学习训练方法
CN111816212A (zh) * 2020-06-19 2020-10-23 杭州电子科技大学 基于特征集融合的语音情感识别及评价方法
CN112115993A (zh) * 2020-09-11 2020-12-22 昆明理工大学 一种基于元学习的零样本和小样本证件照异常检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
WO2019191554A1 (en) * 2018-03-29 2019-10-03 Tencent Technology (Shenzhen) Company Limited Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
US20200160212A1 (en) * 2018-11-21 2020-05-21 Korea Advanced Institute Of Science And Technology Method and system for transfer learning to random target dataset and model structure based on meta learning
CN110263822A (zh) * 2019-05-29 2019-09-20 广东工业大学 一种基于多任务学习方式的图像情感分析方法
CN111476292A (zh) * 2020-04-03 2020-07-31 北京全景德康医学影像诊断中心有限公司 医学图像分类处理人工智能的小样本元学习训练方法
CN111816212A (zh) * 2020-06-19 2020-10-23 杭州电子科技大学 基于特征集融合的语音情感识别及评价方法
CN112115993A (zh) * 2020-09-11 2020-12-22 昆明理工大学 一种基于元学习的零样本和小样本证件照异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CAI R, GUO K, XU B, ET AL.: "Meta Multi-task Learning for Speech Emotion Recognition", 《PROC. INTERSPEECH 2020》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034514A (zh) * 2022-07-06 2022-09-09 吉林大学 一种基于元学习的小样本时序预测方法及系统

Similar Documents

Publication Publication Date Title
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN110309514A (zh) 一种语义识别方法及装置
Jermsittiparsert et al. Pattern recognition and features selection for speech emotion recognition model using deep learning
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
KR20190129580A (ko) 음성 인식 모델을 개인화하는 방법 및 장치
CN111785257B (zh) 一种针对少量标注样本的空管语音识别方法及装置
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
Joy et al. Speech emotion recognition using neural network and MLP classifier
Ashraf et al. A globally regularized joint neural architecture for music classification
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
Shahriar et al. Classifying maqams of Qur’anic recitations using deep learning
CN114841142A (zh) 文本生成方法、装置、电子设备和存储介质
Roy et al. Speech emotion recognition using neural network and wavelet features
Nirmal et al. Music genre classification using spectrograms
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Yasmin et al. A rough set theory and deep learning-based predictive system for gender recognition using audio speech
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN112863549A (zh) 一种基于元-多任务学习的语音情感识别方法及装置
Islam et al. Machine learning-based music genre classification with pre-processed feature analysis
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN114898776A (zh) 一种多尺度特征联合多任务cnn决策树的语音情感识别方法
Anindya et al. Development of Indonesian speech recognition with deep neural network for robotic command
Kavitha et al. Deep Learning based Audio Processing Speech Emotion Detection
Barkur et al. EnsembleWave: an ensembled approach for automatic speech emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528