CN111933187A - 情感识别模型的训练方法、装置、计算机设备和存储介质 - Google Patents
情感识别模型的训练方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111933187A CN111933187A CN202010992862.2A CN202010992862A CN111933187A CN 111933187 A CN111933187 A CN 111933187A CN 202010992862 A CN202010992862 A CN 202010992862A CN 111933187 A CN111933187 A CN 111933187A
- Authority
- CN
- China
- Prior art keywords
- audio
- source
- target
- feature extraction
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 136
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 230
- 230000008451 emotion Effects 0.000 claims abstract description 143
- 238000012545 processing Methods 0.000 claims description 83
- 238000005070 sampling Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种情感识别模型的训练方法、装置、计算机设备和存储介质,该方法包括:获取通过源模型生成的源音频的源音频特征;源模型,是根据携带情感类别标注的第一领域下的所述源音频,训练得到的情感识别模型;在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;目标音频是未携带情感类别标注的第二领域下的音频;将目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;所述对抗网络,用于区分所述目标音频特征和所述源音频特征所属的音频源;根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练;根据迭代停止时的目标特征提取网络,确定目标情感识别模型。本方案能够节省人工标注成本。
Description
技术领域
本申请涉及语音处理技术领域和机器学习技术领域,特别是涉及一种情感识别模型的训练方法、装置、计算机设备和存储介质。
背景技术
随着语音处理技术的发展,出现了情感识别技术。情感识别技术,即指通过计算机算法从音视频中自动分析说话人的情感状态(如:积极, 消极, 喜悦, 愤怒等)。情感识别技术在多个领域有着重要应用。例如,电话客服场景中的客户满意度评估及坐席服务态度评估, 或者,视频中任务角色的情感表达统计等场景中都会使用到情感识别技术。目前大多通过机器学习,训练情感识别模型来进行情感识别。
传统方法中,在训练适用于某一领域下的情感识别模型时,是通过人工手动针对音频文件添加大量的标注,然后基于标注后的音频文件进行机器学习训练。然而,人工手动添加大量标注会导致很高的成本。因此,传统方法成本过高是亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够节省成本的情感识别模型的训练方法、装置、计算机设备和存储介质。
一种情感识别模型的训练方法,包括:
获取通过源模型生成的源音频的源音频特征;源模型,是根据携带情感类别标注的第一领域下的源音频,训练得到的情感识别模型;
在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;目标音频是未携带情感类别标注的第二领域下的音频;
将目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;对抗网络,用于区分目标音频特征和源音频特征所属的音频源;
根据对抗损失对对抗网络和目标特征提取网络进行训练;
根据迭代停止时的目标特征提取网络,确定目标情感识别模型。
在其中一个实施例中,源模型包括源特征提取网络和情感分类器;源音频特征,是通过源特征提取网络生成得到的;
目标特征提取网络与源特征提取网络的网络结构一致,且首轮迭代训练前的目标特征提取网络的参数,与源特征提取网络的参数一致;
根据迭代停止时的目标特征提取网络,确定目标情感识别模型包括:
根据情感分类器和迭代停止时的目标特征提取网络,得到目标情感识别模型。
在其中一个实施例中,获取通过源模型生成的源音频特征包括:
获取源音频的源初级特征;
将源初级特征输入至源特征提取网络进行特征提取处理,生成源音频特征;
通过当前的目标特征提取网络,生成目标音频的目标音频特征包括:
获取目标音频的目标初级特征;
将目标初级特征输入至当前的目标特征提取网络进行特征提取处理,生成目标音频特征。
在其中一个实施例中,还包括:
按照预设分帧长度和预设窗口滑动步长,从源音频或目标音频中,提取预设数量的源音频帧或目标音频帧;
对各源音频帧或目标音频帧进行初级特征提取处理,得到源音频帧的第一初级特征或目标音频帧的第二初级特征;
根据各源音频帧的第一初级特征和源音频帧所对应的时间,生成二维特征矩阵作为源音频的源初级特征;或,根据各目标音频帧的第二初级特征和目标音频帧所对应的时间,生成二维特征矩阵作为目标音频的目标初级特征。
在其中一个实施例中,在按照预设分帧长度和预设窗口滑动步长,从源音频或目标音频中,提取预设数量的源音频帧或目标音频帧之前,方法还包括:
获取原始目标音频或原始源音频;
对原始目标音频或原始源音频进行预处理,得到初始目标音频或初始源音频;
按照预设采样率,对初始目标音频或初始源音频进行采样处理,得到目标音频或源音频。
在其中一个实施例中,源特征提取网络为具有预设数量个卷积层的二维卷积神经网络;源音频特征为一维的源音频特征向量;
将源初级特征输入至源特征提取网络进行特征提取处理,生成源音频特征包括:
将源初级特征输入至源特征提取网络中进行卷积处理,并将由源特征提取网络中的前一卷积层进行卷积处理所提取的音频特征,输入至后一卷积层中进行卷积处理;
将最后一层卷积层输出的音频特征进行平整化处理,生成一维的源音频特征向量。
在其中一个实施例中,根据对抗损失对对抗网络和目标特征提取网络进行训练,包括:
当针对对抗网络进行训练时,根据对抗损失调整对抗网络的参数,并保持当前的目标特征提取网络的参数不变;
当针对目标特征提取网络进行训练时,根据对抗损失调整目标特征提取网络的参数,并保持当前的对抗网络的参数不变。
在其中一个实施例中,源模型通过源模型训练步骤得到,源模型训练步骤包括:
获取训练集;训练集中包括携带情感类别标注的源音频;
在源模型的每轮迭代训练中,对源音频进行初级特征提取处理,并将提取的源初级特征输入至待训练的源特征提取网络中,输出源音频特征;
将输出的源音频特征输入至待训练的情感分类器,输出情感类别预测结果;
根据情感类别预测结果和情感类别标注之间的差异,确定损失值,并根据损失值调整源特征提取网络和情感分类器的参数;
根据迭代停止时的源特征提取网络和情感分类器,得到最终的源模型。
在其中一个实施例中,目标情感识别模型包括目标特征提取网络和与源模型共用的情感分类器。该方法还包括:
对待识别音频进行初级特征提取处理;
将提取的待识别音频的初级特征,输入至目标情感识别模型中的目标特征提取网络中进行特征提取,得到待识别音频的音频特征;
将待识别音频的音频特征输入至情感分类器中,得到待识别音频所对应的情感类别。
一种情感识别模型的训练装置,包括:
获取模块,用于获取通过源模型生成的源音频的源音频特征;源模型,是预先根据携带情感类别标注的第一领域下的源音频,训练得到的情感识别模型;
训练模块,用于在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;目标音频是未携带情感类别标注的第二领域下的音频;将目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;对抗网络,用于区分目标音频特征和源音频特征所属的音频源;根据对抗损失对对抗网络和目标特征提取网络进行训练;
模型确定模块,用于根据迭代停止时的目标特征提取网络,确定目标情感识别模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请各实施例中所述的情感识别模型的训练方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请各实施例中所述的情感识别模型的训练方法的步骤。
上述情感识别模型的训练方法、装置、计算机设备和存储介质,在迭代训练第二领域下的目标特征提取网络时,将第一领域下已根据标注的源音频训练的源模型生成的源音频特征、以及当前的目标特征提取网络对未携带标注的目标音频提取的目标音频特征,输入至当前的用于区分目标音频特征和源音频特征所属音频源的对抗网络,得到对抗损失;根据对抗损失对对抗网络和目标特征提取网络进行训练,从而得到第二领域下的目标情感识别模型。即,不需要对第二领域下的目标音频进行情感类别标注,通过使用第一领域下根据标注数据训练的源模型进行对抗训练,即可以跨领域生成第二领域下的目标情感识别模型,从而节省了人工标注成本。
附图说明
图1为一个实施例中情感识别模型的训练方法的流程示意图;
图2为一个实施例中源特征提取网络的参数示意图;
图3为一个实施例中源模型训练步骤的示意图;
图4为一个实施例中情感识别模型的训练方法的流程简示图;
图5为一个实施例中情感识别模型的训练方法的原理示意图;
图6为一个实施例中情感识别模型的训练装置的结构框图;
图7为另一个实施例中情感识别模型的训练装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种情感识别模型的训练方法,该方法可以应用于终端或服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本申请实施例以应用于服务器进行举例说明,该方法包括以下步骤:
步骤102,获取通过源模型生成的源音频的源音频特征。
其中,源音频,是在第一领域下的携带情感类别标注的音频数据。源模型,是根据源音频训练得到的情感识别模型,即,源模型,是根据携带情感类别标注的第一领域下的源音频,训练得到的情感识别模型。源音频特征,是源音频的音频特征。
具体地,服务器可以直接获取已经由源模型针对源音频生成的源音频特征。服务器也可以根据源模型对源音频进行特征提取处理,以生成源音频的源音频特征。
在一个实施例中,服务器可以通过源模型对源音频进行特征提取处理,直接得到源音频的源音频特征,也可以先对源音频进行初级特征提取,对提取的源初级特征进行二次特征提取,生成最终的源音频的源音频特征,即,源高级音频特征。可以理解,二次特征提取后得到的源音频特征,相较于源初级特征剔除了一些不必要的信息,属于在情感识别中更为关键的特征。
在一个实施例中,源音频可以是采集的第一领域下的原始音频数据,也可以是对原始音频数据进行预处理后的音频数据,还可以是对原始音频数据进行预处理后并采样得到的音频数据。
步骤104,在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征。
其中,目标特征提取网络,是待训练的用于提取音频特征的网络。当前的目标特征提取网络,是指当前轮待训练的目标特征提取网络。目标音频是未携带情感类别标注的第二领域下的音频。即,目标音频是在第二领域下的未携带情感类别标注的音频数据。第二领域不同于第一领域。
在一个实施例中,源模型中包括源特征提取网络。源模型是通过源特征提取网络,提取源音频的源音频特征。目标特征提取网络,服务器可以直接复制源模型中的源特征提取网络的网络结构和参数,作为参与首轮迭代训练的初始的目标特征提取网络即,以使得首轮迭代训练的目标特征提取网络,与源特征提取网络的网络结构和参数相同。在其他实施例中,参与首轮迭代训练的初始的目标特征提取网络,也可以与源特征提取网络的网络结构相同但使用默认参数。
在一个实施例中,目标音频,可以是采集的第二领域下的原始的音频数据,也可以是对原始的音频数据进行预处理后的音频数据,还可以是对原始的音频数据进行预处理后并采样得到的音频数据。
具体地,服务器可以根据第一领域下的携带情感类别标注的源音频的源音频特征、以及第二领域下的未携带情感类别标注的目标音频,作为训练样本,对目标特征提取网络和对抗网络进行迭代训练。
在一个实施例中,在每轮迭代训练中,服务器可以将目标音频直接输入至当前的目标特征提取网络,以生成目标音频的目标音频特征。
在另一个实施例中,在每轮迭代训练中,服务器也可以先对目标音频进行初级特征提取处理,将提取的目标初级特征输入至当前的目标特征提取网络,以生成目标音频的目标音频特征。
可以理解,特征提取的方式不同,得到的音频特征也就不同,因此,目标特征提取网络提取目标音频特征的过程,相当于生成目标音频的目标音频特征的过程。
步骤106,将目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失。
其中,对抗网络,用于区分目标音频特征和源音频特征所属的音频源,即,用于区分目标音频特征和源音频特征是否属于同一音频源。音频源,即音频的来源。可以理解,目标音频特征的音频源为目标音频,源音频特征的音频源为源音频。
对抗损失,用于表征目标音频特征和源音频特征之间的相似度或差异性。
可以理解,由于对抗网络是为了区分目标音频特征和源音频特征是否属于同一音频源,那么,则可以通过目标音频特征和源音频特征之间的相似度,来区分二者是否属于同一音频源,也可以通过目标音频特征和源音频特征之间的差异性,来区分二者是否属于同一音频源。因此,可以通过目标音频特征和源音频特征之间的相似度或差异性来确定对抗损失。
具体地,服务器可以将目标音频特征和源音频特征输入至当前的对抗网络,通过对抗网络确定目标音频特征和源音频特征之间的差异性或者相似度,根据该差异性或相似度,得到对抗损失。
在一个实施例中,对抗网络是一个为基于卷积神经网络的二分类系统, 分类目标为尽可能好的区分开目标音频特征和源音频特征是否来源于同一音频源。对抗网络是通过对目标音频特征和源音频特征的差异或者相似度,来进行分类,以判断二者是否为来源于同一音频源。
在一个实施例中,服务器可以通过对抗网络对目标音频特征和源音频特征求差,得到差异信息,然后根据差异信息进行分类,从而得到用于表征目标音频特征和源音频特征是否来源于同一音频源的分类结果。可以理解,当差异信息为差异数值时,那么,可以对差异数值求绝对值,并将求取的绝对值输入一个全连接层进行分类,从而得到用于表征目标音频特征和源音频特征是否来源于同一音频源的分类结果。
在另一个实施例中,服务器也可以通过对抗网络对目标音频特征和源音频特征求相似度,根据相似度信息进行分类,从而得到用于表征目标音频特征和源音频特征是否来源于同一音频源的分类结果。
步骤108,根据对抗损失对对抗网络和目标特征提取网络进行训练。
需要说明的是,对抗网络的训练目标是,尽可能准确地区分目标音频特征和源音频特征是否来源于同一音频源,那么,目标特征提取网络的训练目标要与之相反,需要尽可能生成让对抗网络无法区分是否与源音频特征属于同一音频源的目标音频特征。即,目标特征提取网络的训练目标,是生成与源音频特征尽可能接近的目标音频特征。
在一个实施例中,步骤108包括:当针对对抗网络进行训练时,根据对抗损失调整对抗网络的参数,并保持当前的目标特征提取网络的参数不变;当针对目标特征提取网络进行训练时,根据对抗损失调整目标特征提取网络的参数,并保持当前的对抗网络的参数不变。
具体地,服务器可以在交替训练对抗网络和目标特征提取网络。当针对对抗网络进行训练时,固定当前的目标特征提取网络的参数不变,根据对抗损失,以朝向区分目标音频特征和源音频特征是否来源于同一音频源的目标,调整对抗网络的参数。当针对目标特征提取网络进行训练时,服务器可以固定对抗网络的参数,根据对抗损失,以朝向生成与源音频特征接近的目标音频特征的目标,调整目标特征提取网络的参数。
在一个实施例中,当对抗损失用于表征目标音频特征和源音频特征之间的差异性时,则可以在训练对抗网络时,以朝向使对抗损失增大的方向,调整对抗网络的参数;在训练目标特征提取网络时,以朝向使对抗损失减小的方向,调整目标特征提取网络的参数,以进行域适应及对抗训练。
在另一个实施例中,当对抗损失用于表征目标音频特征和源音频特征之间的相似度时,则可以在训练对抗网络时,朝向使对抗损失减小的方向,调整对抗网络的参数;在训练目标特征提取网络时,朝向使对抗损失增大的方向,调整目标特征提取网络的参数,以进行域适应及对抗训练。
步骤110,根据迭代停止时的目标特征提取网络,确定目标情感识别模型。
可以理解,通过对抗损失,训练目标特征提取网络和用于区分目标音频特征和源音频特征是否来源于同一音频源的对抗网络,能够使得在迭代停止时的目标特征提取网络能够生成与源音频特征接近的目标音频特征,即,使得目标特征提取网络具备已通过携带情感类别标注的数据训练好的源模型的特征提取能力,因此,可以根据迭代停止时的目标特征提取网络,确定目标情感识别模型。
需要说明的是,由于源模型是使用第一领域下的带标注的源音频训练得到,而目标特征提取网络是对未携带情感类别标注的第二领域下的目标音频进行特征提取,生成目标音频的目标音频特征,相当于,基于已使用第一领域下带标注的数据训练的源模型,结合第二领域下未携带情感类别标注的目标音频,训练得到能够用于对第二领域下的目标音频进行情感识别的目标情感识别模型,实现了跨领域的无标注适应训练。
在一个实施例中,可以是在迭代次数达到预设次数阈值时停止迭代,也可以是在目标特征提取网络收敛后停止迭代。
上述情感识别模型的训练方法,在迭代训练第二领域下的目标特征提取网络时,将第一领域下已根据标注的源音频训练的源模型生成的源音频特征、以及当前的目标特征提取网络对未携带标注的目标音频提取的目标音频特征,输入至当前的用于区分目标音频特征和源音频特征所属音频源的对抗网络,得到对抗损失;根据对抗损失对对抗网络和目标特征提取网络进行训练,从而得到第二领域下的目标情感识别模型。即,不需要对第二领域下的目标音频进行情感类别标注,通过使用第一领域下根据标注数据训练的源模型进行对抗训练,即可以跨领域生成第二领域下的目标情感识别模型,从而节省了人工标注成本。
其次,直接对音频进行模型训练,相较于将音频识别为文本后再进行训练而言,避免了因上游的文本识别错误造成后续模型训练不准确,因而,提高了模型的准确性。
此外,由于与第一领域下的音频数据一起进行域适应训练,在训练成中相当于融合不同领域的音频特征,相较于使用单一领域的数据进行训练而言,提高了模型的鲁棒性和抗干扰性。
最后,对于某些特定场景, 由于数据隐私性无法用自然人直接进行标注 (如含客户信息的录音等), 通过本申请实施例的方法,对该具有隐私性的场景,无需人工播放原始音频进行标注,即可以生成目标情感识别模型,避免暴露音频内容,提供隐私保障的同时完成情感分析任务。
在一个实施例中,源模型包括源特征提取网络和情感分类器;源音频特征,是通过源特征提取网络生成得到的。目标特征提取网络与源特征提取网络的网络结构一致,且首轮迭代训练前的目标特征提取网络的参数,与源特征提取网络的参数一致。本实施例中,步骤110根据迭代停止时的目标特征提取网络,确定目标情感识别模型包括:根据情感分类器和迭代停止时的目标特征提取网络,得到目标情感识别模型。
其中,情感分类器,用于对音频进行情感分类。即,情感分类器可以基于前面所生成提取的音频特征进行最终的情感类别分析判断。
可以理解,本申请实施例中,首轮迭代前的初始的目标特征提取网络,是通过复制源模型中的源特征提取网络的网络结构和参数得到。相当于,在第一领域下的源特征提取网络的基础上,使用未携带情感类别标注的第二领域下的目标音频,来进行迭代对抗训练,域适应生成能够对第二领域下的音频进行情感特征提取的目标特征提取网络。
具体地,服务器在训练目标特征提取网络和对抗网络时,保持源模型中的情感分类器的不变,然后,根据源模型中的情感分类器和迭代停止时的目标特征提取网络,得到目标情感识别模型。即,第二领域下的通过未标注数据训练得到的目标情感识别模型,与第一领域下的通过标注数据训练得到的源模型共用情感分类器。
可以理解,在与源模型共用情感分类器的情况下,当针对对抗网络进行训练时,根据对抗损失调整对抗网络的参数,并保持当前的目标特征提取网络的参数和情感分类器的参数不变;当针对目标特征提取网络进行训练时,根据对抗损失调整目标特征提取网络的参数,并保持当前的对抗网络的参数和情感分类器的参数不变。
上述实施例中,通过复制源特征提取网络的网络结构和参数,进行训练,能够提高收敛速度,进而提高目标情感识别模型的训练效率。此外,与源模型共用情感分类器,提高了模型利用率,也避免了额外训练情感分类器造成的成本浪费。
在一个实施例中,步骤102获取通过源模型生成的源音频特征包括:获取源音频的源初级特征;将源初级特征输入至源特征提取网络进行特征提取处理,生成源音频特征。本实施例中,步骤104中的通过当前的目标特征提取网络,生成目标音频的目标音频特征包括:获取目标音频的目标初级特征;将目标初级特征输入至当前的目标特征提取网络进行特征提取处理,生成目标音频特征。
其中,源初级特征,是对源音频进行初级特征提取得到的音频特征。目标初级特征,是对目标音频进行初级特征提取得到的音频特征。
具体地,服务器可以直接获取源音频的源初级特征或者对源音频进行初级特征提取得到源初级特征,将源初级特征输入至源特征提取网络进行进阶地特征提取处理,生成源音频特征。源音频特征相较于源初级特征剔除了一些不必要的信息,属于在情感识别中更为关键的特征。服务器也可以对直接获取目标音频的目标初级特征,或者,对目标音频进行初级特征提取得到目标初级特征,并将目标初级特征输入至当前的目标特征提取网络进行进阶地特征提取处理,生成目标音频特征。同样地,目标音频特征相较于目标初级特征剔除了一些不必要的信息,属于在情感识别中更为关键的特征。
上述实施例中,通过对初级特征进行进阶提取处理,剔除了一些不必要的信息,进阶提取的特征是情感识别中更为关键的特征,从而提高了后续情感识别模型训练的准确性。
在一个实施例中,该方法还包括源音频的源初级特征的生成步骤,具体包括以下步骤:按照预设分帧长度和预设窗口滑动步长,从源音频中提取预设数量的源音频帧;对各源音频帧进行初级特征提取处理,得到源音频帧的第一初级特征;根据各源音频帧的第一初级特征和源音频帧所对应的时间,生成二维特征矩阵作为源音频的源初级特征。
其中,预设分帧长度,是预设的一帧音频帧的长度。源音频帧,是从源音频中提取的音频帧。
具体地,服务器可以确定起始选取点,从起始选取点开始,通过预设窗口滑动步长来进行逐步移动,以从源音频中提取预设数量的满足预设分帧长度的源音频帧。比如,预设分帧长度为1S,预设窗口滑动步长为0.5s,假设从源音频的第0s开始,那么0~1s为提取的一帧音频帧,滑动0.5s后,0.5s~1.5s为提取的一帧音频帧,再滑动0.5后,则1s~2s为提取的一帧音频帧,以此类推。
可以理解,服务器可以将源音频的初始点作为起始选取点,也可以从源音频中的任意位置作为起始选取点。
服务器可以对各源音频帧进行初级特征提取处理,得到源音频帧的第一初级特征。服务器可以根据各源音频帧的第一初级特征和源音频帧所对应的时间,生成二维特征矩阵作为源音频的源初级特征。可以理解,二维特征矩阵的两个维度,分别为音频特征维度和时间维度。
在一个实施例中,源音频可以为各个单句的音频文件,服务器可以根据各源音频帧的第一初级特征和源音频帧所对应的时间,对应于每个单句的源音频生成二维特征矩阵,作为源音频的源初级特征。
在一个实施例中,第一初级特征为从源音频帧中提取的梅尔频率倒谱系数(即,MFCC 特征)。二维特征矩阵则可以为梅尔频率倒谱系数MFCC矩阵(N, T), 其中,N为梅尔频率倒谱系数特征维度,T为各源音频帧所对应的时间这一维度。
上述实施例中,按照预设分帧长度和预设窗口滑动步长,从音频中提取音频帧,并根据对各音频帧提取的特征和其所对应的时间,生成时间维度和特征维度两个维度的初级特征,丰富了音频的初级特征的信息量,继而提高了后续模型训练的准确性。
在一个实施例中,在按照预设分帧长度和预设窗口滑动步长,从源音频中,提取预设数量的源音频帧之前,该方法还包括生成源音频的步骤:获取原始源音频;对原始源音频进行预处理,得到初始源音频;按照预设采样率,对初始源音频进行采样处理,得到源音频。
其中,原始源音频,是采集的未进行处理的第一领域下的音频数据。
在一个实施例中,服务器可以将原始源音频转换至标准格式及属性。在一个实施例中,服务器可以将原始源音频转换至WAV格式(一种标准数字音频文件),并按照预设采样率8kHz进行采样,并转换为单声道的音频文件。
可以理解,实际对话音频中往往有多个说话人以及无人说话的空白时间段,所以,服务器可以获取所采集的原始源音频进行静音监测、话者分离、音频切分等中至少一种预处理,得到预处理后的初始源音频。在一个实施例中,服务器在进行静音监测预处理时,可以监测出无人说话的音频时间段并进行标记, 然后剔除所标记的这些时间段的音频内容。
在一个实施例中,服务器在进行话者分离预处理时,可以分离开不同说话人各自分别对应的音频段。比如,一段音频中含有客服坐席与客户的对话, 那么,就可以将客服坐席与客户各自的音频段分离开,分别得到仅含客服坐席的音频段、以及仅含客户的音频段。
在一个实施例中,服务器在进行音频切分预处理时,可以将单一说话人的音频切分成多个音频段,每个音频段的长度小于等于预设长度,将切分后的多个音频段作为独立的音频文件进行后续处理。在一个实施例中,预设长度可以为10秒。
在一个实施例中,初始源音频,可以是以句子为单位的多个独立音频文件,即属于单句的音频文件。
进一步地,服务器可以按照预设采样率,对初始源音频进行采样处理,得到用于训练源模型的源音频。
可以理解,由于音频文件的存在形式为高密度的时间序列, 即高采样率的时序波形,所以如果不按照预设采样率进行统一采样处理,会造成数据不统一,对后续的模型训练会造成很大的资源及性能消耗。因此,服务器可以按照预设采样率,对初始源音频进行采样处理,得到数据较为统一的用于训练源模型的源音频。
在一个实施例中,预设采样率可以为8kHz,由于通常直接采集的音频的存储采样率在8kHz以上, 因此,服务器可以对高于8kHz采样率的源音频统一按照8kHz进行下采样处理。需要说明的是,在其他实施例中,预设采样率也可以是其他值,对此不作限定。
上述实施例中,按照预设采样率,对初始源音频统一进行采样处理,使得数据更为统一,避免了因数据不统一造成的后续处理的性能损耗。
在一个实施例中,该方法还包括目标音频的目标初级特征的生成步骤,具体包括以下步骤:按照预设分帧长度和预设窗口滑动步长,从目标音频中提取预设数量的目标音频帧;对各目标音频帧进行初级特征提取处理,得到目标音频帧的第二初级特征;根据各目标音频帧的第二初级特征和目标音频帧所对应的时间,生成二维特征矩阵作为目标音频的目标初级特征。
可以理解,在目标音频中提取目标音频帧时所使用预设分帧长度和预设窗口滑动步长,与在源音频中提取源音频帧时所使用预设分帧长度和预设窗口滑动步长相同。
其中,目标音频帧,是从目标音频中提取的音频帧。
具体地,服务器可以确定起始选取点,从起始选取点开始,通过预设窗口滑动步长来进行逐步移动,以从目标音频中提取预设数量的满足预设分帧长度的目标音频帧。
可以理解,服务器可以将目标音频的初始点作为起始选取点,也可以从目标音频中的任意位置作为起始选取点。
服务器可以对各目标音频帧进行初级特征提取处理,得到目标音频帧的第二初级特征。服务器可以根据各目标音频帧的第二初级特征和目标音频帧所对应的时间,生成二维特征矩阵作为目标音频的目标初级特征。
在一个实施例中,目标音频可以为各个单句的音频文件,服务器可以根据各目标音频帧的第二初级特征和目标音频帧所对应的时间,对应于每个单句的目标音频生成二维特征矩阵,作为目标音频的目标初级特征。
在一个实施例中,第二初级特征为从目标音频帧中提取的梅尔频率倒谱系数(即,MFCC 特征)。
上述实施例中,按照预设分帧长度和预设窗口滑动步长,从音频中提取音频帧,并根据对各音频帧提取的特征和其所对应的时间,生成时间维度和特征维度两个维度的初级特征,丰富了音频的初级特征的信息量,继而提高了后续模型训练的准确性。
在一个实施例中,在按照预设分帧长度和预设窗口滑动步长,从目标音频中,提取预设数量的目标音频帧之前,该方法还包括生成目标音频的步骤:获取原始目标音频;对原始目标音频进行预处理,得到初始目标音频;按照预设采样率,对初始目标音频进行采样处理,得到目标音频。
可以理解,对初始目标音频进行采样处理时所使用的预设采样率,与对初始源音频进行采样处理时所使用的预设采样率相同。
其中,原始目标音频,是采集的未进行处理的第二领域下的音频数据。
具体地,服务器可以获取所采集的原始目标音频进行话者分离、静音检测、语句切割等中至少一种预处理,得到预处理后的初始目标音频。
在一个实施例中,初始目标音频,可以是以句子为单位的多个独立音频文件,即属于单句的音频文件。
进一步地,服务器可以按照预设采样率,对初始目标音频进行采样处理,得到用于训练目标特征提取网络的目标音频。
上述实施例中,按照预设采样率,对初始目标音频统一进行采样处理,使得数据更为统一,避免了因数据不统一造成的后续处理的性能损耗。
在一个实施例中,将源初级特征输入至源特征提取网络进行特征提取处理,生成源音频特征包括:将源初级特征输入至源特征提取网络中进行卷积处理,并将由源特征提取网络中的前一卷积层进行卷积处理所提取的音频特征,输入至后一卷积层中进行卷积处理;将最后一层卷积层输出的音频特征进行平整化处理,生成一维的源音频特征向量。
本实施例中,源特征提取网络为具有预设数量个卷积层的二维卷积神经网络;源音频特征为一维的源音频特征向量。
图2为一个实施例中源特征提取网络的参数示意图。从中可知,源特征提取网络为堆叠5层的二维卷积神经网络。将源初级特征输入至源特征提取网络中的第一层卷积层Conv2D_1进行卷积处理,然后将Conv2D_1进行卷积处理所提取的音频特征输入至第一层卷积层Conv2D_2进行卷积处理,接着,将Conv2D_2进行卷积处理所提取的音频特征输入至第一层卷积层Conv2D_3,依次类推,然后将最后一层卷积层Conv2D_5进行卷积处理后输出的音频特征进行平整化 (Flatten) 处理得到一个一维的源音频特征向量,即为源音频特征。可以理解,通过多层堆叠的二维卷积神经网络进行多层次的卷积处理,提取出的源音频特征相较于源初级特征,属于高级的音频特征,是用于进行情感识别的更关键的特征。
上述实施例中,通过对初级特征进阶地进行多层卷积,能够提取更为准确的用于情感识别的特征,进而提高了后续处理的准确性。
在一个实施例中,源模型通过源模型训练步骤得到,源模型训练步骤包括:获取训练集;训练集中包括携带情感类别标注的源音频;在源模型的每轮迭代训练中,对源音频进行初级特征提取处理,并将提取的源初级特征输入至待训练的源特征提取网络中,输出源音频特征;将输出的源音频特征输入至待训练的情感分类器,输出情感类别预测结果;根据情感类别预测结果和情感类别标注之间的差异,确定损失值,并根据损失值调整源特征提取网络和情感分类器的参数;根据迭代停止时的源特征提取网络和情感分类器,得到最终的源模型。
其中,情感类别预测结果,是指情感分类器预测出的情感类别。
可以理解,对源音频进行初级特征提取处理,包括对源音频进行预处理
在一个实施例中,对源音频进行初级特征提取处理,包括:按照预设分帧长度和预设窗口滑动步长,从源音频中提取预设数量的源音频帧;对各源音频帧进行初级特征提取处理,得到源音频帧的第一初级特征;根据各源音频帧的第一初级特征和源音频帧所对应的时间,生成二维特征矩阵作为源音频的源初级特征。
现结合图3对源模型训练步骤进行示意说明。从中可知,对源音频进行初级特征,得到源初级特征,将源初级特征输入至源特征提取网络中进行进阶特征提取,输出源音频特征,然后,将源音频特征输入至情感分类器中进行情感预测,得到情感预测结果,将其与针对源音频标注的情感类别标注进行差异比对,根据二者之间的差异,确定损失值,并根据损失值调整源特征提取网络和情感分类器的参数;根据迭代停止时的源特征提取网络和情感分类器,得到最终的源模型。
在一个实施例中,情感类别预测结果,可以是情感类别概率向量,其中包括每种预设情感类别的概率。在其他实施例中,情感类别预测结果,也可以是所预测出的最终属于的情感类别标签。这里对情感类别预测结果的具体形式不做限定。
在一个实施例中,情感分类器可以包括多个一维卷积神经网络、平整化层以及全连接层。具体地,情感分类器可以对源音频特征进行多层卷积处理,通过平整化层进行平整化处理,然后,输入至全连接层进行情感分类处理,得到情感类别预测结果。
现结合表一对情感分类器的结构进行举例说明。参见表一,将源音频特征输入情感分类器后,经过三层一维卷积神经网络(Conv1D_1~ Conv1D_3)的卷积处理后,输入至Flatten层进行平整化处理后,接入全连接层,通过Softmax函数进行情感分类预测。
表一
名称 | 卷积过滤器数目 | 卷积核大小 | 卷积步长 | 激活函数 | 输入层 |
Conv1D_1 | 64 | 7 | 4 | ELU | - |
Conv1D_2 | 32 | 3 | 1 | ELU | Conv1D_1 |
Conv1D_3 | 16 | 3 | 1 | ELU | Conv1D_2 |
Flatten | - | - | - | - | Conv1D_3 |
Softmax | - | - | - | - | Flatten |
上述实施例中的方法,训练集中包括携带情感类别标注的源音频。相当于根据第一领域下的带标注的音频数据进行有监督地训练,以迭代训练源模型。在源模型的每轮迭代训练中,对源音频进行初级特征提取处理,并将提取的源初级特征输入至待训练的源特征提取网络中,输出源音频特征。即,通过进阶特征提取处理,去除不相关信息,从而得到更为准确的源音频特征。进而,将该与情感识别更为相关的源音频特征输入至待训练的情感分类器,输出情感类别预测结果;根据情感类别预测结果和情感类别标注之间的差异,确定损失值,并根据损失值调整源特征提取网络和情感分类器的参数;根据迭代停止时的源特征提取网络和情感分类器,得到最终的源模型。基于更为准确的源音频特征进行训练,能够提高训练的源模型的准确性。后续,使用该第一领域下的源模型,就能够更为准确地训练出第二领域下的目标情感识别模型。
在一个实施例中,目标情感识别模型包括目标特征提取网络和与源模型共用的情感分类器。该方法还包括:对待识别音频进行初级特征提取处理;将提取的待识别音频的初级特征,输入至目标情感识别模型中的目标特征提取网络中进行特征提取,得到待识别音频的音频特征;将待识别音频的音频特征输入至情感分类器中,得到待识别音频所对应的情感类别。
其中,待识别音频,是待进行情感识别的音频数据。在一个实施例中,待识别的音频,可以是第二领域下的待识别的音频数据。
在一个实施例中,对待识别音频进行初级特征提取处理,包括:按照预设分帧长度和预设窗口滑动步长,从待识别音频中提取预设数量的音频帧;对各音频帧进行初级特征提取处理,得到音频帧的第一初级特征;根据各音频帧的第一初级特征和音频帧所对应的时间,生成二维特征矩阵作为待识别音频的初级特征。
在一个实施例中,服务器可以对采集的初始的待识别音频进行预处理,并对预处理后的待识别音频按照预设采样率进行采样,针对采样后的待识别音频进行初级特征提取处理。
在一个实施例中,服务器将待识别音频的音频特征输入至情感分类器后,可以通过情感分类器对音频特征进行卷积处理,并对卷积处理后的特征进行情感类别预测,得到各个预设情感类别所分别对应的概率,进一步地,服务器可以通过情感分类器从中选择最高概率所对应的预设情感类别,作为待识别音频所对应的情感类别。
在一个实施例中,各个预设情感类别所分别对应的概率,可以为各个预设情感类别的概率的概率向量。
在其他实施例中,情感分类器也可以直接输出待识别音频所对应的最终的情感类别标签,以直接标示出待识别音频所对应的情感类别。
上述实施例中,将初级特征提取与目标特征提取网络的进阶特征提取结合,进行情感识别,提高了情感识别的准确性。
图4为一个实施例中情感识别模型的训练方法的流程简示图。从图4可知,分别对第一领域下携带情感分类标注的源音频、以及第二领域下的不携带情感分类标注的目标音频进行预处理,用预处理后的带标注的源音频进行有监督训练,以训练第一领域下的源模型,然后基于该源模型和预处理后的目标音频进行无监督地域适应训练,得到第二领域下的目标情感识别模型(即图4中的目标模型)。后续,则可以使用该目标情感识别模型对第二领域下的音频进行情感识别预测。
为了便于理解,现结合图5对情感识别模型的训练方法的原理进行示意说明。参照图5,源模型包括源特征提取网络和情感分类器。源模型是预先根据在第一领域下的携带情感类别标注的源音频预先训练好的第一领域下的情感识别模型。在训练第二领域下的目标情感识别模型时,服务器可以对源音频进行初级特征提取处理,并将提取的源初级特征输入至训练好的源特征提取网络,生成源音频特征。此外,服务器可以对第二领域下的未携带情感类别标注的目标音频进行同样地初级特征提取处理,将提取的目标初级特征输入至待训练的目标特征提取网络,生成目标音频特征。然后,服务器可以将源音频特征和目标音频特征一并输入至对抗网络中,得到对抗损失,根据对抗损失调整对抗网络和目标特征提取网络各自的参数,如此进行多次迭代训练,直至目标特征提取网络收敛后停止迭代。然后,根据迭代停止后得到的目标特征提取网络和源模型中的情感分类器构成第二领域下的目标情感识别模型。即,目标情感识别模型,用于识别第二领域下的音频文件所对应的情感类别。后续使用该目标情感识别模型时,则可以将第二领域下的待识别音频进行初级特征提取处理后输入至训练好的目标特征提取网络,并将经目标特征提取网络提取的目标音频特征输入至情感分类器中进行情感识别。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本申请各实施例中的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种情感识别模型的训练装置,包括:特征获取模块602、训练模块604以及模型确定模块606,其中:
特征获取模块602,用于获取通过源模型生成的源音频的源音频特征;所述源模型,是根据携带情感类别标注的第一领域下的所述源音频,训练得到的情感识别模型。
训练模块604,用于在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;所述目标音频是未携带情感类别标注的第二领域下的音频;将所述目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;所述对抗网络,用于区分所述目标音频特征和所述源音频特征所属的音频源;根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练。
模型确定模块606,用于根据迭代停止时的目标特征提取网络,确定目标情感识别模型。
在一个实施例中,所述源模型包括源特征提取网络和情感分类器;所述源音频特征,是通过所述源特征提取网络生成得到的;所述目标特征提取网络与所述源特征提取网络的网络结构一致,且首轮迭代训练前的目标特征提取网络的参数,与所述源特征提取网络的参数一致。本实施例中,模型确定模块606还用于根据所述情感分类器和迭代停止时的目标特征提取网络,得到目标情感识别模型。
在一个实施例中,特征获取模块602还用于获取源音频的源初级特征;将所述源初级特征输入至所述源特征提取网络进行特征提取处理,生成源音频特征;获取目标音频的目标初级特征;将所述目标初级特征输入至当前的目标特征提取网络进行特征提取处理,生成目标音频特征。
在一个实施例中,特征获取模块602还用于按照预设分帧长度和预设窗口滑动步长,从所述源音频或所述目标音频中,提取预设数量的源音频帧或目标音频帧;对各所述源音频帧或目标音频帧进行初级特征提取处理,得到所述源音频帧的第一初级特征或所述目标音频帧的第二初级特征;根据各所述源音频帧的所述第一初级特征和所述源音频帧所对应的时间,生成二维特征矩阵作为所述源音频的源初级特征;或,根据各所述目标音频帧的所述第二初级特征和所述目标音频帧所对应的时间,生成二维特征矩阵作为所述目标音频的目标初级特征。
在一个实施例中,该装置还包括:
音频处理模块601,用于获取原始目标音频或原始源音频;对所述原始目标音频或所述原始源音频进行预处理,得到初始目标音频或初始源音频;按照预设采样率,对所述初始目标音频或初始源音频进行采样处理,得到目标音频或源音频。
在一个实施例中,所述源特征提取网络为具有预设数量个卷积层的二维卷积神经网络;所述源音频特征为一维的源音频特征向量;特征获取模块602还用于将所述源初级特征输入至所述源特征提取网络中进行卷积处理,并将由所述源特征提取网络中的前一卷积层进行卷积处理所提取的音频特征,输入至后一卷积层中进行卷积处理;将最后一层卷积层输出的音频特征进行平整化处理,生成一维的源音频特征向量。
在一个实施例中,训练模块604还用于当针对对抗网络进行训练时,根据所述对抗损失调整所述对抗网络的参数,并保持所述当前的目标特征提取网络的参数不变;当针对目标特征提取网络进行训练时,根据所述对抗损失调整所述目标特征提取网络的参数,并保持所述当前的对抗网络的参数不变。
在一个实施例中,训练模块604还用于获取训练集;所述训练集中包括携带情感类别标注的所述源音频;在源模型的每轮迭代训练中,对所述源音频进行初级特征提取处理,并将提取的源初级特征输入至待训练的源特征提取网络中,输出源音频特征;将输出的源音频特征输入至待训练的情感分类器,输出情感类别预测结果;根据所述情感类别预测结果和所述情感类别标注之间的差异,确定损失值,并根据所述损失值调整所述源特征提取网络和所述情感分类器的参数;根据迭代停止时的源特征提取网络和所述情感分类器,得到最终的源模型。
在一个实施例中,所述目标情感识别模型包括所述目标特征提取网络和与所述源模型共用的情感分类器。特征获取模块602还用于对待识别音频进行初级特征提取处理;将提取的所述待识别音频的初级特征,输入至所述目标情感识别模型中的目标特征提取网络中进行特征提取,得到所述待识别音频的音频特征。
如图7所示,本实施例中,该装置还包括:音频处理模块601以及情感分类模块608;其中:
情感分类模块608,用于将所述待识别音频的音频特征输入至所述情感分类器中,得到所述待识别音频所对应的情感类别。
关于情感识别模型的训练装置的具体限定可以参见上文中对于情感识别模型的训练方法的限定,在此不再赘述。上述情感识别模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器或终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储情感识别模型的训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种情感识别模型的训练方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各情感识别模型的训练方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各情感识别模型的训练方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种情感识别模型的训练方法,其特征在于,所述方法包括:
获取通过源模型生成的源音频的源音频特征;所述源模型,是根据携带情感类别标注的第一领域下的所述源音频,训练得到的情感识别模型;
在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;所述目标音频是未携带情感类别标注的第二领域下的音频;
将所述目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;所述对抗网络,用于区分所述目标音频特征和所述源音频特征所属的音频源;
根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练;
根据迭代停止时的目标特征提取网络,确定目标情感识别模型。
2.根据权利要求1所述的方法,其特征在于,所述源模型包括源特征提取网络和情感分类器;所述源音频特征,是通过所述源特征提取网络生成得到的;
所述目标特征提取网络与所述源特征提取网络的网络结构一致,且首轮迭代训练前的目标特征提取网络的参数,与所述源特征提取网络的参数一致;
所述根据迭代停止时的目标特征提取网络,确定目标情感识别模型包括:
根据所述情感分类器和迭代停止时的目标特征提取网络,得到目标情感识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获取通过源模型生成的源音频特征包括:
获取源音频的源初级特征;
将所述源初级特征输入至所述源特征提取网络进行特征提取处理,生成源音频特征;
所述通过当前的目标特征提取网络,生成目标音频的目标音频特征包括:
获取目标音频的目标初级特征;
将所述目标初级特征输入至当前的目标特征提取网络进行特征提取处理,生成目标音频特征。
4.根据权利要求3所述的方法,其特征在于, 所述方法还包括:
按照预设分帧长度和预设窗口滑动步长,从所述源音频或所述目标音频中,提取预设数量的源音频帧或目标音频帧;
对各所述源音频帧或目标音频帧进行初级特征提取处理,得到所述源音频帧的第一初级特征或所述目标音频帧的第二初级特征;
根据各所述源音频帧的所述第一初级特征和所述源音频帧所对应的时间,生成二维特征矩阵作为所述源音频的源初级特征;或,根据各所述目标音频帧的所述第二初级特征和所述目标音频帧所对应的时间,生成二维特征矩阵作为所述目标音频的目标初级特征。
5.根据权利要求4所述的方法,其特征在于,在所述按照预设分帧长度和预设窗口滑动步长,从所述源音频或所述目标音频中,提取预设数量的源音频帧或目标音频帧之前,所述方法还包括:
获取原始目标音频或原始源音频;
对所述原始目标音频或所述原始源音频进行预处理,得到初始目标音频或初始源音频;
按照预设采样率,对所述初始目标音频或初始源音频进行采样处理,得到目标音频或源音频。
6.根据权利要求3所述的方法,其特征在于,所述源特征提取网络为具有预设数量个卷积层的二维卷积神经网络;所述源音频特征为一维的源音频特征向量;
所述将所述源初级特征输入至所述源特征提取网络进行特征提取处理,生成源音频特征包括:
将所述源初级特征输入至所述源特征提取网络中进行卷积处理,并将由所述源特征提取网络中的前一卷积层进行卷积处理所提取的音频特征,输入至后一卷积层中进行卷积处理;
将最后一层卷积层输出的音频特征进行平整化处理,生成一维的源音频特征向量。
7.根据权利要求2所述的方法,其特征在于,所述根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练,包括:
当针对对抗网络进行训练时,根据所述对抗损失调整所述对抗网络的参数,并保持所述当前的目标特征提取网络的参数不变;
当针对目标特征提取网络进行训练时,根据所述对抗损失调整所述目标特征提取网络的参数,并保持所述当前的对抗网络的参数不变。
8.根据权利要求1所述的方法,其特征在于,所述源模型通过源模型训练步骤得到,所述源模型训练步骤包括:
获取训练集;所述训练集中包括携带情感类别标注的所述源音频;
在源模型的每轮迭代训练中,对所述源音频进行初级特征提取处理,并将提取的源初级特征输入至待训练的源特征提取网络中,输出源音频特征;
将输出的源音频特征输入至待训练的情感分类器,输出情感类别预测结果;
根据所述情感类别预测结果和所述情感类别标注之间的差异,确定损失值,并根据所述损失值调整所述源特征提取网络和所述情感分类器的参数;
根据迭代停止时的源特征提取网络和所述情感分类器,得到最终的源模型。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述目标情感识别模型包括所述目标特征提取网络和与所述源模型共用的情感分类器;
所述方法还包括:
对待识别音频进行初级特征提取处理;
将提取的所述待识别音频的初级特征,输入至所述目标情感识别模型中的目标特征提取网络中进行特征提取,得到所述待识别音频的音频特征;
将所述待识别音频的音频特征输入至所述情感分类器中,得到所述待识别音频所对应的情感类别。
10.一种情感识别模型的训练装置,其特征在于,所述装置包括:
特征获取模块,用于获取通过源模型生成的源音频的源音频特征;所述源模型,是预先根据携带情感类别标注的第一领域下的所述源音频,训练得到的情感识别模型;
训练模块,用于在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;所述目标音频是未携带情感类别标注的第二领域下的音频;将所述目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;所述对抗网络,用于区分所述目标音频特征和所述源音频特征所属的音频源;根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练;
模型确定模块,用于根据迭代停止时的目标特征提取网络,确定目标情感识别模型。
11.根据权利要求10所述的装置,其特征在于,所述源模型包括源特征提取网络和情感分类器;所述源音频特征,是通过所述源特征提取网络生成得到的;所述目标特征提取网络与所述源特征提取网络的网络结构一致,且首轮迭代训练前的目标特征提取网络的参数,与所述源特征提取网络的参数一致;
所述模型确定模块还用于根据所述情感分类器和迭代停止时的目标特征提取网络,得到目标情感识别模型。
12.根据权利要求11所述的装置,其特征在于,所述特征获取模块还用于获取源音频的源初级特征;将所述源初级特征输入至所述源特征提取网络进行特征提取处理,生成源音频特征;获取目标音频的目标初级特征;将所述目标初级特征输入至当前的目标特征提取网络进行特征提取处理,生成目标音频特征。
13.根据权利要求12所述的装置,其特征在于, 所述特征获取模块还用于按照预设分帧长度和预设窗口滑动步长,从所述源音频或所述目标音频中,提取预设数量的源音频帧或目标音频帧;对各所述源音频帧或目标音频帧进行初级特征提取处理,得到所述源音频帧的第一初级特征或所述目标音频帧的第二初级特征;根据各所述源音频帧的所述第一初级特征和所述源音频帧所对应的时间,生成二维特征矩阵作为所述源音频的源初级特征;或,根据各所述目标音频帧的所述第二初级特征和所述目标音频帧所对应的时间,生成二维特征矩阵作为所述目标音频的目标初级特征。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992862.2A CN111933187B (zh) | 2020-09-21 | 2020-09-21 | 情感识别模型的训练方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992862.2A CN111933187B (zh) | 2020-09-21 | 2020-09-21 | 情感识别模型的训练方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111933187A true CN111933187A (zh) | 2020-11-13 |
CN111933187B CN111933187B (zh) | 2021-02-05 |
Family
ID=73334879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010992862.2A Active CN111933187B (zh) | 2020-09-21 | 2020-09-21 | 情感识别模型的训练方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111933187B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267346A (zh) * | 2021-12-24 | 2022-04-01 | 北京声智科技有限公司 | 分类器训练方法、语音识别方法、装置、设备和存储介质 |
CN114333898A (zh) * | 2021-12-10 | 2022-04-12 | 科大讯飞股份有限公司 | 一种声音事件检测方法、设备、系统和可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806708A (zh) * | 2018-06-13 | 2018-11-13 | 中国电子科技集团公司第三研究所 | 基于计算听觉场景分析和生成对抗网络模型的语音降噪方法 |
CN110364186A (zh) * | 2019-08-08 | 2019-10-22 | 清华大学深圳研究生院 | 一种基于对抗学习的端到端的跨语言语音情感识别方法 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
US20200005784A1 (en) * | 2018-06-15 | 2020-01-02 | Samsung Electronics Co., Ltd. | Electronic device and operating method thereof for outputting response to user input, by using application |
CN110992988A (zh) * | 2019-12-24 | 2020-04-10 | 东南大学 | 一种基于领域对抗的语音情感识别方法及装置 |
CN111243569A (zh) * | 2020-02-24 | 2020-06-05 | 浙江工业大学 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
CN111354367A (zh) * | 2018-12-24 | 2020-06-30 | 中国移动通信有限公司研究院 | 一种语音处理方法、装置及计算机存储介质 |
KR20200084443A (ko) * | 2018-12-26 | 2020-07-13 | 충남대학교산학협력단 | 음성 변조 시스템 및 방법 |
-
2020
- 2020-09-21 CN CN202010992862.2A patent/CN111933187B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806708A (zh) * | 2018-06-13 | 2018-11-13 | 中国电子科技集团公司第三研究所 | 基于计算听觉场景分析和生成对抗网络模型的语音降噪方法 |
US20200005784A1 (en) * | 2018-06-15 | 2020-01-02 | Samsung Electronics Co., Ltd. | Electronic device and operating method thereof for outputting response to user input, by using application |
CN111354367A (zh) * | 2018-12-24 | 2020-06-30 | 中国移动通信有限公司研究院 | 一种语音处理方法、装置及计算机存储介质 |
KR20200084443A (ko) * | 2018-12-26 | 2020-07-13 | 충남대학교산학협력단 | 음성 변조 시스템 및 방법 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
CN110364186A (zh) * | 2019-08-08 | 2019-10-22 | 清华大学深圳研究生院 | 一种基于对抗学习的端到端的跨语言语音情感识别方法 |
CN110992988A (zh) * | 2019-12-24 | 2020-04-10 | 东南大学 | 一种基于领域对抗的语音情感识别方法及装置 |
CN111243569A (zh) * | 2020-02-24 | 2020-06-05 | 浙江工业大学 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333898A (zh) * | 2021-12-10 | 2022-04-12 | 科大讯飞股份有限公司 | 一种声音事件检测方法、设备、系统和可读存储介质 |
CN114267346A (zh) * | 2021-12-24 | 2022-04-01 | 北京声智科技有限公司 | 分类器训练方法、语音识别方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111933187B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
CN110276259B (zh) | 唇语识别方法、装置、计算机设备及存储介质 | |
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
US9881617B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
WO2020244153A1 (zh) | 会议语音数据处理方法、装置、计算机设备和存储介质 | |
US8543402B1 (en) | Speaker segmentation in noisy conversational speech | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN113192516B (zh) | 语音角色分割方法、装置、计算机设备及存储介质 | |
CN113066499B (zh) | 一种陆空通话说话人身份识别方法及装置 | |
US20230089308A1 (en) | Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering | |
CN111933187B (zh) | 情感识别模型的训练方法、装置、计算机设备和存储介质 | |
US20240160849A1 (en) | Speaker diarization supporting episodical content | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
Bellagha et al. | Speaker naming in tv programs based on speaker role recognition | |
CN111832248A (zh) | 文本规整方法、装置、电子设备和存储介质 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN110807370A (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
US11398239B1 (en) | ASR-enhanced speech compression | |
CN114283429A (zh) | 素材工单数据处理方法、装置、设备及存储介质 | |
CN115022733B (zh) | 摘要视频生成方法、装置、计算机设备及存储介质 | |
Aafaq et al. | Multi-Speaker Diarization using Long-Short Term Memory Network | |
Yılmaz et al. | Large-scale speaker diarization of radio broadcast archives | |
Kaka et al. | A Hybrid DMFCC-LPC Based Feature Extraction with DCNN Clustering for Speaker Diarization. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |