CN106228977A - 基于深度学习的多模态融合的歌曲情感识别方法 - Google Patents

基于深度学习的多模态融合的歌曲情感识别方法 Download PDF

Info

Publication number
CN106228977A
CN106228977A CN201610625990.7A CN201610625990A CN106228977A CN 106228977 A CN106228977 A CN 106228977A CN 201610625990 A CN201610625990 A CN 201610625990A CN 106228977 A CN106228977 A CN 106228977A
Authority
CN
China
Prior art keywords
song
feature
represent
voice messaging
utilize
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610625990.7A
Other languages
English (en)
Other versions
CN106228977B (zh
Inventor
孙晓
陈炜亮
任福继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Class Cognition Artificial Intelligence Co ltd
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201610625990.7A priority Critical patent/CN106228977B/zh
Publication of CN106228977A publication Critical patent/CN106228977A/zh
Application granted granted Critical
Publication of CN106228977B publication Critical patent/CN106228977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

本发明公开了一种基于深度学习的多模态耦合的歌曲情感识别方法,其特征是按如下步骤进行:1获取歌曲歌词文本数据和音频语音数据;2对歌词文本内容进行文本特征提取,获得歌词文本信息特征;3提取歌曲语音数据的第一语音特征和第二语音特征并进行第一次融合,获得歌曲语音信息特征;4对歌词文本信息特征和歌曲语音信息特征进行第二次融合,获得歌曲的综合信息特征;5利用深度分类器对综合信息特征进行训练,获得歌曲情感识别模型,以歌曲情感识别模型实现对歌曲的多模态融合的情感识别。本发明能全面结合歌曲的歌词文本信息和歌曲音频信息两个方面的数据信息,从而提高人机交互中的对歌曲情感状态判断的准确度。

Description

基于深度学习的多模态融合的歌曲情感识别方法
技术领域
本发明属于自然语言处理技术与情感计算领域,具体地说是一种基于深度学习的多模态融合的歌曲情感类别的识别方法。
背景技术
情感计算指的是让机器能够有识别理解人类情感的能力。人类表达情感中使用的文本,语音等信息形式中都蕴含着能够代表情感的特征值。歌曲是人类表达情感的一种重要方式,通过提取这些特征值,使用机器学习方法,让机器去自己学习特征值中蕴含的情感信息,使机器能够判断人类歌曲的情感类型,对人类歌曲进行自主的情感识别。
当前存在的识别方法主要有:单独对歌词文本识别的方法,大多使用了TF-IDF等模型对文本进行情感识别,大多需要对文本进行预处理,同时在多语种和多分类识别中正确率较低,仅仅单独考虑的歌曲的文本信息,忽略歌曲旋律对歌曲类别的影响;单独对歌曲语音识别的方法,多只使用韵律学特征或基于频谱的整体特征,韵律学特征中蕴含强烈情感的特征值较难提取并且受到噪音影响较大,而基于频谱的特征在一些单独反映强烈情感部分的表现较差,并且单纯旋律很难考虑到歌曲的情感类别,对歌曲情感类型识别具有很大局限性;在结合多模态识别领域,针对歌曲情感类别的识别方法较少,大多都是针对歌曲风格识别,在针对歌曲情感类的识别方法中,使用深度方法多模态识别歌曲情感的方法更少;在特征模型的训练方面,使用一般机器学习的方法,面对大维度大数量级的数据,训练和预测存在着困难。
发明内容
本发明是为了克服现有技术存在的不足之处,提出一种基于深度学习的多模态融合的歌曲情感识别方法,以前能全面结合歌曲的歌词文本、音频旋律两个方面的数据信息,通过二次融合的方法获得多模态歌曲语音模型,从而提高人机交互中的针对歌曲情感类别判断的准确度。
本发明为解决技术问题采取如下技术方案:
本发明一种基于深度学习的多模态融合的歌曲情感识别方法的特点是如下步骤进行:
步骤1:收集歌曲的歌词文本数据库和歌曲的音频数据库;
步骤2:利用N-gram算法对所述歌词文本数据库中的歌词文本进行特征提取,获得歌词文本信息特征;
步骤3:利用梅尔频率倒谱系数对所述音频数据库中的音频数据进行语音特征提取,获得歌曲的第一语音信息特征;
步骤4:提取所述音频数据的韵律学特征,所述韵律学特征包括:语速、振幅特征、基音周期和共振峰,从而获得歌曲的第二语音信息特征;
步骤5:利用深度学习方法对所述第一语音信息特征,第二语音信息特征和歌词文本特征进行数据降维,获得降维后的第一语音信息特征、第二语音特征和歌词文本信息特征;
步骤6:将所述降维后的第一语音信息特征和第二语音信息特征进行第一次融合,获得歌曲语音信息特征;
步骤7:将所述歌曲语音特征与降维后的歌词文本特征进行第二次融合,获得歌曲综合信息特征;
步骤8:利用分类器对所述歌曲综合信息特征进行训练,获得歌曲多模态情感分类识别模型;
步骤9、利用所述歌曲多模态情感类别识别模型对待识别的歌曲进行情感分类识别,从而获得待识别的歌曲的情感类别。
本发明所述的基于深度学习的多模态融合的歌曲情感识别方法的特点也在于,
所述步骤6中的第一次融合是利用式(1)所示的混合特征模型进行计算,从而获得歌曲语音信息特征Vv
V v = 1 2 | | W 1 T h 1 - V v 1 | | 2 2 + 1 2 | | W 1 T h 1 - V v 2 | | 2 2 - δ 1 2 | | W 1 | | F 2 - - - ( 1 )
式(1)中,h1表示所述混合特征模型中隐藏层的输出,W1表示所述混合特征模型中输入层到隐藏层的权重;表示第一语音信息特征,表示第二语音信息特征;δ1表示比重控制参数;F表示Frobenius范数;表示欧几里德范数的平方;表示Frobenius范式。
所述步骤7是的第二次融合是利用式(2)所示的混合特征模型进行计算,从而获得歌曲综合信息特征V:
V = 1 2 | | W 2 T h 2 - V v | | 2 2 + 1 2 | | W 2 T h 2 - V T | | 2 2 - δ 2 2 | | W 2 | | F 2 - - - ( 2 )
式(2)中,h2代表隐藏层的输出,W2代表输入层到隐藏层权重;VT表示歌词文本特征,δ2表示另一个比重控制参数。
与现有技术相比,本发明的有益效果体现在:
1、本发明使用二次融合的方法:歌曲第一语音特征与第二语音特征融合作为歌曲的综合语音信息特征(即第一次融合),再将歌曲的综合语音特征和歌词文本特征融合(即第二次融合),获得歌曲的综合特征。用深度融合的方法能够在多维角度上对歌曲音频的不同语音特征进行深度的融合。比起单纯的特征层级的融合,这种分类器级别的融合方法能够进一步区分不同歌曲语音特征间情感信息的细微区别以及能够抛去两种不同特征单纯的形式差别,体现出单独两个语音特征不能体现的情感信息,获得的歌曲的综合语音特征具有更好的情感区分性。使用深度融合的方法能够解决歌曲综合语音特征与歌词文本特征融合中的数量级和维度问题,解决了两种不同特征在形式上具有不同的问题,同时能够从更深层角度比较两种不同形式特征的情感差异,获得两种不同特征的情感相似信息,获得的综合特征综合了歌曲音频和歌词文本两方面的情感性息,并且对不同的情感性息进行比较归纳,总结了两种特征的相似点。歌曲综合情感信息能够更好的体现出歌曲本身情感的情感倾向。歌词和音频两者结合能够很好考虑到实际生活中歌曲的情感表达方式,从而能够全面反映出人类歌曲中表现出的情感趋势,能够让机器学习到更好的情感经验。
2、本发明使用深度学习的方法对情感特征值进行优化和分类。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。比起一般的机器学习方法,不仅能够对情感特征值进行很好的优化降维处理,同时能够获得情感特征更高的情感特征值。
附图说明
图1为本发明第一次融合,即歌曲音频融合特征模型图;
图2为本发明第二次融合,即歌曲融合特征模型图;
图3为本发明使用深度卷积神经网络(CNNs)模型图。
具体实施方式
本实施例中,一种基于深度学习的多模态融合歌曲情感类别识别方法,包括如下步骤:
步骤1、收集歌曲的歌词文本数据库和歌曲音频数据库,每首歌曲的歌词文本与歌曲音频用编号相对应;对收集到的歌曲进行情感分类;具体的分为思念(miss),发泄(abreact),快乐(happy)和伤心(sad)这四类情感,并分别用1、2、3、4、表示。每个视频的综合情感特征可以用一个四元组Y表示。
Y = ( E , V T , V V 1 , V V 2 ) - - - ( 1 )
式(1)中,E代表本歌曲的情感分类,VT表示歌曲的歌词文本信息特征(TextFeature),表示歌曲的第一语音信息特征(Voice Feature 1),表示歌曲的第二语音信息特征(Voice Feature 2)。
步骤2、利用N-gram算法对歌曲歌词文本数据库中内容进行文本特征提取,获得第一信息特征,即歌词文本信息特征;利用特定长度的N-gram算法取多种长度的特征词并记录其共现频度,将共现频度按位存入第一类信息特征向量中。
本实施例中,常用表达词语的都为在四字以及四字以下的词汇,因此取两字词、三字词和四字词,具体的步骤如下:
步骤2.1、选取两个字作为词w的长度l,即单个字的个数l=2,记为两字词w2
步骤2.2、利用式(2)获得在文本内容中任意一个两字词的共现概率p(w2),从而获得所有两字词的共现概率:
P ( w 2 ) = P ( C 1 2 C 2 2 ) = P ( C 1 2 ) P ( C 2 2 | C 1 2 ) - - - ( 2 )
式(2)中,表示两字词w2中的第1个字;表示两字词w2中的第2个字;并有:
P ( C l l | C 1 l C 2 l ... C l - 1 l ) = W ( C 1 l C 2 l ... C l - 1 l C l l ) W ( C 1 l C 2 l ... C l - 1 l ) - - - ( 3 )
式(3)中,表征为在单个字都出现的情况下,出现的概率。表示为词出现次数。
步骤2.3、按照每个两字词在文本内容中的顺序,将所有两字词的共现概率依次排序并存入信息特征向量VT1中;
步骤2.4、选取三个字作为词w的长度l,即l=3,记为三字词w3
步骤2.5、利用式(4)获得在文本内容中任意一个三字词的共现概率p(w3),从而获得所有三字词的共现概率:
P ( w 3 ) = P ( C 1 3 C 2 3 C 3 3 ) = P ( C 1 3 ) P ( C 2 3 | C 1 3 ) P ( C 3 3 | C 1 3 C 2 3 ) - - - ( 4 )
式(3)中表示三字词w3中的第1个字;表示三字词w3中的第2个字;表示三字词w3中的第3个字;
步骤2.6、按照每个三字词在文本内容中的顺序,将所有三字词的共现概率依次排序并存入信息特征向量VT2中;
步骤2.7、选取四个字作为词w的长度l,即l=4,记为四字词w4
步骤2.8、利用式(5)获得在文本内容中任意一个四字词的共现概率p(w4),从而获得所有四字词的共现概率:
P ( w 4 ) = P ( C 1 4 C 2 4 C 3 4 C 4 4 ) = P ( C 1 4 ) P ( C 2 4 | C 1 4 ) P ( C 3 4 | C 1 4 C 2 4 ) P ( C 4 4 | C 1 4 C 2 4 C 3 4 ) - - - ( 5 )
式(4)中,表示四字词w4中的第1个字;表示四字词w4中的第2个字;表示四字词w4中的第3个字;表示四字词w4中的第4个字;
步骤2.9、按照每个四字词在文本内容中的顺序,将所有四字词的共现概率依次排序并存入信息特征向量VT3中;
步骤2.10、利用式(6)获得歌曲的歌词信息特征VT
VT=VT1+VT2+VT3 (6)
步骤3、利用改进的梅尔频率倒谱系数对歌曲音频数据进行语音特征提取,获得歌曲第一语音信息特征;
本实施例中,使用改进的梅尔倒谱系数(MFCC)作为歌曲的第一语音特征。梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,与频率f的关系可以表示式(7):
M e l ( f ) = 3595 × lg ( 1 + f 700 ) - - - ( 7 )
步骤3.1、利用式(8)所示的一阶激励响应高通滤波器对所述歌曲语音数据进行预处理,可以平缓语音信号中过于起伏的部分,获得平滑的语音信号:
H(S)=1-μS-1 (8)
本实施例中,μ=0.97;
步骤3.2、对平滑的语音数据取N个采样点为一帧进行分帧处理,获得分帧后的语音信号S(n);分帧处理的参数选择与语音信号的采样频率有关,本文取采样频率为8000Hz,一般人类语音信号在10-20ms为稳定的,故取10-20ms为一帧,设置帧长N为256,即隔256个采样点取一帧。分帧后信号为S(n)。为了避免窗边界对信号的遗漏,一般取帧长的一半作为帧移,即每次位移一帧的二分之一长度后再取下一帧,这样可以避免帧与帧之间的特性变化太大。
步骤3.3、对分帧后的语音信号利用式(9)和式(10)进行加窗处理,通过式(9)的海明窗进行加窗之后,能够减少语音信号吉布斯效应的影响,从而获得加窗后的语音信号S'(n):
S'(n)=S(n)+W(n) (9)
W ( n ) = ( 1 - a ) - a × c o s ( 2 π n N - 1 ) , 0 ≤ n ≤ N - 1 - - - ( 10 )
式(10)中,a为调整系数,a∈(0,1);本实施例中,a的取值为0.46;
步骤3.4、利用式(11)对加窗后的语音信号S'(n)进行快速傅里叶变换,获得倒谱的语音信号Xa(K):
X a ( K ) = Σ n = 0 N - 1 W ( n ) e - j 2 π k / N , 0 ≤ k ≤ N - - - ( 11 )
步骤3.5、利用梅尔滤波器组对倒谱的语音信号Xa(K)进行滤波,获得加卷的语音信号;
Mel滤波器组实质上是满足式(12)的一组三角滤波器:
Mel[f(m)]-Mel[f(m-1)]=Mel[f(m+1)]-Mel[f(m-1)] (12)
式(12)中,f(m)为三角滤波器的中心频率,各f(m)之间的间隔随着m值减小而缩小,随着m值的增大而增宽。定义一个具有24个滤波器的滤波器组,因为每一个三角滤波器的覆盖范围都近似于人耳的一个临界带宽,因此可以来模拟人耳的掩蔽效应。24个滤波器形成满足式(13)的滤波器组,通过这个Mel滤波器组可以得到经过滤波后的Mel频率信号:
H m ( k ) = 0 , k < f ( m - 1 ) 2 &lsqb; k - f ( m - 1 ) &rsqb; &lsqb; f ( m + 1 ) - f ( m - 1 ) &rsqb; &lsqb; f ( m ) - f ( m - 1 ) &rsqb; , f ( m - 1 ) &le; k &le; f ( m ) 2 &lsqb; f ( m + 1 ) - k &rsqb; &lsqb; f ( m + 1 ) - f ( m - 1 ) &rsqb; &lsqb; f ( m + 1 ) - f ( m ) &rsqb; , f ( m ) &le; k &le; f ( m + 1 ) 0 f ( m + 1 ) &le; k - - - ( 13 )
步骤3.6、利用离散余弦变换对加卷的语音信号进行解卷,获得静态的梅尔频率倒谱参数SMFCC;将步骤3.6中得到的信号H(k)通过式(14)进行离散余弦变换(DFT),得到需要的静态mfcc参数SMFCC:
S M F C C ( n ) = &Sigma; m = 0 N - 1 l o g ( m ) c o s ( &pi; n ( m - 0.5 ) M ) , n = 1 , 2 , ... , L - - - ( 14 )
L为mfcc的系数阶数,本实施例中L取值为12。
步骤3.7、利用式(15)对静态的梅尔频率倒谱参数进行动态差分,获得一阶差分的梅尔频率倒谱参数;
式(15)中,dt表示第t个一阶差分,St表示第t个倒谱系数,p表示倒谱系数的阶数,k表示一阶导数的时间差,k取值为1。
步骤3.8、对一阶差分的梅尔频率倒谱参数进行动态差分计算,获得二阶差分的梅尔频率倒谱参数d2MFCC,即将步骤3.9中得到的一阶差分参数带入式(15)得到二阶差分参数。
步骤3.9、利用式(16)对静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合获得的MFCC既是歌曲的第一语音信息特征。
M F C C = N 3 d 1 m f c c + N 3 d 2 M F C C + N 3 S M F C C - - - ( 16 )
步骤4、提取所述歌曲音频数据的韵律学特征,所述韵律学特征包括语速、振幅特征、基音周期和共振峰,获得歌曲的第二语音信息特征;;
步骤4.1、对歌曲的音频数据文件计算音频的持续时间t,同再根据语音本地语音词典库中文本内容的分词结果计算字数Z,利用式(17)得到音频的语速s:
s=Z÷t (17)
步骤4.2、对歌曲的音频数据文件,通过式(18)所示的短时平均幅度函数来衡量音频的振幅,提取当能量超过阀值的振幅值的平均值作为每一个音频的振幅特征An,式(18)中x(n)为输入音频段。
A n = &Sigma; m = - &infin; + &infin; | x ( n ) | W ( n - m ) - - - ( 18 )
式(18)中,W(n)为加窗运算,可以使用矩形窗,也可使用汉明窗。
步骤4.3、使用短时自相关法对歌曲的音频数据文件进行基因周期的估值,提取音频文件的基音周期P。
步骤4.3.1、对歌曲的音频数据文件通过式(9)消波函数进行中心消波处理,突出音频文件中关于基音周期的信息,得到消波后的音频信号f(x):
f ( x ) = x - x &alpha; , x > x &alpha; 0 , - x &alpha; &le; x &le; x &alpha; x + x &alpha; , x < x &alpha; - - - ( 19 )
式(19)中,xα为削波电平,xα取每帧语音最大幅度的60%。
步骤4.3.2、利用中值平滑处理方法对消波后的音频信号f(x)进行平滑中值处理,把音频信号f(x)通过中值滤波器,采用一个滑动窗口,将窗口中心移动到样点,在样点左右各取M个样点,将这些样点从大到小列,得到中值x,即中值平滑处理后的样点。在实施例中,M取值为5。
步骤4.3.3、计算步骤4.3.2得到的信号x(n)相邻中值峰值之间的距离,即得到音频的基音周期P。
步骤4.4、使用基于LPC的方法求出对歌曲的音频数据文件的共振峰R。
步骤4.4.1、利用在LPC模型,对歌曲的音频数据文件用式(20)的函数形式来表示:
z ( n ) = &Sigma; &beta; = 1 &gamma; a &beta; ( n - &beta; ) + G &times; u ( n ) - - - ( 20 )
式(20)中,u(n)为激励函数,G为增益参数,β为LPC参数;γ表示极点个数。
步骤4.4.2:由式(20)得到相应的数字滤波器传递函数g(n):
g ( n ) = z ( n ) G &times; u ( n ) = 1 &Pi; ( 1 - a &beta; n - &beta; ) - - - ( 21 )
同时式(21)也可以表示为式(12)所示的γ个极点的级联形式:
g ( n ) = 1 &Pi; ( 1 - n &beta; &times; n - &beta; ) - - - ( 22 )
式(22)中,nβ是g(n)在n-平面上的第β个极点,g(n)的所有极点都在z平面的单位圆内。则第β个共振峰的频率和带宽分别为θβ/2πT和ln(rβ)/πT。
步骤4.4.2、对步骤3.4.1得到的信号g(n)进行求根,判断得到共振峰R。
步骤4.5、对得到的韵律学特征用式(23)组成一个四元矩阵,既是歌曲的第二语音特征。
V V 2 = ( s , A n , P , R ) - - - ( 23 )
步骤5:利用深度学习方法对所述第一语音信息特征,第二语音信息特征和歌词文本特征进行数据优化,获得优化的第一语音信息特征、第二语音特征和第三语音特征;
深度学习优化方法是将三种信息特征单独作为RBM模型的输入值,经过RBM模型优化后的输出值再次作为RBM模型的输入值,直到综合信息特征的数量级满足分类器的处理能力为止,以最后的输出值作为优化后的综合信息特征。从而由多层RBM模型构建出DBM模型。
具体的,本实施例中,采用3层RBM对特征向量进行优化,采用CD算法对每一层RBM进行训练,每层迭代次数设定为100次,3层RBM的节点数目分别为5000,4000,2000。即将综合信息特征向量作为第一层RBM的输入,第一层RBM的输出作为第二层RBM的输入。以此推论,第三层RBM输出即为优化后的信息特征。
通过三个信息特征的分别单独优化,可以获得优化后的第一语音特征、第二语音特征和歌词文本特征。
步骤6:第一次优化:将所述歌曲第一语音信息特征和歌曲第二语音信息特征进行第一次融合,获得歌曲语音信息特征;具体的说,
利用图1的混合特征模型以及公式(24)对优化后的第一语音信息特征和优化后的第二语音信息特征进行融合,获得歌曲语音信息特征。输入第一语音特征和第二语音特征,经过式(24)深度融合模型,达到第一融合的效果。
V v = 1 2 | | W 1 T h 1 - V v 1 | | 2 2 + 1 2 | | W 1 T h 1 - V v 2 | | 2 2 - &delta; 1 2 | | W 1 | | F 2 - - - ( 24 )
式(9)其中h1代表隐藏层的输出,w1代表输入层到隐藏层权重。是第一歌曲语音信息特征,是第二歌曲语音信息特征,从两种语音性特征分别提取向量经过RBM优化后得到的维数相同的特征,使w1来进行映射。自编码器使用δ1参数来控制两种特征在构建融合特征中的比重。公式的前两项代表了不同模态混合时的重构误差,公式的后一项使用正则化来减少权重矩阵的Frobenius范数以防止出现过拟合现象。使用随机梯度下降算法可以得到合适的权重,并且可以将其用于计算隐藏层的激励。最后通过计算获得歌曲语音综合信息特征。
步骤7:将所述歌曲语音特征与歌词文本特征进行第二次融合,获得歌曲综合信息特征;具体的说,
利用图2的混合特征模型以及公式(25)对第一语音信息特征和第二语音信息特征进行融合,获得歌曲语音信息特征。
V v = 1 2 | | W 2 T h 2 - V v | | 2 2 + 1 2 | | W 2 T h 2 - V T | | 2 2 - &delta; 2 2 | | W 2 | | F 2 - - - ( 25 )
式(25)来自于式(24)其中h2代表隐藏层的输出,w2代表输入层到隐藏层权重。Vv是歌曲语音综合信息特征,VT是歌词文本信息特征,使用w2来进行相互映射,自编码器中使用δ2参数来控制两种特征在构建融合特征中的比重。
通过式(25)将歌曲的歌曲语音信息特征和歌词文本信息融合,获得歌曲的综合信息特征,。
步骤8:利用深度分类器对所述优化的综合信息特征进行训练,歌曲多模态情感类别分类识别模型;
步骤8.1、使用格式转换算法将步骤8中得到的优化后的综合信息特征转换为分类器能够处理的形式,得到转换完成的综合信息特征。本发明中使用分类器为CNNS分类器,图3既是CNNS分类器模型。
步骤8.1、使用的CNNS分类器模型包含两层卷积层以及两层的下采样层,其中S1,S2为下采样层,使用最大池化采样方法(max pooling)。最大池化采样时一种非线性采样,能够降低上层计算的复杂度。C1和C2为两个卷积层,卷积层的输出为式(26)
C i n = f ( &Sigma; i &Element; B W B , n C i n - 1 + a n ) - - - ( 26 )
其中,n代表输入的层数,代表第n层的第i个输出向量,B代表所有输入卷积层特征图的特征,WB,n代表第n层卷积层的权值参数,an代表第n层卷积层的网络偏置,f代表激励函数。CNNs可以使用rectified liner unites(ReLUs,式(27))来代替传统神经网络中使用的sigmoid函数作为激励函数,让神经网络能够更快收敛的同时还能够减少传统多层神经网络中出现的梯度消失问题(vanishing gradient)。
f = m a x ( &Sigma; i &Element; B W B , n C i n - 1 + a n ) - - - ( 27 )
将歌曲综合信息特征V输入CNNS分类器进行训练,获得完成训练的歌曲多模态情感类别分类识别模型。
步骤9、利用获得的歌曲情感类别分类识别模型对待识别的歌曲进行情感类别识别。
步骤9.1、利用步骤2~7计算待识别歌曲的综合信息特征,获得待识别综合信息特征值。
步骤9.2、利用步骤8中获得的模型,输入待识别综合信息特征,对歌曲情感类别进行识别,从而获得待识别歌曲的情感种类。

Claims (3)

1.一种基于深度学习的多模态融合的歌曲情感识别方法,其特征是如下步骤进行:
步骤1:收集歌曲的歌词文本数据库和歌曲的音频数据库;
步骤2:利用N-gram算法对所述歌词文本数据库中的歌词文本进行特征提取,获得歌词文本信息特征;
步骤3:利用梅尔频率倒谱系数对所述音频数据库中的音频数据进行语音特征提取,获得歌曲的第一语音信息特征;
步骤4:提取所述音频数据的韵律学特征,所述韵律学特征包括:语速、振幅特征、基音周期和共振峰,从而获得歌曲的第二语音信息特征;
步骤5:利用深度学习方法对所述第一语音信息特征,第二语音信息特征和歌词文本特征进行数据降维,获得降维后的第一语音信息特征、第二语音特征和歌词文本信息特征;
步骤6:将所述降维后的第一语音信息特征和第二语音信息特征进行第一次融合,获得歌曲语音信息特征;
步骤7:将所述歌曲语音特征与降维后的歌词文本特征进行第二次融合,获得歌曲综合信息特征;
步骤8:利用分类器对所述歌曲综合信息特征进行训练,获得歌曲多模态情感分类识别模型;
步骤9、利用所述歌曲多模态情感类别识别模型对待识别的歌曲进行情感分类识别,从而获得待识别的歌曲的情感类别。
2.根据权利要求1所述的基于深度学习的多模态融合的歌曲情感识别方法,其特征是:所述步骤6中的第一次融合是利用式(1)所示的混合特征模型进行计算,从而获得歌曲语音信息特征Vv
V v = 1 2 | | W 1 T h 1 - V v 1 | | 2 2 + 1 2 | | W 1 T h 1 - V v 2 | | 2 2 - &delta; 1 2 | | W 1 | | F 2 - - - ( 1 )
式(1)中,h1表示所述混合特征模型中隐藏层的输出,W1表示所述混合特征模型中输入层到隐藏层的权重;表示第一语音信息特征,表示第二语音信息特征;δ1表示比重控制参数;F表示Frobenius范数;表示欧几里德范数的平方;表示Frobenius范式。
3.根据权利要求1或2所述的基于深度学习的多模态融合的歌曲情感识别方法,其特征是:所述步骤7是的第二次融合是利用式(2)所示的混合特征模型进行计算,从而获得歌曲综合信息特征V:
V = 1 2 | | W 2 T h 2 - V v | | 2 2 + 1 2 | | W 2 T h 2 - V T | | 2 2 - &delta; 2 2 | | W 2 | | F 2 - - - ( 2 )
式(2)中,h2代表隐藏层的输出,W2代表输入层到隐藏层权重;VT表示歌词文本特征,δ2表示另一个比重控制参数。
CN201610625990.7A 2016-08-02 2016-08-02 基于深度学习的多模态融合的歌曲情感识别方法 Active CN106228977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610625990.7A CN106228977B (zh) 2016-08-02 2016-08-02 基于深度学习的多模态融合的歌曲情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610625990.7A CN106228977B (zh) 2016-08-02 2016-08-02 基于深度学习的多模态融合的歌曲情感识别方法

Publications (2)

Publication Number Publication Date
CN106228977A true CN106228977A (zh) 2016-12-14
CN106228977B CN106228977B (zh) 2019-07-19

Family

ID=57535766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610625990.7A Active CN106228977B (zh) 2016-08-02 2016-08-02 基于深度学习的多模态融合的歌曲情感识别方法

Country Status (1)

Country Link
CN (1) CN106228977B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778880A (zh) * 2016-12-23 2017-05-31 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN106901758A (zh) * 2017-02-23 2017-06-30 南京工程学院 一种基于卷积神经网络的言语置信度评测方法
CN108614548A (zh) * 2018-04-03 2018-10-02 北京理工大学 一种基于多模态融合深度学习的智能故障诊断方法
CN109215678A (zh) * 2018-08-01 2019-01-15 太原理工大学 一种基于情感维度下的深度情感交互模型的构建方法
CN109325457A (zh) * 2018-09-30 2019-02-12 合肥工业大学 基于多通道数据和循环神经网络的情感分析方法和系统
CN109447129A (zh) * 2018-09-29 2019-03-08 平安科技(深圳)有限公司 一种多模式情绪识别方法、装置及计算机可读存储介质
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109740625A (zh) * 2018-11-22 2019-05-10 深圳市三诺数字科技有限公司 一种基于特征融合的安全驾驶判别方法、系统及车辆
CN110223712A (zh) * 2019-06-05 2019-09-10 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN110223671A (zh) * 2019-06-06 2019-09-10 标贝(深圳)科技有限公司 语言韵律边界预测方法、装置、系统和存储介质
CN110647654A (zh) * 2019-08-19 2020-01-03 广州荔支网络技术有限公司 基于音频内容画像的音频主播评级方法、系统及存储介质
CN110674339A (zh) * 2019-09-18 2020-01-10 北京工业大学 一种基于多模态融合的中文歌曲情感分类方法
CN111081279A (zh) * 2019-12-24 2020-04-28 深圳壹账通智能科技有限公司 语音情绪波动分析方法及装置
CN111414513A (zh) * 2020-03-16 2020-07-14 腾讯音乐娱乐科技(深圳)有限公司 音乐流派的分类方法、装置及存储介质
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN111737414A (zh) * 2020-06-04 2020-10-02 腾讯音乐娱乐科技(深圳)有限公司 一种歌曲推荐方法及装置、服务器、存储介质
CN111858943A (zh) * 2020-07-30 2020-10-30 杭州网易云音乐科技有限公司 音乐情感识别方法及装置、存储介质和电子设备
TWI713958B (zh) * 2018-12-22 2020-12-21 淇譽電子科技股份有限公司 自動詞曲創作系統及其方法
CN112687248A (zh) * 2020-12-22 2021-04-20 广州番禺巨大汽车音响设备有限公司 一种基于智能dj音响系统的音频播放控制方法及装置
CN112861984A (zh) * 2021-02-25 2021-05-28 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN112989105A (zh) * 2019-12-16 2021-06-18 黑盒子科技(北京)有限公司 一种音乐结构的分析方法及系统
CN113010727A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 直播平台画像的构建方法、装置、设备及存储介质
CN113129871A (zh) * 2021-03-26 2021-07-16 广东工业大学 基于音频信号及歌词的音乐情绪识别方法及系统
CN113643720A (zh) * 2021-08-06 2021-11-12 腾讯音乐娱乐科技(深圳)有限公司 歌曲的特征提取模型训练方法、歌曲识别方法及相关设备
CN114387997A (zh) * 2022-01-21 2022-04-22 合肥工业大学 一种基于深度学习的语音情感识别方法
CN115862603A (zh) * 2022-11-09 2023-03-28 北京数美时代科技有限公司 一种歌曲语音识别方法、系统、存储介质和电子设备
CN112989105B (zh) * 2019-12-16 2024-04-26 黑盒子科技(北京)有限公司 一种音乐结构的分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法
CN101963972A (zh) * 2010-07-01 2011-02-02 深港产学研基地产业发展中心 情感关键词提取方法及系统
KR20130059093A (ko) * 2011-11-28 2013-06-05 주식회사 솔트룩스 군집 기반 미디어 융합 퍼블리싱 시스템
CN103488782A (zh) * 2013-09-30 2014-01-01 华北电力大学 一种利用歌词识别音乐情感的方法
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105719664A (zh) * 2016-01-14 2016-06-29 盐城工学院 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法
CN101963972A (zh) * 2010-07-01 2011-02-02 深港产学研基地产业发展中心 情感关键词提取方法及系统
KR20130059093A (ko) * 2011-11-28 2013-06-05 주식회사 솔트룩스 군집 기반 미디어 융합 퍼블리싱 시스템
CN103488782A (zh) * 2013-09-30 2014-01-01 华北电力大学 一种利用歌词识别音乐情感的方法
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105719664A (zh) * 2016-01-14 2016-06-29 盐城工学院 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778880B (zh) * 2016-12-23 2020-04-07 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN106778880A (zh) * 2016-12-23 2017-05-31 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN106901758A (zh) * 2017-02-23 2017-06-30 南京工程学院 一种基于卷积神经网络的言语置信度评测方法
CN106901758B (zh) * 2017-02-23 2019-10-25 南京工程学院 一种基于卷积神经网络的言语置信度评测方法
CN108614548A (zh) * 2018-04-03 2018-10-02 北京理工大学 一种基于多模态融合深度学习的智能故障诊断方法
CN108614548B (zh) * 2018-04-03 2020-08-18 北京理工大学 一种基于多模态融合深度学习的智能故障诊断方法
CN109215678B (zh) * 2018-08-01 2022-10-11 太原理工大学 一种基于情感维度下的深度情感交互模型的构建方法
CN109215678A (zh) * 2018-08-01 2019-01-15 太原理工大学 一种基于情感维度下的深度情感交互模型的构建方法
CN109447129B (zh) * 2018-09-29 2023-04-18 平安科技(深圳)有限公司 一种多模式情绪识别方法、装置及计算机可读存储介质
CN109447129A (zh) * 2018-09-29 2019-03-08 平安科技(深圳)有限公司 一种多模式情绪识别方法、装置及计算机可读存储介质
CN109325457A (zh) * 2018-09-30 2019-02-12 合肥工业大学 基于多通道数据和循环神经网络的情感分析方法和系统
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109740625A (zh) * 2018-11-22 2019-05-10 深圳市三诺数字科技有限公司 一种基于特征融合的安全驾驶判别方法、系统及车辆
TWI713958B (zh) * 2018-12-22 2020-12-21 淇譽電子科技股份有限公司 自動詞曲創作系統及其方法
CN110223712B (zh) * 2019-06-05 2021-04-20 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN110223712A (zh) * 2019-06-05 2019-09-10 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN110223671A (zh) * 2019-06-06 2019-09-10 标贝(深圳)科技有限公司 语言韵律边界预测方法、装置、系统和存储介质
CN110223671B (zh) * 2019-06-06 2021-08-10 标贝(深圳)科技有限公司 语言韵律边界预测方法、装置、系统和存储介质
CN110647654A (zh) * 2019-08-19 2020-01-03 广州荔支网络技术有限公司 基于音频内容画像的音频主播评级方法、系统及存储介质
CN110674339B (zh) * 2019-09-18 2021-04-16 北京工业大学 一种基于多模态融合的中文歌曲情感分类方法
CN110674339A (zh) * 2019-09-18 2020-01-10 北京工业大学 一种基于多模态融合的中文歌曲情感分类方法
CN112989105A (zh) * 2019-12-16 2021-06-18 黑盒子科技(北京)有限公司 一种音乐结构的分析方法及系统
CN112989105B (zh) * 2019-12-16 2024-04-26 黑盒子科技(北京)有限公司 一种音乐结构的分析方法及系统
CN111081279A (zh) * 2019-12-24 2020-04-28 深圳壹账通智能科技有限公司 语音情绪波动分析方法及装置
CN111414513B (zh) * 2020-03-16 2023-09-08 腾讯音乐娱乐科技(深圳)有限公司 音乐流派的分类方法、装置及存储介质
CN111414513A (zh) * 2020-03-16 2020-07-14 腾讯音乐娱乐科技(深圳)有限公司 音乐流派的分类方法、装置及存储介质
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN111737414A (zh) * 2020-06-04 2020-10-02 腾讯音乐娱乐科技(深圳)有限公司 一种歌曲推荐方法及装置、服务器、存储介质
CN111858943A (zh) * 2020-07-30 2020-10-30 杭州网易云音乐科技有限公司 音乐情感识别方法及装置、存储介质和电子设备
CN112687248A (zh) * 2020-12-22 2021-04-20 广州番禺巨大汽车音响设备有限公司 一种基于智能dj音响系统的音频播放控制方法及装置
CN112687248B (zh) * 2020-12-22 2023-10-31 广州番禺巨大汽车音响设备有限公司 一种基于智能dj音响系统的音频播放控制方法及装置
CN112861984A (zh) * 2021-02-25 2021-05-28 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN112861984B (zh) * 2021-02-25 2022-07-01 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN113010727B (zh) * 2021-03-22 2024-02-02 平安科技(深圳)有限公司 直播平台画像的构建方法、装置、设备及存储介质
CN113010727A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 直播平台画像的构建方法、装置、设备及存储介质
CN113129871A (zh) * 2021-03-26 2021-07-16 广东工业大学 基于音频信号及歌词的音乐情绪识别方法及系统
CN113643720A (zh) * 2021-08-06 2021-11-12 腾讯音乐娱乐科技(深圳)有限公司 歌曲的特征提取模型训练方法、歌曲识别方法及相关设备
CN114387997A (zh) * 2022-01-21 2022-04-22 合肥工业大学 一种基于深度学习的语音情感识别方法
CN114387997B (zh) * 2022-01-21 2024-03-29 合肥工业大学 一种基于深度学习的语音情感识别方法
CN115862603A (zh) * 2022-11-09 2023-03-28 北京数美时代科技有限公司 一种歌曲语音识别方法、系统、存储介质和电子设备

Also Published As

Publication number Publication date
CN106228977B (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN106228977A (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN110097894B (zh) 一种端到端的语音情感识别的方法和系统
CN110634491B (zh) 语音信号中针对通用语音任务的串联特征提取系统及方法
CN103928023B (zh) 一种语音评分方法及系统
CN102142253B (zh) 语音情感识别设备及方法
CN102800314B (zh) 具有反馈指导的英语句子识别与评价系统及其方法
CN102982809B (zh) 一种说话人声音转换方法
Kaur et al. Automatic speech recognition system for tonal languages: State-of-the-art survey
Lee et al. An information-extraction approach to speech processing: Analysis, detection, verification, and recognition
Das et al. A hybrid meta-heuristic feature selection method for identification of Indian spoken languages from audio signals
CN109410914A (zh) 一种赣方言语音和方言点识别方法
CN103544963A (zh) 一种基于核半监督判别分析的语音情感识别方法
CN102122507A (zh) 一种运用人工神经网络进行前端处理的语音检错方法
CN102810311B (zh) 说话人估计方法和说话人估计设备
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN110211594A (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
Garg et al. Survey on acoustic modeling and feature extraction for speech recognition
Ahmed et al. Acoustic modeling using deep belief network for Bangla speech recognition
Almekhlafi et al. A classification benchmark for Arabic alphabet phonemes with diacritics in deep neural networks
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
Jiang et al. Task-aware deep bottleneck features for spoken language identification.
Farooq et al. Mispronunciation detection in articulation points of Arabic letters using machine learning
Lekshmi et al. An acoustic model and linguistic analysis for Malayalam disyllabic words: a low resource language
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220526

Address after: 266000 Room 502, floor 5, building a, Shinan Software Park, No. 288, Ningxia road, Shinan District, Qingdao, Shandong

Patentee after: Qingdao class cognition artificial intelligence Co.,Ltd.

Address before: Tunxi road in Baohe District of Hefei city of Anhui Province, No. 193 230009

Patentee before: Hefei University of Technology

TR01 Transfer of patent right