CN112735477B - 语音情感分析方法和装置 - Google Patents
语音情感分析方法和装置 Download PDFInfo
- Publication number
- CN112735477B CN112735477B CN202011625649.4A CN202011625649A CN112735477B CN 112735477 B CN112735477 B CN 112735477B CN 202011625649 A CN202011625649 A CN 202011625649A CN 112735477 B CN112735477 B CN 112735477B
- Authority
- CN
- China
- Prior art keywords
- time
- voice
- speech
- sequential
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 55
- 238000004458 analytical method Methods 0.000 title claims abstract description 41
- 238000001228 spectrum Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明提供一种语音情感分析方法和装置。所述方法包括:基于重采样的数字语音信号获取语音信号的频率幅值谱;基于所述频率幅值谱获取语音信号的多重语音特征;以及将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析。
Description
技术领域
本发明涉及人工智能领域,具体地说,本发明涉及一种语音情感分析方法和装置。
背景技术
语音已经是人们传递信息和表达感情的重要媒介,近年来,随着语音识别和深度学习人工智能技术的发展,继图像信号之后,语音信号成为信息时代背景下用于思想沟通、感情交流和人机交互等的基本途径和高效技术手段,例如,常用的语音通话设备和诸如智能音箱等智能人机交互工具。语音情感识别的研究对于增强计算机的智能化和人性化、开发新型人机环境以及推动心理学等学科的发展有着重要的现实意义,并将产生显著的经济和社会效益。
传统的语音情感识别领域的研究在于分析语音的声学统计特征,选用的数据集是语音条目较少且语义较简单的情感语音数据库,因此用于情感分析的声学模型不具备普遍性。同时,因为统计特征常常使用类似线性判别分析法等方法,导致分析结果的准确率低。虽然提出了利用深度信念网络来自动提取特征的方法,并且还采用过线性判别分类的方法、k最近邻法和支持向量机等方法取得了60%-65%的识别准确率,但是结果仍不理想。
发明内容
提供本发明内容是为了以简化的形式介绍所选择的构思,并在下面的具体实施方式中进一步描述这些构思。本发明内容无意确定所要求保护的主题的关键特征或必要特征,也无意用于帮助确定所要求保护的主题的范围。
本公开的一方面提供一种语音情感分析方法,所述方法包括:基于重采样的数字语音信号获取语音信号的频率幅值谱;基于所述频率幅值谱获取语音信号的多重语音特征;以及将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析。
所述多重语音特征可包括:频谱中心特征、频谱平坦度特征、梅尔频率倒谱系数特征、短时傅里叶变换色谱图特征、梅尔频谱特征、语音信号频率幅值谱对比度特征、均方根能量特征和短时语音信号平均过零率特征。
所述多重语音特征融合处理可包括数据幅值的归一化处理和并行数据的拼接处理。
所述时序记忆网络处理输出的序列数据可由所述时序记忆网络处理的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定,其中,所述时序记忆信息可由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息通过记忆更新单元得到。
所述时空注意力网络处理基于所述时序记忆网络处理输出的序列数据来提取时序方向的时序关联系数,针对时序方向根据得到的时序关联系数对所述序列数据进行加权产生更新的序列数据,并且可基于所述更新的序列数据来提取并行方向上的并行关联系数,针对并行方向根据得到的并行关联系数对所述更新的序列数据进行加权产生用于语音情感分类的特征数据。
本公开的另一方面提供一种语音情感分析装置,所述控制装置包括:采样模块,接收语音信息的输入并基于预定采样率进行重采样,获得语音信号的频率幅值谱;特征提取模块,基于所述频率幅值谱获取语音信号的多重语音特征;以及情感分析模块,将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析。
情感分析模块的所述时序记忆网络处理输出的序列数据可由所述时序记忆网络处理的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定,其中,所述时序记忆信息可由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息通过记忆更新单元得到。
情感分析模块的所述时空注意力网络处理可基于所述时序记忆网络处理输出的序列数据来提取时序方向的时序关联系数,针对时序方向根据得到的时序关联系数对所述序列数据进行加权产生更新的序列数据,并且可基于所述更新的序列数据来提取并行方向上的并行关联系数,针对并行方向根据得到的并行关联系数对所述更新的序列数据进行加权产生用于语音情感分类的特征数据。
本公开的另一方面提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序在被处理器执行时实现如上所述的语音情感分析方法。
本公开的另一方面提供一种计算机设备,所述计算机设备包括:处理器存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的语音情感分析方法。
附图说明
通过以下结合附图的详细描述,本公开的以上和其它方面、特征和优点将被更清楚地理解,在附图中:
图1是根据本公开的语音情感分析方法的框图;
图2是根据本公开的时序记忆网络-时空注意力网络模型结构的示意图;
图3是根据本公开的时序记忆网络模块的框图;
图4是根据本公开的时空注意力网络模块的框图;以及
图5是根据本公开的语音情感分析装置的框图。
具体实施方式
提供以下具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,对于本领域普通技术人员在此描述的方法、设备和/或系统的各种改变、变型和等同物将是显而易见的。例如,在此描述的操作的顺序仅仅是示例,并且不限于在此阐述的顺序,而是除了必须以特定顺序执行的操作之外,可做出对于本领域普通技术人员将显而易见的改变。此外,为了提高清楚性和简洁性,可省略对于本领域普通技术人员将公知的特征和结构的描述。在此描述的特征可以以不同的形式实施,并且将不被解释为局限于在此描述的示例。更确切地说,已经提供在此描述的示例使得本公开将是彻底的和完整的,并且将向本领域普通技术人员充分地传达本公开的范围。
由于目前语音情感分析一般基于单一语音特征导致特征信息匮乏,在情感分析时不能取得良好的分析结果。本公开提供一种基于融合多重语音特征的语音情感分析方法,可使模型的训练速度、分类结果准确度和分析速度提高。
图1是根据本公开的语音情感分析方法的框图。参照图1,根据本公开的语音情感分析方法执行如下步骤。在操作101,执行数字语音信号重采样并获取频率幅值谱,以基于重采样的数字语音信号获取语音信号的频率幅值谱。
为了增强语音信号的规范性,语音信号重采样将获得的数字语音信号进行重采样,采样频率可以是11.025kHz、22.05kHz或44.1kHz,但不限于此。
由于信号在时域上的变换通常难以表现信号的特性,因此获取语音信号频率幅值谱可将时域信号转换为频域信号,以获得能量分布的直观表示。将频域信号按照预定长度分帧加窗,针对各帧信号进行短时傅里叶变换从而得到各帧信号的频谱。由于经过重采样后的信号采样率为22.05kHz,若以23ms为周期进行频域变换,则信号窗口的尺寸是512点,采样率不同时还可以是256点或1024点,但不限于此。
在操作102,基于频率幅值谱获取语音信号的多重语音特征。多重语音特征可包括:
1、频谱中心特征
将频域信号进行分帧和归一化处理,从而得到在频域上针对每个频率点的幅值分布,进而得到每帧中占据主要能量的频点。
2、频谱平坦度特征
频谱平坦度特征是量化语音与白噪声的相似性的度量方法。较高的频谱平坦度(接近1.0)表明频谱类似于白噪声。
3、梅尔频率倒谱系数特征
在语音处理领域中,梅尔频率倒谱是基于语音频率的非线性梅尔刻度的对数能量频谱的线性变换。梅尔频率倒谱系数就是组成梅尔频率倒谱的系数,本公开阶数取50。
4、短时傅里叶变换色谱图特征
将操作101中获取的语音信号频率幅值谱变换成色谱图特征。
5、梅尔频谱特征
将操作101中获取的语音信号频率幅值谱通过梅尔标度滤波器组,变换为梅尔频谱。
6、语音信号频率幅值谱对比度特征
将操作101中获取的语音信号频率幅值谱的每帧均划分为频域子带。对于每个频域子带,通过比较峰值能量和谷值能量来估计能量对比度。高对比度值通常对应于清晰的窄带信号,而低对比度值则对应于宽带噪声。
7、均方根能量特征
将操作101中获取的语音信号频率幅值谱的每帧分别计算均方根能量值。
8、短时语音信号平均过零率特征
短时语音信号平均过零率是语音信号时域分析中的特征参数,是指每帧内信号通过零值的次数。
在此示例中,多重语音特征包括八种语音特征,但多重语音特征的种类和数量不限于此。
在操作103,对多重语音特征进行融合处理并通过时序记忆网络和时空注意力网络处理分析语音情感。将操作102中提取的多重语音特征分别按时序方向进行归一化处理,对于复合特征(数据维度大于1),则分别按时序方向进行归一化处理。进行归一化处理后,将多重语音特征的并行数据按并行方向进行拼接处理,形成语音情感特征模型,并通过时序记忆网络和时空注意力网络处理分析语音情感。
基于深度学习技术的训练语音情感分类模型可通过训练人工神经网络来建立分类模型。将原始语音数据集经过上述步骤进行特征提取,再进行训练集和验证集划分。通过训练集训练语音情感分类模型,利用验证集评估模型效果,可调整模型参数并完成训练。
图2是根据本公开的时序记忆网络-时空注意力网络模型结构的示意图。参照图2,分类模型分为两个部分,分别为时序记忆网络模块和时空注意力网络模块。在时序记忆网络-时空注意力网络模型中,时序记忆网络模块将从语音信息中提取的多重特征作为输入,以输出情感预测时序特征;将时序记忆网络模块的输出到时空注意力网络模块,时空注意力网络模块可提取全局最优特征;最后通过Softmax分类模型根据经过处理的包含多重语音特征的样本对语音信号包含的情感信息特征进行逻辑判断,最后得到多重情感类别的概率分布。
通过提取待测语音的特征并输入已训练完成的时序记忆网络-时空注意力网络模型来测试模型的情感分类能力。
图3是根据本公开的时序记忆网络300的框图。时序记忆网络300输出的序列数据由所述时序记忆网络300的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定,其中,所述时序记忆信息由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息的数据组合通过记忆更新单元得到。参照图3,时序记忆网络300的输入和输出均为序列数据,时序记忆网络的输出Yt由时序记忆信息Ht和当前时刻的输入Xt共同决定的。时序记忆网络的基本门控单元包括输入门、记忆单元和输出门,其中,记忆单元由记忆计算S和记忆更新M组成,其中记忆计算S负责同时接收输入Xt和记忆信息Ht,记忆计算S同时根据记忆信息Ht和输入信息Xt计算并输出Yt,记忆信息Ht和输入信息Xt的结合能够提高输入同种情感的语音特征的相似性,记忆更新M根据输入信息Xt与记忆信息Ht的关联程度对记忆信息Ht进行更新得到新的记忆信息Ht+1。由于时序记忆网络300能够同时根据上下文信息进行情感特征的有效分析和预测,因此提高了网络的准确率。
其中,记忆计算S可由式1表示:
Yt=Ws⊙Ht*Xt+Wl⊙Ht*Xt (1)
其中,记忆更新M可由式2表示:
Ht+1=f(Xt,Ht)*Wu⊙Ht (2)
其中,Yt是输出的矩阵数据,Ht是记忆信息的矩阵数据,Xt是输入信息的矩阵数据。Ws为临近时序权重矩阵,一般在并行方向(特征方向)宽度为128~384、时序方向长度为7~27。Wl为全时序权重矩阵,一般在并行方向(特征方向)宽度为128~384、时序方向长度为201~908。Wu为记忆信息更新权重矩阵,一般在并行方向(特征方向)宽度为128~384、时序方向长度为196~784。函数f(Xt,Ht)是更新规则控制函数。
图4是根据本公开的时空注意力网络400的框图。时空注意力网络400由数理统计分析和处理网络组成。时空注意力网络400能够对时序记忆网络300输出的序列数据进行处理得到有利于情感特征分类的特征信息。参照图4,序列数据X是从时序记忆网络300输出的序列数据,时间注意力单元U计算输入的序列数据X在时序方向的时序关联系数。所述时序关联系数表示输入的序列数据之间在对应维度上(例如,将两个或更多个序列数据从各自的数据起始点向数据末端以时序方向一一对应)的数据相关性,其中,关联系数为0表示完全不相关。针对时序方向根据得到的时序关联系数对序列数据X(时序记忆网络300输出的序列数据)进行加权产生更新的序列数据T。通过加权计算可使序列数据简化(或压缩)。空间注意力单元O计算由时间注意力单元U处理后的序列数据T在并行方向(数据的空间方向)上的并行关联系数。针对并行方向根据得到的并行关联系数对更新的序列数据T加权产生特征F,并输出语音特征数据F用于语音情感分类。
根据得到的时序关联系数对序列数据X进行加权的处理可由式3表示:
T=(f(X1,X2,…,Xt)⊙Wt*X)T (3)
根据得到的并行关联系数对更新的序列数据T加权的处理可由式4表示:
F=(f(T1,T2,…,Tn)⊙Wf*T)T (4)
其中,Xn(n=1,2,…,t)是时序数据矩阵X按时序方向排列的向量。T是时间注意力单元U输出的语音特征矩阵数据。F是空间注意力单元输出的语音特征矩阵数据。Wt为时序特征融合矩阵,一般在并行方向(特征方向)宽度为128~384、时序方向长度与输入特征X长度一致。Wf为空间特征融合矩阵,一般在并行方向(特征方向)长度为128~384,时序方向长度与经过处理的T长度一致。函数f(T1,T2,…,Tn)是相关系数计算函数。
图5是根据本公开的语音情感分析装置的框图。参照图5,语音情感分析装置包括输入501、采样模块502、特征提取模块503、情感分析模块504和输出505。采样模块502接收语音信息的输入并基于预定采样率进行重采样,获得语音信号的频率幅值谱。特征提取模块503基于所述频率幅值谱获取语音信号的多重语音特征。情感分析模块504将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析。
本公开提出应用语音信号重采样方法可将不同来源与格式的语音信号重新标准化,提高系统的适应能力与分析准确率。
本公开提出多重语音特征提取与融合方法,通过提取原语音信号的多重语音特征,实现量化和丰富语音情感特征信息目的,进一步通过归一化方法降低了情感特征分析的复杂度。
本公开提出时序记忆网络-时空注意力网络模型,拥有两种不同网络结构的时序记忆网络-时空注意力网络的情感分析模型学习能力更强,其中时序记忆网络能够同时结合上下文信息进行情感特征学习,时空注意力网络能够将时序记忆网络输出的情感特征中的有效特征进行进一步的提取。
根据本发明的示例性实施例还提供一种存储有计算机程序的计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行根据本发明的语音情感分析方法的计算机程序。该计算机可读记录介质是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读记录介质的示例包括:只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。
根据本发明的示例性实施例还提供一种计算机设备。该计算机设备包括处理器和存储器。存储器用于存储计算机程序。所述计算机程序被处理器执行使得处理器执行根据本发明的语音情感分析方法的计算机程序。
虽然本公开包括具体示例,但是对于本领域普通技术人员将明显的是,在不脱离权利要求及它们的等同物的精神和范围的情况下,可在这些示例中做出形式上和细节上的各种改变。在此描述的示例将仅被认为是描述性含义,而非出于限制的目的。在每个示例中的特征或方面的描述将被认为可适用于其他示例中的类似的特征或方面。如果按照不同的顺序执行描述的技术,和/或如果按照不同的方式组合描述的系统、架构、装置或者电路中的组件和/或通过其他组件或者它们的等同物替换或者补充描述的系统、架构、装置或者电路中的组件,则可获得适当的结果。因此,本公开的范围不由具体实施方式限定,而是由权利要求及它们的等同物限定,在权利要求及它们的等同物的范围内的所有变型将被解释为包含于本公开中。
Claims (8)
1.一种语音情感分析方法,其中,所述方法包括:
基于重采样的数字语音信号获取语音信号的频率幅值谱;
基于所述频率幅值谱获取语音信号的多重语音特征;以及
将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析,
其中,所述时空注意力网络处理基于所述时序记忆网络处理输出的序列数据来提取时序方向的时序关联系数,针对时序方向根据得到的时序关联系数对所述序列数据进行加权产生更新的序列数据,并且基于所述更新的序列数据来提取并行方向上的并行关联系数,针对并行方向根据得到的并行关联系数对所述更新的序列数据进行加权产生用于语音情感分类的特征数据。
2.根据权利要求1所述的方法,其中,所述多重语音特征包括:频谱中心特征、频谱平坦度特征、梅尔频率倒谱系数特征、短时傅里叶变换色谱图特征、梅尔频谱特征、语音信号频率幅值谱对比度特征、均方根能量特征和短时语音信号平均过零率特征。
3.根据权利要求1所述的方法,其中,所述多重语音特征融合处理包括数据幅值的归一化处理和并行数据的拼接处理。
4.根据权利要求1所述的方法,其中,所述时序记忆网络处理输出的序列数据由所述时序记忆网络处理的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定,其中,所述时序记忆信息由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息通过记忆更新单元得到。
5.一种语音情感分析装置,其中,所述装置包括:
采样模块,接收语音信息的输入并基于预定采样率进行重采样,获得语音信号的频率幅值谱;
特征提取模块,基于所述频率幅值谱获取语音信号的多重语音特征;以及
情感分析模块,将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析,
其中,情感分析模块的所述时空注意力网络处理基于所述时序记忆网络处理输出的序列数据来提取时序方向的时序关联系数,针对时序方向根据得到的时序关联系数对所述序列数据进行加权产生更新的序列数据,并且基于所述更新的序列数据来提取并行方向上的并行关联系数,针对并行方向根据得到的并行关联系数对所述更新的序列数据进行加权产生用于语音情感分类的特征数据。
6.根据权利要求5所述的装置,其中,情感分析模块的所述时序记忆网络处理输出的序列数据由所述时序记忆网络处理的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定,其中,所述时序记忆信息由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息通过记忆更新单元得到。
7.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序在被处理器执行时实现如权利要求1至4中任意一项所述的语音情感分析方法。
8.一种计算机设备,其特征在于,所述计算机设备包括:
处理器;
存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至4中任意一项所述的语音情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011625649.4A CN112735477B (zh) | 2020-12-31 | 2020-12-31 | 语音情感分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011625649.4A CN112735477B (zh) | 2020-12-31 | 2020-12-31 | 语音情感分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735477A CN112735477A (zh) | 2021-04-30 |
CN112735477B true CN112735477B (zh) | 2023-03-17 |
Family
ID=75609747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011625649.4A Active CN112735477B (zh) | 2020-12-31 | 2020-12-31 | 语音情感分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735477B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793627B (zh) * | 2021-08-11 | 2023-12-29 | 华南师范大学 | 一种基于注意力的多尺度卷积语音情感识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN111402928A (zh) * | 2020-03-04 | 2020-07-10 | 华南理工大学 | 基于注意力的语音情绪状态评估方法、装置、介质及设备 |
-
2020
- 2020-12-31 CN CN202011625649.4A patent/CN112735477B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN111402928A (zh) * | 2020-03-04 | 2020-07-10 | 华南理工大学 | 基于注意力的语音情绪状态评估方法、装置、介质及设备 |
Non-Patent Citations (1)
Title |
---|
Speech Emotion Classification Using Attention-Based LSTM;Yue Xie 等;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20191130 * |
Also Published As
Publication number | Publication date |
---|---|
CN112735477A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11908455B2 (en) | Speech separation model training method and apparatus, storage medium and computer device | |
CN102968990B (zh) | 说话人识别方法和系统 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN111785285A (zh) | 面向家居多特征参数融合的声纹识别方法 | |
CN103943104A (zh) | 一种语音信息识别的方法及终端设备 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN111402922B (zh) | 基于小样本的音频信号分类方法、装置、设备及存储介质 | |
Jing et al. | Speaker recognition based on principal component analysis of LPCC and MFCC | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
CN112735477B (zh) | 语音情感分析方法和装置 | |
Patel et al. | Optimize approach to voice recognition using iot | |
KR20190135916A (ko) | 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 | |
CN113782032A (zh) | 一种声纹识别方法及相关装置 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN112329819A (zh) | 基于多网络融合的水下目标识别方法 | |
Monteiro et al. | On the performance of time-pooling strategies for end-to-end spoken language identification | |
Reshma et al. | A survey on speech emotion recognition | |
Ramani et al. | Autoencoder based architecture for fast & real time audio style transfer | |
CN114302301A (zh) | 频响校正方法及相关产品 | |
CN113488069A (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
Bhaskar et al. | Analysis of language identification performance based on gender and hierarchial grouping approaches | |
CN110689875A (zh) | 一种语种识别方法、装置及可读存储介质 | |
Therese et al. | A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |