CN113903327A - 一种基于深度神经网络的语音环境气氛识别方法 - Google Patents
一种基于深度神经网络的语音环境气氛识别方法 Download PDFInfo
- Publication number
- CN113903327A CN113903327A CN202111070401.0A CN202111070401A CN113903327A CN 113903327 A CN113903327 A CN 113903327A CN 202111070401 A CN202111070401 A CN 202111070401A CN 113903327 A CN113903327 A CN 113903327A
- Authority
- CN
- China
- Prior art keywords
- neural network
- text
- module
- words
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008451 emotion Effects 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 28
- 230000002996 emotional effect Effects 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 15
- 238000012952 Resampling Methods 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 230000006386 memory function Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000036651 mood Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 206010021703 Indifference Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
一种基于深度神经网络的语音环境气氛识别方法属于语音识别领域。无论是采用神经网络方法还是隐马尔可夫模型,一般是针对单方甚至仅仅是单个语句进行情绪判断。而个人及单个语句的情绪不能表征整体对话气氛。另外在多人同时说话时,常常出现混淆、误检测。本发明包括5个模块,在提取语义情感特征的过程中使用文本情感语料库,联合语言特征和语义特征进行气氛识别,包含了多个神经网络,可以识别不同说话人,感知语义情绪,设计了一种回归方法对整体对话气氛进行判断。
Description
技术领域
本发明属于语言和语音识别领域。
背景技术
语言和语音识别在各个领域已经被越来越广泛地被应用。
所谓气氛,是指在对话过程中,双方或多方共同感知的情感和心理特征。例如紧张、轻松、热情、冷漠。
在交流过程中,识别出对话过程中的整体气氛有助于提高服务质量。例如在多人语音会议中,当气氛紧张时,可以通过系统界面和背景音的调整来缓和气氛;在视频教学过程中,气氛过于轻松时,可以对老师进行提醒。
现有技术方案一般通过隐马尔可夫模型或神经网络方法对音频进行检测,发现一些特殊的语音符号,例如哭泣、大笑。或识别出发音者的情绪。
无论是采用神经网络方法还是隐马尔可夫模型,一般是针对单方甚至仅仅是单个语句进行情绪判断。而个人及单个语句的情绪不能表征整体对话气氛。
另外在多人同时说话时,常常出现混淆、误检测。
发明内容
本发明基于语音识别和自然语言处理技术,识别不同说话人,感知语义情绪,设计了一种回归方法对整体对话气氛进行判断。
1.一种基于深度神经网络的语音环境气氛识别方法,其特征在于包括以下模块:
模块1:获取音频信号并进行预处理;
将音频信号进行预处理得到声音数据;包括预加重、分帧、短时傅里叶变换;
模块2:将模块1输出的声音数据进行切分,得到各语段所属说话人ID、语音段的起始时间和结束时间、文本内容;
模块2的主体为一种深度神经网络,该深度神经网络具体参数通过训练获得;
训练过程为:
2.1 获取训练数据集,
2.2 对训练数据中,说话人、文本内容进行分段标注;标注内容为每一段的开始时间、结束时间、说话人、说话内容的文本;
2.3 采用梯度下降方式进行拟合
使用过程中,将声音数据输入给训练好的深度神经网络模型,该模型给出对每个时间步的概率预测结果,即每个时间步所属说话人的概率分布、说话内容的概率分布;
将声音数据的全部时间步输出综合起来,按照说话人的连续说话进行切分,生成各段起始截止时间,各段的说话人、各段的文本内容;
模块3:将模块2输出的语音段进行语音特征提取;
依据语音段的切分时间,对原始音频信号进行重采样;并给予重采样的结果进行语音特征抽取;
模块4:依据文本情感语料库,将模块2输出的各个说话人的文本内容编码为语义情感特征;
模块4为具有记忆功能的时序神经网络,记忆有一定时序限度内的情感特征;对于每一个说话人进行单独运算;对最新文本内容进行分词,去停用词,依据文本情感语料库将词语转换为情感特征;将情感特征输入时序神经网络,并获取到最新的情感特征结果;
模块5:依据模块3和模块4输出的语音特征和情感特征,进行气氛判断;
气氛使用一个实数值来进行度量;实数取值范围为[0,1],0表示非常轻松,1表示非常紧张;
模块5为一个卷积神经网络和时序循环神经网络相结合的深度神经网络,将语音特征和情感特征输入到模型中,通过卷积神经网络抽取深层次特征,再将抽取出来的特征输入到时序循环神经网络,输出对气氛的预测结果;在训练过程中通过这个数值和人工标记值的差距来进行梯度下降。
2.进一步,文本情感语料库描述了在不同语境下,各个词汇具有的不同的情感特征及相应强度;情感分类采用Parrott分类法,共115个类别;每个分类用长度为30的向量表示。
3.进一步,在重采样时,采用4KHz,每帧窗口为60ms;
梅尔倒谱系数提取:
梅尔倒谱系数为26维度:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分;
输出矩阵:
因为每段最大长度为6秒,每帧窗口为60ms,所以最大帧数为100;
故输出特征矩阵格式为 100 * 26 , 不足100帧的部分补0。
4.进一步,对文本进行分词,去除掉停用词,对剩下的词在文本情感语本实施料库中进行查找;忽略不在语料库中的词;每段文字通常不超过30字;经过分词、去除停用词等操作后,有效词一般不超过20个,如果超过,则抛弃;
将每个有效词查找到的向量进行堆叠,形成一个20*30的二维矩阵;不足20个词的补0。
5.进一步,模块5中深度神经网络的描述
整个网络结构包括a) 针对音频特征的卷积神经网络b) 针对文本情感特征的卷积神经网络 c) 时序循环神经网络
5.1 针对音频特征的卷积神经网络
音频特征的输入为100 x 26的矩阵, 卷积核需要与输入特征等宽;
具体卷积核尺寸如下:;
卷积核为: 5个1x26,5个2x26, 3个4x26, 3个8x26,3个16x26,1个32*26;
所有卷积核padding为1,步长为1,卷积核个数为20个;
对应k x 26的卷积核,输出尺寸为(100-k +1) x 1,
使用同尺寸的最大池化,变为标量;
对全部20个卷积核输出的标量进行拼接,得到尺寸为1 x 20 的向量E1;
此向量进行tanh激活层,结果为1 x 20 的向量E2;
5.2 针对文本情感特征的卷积神经网络
文本情感特征的输入为20 x 30的矩阵, 卷积核需要与输入特征等宽;
具体卷积核尺寸如下:卷积核为: 5个1x30,5个2x30, 3个4x30, 3个8x30;
所有卷积核padding为1,步长为1,卷积核个数为16个;
对应j x 30的卷积核,输出尺寸为(20-j +1) x 1,
使用同尺寸的最大池化,变为标量;
对全部16个卷积核输出的标量进行拼接,得到尺寸为1 x 16 的向量F1;
此向量进行tanh激活层,结果为1 x 16 的向量F2;
5.3 联合音频特征和文本特征,计算气氛
对上述向量E2、F2进行水平拼接,作为联合特征;采用时序循环神经网络即可。
本发明的回归模型的均方误差低于0.01。
本发明的创新之处在于:
1 整体技术框架。对单个模块进行简单调整也属于保护范围
2 在提取语义情感特征的过程中使用文本情感语料库
3 联合语言特征和语义特征进行气氛识别
4 本方案中包含了多个神经网络。这些神经网络可以分开单独训练,也可以进行联合训练,也可以部分联合训练。这些情况均在保护范围。
附图说明
图1是本发明示意图
图2是模块2功能图
图3是模块3功能图
图4是模块4功能图
图5是模块5功能图。
具体实施方式
1 模块1:获取音频信号并进行预处理。
音频信号来源可以是现场录音,可以是其它方式获得的音频信号
将音频信号进行处理得到声音数据。具体来说,包括预加重、分帧、短时傅里叶变换。
2 模块2:将模块1输出的声音数据进行切分,得到各语段所属说话人、语音段的起始时间和结束时间、文本内容。
参见“模块2功能图”
模块2的主体为一种深度神经网络。该深度神经网络具体参数通过训练获得。
训练过程为:
2.1 获取训练数据集,
2.2 对训练数据中,说话人、文本内容进行分段标注。标注内容为每一段的开始时间、结束时间、说话人、说话内容的文本
2.3 采用梯度下降方式进行拟合
使用过程中,将声音数据输入给训练好的深度神经网络模型,该模型给出对每个时间步的概率预测结果,即每个时间步所属说话人的概率分布、说话内容的概率分布。
将声音数据的全部时间步输出综合起来,按照说话人的连续说话进行切分,生成各段起始截止时间,各段的说话人、各段的文本内容。
3 模块3:将模块2输出的语音段进行语音特征提取。
参见“模块3功能图”
依据语音段的切分时间,对原始音频信号进行重采样。并按预设的方法给予重采样的结果进行语音特征抽取。
4 模块4:依据文本情感语料库,将模块2输出的各个说话人的文本内容编码为语义情感特征。
参见“模块4功能图”
文本情感语料库为公司长期积累、自行研发的自然语言特征数据集。描述了在不同语境下,各个词汇具有的不同的情感特征及相应强度。情感分类采用Parrott分类法,共115个类别。每个分类用长度为30的向量表示。
模块4为具有记忆功能的时序神经网络,记忆有一定时序限度内的情感特征。对于每一个说话人进行单独运算。模块3对最新文本内容进行分词,去停用词,依据文本情感语料库将词语转换为情感特征。将情感特征输入时序神经网络,并获取到最新的情感特征结果。
5 模块5:依据模块2和模块3输出的语音特征和情感特征,进行气氛判断。
模块5输入输出见图5
气氛使用一个实数值来进行度量。实数取值范围为[0,1],0表示非常轻松,1表示非常紧张。
模块5为一个独创的卷积神经网络和时序循环神经网络相结合的深度神经网络,将语音特征和情感特征输入到模型中,通过卷积神经网络抽取深层次特征,再将抽取出来的特征输入到时序循环神经网络,输出对气氛的预测结果。在训练过程中通过这个数值和人工标记值的差距来进行梯度下降。
1 在模块2中采用常见的RNN-T模型。
输出结果格式为:
段起始时刻:段结束时刻:说话人ID:说话文本
在此基础上,对连续的同一说话人的段落进行合并。最大段落长度不超过k秒。
本实施例中k值取6秒。原因为:文本模型最大长度一般不超过30字,当文字长度超过30字的时候,效果会较快降低。依据汉语常见语速推断及实验结果,将每段最大长度限制为6秒。
2 模块3
2.1 重采样
在重采样时,采用4KHz,每帧窗口为60ms。通常音频采样不会低于8KHz,但因为只需要理解气氛,所以降低采样频率不影响最终效果,而且会降低对算力的要求。在同等算力的情况下,实际上提升了性能。
2.2 梅尔倒谱系数提取
依据实验结果,不考虑二阶差分的情况下,性能变化很小。采用不含二阶差分的梅尔倒谱系数。这样梅尔倒谱系数为26维度:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分。
2.3 输出矩阵的格式
每段最大长度为6秒,每帧窗口为60ms,最大帧数为100。
输出特征矩阵为 100 * 26 , 不足100帧,则补0
3 模块4中将词语转换为情感特征的方法:
情感分类采用Parrott分类法,共115个类别。每个分类用长度为30的向量表示。
对文本进行分词,去除掉停用词,对剩下的词在文本情感语本实施料库中进行查找。忽略不在语料库中的词。如前文所述,每段文字通常不超过30字。经过分词、去除停用词等操作后,有效词一般不超过20个,如果超过,则抛弃。
将每个有效词查找到的向量进行堆叠,形成一个20*30的二维矩阵。不足20个词的补0
4 模块5中深度神经网络的描述
整个网络结构包括a) 针对音频特征的卷积神经网络b) 针对文本情感特征的卷积神经网络 c) 时序循环神经网络
4.1 针对音频特征的卷积神经网络
音频特征的输入为100 x 26的矩阵, 卷积核需要与输入特征等宽。
具体卷积核尺寸如下:。
本实施例中卷积核为: 5个1x26,5个2x26, 3个4x26, 3个8x26,3个16x26,1个32*26。
所有卷积核padding为1,步长为1,卷积核个数为20个。
对应k x 26的卷积核,输出尺寸为(100-k +1) x 1,
使用同尺寸的最大池化,变为标量。
对全部20个卷积核输出的标量进行拼接,得到尺寸为1 x 20 的向量E1。
此向量进行tanh激活层,结果为1 x 20 的向量E2。
4.2 针对文本情感特征的卷积神经网络
文本情感特征的输入为20 x 30的矩阵, 卷积核需要与输入特征等宽。
具体卷积核尺寸如下:。
本实施例中卷积核为: 5个1x30,5个2x30, 3个4x30, 3个8x30。
所有卷积核padding为1,步长为1,卷积核个数为16个。
对应j x 30的卷积核,输出尺寸为(20-j +1) x 1,
使用同尺寸的最大池化,变为标量。
对全部16个卷积核输出的标量进行拼接,得到尺寸为1 x 16 的向量F1。
此向量进行tanh激活层,结果为1 x 16 的向量F2。
4.3 联合音频特征和文本特征,计算气氛
对上述向量E2、F2进行水平拼接,作为联合特征。采用一般的时序循环神经网络即可。
本实施例中采用LSTM模型。
更详细的说,在每个时间步输出一个气氛预测值。
在训练过程中,将每个时间步的气氛预测值和对应的标记值对应,使用均方误差作为损失,进行梯度下降。
Claims (5)
1.一种基于深度神经网络的语音环境气氛识别方法,其特征在于包括以下模块:
模块1:获取音频信号并进行预处理;
将音频信号进行预处理得到声音数据;包括预加重、分帧、短时傅里叶变换;
将声音数据进行切分依据语音段的切分时间,对音频信号进行重采样;并给予重采样的结果进行语音特征抽取;借助文本情感语料库对说话人id和相应说话文字内容进行处理,获取到说话人的语义情感特征;依据语音特征和语义情感特征,给出当前气氛识别结果;
模块2:将模块1输出的声音数据进行切分,得到各语段所属说话人ID、语音段的起始时间和结束时间、文本内容;
模块2的为一种深度神经网络,该深度神经网络具体参数通过训练获得;
训练过程为:
2.1 获取训练数据集,
2.2 对训练数据中,说话人、文本内容进行分段标注;标注内容为每一段的开始时间、结束时间、说话人、说话内容的文本
2.3 采用梯度下降方式进行拟合
使用过程中,将声音数据输入给训练好的深度神经网络模型,该模型给出对每个时间步的概率预测结果,即每个时间步所属说话人的概率分布、说话内容的概率分布;
将声音数据的全部时间步输出综合起来,按照说话人的连续说话进行切分,生成各段起始截止时间,各段的说话人、各段的文本内容;
模块3:将模块2输出的语音段进行语音特征提取;
依据语音段的切分时间,对原始音频信号进行重采样;并给予重采样的结果进行语音特征抽取;
模块4:依据文本情感语料库,将模块2输出的各个说话人的文本内容编码为语义情感特征;
模块4为具有记忆功能的时序神经网络,记忆有一定时序限度内的情感特征;对于每一个说话人进行单独运算;模块3对最新文本内容进行分词,去停用词,依据文本情感语料库将词语转换为情感特征;将情感特征输入时序神经网络,并获取到最新的情感特征结果;
模块5:依据模块2和模块3输出的语音特征和情感特征,进行气氛判断;
气氛使用一个实数值来进行度量;实数取值范围为[0,1],0表示非常轻松,1表示非常紧张;
模块5为一个卷积神经网络和时序循环神经网络相结合的深度神经网络,将语音特征和情感特征输入到模型中,通过卷积神经网络抽取深层次特征,再将抽取出来的特征输入到时序循环神经网络,输出对气氛的预测结果;在训练过程中通过这个数值和人工标记值的差距来进行梯度下降。
2.根据权利要求1所述的方法,其特征在于:
文本情感语料库描述了在不同语境下,各个词汇具有的不同的情感特征及相应强度;情感分类采用Parrott分类法,共115个类别;每个分类用长度为30的向量表示。
3.根据权利要求1所述的方法,其特征在于:
在重采样时,采用4KHz,每帧窗口为60ms;
梅尔倒谱系数提取:
梅尔倒谱系数为26维度:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分;
输出矩阵的格式:
每段最大长度为6秒,每帧窗口为60ms,最大帧数为100;
输出特征矩阵为 100 * 26 , 不足100帧,则补0。
4.根据权利要求1所述的方法,其特征在于:
对文本进行分词,去除掉停用词,对剩下的词在文本情感语本实施料库中进行查找;忽略不在语料库中的词;每段文字通常不超过30字;经过分词、去除停用词等操作后,有效词一般不超过20个,如果超过,则抛弃;
将每个有效词查找到的向量进行堆叠,形成一个20*30的二维矩阵;不足20个词的补0。
5.根据权利要求1所述的方法,其特征在于:
模块5中深度神经网络的描述
整个网络结构包括a) 针对音频特征的卷积神经网络b) 针对文本情感特征的卷积神经网络 c) 时序循环神经网络
4.1 针对音频特征的卷积神经网络
音频特征的输入为100 x 26的矩阵, 卷积核需要与输入特征等宽;
具体卷积核尺寸如下:;
卷积核为: 5个1x26,5个2x26, 3个4x26, 3个8x26,3个16x26,1个32*26;
所有卷积核padding为1,步长为1,卷积核个数为20个;
对应k x 26的卷积核,输出尺寸为(100-k +1) x 1,
使用同尺寸的最大池化,变为标量;
对全部20个卷积核输出的标量进行拼接,得到尺寸为1 x 20 的向量E1;
此向量进行tanh激活层,结果为1 x 20 的向量E2;
4.2 针对文本情感特征的卷积神经网络
文本情感特征的输入为20 x 30的矩阵, 卷积核需要与输入特征等宽;
具体卷积核尺寸如下:卷积核为: 5个1x30,5个2x30, 3个4x30, 3个8x30;
所有卷积核padding为1,步长为1,卷积核个数为16个;
对应k x 30的卷积核,输出尺寸为(20-k +1) x 1,
使用同尺寸的最大池化,变为标量;
对全部16个卷积核输出的标量进行拼接,得到尺寸为1 x 16 的向量F1;
此向量进行tanh激活层,结果为1 x 16 的向量F2;
4.3 联合音频特征和文本特征,计算气氛
对上述向量E2、F2进行水平拼接,作为联合特征;采用时序循环神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111070401.0A CN113903327B (zh) | 2021-09-13 | 2021-09-13 | 一种基于深度神经网络的语音环境气氛识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111070401.0A CN113903327B (zh) | 2021-09-13 | 2021-09-13 | 一种基于深度神经网络的语音环境气氛识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113903327A true CN113903327A (zh) | 2022-01-07 |
CN113903327B CN113903327B (zh) | 2024-06-28 |
Family
ID=79028030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111070401.0A Active CN113903327B (zh) | 2021-09-13 | 2021-09-13 | 一种基于深度神经网络的语音环境气氛识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113903327B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440198A (zh) * | 2022-11-08 | 2022-12-06 | 南方电网数字电网研究院有限公司 | 混合音频信号的转换方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090120640A (ko) * | 2008-05-20 | 2009-11-25 | 성균관대학교산학협력단 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
CN101604204A (zh) * | 2009-07-09 | 2009-12-16 | 北京科技大学 | 智能情感机器人分布式认知技术 |
CN103745575A (zh) * | 2014-01-10 | 2014-04-23 | 宁波多尔贝家居制品实业有限公司 | 一种家庭气氛调节装置及其工作控制方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN113066499A (zh) * | 2021-03-12 | 2021-07-02 | 四川大学 | 一种陆空通话说话人身份识别方法及装置 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
-
2021
- 2021-09-13 CN CN202111070401.0A patent/CN113903327B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090120640A (ko) * | 2008-05-20 | 2009-11-25 | 성균관대학교산학협력단 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
CN101604204A (zh) * | 2009-07-09 | 2009-12-16 | 北京科技大学 | 智能情感机器人分布式认知技术 |
CN103745575A (zh) * | 2014-01-10 | 2014-04-23 | 宁波多尔贝家居制品实业有限公司 | 一种家庭气氛调节装置及其工作控制方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN113066499A (zh) * | 2021-03-12 | 2021-07-02 | 四川大学 | 一种陆空通话说话人身份识别方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440198A (zh) * | 2022-11-08 | 2022-12-06 | 南方电网数字电网研究院有限公司 | 混合音频信号的转换方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113903327B (zh) | 2024-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022048405A1 (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN113439301A (zh) | 使用序列到序列映射在模拟数据与语音识别输出之间进行协调 | |
Zhang et al. | Improving sequence-to-sequence voice conversion by adding text-supervision | |
Gupta et al. | Two-stream emotion recognition for call center monitoring. | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN114420169B (zh) | 情绪识别方法、装置及机器人 | |
JP2024519739A (ja) | 音声及びビデオの翻訳機 | |
Pervaiz et al. | Emotion recognition from speech using prosodic and linguistic features | |
Alghifari et al. | On the use of voice activity detection in speech emotion recognition | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Nagano et al. | Data augmentation based on vowel stretch for improving children's speech recognition | |
JP2020064370A (ja) | 文章記号挿入装置及びその方法 | |
US10872615B1 (en) | ASR-enhanced speech compression/archiving | |
CN113903327B (zh) | 一种基于深度神经网络的语音环境气氛识别方法 | |
Al-Banna et al. | Stuttering detection using atrous convolutional neural networks | |
Pathak et al. | Recognizing emotions from speech | |
BABU PANDIPATI | Speech to text conversion using deep learning neural net methods | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Atmaja et al. | Evaluating Variants of wav2vec 2.0 on Affective Vocal Burst Tasks | |
CN115641860A (zh) | 模型的训练方法、语音转换方法和装置、设备及存储介质 | |
Shukla | Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition | |
Wang et al. | Generating TTS Based Adversarial Samples for Training Wake-Up Word Detection Systems Against Confusing Words. | |
KR20220063818A (ko) | 음성감성 분석 시스템 및 방법 | |
Mengistu et al. | Text independent Amharic language dialect recognition: A hybrid approach of VQ and GMM | |
Al-Dulaimi et al. | Employing An Efficient Technique with Deep Neural Network for Speaker Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |