CN113257280A - 基于wav2vec的语音情感识别方法 - Google Patents
基于wav2vec的语音情感识别方法 Download PDFInfo
- Publication number
- CN113257280A CN113257280A CN202110628589.XA CN202110628589A CN113257280A CN 113257280 A CN113257280 A CN 113257280A CN 202110628589 A CN202110628589 A CN 202110628589A CN 113257280 A CN113257280 A CN 113257280A
- Authority
- CN
- China
- Prior art keywords
- emotion
- network
- voice signal
- classification model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 31
- 230000008451 emotion Effects 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000005477 standard model Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种基于wav2vec的语音情感识别方法,属于语音信号智能处理领域,该方法包括:获取样本语音信号并对样本语音信号进行预处理,获得处理后的样本语音信号;构建预设分类模型,所述预设分类模型由特征抽取网络和与特征抽取网络相连的预测网络构成;将所述处理后的样本语音信号输入所述预设分类模型并利用预设的损失函数进行训练,得到语音情感分类模型,所述语音情感分类模型用于对输入的待分类语音信号进行分类。本申请可以解决人工识别语音情感的效率问题,并解决了现有语音分类模型不适用于语音情感识别场景的问题,可以提高语音情感识别的精度。
Description
技术领域
本申请涉及语音信号智能处理技术,更具体地说,本申请涉及一种基于wav2vec的语音情感识别方法。
背景技术
随着人工智能和计算机技术的发展,人工智能已经渗入到我们生活的方方面面,越来越多的行业已经开始用人工智能来完成一些重复繁琐的工作。例如许多服务窗口变成了自助服务机,服务业的客服由人工客服向智能客服转变。但是目前的人工智能更像是一个冰冷的机器,执行着固定的程序,用户体验并不好。阻碍其发展的一个重要原因是它不能读懂人类的情感,因为情感是一种抽象的概念,很难用文字或符号进行表示。但是在很多场合,情感分析是一个关键能力。想要让人工智能更好的服务大众,让用户有更好的体验,必须让机器理解人类情感。
虽然目前已经出现利用人工智能对人的情感进行分析,但现有的技术对于语音情感识别比较广泛采用的都是通过语谱图和深度学习的卷积神经网络或循环神经网络来实现,首先将语音信号处理成语谱图,再将语谱图通过卷积神经网络、循环神经网络或者两者的结合来抽取语音的特征信息进行情感识别。而这种现有的技术使用的输入是语谱图,这是人工设计的语音特征,可能会造成部分有价值的信息缺失;此外,目前往往采用的都是监督学习方式,这需要大量有标签数据才能使模型有较好的性能,而目前有标签的语音情感数据较少,且有很多无标签数据没有利用起来。这些缺陷使得语音情感识别领域应用传统的神经网络会造成识别率的低下的问题,例如对高兴和生气的语音情感分析,它们都在高频部分有着较强能量,使用人工提取的语谱图特征很难识别出两者的差别,需要更强的泛化的特征。
因此,人们期望获得一种技术方案,能够利用人工智能语音情感识别技术对海量的语音情感进行识别,让神经网络提取更好的语音特征,避免信息缺失来提高准确率,并且可以利用大量的无标签数据,缓解有标签数据稀缺导致的准确率低下的问题。
发明内容
本申请的目的是解决上述技术问题。本申请提供了一种基于wav2vec的语音情感识别方法,将语音信号进行预处理后,使用wav2vec网络模型和预测网络进行训练,之后用训练后的模型进行语音情感识别,实现语音情感的自动识别,且针对语音情感具有良好的识别精准度。本申请提供如下技术方案:
提供一种基于wav2vec的语音情感识别方法,其包括:
获取样本语音信号并对样本语音信号进行预处理,获得处理后的样本语音信号;
构建预设分类模型,所述预设分类模型由特征抽取网络和与特征抽取网络相连的预测网络构成;
将所述处理后的样本语音信号输入所述预设分类模型并利用预设的损失函数进行训练,得到语音情感分类模型,所述语音情感分类模型用于对输入的待分类语音信号进行分类;
其中,所述特征抽取网络为wav2vec网络,所述wav2vec网络由特征编码器和与特征编码器相连的多层Transformer构成,所述特征编码器由多个卷积模块组成,所述卷积模块包含时序卷积网络和归一标准化层,所述特征抽取网络用来抽取样本语音信号的情感特征。
可选地,其中所述预处理包括:裁剪、填充处理、去均值处理、归一化处理之一或其任意组合。
可选地,其中所述预测网络包括多层卷积模块,每个卷模积块包括用于获取特征的卷积层和与卷积层相连的归一标准化层,所述预测网络解码语音信号的情感特征,输出样本语音信号的情感类别。
可选地,其中所述Transformer包括用于获取序列特征的多头注意力部分、用于非线性变换的前馈传播部分和用于归一化的加和标准化部分,前馈传播部分位于多头注意力部分之后,在前馈传播部分和多头注意力部分的输出位置分别构建加和标准化部分。
可选地,其中所述损失函数为:
可选地,其中所述方法还包括:
使用测试集对训练后的模型进行测试,以确定训练后模型的精度。
本申请的有益效果至少包括:提供了一种新颖的语音情感识别的神经网络框架。构建适用于语音情感识别的特征提取网络,利用wav2vec模型直接抽取语音特征,而不是使用人工设计的语谱图特征,构建适用于语音情感识别的预测网络。并且由于采用了wav2vec模型,可以在大量无标签数据上预训练,学到了语音信号的通用表示,解决了有标签语音情感数据不足的问题。通过训练后的模型对语音情感识别具有较高的精度水平。
本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:
图1是本申请一个实施例提供的基于wav2vec的语音情感识别方法的流程图。
图2是本申请一个实施例提供的Transformer结构示意图。
图3是本申请一个实施例提供的wav2vec结构示意图。
图4是本申请一个实施例提供的特征抽取网络抽取语音信号特征的示意图。
图5是本申请一个实施例提供的预测网络解码语音特征的示意图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述,以令本领域技术人员参照说明书文字能够据以实施。
需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请的内容不充分。
Transformer是近几年在深度学习领域提出的新型神经网络模型,目前主要被应用于自然语言处理领域中的机器翻译。Transformer模型中抛弃了传统的神经网络模型结构,只使用了注意力机制来实现,因此Transformer是一个完全基于注意力机制的编码解码模型。并且在Transformer模型中引入了自注意力这一概念,Transformer的整个架构就是叠层的自注意层和全连接层。Transformer模型的优势在于能够捕捉长距离特征,使得全局信息可以很容易地通过Transformer模型得到。另外,与循环神经网络的隐藏状态必须依次计算相比,Transformer的自注意层和全连接层的输出可以并行计算,容易加速,因此效率更高。
在语音情感识别领域应用传统的卷积神经网络时存在的信息缺失,全连接模式过于冗余而低效等问题,Transformer在理论上恰恰能够很好的解决。此外Transformer的设计十分符合语音特性,是一种系列化的数据输入,因而十分契合语音情感识别任务。本发明用到的wav2vec模型的主要部分就是Transformer,它能够很好的捕捉语音中的长距离特征。本发明通过对语音信号进行预处理,将预训练模型wav2vec成功应用在语音情感识别领域,构建适用于语音情感识别的特征提取网络和预测网络。通过训练后的模型对语音情感识别具有良好的精度水平。
图3中wav2vec网络结构是本方法所用的特征抽取模块,它由堆叠的卷积层和图2中的Transformer网络结构构成,Transformer层通过堆叠的方式来抽取语音信息的特征。如图2所示,每层Transformer至少包括用于获取序列特征的多头注意力部分、用于非线性变换的前馈传播部分和用于归一化的加和标准化部分,前馈传播部分位于多头注意力部分之后,在前馈传播部分和多头注意力部分的输出位置分别构建加和标准化部分。
图1是本申请一个实施例提供的基于wav2vec的语音情感识别方法的流程图。该方法至少包括以下几个步骤:
步骤S101,获取样本语音信号并对样本语音信号进行预处理,获得处理后的样本语音信号。
预处理包括:填充、裁剪处理、去均值处理、归一化处理之一或其任意组合。填充或裁剪处理用于将输入语音处理成固定的尺寸。去均值处理是指在语音数据上减去数据对应维度的统计平均值,以消除公共的部分、凸显个体之间的特征和差异。归一化处理是指将模型输入的数值限制在[0,1]之间,以加快模型收敛速度。
步骤S102,构建预设分类模型,所述预设分类模型由特征抽取网络和与特征抽取网络相连的预测网络构成。
对语音信号预处理后,使用特征抽取网络抽取语音特征。其中,特征抽取网络wav2vec由堆叠的卷积模块和堆叠的Transformer网络结构组成。由于使用的是预训练模型,堆叠的层数、每层卷积层的超参数和Transformer层的超参数设置需遵循预训练模型的超参数设置。本实施例不对堆叠的层数作限制。
示意性地,卷积部分可由7个卷积模块堆叠而成,而Transformer模块可有标准模型和大模型两种设置方式,标准模型可由12个Transformer堆叠而成,而大模型则可由24个Transformer块堆叠而成。
示意性地:参考图4,经过预处理后的语音信号维度为48000,将语音通过一个由7个卷积模块堆叠而成的卷积网络和一个由12层Transformer堆叠而成的Transformer模块进行特征抽取,得到149个特征向量,每个向量维度为768。
获得语音信号特征后,由预测网络对特征作进一步处理,将语音特征转为语音情感类别。预测网络进行多分类,共输出C个预测值。C为语音情感类别的数目,是正整数。本实施例不对预测值的具体个数作限定。
其中,预测网络由多个卷积模块堆叠而成,每个卷积模块由一个卷积层和归一化层构成,本实施例不对卷积模块堆叠的层数取值作限定。示意性地:参考图5,149个特征向量由预测网络进行处理,预测网络由4层卷积模块构成,在经过处理之后,最终获得了当前语音信号的情感类别。
步骤S103,将所述处理后的样本语音信号输入所述预设分类模型并利用预设的损失函数进行训练,得到语音情感分类模型,所述语音情感分类模型用于对输入的待分类语音信号进行分类。
在模型训练过程中使用的损失函数通过下述公式表示:
模型训练过程包括:将样本语音信号预处理后利用特征提取网络提取语音情感特征,接着利用预测网络处理语音情感特征,得到语音情感的预测信息,按照公式构建损失函数,进行模型训练。
可选地,在训练过程中,设置批大小为32,特征抽取网络利用预训练模型初始化,其初始学习率为0.00001,预测网络的初始学习率为0.001,在其它实施方式中,模型训练时对应的超参数也可以不同,批大小和初始学习率也可以为其它值,本实施例不对训练过程中的各个参数取值作限定。
在训练之后,模型具有良好的识别精度,能够给出高质量的预测信息,可以实现语音信息的情感分类。
可选地,可以使用测试数据对模型进行测试,包括:使用预测结果计算MAP指标,MAP为平均精度均值(Mean Average Precision),用于评估模型的识别精度。
参考下表一所示的训练后的模型和普通卷积网络语音情感识别算法在精度方面的对比结果。根据表1可以看出,经过训练后的模型较卷积神经网络算法高出约百分之7的识别精确度。可见,本发明具有较高的识别精度。
表1:
卷积神经网络 | 训练后本方法模型 | |
MAP | 0.6219 | 0.6938 |
其中,卷积神经网络与本发明所用的预测网络一致,不同之处在于前者输入的是语音情感识别常用的log梅尔滤波器组特征,本实验输入的是原始语音,并利用wav2vec进行特征抽取,然后输入预测网络。
综上所述,本实施例提供的基于wav2vec的语音情感识别方法,通过将语音预训练模型wav2vec成功应用在语音情感识别领域,构建适用于语音情感识别的特征提取网络和预测网络,脱离了语音信号处理时对传统的人工设计特征的依赖性。并且由于采用了wav2vec预训练模型,解决了现有语音情感识别模型不适用于有标签数据稀缺的问题。通过训练后的模型对语音情感识别具有较高的精度水平。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本申请的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。
因此,本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本申请,并且存储有这样的程序产品的存储介质也构成本申请。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本申请的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (6)
1.一种基于wav2vec的语音情感识别方法,其包括:
获取样本语音信号并对样本语音信号进行预处理,获得处理后的样本语音信号;
构建预设分类模型,所述预设分类模型由特征抽取网络和与特征抽取网络相连的预测网络构成;
将所述处理后的样本语音信号输入所述预设分类模型并利用预设的损失函数进行训练,得到语音情感分类模型,所述语音情感分类模型用于对输入的待分类语音信号进行分类;
其中,所述特征抽取网络为wav2vec网络,所述wav2vec网络由特征编码器和与特征编码器相连的多层Transformer构成,所述特征编码器由多个卷积模块组成,所述卷积模块包含时序卷积网络和归一标准化层,所述特征抽取网络用来抽取样本语音信号的情感特征。
2.根据权利要求1所述的方法,其中所述预处理包括:裁剪、填充处理、去均值处理、归一化处理之一或其任意组合。
3.根据权利要求1所述的方法,其中所述预测网络包括多层卷积模块,每个卷模积块包括用于获取特征的卷积层和与卷积层相连的归一标准化层,所述预测网络解码语音信号的情感特征,输出样本语音信号的情感类别。
4.根据权利要求1所述的方法,其中所述Transformer包括用于获取序列特征的多头注意力部分、用于非线性变换的前馈传播部分和用于归一化的加和标准化部分,前馈传播部分位于多头注意力部分之后,在前馈传播部分和多头注意力部分的输出位置分别构建加和标准化部分。
6.根据权利要求1所述的方法,其中所述方法还包括:
使用测试集对训练后的模型进行测试,以确定训练后模型的精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628589.XA CN113257280A (zh) | 2021-06-07 | 2021-06-07 | 基于wav2vec的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628589.XA CN113257280A (zh) | 2021-06-07 | 2021-06-07 | 基于wav2vec的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113257280A true CN113257280A (zh) | 2021-08-13 |
Family
ID=77186657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110628589.XA Pending CN113257280A (zh) | 2021-06-07 | 2021-06-07 | 基于wav2vec的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257280A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115456114A (zh) * | 2022-11-04 | 2022-12-09 | 之江实验室 | 一种模型训练和业务执行的方法、装置、介质及设备 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
US10347241B1 (en) * | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110400579A (zh) * | 2019-06-25 | 2019-11-01 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
CN110415728A (zh) * | 2019-07-29 | 2019-11-05 | 内蒙古工业大学 | 一种识别情感语音的方法和装置 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110598587A (zh) * | 2019-08-27 | 2019-12-20 | 汇纳科技股份有限公司 | 结合弱监督的表情识别网络训练方法、系统、介质及终端 |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN111429947A (zh) * | 2020-03-26 | 2020-07-17 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
CN111445339A (zh) * | 2020-04-20 | 2020-07-24 | 苏州大学 | 双线性注意力卷积神经网络限价单预测分析方法及系统 |
US20210005182A1 (en) * | 2019-07-05 | 2021-01-07 | Asapp, Inc. | Multistream acoustic models with dilations |
EP3769306A1 (en) * | 2018-03-21 | 2021-01-27 | Limbic Limited | Emotion data training method and system |
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112466326A (zh) * | 2020-12-14 | 2021-03-09 | 江苏师范大学 | 一种基于transformer模型编码器的语音情感特征提取方法 |
CN112509564A (zh) * | 2020-10-15 | 2021-03-16 | 江苏南大电子信息技术股份有限公司 | 基于连接时序分类和自注意力机制的端到端语音识别方法 |
CN112633364A (zh) * | 2020-12-21 | 2021-04-09 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
CN112735478A (zh) * | 2021-01-29 | 2021-04-30 | 华南理工大学 | 一种基于加性角惩罚焦点损失的语音情感识别方法 |
CN112786012A (zh) * | 2020-12-31 | 2021-05-11 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
CN112818861A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及系统 |
-
2021
- 2021-06-07 CN CN202110628589.XA patent/CN113257280A/zh active Pending
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3769306A1 (en) * | 2018-03-21 | 2021-01-27 | Limbic Limited | Emotion data training method and system |
US10347241B1 (en) * | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110400579A (zh) * | 2019-06-25 | 2019-11-01 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
US20210005182A1 (en) * | 2019-07-05 | 2021-01-07 | Asapp, Inc. | Multistream acoustic models with dilations |
CN110415728A (zh) * | 2019-07-29 | 2019-11-05 | 内蒙古工业大学 | 一种识别情感语音的方法和装置 |
CN110598587A (zh) * | 2019-08-27 | 2019-12-20 | 汇纳科技股份有限公司 | 结合弱监督的表情识别网络训练方法、系统、介质及终端 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN111429947A (zh) * | 2020-03-26 | 2020-07-17 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
CN111445339A (zh) * | 2020-04-20 | 2020-07-24 | 苏州大学 | 双线性注意力卷积神经网络限价单预测分析方法及系统 |
CN112509564A (zh) * | 2020-10-15 | 2021-03-16 | 江苏南大电子信息技术股份有限公司 | 基于连接时序分类和自注意力机制的端到端语音识别方法 |
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112466326A (zh) * | 2020-12-14 | 2021-03-09 | 江苏师范大学 | 一种基于transformer模型编码器的语音情感特征提取方法 |
CN112633364A (zh) * | 2020-12-21 | 2021-04-09 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
CN112786012A (zh) * | 2020-12-31 | 2021-05-11 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
CN112735478A (zh) * | 2021-01-29 | 2021-04-30 | 华南理工大学 | 一种基于加性角惩罚焦点损失的语音情感识别方法 |
CN112818861A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
STEFFEN SCHNEIDER ET AL: "WAV2VEC : UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION", 《INTERSPEECH 2019》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115456114A (zh) * | 2022-11-04 | 2022-12-09 | 之江实验室 | 一种模型训练和业务执行的方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oord et al. | Representation learning with contrastive predictive coding | |
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
Zhang et al. | Knowledge aware emotion recognition in textual conversations via multi-task incremental transformer | |
CN110189749A (zh) | 语音关键词自动识别方法 | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
CN109684626A (zh) | 语义识别方法、模型、存储介质和装置 | |
CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
CN104091602A (zh) | 一种基于模糊支持向量机的语音情感识别方法 | |
Sheikh et al. | Introducing ECAPA-TDNN and Wav2Vec2. 0 embeddings to stuttering detection | |
Ma et al. | Speech Emotion Recognition with Emotion-Pair Based Framework Considering Emotion Distribution Information in Dimensional Emotion Space. | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN116796740A (zh) | 一种基于TextCNN-Bert融合模型算法的不良信息识别方法 | |
CN112434514A (zh) | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 | |
CN116150698A (zh) | 一种基于语义信息融合的drg自动分组方法及系统 | |
Lingampeta et al. | Human emotion recognition using acoustic features with optimized feature selection and fusion techniques | |
CN113257280A (zh) | 基于wav2vec的语音情感识别方法 | |
CN116186562B (zh) | 基于编码器的长文本匹配方法 | |
CN116312484B (zh) | 跨语言域不变声学特征提取方法和系统 | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
Zhao et al. | Machine learning based text classification technology | |
CN112233668B (zh) | 一种基于神经网络的语音指令及身份识别方法 | |
CN113095079A (zh) | 基于bert的自适应分层输出的中文分词方法 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
Tulchinskii et al. | Topological data analysis for speech processing | |
Kaiyr et al. | Automatic language identification from spectorgam images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210813 |