CN110322900A - 一种语音信号特征融合的方法 - Google Patents
一种语音信号特征融合的方法 Download PDFInfo
- Publication number
- CN110322900A CN110322900A CN201910556520.3A CN201910556520A CN110322900A CN 110322900 A CN110322900 A CN 110322900A CN 201910556520 A CN201910556520 A CN 201910556520A CN 110322900 A CN110322900 A CN 110322900A
- Authority
- CN
- China
- Prior art keywords
- signal character
- novel
- phonic signal
- audio
- character fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 title claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000013461 design Methods 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims description 2
- 230000008451 emotion Effects 0.000 abstract description 8
- 239000000284 extract Substances 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000010354 integration Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 102100024378 AF4/FMR2 family member 2 Human genes 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 101000833172 Homo sapiens AF4/FMR2 family member 2 Proteins 0.000 description 1
- 206010027951 Mood swings Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000010181 polygamy Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种新型的语音信号特征融合的方法,包括如下步骤:步骤1、模型框架搭建;步骤2、神经网络设计;步骤3、音频特征表示和提取。本发明把CNN变体和LSTM变体并行融合成一种新的混合神经网络,并结合Attention机制提取出对最终情感影响最大的信号特征,最终得到能更准确且快速分类情感的音频情感向量,泛化能力强,结构清晰,易于与其他模块集成与分离,而且克服了传统的语音信号特征不能有效融合的问题。
Description
技术领域
本发明涉及语音信号处理人工智能技术领域,特别涉及一种语音信号特征融合的方法。
背景技术
情感分析是自然语言处理中一个经过深入研究的研究领域,它是对人们的意见、情感、评价以及对产品、服务等实体的态度的计算研究。
传统的情感分析方法主要基于文本,随着通信技术的快速发展,智能手机的丰富和社交媒体的迅速崛起,网络用户以音频或视频的形式上传大量数据,而不再是文本。与视频或视听通信相比,语音作为模态似乎最适合人类的情感分析。事实上,由于音频信号的复杂性,音频情绪分析是一项艰巨的任务。众所周知,语音是人类交流最方便和最自然的媒介,不仅带有隐含的语义信息,还包含丰富的情感信息。因此,音频情感分析旨在从语音信号中正确分析说话人的情绪,引起了研究者的极大关注。
目前,基于音频的情感分析方法有如下几个特点:
1)情感分析更加准确:该方法结合语音、语调、音色等音频特征,比基于文本、图像特征的的分析方法更加准确识别用户的情感。在音频领域,提取的特征较多,用户的话语在音频领域表现的特征更加丰富。用户的细微情绪波动,都能在话语音频方面表现处理;
2)提取特征相对容易:相比文本,图像数据,对音频提取特征更加容易。因为文本数据特征还需要考虑到语义理解,上下文环境。而图像视频数据过于复杂,提取特征易受到噪音,背景干扰。
由此可见,基于语音的情感分析越来越受到关注,如何提高情感识别能力,准确分析判断出用户的情感特征便是一个亟需解决的问题。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种语音信号特征融合的方法,以提高情感识别能力,准确分析判断出用户的情感特征。
为达到上述目的,本发明实施例的技术方案是这样实现的:
一种语音信号特征融合的方法,包括如下步骤:
步骤1、模型框架搭建;
步骤2、神经网络设计;
步骤3、音频特征表示和提取。
进一步地,步骤1中,基于Python搭建模型的框架,并安装Keras、numpy、MOSI深度学习数据库。
进一步地,步骤2中,由基于对话的双向长短时记忆网络和基于频谱图的卷积神经网络两个并行的子网络构成神经网络。
进一步地,步骤3中,对于每个话语,将音频信号分成几个段,通过测量几个统计数据来计算全局特征。
进一步地,步骤3中,选择四种声学特征,得到其中不同数量特征的组合,所述四种特征分别是MFCC,Spectral_Centroid,Spectral_Contrast,Chroma_Stft。
本发明实施例提供的技术方案的有益效果是:
本发明把CNN变体和LSTM变体并行融合成一种新的混合神经网络,并结合Attention机制提取出对最终情感影响最大的信号特征,最终得到能更准确且快速分类情感的音频情感向量。该方法泛化能力强,结构清晰,易于与其他模块集成与分离,而且克服了传统的语音信号特征不能有效融合的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音信号特征融合的方法流程图示;
图2是本发明实施例基于Attention机制的CNN和RNN混合模型图示;
图3是本发明实施例基于UB-BiLSTM支路部分图示;
图4是本发明实施例基于基于ResNet152的CNN变体图示。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种语音信号特征融合的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
参照图1-图2所示,本发明语音信号特征融合的方法包括:
步骤1、模型框架搭建
基于Python搭建模型的框架,并安装Keras、numpy、MOSI深度学习数据库;Python为一种计算机程序设计语言,是一种动态的、面向对象的脚本语言。
步骤2、神经网络设计
如图2所示,由基于对话的(utterance based)双向长短时记忆网络(BiLSTM)(简称“UB-BiLSTM”)和基于频谱图的(spectrum based)卷积神经网络(CNN)(简称“SB-CNN”)两个并行的子网络构成神经网络。
长短时记忆(Long Short-Term Memory,LSTM)是一种时间循环神经网络(RNN),LSTM被作为一个“微处理器”代替原RNN模型中的神经元,这种特殊结构的模型称为cell;cell结构中包含三个门控单元,分别叫遗忘门、输入门、输出门,三个门控单元的协助,用于保持cell的状态进行长距离传输;遗忘门单元用来决定cell的状态中丢弃一些信息,输入门单元用来决定多少新的信息加入到cell的状态中,输出门单元用来决定cell的状态能够输出多少。UB-BiLSTM的支路使用的是利用相邻的三个对话作为神经网络的输入,提取的相邻对话之间的时序信息,最后得到的BiLSTM这一路的音频特征向量(AudioSentimentVector from BiLSTM),简称LASV。
卷积神经网络(Convolutional Neural Network,CNN)为一种前馈神经网络,卷积神经网络由一个或多个卷积层池化层、输入端的全连接层和输出端的分类连接层组成。卷积神经网络的每个神经元只与上一层的部分神经元相连,只感知局部数据,而不是整个矩阵数据。卷积神经网络的卷积核在进行卷积操作时,在同一份样本数据上的操作,卷积核权重参数不会改变。同一卷积核可以提取数据中不同位置的类似特征,这样可以大幅减少参数,提高训练速度。
其中,SB-CNN这一支路利用相邻的三个对话音频的频谱图作为输入,通过卷积神经网络的变体来从图像中提取特征,以次弥补纯序列模型的不足。通过卷积神经网络得到的音频特征向量(CASV)最后利用基于Attention的机制与LASV融合,得到最后的音频特征向量(ASV),此向量即对应输入三个相邻对话音频最中间的那个对话音频的特征。
SBCNN支路部分如图3所示,模型的输入是一个视频中的三个相邻的音频对应的频谱图。每一个频谱图利用著名的CNN网络ResNet 152进行特征的提取。为了考虑到相邻对话之间的相关性,同样使用了BiLSTM网络层,通过其得到的CASV同样为U2所对应的特征向量。
UB-BiLSTM支路部分如图4所示,对于每一个对话U1,利用Librosa toolkit提取了四种声学特征。在第一层音频特征融合模型(AFF1)中,利用BiLSTM来进一步提取特征,这样能够反映一个音频内部的关联性,以及特征之间的关联性。同时使用了Dropout layer来防止数据不足或是模型结构过于复杂带来的过拟合问题,最后再进入一个BiLSTM总结压缩特征,得到V1来表征第一个对话。同样的方式可以得到相邻的V2和V3,如图3所示。在AFF2中,使用类似的BiLSTM方法,与之前不同的是,这次的BiLSTM的输入多个音频,所以总结出来的特征是考虑到了相邻三个音频之间的关联性,而最终得到的结果LASV对应的是第二个特征。换言之,第二个音频对应的LASV考虑到了前后相邻两个音频对其的贡献。
步骤3、音频特征表示和提取
在语音产生期间有几种话语,对于每个话语,音频信号可以分成几个段。通过测量几个统计数据来计算全局特征,例如,平均值、局部特征的偏差。
应用时,在众多的声学特征中,选择七种公认的声学特征,得到其中不同数量特征的组合,最后发现其中的四种特征组合能起到最好的效果。这四种特征分别是MFCC,Spectral_Centroid,Spectral_Contrast,Chroma_Stft,实验结果如表一所示,显示了不同数量特征组合的对比。其中,Model一栏的LSTM和BiLSTM指的是图3模型中的BiLSTM替换为了单向的LSTM。
表1
在提取音频的频谱图的过程中,除了ResNet152,还有很多其他成熟的CNN网络,如LeNet,AlexNet,VGG16,ResNet18,ResNet50,ZFNet。在MOSI数据集上做了大量的实验,其中有2分类,5分类,7分类,如表2所示不同CNN模型的对比。试验中使用的是F1和Macro F1来衡量模型的效果,其定义如下:
其中,β表示准确率(precision)和召回率(recall)之间的权重。在五分类和二分类中,有Macro F1定义如下:
其中n表示的在第n个类别上的F1分数的平均。
表2
在融合模型的筛选实验中,如表3所示为不同SBCNN和和UB-BiLSTM的组合实验,可见UB-BiLSTM+SBCNN的组合效果最好。
表3
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例提供的上述技术方案的全部或部分可以通过程序指令相关的硬件来完成,所述程序可以存储在可读取的存储介质中,该存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种新型的语音信号特征融合的方法,其特征在于,包括如下步骤:
步骤1、模型框架搭建;
步骤2、神经网络设计;
步骤3、音频特征表示和提取。
2.根据权利要求1所述的新型的语音信号特征融合的方法,其特征在于,步骤1中,基于Python搭建模型的框架,并安装Keras、numpy、MOSI深度学习数据库。
3.根据权利要求2所述的新型的语音信号特征融合的方法,其特征在于,步骤2中,由基于对话的双向长短时记忆网络和基于频谱图的卷积神经网络两个并行的子网络构成神经网络。
4.根据权利要求3所述的新型的语音信号特征融合的方法,其特征在于,步骤3中,对于每个话语,将音频信号分成几个段,通过测量几个统计数据来计算全局特征。
5.根据权利要求4所述的新型的语音信号特征融合的方法,其特征在于,步骤3中,选择四种声学特征,得到其中不同数量特征的组合,所述四种特征分别是MFCC,Spectral_Centroid,Spectral_Contrast,Chroma_Stft。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910556520.3A CN110322900A (zh) | 2019-06-25 | 2019-06-25 | 一种语音信号特征融合的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910556520.3A CN110322900A (zh) | 2019-06-25 | 2019-06-25 | 一种语音信号特征融合的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110322900A true CN110322900A (zh) | 2019-10-11 |
Family
ID=68120207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910556520.3A Pending CN110322900A (zh) | 2019-06-25 | 2019-06-25 | 一种语音信号特征融合的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110322900A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827837A (zh) * | 2019-10-18 | 2020-02-21 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
CN110853666A (zh) * | 2019-12-17 | 2020-02-28 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN111008674A (zh) * | 2019-12-24 | 2020-04-14 | 哈尔滨工程大学 | 一种基于快速循环单元的水下目标探测方法 |
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111968670A (zh) * | 2020-08-19 | 2020-11-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频识别方法及装置 |
CN112002348A (zh) * | 2020-09-07 | 2020-11-27 | 复旦大学 | 一种患者语音愤怒情绪识别方法和系统 |
CN114245280A (zh) * | 2021-12-20 | 2022-03-25 | 清华大学深圳国际研究生院 | 一种基于神经网络的场景自适应助听器音频增强系统 |
CN114882906A (zh) * | 2022-06-30 | 2022-08-09 | 广州伏羲智能科技有限公司 | 一种新型环境噪声识别方法及系统 |
CN115762565A (zh) * | 2023-01-06 | 2023-03-07 | 江苏省气象服务中心 | 一种基于路噪音频分析的路面气象状况识别方法及系统 |
CN116740015A (zh) * | 2023-06-12 | 2023-09-12 | 北京长木谷医疗科技股份有限公司 | 基于深度学习的医学图像智能检测方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN107863111A (zh) * | 2017-11-17 | 2018-03-30 | 合肥工业大学 | 面向交互的语音语料处理方法及装置 |
WO2018133034A1 (en) * | 2017-01-20 | 2018-07-26 | Intel Corporation | Dynamic emotion recognition in unconstrained scenarios |
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
-
2019
- 2019-06-25 CN CN201910556520.3A patent/CN110322900A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
WO2018133034A1 (en) * | 2017-01-20 | 2018-07-26 | Intel Corporation | Dynamic emotion recognition in unconstrained scenarios |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN107863111A (zh) * | 2017-11-17 | 2018-03-30 | 合肥工业大学 | 面向交互的语音语料处理方法及装置 |
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
徐聪: "基于卷积—长短时记忆神经网络的时序信号多粒度分析处理方法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827837B (zh) * | 2019-10-18 | 2022-02-22 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
CN110827837A (zh) * | 2019-10-18 | 2020-02-21 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
CN110853666A (zh) * | 2019-12-17 | 2020-02-28 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN111008674A (zh) * | 2019-12-24 | 2020-04-14 | 哈尔滨工程大学 | 一种基于快速循环单元的水下目标探测方法 |
CN111008674B (zh) * | 2019-12-24 | 2022-05-03 | 哈尔滨工程大学 | 一种基于快速循环单元的水下目标探测方法 |
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111968670A (zh) * | 2020-08-19 | 2020-11-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频识别方法及装置 |
CN112002348B (zh) * | 2020-09-07 | 2021-12-28 | 复旦大学 | 一种患者语音愤怒情绪识别方法和系统 |
CN112002348A (zh) * | 2020-09-07 | 2020-11-27 | 复旦大学 | 一种患者语音愤怒情绪识别方法和系统 |
CN114245280A (zh) * | 2021-12-20 | 2022-03-25 | 清华大学深圳国际研究生院 | 一种基于神经网络的场景自适应助听器音频增强系统 |
CN114882906A (zh) * | 2022-06-30 | 2022-08-09 | 广州伏羲智能科技有限公司 | 一种新型环境噪声识别方法及系统 |
CN115762565A (zh) * | 2023-01-06 | 2023-03-07 | 江苏省气象服务中心 | 一种基于路噪音频分析的路面气象状况识别方法及系统 |
CN116740015A (zh) * | 2023-06-12 | 2023-09-12 | 北京长木谷医疗科技股份有限公司 | 基于深度学习的医学图像智能检测方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322900A (zh) | 一种语音信号特征融合的方法 | |
US11908455B2 (en) | Speech separation model training method and apparatus, storage medium and computer device | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
CN107393554B (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
EP3469582A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN103065620B (zh) | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 | |
CN109599093A (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
CN109272992A (zh) | 一种口语测评方法、装置及一种生成口语测评模型的装置 | |
CN110222841A (zh) | 基于间距损失函数的神经网络训练方法和装置 | |
Sugan et al. | Performance comparison of different cepstral features for speech emotion recognition | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN115762536A (zh) | 一种基于桥接Transformer的小样本优化鸟声识别方法 | |
CN106328123B (zh) | 小数据库条件下正常语音流中耳语音的识别方法 | |
CN111433847A (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN109346056A (zh) | 基于深度度量网络的语音合成方法及装置 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN111128211A (zh) | 一种语音分离方法及装置 | |
Xu | English speech recognition and evaluation of pronunciation quality using deep learning | |
KR20130068624A (ko) | 화자 그룹 기반 음성인식 장치 및 방법 | |
Cao et al. | Emotion recognition from children speech signals using attention based time series deep learning | |
Liu et al. | Hierarchical component-attention based speaker turn embedding for emotion recognition | |
Choi et al. | Learning to maximize speech quality directly using MOS prediction for neural text-to-speech | |
CN116913244A (zh) | 一种语音合成方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191011 |
|
RJ01 | Rejection of invention patent application after publication |