CN116645980A - 一种聚焦样本特征间距的全生命周期语音情感识别方法 - Google Patents
一种聚焦样本特征间距的全生命周期语音情感识别方法 Download PDFInfo
- Publication number
- CN116645980A CN116645980A CN202310794609.XA CN202310794609A CN116645980A CN 116645980 A CN116645980 A CN 116645980A CN 202310794609 A CN202310794609 A CN 202310794609A CN 116645980 A CN116645980 A CN 116645980A
- Authority
- CN
- China
- Prior art keywords
- sample
- model
- training
- samples
- emotion recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000013500 data storage Methods 0.000 claims abstract description 17
- 238000012512 characterization method Methods 0.000 claims abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 5
- 230000008451 emotion Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000149 penetrating effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机处理技术领域,更具体地,涉及一种聚焦样本特征间距的全生命周期语音情感识别方法。在预训练阶段,本发明引入大规模预训练模型提取更为准确的语音表征;在微调阶段,通过交叉熵损失和有监督对比学习损失加权求和的结果,指导模型进行微调,使模型学习到的样本表征间距获得改善;在推理阶段,首先构造数据存储集合,用来存储训练集和验证集的样本表征及样本标签,为进一步利用改善后的样本间距,通过K最近邻检索增强的方法,检索得到数据存储集合中与测试样本最相似的K个样本,将检索得到的标签分布与模型对于测试样本的推理分布结果进行加权求和,得到测试样本的最终预测标签。
Description
技术领域
本发明涉及计算机处理技术领域,更具体地,涉及一种聚焦样本特征间距的全生命周期语音情感识别方法。
背景技术
情感识别是人机交互领域的一个重要方面,语音通过音调、频率、速度和重音等不同属性传递丰富的情感信息,随着人工智能技术的发展,语音情感识别(Speech EmotionRecognition,SER)已经广泛应用于在线教育、人工客服和心理健康等领域。
目前,随着深度学习技术的发展,基于循环神经网络、时延神经网络以及卷积神经网络等神经网络的模型结构成为了语音情感识别的主要方法,相比传统的方法,这些方法对于手工提取的音频特征的依赖程度减弱,通过学习更深层次的语音特征表示,使语音情感识别的准确率得到了突破。
然而,数据驱动的深度学习技术也让语音情感识别面临着新的挑战。为了使用规模较大、鲁棒性较高的模型提取更为准确的特征,“预训练+微调”的模型范式在人工智能的各个领域得到应用。与其他相关领域相比,语音情感识别领域的数据集规模较小,数据量的限制使得语音情感识别目前还没有可以直接应用的通用预训练模型。这使得语音情感的特征表示存在不准确的情况,将直接影响语音情感识别的准确性。
此外,由于某些情感(例如愤怒与兴奋的情绪)在韵律上的相似性,导致在不借鉴文本信息的单模态语音识别领域,模型对于上述情感的声学特征难以分辨,在特征空间中,一些情感特征存在分类边界模糊的问题,使语音情绪识别的准确率有所降低。
发明内容
为了缓解语音情感识别领域数据量对于应用技术的限制,并且有效解决不同情绪类别分类边界模糊的问题,本发明提供一种聚焦样本间距的、贯穿语音情感识别全生命周期的方法。此方法涉及到语音情感识别的预训练、微调和推理三个阶段的改进。通过在预训练阶段提取更为准确的特征表示、在微调阶段改善样本间距、在推理阶段二次利用改善后的样本数据,使有限的数据量得到充分利用,并且使特征空间中不同类别之间的语音情绪表征划分更加清晰,有效提升语音情感识别的准确率。
本发明主要涉及到语音情感识别全生命周期的三个阶段:预训练、微调和推理阶段。
在预训练阶段,本发明引入大规模预训练模型提取更为准确的语音表征;在微调阶段,通过交叉熵损失和有监督对比学习损失加权求和的结果,指导模型进行微调,使模型学习到的样本表征间距获得改善,具体来说,同类之间样本的间距缩小,不同类之间样本的间距扩大;在推理阶段,首先构造数据存储集合,用来存储训练集和验证集的样本表征及样本标签,为进一步利用改善后的样本间距,通过K最近邻检索增强的方法,检索得到数据存储集合中与测试样本最相似的K个样本,将检索得到的标签分布与模型对于测试样本的推理分布结果进行加权求和,得到测试样本的最终预测标签。
为实现上述目的,本发明采用如下技术方案:
一种聚焦样本特征间距的全生命周期语音情感识别方法,其特征在于,包括以下步骤:
步骤S101,对输入的训练样本进行随机增强;
步骤S102,引入在大规模数据集上训练得到的模型作为预训练模型;
步骤S103,使用步骤S102中引入的预训练模型对步骤S101中得到的样本实例进行特征提取,定义正负样本,计算有监督对比学习损失;
步骤S104,计算交叉熵损失,与步骤S103中计算得到的有监督对比学习损失加权求和,对模型预训练微调;
步骤S105,使用步骤S104中微调得到的模型,得到训练样本的表征-标签键值对,构建数据存储集合;
步骤S106,给定测试样本,在步骤S105得到的数据存储集合中,检索到与测试样本最近邻的K个样本,并记录其标签分布情况;
步骤S107,对于步骤S106中给定的测试样本,利用步骤S104中的模型预测其输出分布;
步骤S108,将步骤S106和步骤S107得到的分布加权求和,得到测试样本最终预测标签。
本技术方案进一步的优化,所述步骤103中计算有监督对比学习损失Lscl如下:
其中i∈I={1,……,2N}表示一个实例的索引,N为样本数,A(i)表示除i外的所有索引,P(i)表示和样本i具有相同标签的所有正样本的索引,a∈A(i)表示具体的某个除i外的样本索引,p∈P(i)表示具体的某个和样本i具有相同标签的正样本的索引;τ为计算有监督对比学习损失的超参数;xi,xp,xa分别表示对应下标的音频样本的特征向量。
本技术方案进一步的优化,所述步骤104中计算交叉熵损失Lce如下:
其中,N表示样本个数,C表示种类个数,yi表示音频样本标签,为模型预测的第i个样本属于第c类的概率结果。
本技术方案进一步的优化,所述步骤104将有监督对比学习损失Lscl和交叉熵损失Lce进行加权求和,得到模型最终的损失L如下:
L=(1-μ)Lce+μLscl
其中,μ为平衡交叉熵损失和对比学习损失的超参数。
本技术方案进一步的优化,所述步骤105包括:使用步骤S104中微调得到的模型,对所有训练集样本数据进行一次前向传播,根据样本的表征向量和标签,创建包含所有训练集样本数据和验证集样本数据的数据存储集合,存储格式如下:
(K,V)={(xi,yi),i∈D}
其中,D为训练集和验证集的所有样本索引的集合,xi表示第i个音频样本经过步骤S104中模型计算得到的特征向量,yi为第i个音频样本对应的标签。
本技术方案进一步的优化,所述步骤108包括:综合从步骤S106中的数据存储集合中的检索结果以及步骤S107中的模型推理结果,对其进行加权求和,得到测试样本最终预测分布p(y|x)如下:
p(y|x)=αpknn(y|x)+(1-α)pmodel(y|x)
其中,α为调整pknn(y|x)和pmodel(y|x)比例的超参数,pknn(y|x)为步骤S106检索到与测试样本最近邻的K个样本并记录其中各个类别标签的分布情况,pmodel(y|x)为步骤S107中利用步骤S104中微调得到的模型对其进行推理,预测输出分布情况。
本技术方案进一步的优化,所述预训练模型为Wav2vec2.0模型。
区别于现有技术,上述技术方案有益效果如下:
聚焦样本特征间距并贯穿整个模型生命周期的语音情感识别方法,通过引入大规模预训练模型进行特征提取,有效地解决了数据量限制的条件下,语音情感表征不准确的问题;通过构造新的损失函数指导微调,改善了样本特征间距,使得不同种类的语音情绪表征在特征空间中的分布更加清晰,缓解了以往存在的情绪边界混淆问题;推理阶段,通过K最近邻检索增强的思想,对改进后的样本间距进行二次利用,在不需要任何额外的训练的情况下,进一步提升了模型的识别准确率,节约了提升模型性能所需的计算成本和时间成本。
附图说明
图1为聚焦样本特征间距的全生命周期语音情感识别方法流程示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
如图1所示,为聚焦样本特征间距的全生命周期语音情感识别方法流程示意图。该实施例的语音情感识别方法具体包括如下步骤:
步骤S101,对输入的训练样本进行随机增强。
对于一组个数为N的输入样本实例进行随机增强,增强方式包括添加噪音、改变音量、添加混响、改变音高以及混合增强。经过增强后的音频标签与原始音频相同。增强后,得到含有原始训练样本以及随机增强样本共2N个样本实例。
步骤S102,引入在大规模数据集上训练得到的模型作为预训练模型。
数据驱动的深度学习技术,需要大量的数据进行训练,以得到泛化能力更强、鲁棒性更好的大规模模型。Wav2vec2.0是在总时长为960小时的大规模语音数据集上训练得到的自监督预训练模型,可以构建较为准确的语音表征。在预训练阶段,采用迁移学习的思想,引入wav2vec2.0作为特征提取器,弥补语音情感数据的稀缺性带来的缺陷,提取到通用的、准确的语音特征表示。
步骤S103,定义正负样本,计算有监督对比学习损失。
使用步骤S102中引入的预训练模型对步骤S101中得到的样本实例进行特征提取。对于一组个数为N的输入样本实例{xk,yk},k=1,……,N,xk表示一个输入音频的特征向量,yk为这段音频用独热编码表示的标签。一个训练批大小由2N个样本实例组成,表示为{xl,yl},l=1,……,2N,其中,x2t(t=1,...,N)表示原始音频向量xk,x2t-1表示xk(k=1,...,N)的随机增强版本,经过增强后的音频标签与原始音频相同,可以表示为y2t=y2t-1=yk。具有相同标签y的样本实例称为正样本,而具有不同标签的样本实例称为负样本。计算有监督对比学习损失Lscl如下:
其中i∈I={1,……,2N}表示一个实例的索引,N为样本数,A(i)表示除i外的所有索引,P(i)表示和样本i具有相同标签的所有正样本的索引,a∈A(i)表示具体的某个除i外的样本索引,p∈P(i)表示具体的某个和样本i具有相同标签的正样本的索引;τ为计算有监督对比学习损失的超参数;xi,xp,xa分别表示对应下标的音频样本的特征向量。
步骤S104,计算交叉熵损失,与步骤S103中计算得到的有监督对比学习损失加权求和指导模型微调。
通过步骤S103中提取得到的N个未经增强的原始音频特征向量,计算交叉熵损失Lce如下:
其中,N表示样本个数,C表示种类个数,yi表示音频样本标签,为模型预测的第i个样本属于第c类的概率结果。
将有监督对比学习损失Lscl和交叉熵损失Lce进行加权求和,得到模型最终的损失L如下:
L=(1-μ)Lce+μLscl
其中,μ为平衡交叉熵损失和对比学习损失的超参数。
通过设计和计算上述损失函数并使其最小化,使有监督学习损失辅助基础的交叉熵损失对模型进行微调,达到了拉进同类样本之间距离、拉远不同类样本之间距离的效果有助于缓解不同类别样本之间的模糊边界问题。
步骤S105,使用步骤S104中微调得到的模型,得到训练样本的表征-标签键值对,构建数据存储集合。
使用步骤S104中微调得到的模型,对所有训练集样本数据进行一次前向传播,根据样本的表征向量和标签,创建包含所有训练集样本数据和验证集样本数据的数据存储集合,存储格式如下:
(K,V)={(xi,yi),i∈D}
其中,D为训练集和验证集的所有样本索引的集合,xi表示第i个音频样本经过步骤S104中模型计算得到的特征向量,yi为第i个音频样本对应的标签。
步骤S106,给定测试样本,在步骤S105得到的数据存储集合中,检索到与测试样本最近邻的K个样本,并记录其标签分布情况。
当给定一个测试样本时,根据样本的特征向量,计算步骤S105中的数据存储集合所有的样本与测试样本的欧氏距离,检索到与测试样本最近邻的K个样本并记录其中各个类别标签的分布情况,记为pknn(y|x)。
步骤S107,对于步骤S106中给定的测试样本,利用步骤S104中的模型预测其输出分布。
对于步骤S106中给定的测试样本,利用步骤S104中微调得到的模型对其进行推理,预测输出分布情况,记为pmodel(y|x)。
步骤S108,将步骤S106和步骤S107得到的分布加权求和,得到测试样本最终预测标签。
综合从步骤S106中的数据存储集合中的检索结果以及步骤S107中的模型推理结果,对其进行加权求和,得到测试样本最终预测分布p(y|x)如下:
p(y|x)=αpknn(y|x)+(1-α)pmodel(y|x)
其中,α为调整pknn(y|x)和pmodel(y|x)比例的超参数。
聚焦样本特征间距的全生命周期语音情感识别方法,通过有监督对比学习和检索增强的相互作用,在语音情感识别的全周期对样本间距进行了改善和利用。
有监督对比学习能有效地改善类内和类间样本间距,将不同类之间的样本间距拉大,同一类之间的样本间距缩小,使各个类别的语音情感特征在样本空间内的分布更加清晰。在经过改善的特征空间中,推理阶段进一步使用基于样本间距进行计算的KNN算法实现检索增强策略,在不需要任何额外训练的情况下,提升模型的识别性能。此外,在经过有监督对比学习改善后的特征空间中,有监督对比学习和基于KNN算法的检索增强思想对于样本间距的改善、利用以及对于模型性能的提升可以起到显著的效果。相比以往的语音情感识别算法,在IEMOCAP数据集上,本发明提出的算法在Weighted Accuracy(WA)以及Unweighted Accuracy(UA)两个评价指标上取得了更好的结果,如下表所示:
在目前已知的语音情感识别算法中,本发明第一次引入了检索增强的思想,并将其与预训练模型、有监督对比学习一起,共同构成了聚焦样本特征间距的全生命周期语音情感识别方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (7)
1.一种聚焦样本特征间距的全生命周期语音情感识别方法,其特征在于,包括以下步骤:
步骤S101,对输入的训练样本进行随机增强;
步骤S102,引入在大规模数据集上训练得到的模型作为预训练模型;
步骤S103,使用步骤S102中引入的预训练模型对步骤S101中得到的样本实例进行特征提取,定义正负样本,计算有监督对比学习损失;
步骤S104,计算交叉熵损失,与步骤S103中计算得到的有监督对比学习损失加权求和,对模型预训练微调;
步骤S105,使用步骤S104中微调得到的模型,得到训练样本的表征-标签键值对,构建数据存储集合;
步骤S106,给定测试样本,在步骤S105得到的数据存储集合中,检索到与测试样本最近邻的K个样本,并记录其标签分布情况;
步骤S107,对于步骤S106中给定的测试样本,利用步骤S104中的模型预测其输出分布;
步骤S108,将步骤S106和步骤S107得到的分布加权求和,得到测试样本最终预测标签。
2.如权利要求1所述的聚焦样本特征间距的全生命周期语音情感识别方法,其特征在于,所述步骤103中计算有监督对比学习损失Lscl如下:
其中i∈I={1,……,2N}表示一个实例的索引,N为样本数,A(i)表示除i外的所有索引,P(i)表示和样本i具有相同标签的所有正样本的索引,a∈A(i)表示具体的某个除i外的样本索引,p∈P(i)表示具体的某个和样本i具有相同标签的正样本的索引;τ为计算有监督对比学习损失的超参数;xi,xp,xa分别表示对应下标的音频样本的特征向量。
3.如权利要求2所述的聚焦样本特征间距的全生命周期语音情感识别方法,其特征在于,所述步骤104中计算交叉熵损失Lce如下:
其中,N表示样本个数,C表示种类个数,yi表示音频样本标签,为模型预测的第i个样本属于第c类的概率结果。
4.如权利要求3所述的聚焦样本特征间距的全生命周期语音情感识别方法,其特征在于,所述步骤104将有监督对比学习损失Lscl和交叉熵损失Lce进行加权求和,得到模型最终的损失L如下:
L=(1-μ)Lce+μLscl
其中,μ为平衡交叉熵损失和对比学习损失的超参数。
5.如权利要求1所述的聚焦样本特征间距的全生命周期语音情感识别方法,其特征在于,所述步骤105包括:使用步骤S104中微调得到的模型,对所有训练集样本数据进行一次前向传播,根据样本的表征向量和标签,创建包含所有训练集样本数据和验证集样本数据的数据存储集合,存储格式如下:
(K,V)={(xi,yi),i∈D}
其中,D为训练集和验证集的所有样本索引的集合,xi表示第i个音频样本经过步骤S104中模型计算得到的特征向量,yi为第i个音频样本对应的标签。
6.如权利要求1所述的聚焦样本特征间距的全生命周期语音情感识别方法,其特征在于,所述步骤108包括:综合从步骤S106中的数据存储集合中的检索结果以及步骤S107中的模型推理结果,对其进行加权求和,得到测试样本最终预测分布p(y|x)如下:
p(y|x)=αpknn(y|x)+(1-α)pmodel(y|x)
其中,α为调整pknn(y|x)和pmodel(y|x)比例的超参数,pknn(y|x)为步骤S106检索到与测试样本最近邻的K个样本并记录其中各个类别标签的分布情况,pmodel(y|x)为步骤S107中利用步骤S104中微调得到的模型对其进行推理,预测输出分布情况。
7.如权利要求1所述的聚焦样本特征间距的全生命周期语音情感识别方法,其特征在于,所述预训练模型为Wav2vec2.0模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310794609.XA CN116645980A (zh) | 2023-06-30 | 2023-06-30 | 一种聚焦样本特征间距的全生命周期语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310794609.XA CN116645980A (zh) | 2023-06-30 | 2023-06-30 | 一种聚焦样本特征间距的全生命周期语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645980A true CN116645980A (zh) | 2023-08-25 |
Family
ID=87643608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310794609.XA Pending CN116645980A (zh) | 2023-06-30 | 2023-06-30 | 一种聚焦样本特征间距的全生命周期语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645980A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822633A (zh) * | 2023-08-31 | 2023-09-29 | 清华大学 | 基于自我认知的模型推理方法、装置及电子设备 |
-
2023
- 2023-06-30 CN CN202310794609.XA patent/CN116645980A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822633A (zh) * | 2023-08-31 | 2023-09-29 | 清华大学 | 基于自我认知的模型推理方法、装置及电子设备 |
CN116822633B (zh) * | 2023-08-31 | 2023-12-26 | 清华大学 | 基于自我认知的模型推理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417894B (zh) | 一种基于多任务学习的对话意图识别方法及识别系统 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
JP2022042487A (ja) | ドメイン適応型ニューラルネットワークの訓練方法 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN118193683B (zh) | 一种基于语言大模型的文本推荐方法及系统 | |
CN116645980A (zh) | 一种聚焦样本特征间距的全生命周期语音情感识别方法 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN118152547B (zh) | 一种根据提问者理解能力的机器人回答方法、介质及系统 | |
CN115994204A (zh) | 适用于少样本场景的国防科技文本结构化语义分析方法 | |
CN116524960A (zh) | 一种基于混合熵下采样和集成分类器的语音情感识别系统 | |
CN117349423A (zh) | 一种模板匹配式水利领域知识问答模型 | |
CN115345165A (zh) | 一种面向标签稀缺或分布不平衡场景的特定实体识别方法 | |
CN116189671B (zh) | 一种用于语言教学的数据挖掘方法及系统 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN116361442B (zh) | 基于人工智能的营业厅数据分析方法及系统 | |
CN116720498A (zh) | 一种文本相似度检测模型的训练方法、装置及其相关介质 | |
CN114742073B (zh) | 一种基于深度学习的对话情绪自动识别方法 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN116167353A (zh) | 一种基于孪生长短期记忆网络的文本语义相似度度量方法 | |
CN116050419A (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN113792120B (zh) | 图网络的构建方法及装置、阅读理解方法及装置 | |
CN115310449A (zh) | 一种基于小样本的命名实体识别方法、装置及相关介质 | |
CN113516209A (zh) | 一种用于少样本意图识别的对比任务适应学习方法 | |
CN113505602A (zh) | 适用于司法考试主观题的智能阅卷方法、装置及电子设备 | |
CN113053418A (zh) | 一种基于长短时记忆网络快速识别语音情感类别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |