CN112820301B - 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 - Google Patents

一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 Download PDF

Info

Publication number
CN112820301B
CN112820301B CN202110277452.4A CN202110277452A CN112820301B CN 112820301 B CN112820301 B CN 112820301B CN 202110277452 A CN202110277452 A CN 202110277452A CN 112820301 B CN112820301 B CN 112820301B
Authority
CN
China
Prior art keywords
field
domain
target
source
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110277452.4A
Other languages
English (en)
Other versions
CN112820301A (zh
Inventor
赵庆卫
方策
王文超
张鹏远
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202110277452.4A priority Critical patent/CN112820301B/zh
Publication of CN112820301A publication Critical patent/CN112820301A/zh
Application granted granted Critical
Publication of CN112820301B publication Critical patent/CN112820301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:分别从源领域和目标领域的语音中提取多维声学特征;将提取的多维声学特征分别打上领域标签;将提取的源领域和目标领域的多维声学特征作为训练数据送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数;利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;经过多次迭代直至收敛,模型训练完成。本发明可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。

Description

一种融合分布对齐和对抗学习的无监督跨域声纹识别方法
技术领域
本发明涉及跨域声纹识别技术,尤其涉及一种融合分布对齐和对抗学习的无监督跨域声纹识别方法。
背景技术
通过深度学习的建模方法从语音中提取深度声纹鉴别性特征,成为该领域主流的研究热点。深度神经网络(Deep Neural Networks,DNN)具有强大的建模能力,以及针对各场景提出的损失函数,展现出相对于传统技术的明显优势。其中的声纹特征是一段固定长度、蕴含声纹鉴别性信息的向量,然而这种深度特征仍然对领域的变化十分敏感。
在实际应用中,训练好的模型在新的领域使用时,大量干扰因素使得目标领域和源领域数据分布存在差异,比如语音录制的设备不同,环境的背景噪声情况不同,语言种类不同,甚至说话人到同一录制设备的距离不同,都会最终影响识别的准确率。
基于对抗学习(Adversarial Learning)的领域自适应(Domain Adaptation)技术,在降低领域偏移(domain shift)上卓有成效。对抗领域自适应技术与早年的生成对抗网络(generative adversarial networks,GAN)类似,利用一个特征提取网络来获取深度特征,同时采用一个域分类网络来区分输入的训练样本是来自源领域还是目标领域。这种区分的目的是让网络最终无法分辨源领域和目标领域,从而认为提取到的深度特征中,领域信息的差异减小,或者领域的信息被削弱。通过梯度反转层(Gradient Reversal Layer,GRL)的引入,这种域对抗训练的方法得到了较好的实现。
上述方法一般需要建立在目标领域的训练数据同样有说话人标签的基础上,也就是有监督训练。而在科研或实际应用中,采集足够的有说话人标签的语音数据往往需要消耗大量人力或成本,可行性不高。
采用分布匹配(Distribution matching)理论的领域自适应方法同样也被用来减小领域偏移,最大均值差异(Maximum Mean Discrepancy,MMD)和相关对齐法(CorrelationAlignment,CORAL)是最常用的两个域之间分布差异的度量方式。此外,目前大多深度领域自适应技术都聚焦在源领域和目标领域间的全局偏移,而没有考虑两个领域都有的子领域之间的关系(子领域是指两个领域里都有的同一目标类)。这样经过全局的领域自适应之后,源领域和目标领域的整体分布可能趋向相似,但各自领域内部子领域之间的数据可能会因距离太近而无法区分。研究者在图像分类任务中引入了局部最大均值差异(LocalMaximum Mean Discrepancy,LMMD)来解决此类问题。
卷积神经网络(Convolutional Neural Networks,CNN)由于多变的感受野,能够有强大的多尺度特征表达能力。以CNN为主干,发展出大量网络模型,AlexNet通过卷积层的堆叠和使用更大的卷积核,在计算机视觉领域取得过突破性的成绩,但局限于层数和卷积核的大小,感受野有限。VGGNet使用更深的网络深度和更小的卷积核,获得了更好的识别效果,表明增加网络层数比增大卷积核能够效率更高的增大感受野,从而学习到更大尺度的特征表达。但过多的网络层数容易造成训练过程中的梯度退化问题。
2015年何恺明提出的残差网络(ResNet)对CNN做了较大创新,不再简单的堆积网络层数,而是增加一个恒等映射结构,解决了困扰已久的深度学习中网络退化问题,成为目前最为流行的CNN网络结构之一。
发明内容
本发明的目的在于,解决现有跨域声纹识别算法存在的上述技术问题。
为实施上述目的,本发明提供了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:
分别从源领域和目标领域的语音中提取多维声学特征;
将提取的多维声学特征分别打上领域标签;
将提取的源领域和目标领域的多维声学特征作为训练数据送入神经网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;最后根据目标函数计算整个系统的损失函数;
利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;
经过多次迭代直至收敛,模型训练完成。
本发明提供的方法可以在目标领域缺少数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。
附图简要
图1为本发明实施例提供的一种融合分布对齐和对抗学习的无监督跨域声纹识别方法示意图;
图2为声学特征提取示意图。
具体实施方式
本发明实施例提供的一种融合分布对齐和对抗学习的无监督领域自适应的声纹识别方法,这里的无监督情景指的是训练数据中,源领域数据有说话人标注,目标领域数据没有说话人标注。具体实现方法是在网络中加入两个子结构。其一是在前向计算的最后引入一个领域分类器,核心思想是通过这样的结构去学习到领域无关的分类鉴别性的特征。其二是将特征提取网络最后的全联接层用作相关对齐的模块,来最小化源领域数据和目标领域数据的差异,从而使得模型可以在无标签的目标领域尽可能地分类准确。
图1为本发明实施例提供的一种融合分布对齐和对抗学习的无监督跨域声纹识别方法示意图。如图1所示,该方法包括以下步骤:
步骤一,分别从源领域和目标领域的语音中提取多维声学特征;
具体地,假设源领域训练数据总数为Ns,标签为YS,记作
Figure BDA0002977212310000031
目标领域训练数据总数为Nt,记作
Figure BDA0002977212310000032
该批数据没有说话人标签,并且假设源领域和目标领域的数据分布不同,即
Figure BDA0002977212310000033
无监督领域自适应的任务就是学习一个分类模型F:X→Y,其目的是能把
Figure BDA0002977212310000034
分类到相应的标签
Figure BDA0002977212310000035
图1中Fs和Ft分别是源领域和目标领域的特征提取器,D是可以区分特征来自源领域还是目标领域的二分类器。源领域和目标领域的特征提取器分别从ResNet-50网络中,提取多维声学特征Mel Filter bank(Fbank),上述多维声学特征可以是64维。Fbank提取过程如图2所示,Fbank是一种符合人耳听觉的具有判别性的声学特征。获得语音信号的Fbank特征的一般步骤是:预加重、分帧、加窗、快速傅里叶变换(FFT)、mel滤波、取对数功率。
步骤二,对源领域和目标领域分别打上领域标签,所述源领域的领域标签和所述目标领域的领域标签通过不同的数字来表示。例如,源领域的领域标签设置为“0”,目标领域的领域标签设置为“1”。
步骤三,本发明实施例的神经网络采用卷积神经网络为框架,卷积神经网络框架采用标准的50层的ResNet,ResNet-50,在训练的开始搭建初始化的ResNet-50。
ResNet-50网络首先对输入的源领域训练数据和目标领域训练数据做了卷积操作,以对特征进行压缩,之后包含4个残差快(Residual Block),最后进行全连接操作以便于进行分类任务,网络构成如下所示。
Figure BDA0002977212310000041
步骤四,将提取的源领域和目标领域的多维声学特征作为训练数据依次送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数。
具体地,基于对抗学习的领域自适应网络,前向计算的最后会引入一个领域分类器。核心思想是要通过这样的结构去学习到领域无关的分类鉴别性的特征。这样的模型结构类似于生成对抗网络的最小最大损失函数。具体的对抗损失函数如下表达式所示:
Figure BDA0002977212310000051
其中,Fs和Ft分别是源领域和目标领域的特征提取器,D是可以区分特征来自源领域还是目标领域的二分类器。
源领域和目标领域的特征提取网络可以使用权重共享的同一个网络,也可以使用权值不共享的独立的网络。在本发明实施例中,使用权值共享的网络。
源领域的特征提取网络的分类损失表达式如下:
Figure BDA0002977212310000052
其中LC是源领域分类任务的交叉熵(Cross Entropy)损失函数,C代表多分类器。交叉熵损失函数的定义如下:
Figure BDA0002977212310000053
输入训练样本为
Figure BDA0002977212310000054
对应的标签为
Figure BDA0002977212310000055
其中K是分类的类别数,指的是输入到模型的源领域训练数据包含的说话者总数,yi是真实标签,pi是输出的预测值。
领域自适应的目标是在缺少目标领域数据标签的情况下,训练过程中尽可能地最小化源领域数据和目标领域数据的差异。在图1中注意到,训练网络框架中不仅有对抗学习的部分,还有领域对齐的模块。本发明实施例采用相关对齐进行领域对齐的计算。
相关对齐的方法是利用源领域数据和目标领域数据的二阶统计量来减小领域差异。定义源领域特征和目标领域特征之间的相关对齐的损失函数:
Figure BDA0002977212310000056
其中Cs和Ct分别表示源领域数据特征和目标领域数据特征的协方差矩阵,d表示特征的维度,
Figure BDA0002977212310000061
表示矩阵的F-范数(Frobenius Norm),一个m行n列的矩阵M,它的F-范数的定义是:
Figure BDA0002977212310000062
而Cs和Ct的计算过程如下:
Figure BDA0002977212310000063
Figure BDA0002977212310000064
特征提取网络最后的全联接层被用作相关对齐的模块,来最小化源领域数据和目标领域数据的差异,整个相关对齐的目标函数为:
Figure BDA0002977212310000065
其中σ是需要训练的超参数。
相关对齐的方法就是促使模型最小化源领域数据和目标领域数据的差异,从而使得模型可以在无标签的目标领域尽可能地分类准确。
本发明实施例提出的融合分布对齐和对抗学习的领域自适应网络模型,最终的目标函数为:
Figure BDA0002977212310000066
其中,λ和σ分别是对抗损失函数和分布匹配损失的权重,是需要训练的超参数。该目标函数也即本发明实施例基于神经网络实现的表现形式。
步骤五,利用随机梯度下降(SGD)作为优化器,进行梯度计算,同时对上述目标函数计算出的梯度进行反向传播,更新参数。
步骤六,经过多次迭代直至收敛。模型训练完成。
本发明实施例提供的方法可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。

Claims (7)

1.一种融合分布对齐和对抗学习的无监督跨域声纹识别模型训练方法,其特征在于,包括以下步骤:
分别从源领域和目标领域的语音中提取多维声学特征;
将提取的多维声学特征分别打上领域标签,其中源领域的数据有说话者标签,目标领域的数据没有说话者标签;
将提取的源领域和目标领域的多维声学特征作为训练数据依次送入神经网络模型,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;最后根据目标函数计算整个系统的损失函数;
利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;
经过多次迭代直至收敛,模型训练完成;
源领域的分类损失表达式为:
Figure FDA0003811232250000011
其中,LC是源领域分类任务的交叉熵(Cross Entropy)损失函数,C代表多分类器;交叉熵损失函数的定义如下:
Figure FDA0003811232250000012
其中,输入训练样本为
Figure FDA0003811232250000013
对应的标签为
Figure FDA0003811232250000014
K是分类的类别数,指的是输入到模型的源领域训练数据包含的说话者总数,yi是真实标签,pi是模型输出的预测值。
2.根据权利要求1所述的方法,其特征在于,所述神经网络采用卷积神经网络为框架,所述卷积神经网络采用标准的50层的ResNet,即ResNet-50;在训练的开始搭建初始化的ResNet-50。
3.根据权利要求1所述的方法,其特征在于,源领域和目标领域的对抗损失表达式为:
Figure FDA0003811232250000015
其中,Fs和Ft分别是源领域和目标领域的特征提取器,D是可以区分特征来自源领域还是目标领域的二分类器。
4.根据权利要求1所述的方法,其特征在于,定义源领域特征和目标领域特征之间的相关对齐的损失函数为:
Figure FDA0003811232250000021
其中,Cs和Ct分别表示源领域数据特征和目标领域数据特征的协方差矩阵,所述特征指的是从神经网络模型最后提取出的表征说话人身份的embedding向量,d表示特征的维度,
Figure FDA0003811232250000022
表示矩阵的F-范数,一个m行n列的矩阵M,它的F-范数的定义是:
Figure FDA0003811232250000023
而Cs和Ct的计算过程如下,其中Ns是训练过程中送入神经网络模型的每一批源领域数据的总数,Nt是训练过程中送入神经网络模型每一批目标领域数据的总数:
Figure FDA0003811232250000024
Figure FDA0003811232250000025
5.根据权利要求1所述的方法,其特征在于,目标函数为:
Figure FDA0003811232250000026
其中,λ和σ分别是对抗损失函数和分布匹配损失的权重,是需要训练的超参数。
6.根据权利要求1所述的方法,其特征在于,所述多维声学特征为64维声学特征Fbank。
7.根据权利要求1所述的方法,其特征在于,所述将提取的多维声学特征分别打上领域标签步骤,包括:
对源领域和目标领域分别打上领域标签,所述源领域的领域标签和所述目标领域的领域标签通过不同的数字来表示。
CN202110277452.4A 2021-03-15 2021-03-15 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 Active CN112820301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110277452.4A CN112820301B (zh) 2021-03-15 2021-03-15 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110277452.4A CN112820301B (zh) 2021-03-15 2021-03-15 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

Publications (2)

Publication Number Publication Date
CN112820301A CN112820301A (zh) 2021-05-18
CN112820301B true CN112820301B (zh) 2023-01-20

Family

ID=75863293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110277452.4A Active CN112820301B (zh) 2021-03-15 2021-03-15 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

Country Status (1)

Country Link
CN (1) CN112820301B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393848A (zh) * 2021-06-11 2021-09-14 上海明略人工智能(集团)有限公司 用于训练说话人识别模型的方法、装置、电子设备和可读存储介质
CN113555023B (zh) * 2021-09-18 2022-01-11 中国科学院自动化研究所 一种语音鉴伪与说话人识别联合建模的方法
CN113823293B (zh) * 2021-09-28 2024-04-26 武汉理工大学 一种基于语音增强的说话人识别方法及系统
CN113948093B (zh) * 2021-10-19 2024-03-26 南京航空航天大学 一种基于无监督场景适应的说话人识别方法及系统
CN114049900B (zh) * 2021-12-08 2023-07-25 马上消费金融股份有限公司 模型训练方法、身份识别方法、装置及电子设备
CN114663711B (zh) * 2022-05-17 2022-08-19 北京航空航天大学 一种面向x光安检场景的危险品检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032646A (zh) * 2019-05-08 2019-07-19 山西财经大学 基于多源领域适应联合学习的跨领域文本情感分类方法
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
CN110580496A (zh) * 2019-07-11 2019-12-17 南京邮电大学 一种基于熵最小化的深度迁移学习系统及方法
CN110837850A (zh) * 2019-10-23 2020-02-25 浙江大学 一种基于对抗学习损失函数的无监督域适应方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11640519B2 (en) * 2018-10-31 2023-05-02 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using cross-domain batch normalization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032646A (zh) * 2019-05-08 2019-07-19 山西财经大学 基于多源领域适应联合学习的跨领域文本情感分类方法
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
CN110580496A (zh) * 2019-07-11 2019-12-17 南京邮电大学 一种基于熵最小化的深度迁移学习系统及方法
CN110837850A (zh) * 2019-10-23 2020-02-25 浙江大学 一种基于对抗学习损失函数的无监督域适应方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多谱特征生成对抗网络的语音转换算法;张筱等;《计算机工程与科学》;20200515(第05期);全文 *
基于生成对抗网络的无监督域适应分类模型;王格格等;《电子学报》;20200615(第06期);全文 *

Also Published As

Publication number Publication date
CN112820301A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112820301B (zh) 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN109063565B (zh) 一种低分辨率人脸识别方法及装置
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN110598603A (zh) 人脸识别模型获取方法、装置、设备和介质
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN110837846A (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN105574489A (zh) 基于层次级联的暴力群体行为检测方法
CN115294407A (zh) 基于预习机制知识蒸馏的模型压缩方法及系统
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
US11908222B1 (en) Occluded pedestrian re-identification method based on pose estimation and background suppression
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN111291705B (zh) 一种跨多目标域行人重识别方法
CN114722892A (zh) 基于机器学习的持续学习方法及装置
CN116258989A (zh) 基于文本与视觉的时空关联型多模态情感识别方法、系统
CN114048314A (zh) 一种自然语言隐写分析方法
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置
CN114547264A (zh) 一种基于马氏距离和对比学习的新意图数据识别方法
Zhang et al. End-to-end overlapped speech detection and speaker counting with raw waveform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant