CN114882890A - 深度学习模型的训练方法、声纹识别方法、装置和设备 - Google Patents
深度学习模型的训练方法、声纹识别方法、装置和设备 Download PDFInfo
- Publication number
- CN114882890A CN114882890A CN202210516919.0A CN202210516919A CN114882890A CN 114882890 A CN114882890 A CN 114882890A CN 202210516919 A CN202210516919 A CN 202210516919A CN 114882890 A CN114882890 A CN 114882890A
- Authority
- CN
- China
- Prior art keywords
- sample
- voice
- deep learning
- learning model
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 108
- 238000012549 training Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种深度学习模型的训练方法,涉及人工智能领域,尤其涉及声纹识别领域。具体实现方案为:根据M个语音样本的特征,将M个语音样本分类为与N个对象各自对应的N个样本组,其中,每个样本组包括至少一个语音样本,与每个样本组对应的对象作为该样本组中的语音样本的伪标签,M和N是大于1的整数,且M大于或等于N;以及使用M个语音样本以及每个语音样本的伪标签对深度学习模型进行训练。本公开还提供了一种声纹识别方法、装置、电子设备和存储介质。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及声纹识别技术。更具体地,本公开提供了一种深度学习模型的训练方法、声纹识别方法、装置、电子设备和存储介质。
背景技术
在语音处理领域,识别说话人的任务又称为声纹识别任务。在声纹识别任务中,相关模型的训练往依赖海量的具有说话人标签的声纹数据,然而由于声纹数据涉及个人隐私性,在实际应用场景难以收集到大量标签数据。
发明内容
本公开提供了一种深度学习模型的训练方法、声纹识别方法、装置、电子设备和存储介质。
根据第一方面,提供了一种深度学习模型的训练方法,该方法包括:根据M个语音样本的特征,将M个语音样本分类为与N个对象各自对应的N个样本组,其中,每个样本组包括至少一个语音样本,与每个样本组对应的对象作为该样本组中的语音样本的伪标签,M和N是大于1的整数,且M大于或等于N;以及使用M个语音样本以及每个语音样本的伪标签对深度学习模型进行训练。
根据第二方面,提供了一种声纹识别方法,该方法包括:获取待识别语音;以及将待识别语音输入到深度学习模型中,得到与待识别语音样本对应的目标对象;其中,深度学习模型是根据上述深度学习模型的训练方法训练得到的。
根据第三方面,提供了一种深度学习模型的训练装置,该装置包括:分类模块,用于根据M个语音样本的特征,将M个语音样本分类为与N个对象各自对应的N个样本组,其中,每个样本组包括至少一个语音样本,与每个样本组对应的对象作为该样本组中的语音样本的伪标签,M和N是大于1的整数,且M大于或等于N;以及第一训练模块,用于使用M个语音样本以及每个语音样本的伪标签对深度学习模型进行训练。
根据第四方面,提供了一种声纹识别装置,该装置包括:获取模块,用于获取待识别语音;以及识别模块,用于将待识别语音输入到深度学习模型中,得到与待识别语音样本对应的目标对象;其中,深度学习模型是根据上述深度学习模型的训练装置训练得到的。
根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的一个实施例的可以应用深度学习模型的训练方法以及声纹识别方法的示例性系统架构示意图;
图2是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
图3是根据本公开的一个实施例的将M个语音样本分类为与N个对象各自对应的N个样本组的方法的示意图;
图4是根据本公开的一个实施例的深度学习模型的训练方法的原理图;
图5是根据本公开的一个实施例的声纹识别方法的流程图;
图6是根据本公开的一个实施例的深度学习模型的训练装置的框图;
图7是根据本公开的一个实施例的声纹识别装置的框图;
图8是根据本公开的一个实施例的深度学习模型的训练方法和/或声纹识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
带有说话人标签的音频数据(声纹数据)的收集比较困难,并且标注成本高,在实际应用场景下,往往只能收集到有限的语音样本(小样本)。在小样本条件下,基于深度学习神经网络模型的说话人识别算法会出现过拟合现象,缺乏对有限样本学习的能力。
在小样本条件下,可以通过对语音样本进行数据增强以加大数据量。例如,可以对语音样本在时域上进行加扰、去噪或改变语速等预处理操作,得到不同噪音程度或不同语速的语音样本。还可以对语音样本进行频域上的预处理,例如针对语音样本的频谱图,掩盖掉部分区域,得到预处理后的频谱图。虽然对语音样本进行时域和频域的数据增强,能够增加样本数量,但是,随着新类别说话人的首次出现,仍会带来类别样本不足和过少的问题。
一种通用的语音预训练模型HuBERT(Hidden-Unit BERT,基于BERT的自监督语音表征学习),是经训练的用于语音处理任务的神经网络模型,例如可以用于语音识别任务、语音生成任务和声纹识别任务。但是,在HuBERT的基础上进行声纹识别任务的训练依然依赖大量样本,在小样本资源情况下,仍然存在过拟合的风险。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1是根据本公开一个实施例的可以应用深度学习模型的训练方法以及声纹识别方法的示例性系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括多个终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101通过网络102与服务器103进行交互,以接收或发送消息等。终端设备101可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机等等。
本公开实施例所提供的深度学习模型的训练方法以及声纹识别方法中的至少之一一般可以由服务器103执行。相应地,本公开实施例所提供的深度学习模型的训练装置以及声纹识别装置一般可以设置于服务器103中。本公开实施例所提供的深度学习模型的训练方法以及声纹识别方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的深度学习模型的训练装置以及声纹识别装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群中。
图2是根据本公开的一个实施例的深度学习模型的训练方法的流程图。
如图2所示,该深度学习模型的训练方法200可以包括操作S210~操作S220。
在操作S210,根据M个语音样本的特征,将M个语音样本分类为与N个对象各自对应的N个样本组。
例如,M个语音样本可以是来自N个对象(说话人)的声纹数据,声纹数据与指纹一样可以唯一标识一个人,因此利用声纹数据可以识别出说话人身份。
M个语音样本可以是收集到的有限个样本,例如,M个语音样本可以是2000(M=2000)个语音样本,该2000个语音样本可以来自50(N=50)个对象。在获取该50个对象的2000个语音样本之前,均获得了该50个对象的授权或同意。
将上述M个语音样本输入到深度学习模型中,得到M个语音样本的特征。例如,针对每个语音样本,生成语音频谱图,对语音频谱图进行MFCC(Mel-Frequency CepstralCoefficients,梅尔频率倒谱系数)特征提取,或者进行FBank(例如Log-mel Filter Bank,对数梅尔滤波器组)特征提取,得到该语音样本的特征。
2000个语音样本可以得到2000个语音样本的特征,根据2000个语音样本的特征,可以将2000个语音样本分类为与50个对象各自对应的样本组。
例如,可以利用聚类算法或者分类模型,先对2000个语音样本的特征分类成与50个对象各自对应的50个特征组,再根据50个特征组将2000个语音样本划分为50个样本组,并且将与每个特征组对应的对象作为与该特征组对应的样本组的对象标签,每个样本组获得对象标签后,可以将样本组的对象标签作为该样本组中的语音样本的伪标签。
在操作S220,使用M个语音样本以及每个语音样本的伪标签对深度学习模型进行训练。
例如,将M个语音样本输入到深度学习模型中,深度学习模型预测出与每个语音样本对应的对象。针对每个语音样本,可以计算所预测出的对象与该语音样本的伪标签指示的对象之间均方差或交叉熵等误差,作为深度学习模型的损失,根据深度学习模型的损失可以调整深度学习模型的参数。
本公开的实施例通过将M个语音样本分类为与N个对象各自对应的N个样本组,将与每个样本组对应的对象作为样本组中的语音样本的伪标签,使用语音样本及其伪标签对深度学习模型进行训练,能够提高小样本资源情况下模型训练的性能。
可以理解,本公开实施例能够在小样本资源的情况下进行深度学习模型的训练,可以解决样本收集困难和标注成本高的问题。
图3是根据本公开的一个实施例的将M个语音样本分类为与N个对象各自对应的N个样本组的方法的示意图。
如图3所示,M个语音样本310包括样本1、样本2、......样本10......、样本M。将M个语音样本310输入到深度学习模型,可以得到M个语音样本的特征320,M个语音样本的特征320包括特征1、特征2、特征10、......、特征M,其中,M大于10,例如M=2000。
可以通过聚类算法对该M个语音样本的特征320进行聚类,得到N个类簇,每个类簇包含至少一个特征,可以作为一个特征组,得到N个特征组330,N个特征组330包括特征组1、特征2、......、特征N,N为大于1的整数,例如N=50。根据每个类簇的中心特征与N个对象中每个对象的特征(如年龄、性别等)之间的关系,可以确定N个特征组330与N个对象之间的对应关系。例如,特征组1对应对象1,特征组2对应对象2,......,特征组N对应对象N。与每个特征组对应的对象可以作为该特征组的对象标签,例如,对象1作为特征组1的对象标签,对象2作为特征组2的对象标签,......,对象N作为特征组N的对象标签。
根据N个特征组330,可以将M个语音样本310划分为N个样本组340。例如,划分得到的N个样本组340包括样本组1、样本组2、......、样本组N。可以将每个特征组的对象标签传递给与该特征组对应的样本组,例如,特征组1将对象1传递给样本组1,特征组2将对象2传递给样本组2,......,特征组N将对象N传递给样本组N。每个样本组得到的对象标签可以作为该样本组中每个语音样本的伪标签,例如,对象1作为样本组1中的语音样本的伪标签,对象2作为样本组2中的语音样本的伪标签,......,对象N作为样本组N中的语音样本的伪标签。
本公开的实施例通过将M个样本分类为与N个对象各自对应的样本组,可以确定样本组中每个语音样本的伪标签。
使用通用的语音预训练模型HuBERT可以用于声纹识别任务的训练。例如,第一阶段(预训练阶段),使用大量的带有说话人标签的语音样本对HuBERT进行训练,得到能够用于识别说话人身份的深度学习模型,其中,所使用的大量语音样本可以是通过对小样本进行数据增强得到的。第二阶段(微调阶段),使用少量的带有说话人标签的语音样本对HuBERT进行微调,或者进行迁移学习来达到对小样本数据的泛化能力。但是,在实际场景中,声纹识别训练任务通常从冷启动开始,实际场景的标记数据很少。在这种情况下,为声纹识别任务微调预训练模型的常见做法容易产生较差的性能。
因此,本公开实施例提供了一种深度学习模型的训练方法,在预训练阶段和微调阶段添加一个中间训练阶段,在中间训练阶段产生小样本数据的伪标签,使用小样本及伪标签来训练深度学习模型,以提高深度学习模型的性能。
图4是根据本公开的一个实施例的深度学习模型的训练方法的原理图。
如图4所示,该深度学习模型的训练方法包括三个阶段,分别是预训练阶段410、中间训练阶段420以及微调阶段430。
在预训练阶段410,可以使用大量的语音样本来训练语音预训练模型(例如,HuBERT),得到通用领域的深度学习模型411,该深度学习模型411可以用于通用领域的声纹识别任务。例如,该阶段使用的大量的语音样本可以来自各个领域(例如,网络会议、声纹注册平台等)的声纹数据,并设置有说话人标签。可以将大量语音样本中的每个语音样本输入到语音预训练模型,得到预测出的与每个语音样本对应的对象,根据预测的对象与标签中指示的对象之间的均方差、交叉熵或者其他误差来调整语音预训练模型的参数,在达到一定条件的情况下(例如语音预训练模型收敛),训练结束,得到深度学习模型411。
在中间训练阶段420,可以获取实际应用领域的语音样本,例如,在声纹注册业务领域,是新注册人类别下的说话人识别业务,可以获取的样本量较小,直接用来微调会效果不理想。因此,在该阶段可以引入一个无监督的分类任务,例如聚类任务。通过无监督的分类任务将语音样本分类为与预设的多个对象各自对应的样本组,从而得到样本组的对象标签,作为样本组中的语音样本的伪标签,使用语音样本及其伪标签对深度学习模型411进行训练,得到深度学习模型421。
例如,在中间训练阶段420,获取2000个语音样本,该2000个语音样本可以来自50个对象。将2000个语音样本输入到深度学习模型411,得到2000个语音样本特征。对该2000个语音样本特征进行聚类,得到与50个对象各自对应的特征组,与每个特征组对应的对象作为该特征组的对象标签。根据50个特征组将2000个语音样本划分为50个样本组,将与每个特征组对应的对象标签传递给与该特征组对应的样本组,在每个样本组得到对象标签之后,将对象标签作为该样本组中的语音样本的伪标签。使用语音样本及其伪标签对深度学习模型411进行训练,得到深度学习模型421。
例如,可以将小样本中的每个语音样本输入到深度学习模型411,得到预测出的与每个语音样本对应的对象,根据预测的对象与伪标签中指示的对象之间的均方差、交叉熵或者其他误差来调整深度学习模型411的参数,在达到一定条件的情况下(例如深度学习模型411收敛),训练结束,得到深度学习模型421。
在微调阶段430,可以使用小样本以及小样本中语音样本的实际标签对深度学习模型421进行微调,得到深度学习模型431。例如,将小样本中的每个语音样本输入到深度学习模型421,得到预测出的与每个语音样本对应的对象,根据预测的对象与实际标签中指示的对象之间均方差、交叉熵或者其他误差来调整深度学习模型421的参数,在达到一定条件的情况下(例如深度学习模型421收敛),训练结束,得到深度学习模型431。
本公开实施例通过预训练阶段410、中间训练阶段420以及微调阶段430三个阶段的训练,相比单纯的两个阶段的训练,能够提高深度学习模型的性能,进而提高深度学习模型识别说话人的准确率。
图5是根据本公开的一个实施例的声纹识别方法的流程图。
如图5所示,该声纹识别方法500可以包括操作S510~操作S520。
在操作S510,获取待识别语音。
在操作S520,将待识别语音输入到深度学习模型中,得到与待识别语音样本对应的目标对象。
其中,深度学习模型是根据上述深度学习模型的训练方法进行训练得到的。
例如,待识别语音可以包括说话人的声纹特征,将待识别语音输入到上述深度学习模型,可以得到与该待识别模型对应的目标对象,该目标对象可以作为产生该待识别语音的说话人。
本公开的实施例通过将待识别语音输入到深度学习模型中,可以识别出产生该待识别语音的说话人身份信息。
图6是根据本公开的一个实施例的深度学习模型的训练装置的框图。
如图6所示,该深度学习模型的训练装置600包括分类模块601和第一训练模块602。
分类模块601,用于根据M个语音样本的特征,将M个语音样本分类为与N个对象各自对应的N个样本组,其中,每个样本组包括至少一个语音样本,与每个样本组对应的对象作为该样本组中的语音样本的伪标签,M和N是大于1的整数,且M大于或等于N。
第一训练模块602,用于使用M个语音样本以及每个语音样本的伪标签对深度学习模型进行训练。
根据本公开的实施例,M个语音样本中的每个语音样本设置有实际标签,每个语音样本的实际标签表示产生该语音样本的对象;深度学习模型的训练装置600还包括第二训练模块。
第二训练模块,用于使用M个语音样本以及每个语音样本的实际标签对深度学习模型进行训练。
第二训练模块包括第一预测单元和第一调整单元。
第一预测单元,用于将M个语音样本输入到深度学习模型,得到与每个语音样本对应的第一预测结果。
第一调整单元,用于根据实际标签与第一预测结果之间的差异,调整深度学习模型的参数。
第一训练模块602包括第二预测单元和第二调整单元。
第二预测单元,用于将M个语音样本输入到深度学习模型,得到与每个语音样本对应的第二预测结果。
第二调整单元,用于根据伪标签与第二预测结果之间的差异,调整深度学习模型的参数。
分类模块601包括聚类单元和划分单元。
聚类单元,用于对M个语音样本的特征进行聚类,得到与N个对象各自对应的N个特征组,其中,每个特征组包括至少一个语音样本的特征;以及
划分单元,用于根据N个特征组,将M个语音样本划分为N个样本组。
深度学习模型的训练装置600还包括特征提取模块。
特征提取模块,用于将M个语音样本输入到深度学习模型,得到M个语音样本的特征。
图7是根据本公开的一个实施例的声纹识别装置的框图。
如图7所示,该声纹识别装置700包括获取模块701和识别模块702。
获取模块701,用于获取待识别语音。
识别模块702,用于将待识别语音输入到深度学习模型中,得到与待识别语音样本对应的目标对象。
深度学习模型是根据上述深度学习模型的训练方法训练得到的。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如深度学习模型的训练方法和/或声纹识别方法。例如,在一些实施例中,深度学习模型的训练方法和/或声纹识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的深度学习模型的训练方法和/或声纹识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行深度学习模型的训练方法和/或声纹识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (17)
1.一种深度学习模型的训练方法,包括:
根据M个语音样本的特征,将所述M个语音样本分类为与N个对象各自对应的N个样本组,其中,每个样本组包括至少一个语音样本,与每个样本组对应的对象作为该样本组中的语音样本的伪标签,M和N是大于1的整数,且M大于或等于N;以及
使用所述M个语音样本以及每个语音样本的伪标签对所述深度学习模型进行训练。
2.根据权利要求1所述的方法,其中,所述M个语音样本中的每个语音样本设置有实际标签,每个语音样本的实际标签表示产生该语音样本的对象;所述方法还包括:
使用所述M个语音样本以及每个语音样本的实际标签对所述深度学习模型进行训练。
3.根据权利要求2所述的方法,其中,所述使用所述M个语音样本以及每个语音样本的实际标签对所述深度学习模型进行训练包括:
将所述M个语音样本输入到所述深度学习模型,得到与每个语音样本对应的第一预测结果;以及
根据所述实际标签与所述第一预测结果之间的差异,调整所述深度学习模型的参数。
4.根据权利要求1所述的方法,其中,所述使用所述M个语音样本以及每个语音样本的伪标签对所述深度学习模型进行训练包括:
将所述M个语音样本输入到所述深度学习模型,得到与每个语音样本对应的第二预测结果;以及
根据所述伪标签与所述第二预测结果之间的差异,调整所述深度学习模型的参数。
5.根据权利要求1所述的方法,其中,所述根据M个语音样本的特征,将所述M个语音样本归类为与预设的N个对象一一对应的N个样本组包括:
对所述M个语音样本的特征进行聚类,得到与所述N个对象各自对应的N个特征组,其中,每个特征组包括至少一个语音样本的特征;以及
根据所述N个特征组,将所述M个语音样本划分为所述N个样本组。
6.根据权利要求1所述的方法,还包括:
将所述M个语音样本输入到所述深度学习模型,得到所述M个语音样本的特征。
7.一种声纹识别方法,包括:
获取待识别语音;以及
将所述待识别语音输入到深度学习模型中,得到与所述待识别语音样本对应的目标对象;
其中,所述深度学习模型是根据权利要求1~6中任一项所述的方法训练的。
8.一种深度学习模型的训练装置,包括:
分类模块,用于根据M个语音样本的特征,将所述M个语音样本分类为与N个对象各自对应的N个样本组,其中,每个样本组包括至少一个语音样本,与每个样本组对应的对象作为该样本组中的语音样本的伪标签,M和N是大于1的整数,且M大于或等于N;以及
第一训练模块,用于使用所述M个语音样本以及每个语音样本的伪标签对所述深度学习模型进行训练。
9.根据权利要求8所述的装置,其中,所述M个语音样本中的每个语音样本设置有实际标签,每个语音样本的实际标签表示产生该语音样本的对象;所述装置还包括:
第二训练模块,用于使用所述M个语音样本以及每个语音样本的实际标签对所述深度学习模型进行训练。
10.根据权利要求9所述的装置,其中,所述第二训练模块包括:
第一预测单元,用于将所述M个语音样本输入到所述深度学习模型,得到与每个语音样本对应的第一预测结果;以及
第一调整单元,用于根据所述实际标签与所述第一预测结果之间的差异,调整所述深度学习模型的参数。
11.根据权利要求8所述的装置,其中,所述第一训练模块包括:
第二预测单元,用于将所述M个语音样本输入到所述深度学习模型,得到与每个语音样本对应的第二预测结果;以及
第二调整单元,用于根据所述伪标签与所述第二预测结果之间的差异,调整所述深度学习模型的参数。
12.根据权利要求8所述的装置,其中,所述分类模块包括:
聚类单元,用于对所述M个语音样本的特征进行聚类,得到与所述N个对象各自对应的N个特征组,其中,每个特征组包括至少一个语音样本的特征;以及
划分单元,用于根据所述N个特征组,将所述M个语音样本划分为所述N个样本组。
13.根据权利要求8所述的装置,所述装置还包括:
特征提取模块,用于将所述M个语音样本输入到所述深度学习模型,得到所述M个语音样本的特征。
14.一种声纹识别装置,包括:
获取模块,用于获取待识别语音;以及
识别模块,用于将所述待识别语音输入到深度学习模型中,得到与所述待识别语音样本对应的目标对象;
其中,所述深度学习模型是根据权利要求8~13中任一项所述的装置训练的。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210516919.0A CN114882890A (zh) | 2022-05-12 | 2022-05-12 | 深度学习模型的训练方法、声纹识别方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210516919.0A CN114882890A (zh) | 2022-05-12 | 2022-05-12 | 深度学习模型的训练方法、声纹识别方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114882890A true CN114882890A (zh) | 2022-08-09 |
Family
ID=82675856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210516919.0A Pending CN114882890A (zh) | 2022-05-12 | 2022-05-12 | 深度学习模型的训练方法、声纹识别方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882890A (zh) |
-
2022
- 2022-05-12 CN CN202210516919.0A patent/CN114882890A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378784B (zh) | 视频标签推荐模型的训练方法和确定视频标签的方法 | |
CN114495977B (zh) | 语音翻译和模型训练方法、装置、电子设备以及存储介质 | |
US20190115044A1 (en) | Method and device for audio recognition | |
CN111128131B (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN112634880A (zh) | 话者识别的方法、装置、设备、存储介质以及程序产品 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
CN113763968B (zh) | 用于识别语音的方法、装置、设备、介质和产品 | |
CN112786058B (zh) | 声纹模型训练方法、装置、设备以及存储介质 | |
CN113555005B (zh) | 模型训练、置信度确定方法及装置、电子设备、存储介质 | |
CN113035230B (zh) | 认证模型的训练方法、装置及电子设备 | |
CN113257238B (zh) | 预训练模型的训练方法、编码特征获取方法及相关装置 | |
CN115206321A (zh) | 语音关键词的识别方法、装置和电子设备 | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
CN114882890A (zh) | 深度学习模型的训练方法、声纹识别方法、装置和设备 | |
CN114067805A (zh) | 声纹识别模型的训练与声纹识别方法及装置 | |
CN114220430A (zh) | 多音区语音交互方法、装置、设备以及存储介质 | |
CN114724144A (zh) | 文本识别方法、模型的训练方法、装置、设备及介质 | |
CN114943995A (zh) | 人脸识别模型的训练方法、人脸识别方法及装置 | |
CN114863162A (zh) | 对象分类方法、深度学习模型的训练方法、装置和设备 | |
CN115312042A (zh) | 用于处理音频的方法、装置、设备以及存储介质 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 | |
CN113657248A (zh) | 人脸识别模型的训练方法、装置及计算机程序产品 | |
CN113889088A (zh) | 训练语音识别模型的方法及装置、电子设备和存储介质 | |
CN113066506B (zh) | 音频数据分离方法、装置、电子设备以及存储介质 | |
CN113793598B (zh) | 语音处理模型的训练方法和数据增强方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |