CN114694658A - 说话人识别模型训练、说话人识别方法及装置 - Google Patents
说话人识别模型训练、说话人识别方法及装置 Download PDFInfo
- Publication number
- CN114694658A CN114694658A CN202210253357.5A CN202210253357A CN114694658A CN 114694658 A CN114694658 A CN 114694658A CN 202210253357 A CN202210253357 A CN 202210253357A CN 114694658 A CN114694658 A CN 114694658A
- Authority
- CN
- China
- Prior art keywords
- voice
- target
- speaker recognition
- sample
- acoustic features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 title claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 230000006870 function Effects 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005406 washing Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004887 air purification Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种说话人识别模型训练、说话人识别方法及装置,涉及智能家居技术领域,该说话人识别模型训练方法包括:获取样本语音集;样本语音集包括:多个用户对应的N个样本语音;对各样本语音进行声学特征提取,得到多个用户对应的N个初始样本语音声学特征;通过目标特征提取模型,对N个初始样本语音声学特征进行降维,得到多个用户对应的M个目标样本语音声学特征;M为小于N的且大于或等于2的整数;对M个目标样本语音声学特征进行聚类,获取聚类结果;聚类结果用于表征各目标样本语音声学特征所属用户;根据聚类结果,以及,样本语音集训练预设模型,得到说话人识别模型。本申请提高了说话人识别模型训练的效率。
Description
技术领域
本申请涉及智能家居领域,具体而言,涉及一种说话人识别模型训练、说话人识别方法及装置。
背景技术
以智能洗衣机、智能热水器等智能家居为例,智能家居可以根据说话人的语音,进行说话人识别,并根据说话人识别结果,进行相关操作。目前,常见的说话人识别方法主要为基于深度学习的说话人识别。在使用该说话人识别方法进行说话人识别之前,需要使用大量标注有用户标签的样本语音数据,对深度学习模型进行训练,以获取可以用于进行说话人识别的模型。
在现有的说话人识别模型训练方法中,需要通过人工对上述各样本语音数据进行标注工作,以得到标注有用户标签的样本语音数据。因此,现有的说话人识别模型训练方法存在效率较低的问题。
发明内容
本申请提供一种说话人识别模型训练、说话人识别方法及装置,以提高说话人识别模型训练的效率。
第一方面,本申请提供一种说话人识别模型训练方法,所述方法包括:
获取样本语音集;所述样本语音集包括:多个用户对应的N个样本语音;所述N大于或等于2;
对各所述样本语音进行声学特征提取,得到所述多个用户对应的N个初始样本语音声学特征;
通过目标特征提取模型,对所述N个初始样本语音声学特征进行降维,得到所述多个用户对应的M个目标样本语音声学特征;所述M为小于N的且大于或等于2的整数;
对所述M个目标样本语音声学特征进行聚类,获取聚类结果;所述聚类结果用于表征各所述目标样本语音声学特征所属用户;
根据所述聚类结果,以及,所述样本语音集训练预设模型,得到说话人识别模型;所述说话人识别模型用于基于目标语音,输出所述目标语音对应的用户的标识。
可选的,所述根据所述聚类结果,以及,所述样本语音集训练预设模型,得到说话人识别模型,包括:
根据所述各所述目标样本语音声学特征所属用户,确定所述样本语音集中各样本语音的用户标签;
使用所述样本语音集,以及,各样本语音的用户标签训练预设模型,得到说话人识别模型。
可选的,所述对所述M个目标样本语音声学特征进行聚类,获取聚类结果,包括:
通过预设聚类算法,对所述M个目标样本语音声学特征进行不确定类别数目的聚类,得到多组目标样本语音声学特征;其中,同组的所述目标样本语音声学特征对应同一用户;
接收每组所述目标样本语音声学特征对应的一个用户标签,得到所述聚类结果。
可选的,在通过目标特征提取模型,对所述N个初始样本语音声学特征进行降维之前,还包括:
使用所述N个初始样本语音声学特征,对预设无监督特征提取模型进行训练,得到所述目标特征提取模型。
可选的,所述预设无监督特征提取模型的损失函数如下公式(1)所示:
其中,L表示所述预设无监督特征提取模型的损失函数,W表示所述预设无监督特征提取模型的权重矩阵,c为常数,y表示任一所述初始样本语音声学特征,o()表示sigmoid函数,||1表示L1范数,WT表示所述权重矩阵的转置,||2表示L2范数。
第二方面,本申请提供一种说话人识别方法,所述方法包括:
采集用户的目标语音;
使用说话人识别模型,对所述目标语音进行说话人识别,输出所述目标语音对应的用户的标识;其中,所述说话人识别模型为采用如第一方面任一项所述的方法训练得到的;
根据所述用户的标识,执行所述用户对应的目标操作。
第三方面,本申请提供一种说话人识别模型训练装置,所述装置包括:
获取模块,用于获取样本语音集;所述样本语音集包括:多个用户对应的N个样本语音;所述N大于或等于2;
第一处理模块,用于对各所述样本语音进行声学特征提取,得到所述多个用户对应的N个初始样本语音声学特征;通过目标特征提取模型,对所述N个初始样本语音声学特征进行降维,得到所述多个用户对应的M个目标样本语音声学特征;所述M为小于N的且大于或等于2的整数;
聚类模块,用于对所述M个目标样本语音声学特征进行聚类,获取聚类结果;所述聚类结果用于表征各所述目标样本语音声学特征所属用户;
第二处理模块,用于根据所述聚类结果,以及,所述样本语音集训练预设模型,得到说话人识别模型;所述说话人识别模型用于基于目标语音,输出所述目标语音对应的用户的标识。
第四方面,本申请提供一种说话人识别装置,所述装置包括:
采集模块,用于采集用户的目标语音;
识别模块,用于使用说话人识别模型,对所述目标语音进行说话人识别,输出所述目标语音对应的用户的标识;其中,所述说话人识别模型为采用如第一方面任一项所述的方法训练得到的;
执行模块,用于根据所述用户的标识,执行所述用户对应的目标操作。
第五方面,本申请提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行第一方面和第二方面中任一项所述的方法。
第六方面,本申请提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行第一方面和第二方面中任一项所述的方法。
本申请提供的说话人识别模型训练、说话人识别方法及装置,通过对样本语音进行声学特征提取,可以得到各样本语音对应的初始样本语音声学特征。通过对N个非标注的初始样本语音声学特征进行降维,降低了待聚类的样本语音声学特征的数据量,提高了聚类效率,进而提高了说话人识别模型训练的效率。通过对降维后的目标样本语音声学特征进行聚类,可以确定各目标样本语音声学特征所属用户。根据上述聚类结果,以及样本语音,可以实现对预设模型进行训练,得到用于说话人识别的说话人识别模型。通过上述方法,不需人工对大量样本语音数据进行标注,提高了获取用于训练预设模型的数据的效率,进而进一步提高了说话人识别模型训练的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种说话人识别方法的应用场景示意图;
图2为本申请提供的一种说话人识别模型训练方法的流程示意图;
图3为本申请提供的一种说话人识别方法的流程示意图;
图4为本申请提供的一种说话人识别模型训练装置的结构示意图;
图5为本申请提供的一种说话人识别装置的结构示意图;
图6为本申请提供的一种电子设备结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为一种说话人识别方法的应用场景示意图。如图1所示,说话人识别可以广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(IntelligenceHouse)生态等全屋智能数字化控制应用场景。可选地,上述说话人识别方法可以应用于如图1所示的由终端设备12和服务器14所构成的硬件环境中。如图1所示,服务器14通过网络与终端设备12进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器14提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器14提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备12可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
以智能家居为例,智能家居采集说话人的语音,并发送给服务器。服务器可以进行说话人识别,并根据说话人识别结果,控制智能家居进行相关操作。目前,常见的说话人识别方法主要为基于深度学习的说话人识别。在使用该说话人识别方法进行说话人识别之前,需要使用大量标注有用户标签(也就是说话人身份信息)的样本语音数据,对深度学习模型进行监督式分类器训练,以获取可以用于进行说话人识别的模型。
在现有的说话人识别模型训练方法中,需要通过人工对上述各样本语音数据进行标注工作,以得到标注有用户标签的样本语音数据。然而,对大量样本语音数据标注用户标签的过程繁琐,需要耗费人工大量时间。因此,现有的说话人识别模型训练方法的效率较低。
考虑到现有的说话人识别模型存在上述效率较低的问题,本申请提出了一种不需人工对大量样本语音数据进行标注,也可实现训练预设模型得到说话人识别模型的方法。通过上述方法,实现了自动化模型训练,得到说话人识别模型,避免了人工标注大量样本语音数据,进而提高了说话人识别模型训练的效率。
下面结合具体地实施例对本申请提供的说话人识别模型训练方法进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。应理解,该说话人识别模型训练方法的执行主体可以为任意一种具有处理功能的终端或者服务器等电子设备。
图2为本申请提供的一种说话人识别模型训练方法的流程示意图。如图2所示,该方法包括以下步骤:
S101、获取样本语音集。
其中,上述样本语音集可以包括:多个用户对应的N个样本语音。其中,N大于或等于2。应理解,本申请对上述样本语音的时间长度并不进行限定。此外,不同样本语音的时间长度可以相同,也可以不同。示例性的,上述样本语音集例如可以通过Xu={x(1) u,x(2) u,…,x(mu) u}表示。其中,u代表未进行数据标注,mu代表数据序列号(也就是在样本语音集中存在mu条样本语音)。
应理解,本申请对电子设备如何获取上述样本语音集并不进行限定。可选的,电子设备例如可以通过应用程序接口(Application Programming Interface,API)或者图形用户界面(Graphical User Interface,GUI)接收用户输入的样本语音集。或者,上述样本语音集还可以是预先存储在该电子设备中的。电子设备可以根据该样本语音集的存储路径,从电子设备中读取该样本语音集。再或者,电子设备还可以从其他存储有该样本语音集的设备处获取该样本语音集。
再或者,电子设备还可以设置有语音采集装置,通过该语音采集装置,电子设备可以采集上述多个用户对应的N个样本语音。在该实现方式下,该电子设备可以与执行下述说话人识别方法的电子设备为同类型的电子设备,例如,该电子设备与行下述说话人识别方法的电子设备可以均为智能家居设备。
S102、对各样本语音进行声学特征提取,得到多个用户对应的N个初始样本语音声学特征。
可选的,上述初始样本语音声学特征例如可以包括下述至少一项:频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征、过滤器组fbank特征等。示例性的,以该初始样本语音声学特征包括下MFCC特征,以及,fbank特征为例,电子设备例如可以在通过MFCC特征对应的声学特征提取方法获取样本语音的MFCC特征,以及,通过fbank特征对应的声学特征提取方法获取样本语音的fbank特征之后,将样本语音的MFCC特征和fbank特征进行特征拼接得到该样本语音对应的初始样本语音声学特征。
应理解,针对任一样本语音,电子设备可以通过任意一种现有的声学特征提取方法,获取该样本语音对应的初始样本语音声学特征,在此不再赘述。
示例性的,以上述N等于mu为例,上述多个用户对应的N个初始样本语音声学特征例如可以通过Yu={y(1) u,y(2) u,…,y(mu) u}表示。其中,u代表未进行数据标注。
S103、通过目标特征提取模型,对N个初始样本语音声学特征进行降维,得到多个用户对应的M个目标样本语音声学特征。
其中,上述M为小于N的且大于或等于2的整数。电子设备可以将上述N个初始样本语音声学特征输入该目标特征提取模型,得到多个用户对应的M个目标样本语音声学特征。可选的,该目标特征提取模型可以是用户预先存储在该电子设备中的。
示例性的,以上述M等于nu为例,上述多个用户对应的M个目标样本语音声学特征例如可以通过Au={a(1) u,a(2) u,…,a(nu) u}表示。其中,u代表未进行数据标注。
S104、对M个目标样本语音声学特征进行聚类,获取聚类结果。
其中,上述聚类结果用于表征各目标样本语音声学特征所属用户。
作为一种可能的实现方式,电子设备可以通过预设聚类算法,对上述M个目标样本语音声学特征进行不确定类别数目的聚类,得到多组目标样本语音声学特征。其中,同组的目标样本语音声学特征对应同一用户。
示例性的,上述预设聚类算法例如可以为高斯混合模型(Gaussian MixtureModel,GMM)聚类算法,或者,k均值聚类算法(k-means clustering algorithm)等。通过GMM聚类算法可以将M个目标样本语音声学特征拟合成总似然最大的类别数目,是的同一用户的目标样本语音声学特征属于同一类的概率更高,从而实现了对目标样本语音声学特征进行聚类。
在得到多组目标样本语音声学特征之后,电子设备可以接收每组目标样本语音声学特征对应的一个用户标签,以得到上述聚类结果。可选的,电子设备可以接收用户输入的针对各组目标样本语音声学特征的用户标签。根据各组对应的用户标签,电子设备可以确定该组目标样本语音声学特征所属用户,进而得到上述聚类结果。
在该实现方式下,假定通过聚类得到5组目标样本语音声学特征,则只需人工输入5个用户标签,相较于现有技术中需要人工对所有的样本语音进行标注,本申请减少了人工标注工作量,提高了电子设备获取用于训练说话人识别模型的样本集的效率,进而提高了说话人识别模型的训练效率。
S105、根据上述聚类结果,以及,样本语音集训练预设模型,得到说话人识别模型。
上述说话人识别模型用于基于目标语音,输出目标语音对应的用户的标识。
可选的,本申请对上述预设模型并不进行限定。示例性的,该预设模型例如可以为生成式分类模型,例如概率线性判别分析(Probabilistic Linear DiscriminantAnalysis,PLDA)模型。在一些实施例中,根据上述聚类结果和样本语音集,还可以训练声纹特征提取模型,得到训练好的声纹特征提取模型用于对语音信号进行声纹特征提取。
作为一种可能的实现方式,电子设备在获取上述聚类结果之后,在上述聚类结果中,属于同一聚类簇的各目标样本语音声学特征对应同一用户,不属于同一聚类簇的各目标样本语音声学特征对应不同用户。例如若聚类结果为3个聚类簇,则可确定用户也为3个;各聚类簇分别对应用户A、用户B和用户C。继而,不需要对样本语音集中各样本语音进行标注,即可达到识别不同用户的声纹的目的,减少了人工标注成功,提升了说话人识别的效率。
在本实施例中,可以根据聚类结果确定各目标样本语音声学特征所属用户,以及确定样本语音集中各样本语音对应的用户标签。在一些实施例中,用户标签可以根据识别到的语音声学特征确定,例如根据语音声学特征将各样本语音的用户标签设置为成年男性、成年女性、儿童、老人等;或者还可以按照设定标签进行标注,例如将各样本语音的用户标签设置为用户A、用户B、用户C等,以达到区分各用户的语音指令的目的。然后,电子设备可以使用前述样本语音集,以及,各样本语音的用户标签,训练上述预设模型,得到该说话人识别模型。
可选的,电子设备可以根据各目标样本语音声学特征所属用户,确定各初始样本语音声学特征所属的用户。可选的,电子设备可以使用上述目标特征提取模型,将多个初始样本语音声学特征进行结合,得到一个目标样本语音声学特征,进入实现对初始样本语音声学特征的降维。电子设备还可以记录各目标样本语音声学特征对应的降维前的多个初始样本语音声学特征。在该实现方式下,电子设备可以将一个目标样本语音声学特征所属用户,作为该目标样本语音声学特征对应的降维前的多个初始样本语音声学特征所属用户。
初始样本语音声学特征与样本语音一一对应,因此,电子设备可以确定将初始样本语音声学特征所属的用户作为样本语音所属的用户,进而电子设备可以确定各样本语音的用户标签。
在本实施例中,通过对样本语音进行声学特征提取,可以得到各样本语音对应的初始样本语音声学特征。通过对N个非标注的初始样本语音声学特征进行降维,降低了待聚类的样本语音声学特征的数据量,提高了聚类效率,进而提高了说话人识别模型训练的效率。通过对降维后的目标样本语音声学特征进行聚类,可以确定各目标样本语音声学特征所属用户。根据上述聚类结果,以及样本语音,可以实现对预设模型进行训练,得到用于说话人识别的说话人识别模型。通过上述方法,不需人工对大量样本语音数据进行标注,提高了获取用于训练预设模型的数据的效率,进而进一步提高了说话人识别模型训练的效率。
下面对电子设备如何获取目标特征提取模型进行详细说明:
作为一种可能的实现方式,电子设备在通过目标特征提取模型,对N个初始样本语音声学特征进行降维之前,还可以使用上述N个初始样本语音声学特征,对预设无监督特征提取模型进行训练,得到该目标特征提取模型。
应理解,本申请对上述预设无监督特征提取模型的类型并不进行限定。可选的,该预设无监督特征提取模型例如可以为任意一种现有的可以基于未标注过用户标签的样本语音,实现数据降维的模型。例如,基于BP神经网络(Back Propagation Neural Network,BPNN)的自编码降维模型,或者,基于卷积神经网络(Convolutional Neural Networks,CNN)的自编码降维模型等。
在该实现方式下,可选的,上述预设无监督特征提取模型的损失函数例如如下公式(1)所示:
其中,L表示预设无监督特征提取模型的损失函数,W表示该预设无监督特征提取模型的权重矩阵,c为常数,y表示任一初始样本语音声学特征,o()表示sigmoid函数,||1表示L1范数,WT表示权重矩阵的转置,||2表示L2范数。其中,L1范数指的向量中各个元素绝对值之和。L2范数指的是对向量所有元素的平方和开平方的结果。通过上述损失函数,不需根据各样本语音的用户标签计算训练预设无监督特征提取模型过程中的损失函数的值,实现了对预设无监督特征提取模型进行无监督训练,避免了人工对样本语音进行标注,进一步提高了对前述预设模型进行训练得到说话人识别模型的效率。
示例性的预设无监督特征提取模型的输入可以为初始样本语音声学特征,输出为目标样本语音声学特征。可选的,对该预设无监督特征提取模型的训练过程可以使用梯度下降算法进行迭代优化,当迭代优化完成后,得到训练好的目标特征提取模型。示例性的,目标特征提取模型可以用于对N个初始样本语音声学特征进行降维,得到M个目标样本语音声学特征。
作为另一种可能的实现方式,上述目标特征提取模型也可以为用户预先存储在该电子设备中的。
在本实施例中,通过N个初始样本语音声学特征,可以实现对预设无监督特征提取模型进行无监督训练,进而可以得到目标特征提取模型。通过无监督训练,不需根据各样本语音的用户标签对预设无监督特征提取模型进行训练,避免了人工对样本语音进行标注,进一步提高了对前述预设模型进行训练得到说话人识别模型的效率。
在得到上述说话人识别模型之后,可以使用该说话人识别模型进行说话人识别。应理解,执行下述说话人识别方法的执行主体可以为任意一种具备处理能力的电子设备。可选的,该电子设备与上述执行说话人识别模型的方法的电子设备,可以为同一电子设备,也可以为不同电子设备,本申请对此并不进行限定。示例性的,执行该说话人识别方法的电子设备例如可以为前述图1中所示的终端设备12或者服务器14。
下面结合具体地实施例对本申请提供的说话人识别方法进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图3为本申请提供的一种说话人识别方法的流程示意图。如图3所示,该方法包括以下步骤:
S201、采集用户的目标语音。
可选的,电子设备可以通过语音采集装置采集用户的目标语音。其中,该语音采集装置可以是集成在该电子设备上的。或者,该语音采集装置也可以是独立于该电子设备的语音采集设备。
应理解,本申请对电子设备采集的目标语音的时间长度并不进行限定。
S202、使用说话人识别模型,对目标语音进行说话人识别,输出目标语音对应的用户的标识。
其中,该说话人识别模型为采用如前述任一实施例所述的方法训练得到的。
在一些实施例中,在使用上述说话人识别模型识别目标语音之前,电子设备还可以使用训练好的声纹特征提取模型,对该目标语音进行声纹特征提取,得到该目标语音对应的声纹特征。然后,电子设备可以将该目标语音对应的声纹特征输入至上述说话人识别模型,得到目标语音对应的用户的标识。其中,上述训练好的声纹特征提取模型可以是根据前述聚类结果和样本语音集,训练得到的。
S203、根据用户的标识,执行用户对应的目标操作。
应理解,本申请对上述用户对应的目标操作并不进行限定。示例性的,电子设备可以根据用户的标识,实现语音解锁,或者,特定人语音唤醒等操作。
在本实施例中,电子设备在采集用户的目标语音之后,可以使用通过前述任一实施例所述的说话人识别模型训练得到的说话人识别模型,对该目标语音进行说话人识别,进而获取该目标语音对应的用户的标识。本申请通过不需大量人工标注样本语音的方法训练得到说话人识别模型,提高了获取说话人识别模型的效率,进而也提高了基于该说话人识别模型进行说话人识别获取用户标识的效率,进而提高了说话人识别的智能型,扩展了应用范围。
图4为本申请提供的一种说话人识别模型训练装置的结构示意图。如图4所示,该装置30包括:获取模块31、第一处理模块32、聚类模块33,以及,第二处理模块34。其中,
获取模块31,用于获取样本语音集。其中,所述样本语音集包括:多个用户对应的N个样本语音;所述N大于或等于2。
第一处理模块32,用于对各所述样本语音进行声学特征提取,得到所述多个用户对应的N个初始样本语音声学特征;通过目标特征提取模型,对所述N个初始样本语音声学特征进行降维,得到所述多个用户对应的M个目标样本语音声学特征。其中,所述M为小于N的且大于或等于2的整数。
聚类模块33,用于对所述M个目标样本语音声学特征进行聚类,获取聚类结果。其中,所述聚类结果用于表征各所述目标样本语音声学特征所属用户。
第二处理模块34,用于根据所述聚类结果,以及,所述样本语音集训练预设模型,得到说话人识别模型。其中,所述说话人识别模型用于基于目标语音,输出所述目标语音对应的用户的标识。
可选的,第二处理模块34,具体用于根据所述各所述目标样本语音声学特征所属用户,确定所述样本语音集中各样本语音的用户标签;使用所述样本语音集,以及,各样本语音的用户标签训练预设模型,得到说话人识别模型。
可选的,聚类模块33,具体用于通过预设聚类算法,对所述M个目标样本语音声学特征进行不确定类别数目的聚类,得到多组目标样本语音声学特征。其中,同组的所述目标样本语音声学特征对应同一用户。在该实现方式下,该装置还可以包括接收模块35,用于接收每组所述目标样本语音声学特征对应的一个用户标签,得到所述聚类结果。
可选的,第二处理模块34,还用于在通过目标特征提取模型,对所述N个初始样本语音声学特征进行降维之前,使用所述N个初始样本语音声学特征,对预设无监督特征提取模型进行训练,得到所述目标特征提取模型。
可选的,所述预设无监督特征提取模型的损失函数如下公式(1)所示:
其中,L表示所述预设无监督特征提取模型的损失函数,W表示所述预设无监督特征提取模型的权重矩阵,c为常数,y表示任一所述初始样本语音声学特征,o()表示sigmoid函数,||1表示L1范数,WT表示所述权重矩阵的转置,||2表示L2范数。
本申请提供的说话人识别模型训练装置30,用于执行前述说话人识别模型训练方法实施例,其实现原理与技术效果类似,对此不再赘述。
图5为本申请提供的一种说话人识别装置的结构示意图。如图5所示,该装置40包括:
采集模块41,用于采集用户的目标语音。
识别模块42,用于使用说话人识别模型,对所述目标语音进行说话人识别,输出所述目标语音对应的用户的标识。其中,所述说话人识别模型为采用如前述任一项说话人识别模型训练实施例所述的方法训练得到的。
执行模块43,用于根据所述用户的标识,执行所述用户对应的目标操作。
本申请提供的说话人识别装置40,用于执行前述说话人识别方法实施例,其实现原理与技术效果类似,对此不再赘述。
图6为本申请提供的一种电子设备结构示意图。如图6所示,该电子设备500可以包括:至少一个处理器501和存储器502。
存储器502,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器502可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器501用于执行存储器502存储的计算机执行指令,以实现前述方法实施例所描述的说话人识别模型训练和说话人识别方法。其中,处理器501可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application SpecificIntegrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选的,该电子设备500还可以包括通信接口503。在具体实现上,如果通信接口503、存储器502和处理器501独立实现,则通信接口503、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口503、存储器502和处理器501集成在一块芯片上实现,则通信接口503、存储器502和处理器501可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述实施例中的方法。
本申请还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的说话人识别模型训练和说话人识别方法。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种说话人识别模型训练方法,其特征在于,所述方法包括:
获取样本语音集;所述样本语音集包括:多个用户对应的N个样本语音;所述N大于或等于2;
对各所述样本语音进行声学特征提取,得到所述多个用户对应的N个初始样本语音声学特征;
通过目标特征提取模型,对所述N个初始样本语音声学特征进行降维,得到所述多个用户对应的M个目标样本语音声学特征;所述M为小于N的且大于或等于2的整数;
对所述M个目标样本语音声学特征进行聚类,获取聚类结果;所述聚类结果用于表征各所述目标样本语音声学特征所属用户;
根据所述聚类结果,以及,所述样本语音集训练预设模型,得到说话人识别模型;所述说话人识别模型用于基于目标语音,输出所述目标语音对应的用户的标识。
2.根据权利要求1所述的方法,其特征在于,所述根据所述聚类结果,以及,所述样本语音集训练预设模型,得到说话人识别模型,包括:
根据所述各所述目标样本语音声学特征所属用户,确定所述样本语音集中各样本语音的用户标签;
使用所述样本语音集,以及,各样本语音的用户标签训练预设模型,得到说话人识别模型。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述M个目标样本语音声学特征进行聚类,获取聚类结果,包括:
通过预设聚类算法,对所述M个目标样本语音声学特征进行不确定类别数目的聚类,得到多组目标样本语音声学特征;其中,同组的所述目标样本语音声学特征对应同一用户;
接收每组所述目标样本语音声学特征对应的一个用户标签,得到所述聚类结果。
4.根据权利要求1或2所述的方法,其特征在于,在所述通过目标特征提取模型,对所述N个初始样本语音声学特征进行降维之前,还包括:
使用所述N个初始样本语音声学特征,对预设无监督特征提取模型进行训练,得到所述目标特征提取模型。
6.一种说话人识别方法,其特征在于,所述方法包括:
采集用户的目标语音;
使用说话人识别模型,对所述目标语音进行说话人识别,输出所述目标语音对应的用户的标识;其中,所述说话人识别模型为采用如权利要求1-5任一项所述的方法训练得到的;
根据所述用户的标识,执行所述用户对应的目标操作。
7.一种说话人识别模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取样本语音集;所述样本语音集包括:多个用户对应的N个样本语音;所述N大于或等于2;
第一处理模块,用于对各所述样本语音进行声学特征提取,得到所述多个用户对应的N个初始样本语音声学特征;通过目标特征提取模型,对所述N个初始样本语音声学特征进行降维,得到所述多个用户对应的M个目标样本语音声学特征;所述M为小于N的且大于或等于2的整数;
聚类模块,用于对所述M个目标样本语音声学特征进行聚类,获取聚类结果;所述聚类结果用于表征各所述目标样本语音声学特征所属用户;
第二处理模块,用于根据所述聚类结果,以及,所述样本语音集训练预设模型,得到说话人识别模型;所述说话人识别模型用于基于目标语音,输出所述目标语音对应的用户的标识。
8.一种说话人识别装置,其特征在于,所述装置包括:
采集模块,用于采集用户的目标语音;
识别模块,用于使用说话人识别模型,对所述目标语音进行说话人识别,输出所述目标语音对应的用户的标识;其中,所述说话人识别模型为采用如权利要求1-5任一项所述的方法训练得到的;
执行模块,用于根据所述用户的标识,执行所述用户对应的目标操作。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至6中任一项所述的方法。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210253357.5A CN114694658A (zh) | 2022-03-15 | 2022-03-15 | 说话人识别模型训练、说话人识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210253357.5A CN114694658A (zh) | 2022-03-15 | 2022-03-15 | 说话人识别模型训练、说话人识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114694658A true CN114694658A (zh) | 2022-07-01 |
Family
ID=82138751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210253357.5A Pending CN114694658A (zh) | 2022-03-15 | 2022-03-15 | 说话人识别模型训练、说话人识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114694658A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110289002A (zh) * | 2019-06-28 | 2019-09-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及系统 |
US20210043216A1 (en) * | 2019-10-31 | 2021-02-11 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for determining voice characteristics |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
CN113516987A (zh) * | 2021-07-16 | 2021-10-19 | 科大讯飞股份有限公司 | 一种说话人识别方法、装置、存储介质及设备 |
CN113851136A (zh) * | 2021-09-26 | 2021-12-28 | 平安科技(深圳)有限公司 | 基于聚类的说话人识别方法、装置、设备及存储介质 |
CN114023336A (zh) * | 2021-10-29 | 2022-02-08 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备以及存储介质 |
-
2022
- 2022-03-15 CN CN202210253357.5A patent/CN114694658A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110289002A (zh) * | 2019-06-28 | 2019-09-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及系统 |
US20210043216A1 (en) * | 2019-10-31 | 2021-02-11 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for determining voice characteristics |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
CN113516987A (zh) * | 2021-07-16 | 2021-10-19 | 科大讯飞股份有限公司 | 一种说话人识别方法、装置、存储介质及设备 |
CN113851136A (zh) * | 2021-09-26 | 2021-12-28 | 平安科技(深圳)有限公司 | 基于聚类的说话人识别方法、装置、设备及存储介质 |
CN114023336A (zh) * | 2021-10-29 | 2022-02-08 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7769588B2 (en) | Spoken man-machine interface with speaker identification | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN110705584A (zh) | 情绪识别方法、装置、计算机装置及存储介质 | |
CN111413877A (zh) | 控制家电设备的方法及装置 | |
CN113223536A (zh) | 声纹识别方法、装置及终端设备 | |
CN114676689A (zh) | 语句文本的识别方法和装置、存储介质及电子装置 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN111506755A (zh) | 图片集的分类方法和装置 | |
CN110931043A (zh) | 集成语音情感识别方法、装置、设备及存储介质 | |
CN112396079A (zh) | 号码识别模型训练方法、号码识别方法及装置 | |
CN114078472A (zh) | 一种低误唤醒率的关键词计算模型的训练方法及装置 | |
CN114694658A (zh) | 说话人识别模型训练、说话人识别方法及装置 | |
CN116932735A (zh) | 一种文本比对方法、装置、介质和设备 | |
Imoto et al. | Acoustic scene analysis from acoustic event sequence with intermittent missing event | |
CN106373576A (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 | |
CN112001760B (zh) | 潜在用户挖掘方法、装置、电子设备和存储介质 | |
CN112115248B (zh) | 一种从对话语料中抽取对话策略结构的方法及系统 | |
CN113903328A (zh) | 基于深度学习的说话人计数方法、装置、设备及存储介质 | |
CN112489678A (zh) | 一种基于信道特征的场景识别方法及装置 | |
EP1387350A1 (en) | Spoken man-machine interface with speaker identification | |
CN115171702A (zh) | 数字孪生声纹特征处理方法、存储介质及电子装置 | |
CN113948089A (zh) | 声纹模型训练和声纹识别方法、装置、设备及介质 | |
CN111916074A (zh) | 一种跨设备语音控制方法、系统、终端及存储介质 | |
CN110428814A (zh) | 一种语音识别的方法及装置 | |
WO2024124497A1 (zh) | 基于机器学习的纳米孔测序信号状态的识别方法、机器学习模型的训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |