CN113192493A - 一种结合GMM Token配比与聚类的核心训练语音选择方法 - Google Patents
一种结合GMM Token配比与聚类的核心训练语音选择方法 Download PDFInfo
- Publication number
- CN113192493A CN113192493A CN202110473820.2A CN202110473820A CN113192493A CN 113192493 A CN113192493 A CN 113192493A CN 202110473820 A CN202110473820 A CN 202110473820A CN 113192493 A CN113192493 A CN 113192493A
- Authority
- CN
- China
- Prior art keywords
- gmm
- training
- token
- voice
- voices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 80
- 238000010187 selection method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005265 energy consumption Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了结合GMM Token配比与聚类的核心训练语音选择方法,该方法通过对原始训练语音的GMM Token配比特征进行聚类,选取距离每个聚类中心较近的训练语音作为核心训练语音。通过本发明提供的核心训练语音选择方法可以选取更具代表性的核心训练语音数据,使得仅用部分训练数据所获取的模型性能优于原始训练数据对应的模型,不仅节约了训练时间和能耗,而且提升了识别性能。该方法适用于语音识别、说话人识别、伪造语音识别等语音分类场景。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种结合GMM Token配比与聚类的核心训练语音选择方法。
背景技术
声纹认证系统作为一种生物认证的方式,具有采集成本低、易于获取、方便远程认证等等优势,已经广泛应用于门禁系统、金融交易和司法鉴定等等领域。随着语音合成技术飞速发展,一方面给人们带来了更方便的服务和更良好的用户体验,如真声智能客服、真声智能导航、有声读物、智能语音呼叫等等;另一方面也给声纹认证系统的安全性带来了巨大的挑战,如利用合成语音攻击声纹认证系统使其性能显著下降,因此关于合成语音检测的研究具有重要的意义。
合成语音检测的目的就是从真实语音中将合成语音检测出来。现有的关于合成语音检测的实验研究都是按照比赛设定的训练集进行训练的,通常会使用大量的训练数据;然而在实际情况中,当使用更多的训练数据时,性能反而有所下降,因为训练数据中是存在冗余的,进行数据选择成为一个值得关注的课题。
发明内容
为了解决选择高质量训练数据获取的问题,本发明提出了一种结合GMM Token配比与聚类的核心训练语音选择方法,使用该方法可以选取高质量的核心训练语音集,使得模型在使用更少训练语音的情况下取得更好的性能,不仅节约了训练时间和能耗,而且提升了检测性能。
一种结合GMM Token配比与聚类的核心训练语音选择方法,包括如下步骤:
S1.随机选取部分训练语音进行训练获得初始模型;
S2.利用所述初始模型计算所有训练语音的GMM Token配比特征;
S3.利用所述GMM Token配比特征对所有训练语音进行聚类;
S4.逐一计算每条训练语音到聚类中心的距离;
S5.根据一定比例逐类选取距离聚类中心较近的训练语音作为核心训练语音。
进一步地,所述步骤S1的具体实现方式为:随机选择一定比例的训练语音,提取其特征数据,使用这些特征数据训练得到具有K阶高斯分量的GMM(高斯混合模型)即初始模型。GMM的训练是一个有监督的优化过程,其采用最大似然准则,整个过程分为参数初始化和参数优化两部分,前者使用LBG算法实现,后者使用EM算法实现,将训练得到的GMM作为之后用于获取训练语音Token配比特征的GMM tokenizer。
进一步地,所述步骤S2的具体实现方式为:首先提取各训练语音的特征数据(语音特征提取方式应与步骤S1中训练GMM时采用的特征提取方式保持一致),然后针对特征数据的每一帧,在GMM tokenizer上计算似然得分,将得分最高的高斯分量索引序号标记作为这一帧的GMM Token,相应地,特征数据中的每一帧经过GMM tokenizer之后都将对应得到一个GMM Token,整个特征数据经过GMM tokenizer之后便可获得一组GMM Token序列;最后计算每一高斯分量索引的GMM Token数量与GMM Token总数之比即训练语音的GMM Token配比特征,计算方法为其中fi为第i个高斯分量索引的GMM Token配比,T为GMM Token总数,其大小取决于语音的特征数据长度,Ni为第i个高斯分量索引的GMM Token数量,i为自然数且1≤i≤K,K为GMM中的高斯分量总数。
进一步地,所述步骤S3的具体实现方式为:根据步骤S2获得所有训练语音的GMMToken配比特征,对训练语音进行聚类,将所有训练语音聚成M类,M为自定义大于1的自然数。
进一步地,所述步骤S4的具体实现方式为:对于任一条训练语音,根据GMM Token配比特征计算该语音到其所属类别聚类中心的距离。
进一步地,所述步骤S5的具体实现方式为:对于任一类别,将该类别中的训练语音按其与聚类中心的距离从小到大进行排序,按照一定的比例选择排名靠前的训练语音作为核心训练语音。
通过本发明提供的核心语音选择方法,可以保证挑选的训练语音之间差异较大,且分别能够较好地覆盖待识别类别语音的声学特征空间,因此能使部分的训练数据获取的语音模型性能优于原始训练数据上建立的语音模型。
附图说明
图1为本发明核心训练语音选择方法的步骤流程示意图。
具体实施方式
本发明适用于语音识别、说话人识别、伪造语音识别等语音分类场景,下面提供了在合成语音检测中选择核心训练语音的应用实施例。
为了进一步理解本发明,下面结合具体实施例对本发明的技术方案进行详细描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
本实施方式中的实验数据采用的是2019年自动说话人识别欺骗攻击与防御对策挑战赛逻辑访问数据库(ASVspoof 2019-LA)以及2015年自动说话人识别欺骗攻击与防御对策挑战赛(ASVspoof 2015)。
ASVspoof挑战赛由英国爱丁堡大学、法国EURECOM、日本NEC、东芬兰大学等多个世界领先的研究机构共同组织发起。ASVspoof 2019的真实语音来自107个说话人,其中61人为女性、46人为男性,数据集被划分为三部分:训练集(Train)、开发集(Dev)、评估集(Eval),录音环境较安静,没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的,其中训练集包含20个说话人,12人为女性、8人为男性,包含真实语音2580句、虚假语音22800句;开发集包含20个说话人,12人为女性、8人为男性,包含真实语音2548句、虚假语音22296句;评估集包含67个说话人,37人为女性、30人为男性,包含真是语音7355句、虚假语音63882句,评估集大小约为4GB。
ASVspoof 2015的真实语音来自106个说话人,其中61人为女性、45人为男性,数据集被划分为三部分:训练集(Train)、开发集(Dev)、评估集(Eval),录音环境较安静,没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的,其中训练集包含25个说话人,15人为女性、10人为男性,包含真实语音3750句、虚假语音12625句;开发集包含35个说话人,20人为女性、15人为男性,包含真实语音2497句、虚假语音49875句;评估集包含46个说话人,26人为女性、20人为男性,约20万条测试语音,评估集大小约为20GB。
如图1所示,本发明结合GMM Token配比与聚类的核心训练语音选择方法包括如下步骤:
S1.随机选取语句进行训练获取模型参数;
S2.计算所有训练语句的GMM托肯配比特征;
S3.对所有语句进行Kmenas聚类;
S4.计算各个语句到各个聚类中心的距离;
S5.选取距离各个聚类中心最近的语句。
随机选择比例为α的语音,获取其特征数据,可以使用语音的32阶LFCC,并加上一阶Δ特征和二阶Δ特征。使用这些特征数据,训练得到拥有K阶高斯分量的GMM,将这个GMM作为之后用于获取训练语音Token配比特征的GMM tokenizer。
GMM的训练是一个有监督的优化过程,一般采用最大似然准则,整个过程分为参数初始化和参数优化两部分,前者通常使用LBG算法,后者使用EM算法,由于GMM的训练以及语音特征的获取方法在现有的合成语音检测系统中已得到普遍的应用,在此不多作说明。对于GMM模型阶数K的选择,一般是2的幂次方如64、128、512、1024等等,在实验中发现对于使用的96维LFCC特征,512阶的GMM合成语音检测系统性能更优。
前述步骤S2的具体实施方法是:首先获取各个语音的特征数据,语音特征的获取方式应该与步骤S1中训练GMM tokenizer的数据的获取方式保持一致(如32阶LFCC加上一阶Δ特征和二阶Δ特征);然后针对特征数据的每一帧,在GMM tokenizer上计算似然得分 将得分最高的高斯分量索引序号标为这一帧的GMM Token;因此相应地,在特征数据中的每一帧特征帧经过GMMtokenizer之后都将对应一个GMM Token,所有特征数据经过GMM tokenizer之后便可获得GMM Token序列。最后计算Token配比特征GTR=[f1,f2,…,fK]T,GMM Token配比指的是每个GMM Token索引对应的GMM Token数目与GMM Token总数之比,其中GMM Token总数即为语音GMM Token序列的长度,取决于原始语音特征数据的长度,计算方法为:其中i的大小为[1,K],K为GMM tokenizer的混合高斯分量的数目大小,fi为分量i的GMM Token配比,Ni为分量i的GMM Token数量,T为GMM Token总数。
前述步骤S3的具体实施方法是:对于步骤S2所获得的所有语音的GMM Token配比特征,进行Kmeans聚类,将数据聚成M类。Kmeans算法是基于距离的非层次聚类算法,步骤首先是随机初始化聚类中心Center={c1,c2,…,cM},然后计算每个样本到聚类中心的距离disti={d1,d2,…,dM},按照最小距离原则划分到最邻近聚类,接着计算每个聚类中的样本均值作为聚类中心 然后重复划分和计算聚类中心两个步骤直到聚类中心不再发生变化。
前述步骤S5的具体实施方法是:对于步骤S4得到的各个语音特征到各聚类中心的欧式距离进行排序,选择距离各个中心最近的语音j*=arg minjdij加入选取的核心语音集合C。
以下我们对开发集和评估集的所有语音进行测试,实验均基于GMM系统,除了本发明提出的GTR聚类选择算法以外,对比了使用全部数据、随机选择和最大平均距离(TopK)选择的方法,实验等错误率EER结果比较如表1所示:
表1
从表1中可以看出,本发明能够在一定程度上提高系统识别性能且性能优于随机选择和TopK选择方法,对比原始使用全部数据训练的方法EER平均提升了0.65个百分点。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明,熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
Claims (7)
1.一种结合GMM Token配比与聚类的核心训练语音选择方法,包括如下步骤:
S1.随机选取部分训练语音进行训练获得初始模型;
S2.利用所述初始模型计算所有训练语音的GMM Token配比特征;
S3.利用所述GMM Token配比特征对所有训练语音进行聚类;
S4.逐一计算每条训练语音到聚类中心的距离;
S5.根据一定比例逐类选取距离聚类中心较近的训练语音作为核心训练语音。
2.根据权利要求1所述的核心训练语音选择方法,其特征在于:所述步骤S1的具体实现方式为:随机选择一定比例的训练语音,提取其特征数据,使用这些特征数据训练得到具有K阶高斯分量的GMM即初始模型。
3.根据权利要求2所述的核心训练语音选择方法,其特征在于:所述GMM的训练是一个有监督的优化过程,其采用最大似然准则,整个过程分为参数初始化和参数优化两部分,前者使用LBG算法实现,后者使用EM算法实现,将训练得到的GMM作为之后用于获取训练语音Token配比特征的GMM tokenizer。
4.根据权利要求1所述的核心训练语音选择方法,其特征在于:所述步骤S2的具体实现方式为:首先提取各训练语音的特征数据,然后针对特征数据的每一帧,在GMM tokenizer上计算似然得分,将得分最高的高斯分量索引序号标记作为这一帧的GMM Token,相应地,特征数据中的每一帧经过GMM tokenizer之后都将对应得到一个GMM Token,整个特征数据经过GMM tokenizer之后便可获得一组GMM Token序列;最后计算每一高斯分量索引的GMMToken数量与GMM Token总数之比即训练语音的GMM Token配比特征,计算方法为其中fi为第i个高斯分量索引的GMM Token配比,T为GMM Token总数,其大小取决于语音的特征数据长度,Ni为第i个高斯分量索引的GMM Token数量,i为自然数且1≤i≤K,K为GMM中的高斯分量总数。
5.根据权利要求1所述的核心训练语音选择方法,其特征在于:所述步骤S3的具体实现方式为:根据步骤S2获得所有训练语音的GMM Token配比特征,对训练语音进行聚类,将所有训练语音聚成M类,M为自定义大于1的自然数。
6.根据权利要求1所述的核心训练语音选择方法,其特征在于:所述步骤S4的具体实现方式为:对于任一条训练语音,根据GMM Token配比特征计算该语音到其所属类别聚类中心的距离。
7.根据权利要求1所述的核心训练语音选择方法,其特征在于:所述步骤S5的具体实现方式为:对于任一类别,将该类别中的训练语音按其与聚类中心的距离从小到大进行排序,按照一定的比例选择排名靠前的训练语音作为核心训练语音。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010356834 | 2020-04-29 | ||
CN2020103568341 | 2020-04-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113192493A true CN113192493A (zh) | 2021-07-30 |
CN113192493B CN113192493B (zh) | 2022-06-14 |
Family
ID=76980831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110473820.2A Active CN113192493B (zh) | 2020-04-29 | 2021-04-29 | 一种结合GMM Token配比与聚类的核心训练语音选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192493B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779508A (zh) * | 2012-03-31 | 2012-11-14 | 安徽科大讯飞信息科技股份有限公司 | 语音库生成设备及其方法、语音合成系统及其方法 |
CN103313394A (zh) * | 2012-03-16 | 2013-09-18 | 联发科技股份有限公司 | 无线通信装置及无线通信装置的多信道活动控制方法 |
CN103971685A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 语音命令识别方法和系统 |
CN104240699A (zh) * | 2014-09-12 | 2014-12-24 | 浙江大学 | 一种简单有效的短语语音识别方法 |
CN104240706A (zh) * | 2014-09-12 | 2014-12-24 | 浙江大学 | 一种基于GMM Token配比相似度校正得分的说话人识别方法 |
US20160358599A1 (en) * | 2015-06-03 | 2016-12-08 | Le Shi Zhi Xin Electronic Technology (Tianjin) Limited | Speech enhancement method, speech recognition method, clustering method and device |
-
2021
- 2021-04-29 CN CN202110473820.2A patent/CN113192493B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103313394A (zh) * | 2012-03-16 | 2013-09-18 | 联发科技股份有限公司 | 无线通信装置及无线通信装置的多信道活动控制方法 |
CN102779508A (zh) * | 2012-03-31 | 2012-11-14 | 安徽科大讯飞信息科技股份有限公司 | 语音库生成设备及其方法、语音合成系统及其方法 |
CN103971685A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 语音命令识别方法和系统 |
CN104240699A (zh) * | 2014-09-12 | 2014-12-24 | 浙江大学 | 一种简单有效的短语语音识别方法 |
CN104240706A (zh) * | 2014-09-12 | 2014-12-24 | 浙江大学 | 一种基于GMM Token配比相似度校正得分的说话人识别方法 |
US20160358599A1 (en) * | 2015-06-03 | 2016-12-08 | Le Shi Zhi Xin Electronic Technology (Tianjin) Limited | Speech enhancement method, speech recognition method, clustering method and device |
Non-Patent Citations (2)
Title |
---|
姚煜等: "基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统", 《计算机应用》 * |
杨莹春等: "基于GMM托肯配比相似度校正得分的说话人识别", 《清华大学学报(自然科学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113192493B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108109613B (zh) | 用于智能对话语音平台的音频训练和识别方法及电子设备 | |
Todisco et al. | Integrated presentation attack detection and automatic speaker verification: Common features and Gaussian back-end fusion | |
CN108986824B (zh) | 一种回放语音检测方法 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN106448685B (zh) | 一种基于音素信息的声纹认证系统及方法 | |
CN108091326B (zh) | 一种基于线性回归的声纹识别方法及系统 | |
WO2014029099A1 (en) | I-vector based clustering training data in speech recognition | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN103578481B (zh) | 一种跨语言的语音情感识别方法 | |
Liu et al. | A Spearman correlation coefficient ranking for matching-score fusion on speaker recognition | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
Shin et al. | Learning audio-text agreement for open-vocabulary keyword spotting | |
CN109961794A (zh) | 一种基于模型聚类的分层说话人识别方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Anguera et al. | A novel speaker binary key derived from anchor models | |
CN113192493B (zh) | 一种结合GMM Token配比与聚类的核心训练语音选择方法 | |
Mami et al. | Speaker recognition by location in the space of reference speakers | |
Trabelsi et al. | Comparison between GMM-SVM sequence kernel and GMM: application to speech emotion recognition | |
Zhang et al. | Speaker recognition based on dynamic time warping and Gaussian mixture model | |
Ghahabi et al. | Deep Neural Networks for i-Vector Language Identification of Short Utterances in Cars. | |
CN113223537B (zh) | 一种基于阶段测试反馈的语音训练数据迭代更新方法 | |
CN113223503B (zh) | 一种基于测试反馈的核心训练语音选择方法 | |
Fernando et al. | A Feature Normalisation Technique for PLLR Based Language Identification Systems. | |
CN113257236B (zh) | 一种基于核心帧筛选的模型得分优化方法 | |
Hu et al. | Fusion of two classifiers for speaker identification: removing and not removing silence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |