CN110428803A - 一种基于发音属性的发音人国别识别方法及系统 - Google Patents

一种基于发音属性的发音人国别识别方法及系统 Download PDF

Info

Publication number
CN110428803A
CN110428803A CN201910662424.7A CN201910662424A CN110428803A CN 110428803 A CN110428803 A CN 110428803A CN 201910662424 A CN201910662424 A CN 201910662424A CN 110428803 A CN110428803 A CN 110428803A
Authority
CN
China
Prior art keywords
pronunciation
country origin
attribute
pronunciation attribute
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910662424.7A
Other languages
English (en)
Other versions
CN110428803B (zh
Inventor
解焱陆
郭铭昊
张劲松
于嘉威
付凯奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN201910662424.7A priority Critical patent/CN110428803B/zh
Publication of CN110428803A publication Critical patent/CN110428803A/zh
Application granted granted Critical
Publication of CN110428803B publication Critical patent/CN110428803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种基于发音属性的发音人国别识别方法及系统,包括:将汉语音段划分成多种发音属性类别;针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器;将参与后续国别识别任务的所有二语语料输入各发音属性特征提取器中,对应每一帧语音的多个不同的发音属性,得到多组不同维度的发音属性特征;将各发音属性特征对应的属性后验概率进行拼接,得到每帧的发音属性超向量;使用发音属性超向量训练深度神经网络得到第一国别识别模型。本发明的国别识别方法识别准确率高,且采用本发明方法不需要考虑发音人所说的内容,也不需要考虑当前所说的语言种类,都可以识别出其国别。

Description

一种基于发音属性的发音人国别识别方法及系统
技术领域
本发明涉及语种识别技术领域,特别是指一种基于发音属性的发音人国别识别方法及系统。
背景技术
国别识别是从发音人的语音中识别其所属国家,现有技术一般需要发音人发出母语才能识别,若发音人发二语,则自动识别其国别较为困难,此外,文本无关的国别识别更具有挑战性,当前国际主流技术是采用高斯混合模型(GMM)提取某国别对应说话人语音的高斯超向量作为对应语种的表征特征,然后通过后端分类器来判断属于哪个国家。
另一方面,从不同语言在音素和音位上的差异来看,关于L2口音从某些角度来说是可以预测的。因此除了用高斯超向量作为语种表征特征外,也有研究用重音,VOT,音素边界作为特征来对国别进行区分,结合这些特征,该技术除了可以用于多语种识别系统和机器翻译之外,还希望通过分析二语发音者的母语与二语在识别过程中的差异,研究母语对二语习得和产出的影响,提高计算机辅助发音系统针对不同国别二语学习者的教学技术。
国别识别(spoken language recognition)的任务是识别或验证语音中的语言。良好的国别识别系统已被广泛用作多语言语音识别系统和自动翻译系统的前端。通常,国别识别系统使用的方法大致包括两种类型:基于频谱和基于标识(token)的语种识别系统(SLR)。基于频谱的方法使用的特征(例如,FBank,MFCC,PLP等)是语音信息的基本特征形式。然而,基于语音的方法通常使用音素信息,其表征这些音素如何在语言中组合。其中一个例子是使用音素识别之后进行语言建模(PRLM),通过音素识别器模型将语音话语转换为音素序列,然后使用n-gram语言模型产生似然分数;另一个是在使用自动语音识别(ASR)的深度神经网络框架(DNN)生成不同国别语言的低维向量深度瓶颈层特征(DBN)特征。
还有的关于国别识别的方法,是提取语音特征(MFCC、FBANK)、通过GMM-UBM提取出i-vector、将i-vector通过后端补偿LDA方法消除信道差异、然后用PLDA或SVM两种模型来对其进行分类打分。但是这一方法步骤很多,无可避免地会在中间丢失重要信息,因此有人提出端到端方法,直接对原始语音特征进行网络分类打分。
以上方法在国别识别任务取得了很大的进展。基于这些特征的SLR系统的性能高度依赖于识别器的准确性。为了训练这样的音素识别系统,需要大量标记数据和文本标注,但是一些低资源语言很难获得这些数据和文本。此外,目前大部分研究人员进行的是文本相关的国别识别,也就是语音结合文本的方式。这代表着可利用的分类信息更多,区分难度更小。
发明内容
本发明要解决的技术问题是提供一种与文本无关的基于发音属性的发音人国别识别方法及系统,解决现有技术在发音人国别识别过程中,由于一些低资源语言很难获得训练数据和文本,造成所训练的识别器的准确性不够高,进而影响最终的国别识别准确性的问题。实现在不需要提前已知文本的情况下也能获得较好的识别率;通过二语文本无关的发音识别出发音人的母语是什么,进而识别出发音人对应的国别。
为解决上述技术问题,本发明提供一种基于发音属性的发音人国别识别方法,该基于发音属性的发音人国别识别方法包括:
通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别;
针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器;
将参与后续国别识别任务的所有二语语料输入各发音属性特征提取器中,对应每一帧语音的多个不同的发音属性,得到多组不同维度的发音属性特征;
将多组不同维度的发音属性特征各自对应的属性后验概率进行拼接,得到每帧对应的发音属性超向量;
使用所述发音属性超向量训练适应国别识别任务的深度神经网络得到第一国别识别模型。
进一步地,通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别,具体为:
通过IPA和汉语语音学定义将汉语音段划分成七种发音属性类别,包括发音方式、发音位置、清浊音、送气不送气、舌位高低、舌位前后、唇形圆展。
进一步地,每一发音属性的类别数量都决定了该发音属性的特征是几维;其中,各发音属性类别数量为:清浊音:2类;送气不送气:3类;发音方式:9类;发音位置:6类;舌位前后:8类;舌位高低:8类;唇形圆展:3类。
进一步地,针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器,包括:
针对划分出的每一发音属性类别分别进行建模;
获取大规模普通话语料库作为训练数据集;
基于划分的发音属性类别,将所述训练数据集中的汉语音段标签映射为发音属性标签,并提取汉语音段的频谱特征,构建训练特征集;
利用所述训练特征集对每一发音属性类别对应的模型进行训练得到各发音属性对应的发音属性特征提取器。
进一步地,所述针对划分出的每一发音属性类别分别进行建模时,使用通用HMM-DNN架构建模,并使用i-vector参与说话人自适应过程。
进一步地,所述使用所述发音属性超向量训练适应国别识别任务的深度神经网络得到第一国别识别模型具体为:根据国别识别任务语料库规模、母语背景数量、语料每句的时长选择适应国别识别任务的深度神经网络,使用所述发音属性超向量进行训练,从而得到第一国别识别模型,所述方法还包括:
使用所述发音属性超向量得到基于i-vector分类的第二国别识模型;
使用所述发音属性超向量得到基于x-vector分类的第三国别识别模型;
对所述第一国别识别模型、第二国别识别模型和第三国别识别模型进行融合,得到用于对发音人国别进行识别的融合模型。
进一步地,所述对所述第一国别识别模型、第二国别识别模型和第三国别识别模型进行融合时使用Focal工具融合。
相应地,为解决上述技术问题,本发明还提供一种基于发音属性的发音人国别识别系统,该基于发音属性的发音人国别识别系统包括:
发音属性分类模块,所述发音属性分类模块用于通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别;
发音属性建模模块,所述发音属性建模模块用于针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器;
语音特征提取模块,所述语音特征提取模块用于将参与后续国别识别任务的所有二语语料输入各发音属性特征提取器中,对应每一帧语音的多个不同的发音属性,得到多组不同维度的发音属性特征;
发音属性特征整合模块,所述发音属性特征整合模块用于将多组不同维度的发音属性特征的属性后验概率进行拼接,得到每帧对应的发音属性超向量;
国别识别模块,所述国别识别模块用于使用所述发音属性超向量训练适应国别识别任务的深度神经网络得到第一国别识别模型。
进一步地,所述发音属性建模模块具体用于:
针对划分出的每一发音属性类别分别使用通用HMM-DNN架构建模,并使用i-vector参与说话人自适应过程;
获取大规模普通话语料库作为训练数据集;
基于划分的发音属性类别,将所述训练数据集中的汉语音段标签映射为发音属性标签,并提取汉语音段的频谱特征,构建训练特征集;
利用所述训练特征集对每一发音属性类别对应的模型进行训练得到各发音属性对应的发音属性特征提取器。
进一步地,所述国别识别模块还用于:
使用所述发音属性超向量得到基于i-vector分类的第二国别识模型;
使用所述发音属性超向量得到基于x-vector分类的第三国别识别模型;
使用Focal工具对所述第一国别识别模型、第二国别识别模型和第三国别识别模型进行融合,得到用于对发音人国别进行识别的融合模型。
本发明的上述技术方案的有益效果如下:
通过对比其他国别识别技术,i-vector,x-vector,DBN特征等,本发明的基于发音属性的发音人国别识别方法所采用的七种发音属性和频谱特征的整合特征,优于同条件下的其他方法,可以实现了目前最佳国别识别准确率。而且发音属性是各种语言所共有的,不需要考虑发音人所说的内容,也不需要考虑当前所说的语言种类,都可以识别出发音人的国别。
附图说明
图1为本发明的基于发音属性的发音人国别识别方法的原理框图;
图2为一种TDNN的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
针对现有的国别识别方法在发音人国别识别过程中,由于一些低资源语言很难获得训练数据和文本,造成所训练的识别器的准确性不够高,进而影响最终的国别识别准确性。并且目前大部分研究人员进行的是文本相关的国别识别,需要在已知文本的情况下才能获得较好的识别率的问题;
本实施例提出了一种基于发音属性的发音人国别识别方法,实现在不需要提前已知文本的情况下也能获得较好的识别率;通过二语文本无关的发音识别出发音人的母语是什么,进而识别出发音人对应的国别。其原理框图如图1所示(图中举例为时延神经网络,也可以是融合系统),使用发音属性特征(Articulatory features,AFs)作为语种识别系统的前端,然后使用时延神经网络(Time delay neural network,TDNN)来建模属性特征的长时依赖关系,由此来进行语种识别。并且为了验证本实施例所提出的方法的效果,本实施例比较了不同的语音特征和其他常见的一些语种识别方法。
其中,本实施例所使用的TDNN的网络结构如图2所示,这种TDNN结构对时间序列输入数据[10,11,12]具有有限的动态响应。假设t是当前帧,在输入层(layer1),帧[t-2,t+2]被拼接在一起。层2,3和4我们分别将帧[t-1,t+2],[t-3,t+3]和[t-7,t+2]拼接在一起。总的来说,DNN的左上下文为13,右上下文为9。
在本实施例中,使用TDNN来替换n-gram语言模型作为基于发音属性的SLR的后端。TDNN在声学信号中建模时间依赖性的有效性可以帮助学习SLR任务的输入更准确的发音属性序列作为判别特征。此外,本实施例还探索了不同的发音属性特征对语种识别性能的影响,本发明首次使用七种不同的发音属性(发音方式、发音位置、清浊音、送气不送气、舌位高低、舌位前后、唇形圆展)作为语种识别系统的前端;并对比只使用传统的两种发音属性特征(发音方式、发音位置)来进行语种识别。
为了对比不同类型的发音属性对SLR表现的影响,本实施例使用了7种自主定义的发音属性类型(上述七种)。这七种类型对应于国际音标,具有语言通用性,而且针对亚洲语系的特点分类比国际音标更加细致。具体地,本实施例的国别识别方法包括:
S101,通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别;
S102,针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器;
S103,将参与后续国别识别任务的所有二语语料输入各发音属性特征提取器中,对应每一帧语音的不同的发音属性,得到多组不同维度的发音属性特征;
S104,将多组不同维度的发音属性特征各自对应的属性后验概率进行拼接,得到每帧对应的发音属性超向量;
S105,使用发音属性超向量训练适应国别识别任务的深度神经网络得到第一国别识别模型。
进一步地,上述通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别,具体为:通过IPA和汉语语音学定义将汉语音段划分成七种发音属性类别,包括发音方式、发音位置、清浊音、送气不送气、舌位高低、舌位前后、唇形圆展。每一发音属性的类别数量都决定了该发音属性的特征是几维;其中,各发音属性类别数量为:清浊音:2类;送气不送气:3类;发音方式:9类;发音位置:6类;舌位前后:8类;舌位高低:8类;唇形圆展:3类。
进一步地,针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器,包括:
针对划分出的每一发音属性类别分别进行建模;
获取大规模普通话语料库作为训练数据集;基于划分的发音属性类别,将训练数据集中的汉语音段标签映射为发音属性标签,并提取汉语音段的频谱特征,构建训练特征集;利用训练特征集对每一发音属性类别对应的模型进行训练得到各发音属性对应的发音属性特征提取器。
进一步地,针对划分出的每一发音属性类别分别进行建模时,使用通用HMM-DNN架构建模,并使用i-vector参与说话人自适应过程。
注意:
由于二语学习者的母语背景各不相同,这些母语的发音属性类别集合与汉语的发音属性类别集合存在不包括部分。这时,有以下几种解决方案:
a.如果这些母语背景中没有发音属性提取器中建模的发音属性:
a)可以只选择这些母语与汉语共有的发音属性提取器提取超向量,而不使用不包括部分的发音属性提取器(在发音属性含义上可解释其区分性);
a)也可以使用所有的发音属性提取器,虽然该发音属性提取器提取的超向量没有其母语背景的含义,但该向量同样可以表征不同母语背景学习者学习“未知属性”的差异(在数据特征角度体现该向量的区分性);
b.如果在发音属性提取器中没有建模这些母语背景中的部分发音属性子类:
a)可以在建模发音属性提取器时使用部分这些母语的语料参与训练(这时对应提取器属性类别会有变化);
b)也可以在相应提取器提取的超向量后补0表征该子类;
(这两种方案的最终超向量维度与考虑的发音属性类别相同)
c.如果上述情况都有且无法充分照顾到所有母语背景的学习者(如遇到某母语没有足量语料库或某母语的发音属性难以定义等特殊情况):
a)可以不做任何上述适应性调整,仅使用建模的所有发音属性提取器(由于发音属性具备通用性,从数据特征角度上能够体现不同母语背景学习者学习一门第二语言的区分性);
b)统计所有母语发音属性类别与汉语发音属性类别公共集合,挑选涵盖大部分母语背景发音属性的提取器,并在每帧上挑选公共集合中的属性后验概率,最终提取一个基于国别识别数据的超向量(在发音属性含义上可解释其区分性,需要根据具体任务定义超向量维度);
进一步地所述使用所述发音属性超向量训练适应国别识别任务的深度神经网络得到第一国别识别模型具体为:根据国别识别任务语料库规模、母语背景数量、语料每句的时长选择适应国别识别任务的深度神经网络,使用所述发音属性超向量进行训练,从而得到第一国别识别模型,本实施例的方法还包括:
使用发音属性超向量得到基于i-vector分类的第二国别识模型;使用发音属性超向量得到基于x-vector分类的第三国别识别模型;使用Focal工具对第一国别识别模型、第二国别识别模型和第三国别识别模型进行融合,得到用于对发音人国别进行识别的融合模型。
更具体地,本实施例的方法包括如下步骤:
一、发音属性特征分类:
1)通过IPA和汉语语音学定义将汉语音段分成七种发音属性类别;
2)根据上述定义将汉语音段标签映射为发音属性标签;
3)其中每个发音属性的类别数量都决定了该属性的特征是多少维;
4)清浊音:2类;
5)送气不送气:3类;
6)发音方式:9类;
7)发音位置:6类;
8)舌位前后:8类;
9)舌位高低:8类;
10)唇形圆展:3类;
11)精准描述汉语发音属性分类将利于区分不同母语发音人的口音;
二、基于发音属性的建模:
1)训练数据集使用大规模普通话语料库;
2)提取MFCC或其它频谱特征;
3)根据七种发音属性分别建模;
4)使用通用HMM-DNN架构建模,i-vector参与说话人自适应过程;
5)得到七个发音属性特征提取器;
6)将参与后续国别识别任务的所有二语语料放入七个提取器中,对应每一帧语音的七个不同的属性,得到七组不同维度的发音属性特征;
7)七组发音属性特征共计39种不同的属性后验概率,经过拼接,最终得到每帧39维的超向量(AFs);
三、国别识别特征提取:
1)因为发音属性的通用性,本发明适用于所有母语背景的发音人;
2)提取MFCC特征,40维,帧长25ms,相当于滤波器组系数(Filter bank),具备可缩性;
3)训练深度神经网络,这里可以使用任意神经网络模型,提取深度瓶颈层特征(DBN);
4)训练深度瓶颈层特征的TDNN没有softmax输出层,该特征直接由瓶颈层提取;
四、基于i-vector的国别识别系统:
1)使用所有二语语料库数据,统计发音人的母语背景(注意口音分类);
2)特征使用上述步骤二和步骤三中的三种特征;
3)提取i-vector的模型使用GMM-UBM(高斯混合模型-通用背景模型)模型;
4)含有N个高斯混合模型的UBM模型;
5)提取所有二语数据的的i-vector特征;
6)后端分类可采用任意适用方法,如余弦距离算法,最后的国别分类为N个节点,对应N种母语背景;
五、基于x-vector的国别识别系统:
1)使用所有二语语料库数据,统计发音人的母语背景(注意口音分类);
2)特征使用上述步骤二和步骤三中的三种特征;
3)使用深度神经网络模型,提取所有二语语料的x-vector;
4)后端分类可采用任意适用方法,如余弦距离算法,最后的国别分类为N个节点,对应N种母语背景;
六、三种单体国别识别任务:
1)使用三种特征(MFCC、DBN、AFs)分别训练三个深度神经网络得到最终的国别识别结果,这里输出层节点为N(对应N种母语背景);
2)使用三种特征(MFCC、DBN、AFs)分别得到基于i-vector分类的三个后端国别识别,这里输出层节点为N(对应N种母语背景);
3)使用三种特征(MFCC、DBN、AFs)分别得到基于x-vector分类的三个后端国别识别,这里输出层节点为N(对应N种母语背景);
4)在三个单体系统性能比较中,AFs特征都获得了最佳性能;
七、融合二语国别识别系统:
1)使用Focal工具融合系统,可将基于AFs的神经网络融合入以下系统;
2)融合MFCC/DBN/AFs-神经网络/ivector/xvector等;
3)可进行三系统融合:融合AFs-ivector+AFs-xvector+AFs-神经网络;
4)其中融合三种AFs的后端系统的融合系统性能最优;
八、不同维度发音属性特征的国别识别:
1)使用神经网络作为后端分类系统;
2)使用七种不同维度的发音属性特征;
3)七种发音属性特征可任意组合作为输入特征,得到不同维度的AFs;
4)融合所有七种发音属性特征时获得最佳性能;
相应地,针对上述技术问题,本实施例还提供一种基于发音属性的发音人国别识别系统,该基于发音属性的发音人国别识别系统包括:
发音属性分类模块,所述发音属性分类模块用于通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别;
发音属性建模模块,所述发音属性建模模块用于针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器;
语音特征提取模块,所述语音特征提取模块用于将参与后续国别识别任务的所有二语语料输入各发音属性特征提取器中,对应每一帧语音的多个不同的发音属性,得到多组不同维度的发音属性特征;
发音属性特征整合模块,所述发音属性特征整合模块用于将多组不同维度的发音属性特征的属性后验概率进行拼接,得到每帧对应的发音属性超向量;
国别识别模块,所述国别识别模块用于使用所述发音属性超向量训练深度神经网络得到第一国别识别模型。
进一步地,上述发音属性建模模块具体用于:
针对划分出的每一发音属性类别分别使用通用HMM-DNN架构建模,并使用i-vector参与说话人自适应过程;
获取大规模普通话语料库作为训练数据集;
基于划分的发音属性类别,将所述训练数据集中的汉语音段标签映射为发音属性标签,并提取汉语音段的频谱特征,构建训练特征集;
利用训练特征集对每一发音属性类别对应的模型进行训练得到各发音属性对应的发音属性特征提取器。
进一步地,上述国别识别模块还用于:
使用发音属性超向量得到基于i-vector分类的第二国别识模型;
使用发音属性超向量得到基于x-vector分类的第三国别识别模型;
使用Focal工具对第一国别识别模型、第二国别识别模型和第三国别识别模型进行融合,得到用于对发音人国别进行识别的融合模型。
本实施例通过对比其他国别识别技术,i-vector,x-vector,DBN特征等,本发明的基于发音属性的发音人国别识别方法所采用的七种发音属性和频谱特征的整合特征,优于同条件下的其他方法,可以实现了目前最佳国别识别准确率。而且发音属性是各种语言所共有的,不需要考虑发音人所说的内容,也不需要考虑当前所说的语言种类,都可以识别出发音人的国别。
此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于发音属性的发音人国别识别方法,其特征在于,包括:
通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别;
针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器;
将参与后续国别识别任务的所有二语语料输入各发音属性特征提取器中,对应每一帧语音的多个不同的发音属性,得到多组不同维度的发音属性特征;
将多组不同维度的发音属性特征各自对应的属性后验概率进行拼接,得到每帧对应的发音属性超向量;
使用所述发音属性超向量训练适应国别识别任务的深度神经网络得到第一国别识别模型。
2.如权利要求1所述的基于发音属性的发音人国别识别方法,其特征在于,通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别,具体为:
通过IPA和汉语语音学定义将汉语音段划分成七种发音属性类别,包括发音方式、发音位置、清浊音、送气不送气、舌位高低、舌位前后、唇形圆展。
3.如权利要求2所述的基于发音属性的发音人国别识别方法,其特征在于,每一发音属性的类别数量都决定了该发音属性的特征是多少维;其中,各发音属性对应的类别数量为:清浊音:2类;送气不送气:3类;发音方式:9类;发音位置:6类;舌位前后:8类;舌位高低:8类;唇形圆展:3类。
4.如权利要求1所述的基于发音属性的发音人国别识别方法,其特征在于,针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器,包括:
针对划分出的每一发音属性类别分别进行建模;
获取大规模普通话语料库作为训练数据集;
基于划分的发音属性类别,将所述训练数据集中的汉语音段标签映射为发音属性标签,并提取汉语音段的频谱特征,构建训练特征集;
利用所述训练特征集对每一发音属性类别对应的模型进行训练得到各发音属性对应的发音属性特征提取器。
5.如权利要求1-4任一项所述的基于发音属性的发音人国别识别方法,其特征在于,所述针对划分出的每一发音属性类别分别进行建模时,使用通用HMM-DNN架构建模,并使用i-vector参与说话人自适应过程。
6.如权利要求1所述的基于发音属性的发音人国别识别方法,其特征在于,所述使用所述发音属性超向量训练适应国别识别任务的深度神经网络得到第一国别识别模型具体为:根据国别识别任务语料库规模、母语背景数量、语料每句的时长选择适应国别识别任务的深度神经网络,使用所述发音属性超向量进行训练,从而得到第一国别识别模型,所述方法还包括:
使用所述发音属性超向量得到基于i-vector分类的第二国别识模型;
使用所述发音属性超向量得到基于x-vector分类的第三国别识别模型;
对所述第一国别识别模型、第二国别识别模型和第三国别识别模型进行融合,得到用于对发音人国别进行识别的融合模型。
7.如权利要求6所述的基于发音属性的发音人国别识别方法,其特征在于,所述对所述第一国别识别模型、第二国别识别模型和第三国别识别模型进行融合时使用Focal工具融合。
8.一种基于发音属性的发音人国别识别系统,其特征在于,包括:
发音属性分类模块,所述发音属性分类模块用于通过IPA和汉语语音学定义将汉语音段划分成多种发音属性类别;
发音属性建模模块,所述发音属性建模模块用于针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器;
语音特征提取模块,所述语音特征提取模块用于将参与后续国别识别任务的所有二语语料输入各发音属性特征提取器中,对应每一帧语音的多个不同的发音属性,得到多组不同维度的发音属性特征;
发音属性特征整合模块,所述发音属性特征整合模块用于将多组不同维度的发音属性特征的属性后验概率进行拼接,得到每帧对应的发音属性超向量;
国别识别模块,所述国别识别模块用于使用所述发音属性超向量训练适应国别识别任务的深度神经网络得到第一国别识别模型。
9.如权利要求8所述的基于发音属性的发音人国别识别系统,其特征在于,所述发音属性建模模块具体用于:
针对划分出的每一发音属性类别分别使用通用HMM-DNN架构建模,并使用i-vector参与说话人自适应过程;
获取大规模普通话语料库作为训练数据集;
基于划分的发音属性类别,将所述训练数据集中的汉语音段标签映射为发音属性标签,并提取汉语音段的频谱特征,构建训练特征集;
利用所述训练特征集对每一发音属性类别对应的模型进行训练得到各发音属性对应的发音属性特征提取器。
10.如权利要求8所述的基于发音属性的发音人国别识别系统,其特征在于,所述国别识别模块还用于:
使用所述发音属性超向量得到基于i-vector分类的第二国别识模型;
使用所述发音属性超向量得到基于x-vector分类的第三国别识别模型;
使用Focal工具对所述第一国别识别模型、第二国别识别模型和第三国别识别模型进行融合,得到用于对发音人国别进行识别的融合模型。
CN201910662424.7A 2019-07-22 2019-07-22 一种基于发音属性的发音人国别识别模型建模方法及系统 Active CN110428803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910662424.7A CN110428803B (zh) 2019-07-22 2019-07-22 一种基于发音属性的发音人国别识别模型建模方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910662424.7A CN110428803B (zh) 2019-07-22 2019-07-22 一种基于发音属性的发音人国别识别模型建模方法及系统

Publications (2)

Publication Number Publication Date
CN110428803A true CN110428803A (zh) 2019-11-08
CN110428803B CN110428803B (zh) 2020-04-28

Family

ID=68411704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910662424.7A Active CN110428803B (zh) 2019-07-22 2019-07-22 一种基于发音属性的发音人国别识别模型建模方法及系统

Country Status (1)

Country Link
CN (1) CN110428803B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN111354370A (zh) * 2020-02-13 2020-06-30 百度在线网络技术(北京)有限公司 一种唇形特征预测方法、装置和电子设备
CN112908295A (zh) * 2021-02-02 2021-06-04 睿云联(厦门)网络通讯技术有限公司 一种地域性的离线口音语音识别系统的生成方法和装置
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备
CN114999526A (zh) * 2022-04-29 2022-09-02 北京语言大学 一种利用发音属性和参考文本的发音偏误检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1193689A2 (de) * 2000-09-27 2002-04-03 Philips Corporate Intellectual Property GmbH Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
CN108510977A (zh) * 2018-03-21 2018-09-07 清华大学 语种识别方法及计算机设备
CN108648747A (zh) * 2018-03-21 2018-10-12 清华大学 语种识别系统
CN109254991A (zh) * 2018-10-23 2019-01-22 北京语言大学 一种语言学习方法及装置
CN109766277A (zh) * 2019-01-02 2019-05-17 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1193689A2 (de) * 2000-09-27 2002-04-03 Philips Corporate Intellectual Property GmbH Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
CN108510977A (zh) * 2018-03-21 2018-09-07 清华大学 语种识别方法及计算机设备
CN108648747A (zh) * 2018-03-21 2018-10-12 清华大学 语种识别系统
CN109254991A (zh) * 2018-10-23 2019-01-22 北京语言大学 一种语言学习方法及装置
CN109766277A (zh) * 2019-01-02 2019-05-17 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHI SHUJU ET AL.: "Automatic detection of rhythmic patterns in native and L2 speech Chinese, Japanese, and Japanese L2 Chinese", 《2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)》 *
WEI WANG ET AL.: "Improve the Accuracy of Non-native Speech Annotation with a Semi-automatic Approach", 《2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN110517663B (zh) * 2019-08-01 2021-09-21 北京语言大学 一种语种识别方法及识别系统
CN111354370A (zh) * 2020-02-13 2020-06-30 百度在线网络技术(北京)有限公司 一种唇形特征预测方法、装置和电子设备
CN112908295A (zh) * 2021-02-02 2021-06-04 睿云联(厦门)网络通讯技术有限公司 一种地域性的离线口音语音识别系统的生成方法和装置
CN112908295B (zh) * 2021-02-02 2023-05-16 睿云联(厦门)网络通讯技术有限公司 一种地域性的离线口音语音识别系统的生成方法和装置
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备
CN114999526A (zh) * 2022-04-29 2022-09-02 北京语言大学 一种利用发音属性和参考文本的发音偏误检测方法及装置

Also Published As

Publication number Publication date
CN110428803B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN110428803A (zh) 一种基于发音属性的发音人国别识别方法及系统
Jin et al. Speech emotion recognition with acoustic and lexical features
CN110517663B (zh) 一种语种识别方法及识别系统
CN103544963B (zh) 一种基于核半监督判别分析的语音情感识别方法
US10515292B2 (en) Joint acoustic and visual processing
Lake et al. One-shot learning of generative speech concepts
CN107369440A (zh) 一种针对短语音的说话人识别模型的训练方法及装置
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
Tu et al. Investigating the role of L1 in automatic pronunciation evaluation of L2 speech
KR102212332B1 (ko) 외국어 교육을 위한 발음 정확도 평가 장치 및 방법
Yue et al. Automatic Scoring of Shadowing Speech Based on DNN Posteriors and Their DTW.
Zhang et al. Speech emotion recognition with i-vector feature and RNN model
Li et al. Improving mispronunciation detection of mandarin tones for non-native learners with soft-target tone labels and BLSTM-based deep tone models
CN109979257A (zh) 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
Tabbaa et al. Computer-aided training for Quranic recitation
CN104575495A (zh) 一种采用总变化量因子的语种识别方法及系统
CN109545202A (zh) 一种调整语义逻辑混乱的语料的方法及系统
Scharenborg et al. The representation of speech in deep neural networks
Johnson et al. Comparison of algorithms to divide noisy phone sequences into syllables for automatic unconstrained English speaking proficiency scoring
Bear et al. Comparing heterogeneous visual gestures for measuring the diversity of visual speech signals
Shruti et al. A comparative study on bengali speech sentiment analysis based on audio data
Zheng An analysis and research on Chinese college students’ psychological barriers in oral English output from a cross-cultural perspective
Bai Pronunciation Tutor for Deaf Children based on ASR
Suzuki et al. Sub-structure-based estimation of pronunciation proficiency and classification of learners
Mukherjee et al. Identification of top-3 spoken Indian languages: an ensemble learning-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant