CN105741832B - 一种基于深度学习的口语评测方法和系统 - Google Patents

一种基于深度学习的口语评测方法和系统 Download PDF

Info

Publication number
CN105741832B
CN105741832B CN201610057368.0A CN201610057368A CN105741832B CN 105741832 B CN105741832 B CN 105741832B CN 201610057368 A CN201610057368 A CN 201610057368A CN 105741832 B CN105741832 B CN 105741832B
Authority
CN
China
Prior art keywords
evaluation
voice
pronunciation
accuracy
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610057368.0A
Other languages
English (en)
Other versions
CN105741832A (zh
Inventor
李心广
李苏梅
徐集优
王泽铿
朱小凡
许港帆
叶学超
杨国强
马晓纯
康钰然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201610057368.0A priority Critical patent/CN105741832B/zh
Publication of CN105741832A publication Critical patent/CN105741832A/zh
Application granted granted Critical
Publication of CN105741832B publication Critical patent/CN105741832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于深度学习的口语评测方法和系统,所述方法包括:用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;用深度学习算法对整个句子发音质量作总体评价。本发明通过建立深度信念网络模型,将深度学习的DBN(Deep Belief Network)模型应用于英语口语测评中,对口语发音做出更加全面准确的评价。同时,深度学习算法相比浅层模型对情感的评价,评价准确度更高。

Description

一种基于深度学习的口语评测方法和系统
技术领域
本发明涉及语音识别和评价技术领域,尤其涉及一种基于深度学习的口语评测方法和系统。
背景技术
语音信号处理技术是语音处理和语音识别领域中的一个重要分支,也是现今语音识别和语音评价系统的主要核心技术。如今科技迅速发展,语音信号处理技术已深入到各个领域,包括语言学习以及口语自动评分,而在语言学习和自动评分中,运用语音信号处理的目的是将最新的语音技术与当前的教学和学习方法结合,建立辅助语言学习的系统或者口语智能评分系统。
近年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。将深度学习研究引入到语音识别模型训练,极大提高了语音识别的准确率。本发明采用深度学习算法,通过深度自动编码器构建语音识别模型和情感识模型,以及其他语音处理方法,包括语音信号预处理、语音识别、情感识别和发音质量评分。发音情感是一项对口语发音质量评价的重要指标,也是一项目前较难识别的指标,本发明将采用多个特征参数通过深度学习算法对情感进行识别和评价,结合其他评估指标构建科学,全面的口语朗读评价方法。
深度学习的概念源于人工神经网络的研究,由Hinton等人于2006年提出。2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点:(1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;(2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,在文章中逐层初始化是通过无监督学习实现的。由此可见,深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。
现有将深度学习方法应用于移动互联网有如下方式:
(1)基于DTW(Dynamic Time Warping)的口语发音评价系统
DTW是语音识别中出现较早、较为经典的一种算法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题。DTW在训练中几乎不需要额外的计算,因而在孤立词语音识别中最为简单有效。
(2)基于HMM(Hidden Markov Model)的口语发音评价系统
HMM是一种参数表示的用于描述随机过程统计特性的概率模型,由Markov链演变来,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较为理想的语音识别模型。
(3)基于ANN(Artificial Neural Network)的口语发音评价系统
ANN是利用数学模型模拟大脑神经网络的结构和功能而建立的一种信息处理系统。基于神经网络的语音识别系统本质上是一个自适应非线性动力学系统,一般由神经元、训练算法及网络结构三大要素构成。
上述方法存在如下技术缺陷:
(1)DTW但由于没有一个有效的用统计方法进行训练的框架,也不容易将底层和顶层的各种知识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识别问题时存在较大缺陷。
(2)HMM也有一定的局限性。首先,基于HMM的方法没有考虑感知的影响。其次,需要采集大规模的语音语料库来训练标准语音的HMM模板以获得稳健的HMM。再者,由于CALL是辅助第二语言学习,更多涉及非母语语音的识别。在识别非母语语音时,通常由母语语音训练的HMM识别性能会大幅下降,因此要进行非母语语音的自适应。即使这样,自适应后的HMM对非母语语音的识别仍难以取得良好的结果。
(3)ANN的理论分析的难度较大,不能很好地解释语音信号的时间动态特性;在训练学习网络模型时较容易过拟合,较难调整模型参数,需要不少经验和技巧,而且速度较慢,在层次较少(小于等于3)时效果并不优于其它方法,因此浅层人工神经网络在这个时期并没有过大的突破与发展。
发明内容
本发明实施例的目的在于提供一种基于深度学习的口语评测方法和系统,能够提高对口语语音识别和发音质量评价的准确度。
为了实现上述目的,一方面,本发明实施例提供了一种基于深度学习的口语评测方法,包括:
用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;
用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;
用深度学习算法对整个句子发音质量作总体评价;
所述用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价,包括:
通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别,判断所述测试语音的完整度;
计算标准语音与所述测试语音的MFCC特征的相关系数,判断所述测试语音的流利度;
根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价。
进一步的,所述深度自动编码器包括:编码器、解码器和隐含层;
所述编码器采用如下关系式进行编码:
h=f(X)=Sf(WX+bj)
其中,X为输入语音的特征向量,W为输入向量的权值,bj表示第j个神经元的阈值,或者称为偏置,h是得到的隐含层值,Sf是非线性激活函数,其表达式为:
解码器采用如下关系式进行解码:
y=g(H)=Sg(WH+bh)
其中,H为隐含层向量,这里作为输入,W为对应的权值向量,bh为阈值,Sg是解码器的激活函数;
对深度自动编码器的训练过程是在训练样本集D上寻找参数W,bj,bh构成的最小化重构误差,重构误差的表达式为:
Figure GDA0002035822110000042
其中,x为上述公式的输入,g(f(x))为上述公式的解码器输出,L是重构误差函数,表示为:
Figure GDA0002035822110000043
进一步的,所述对深度自动编码器的训练过程包括:
(1)输入用作训练的语音特征参数,在语音数据无类别标签的情况下,无监督训练出第一个AE;
(2)以第一个AE的输出作为下一个AE的输入,训练出第二个AE;
(3)重复步骤(2),直到完成预设数量隐含层的训练为止;
(4)在最后一个隐含层上增加一个分类预测网络模型,实现对所述分类预测网络模型的权重微调。
进一步的,所述用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价,具体为:
通过深度信念网络模型进行情感识别,判断情感正确度;
计算标准语音与所述测试语音特征参数的相关系数;
根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。
进一步的,所述深度信念网络模型的建立包括:
10、构建RBM,描述RBM的变量v和隐藏变量h的联合组态的能量函数表示为:
Figure GDA0002035822110000051
其中θ={W,a,b}
其中,θ={W,a,b}是RBM模型的参数,ai表示可见层节点i的偏置,bj表示隐藏层节点j的偏置,wi,j表示可见层节点i和隐含层节点j之间的连接权重;
20、基于所述能量函数,任一组态的联合概率分布为:
Figure GDA0002035822110000052
其中
Zθ为归一化因子;
30、给定训练样本,调整参数θ={W,a,b},以拟合给定的训练样本;
40、构建完RBM后,通过逐层堆叠RBM,固定偏移量和权重以及构建BP网络作为分类器,形成深度信念神经网络模型。
进一步的,所述语音特征参数包括:基频特征、共振峰、语速、平均能量,采用所述深度信念网络模型对所述语音特征参数进行模型训练、识别与评价。
进一步的,所述用深度学习算法对整个句子发音质量作总体评价包括:
根据预存的发音评价标准对所述测试语音数据的发音质量进行评价;
其中,所述预存的发音评价标准是预存的人工标记的发音评价标准。
为了实现上述目的,本发明另一方面提供一种基于深度学习的口语评测系统,包括发音准确度评价单元、情感准确度评价单元、发音质量评价单元和标准模型库;
所述发音准确度评价单元,用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;
所述情感准确度评价单元,用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;
所述发音质量评价单元,用深度学习算法对整个句子发音质量作总体评价;
所述标准模型库,用于存储标准语音语句和所述标准语音语句的语音特征参数;
所述发音准确度评价单元包括:
语音完整度评价单元,通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别,判断所述测试语音的完整度;
语音准确度评价单元,计算标准语音与所述测试语音的MFCC特征的相关系数,判断所述测试语音的流利度;
第一评价单元,根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价。
进一步的,
所述情感准确度评价单元包括:
情感正确度评价单元,通过深度信念网络模型进行情感识别,判断情感正确度;
相关系数确定单元,计算标准语音与所述测试语音的特征参数的相关系数;
第二评价单元,根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。
本发明实施例提供的基于深度学习的口语评测方法,相较于现有技术,具有如下有益效果:
1、对口语语音音准的评价具有更高的准确度。本发明通过建立基于深度自动编码器的语音识别模型对口语语音中的音准进行评价,相对于HMM,SVM等浅层模型具有更高的准确度。
2、用深度学习算法对口语语音情感进行评价。本发明将深度学习的DBN模型应用于口语语音情感评价,结合情感评价将对口语发音做出更加全面准确的评价。同时,深度学习算法相比浅层模型对情感的评价,评价准确度更高。
3、用深度学习算法模拟人类对整个口语句子发音质量进行评价。本发明采用深度自动编码器对整个口语句子发音质量进行评价,避免权重难以确定的情况,从而更好地模拟人类对整个口语句子发音质量进行评价。
附图说明
图1是本发明提供的基于深度学习的口语评测方法的流程图;
图2是本发明提供的深度自动编码器基本模型示意图;
图3是本发明提供的DBN模型示意图;
图4是本发明提供的深度自动编码器语音识别模型示意图;
图5是本发明提供的判断情感正确度的示意图;
图6是本发明提供的对所述测试语音数据的发音质量进行评价的示意图;
图7是本发明提供的基于深度学习的口语评测系统的一个实施例的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例中各个步骤前的标号仅为了对各个步骤进行更清楚地标识,各个步骤之间没有必然的先后顺序的限定。本发明实施例中,虽仅以口语语音的评测为例,但本领域技术人员应当理解,本发明也可应用到其他语言的语音处理中。
参见图1,是本发明提供的基于深度学习的口语评测方法的一个实施例的方法流程图。
如图1所示,所述基于深度学习的口语评测方法包括以下步骤:
101、用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;
本发明采用深度学习算法对测试语音数据进行处理,深度学习算法是目前机器学习领域最前沿的技术,深度学习模型包括深度自动编码器,深度信念网络以及卷积神经网络。
其中,深度自动编码器是由自动编码器改进而来,增加隐含层和神经元的数量,调整节点和改变权值等。自动编码器通过将原始输入x经过隐含层的映射转换为编码输出c(x),同样可以将c(x)经过隐含层的逆向变换还原为原先的网络输入,即自动编码器的目标输出即输入本身。如果隐含层节点的输入和输出间为线性关系,并且采用最小均方误差准则训练网络的话,那么整个编码过程本质上可以等效于主成分分析(Principle ComponentAnalysis,PCA);如果隐含层映射属于非线性映射,即属于自动编码器。本实施例采用的深度自动编码器基本模型如图2所示。
深度信念网络(Deep Belief Network,DBN)由Geoffrey Hinton于2006年提出。DBN的核心是一个非监督贪婪的逐层学习算法,通过该方法去预训练获得生成模型的权值,再用反向传播算法对网络进行微调,得到性能较优的网络模型。大量试验表明,用具有相应配置的DBN初始化多层感知器的权值,往往比随机初始化的结果要好得多。
在受限玻尔兹曼机的基础上,如果把隐藏层的层数增加,使用非监督贪婪的逐层方法我们可以得到深度玻尔兹曼机(Deep Boltzmann Machine,DBM),即充分训练第一个RBM并固定其权重和偏移量;然后使用其隐性神经元的状态,作为第二个RBM的输入向量;充分训练第二个RBM后,将第二个RBM堆叠在第一个RBM的上方;重复以上步骤任意多次。进一步地,如果在靠近可视层的部分使用贝叶斯信念网络,即有向图模型,如BP网络,这里限制层中节点之间无连接,将误差逐层反向传播,而在最远离可视层的部分使用RBM,可以得DBN,本发明提供的DBN模型如图3所示。本质上,DBN通过逐层对RBM训练得到一个全局的较优初始参数,从而提升网络性能。大量试验也证明,DBN可以解决传统BP网络的问题:需要大量含标号的训练样本集,收敛速度慢,参数选择不合适导致网络陷入局部最优。
本实施例中,采用深度自动编码器构成语音识别模型。
本步骤具体包括:
S120、通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别,判断所述测试语音的完整度;
所述深度自动编码器包括:编码器、解码器和隐含层;
所述编码器采用如下关系式进行编码:
h=f(X)=Sf(WX+bj)
其中,X为输入语音的特征向量,W为输入向量的权值,bj表示第j个神经元的阈值,或者称为偏置,h是得到的隐含层值,Sf是非线性激活函数,其表达式为:
Figure GDA0002035822110000091
解码器采用如下关系式进行解码:
y=g(H)=Sg(WH+bh)
其中,H为隐含层向量,这里作为输入,W为对应的权值向量,bh为阈值,Sg是解码器的激活函数;
对深度自动编码器的训练过程是在训练样本集D上寻找参数W,bj,bh构成的最小化重构误差,重构误差的表达式为:
Figure GDA0002035822110000092
其中,x为上述公式的输入,g(f(x))为上述公式的解码器输出,L是重构误差函数,表示为:
其中,深度自动编码器模型构建后,就要对该神经网络模型进行训练,以真正地应用于语音识别中,深度自动编码器语音识别模型如图4。通过无监督预训练方法初始化网络权值,再对网络进行有监督学习,可以避免神经网络容易收敛到局部最小值的情况发生。
所述对深度自动编码器的训练过程包括:
(1)输入用作训练的语音特征参数,在语音数据无类别标签的情况下,无监督训练出第一个AE;其中,AE是自动编码器,全称为AutoEncoder。
(2)以第一个AE的输出作为下一个AE的输入,训练出第二个AE;
(3)重复步骤(2),直到完成预设数量隐含层的训练为止;
(4)在最后一个隐含层上增加一个分类预测网络模型,本发明使用BP网络模型。将最后一个AE的输出,即最后隐含层数据作为该BP有监督层的输入,配合使用目标分类号,经历多次迭代,实现对所述分类预测网络模型的权重微调。
(5)深度自动编码器语音识别模型训练完毕。
S121、计算标准语音与所述测试语音的MFCC(Mel-Frequency CepstralCoefficients,Mel倒谱系数)特征的相关系数,判断所述测试语音的流利度;
S122、根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价。
音准评价主要考查发音句子的内容信息是否完整准确,发音是否清晰流利,是否有发音错误。本发明采用基于人耳听觉模型的MFCC系数作为音准的评价参数,通过深度自动编码器建立语音识别模型进行语音识别,判断测试语音内容是否完整正确;同时计算标准语句与输入语句的MFCC特征的相关系数,判断测试语音发音是否清晰流利,综合两者对口语发音质量进行音准评价与反馈。
102、用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;
本步骤具体为:
S130、通过深度信念网络模型进行情感识别,判断情感正确度;
所述深度信念网络模型的建立包括:
(1)构建RBM,描述RBM的变量v和隐藏变量h的联合组态的能量函数表示为:
Figure GDA0002035822110000101
其中θ={W,a,b}
其中,θ={W,a,b}是RBM模型的参数,ai表示可见层节点i的偏置,bj表示隐藏层节点j的偏置,wi,j表示可见层节点i和隐含层节点j之间的连接权重;
(2)基于所述能量函数,任一组态的联合概率分布为:
Figure GDA0002035822110000111
其中
Figure GDA0002035822110000112
Zθ为归一化因子。
因为隐含层节点之间是条件独立的,即:
Figure GDA0002035822110000113
进一步地,对上式进行因子分解,可以得到在给定可视层v的基础上,隐含层第j个节点为1或者为0的概率为:
同理,在给定隐含层h的基础上,可以得到可视层第i个节点为1或者为0的概率为:
Figure GDA0002035822110000115
Figure GDA0002035822110000116
(3)给定训练样本后,训练一个RBM意味着学习调整参数θ={W,a,b},以拟合给定的训练样本,即使得在该参数下由相应RBM表示的概率分布尽可能地与训练数据相符合。
给定一个满足独立同分布的样本集:S={v(1),v(2),...,v(N)},训练RBM的目标就是最大化。以下对数似然函数:
Figure GDA0002035822110000117
由于连乘式
Figure GDA0002035822110000118
处理起来比较麻烦,由函数lnx的严格单调性可知,最大化Lθ与最大化lnLθ是等价的。因此,训练RBM的目标变成最大化,此外为了提高学习效率,采用对比散度(Contrastive Divergence,CD)算法进行最大化。
Figure GDA0002035822110000121
(4)构建完RBM后,通过逐层堆叠RBM,固定偏移量和权重以及构建BP网络作为分类器,形成深度信念神经网络模型。
S131、计算标准语音与所述测试语音的特征参数的相关系数;
所述特征参数包括:基频特征、共振峰、语速、平均能量,采用所述深度信念网络模型对所述特征参数进行模型训练、识别与评价。
S132、根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。
本步骤中,首先通过深度信念网络算法建立的深度信念网络模型进行情感准确度评价;同时计算标准语音与测试语音的特征参数的相关系数,综合两者对口语发音质量进行情感评价与反馈,确定所述测试语音的情感准确度。
上述步骤S130~S132,具体如图5所示,根据情感特征参数通过深度信念网络算法建立深度信念网络模型,对所述深度信念网络模型进行训练、识别。通过训练后的深度信念网络模型进行情感准确度评价;同时计算标准语音与测试语音的特征参数的相关系数,综合两者对口语发音质量进行情感评价与反馈,确定所述测试语音的情感准确度。
103、用深度学习算法对整个句子发音质量作总体评价。
本步骤具体包括:
根据预存的发音评价标准对所述测试语音数据的发音质量进行评价;
其中,所述预存的发音评价标准是预存的人工标记的发音评价标准。
参见图6,本步骤中,通过请专业的口语老师对前期录制的训练语音进行一个总体性的评价,评价的方面包括音准,语速,语调,情感,重音,节奏,最后根据这几方面给出一个总体分数,取多个老师给出的分数的平均分数作为最后标记的分数。通过这些训练语音以及最后的总分训练深度自动编码器神经网络,调整相关权重以及构建BP分类器。在进行评价的过程,输入的测试语音通过神经网络识别出最后的总体评价。
总体评分可针对各分指标加权求和得到,如:总分=准确度*权重1+重音*权重2+速度*权重3+音调*权重4+情感*权重5+…..本发明采用深度自动编码器直接对测试语音的口语发音质量进行评价,不会出现现有技术中,采用分指标评分的方法出现对不同学习者(如不同级别、不同年级)其权重难以确定的情况。
本发明实施例提供的基于深度学习的口语评测方法,相较于现有技术,具有如下有益效果:
1、对口语语音音准的评价具有更高的准确度。本发明通过建立基于深度自动编码器的语音识别模型对口语语音中的音准进行评价,相对于HMM,SVM等浅层模型具有更高的准确度。
2、用深度学习算法对口语语音情感进行评价。本发明将深度学习的DBN模型应用于口语语音情感评价,结合情感评价将对口语发音做出更加全面准确的评价。同时,深度学习算法相比浅层模型对情感的评价,评价准确度更高。
3、用深度学习算法模拟人类对整个口语句子发音质量进行评价。本发明采用深度自动编码器对整个口语句子发音质量进行评价,避免权重难以确定的情况,从而更好地模拟人类对整个口语句子发音质量进行评价。
参见图7,是本发明提供的基于深度学习的口语评测系统的一个实施例的系统结构图。所述基于深度学习的口语评测系统的实质内容与图1所示实施例的基于深度学习的口语评测方法对应,本实施例中未详述之处可参见图1所示实施例中的相关描述。
如图7所示,所述基于深度学习的口语评测系统包括发音准确度评价单元210、情感准确度评价单元220、发音质量评价单元230、和标准模型库240。
所述发音准确度评价单元210,用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;
所述情感准确度评价单元220,用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;
所述发音质量评价单元230,用深度学习算法对整个句子发音质量作总体评价;
所述标准模型库240,用于存储标准语音语句和所述标准语音语句的语音特征参数。
进一步的,所述发音准确度评价单元210包括:
语音完整度评价单元,通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别,判断所述测试语音的完整度;
语音准确度评价单元,计算标准语音与所述测试语音的MFCC特征的相关系数,判断所述测试语音的流利度;
第一评价单元,根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价;
所述情感准确度评价单元220包括:
情感正确度评价单元,通过深度信念网络模型进行情感识别,判断情感正确度;
相关系数确定单元,计算标准语音与所述测试语音的特征参数的相关系数;
第二评价单元,根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。
在本实施例提供的基于深度学习的口语测评系统的另一实施例中,该系统包括网络客户端和网络服务器。
所述网络客户端主要负责用户与系统的交互,实现语音信息的采集、传输和评分结果显示功能。所述网络客户端包括:语音采集模块:通过网页调用录音插件进行录音,并生成wav格式的音频文件;
录音播放模块:播放分别存放于手机本地和服务器的测试语音和标准语音;
数据显示模块:显示语料文本、评价结果和发音反馈指导意见;
通信传输模块:将wav格式的音频文件传到网络服务器。
所述网络服务器具有语料收集,语音信号预处理、语音识别、情感识别和发音质量评分功能。包括图7所示的发音准确度评价单元210、情感准确度评价单元220、发音质量评价单元230、和标准模型库240。
综上所述,本发明实施例提供的基于深度学习的口语评测方法和系统,相较于现有技术,具有如下有益效果:
1、对口语语音音准的评价具有更高的准确度。本发明通过建立基于深度自动编码器的语音识别模型对口语语音中的音准进行评价,相对于HMM,SVM等浅层模型具有更高的准确度。
2、用深度学习算法对口语语音情感进行评价。本发明将深度学习的DBN模型应用于口语语音情感评价,结合情感评价将对口语发音做出更加全面准确的评价。同时,深度学习算法相比浅层模型对情感的评价,评价准确度更高。
3、用深度学习算法模拟人类对整个口语句子发音质量进行评价。本发明采用深度自动编码器对整个口语句子发音质量进行评价,避免权重难以确定的情况,从而更好地模拟人类对整个口语句子发音质量进行评价。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种基于深度学习的口语评测方法,其特征在于,包括:
用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;
用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;
用深度学习算法对整个句子发音质量作总体评价;
其中,所述用深度学习算法对语段音准度进行评测,得到发音准确度评价,包括:
通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别,判断所述测试语音的完整度;
计算标准语音与所述测试语音的MFCC(Mel Frequency Cepstrum Coefficient)特征的相关系数,判断所述测试语音的流利度;
根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价;
其中,所述用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价,具体为:
通过深度信念网络模型进行情感识别,判断情感正确度;
计算标准语音与所述测试语音特征参数的相关系数;
根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度;
其中,所述用深度学习算法对整个句子发音质量作总体评价包括:
根据预存的发音评价标准对所述测试语音数据的发音质量进行评价;其中,所述预存的发音评价标准是预存的人工标记的发音评价标准。
2.如权利要求1所述的基于深度学习的口语评测方法,其特征在于,所述深度自动编码器包括:编码器、解码器和隐含层;
所述编码器采用如下关系式进行编码:
h=f(X)=Sf(WX+bj)
其中,X为输入语音的特征向量,W为输入向量的权值,bj表示第j个神经元的阈值,或者称为偏置,h是得到的隐含层值,Sf是非线性激活函数,其表达式为:
Figure FDA0002203142350000021
解码器采用如下关系式进行解码:
y=g(H)=Sg(WH+bh)
其中,H为隐含层向量,这里作为输入,W为对应的权值向量,bh为阈值,Sg是解码器的激活函数;
对深度自动编码器的训练过程是在训练样本集D上寻找参数W,bj,bh构成的最小化重构误差,重构误差的表达式为:
其中,x为上述公式的输入,g(f(x))为上述公式的解码器输出,L是重构误差函数,表示为:
Figure FDA0002203142350000023
3.如权利要求2所述的基于深度学习的口语评测方法,其特征在于,所述对深度自动编码器的训练过程包括:
(1)输入用作训练的语音特征参数,在语音数据无类别标签的情况下,无监督训练出第一个AE(Autoencoder);
(2)以第一个AE的输出作为下一个AE的输入,训练出第二个AE;
(3)重复步骤(2),直到完成预设数量隐含层的训练为止;
(4)在最后一个隐含层上增加一个分类预测网络模型,实现对所述分类预测网络模型的权重微调。
4.如权利要求1所述的基于深度学习的口语评测方法,其特征在于,
所述深度信念网络模型的建立包括:
10、构建RBM(Restricted Boltzmann Machine),描述RBM的变量v和隐藏变量h的联合组态的能量函数表示为:
Figure FDA0002203142350000031
其中θ={W,a,b}
其中,θ={W,a,b}是RBM模型的参数,ai表示可见层节点i的偏置,bj表示隐藏层节点j的偏置,wi,j表示可见层节点i和隐含层节点j之间的连接权重;
20、基于所述能量函数,任一组态的联合概率分布为:
Figure FDA0002203142350000032
其中
Figure FDA0002203142350000033
Zθ为归一化因子;
30、给定训练样本,调整参数θ={W,a,b},以拟合给定的训练样本;
40、构建完RBM后,通过逐层堆叠RBM,固定偏移量和权重以及构建BP(BackPropagation)网络作为分类器,形成深度信念神经网络模型。
5.如权利要求3所述的基于深度学习的口语评测方法,其特征在于,所述语音特征参数包括:基频特征、共振峰、语速、平均能量,采用所述深度信念网络模型对所述语音特征参数进行模型训练、识别与评价。
6.一种基于深度学习的口语评测系统,其特征在于,包括发音准确度评价单元、情感准确度评价单元、发音质量评价单元和标准模型库;
所述发音准确度评价单元,用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;
所述情感准确度评价单元,用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;
所述发音质量评价单元,用深度学习算法对整个句子发音质量作总体评价;
所述标准模型库,用于存储标准语音语句和所述标准语音语句的语音特征参数;
其中,所述发音准确度评价单元包括:
语音完整度评价单元,通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别,判断所述测试语音的完整度;
语音准确度评价单元,计算标准语音与所述测试语音的MFCC特征的相关系数,判断所述测试语音的流利度;
第一评价单元,根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价;
其中,所述情感准确度评价单元包括:
情感正确度评价单元,通过深度信念网络模型进行情感识别,判断情感正确度;
相关系数确定单元,计算标准语音与所述测试语音的特征参数的相关系数;
第二评价单元,根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度;
其中,所述发音质量评价单元具体用于:
根据预存的发音评价标准对所述测试语音数据的发音质量进行评价;其中,所述预存的发音评价标准是预存的人工标记的发音评价标准。
CN201610057368.0A 2016-01-27 2016-01-27 一种基于深度学习的口语评测方法和系统 Active CN105741832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610057368.0A CN105741832B (zh) 2016-01-27 2016-01-27 一种基于深度学习的口语评测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610057368.0A CN105741832B (zh) 2016-01-27 2016-01-27 一种基于深度学习的口语评测方法和系统

Publications (2)

Publication Number Publication Date
CN105741832A CN105741832A (zh) 2016-07-06
CN105741832B true CN105741832B (zh) 2020-01-07

Family

ID=56246718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610057368.0A Active CN105741832B (zh) 2016-01-27 2016-01-27 一种基于深度学习的口语评测方法和系统

Country Status (1)

Country Link
CN (1) CN105741832B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297825B (zh) * 2016-07-25 2019-10-18 华南理工大学 一种基于集成深度信念网络的语音情感识别方法
CN106297828B (zh) * 2016-08-12 2020-03-24 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
CN106847308A (zh) * 2017-02-08 2017-06-13 西安医学院 一种英语发音质量评价系统
CN107785011B (zh) * 2017-09-15 2020-07-03 北京理工大学 语速估计模型的训练、语速估计方法、装置、设备及介质
CN107818795B (zh) * 2017-11-15 2020-11-17 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN108122561A (zh) * 2017-12-19 2018-06-05 广东小天才科技有限公司 一种基于电子设备的口语语音测评方法及电子设备
CN108133706B (zh) * 2017-12-21 2020-10-27 深圳市沃特沃德股份有限公司 语义识别方法及装置
CN108053840A (zh) * 2017-12-29 2018-05-18 广州势必可赢网络科技有限公司 一种基于pca-bp的情绪识别方法及系统
US11527174B2 (en) * 2018-06-18 2022-12-13 Pearson Education, Inc. System to evaluate dimensions of pronunciation quality
CN109039647A (zh) * 2018-07-19 2018-12-18 深圳乐几科技有限公司 终端及其口语学习方法
CN109165284B (zh) * 2018-08-22 2020-06-16 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN109190550A (zh) * 2018-08-29 2019-01-11 沈阳康泰电子科技股份有限公司 联合微表情多输入信息的深度神经网络多源数据融合方法
CN109087667B (zh) * 2018-09-19 2023-09-26 平安科技(深圳)有限公司 语音流利度识别方法、装置、计算机设备及可读存储介质
CN109636026B (zh) * 2018-12-07 2023-02-28 东华大学 一种基于深度学习模型的晶圆良率预测方法
CN109903594A (zh) * 2019-04-02 2019-06-18 北京儒博科技有限公司 口语练习辅助方法、装置、设备及存储介质
CN110556098B (zh) * 2019-07-23 2023-04-18 平安科技(深圳)有限公司 语音识别结果测试方法、装置、计算机设备和介质
CN110491369A (zh) * 2019-07-24 2019-11-22 北京大米科技有限公司 口语等级的评估方法、装置、存储介质及电子设备
CN110400018B (zh) * 2019-07-29 2023-06-27 上海电力大学 用于燃煤火力电厂制粉系统的运行控制方法、系统和装置
CN112767932A (zh) * 2020-12-11 2021-05-07 北京百家科技集团有限公司 语音测评系统、方法、装置、设备及计算机可读存储介质
US20220223066A1 (en) * 2021-01-08 2022-07-14 Ping An Technology (Shenzhen) Co., Ltd. Method, device, and computer program product for english pronunciation assessment

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248994A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP2008042386A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Ind Co Ltd 通信端末装置
CN103617799A (zh) * 2013-11-28 2014-03-05 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN104810017A (zh) * 2015-04-08 2015-07-29 广东外语外贸大学 基于语义分析的口语评测方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN104572940B (zh) * 2014-12-30 2017-11-21 中国人民解放军海军航空工程学院 一种基于深度学习与典型相关分析的图像自动标注方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248994A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP2008042386A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Ind Co Ltd 通信端末装置
CN103617799A (zh) * 2013-11-28 2014-03-05 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN104810017A (zh) * 2015-04-08 2015-07-29 广东外语外贸大学 基于语义分析的口语评测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
受限波尔兹曼机;张春霞;《工程数学学报》;20151231;全文的第1节倒数第2段、第2节 *
深度自动编码器的研究与展望;曲建岭;《计算机与现代化》;20141231;全文的第2、3.1节 *

Also Published As

Publication number Publication date
CN105741832A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105741832B (zh) 一种基于深度学习的口语评测方法和系统
US10559225B1 (en) Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items
Chen et al. Sample efficient adaptive text-to-speech
Franco et al. Combination of machine scores for automatic grading of pronunciation quality
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
Wei et al. A new method for mispronunciation detection using support vector machine based on pronunciation space models
CN105139864B (zh) 语音识别方法和装置
Bhat et al. Automatic assessment of sentence-level dysarthria intelligibility using BLSTM
CN108766415B (zh) 一种语音测评方法
Black et al. Automatic prediction of children's reading ability for high-level literacy assessment
CN102651217A (zh) 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN110246488A (zh) 半优化CycleGAN模型的语音转换方法及装置
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
Dong Application of artificial intelligence software based on semantic web technology in english learning and teaching
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Zhang et al. Multilingual speech evaluation: case studies on English, Malay and Tamil
CN111883176A (zh) 端到端的智能语音朗读评测方法
Tao et al. DNN Online with iVectors Acoustic Modeling and Doc2Vec Distributed Representations for Improving Automated Speech Scoring.
Huang et al. English mispronunciation detection based on improved GOP methods for Chinese students
Chandel et al. Sensei: Spoken language assessment for call center agents
CN112863486B (zh) 一种基于音素的口语评测方法、装置及电子设备
Georges et al. Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAE
Suzuki et al. Automatic evaluation system of English prosody based on word importance factor
Cao et al. An English pronunciation error detection system based on improved random forest
Lin et al. A Noise Robust Method for Word-Level Pronunciation Assessment.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant