CN107886968A - 语音评测方法及系统 - Google Patents

语音评测方法及系统 Download PDF

Info

Publication number
CN107886968A
CN107886968A CN201711460523.4A CN201711460523A CN107886968A CN 107886968 A CN107886968 A CN 107886968A CN 201711460523 A CN201711460523 A CN 201711460523A CN 107886968 A CN107886968 A CN 107886968A
Authority
CN
China
Prior art keywords
evaluation
pronunciation
speech
evaluating
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711460523.4A
Other languages
English (en)
Other versions
CN107886968B (zh
Inventor
乔鹏程
吴奎
潘青华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xunfei Yi Heard Network Technology Co Ltd
Original Assignee
Guangzhou Xunfei Yi Heard Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xunfei Yi Heard Network Technology Co Ltd filed Critical Guangzhou Xunfei Yi Heard Network Technology Co Ltd
Priority to CN201711460523.4A priority Critical patent/CN107886968B/zh
Publication of CN107886968A publication Critical patent/CN107886968A/zh
Application granted granted Critical
Publication of CN107886968B publication Critical patent/CN107886968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音评测方法及系统,该方法包括:接收用户语音数据;对用户语音数据进行评测单元切分,得到评测单元;基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。利用本发明可以效有提升语音评测结果的准确度。

Description

语音评测方法及系统
技术领域
本发明涉及语音评测技术领域,具体涉及一种语音评测方法及系统。
背景技术
标准的普通话在人们的经济和生活中具有非常重要的意义,普通话考试的实施范围也越来越广。对于大规模的考试,人工评分的成本是非常高昂的,机器辅助人工评分是未来所有考试评分的发展趋势。随着语音识别及相关技术的里程碑式发展,机器评分的结果已经接近甚至超过人工评分的水平。但是,在口语评测中仍存在一些易混淆的字,其评测效果不尽如人意。
发明内容
本发明提供一种语音评测方法及系统,以解决现有的口语检错中的易混淆的字的检错效果不尽如人意的问题。
为此,本发明提供如下技术方案:
一种语音评测方法,包括:
接收用户语音数据;
对用户语音数据进行评测单元切分,得到评测单元;
基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
优选地,所述评测单元为以下任意一种:音节、字和单词。
优选地,在得到评测单元之后,所述方法还包括:
判断所述用户语音数据是否包括易混淆发音;
如果是,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;
如果否,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
优选地,所述基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果包括:
对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;
对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
优选地,所述第一语音评测模型为神经网络,包括:卷积神经网络和深度神经网络,其中,卷积神经网络包括:第一输入层、M个交替的卷积层和池化层;深度神经网络包括:第二输入层、N个全连接层和输出层,第一输入层的输入为评测单元的频谱图,池化层的输出为评测单元的抽象特征,第二输入层的输入为评测单元的抽象特征和评测单元向量,输出层的输出为所述评测单元的发音的评测结果,其中,M和N为≥1的整数。
优选地,所述第一语音评测模型通过以下方式进行训练:
收集训练语音数据,所述训练语音数据中包括评测单元的标注信息;
对所述训练语音数据进行切分,得到评测单元;
提取评测单元的频谱图;
将所述频谱图输入所述第一语音评测模型中的卷积神经网络,得到评测单元的抽象特征;
将评测单元的抽象特征和正确的评测单元向量拼接构成正例,将评测单元的抽象特征和混淆的评测单元向量拼接构成反例;
分别利用正例和反例对所述深度神经网络进行训练,得到模型参数。
优选地,所述判断所述用户语音数据是否包括易混淆发音包括:
将所述用户语音数据输入所述第二语音评测模型,得到输出结果;
根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
优选地,所述判断所述用户语音数据是否包括易混淆发音包括:
判断所述用户语音数据是否存在对应的标准文本;
如果是,则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音;
如果否,将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
相应地,本发明还提供了一种语音评测系统,包括:
接收模块,用于接收用户语音数据;
评测单元获取模块,用于对用户语音数据进行评测单元切分,得到评测单元;
评测模块,用于基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
优选地,所述系统还包括:
易混淆发音判断模块,用于判断所述用户语音数据是否包括易混淆发音;
第一语音评测模型构建模块,用于构建第一语音评测模型;
第二语音评测模型构建模块,用于构建第二语音评测模型;
所述评测模块具体用于如果用户语音数据包括易混淆发音,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;如果用户语音数据不包括易混淆发音,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
优选地,所述评测模块包括:
第一评测单元,用于对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;
第二评测单元,用于对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
优选地,所述评测模块还包括:
第一检测单元,用于将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
优选地,所述评测模块还包括:
第二检测单元,用于如果所述用户语音数据存在对应的标准文本,则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音。
本发明实施例提供的语音评测方法及系统,首先接收用户语音数据,然后对用户语音数据进行评测单元切分,得到评测单元,这样使得本发明可以基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。现有技术通常是根据预先训练好的声学模型得到状态的后验概率,然后根据给定文本搭建解码网络,解码得到评测单元(如字的声韵母)的后验概率,最后通过回归或门限判断发音是否正确。然而,易混淆发音是部分相似的,例如韵母中的in和ing,起始发音相近,只有后半段发音不同。利用传统的评测系统,得到的in和ing的似然度值相差不大,从而导致评测单元后验概率计算不够精确,造成易混淆发音难以评测;虽然易混淆发音部分相似,但从频谱图上来看还是很容易分辨的,例如韵母in和ing,在某一频率上的值相差很大。因此,本发明将语音的评测转化为图像的评测,极大程度地减弱了边界的影响,从而能够有效提高评测性能。
进一步地,本发明提供了第二种语音评测方法及系统,鉴于基于评测单元后验概率计算对非易混淆发音的评测已达到可用水平,本发明所提的第二种方法是分别针对易混淆发音和非易混淆发音采取不同的评测方法。利用本发明可以在保证能有效评测易混淆发音的前提下,利用评测单元后验概率评测非易混淆发音,而现有技术中已有训练好的可以对非易混淆发音进行评测的语音评测模型,因此,无需针对非易混淆发音训练语音评测模型。
进一步地,本发明提供了第一语音评测模型的拓扑结构和训练方法,利用该方法可以构建该第一语音评测模型,进而自动对用户语音数据进行发音评测。
进一步地,本发明提供了易混淆发音的检测方法,利用该方法可以自动检测易混淆发音;此外,还提供了一种优化方法,当存在用户语音数据的标准文本时,利用该标准文本检测用户语音数据中是否存在易混淆发音。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音评测方法的第一种流程图;
图2是本发明实施例提供的第一语音评测模型的第一种结构示意图;
图3是本发明实施例提供的语音评测方法的第二种流程图;
图4是本发明实施例提供的第一语音评测模型的训练方法;
图5是本发明实施例提供的判断用户语音数据是否包括易混淆发音的方法的第一种流程图;
图6是本发明实施例提供的判断用户语音数据是否包括易混淆发音的方法的第二种流程图;
图7是本发明实施例提供的语音评测系统的第一种结构示意图;
图8是本发明实施例提供的语音评测系统的第二种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
下面首先对现有技术中语音评测方法做简单说明。该评测方法通常包括以下步骤:
步骤一:接收用户语音信号输入,即考生语音输入。
步骤二:语音信号特征提取,进一步还可包括语音信号的降噪预处理等。
所述语音信号特征是指能表征用户发音特点的矢量,通常可以提取和训练集相匹配的多维梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征等。
步骤三:根据预先训练好的声学模型得到状态的后验概率。其中,该声学模型一般为深度神经网络(Deep Neural Network,DNN)或反馈神经网络(Recurrent NeuralNetwork,RNN)。
步骤四:根据给定文本搭建解码网络,解码得到评测单元的后验概率。
步骤五:根据得到的评测单元的后验概率,通过回归或门限判断发音是否正确。
其中,声学模型为用于描述各基本语音单元发音特点的数学模型,在统计模式识别应用中,其模型参数的确定往往要在海量的训练数据上统计得到,具体训练过程如下:
(1)采集训练数据;
(2)提取训练数据的声学特征;
(3)设置声学模型拓扑结构;
(4)声学模型参数训练。
显然,上述步骤三中首先需要根据文本搭建网络进行强制切分,得到评测单元的边界,然后在此边界内根据声学模型前向计算得到的状态后得到评测单元的后验。但易混淆发音是部分相似的,例如韵母中的in和ing,起始发音相近,只有后半段发音不同。利用传统的评测系统,计算得到的in和ing的似然度值相差不大,从而导致评测单元的后验概率计算不够精确,最终导致易混淆发音难以准确评测。
为此,本发明实施例提供一种语音评测方法的方法及系统,考虑到虽然易混淆发音部分相似,但从频谱图上来看还是很容易分辨的,例如韵母in和ing,在某一频率上的值相差很大。鉴于此,本发明提出一种优化方案:将语音的评测转化为图像的评测,极大程度地减弱了边界的影响,从而能够有效提高评测性能。此外,鉴于利用评测单元的后验概率对非易混淆发音的评测已达到可用水平,无需针对非易混淆发音训练一个新的语音评测模型,本发明还提供了分别针对非易混淆发音及易混淆发音进行评测的方法。
如图1所示,是本发明实施例提供的语音评测方法的第一种流程图。
在本实施例中,该语音评测方法可以包括以下步骤:
步骤S01,接收用户语音数据。
在本实施例中,所述用户语音数据可以为通过声音传感器实时采集的语音数据,具体地,可以为通过终端,如手机、个人电脑、平板电脑等接收的语音数据,还可以是通过录音设备采集的语音数据,例如,录音笔等存储的语音数据,在此不做限定。在一个具体实施例中,该用户可以为口语考试者等。
其中,语音数据对应的语言种类可以为中文、英语等各种语种,在此不再一一列举。
需要说明的是,进一步还可对采集的语音信号进行降噪预处理等,然后将降噪后的语音信号作为待评测的语音数据。
步骤S02,对用户语音数据进行评测单元切分,得到评测单元。
在本实施例中,所述评测单元为以下任意一种:音节、字和单词。其中,该评测单元切分可以首先进行状态级切分,如音素的三种状态,然后根据状态级切分结果得到评测单元的边界信息;当然,也可以是直接进行评测单元切分,在此不做限定。通过上述切分步骤即可得到评测单元,进而可以按评测单元的边界构成频谱图。
步骤S03,基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
在本实施例中,评测单元向量可以通过现有的向量化方法获取,例如,通过神经网络获取字embedding向量、词向量等,在此不做限定。频谱图的获取过程可以如下所述,例如,声学特征是40维,字的时长是50帧,利用这些特征值即可构成1个50*40大小的频谱图,频谱图中的第[i,j]个点即为第i帧、第j维的特征值。
如图2所示,是本发明实施例提供的第一语音评测模型的第一种结构示意图。具体地,所述第一语音评测模型可以为神经网络,例如,该神经网络包括:卷积神经网络和深度神经网络,其中,卷积神经网络包括:第一输入层、M个交替的卷积层和池化层;深度神经网络包括:第二输入层、N个全连接层和输出层,第一输入层的输入为评测单元的频谱图,池化层的输出为评测单元的抽象特征,第二输入层的输入为评测单元的抽象特征和评测单元向量,输出层的输出为所述评测单元的发音的评测结果,M、N可以为≥1的整数,具体根据实际需求而定。
在一个具体实施例中,所述评测单元为字,将字的频谱图输入所述卷积神经网络,由最后一层池化层输出字的抽象特征,然后将字的抽象特征和字embedding向量拼接在一起形成新型的特征,输入到深度神经网络中,深度神经网络的输出即为是否正确发音的判断结果。
本发明提供了语音评测方法,首先接收用户语音数据,然后对用户语音数据进行评测单元切分,得到评测单元,这样使得本发明可以基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。由于易混淆发音部分相似,导致基于评测单元的后验概率的方法的评测效果不佳,但从频谱图上来看还是很容易分辨的,例如韵母in和ing,在某一频率上的值相差很大。因此,本发明将语音的评测转化为图像的评测,只需输入语音中的评测单元的大概边界信息即可形成输入图像,大大减弱了系统对边界的敏感性,可有效减弱边界误差带来的影响,从而能够有效提高评测性能。
如图3所示,是本发明实施例提供的语音评测方法的第二种流程图。
在本实施例中,在得到评测单元之后,所述方法还包括:
步骤S31,判断所述用户语音数据是否包括易混淆发音。
具体地,可以采用现有的易混淆发音检测方法来检测语音数据中是否包含易混淆发音,例如,比较语音评测结果中易混淆发音的相似度的差值是否小于设定阈值,如果是,则认为语音数据中存在易混淆发音。其中,该用户语音数据可以是短语、一句话或一段话等,这样,可以短语、一句话或一段话作为判断的对象。
步骤S32,如果是,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
具体如上一个实施例中所述,在此不再详述。需要说明的是,如果以短语作为步骤S31的判断对象,则当短语中包括易混淆发音时,该短语利用第一语音评测模型进行评测,以此类推。
步骤S33,如果否,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
具体地,可以采用现有技术的根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。例如,所述第二语音评测模型可以为神经网络模型,如深度神经网络(Deep Neural Networks,DNN)、循环神经网络(Recurrent NeuralNetworks,RNN)等,模型的输入为每帧语音数据的语音特征,输出为每帧语音的发音评测得分,即每帧语音属于每个评测单元的后验概率。其中,语音特征可以为语音数据的声学特征,提取的声学特征用于神经网络模型的输入,一般为语音数据的频谱特征,如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征或梅尔标度滤波器组(Mel-scale Filter Bank,FBank)。具体提取时,需要先对语音数据进行分帧处理;随后对分帧后的语音数据进行预加重;最后依次提取每帧语音数据的频谱特征。
进一步地,为了减小信道失真的影响,需要对提取出的特征进行CMN(cepstralmean normalization)处理,具体实现为每一维特征值减去整条语音在该维度上的特征值的平均值。
在本实施例中,以音素状态为评测单元为例进行说明,第二语音评测模型的输出为当前帧属于每个音素状态的后验概率。此外,以音素状态为评测单元时,在第二语音评测模型的训练阶段,所需要的训练数据的标注,可通过以下方法获得:
首先收集大量语音训练数据,该语音训练数据具有文本标注,通常是根据单词级文本标注和词典,得到音素标注,然后训练声学模型,例如GMM-HMM、DNN-HMM等,接着基于声学模型得到每帧语音数据与每个声学模型输出的音素状态的似然,基于似然值得到音素状态的切分结果,进而得到每帧语音数据对应的音素状态标注。
进一步地,为了避免针对非易混淆发音训练语音评测模型,所述基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果包括:
对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
这样做使得本发明可以将用户语音数据以评测单元的量级进行易混淆识别,进而以评测单元的量级进行语音评测,例如,对于同一句话中的易混淆的字或词等,利用第一语音评测模型进行评测,对于同一句话中的不易混淆的字或词等,利用第二语音评测模型进行评测,这样可以在保证评测准确度的前提下,避免针对非易混淆发音训练语音评测模型,和现有技术兼容性较好,便于推广。
在本实施例中,鉴于基于评测单元后验概率计算对非易混淆发音的评测已达到可用水平,本发明首先检测用户语音数据中是否包含易混淆发音,如果不包含易混淆发音,则基于评测单元后验概率对非易混淆发音进行评测,由于现有技术的基于评测单元后验概率来评测非易混淆发音的准确度及实用性已满足需求,使得本发明可以在保证能准确评测易混淆发音的前提下,利用评测单元后验概率来评测非易混淆发音,无需针对非易混淆发音训练语音评测模型,便于推广。
如图4所示,是本发明实施例提供的第一语音评测模型的训练方法。
在本实施例中,以下以字作为评测单元进行示例说明,所述第一语音评测模型通过以下方式进行训练:
步骤S41,收集训练语音数据,所述训练语音数据中包括评测单元的标注信息。其中,该标注信息可以为标注的字的边界信息。
步骤S42,对所述训练语音数据进行切分,得到评测单元。
步骤S43,提取评测单元的频谱图。其中,可以根据单词级的文本标注提取训练语音数据中的字,然后按字的边界构成频谱图,例如,声学特征是40维,字的时长是50帧,利用这些特征值即可构成一个50*40大小的频谱图,频谱图中的第[i,j]个点即为第i帧、第j维的特征值。需要说明的是,如果仅针对易混淆评测单元利用第一语音评测模型进行语音评测,则上述提取训练语音数据中的字为:提取训练语音数据中的易混淆字。
步骤S44,将所述频谱图输入所述第一语音评测模型中的卷积神经网络,得到评测单元的抽象特征。
步骤S45,将评测单元的抽象特征和正确的评测单元向量拼接构成正例,将评测单元的抽象特征和混淆的评测单元向量拼接构成反例。以下以仅针对易混淆评测单元利用第一语音评测模型进行语音评测的情况进行示例性说明:如果训练数据中只有正例样本,反例样本可以通过伪造文本标注获取。例如易混淆配对in和ing,音频为in的发音,卷积神经网络的输出向量与in的embedding向量拼接构成正例,与ing的embedding向量拼接构成反例。需要说明的是,也可以直接收集反例的训练语音数据,在此不做限定。
步骤S46,分别利用正例和反例对所述深度神经网络进行训练,得到模型参数。
具体地,通过调整深度神经网络的参数使得深度神经网络的输出逼近正例输入,或远离反例输入,直到距离满足设定距离,例如余弦距离等。
本发明实施例提供了第一语音评测模型的训练方法,利用该方法可以训练该第一语音评测模型,进而自动对用户语音数据进行发音评测。
如图5所示,是本发明实施例提供的判断用户语音数据是否包括易混淆发音的方法的第一种流程图。
在本实施例中,所述判断所述用户语音数据是否包括易混淆发音包括:
步骤S51,将所述用户语音数据输入所述第二语音评测模型,得到输出结果。
在本实施例中,可以采用所述第二语音评测模型来获取所述用户语音数据的语音评测结果,由于易混淆评测单元利用第二语音评测模型进行评测的结果会比较相近,因此,可以利用该特点来检测用户语音数据中是否包含易混淆的评测单元。
步骤S52,根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
具体地,根据第二语音评测模型的输出判断是否是易混淆发音,例如:可比较模型输出中前TOP N中易混淆发音的差值是否小于设定阈值,若小于设定阈值,则认为是易混淆发音。进而可以采用第一语音评测模型对易混淆发音进行语音评测,以提升评测结果的准确度。
在本发明实施例中,利用该方法可以自动检测易混淆发音,以便于后续有针对性的对易混淆发音进行评测,同时还可以保证评测的准确度。
如图6所示,是本发明实施例提供的判断用户语音数据是否包括易混淆发音的方法的第二种流程图。
在本实施例中,所述判断所述用户语音数据是否包括易混淆发音可以包括以下步骤:
步骤S61,判断所述用户语音数据是否存在对应的标准文本。
由于可以根据文本准确的判断哪些评测单元为易混淆发音,例如,一句话的文本的发音中是否同时包含in和ing的发音,如果是,则认为in和ing对应的评测单元的发音为易混淆发音,这样可以进一步提升易混淆发音检测的效率和准确度。而对于口语评测等应用场景中,可以让应试者对预先准备好的标准文本进行朗读,因此,通常会具有所述用户语音数据对应的标准文本,可以利用该标准文本判断所述用户语音数据是否包括易混淆发音。
步骤S62,如果是,则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音。
步骤S63,如果否,将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
本发明提供了一种优化的易混淆发音检测方法,当存在用户语音数据的标准文本时,利用该标准文本检测用户语音数据中是否存在易混淆发音,这样可以有效提升检测的准确度和检测效率。
相应地,本发明还提供了一种语音评测系统,如图7所示,是本发明实施例提供的语音评测系统的第一种结构示意图。
在本实施例中,该系统可以包括:
接收模块701,用于接收用户语音数据。
评测单元获取模块702,用于对用户语音数据进行评测单元切分,得到评测单元。所述评测单元为以下任意一种:音节、字和单词。
评测模块703,用于基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
其中,所述第一语音评测模型为神经网络,包括:卷积神经网络和深度神经网络,其中,卷积神经网络包括:第一输入层、M个交替的卷积层和池化层;深度神经网络包括:第二输入层、N个全连接层和输出层,第一输入层的输入为评测单元的频谱图,池化层的输出为评测单元的抽象特征,第二输入层的输入为评测单元的抽象特征和评测单元向量,输出层的输出为所述评测单元的发音的评测结果,其中,M、N为≥1的整数。
相应地,所述第一语音评测模型可以通过以下方式进行训练:
收集训练语音数据,所述训练语音数据中包括评测单元的标注信息。
对所述训练语音数据进行切分,得到评测单元。
提取评测单元的频谱图。
将所述频谱图输入所述第一语音评测模型中的卷积神经网络,得到评测单元的抽象特征。
将评测单元的抽象特征和正确的评测单元向量拼接构成正例,将评测单元的抽象特征和混淆的评测单元向量拼接构成反例。
分别利用正例和反例对所述深度神经网络进行训练,得到模型参数。
进一步地,所述评测模块703可以包括:
第一评测单元,用于对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
第二评测单元,用于对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
在另一个实施例中,如图8所示,是本发明实施例提供的语音评测系统的第二种结构示意图。具体地,所述系统还可以包括:
易混淆发音判断模块801,用于判断所述用户语音数据是否包括易混淆发音。
第一语音评测模型构建模块802,用于构建第一语音评测模型。
第二语音评测模型构建模块803,用于构建第二语音评测模型。
所述评测模块703具体用于如果用户语音数据包括易混淆发音,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;如果用户语音数据不包括易混淆发音,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
相应地,所述评测模块703还可以包括:
第一检测单元,用于将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
此外,所述评测模块703还可以包括:
第二检测单元,用于如果所述用户语音数据存在对应的标准文本,则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音。
本发明实施例提供的语音评测系统,通过评测模块703基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。可以有效提升易混淆发音的评测准确率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种语音评测方法,其特征在于,包括:
接收用户语音数据;
对用户语音数据进行评测单元切分,得到评测单元;
基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
2.根据权利要求1所述的方法,其特征在于,所述评测单元为以下任意一种:音节、字和单词。
3.根据权利要求2所述的方法,其特征在于,在得到评测单元之后,所述方法还包括:
判断所述用户语音数据是否包括易混淆发音;
如果是,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;
如果否,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
4.根据权利要求1或3所述的方法,其特征在于,所述基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果包括:
对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;
对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
5.根据权利要求1或3所述的方法,其特征在于,所述第一语音评测模型为神经网络,包括:卷积神经网络和深度神经网络,其中,卷积神经网络包括:第一输入层、M个交替的卷积层和池化层;深度神经网络包括:第二输入层、N个全连接层和输出层,第一输入层的输入为评测单元的频谱图,池化层的输出为评测单元的抽象特征,第二输入层的输入为评测单元的抽象特征和评测单元向量,输出层的输出为所述评测单元的发音的评测结果,其中,M和N为≥1的整数。
6.根据权利要求5所述的方法,其特征在于,所述第一语音评测模型通过以下方式进行训练:
收集训练语音数据,所述训练语音数据中包括评测单元的标注信息;
对所述训练语音数据进行切分,得到评测单元;
提取评测单元的频谱图;
将所述频谱图输入所述第一语音评测模型中的卷积神经网络,得到评测单元的抽象特征;
将评测单元的抽象特征和正确的评测单元向量拼接构成正例,将评测单元的抽象特征和混淆的评测单元向量拼接构成反例;
分别利用正例和反例对所述深度神经网络进行训练,得到模型参数。
7.根据权利要求3所述的方法,其特征在于,所述判断所述用户语音数据是否包括易混淆发音包括:
将所述用户语音数据输入所述第二语音评测模型,得到输出结果;
根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
8.根据权利要求3所述的方法,其特征在于,所述判断所述用户语音数据是否包括易混淆发音包括:
判断所述用户语音数据是否存在对应的标准文本;
如果是,则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音;
如果否,将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
9.一种语音评测系统,其特征在于,包括:
接收模块,用于接收用户语音数据;
评测单元获取模块,用于对用户语音数据进行评测单元切分,得到评测单元;
评测模块,用于基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括:
易混淆发音判断模块,用于判断所述用户语音数据是否包括易混淆发音;
第一语音评测模型构建模块,用于构建第一语音评测模型;
第二语音评测模型构建模块,用于构建第二语音评测模型;
所述评测模块具体用于如果用户语音数据包括易混淆发音,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;如果用户语音数据不包括易混淆发音,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
11.根据权利要求9或10所述的系统,其特征在于,所述评测模块包括:
第一评测单元,用于对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;
第二评测单元,用于对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。
12.根据权利要求10所述的系统,其特征在于,所述评测模块还包括:
第一检测单元,用于将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。
13.根据权利要求10或12所述的系统,其特征在于,所述评测模块还包括:
第二检测单元,用于如果所述用户语音数据存在对应的标准文本,则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音。
CN201711460523.4A 2017-12-28 2017-12-28 语音评测方法及系统 Active CN107886968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711460523.4A CN107886968B (zh) 2017-12-28 2017-12-28 语音评测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711460523.4A CN107886968B (zh) 2017-12-28 2017-12-28 语音评测方法及系统

Publications (2)

Publication Number Publication Date
CN107886968A true CN107886968A (zh) 2018-04-06
CN107886968B CN107886968B (zh) 2021-08-24

Family

ID=61770496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711460523.4A Active CN107886968B (zh) 2017-12-28 2017-12-28 语音评测方法及系统

Country Status (1)

Country Link
CN (1) CN107886968B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300339A (zh) * 2018-11-19 2019-02-01 王泓懿 一种英语口语的练习方法及系统
CN110148400A (zh) * 2018-07-18 2019-08-20 腾讯科技(深圳)有限公司 发音类型的识别方法、模型的训练方法、装置及设备
CN110797049A (zh) * 2019-10-17 2020-02-14 科大讯飞股份有限公司 一种语音评测方法及相关装置
CN111370028A (zh) * 2020-02-17 2020-07-03 厦门快商通科技股份有限公司 一种语音失真检测方法及系统
CN111710348A (zh) * 2020-05-28 2020-09-25 厦门快商通科技股份有限公司 一种基于音频指纹的发音评测方法及终端
CN112908359A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 语音测评方法、装置、电子设备及计算机可读介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739869A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断系统
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
US20110218805A1 (en) * 2010-03-04 2011-09-08 Fujitsu Limited Spoken term detection apparatus, method, program, and storage medium
CN102184654A (zh) * 2011-04-21 2011-09-14 安徽科大讯飞信息科技股份有限公司 诵读监督方法及装置
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
CN102930866A (zh) * 2012-11-05 2013-02-13 广州市神骥营销策划有限公司 一种用于口语练习的学生朗读作业的评判方法
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN103177733A (zh) * 2013-03-11 2013-06-26 哈尔滨师范大学 汉语普通话儿化音发音质量评测方法与系统
CN103810996A (zh) * 2014-02-21 2014-05-21 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统
EP2828853A1 (en) * 2012-03-23 2015-01-28 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
CN105741831A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于语法分析的口语评测方法和系统
CN105845134A (zh) * 2016-06-14 2016-08-10 科大讯飞股份有限公司 自由朗读题型的口语评测方法及系统
KR20160122542A (ko) * 2015-04-14 2016-10-24 주식회사 셀바스에이아이 발음 유사도 측정 방법 및 장치
CN106297828A (zh) * 2016-08-12 2017-01-04 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
CN106653055A (zh) * 2016-10-20 2017-05-10 北京创新伙伴教育科技有限公司 在线英语口语评估系统
CN106782603A (zh) * 2016-12-22 2017-05-31 上海语知义信息技术有限公司 智能语音评测方法及系统
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739869A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断系统
US20110218805A1 (en) * 2010-03-04 2011-09-08 Fujitsu Limited Spoken term detection apparatus, method, program, and storage medium
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN102184654A (zh) * 2011-04-21 2011-09-14 安徽科大讯飞信息科技股份有限公司 诵读监督方法及装置
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
EP2828853A1 (en) * 2012-03-23 2015-01-28 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
CN102930866A (zh) * 2012-11-05 2013-02-13 广州市神骥营销策划有限公司 一种用于口语练习的学生朗读作业的评判方法
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN103177733A (zh) * 2013-03-11 2013-06-26 哈尔滨师范大学 汉语普通话儿化音发音质量评测方法与系统
CN103810996A (zh) * 2014-02-21 2014-05-21 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统
KR20160122542A (ko) * 2015-04-14 2016-10-24 주식회사 셀바스에이아이 발음 유사도 측정 방법 및 장치
CN105741831A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于语法分析的口语评测方法和系统
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions
CN105845134A (zh) * 2016-06-14 2016-08-10 科大讯飞股份有限公司 自由朗读题型的口语评测方法及系统
CN106297828A (zh) * 2016-08-12 2017-01-04 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
CN106653055A (zh) * 2016-10-20 2017-05-10 北京创新伙伴教育科技有限公司 在线英语口语评估系统
CN106782603A (zh) * 2016-12-22 2017-05-31 上海语知义信息技术有限公司 智能语音评测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEYUAN QU: "Senone log-likelihood ratios based articulatory features in pronunciation erroneous tendency detecting", 《2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)》 *
张珑: "汉语普通话发音质量自动评测方法研究", 《中国博士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148400A (zh) * 2018-07-18 2019-08-20 腾讯科技(深圳)有限公司 发音类型的识别方法、模型的训练方法、装置及设备
CN110148400B (zh) * 2018-07-18 2023-03-17 腾讯科技(深圳)有限公司 发音类型的识别方法、模型的训练方法、装置及设备
CN109300339A (zh) * 2018-11-19 2019-02-01 王泓懿 一种英语口语的练习方法及系统
CN110797049A (zh) * 2019-10-17 2020-02-14 科大讯飞股份有限公司 一种语音评测方法及相关装置
CN111370028A (zh) * 2020-02-17 2020-07-03 厦门快商通科技股份有限公司 一种语音失真检测方法及系统
CN111710348A (zh) * 2020-05-28 2020-09-25 厦门快商通科技股份有限公司 一种基于音频指纹的发音评测方法及终端
CN112908359A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 语音测评方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
CN107886968B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN107886968A (zh) 语音评测方法及系统
CN104732977B (zh) 一种在线口语发音质量评价方法和系统
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
US7369991B2 (en) Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy
CN102194454B (zh) 用于检测连续语音中的关键词的设备和方法
CN109545243A (zh) 发音质量评价方法、装置、电子设备及存储介质
US9489864B2 (en) Systems and methods for an automated pronunciation assessment system for similar vowel pairs
CN103810996B (zh) 待测试语音的处理方法、装置及系统
CN106782603B (zh) 智能语音评测方法及系统
US11282511B2 (en) System and method for automatic speech analysis
CN101751919A (zh) 一种汉语口语重音自动检测方法
CN104992705B (zh) 一种英语口语自动打分方法及系统
CN102426834B (zh) 测试英文口语韵律水平的方法
CN107958673A (zh) 一种口语评分方法及装置
US20080004879A1 (en) Method for assessing learner's pronunciation through voice and image
CN109300339A (zh) 一种英语口语的练习方法及系统
CN110223678A (zh) 语音识别方法及系统
CN110047474A (zh) 一种英语音标发音智能训练系统及训练方法
CN106205603A (zh) 一种声调评估方法
CN105609114B (zh) 一种发音检测方法及装置
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN109697975B (zh) 一种语音评价方法及装置
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant