CN106782603A - 智能语音评测方法及系统 - Google Patents

智能语音评测方法及系统 Download PDF

Info

Publication number
CN106782603A
CN106782603A CN201611199626.5A CN201611199626A CN106782603A CN 106782603 A CN106782603 A CN 106782603A CN 201611199626 A CN201611199626 A CN 201611199626A CN 106782603 A CN106782603 A CN 106782603A
Authority
CN
China
Prior art keywords
data set
module
languages
test
score value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611199626.5A
Other languages
English (en)
Other versions
CN106782603B (zh
Inventor
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201611199626.5A priority Critical patent/CN106782603B/zh
Publication of CN106782603A publication Critical patent/CN106782603A/zh
Application granted granted Critical
Publication of CN106782603B publication Critical patent/CN106782603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种智能语音评测方法及系统,通过提供包括测试语种数据集和对比语种数据集的第一训练数据集对深度神经网络进行训练,形成深度神经网络模型,并对所述深度神经网络模型分别喂入测试语种数据集和对比语种数据集进行训练,深度神经网络的输出层输出包括对应上述三类训练数据集的评测分值,通过比较以及处理所述评测分值再输出评测结果,达到了口语评测中对利用其它语种进行阅读的情况、及时发现并避免给予较高的评测分值的技术效果。

Description

智能语音评测方法及系统
技术领域
本发明涉及语音识别技术领域,具体来说涉及一种智能语音评测方法及系统。
背景技术
随着语音识别技术的不断成熟,涉及到信号处理、自然语言理解、人工智能、数据挖掘和及其学习等多个学科的智能语音评测技术也得到了越来越广泛的应用。例如,智能辅助教学系统班班通项目在各个中小学的推广,普通话口语考试系统在全国的普及等。其中,智能语音评测就是利用计算机自动或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提供检测系统的稳定性、评测打分的准确性是智能语音评测的关键,也受到了越来越多的关注。
现有的口语评测方案,目的是给出一个以音素为基本单位的分数,在计算这个分数时,假设有一个GMM(高斯混合模型:Gaussian Mixture Model)+HMM(隐马尔可夫模型:Hidden Markov Model)模型能够很好地根据某些声学片段来确定这些片段对应的似然概率,然后通过似然差来衡量对应音素的发音质量。上述口语评测方案,质量主要依赖于声学模型的质量,而声学模型的质量主要依赖于数据训练的质量,好的或标准的训练数据能够得到高质量的声学模型,进而得到高准确度的评测结果或评测分值。
然而将上述的口语评测方案用于口语考试评测时,该标准的声学模型对于利用其他语种来翻译阅读时,比如在英语口语考试中,应试者利用中文朗读英文,例如用“恶狗”代替“ago”进行发音朗读,标准的声学模型依然会给出较高的评测分值。这是由于利用其它语种阅读时,声学模型对该音频进行音素提取时,被提取的音素与声学模型中的标准发音非常相近,所以评测模型会给出较高的评测分值,而该较高的评测分值并不符合口语考试的评测要求,现有的口语评测方案不能解决这一问题。
发明内容
鉴于上述情况,本发明提供一种智能语音评测方法及系统,解决了现有口语评测方案对利用其它语种阅读形成的语音给出较高的评测分值而不符合口语评测要求的技术问题,达到针对利用其它语种阅读的情况、及时发现并避免给予较高的评测分值的目的。
为实现上述目的,本发明采取的技术方案是:
一种智能语音评测方法,包括以下步骤:
a.提供第一训练数据集,所述第一训练数据集包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合;提供所述音素集合之间的映射关系;
b.训练深度神经网络,利用所述第一训练数据集对深度神经网络进行训练,以形成深度神经网络模型;
c.提供第二训练数据集,对深度神经网络进行训练,所述第二训练数据集包括至少两种语种数据集,定义一种语种数据集为测试语种数据集,其他语种数据集为对比语种数据集,所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合;
d.获取待评测语音,提取所述待评测语音的特征序列,将所述特征序列输入到所述深度神经网络模型中;对所述待评测语音进行识别以形成音素序列;
e.输出对应所述音素序列的评测分值;
f.比较以及处理所述评测分值,输出评测结果。
本发明智能语音评测方法的进一步改进在于,在所述步骤f中,通过线性融合或非线性融合的方式对所述评测分值进行处理。
本发明智能语音评测方法的进一步改进在于,在步骤a中,不同语种发音相似的音素映射成一套音素集合,发音不能映射的音素标记为单独的音素。
本发明智能语音评测方法的进一步改进在于,所述测试语种数据集为英文,所述对比语种数据集包括中文,中文带调音素和英文音素映射为一套音素集合。
本发明智能语音评测方法的进一步改进在于,在所述步骤b中,还包括提取所述第一训练数据集的梅尔频谱倒谱系数特征或线性预测系数特征或梅尔滤波系数特征。
本发明智能语音评测方法的进一步改进在于,在所述步骤e中,还包括输出:
第一类节点:对应为使用所述第一训练数据集进行训练后的输出评测分值;
第二类节点:对应为使用所述测试语种数据集进行训练后的输出评测分值;
第三类节点:对应为使用所述对比语种数据集进行训练后的输出评测分值。
本发明智能语音评测方法的进一步改进在于,在所述步骤e中,利用后验概率特征,通过映射得到所述音素序列的评测分值。
此外,本发明还提供一种智能语音评测系统,包括:
数据输入模块,与特征提取模块连接,用于将第一训练数据集和第二训练数据集传送至所述特征提取模块;与音素映射模块连接,用于将第一训练数据集和第二训练数据集传送至所述音素映射模块;
音素映射模块,与深度神经网络模块连接,用于将所述第一训练数据集和第二训练数据集测试语种数据集的音素集合进行映射,传送至所述深度神经网络模块;
语音接收模块,与特征提取模块连接,用于获取待评测语音,并传送至所述特征提取模块;
特征提取模块,与所述深度神经网络模块连接,用于提取所述第一训练数据集和第二训练数据集的特征序列以及所述待评测语音的特征序列,传送至所述深度神经网络模块;
深度神经网络模块,与解码网络模块及输出节点模块连接,经训练后形成深度神经网络模型,与解码网络模块连接,传送至所述输出节点模块;
解码网络模块,与所述输出节点模块及语音接收模块连接,用于对所述待评测语音进行识别以形成音素序列,传送至所述输出节点模块;
输出节点模块,与优化融合模块连接,用于输出所述音素序列对应的评测分值,传送至所述优化融合模块;
优化融合模块,与评分模块连接,用于处理经所述输出节点模块输出的评测分值,传送至所述评分模块;
评分模块,用于输出对应所述待评测语音的评测结果。
本发明智能语音评测系统的进一步改进在于,所述第一训练数据集包括测试语种数据集和对比语种数据集,且所述测试语种数据集和对比语种数据集一同被传送至所述音素映射模块。
本发明智能语音评测系统的更进一步改进在于,所述第二训练数据集包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集分别被传送至所述音素映射模块。
本发明的有益效果在于,本发明通过提供包括测试语种数据集和对比语种数据集的第一训练数据集对深度神经网络进行训练,形成深度神经网络模型,并对所述深度神经网络模型分别喂入测试语种数据集和对比语种数据集进行训练,所述深度神经网络模型的输出层输出包括对应上述三类训练数据集的评测分值,通过比较以及处理所述评测分值再输出评测结果,达到了口语评测中对利用其它语种进行阅读的情况、及时发现并避免给予较高的评测分值的技术效果。
附图说明
图1是本发明智能语音评测系统的结构示意图。
图2是本发明智能语音评测方法的流程示意图。
附图标记与部件的对应关系如下:
10-深度神经网络模型,101-输出节点,S11-第一训练数据集,S12-第二训练数据集,S10-音素集合,S13-特征序列,S0-待评测语音,S1-特征序列,S2-音素序列,S3-评测分值,S-评测结果,1-训练数据使用的模块连接关系,2-测试数据使用的模块连接关系。
具体实施方式
为利于对本发明的了解,以下结合附图及实施例进行说明。
本发明提供一种智能语音评测方法及系统,旨在解决现有的口语评测方案对利用其它语种阅读形成的语音给出较高的评测方案而不符合评测要求的问题。参阅图1,所述智能语音评测系统包括:
数据输入模块,与特征提取模块连接,用于将第一训练数据集S11和第二训练数据集S12传送至特征提取模块;与音素映射模块连接,用于将第一训练数据集S11和第二训练数据集S12传送至所述音素映射模块;
音素映射模块,与深度神经网络模块连接,用于将所述第一训练数据集S11和第二训练数据集S12的音素集合进行映射,映射后的音素集合S10传送至所述深度神经网络模块;
语音接收模块,与特征提取模块连接,用于获取待评测语音S0,并传送至所述特征提取模块;
特征提取模块,与所述深度神经网络模块连接,用于提取第一训练数据集S11和第二训练数据集S12的特征序列S13和所述待评测语音S0的特征序列S1,传送至所述深度神经网络模块,音素集合S10和特征序列S13共同训练深度神经网络模块的参数;
深度神经网络模块,与解码网络模块及输出节点模块连接,经训练后形成深度神经网络模型,传送至所述输出节点模块;
解码网络模块,与所述输出节点模块及语音接收模块连接,用于对所述待评测语音进行识别以形成音素序列S2,传送至所述输出节点模块;
具体的,智能语音评测系统是将待评测语音S0的特征序列S1输入到深度神经网络模型中以对其进行解码,将评测语音S0的文本输送到解码网络模块进行解码以获取音素序列S2。
输出节点模块,与优化融合模块连接,用于输出所述音素序列对应的评测分值S3,传送至所述优化融合模块;
优化融合模块,与评分模块连接,用于处理经所述输出节点模块输出的评测分值S3,传送至所述评分模块;
评分模块,用于输出对应所述待评测语音的评测结果S。
其中,第一训练数据集S11包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集一同被传送至所述特征提取模块;第二训练数据S12亦包括测试语种数据集和对比语种数据集,但是第二训练数据S12包括的测试语种数据集和对比语种数据集是分别传送至特征提取模块,第一训练数据S11是第二训练数据S12包括的测试语种数据集和对比语种数据集的叠加,以在输出节点模块中,输出对应于第一训练数据的用于对待评测语音进行音素切分的评测分值。
图1中训练数据使用的模块连接关系1指示在对深度神经网络模块进行训练时,训练数据用到的模块连接关系;测试数据使用的模块连接关系2指示待评测语音S0进行评测时,使用的模块连接关系。
本发明所提供的智能语音评测系统,并不限于两种语种的评测分类,即所述对比语种数据集可以是多种语种的数据集合,可依据实际需要,对深度神经网络模型喂入多语种的训练数据,以获取与各语种相对应的评测分值。
此外,参阅图2,本发明还提供一种智能语音评测方法,所述方法包括以下步骤:
a.提供第一训练数据集,所述第一训练数据集包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素结合;提供所述音素集合之间的映射关系;
b.训练深度神经网络,利用所述第一训练数据集对深度神经网络进行训练,以形成深度神经网络模型10;
c.提供第二训练数据集,对深度神经网络进行训练,所述第二训练数据集包括至少两种语种数据集,定义一种语种数据集为测试语种数据集,其他语种数据集为对比语种数据集,所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合;
d.获取待评测语音,提取所述待评测语音的特征序列,将所述特征序列输入到所述深度神经网络模型中;对所述待评测语音进行识别以形成音素序列;
e.输出对应所述音素序列的评测分值;
f.比较以及处理所述评测分值,输出评测结果。
于本发明智能语音评测方法中,深度神经网络模型10包括多层隐层,以对输入的第一训练数据S11和第二训练数据S12进行非线性映射,和输出节点层共同通过梯度下降法(Back Propagation),更新隐层参数,各隐层作用相同,且为顺序处理关系。
于本发明智能语音评测方法中,提供音素集合的映射关系中,不同语种发音相似的音素映射成一套音素集合,发音不能映射的音素标记为单独的音素,若测试语种为英语,对比语种为中文,则中文带调音素可以映射到英文不带调音素上。例如,英文音素的ei,对应的发音相似的中文带调音素为ei1,ei2,ei3,ei4,它们发音相似,可以映射为一套音素。对所述第一训练数据集提取MFCC(梅尔频谱倒谱系数)或者PLP(线性预测系数)或者FB(梅尔滤波系数)特征以训练所述深度神经网络;深度神经网络模型10与其输出节点101还连接有解码网络模型,所述解码网络模型是利用所述文本信息生成,用于对所述语音信息进行识别以形成音素序列。
深度神经网络模型10的输出节点101分为三类:
第一类节点:对应为使用所述第一训练数据集进行训练后的输出评测分值;
第二类节点:对应为使用所述测试语种数据集进行训练后的输出评测分值;
第三类节点:对应为使用所述对比语种数据集进行训练后的输出评测分值。
上述三类节点的单元可以为音素聚类后的状态级别,也可以是音素级别;上述三类节点是利用后验概率特征,通过映射以得到所述音素序列的评测分值。具体的,根据待评测语音S0经过深度神经网络模型10之后,输出待评测语音S0的好坏的概率值,待评测语音S0说的好,即音素序列S2与所述测试语音数据集的音素序列比较相近,则后验概率高,待评测语音S0说的不好,即音素序列S2与所述测试语音数据集的音素序列相差较大,则后验概率低。后验概率还可能为负值,范围可以是-20~10,最终的音素打分都是大于0的值。
对上述三类节点的评测分值进行比较及处理,主要是通过线性融合或非线性融合的方式进行的。例如,定义第一类节点输出的评测分值为第一分值Score1,定义第二类节点输出的评测分值为第二分值Score2,定义第三类节点输出的评测分值为第三Score3,若第二分值Score2的分值很高,第三分值Score3的分值很低,则可以判断获取的语音为使用测试语种数据集对应的语音,输出第二分值Score2为评测结果;若第二分值Score2与第三分值Score3的分数相近,则在对评测分值进行处理时,需对第二分值Score2和第三分值Score3进行加权处理以降低第三分值Score3对评测结果的影响,将加权处理后的结果作为评测结果进行输出;若第二分值Score2的分值很低,第三分值Score3的分值很高,则基本可以判断所获取的待评测语音为利用其它语种形式阅读形成,此时亦需要对第二分值Score2和第三分值Score3进行加权处理以输出正确的评测结果。
对于第一分值Score1、第二分值Score2和第三分值Score3这三个评测分值,还可以利用线性叠加的原理进行处理,下面给出简单的实施例:
第三分值Score3较高,第二分值Score2较低:评测结果S=a*(Score2+Score3),a取值为0.1或0.2;
第三分值Score3高,第二分值Score2偏高,但比第三分值Score3低:评测结果S=a*(Score2+Score3),a取值为0.3或0.4;
第三分值Score3很低,第二分值Score2很高:评测结果S=a*(Score1+Score2),a取值为0.5。这种情况说明待测试语音S0说的较为标准,第一分值Score1会较高。
如取第三分值Score3为80,第二分值Score2位70,则评测结果S=0.3*(80+70)=45,输出评测结果为45。
计算评测结果S的方式并不限于此,也可利用复杂的计算公式,或是根据不同分数段设计不同的回归系数,可根据预期的评测结果来设置相应的算法。
以上结合附图及实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (10)

1.一种智能语音评测方法,其特征在于,包括以下步骤:
a.提供第一训练数据集,所述第一训练数据集包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合,提供所述音素集合之间的映射关系;
b.训练深度神经网络,利用所述第一训练数据集对深度神经网络进行训练,以形成深度神经网络模型;
c.提供第二训练数据集,对深度神经网络进行训练,所述第二训练数据集包括至少两种语种数据集,定义一种语种数据集为测试语种数据集,其他语种数据集为对比语种数据集,所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合;
d.获取待评测语音,提取所述待评测语音的特征序列,将所述特征序列输入到所述深度神经网络模型中;对所述待评测语音进行识别以形成音素序列;
e.输出对应所述音素序列的评测分值;
f.比较以及处理所述评测分值,输出评测结果。
2.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤f中,通过线性融合或非线性融合的方式对所述评测分值进行处理。
3.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤a中,不同语种发音相似的音素映射成一套音素集合,发音不能映射的音素标记为单独的音素。
4.根据权利要求3所述的智能语音评测方法,其特征在于:所述测试语种数据集为英文,所述对比语种数据集包括中文,中文带调音素和英文音素映射为一套音素集合。
5.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤b中,还包括提取所述第一训练数据集的梅尔频谱倒谱系数特征或线性预测系数特征或梅尔滤波系数特征。
6.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤e中,还包括输出:
第一类节点:对应为使用所述第一训练数据集进行训练后的输出评测分值;
第二类节点:对应为使用所述测试语种数据集进行训练后的输出评测分值;
第三类节点:对应为使用所述对比语种数据集进行训练后的输出评测分值。
7.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤e中,利用后验概率特征,通过映射得到所述音素序列的评测分值。
8.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤a中,所述第一训练数据集的测试语种数据集和对比语种数据集一同被提供以进行所述音素集合之间的映射。
9.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤c中,所述第二训练数据集的测试语种数据集和对比语种数据集分别被提供以进行所述音素集合之间的映射。
10.一种智能语音评测系统,其特征在于,包括:
数据输入模块,与特征提取模块连接,用于将第一训练数据集和第二训练数据集传送至所述特征提取模块;与音素映射模块连接,用于将第一训练数据集和第二训练数据集传送至所述音素映射模块;所述第一训练数据集和第二训练数据集均包括测试语种数据集和对比语种数据集;
音素映射模块,与深度神经网络模块连接,用于将所述第一训练数据集和第二训练数据集的音素集合进行映射,传送至所述深度神经网络模块;
语音接收模块,与所述特征提取模块连接,用于获取待评测语音,并传送至所述特征提取模块;
特征提取模块,与所述深度神经网络模块连接,用于提取所述第一训练数据集和第二训练数据集的特征序列以及所述待评测语音的特征序列,传送至所述深度神经网络模块;
深度神经网络模块,与解码网络模块及输出节点模块连接,经训练后形成深度神经网络模型,传送至所述输出节点模块;
解码网络模块,与所述输出节点模块及语音接收模块连接,用于对所述待评测语音进行识别以形成音素序列,传送至所述输出节点模块;
输出节点模块,与优化融合模块连接,用于输出所述音素序列对应的评测分值,传送至所述优化融合模块;
优化融合模块,与评分模块连接,用于处理经所述输出节点模块输出的评测分值,传送至所述评分模块;
评分模块,用于输出对应所述待评测语音的评测结果。
CN201611199626.5A 2016-12-22 2016-12-22 智能语音评测方法及系统 Active CN106782603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611199626.5A CN106782603B (zh) 2016-12-22 2016-12-22 智能语音评测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611199626.5A CN106782603B (zh) 2016-12-22 2016-12-22 智能语音评测方法及系统

Publications (2)

Publication Number Publication Date
CN106782603A true CN106782603A (zh) 2017-05-31
CN106782603B CN106782603B (zh) 2020-08-11

Family

ID=58897250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611199626.5A Active CN106782603B (zh) 2016-12-22 2016-12-22 智能语音评测方法及系统

Country Status (1)

Country Link
CN (1) CN106782603B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN107886968A (zh) * 2017-12-28 2018-04-06 广州讯飞易听说网络科技有限公司 语音评测方法及系统
CN108053839A (zh) * 2017-12-11 2018-05-18 广东小天才科技有限公司 一种语言练习成果的展示方法及麦克风设备
CN109119089A (zh) * 2018-06-05 2019-01-01 安克创新科技股份有限公司 对音乐进行通透处理的方法及设备
CN109741734A (zh) * 2019-03-08 2019-05-10 北京猎户星空科技有限公司 一种语音评测方法、装置和可读介质
CN110349567A (zh) * 2019-08-12 2019-10-18 腾讯科技(深圳)有限公司 语音信号的识别方法和装置、存储介质及电子装置
CN111008299A (zh) * 2020-03-11 2020-04-14 北京海天瑞声科技股份有限公司 语音数据库的质量评估方法、装置及计算机存储介质
CN111883176A (zh) * 2020-07-02 2020-11-03 浙江大学绍兴微电子研究中心 端到端的智能语音朗读评测方法
CN112951277A (zh) * 2019-11-26 2021-06-11 新东方教育科技集团有限公司 评测语音的方法和装置
CN113473108A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 数据处理方法及系统、电子设备、智能音箱及声音输出设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815522A (zh) * 2006-02-28 2006-08-09 安徽中科大讯飞信息科技有限公司 运用计算机进行普通话水平测试和指导学习的方法
US20100332222A1 (en) * 2006-09-29 2010-12-30 National Chiao Tung University Intelligent classification method of vocal signal
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
US20140358526A1 (en) * 2013-05-31 2014-12-04 Sonus Networks, Inc. Methods and apparatus for signal quality analysis
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN104992705A (zh) * 2015-05-20 2015-10-21 普强信息技术(北京)有限公司 一种英语口语自动打分方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815522A (zh) * 2006-02-28 2006-08-09 安徽中科大讯飞信息科技有限公司 运用计算机进行普通话水平测试和指导学习的方法
US20100332222A1 (en) * 2006-09-29 2010-12-30 National Chiao Tung University Intelligent classification method of vocal signal
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
CN103151042B (zh) * 2013-01-23 2016-02-24 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
US20140358526A1 (en) * 2013-05-31 2014-12-04 Sonus Networks, Inc. Methods and apparatus for signal quality analysis
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN104992705A (zh) * 2015-05-20 2015-10-21 普强信息技术(北京)有限公司 一种英语口语自动打分方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUN LI等: "Mispronunciation Detection and Diagnosis in L2 English Speech Using Multidistribution Deep Neural Networks", 《IEEE/ACM TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108053839A (zh) * 2017-12-11 2018-05-18 广东小天才科技有限公司 一种语言练习成果的展示方法及麦克风设备
CN108053839B (zh) * 2017-12-11 2021-12-21 广东小天才科技有限公司 一种语言练习成果的展示方法及麦克风设备
CN107886968A (zh) * 2017-12-28 2018-04-06 广州讯飞易听说网络科技有限公司 语音评测方法及系统
CN113450811A (zh) * 2018-06-05 2021-09-28 安克创新科技股份有限公司 对音乐进行通透处理的方法及设备
CN109119089A (zh) * 2018-06-05 2019-01-01 安克创新科技股份有限公司 对音乐进行通透处理的方法及设备
CN113450811B (zh) * 2018-06-05 2024-02-06 安克创新科技股份有限公司 对音乐进行通透处理的方法及设备
CN109741734A (zh) * 2019-03-08 2019-05-10 北京猎户星空科技有限公司 一种语音评测方法、装置和可读介质
CN110349567B (zh) * 2019-08-12 2022-09-13 腾讯科技(深圳)有限公司 语音信号的识别方法和装置、存储介质及电子装置
CN110349567A (zh) * 2019-08-12 2019-10-18 腾讯科技(深圳)有限公司 语音信号的识别方法和装置、存储介质及电子装置
CN112951277A (zh) * 2019-11-26 2021-06-11 新东方教育科技集团有限公司 评测语音的方法和装置
CN111008299B (zh) * 2020-03-11 2020-06-19 北京海天瑞声科技股份有限公司 语音数据库的质量评估方法、装置及计算机存储介质
CN111008299A (zh) * 2020-03-11 2020-04-14 北京海天瑞声科技股份有限公司 语音数据库的质量评估方法、装置及计算机存储介质
CN113473108A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 数据处理方法及系统、电子设备、智能音箱及声音输出设备
CN111883176A (zh) * 2020-07-02 2020-11-03 浙江大学绍兴微电子研究中心 端到端的智能语音朗读评测方法
CN111883176B (zh) * 2020-07-02 2022-06-21 浙江大学绍兴微电子研究中心 端到端的智能语音朗读评测方法

Also Published As

Publication number Publication date
CN106782603B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN106782603A (zh) 智能语音评测方法及系统
CN102800314B (zh) 具有反馈指导的英语句子识别与评价系统及其方法
CN101739867B (zh) 运用计算机对口语翻译质量进行评分的方法
CN102354495B (zh) 半开放式口语试题的测试方法及系统
Weinberger et al. The Speech Accent Archive: towards a typology of English accents
CN112259104B (zh) 一种声纹识别模型的训练装置
CN103928023A (zh) 一种语音评分方法及系统
Gao et al. A study on robust detection of pronunciation erroneous tendency based on deep neural network.
CN107886968B (zh) 语音评测方法及系统
CN109727608A (zh) 一种基于中文语音的病态嗓音评估方法
CN110164447A (zh) 一种口语评分方法及装置
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
Duan et al. A Preliminary study on ASR-based detection of Chinese mispronunciation by Japanese learners
CN109300339A (zh) 一种英语口语的练习方法及系统
CN106205603A (zh) 一种声调评估方法
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
CN115132174A (zh) 一种语音数据处理方法、装置、计算机设备及存储介质
Ling An acoustic model for English speech recognition based on deep learning
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
CN114927126A (zh) 基于语义分析的方案输出方法、装置、设备以及存储介质
Cai et al. The DKU-JNU-EMA electromagnetic articulography database on Mandarin and Chinese dialects with tandem feature based acoustic-to-articulatory inversion
Larabi-Marie-Sainte et al. A new framework for Arabic recitation using speech recognition and the Jaro Winkler algorithm
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
CN107610720A (zh) 发音偏误检测方法、装置、存储介质及设备
Luo et al. Automatic pronunciation evaluation of language learners' utterances generated through shadowing.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170929

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Applicant after: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Address before: 200233 Shanghai, Qinzhou, North Road, No. 82, building 2, layer 1198,

Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170531

Assignee: Xiamen yunzhixin Intelligent Technology Co.,Ltd.

Assignor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

Contract record no.: X2021310000020

Denomination of invention: Intelligent voice evaluation method and system

Granted publication date: 20200811

License type: Common License

Record date: 20210408

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Xiamen yunzhixin Intelligent Technology Co.,Ltd.

Assignor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Contract record no.: X2021310000020

Date of cancellation: 20221111