CN108648766B - 语音评测方法及系统 - Google Patents

语音评测方法及系统 Download PDF

Info

Publication number
CN108648766B
CN108648766B CN201810864099.8A CN201810864099A CN108648766B CN 108648766 B CN108648766 B CN 108648766B CN 201810864099 A CN201810864099 A CN 201810864099A CN 108648766 B CN108648766 B CN 108648766B
Authority
CN
China
Prior art keywords
evaluation result
phoneme
sentence
posterior probability
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810864099.8A
Other languages
English (en)
Other versions
CN108648766A (zh
Inventor
郭伟
罗云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
Unisound Shanghai Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Shanghai Intelligent Technology Co Ltd filed Critical Unisound Shanghai Intelligent Technology Co Ltd
Priority to CN201810864099.8A priority Critical patent/CN108648766B/zh
Publication of CN108648766A publication Critical patent/CN108648766A/zh
Application granted granted Critical
Publication of CN108648766B publication Critical patent/CN108648766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语音评测方法及系统,其中,方法包括:获取待测语音;提取待测语音中的句子;提取句子中的单词;提取单词的音素;获取音素的后验概率和音素的帧长,基于后验概率和帧长对音素进行评测,并将音素的评测结果作为第一评测结果;基于第一评测结果,对单词进行评测,将单词的评测结果作为第二评测结果;本语音评测方法将待测语音进行解剖成一个个音素,以音素为基础对该待测语音进行评测。具体为:以音素的后验概率和音素的帧长对音素进行评测;以单词包含的音素的评测结果对单词进行评测;再由单词的评测结果和句子的后验概率对句子进行评测,然后根据三次评测结果进行加权处理得出综合评测结果。

Description

语音评测方法及系统
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音评测方法及系统。
背景技术
目前,语音的评测是通过音素的后验概率,推出单词、句子评测,该方法虽然稳定性较好,但差异化不明显。
发明内容
本发明提供一种语音评测方法及系统,通过音素的后验概率及帧长,推出单词、句子评测,以及语音整体的评测,并且具有稳定性好、准确率高、差异化的特点。
本发明实施例提供的一种语音评测方法,包括:
获取待测语音;
提取所述待测语音中的句子;
提取所述句子中的单词;
提取所述单词的音素;
获取所述音素的后验概率和所述音素的帧长,基于所述后验概率和帧长对所述音素进行评测,并将所述音素的评测结果作为第一评测结果;
基于第一评测结果,对所述单词进行评测,将所述单词的评测结果作为第二评测结果;
基于第二评测结果和句子的后验概率,对所述句子进行评测,将所述句子的评测结果作为第三评测结果;
对所述第一评测结果、第二评测结果和第三评测结果进行加权处理,将加权处理的结果作为最终评测结果。
获取所述音素的后验概率和所述音素的帧长,基于所述后验概率和帧长对所述音素进行评测,并将所述音素的评测结果作为第一评测结果;包括:
音素的后验概率为
Figure 100002_DEST_PATH_IMAGE001
其中,O表示发音人的音素,Mi表示针对需要发音的音素的语音识别模型;KMi表示针对需要发音的音素的语音识别模型以及相似音素模型的集合;Mj表示所述集合中的第j个模型;P(O/Mi)为音素相对于所述语音识别模型的先验概率,P(O/Mj)为音素相对于所述集合中的第j个模型的先验概率;
所述第一评测结果通过下式确定:
Figure DEST_PATH_IMAGE002
其中,O代表发音者发出的音素,Mi代表针对需要发音的音素的语音识别模型,DMi代表发音者发出的音素的帧长,Di标代表针对需要发音的音素的语音识别模型的帧长。
基于第一评测结果,对所述单词进行评测,将所述单词的评测结果作为第二评测结果;包括:
所述单词包含的各个音素的第一评测结果取平均值作为第二评测结果;第二评测结果计算公式如下:
Figure 100002_DEST_PATH_IMAGE003
其中,Sj表示第二评测结果,Si表示第i个音素的第一评测结果,n表示单词包含的音素。
基于第二评测结果和句子的后验概率,对所述句子进行评测,将所述句子的评测结果作为第三评测结果;包括:
所述句子包含的单词的第二评测结果取平均值和确定所述句子的后验概率;
对第二评测结果与句子的后验概率进行加权处理,并确定第三评测结果:
Figure DEST_PATH_IMAGE004
其中,Sk表示第三评测结果,Sj表示第j个单词的第二评测结果,Pk表示句子后验概率,m表示句子包含的单词个数,a、b为权重。
本发明还提供一种语音评测系统,其特征在于,包括:
语音获取模块,用于获取待测语音;
句子提取模块,用于提取所述语音中的句子;
单词提取模块,用于提取所述句子中的单词;
音素提取模块,用于提取所述单词的关键音素;
第一评测结果生成模块,获取所述音素的后验概率和所述音素的帧长,基于所述后验概率和帧长对所述音素进行评测,并将所述音素的评测结果作为第一评测结果;
第二评测结果生成模块,用于基于第一评测结果,对所述单词进行评测,将所述单词的评测结果作为第二评测结果;
第三评测结果生成模块,用于基于第二评测结果和句子的后验概率,对所述句子进行评测,将所述句子的评测结果作为第三评测结果;
综合评测结果生成模块,用于对所述第一评测结果、第二评测结果和第三评测结果进行加权处理,将加权处理的结果作为综合评测结果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种语音评测方法的示意图;
图2为本发明实施例中一种语音评测系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种语音评测方法,如图1所示,包括:
S1:获取待测语音;
S2:提取待测语音中的句子;
S3:提取句子中的单词;
S4:提取单词的音素;
S5:获取音素的后验概率和音素的帧长,基于后验概率和帧长对音素进行评测,并将音素的评测结果作为第一评测结果;
S6:基于第一评测结果,对单词进行评测,将单词的评测结果作为第二评测结果;
S7:基于第二评测结果和句子的后验概率,对句子进行评测,将句子的评测结果作为第三评测结果;
S8:对第一评测结果、第二评测结果和第三评测结果进行加权处理,将加权处理的结果作为综合评测结果。
本语音评测方法将待测语音进行解剖成一个个音素,以音素为基础对该待测语音进行评测。具体为:以音素的后验概率和音素的帧长对音素进行评测;以单词包含的音素的评测结果对单词进行评测;再由单词的评测结果和句子的后验概率对句子进行评测,然后根据三次评测结果进行加权处理得出综合评测结果。
在音素评测的时候引入帧长,因发声人员的个体在发出音素的帧长上存在着差异,使综合评测结果具有差异化的特点。通过句子后验直接给出单词或句子的评测,由于音素状态的后验的叠加平均,在前端识别错误或者异常的情况下,会导致评测比较异常(不准),在正常情况下,对好坏的评测还是比较准确的;结合音素的帧长信息给单词进行评测,减少评测的突变,使评测更加稳定,但会导致异常数据(乱说)评测偏高一些,本语音评测方法结合上述两种方法,很好的兼顾的稳定性和准确性。
在音素评测的时候引入帧长,因发声人员的个体在发出音素的帧长上存在着差异,使综合评测结果具有差异化的特点。具体实施为:获取音素的后验概率和音素的帧长,基于后验概率和帧长对音素进行评测,并将音素的评测结果作为第一评测结果;包括:
音素的后验概率为
Figure 109890DEST_PATH_IMAGE001
其中,O表示发音人的音素,Mi表示针对需要发音的音素的语音识别模型;KMi表示针对需要发音的音素的语音识别模型以及相似音素模型的集合;Mj表示所述集合中的第j个模型;P(O/Mi)为音素相对于所述语音识别模型的先验概率,P(O/Mj)为音素相对于所述集合中的第j个模型的先验概率;
第一评测结果通过下式确定:
Figure 43342DEST_PATH_IMAGE002
其中,O代表发音者发出的音素,Mi代表针对需要发音的音素的语音识别模型,DMi代表发音者发出的音素的帧长,Di标代表针对需要发音的音素的语音识别模型的帧长。
基于第一评测结果,对单词进行评测,将单词的评测结果作为第二评测结果;包括:
单词包含的各个音素的第一评测结果取平均值作为第二评测结果;第二评测结果计算公式如下:
Figure 354238DEST_PATH_IMAGE003
其中,Sj表示第二评测结果,Si表示第i个音素的第一评测结果,n表示单词包含的音素。
基于第二评测结果和句子的后验概率,对句子进行评测,将句子的评测结果作为第三评测结果;包括:
句子包含的单词的第二评测结果取平均值和确定句子的后验概率;
对第二评测结果与句子的后验概率进行加权处理,并确定第三评测结果:
Figure 280606DEST_PATH_IMAGE004
其中,Sk表示第三评测结果,Sj表示第j个单词的第二评测结果,Pk表示句子后验概率为句子包含的音素叠加平均得出,m表示句子包含的单词个数,a、b为权重。通过句子后验直接给出单词或句子的评测,由于音素状态的后验的叠加平均,在前端识别错误或者异常的情况下,会导致评测比较异常(不准),在正常情况下,对好坏的评测还是比较准确的;结合音素的帧长信息给单词进行评测,减少评测的突变,使评测更加稳定,但会导致异常数据(乱说)评测偏高一些,上述对句子评测结合上述两种方法,很好的兼顾的稳定性和准确性。
本发明还提供一种语音评测系统,如图2所示,包括:
语音获取模块1,用于获取待测语音;
句子提取模块2,用于提取语音中的句子;
单词提取模块3,用于提取句子中的单词;
音素提取模块4,用于提取单词的关键音素;
第一评测结果生成模块5,获取音素的后验概率和音素的帧长,基于后验概率和帧长对音素进行评测,并将音素的评测结果作为第一评测结果;
第二评测结果生成模块6,用于基于第一评测结果,对单词进行评测,将单词的评测结果作为第二评测结果;
第三评测结果生成模块7,用于基于第二评测结果和句子的后验概率,对句子进行评测,将句子的评测结果作为第三评测结果;
综合评测结果生成模块8,用于对第一评测结果、第二评测结果和第三评测结果进行加权处理,将加权处理的结果作为综合评测结果。
本语音评测系统获取待测语音后通过句子提取模块、单词提取模块、音素提取模块将待测语音进行解剖成一个个音素,以音素为基础对该待测语音进行评测。具体为:第一评测结果生成模块是以音素的后验概率和音素的帧长对音素进行评测;第二评测结果生成模块是以单词包含的音素的评测结果对单词进行评测;第三评测结果生成模块再由单词的评测结果和句子的后验概率对句子进行评测,然后综合评测结果生成模块根据三次评测结果进行加权处理得出综合评测结果。
在音素评测的时候引入帧长,因发声人员的个体在发出音素的帧长上存在着差异,使综合评测结果具有差异化的特点。通过句子后验直接给出单词或句子的评测,由于音素状态的后验的叠加平均,在前端识别错误或者异常的情况下,会导致评测比较异常(不准),在正常情况下,对好坏的评测还是比较准确的;结合音素的帧长信息给单词进行评测,减少评测的突变,使评测更加稳定,但会导致异常数据(乱说)评测偏高一些,本语音评测方法结合上述两种方法,很好的兼顾的稳定性和准确性。
本语音评测的系统通过音素的后验概率及帧长,推出单词、句子评测,以及语音整体的评测,在音素评测的时候引入帧长,因发声人员的个体在发出音素的帧长上存在着差异,使综合评测结果具有差异化的特点,并且还保持着以音素的后验概率为基础的打分系统的稳定性好、准确率高的特点。
语音评测系统还包括:评测结果输出模块,用于输出第一评测结果、第二评测结果、第三评测结果和综合评测结果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种语音评测方法,其特征在于,包括:
获取待测语音;
提取所述待测语音中的句子;
提取所述句子中的单词;
提取所述单词的音素;
获取所述音素的后验概率和所述音素的帧长,基于所述后验概率和帧长对所述音素进行评测,并将所述音素的评测结果作为第一评测结果;
基于第一评测结果,对所述单词进行评测,将所述单词的评测结果作为第二评测结果;
基于第二评测结果和句子的后验概率,对所述句子进行评测,将所述句子的评测结果作为第三评测结果;
对所述第一评测结果、第二评测结果和第三评测结果进行加权处理,将加权处理的结果作为综合评测结果;
所述第三评测结果获取方法包括:
所述句子包含的单词的第二评测结果取平均值和确定所述句子的后验概率;
对第二评测结果与句子的后验概率进行加权处理,并确定第三评测结果:
Figure DEST_PATH_IMAGE001
其中,Sk表示第三评测结果,Sj表示第j个单词的第二评测结果,Pk表示句子后验概率,m表示句子包含的单词个数,a、b为权重。
2.如权利要求1所述的语音评测方法,其特征在于,获取所述音素的后验概率和该音素的帧长,基于所述后验概率和帧长对该音素进行评测,作为第一评测结果;包括:
音素的后验概率为
Figure 521984DEST_PATH_IMAGE002
其中,O表示发音人的音素,Mi表示针对需要发音的音素的语音识别模型;KMi表示针对需要发音的音素的语音识别模型以及相似音素模型的集合;Mj表示所述集合中的第j个模型;P(O/Mi)为音素相对于所述语音识别模型的先验概率,P(O/Mj)为音素相对于所述集合中的第j个模型的先验概率;
所述第一评测结果通过下式确定:
Figure DEST_PATH_IMAGE003
其中,O代表发音者发出的音素,Mi代表针对需要发音的音素的语音识别模型,DMi代表发音者发出的音素的帧长,Di标代表针对需要发音的音素的语音识别模型的帧长。
3.如权利要求1所述的语音评测方法,其特征在于,基于所述单词包含的关键音素,对所述单词进行评测,将所述单词的评测结果作为第二评测结果;包括:
所述单词包含的各个关键音素的第一评测结果取平均值作为第二评测结果;第二评测结果计算公式如下:
Figure 173545DEST_PATH_IMAGE004
其中,Sj表示第二评测结果,Si表示第i个音素的第一评测结果,n表示单词包含的音素。
4.一种语音评测系统,其特征在于,包括:
语音获取模块,用于获取待测语音;
句子提取模块,用于提取所述语音中的句子;
单词提取模块,用于提取所述句子中的单词;
音素提取模块,用于提取所述单词的关键音素;
第一评测结果生成模块,获取所述音素的后验概率和所述音素的帧长,基于所述后验概率和帧长对所述音素进行评测,并将所述音素的评测结果作为第一评测结果;
第二评测结果生成模块,用于基于第一评测结果,对所述单词进行评测,将所述单词的评测结果作为第二评测结果;
第三评测结果生成模块,用于基于第二评测结果和句子的后验概率,对所述句子进行评测,将所述句子的评测结果作为第三评测结果;
综合评测结果生成模块,用于对所述第一评测结果、第二评测结果和第三评测结果进行加权处理,将加权处理的结果作为综合评测结果;
所述第三评测结果生成模块执行如下操作:
所述句子包含的单词的第二评测结果取平均值和确定所述句子的后验概率;
对第二评测结果与句子的后验概率进行加权处理,并确定第三评测结果:
Figure DEST_PATH_IMAGE005
其中,Sk表示第三评测结果,Sj表示第j个单词的第二评测结果,Pk表示句子后验概率,m表示句子包含的单词个数,a、b为权重。
CN201810864099.8A 2018-08-01 2018-08-01 语音评测方法及系统 Active CN108648766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810864099.8A CN108648766B (zh) 2018-08-01 2018-08-01 语音评测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810864099.8A CN108648766B (zh) 2018-08-01 2018-08-01 语音评测方法及系统

Publications (2)

Publication Number Publication Date
CN108648766A CN108648766A (zh) 2018-10-12
CN108648766B true CN108648766B (zh) 2021-03-19

Family

ID=63760583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810864099.8A Active CN108648766B (zh) 2018-08-01 2018-08-01 语音评测方法及系统

Country Status (1)

Country Link
CN (1) CN108648766B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545244A (zh) * 2019-01-29 2019-03-29 北京猎户星空科技有限公司 语音评测方法、装置、电子设备及存储介质
CN109712643A (zh) * 2019-03-13 2019-05-03 北京精鸿软件科技有限公司 语音评价的方法和装置
CN110797044B (zh) * 2019-08-22 2024-02-06 腾讯科技(深圳)有限公司 音频数据处理方法、装置、计算机设备和存储介质
CN113053414B (zh) * 2019-12-26 2024-05-28 航天信息股份有限公司 一种发音评测方法及装置
CN111816210B (zh) * 2020-06-23 2022-08-19 华为技术有限公司 一种语音评分的方法及装置
CN111986650B (zh) * 2020-08-07 2024-02-27 云知声智能科技股份有限公司 借助语种识别辅助语音评测的方法及系统
CN111739518B (zh) * 2020-08-10 2020-12-01 腾讯科技(深圳)有限公司 音频的识别方法和装置、存储介质及电子设备
CN111785299B (zh) * 2020-08-13 2023-11-28 腾讯科技(深圳)有限公司 一种语音测评方法、装置、设备及计算机存储介质
CN112767919A (zh) * 2021-01-22 2021-05-07 北京读我科技有限公司 一种语音测评方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751803A (zh) * 2008-12-11 2010-06-23 财团法人资讯工业策进会 可调校式的阶层式评分方法与系统
KR20130091128A (ko) * 2012-02-07 2013-08-16 에스케이씨앤씨 주식회사 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962327B2 (en) * 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751803A (zh) * 2008-12-11 2010-06-23 财团法人资讯工业策进会 可调校式的阶层式评分方法与系统
KR20130091128A (ko) * 2012-02-07 2013-08-16 에스케이씨앤씨 주식회사 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法

Also Published As

Publication number Publication date
CN108648766A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108648766B (zh) 语音评测方法及系统
CN105529028B (zh) 语音解析方法和装置
TWI466101B (zh) 語音識別方法及系統
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
CN103426428B (zh) 语音识别方法及系统
CN107886968B (zh) 语音评测方法及系统
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
CN101452701B (zh) 基于反模型的置信度估计方法及装置
US20210134277A1 (en) System and method for automatic speech analysis
CN108364634A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
KR20160098910A (ko) 음성 인식 데이터 베이스 확장 방법 및 장치
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
JP2002358097A (ja) 音声認識装置
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
Williams et al. Speaker height estimation combining GMM and linear regression subsystems
CN113705671B (zh) 一种基于文本相关信息感知的说话人识别方法与系统
Chen et al. System and keyword dependent fusion for spoken term detection
Abdou et al. Enhancing the confidence measure for an Arabic pronunciation verification system
Mizera et al. Impact of irregular pronunciation on phonetic segmentation of nijmegen corpus of casual czech
CN113035236A (zh) 语音合成数据的质检方法以及装置
JP3456444B2 (ja) 音声判定装置及び方法並びに記録媒体
CN112951208B (zh) 语音识别的方法和装置
CN101393739B (zh) 一种汉语语音识别可信度特征值的计算方法
Li et al. The analysis on the acoustic parameters of distinctive features for Mandarin vowels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant