CN110867193A - 一种段落英语口语评分方法及系统 - Google Patents

一种段落英语口语评分方法及系统 Download PDF

Info

Publication number
CN110867193A
CN110867193A CN201911171909.2A CN201911171909A CN110867193A CN 110867193 A CN110867193 A CN 110867193A CN 201911171909 A CN201911171909 A CN 201911171909A CN 110867193 A CN110867193 A CN 110867193A
Authority
CN
China
Prior art keywords
sentence
voice
paragraph
scoring
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911171909.2A
Other languages
English (en)
Inventor
李心广
李苏梅
龙晓岚
巫星湖
范乐萱
梁楚铧
陈帅
罗诗淇
陈泽铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201911171909.2A priority Critical patent/CN110867193A/zh
Publication of CN110867193A publication Critical patent/CN110867193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种段落英语口语评分方法,包括:根据预设的双参数双阈值的端点检测算法将获取的待测段落英语语音信号分割成若干单句语音;根据预设的发音质量评分标准进行评分得到单句语音评分;根据预设的篇章级朗读流利程度评分标准进行评分得到篇章级朗读流利程度评分;根据所述篇级朗读流利程度评分及所有单句语音的单句语音总分计算出所述待测段落英语语音信号对应的段落总分;根据段落中单句语音评分、篇章级朗读流利程度评分以及段落总分分别反馈相应的指导建议。本发明实施例还提供了一种段落英语口语评分系统,系统能针对段落中单个句子中发音中存在的问题,如流利度、准确度、语速、重音、节奏和语调进行评价加以反馈、指导。

Description

一种段落英语口语评分方法及系统
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种段落英语口语评分方法及系统。
背景技术
传统的英语口语评分系统,大多着重于单个句子的语速、重音、节奏和语调,加上传统的语音评分系统大多采用“踩点给分”策略。二者使得传统的语音发音客观评分系统着重于结果,而没有对朗读的过程、整体流利度进行评价,也无法进行段落级语音的评分,使得评分结果缺乏准确性,评分系统不够客观;而且现有的英语口语评分系统,无法根据评分结果对用户进行具体到发音句的准确指导。因而难于进行段落级语音的评分,难于发现段落中某个句子中具体存在的发音质量问题。如果做不到这一点,系统不能用于英语口语学习的具体指导。
发明内容
本发明实施例提供一种段落英语口语评分方法及系统,能有效解决现有技术中不能评价段落英语口语,同时不能指导段落英语口语朗读中句子中的具体问题。
本发明一实施例提供一种段落英语口语评分方法,包括:
获取待测段落英语语音信号;
根据预设的双参数双阈值的端点检测算法将所述待测段落英语语音信号分割成若干单句语音,并建立相关单句语音发音数据库;
根据预设的发音质量评分标准对所述单句语音进行评分,得到单句语音总分;其中,所述发音质量评分标准包括:发音准确性评分标准、重音准确性评分标准以及朗读节奏评分标准;
根据预设的篇章级朗读流利程度评分标准对所有单句语音进行评分得到篇章级朗读流利程度评分;
根据所述篇级朗读流利程度评分以及所有单句语音的单句语音总分计算出所述待测段落英语语音信号对应的段落总分;
根据段落中所述单句语音评分、所述篇章级朗读流利程度评分以及所述段落总分分别反馈对应的单句语音指导建议、篇章级朗读流利程度指导建议以及总段落指导建议发送至客户端;其中,所述单句语音知道指导建议包括以下至少一项:段落中任一单句发音准确性评分建议、段落中任一单句重音准确性评分建议及段落中任一单句朗读节奏评分建议。
作为上述方案的改进,所述根据预设的双参数双阈值的端点检测算法将所述待测段落英语语音信号分割成若干单句语音,并建立相关单句语音发音数据库,具体包括:
对所述待测段落英语语音信号继续进行加窗分帧处理;
分别提取处理后的每一帧语音信号的短时平均能量特征以及过零率特征;
判断处理后的语音信号的所述短时平均能量特征及所述过零率特征是否满足预设的单句语音分割条件;其中,所述预设的单句语音分割条件为:当前帧语音信号的所述短时能量特征大于预设的第一能量特征阈值且小于预设的第二能量特征阈值,且当前帧语音信号的之后的任意一帧语音信号的短时能量特征大于预设的第二能量特征阈值,且当前帧至终止帧之间的语音信号的过零率特征均大于预设的过零率阈值;所述终止帧为当前帧语音信号的之后的短时平均能量特征大于预设的第二能量特征阈值的任意一帧语音信号;
响应于所述处理后的语音信号的所述短时平均能量特征及所述过零率特征满足预设的单句语音分割条件,则所述当前帧至所述终止帧之间的所有语音信号为一个单句语音。
作为上述方案的改进,在判断处理后的每一帧语音信号的所述短时能量特征及所述过零率特征是否满足预设的单句语音分割条件之后,还包括:
响应于连续多帧处理后的语音信号的所述短时能量特征及所述过零率特征不足预设的单句语音分割条件,且连续多帧处理后的语音信号的长度超过预设的最大静音长度,则连续多帧处理后的语音信号处于无效语音段,将续多帧处理后的语音信号进行丢弃处理。
作为上述方案的改进,所述根据预设的发音质量评分标准对所述单句语音进行评分,具体为:
根据预设的第一权重对发音准确性评分、重音准确性评分、朗读节奏评分以及朗读流利程度评分进行计算,得到单句语音总分。
作为上述方案的改进,根据预设的篇章级朗读流利程度评分标准对所有单句语音进行评分得到篇章级朗读流利程度评分,具体包括:
所述预设的篇章级朗读流利程度评分标准包括:发音流利度评分标准、连读或失去爆破评分标准、整体语速评分标准、句子通顺性标准及句子表达的音素段长标准;
根据计算平均单词的发音犹豫时间确定发音流利度评分;
根据连读或失去爆破词汇占所有应连读或失去爆破词汇的比率,确定连读或失去爆破评分;
通过将所有单句语音的语速与预设的标准语音模板进行比对,确定整体语速评分;
根据插入词、删除词、替换词所占该单句语音中的所有单词的比率,确定句子通顺性评分;
根据上下文无关音素的时长的离散概率分布计算归一化后时长评分的对数概率,确定句子表达的音素段长评分。
作为上述方案的改进,所述根据所述篇级朗读流利程度评分以及所有单句语音的单句语音总分计算出所述待测段落英语语音信号对应的段落总分,具体为:
根据预设的第二权重对所述篇级朗读流利程度评分以及所有单句语音的单句语音总分进行计算,得到所述待测段落英语语音信号对应的段落总分。
作为上述方案的改进,根据发音准确性评分标准对所述单句语音进行评分,具体包括:
根据预设的RNN集成语音模型对所述单句语音进行识别;
根据预设的标准语音模板计算所述识别后的单句语音的MFCC特征的相关系数;
根据预设的相关系数关系式对所述识别后的单句语音的发音准确性进行计算;
根据计算结果获取对应的发音准确性评分。
作为上述方案的改进,根据重音准确性评分标准对所述单句语音进行评分,具体包括:
根据预设的非重音能量阈值将所述单句语音进行分割若干语音段;
提取若干语音段中短时能量特征大于预设的非重音能量阈值的语音段;
将预设的标准语音与提取的语音段进行差异计算;
根据差异计算结果获取对应的重音准确性评分。
作为上述方案的改进,根据朗读节奏评分标准对所述单句语音进行评分,具体包括:
根据预设的成对变异指数公式对所述单句语音的片段时长与预设的标准语音的片段时长进行比对计算;
根据比对计算结果获取对应的朗读节奏评分。
作为上述方案的改进,所述方法还包括:
根据所述单句语音评分、所述篇章级朗读流利程度评分以及所述段落总分反馈对应的指导建议发送至客户端。
本发明另一实施例对应提供了一种段落英语口语评分系统,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现所述口语评分方法。
与现有技术相比,本发明实施例公开的段落英语口语评分方法及系统,通过预设的双参数双阈值的端点检测算法将待测的语音信号分割成若干单句语音,再对每一个单句语音按照预设的发音质量评分标准进行评分,从而得到单句语音评分,再按照预设的篇章级朗读流利程度评分标准对所有单句语音进行评分得到篇章级朗读流利程度评分,最后根据单句语音评分以及篇章级朗读流利程度评分计算得到待测段落英语语音信号对应的段落总分,由此可见,通过多个方面(即发音准确性、重音准确性、朗读节奏及朗读流利度)对口语进行评分,提高了口语评分结果的准确度以及可靠性。并且由于采用上述方法对口语,实现了整个评分过程智能化的目的,从而口语评分过程以及结果更加客观。又由于根据所述单句语音评分、所述篇章级朗读流利程度评分以及所述段落总分反馈对应的单句语音指导建议、篇章级朗读流利程度指导建议以及总段落指导建议发送至客户端,即用户可以根据评分发现英语段落中单个句子发音中存在的问题,如针对流利度、准确度、语速、重音、节奏和语调,并根据指导建议进行改进。
附图说明
图1是本发明一实施例提供的一种段落英语口语评分方法的流程示意图;
图2是本发明一实施例提供的预设的双参数双阈值的端点检测算法分割单句语音的流程示意图;
图3是本发明一实施例提供的一种段落英语口语评分系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明一实施例提供的一种段落英语口语评分方法的流程示意图。
本发明一实施例提供一种段落英语口语评分方法,包括:
S10,获取待测段落英语语音信号。
在本实施例中,待测段落英语语音信号为英语口语的语音信号。
S20,根据预设的双参数双阈值的端点检测算法将所述待测段落英语语音信号分割成若干单句语音,并建立相关单句语音发音数据库。
其中,预设的双参数双阈值的端点检测算法中的双参数为能量特征以及过零率,不同语义单位(段、句、词等)的分割处,语音的某些特征有明显变化,比如在句子边界处,音频的能量特征就显著减少,所以利用这些特征进行边界检测。但由于单个特征难以反映出语音信号“有话段”与“无话段”之间明确的特点(譬如短时能量无法区分噪音与有用的语音段),所以基于端点检测的切句算法通常使用两个或两个以上的特征参数来获取语音信号的起始点以及结束点位置,即双参数的端点检测。
而双阈值即分别设置能量特征以及过零率的阈值,一般根据标准语音参数设置阈值,能量特征的阈值记作amp,过零率特征的阈值记作zcr。当某一帧语音信号的能量ampi>amp且过零率zcri<zcr时,则进入有效语音段;当另一帧语音信号的能量ampj<amp且过零率zcrj>zcr时,则退出有效有语音段。而i,j这两帧语音信号之间的数据,则是我们所需要的有效语音段。但是在应用中截取出来的句子不太完整,在句子的开头或者结尾有一些应该被算作有效语音段的帧被丢弃了。经分析研究发现,正常开口说话的前一小段声音与准备结束说话时的声音比正常声音小(为方便阐述后文分别称为“前音”和“尾音”)。端点检测算法很容易会把“前音”和“尾音”当作噪音丢弃从而导致数据丢失。因此,短时能量这个特征参数设定了两个阈值amp1和amp2,其中amp1<amp2。当某一帧的能量ampi大于amp1而小于amp2时,我们判断这一状态为“可能处于语音段”,如果后面有一帧的能量大于amp2,则将之前的信号帧一同算作有效语音段,否则作丢弃处理。
S30,根据预设的发音质量评分标准对所述单句语音进行评分,得到单句语音总分;其中,所述发音质量评分标准包括:发音准确性评分标准、重音准确性评分标准以及朗读节奏评分标准。其中,预设的发音质量评分标准,一般根据标准语音模板进行设定(可以根据每个地方不同的需求设置不同的标准语音模板)。
具体地,根据预设的第一权重对发音准确性评分、重音准确性评分、朗读节奏评分以及朗读流利程度评分进行计算,得到单句语音总分。
在本实施例中,考虑到在单句语音的评分中含有发音准确性评分、重音准确性评分、朗读节奏评分以及朗读流利程度评分多参量指标及其权重,所以采用回归分析法,构建合理客观的单句的发音质量评价模型。单句语音评分公式:
单句语音评分=流利度×w1+重音×w2+准确度×w3+节奏×w4
通过发音准确性、重音准确性、朗读节奏对单句语音进行评分,使得单句语音的评分结果更加准确、更加可靠。
S40,根据预设的篇章级朗读流利程度评分标准对所有单句语音进行评分得到篇章级朗读流利程度评分。
其中,所述预设的篇章级朗读流利程度评分标准包括:发音流利度评分标准、连读或失去爆破评分标准、整体语速评分标准、句子通顺性标准及句子表达的音素段长标准。
具体地,预设的篇章级朗读流利程度评分标准,一般根据标准语音模板进行设定(可以根据每个地方不同的需求设置不同的标准语音模板)。
S50,根据所述篇级朗读流利程度评分以及所有单句语音的单句语音总分计算出所述待测段落英语语音信号对应的段落总分。
具体地,根据预设的第二权重对所述篇级朗读流利程度评分以及所有单句语音的单句语音总分进行计算,得到所述待测段落英语语音信号对应的段落总分。
在本实施例中,各个句子所占的权重由单句语音长度所决定。单句语音长度越长,其权重wi越大。而单句语音平均分与篇章级流利度得分的权重将通过回归分析法来构建调整。还可以将此总评分与人工评分的结果进行对比。具体公式如下所示。
Figure BDA0002288933130000081
其中,n为单句语音数量。
S60,根据段落中所述单句语音评分、所述篇章级朗读流利程度评分以及所述段落总分分别反馈对应的单句语音指导建议、篇章级朗读流利程度指导建议以及总段落指导建议发送至客户端;其中,所述单句语音知道指导建议包括以下至少一项:段落中任一单句发音准确性评分建议、段落中任一单句重音准确性评分建议及段落中任一单句朗读节奏评分建议。
具体地,指导建议根据各项评分进行设置,每一个不同的分数段对应设置不同的指导建议,当口语系统得出评分结果之后,将根据评分结果对应提取相应的指导建议发送至客户端。从而用户可以根据评分发现英语段落中单个句子发音中存在的问题,如针对流利度、准确度、语速、重音、节奏和语调,并根据指导建议进行改进,进而提升英语口语水平。
综上所述,通过预设的双参数双阈值的端点检测算法将待测的语音信号分割成若干单句语音,再对每一个单句语音按照预设的发音质量评分标准进行评分,从而得到单句语音评分,再按照预设的篇章级朗读流利程度评分标准对所有单句语音进行评分得到篇章级朗读流利程度评分,最后根据单句语音评分以及篇章级朗读流利程度评分计算得到待测段落英语语音信号对应的段落总分,由此可见,通过多个方面(即发音准确性、重音准确性、朗读节奏及朗读流利度)对口语进行评分,提高了口语评分结果的准确度以及可靠性。并且由于采用上述方法对口语,实现了整个评分过程智能化的目的,从而口语评分过程以及结果更加客观。又由于根据所述单句语音评分、所述篇章级朗读流利程度评分以及所述段落总分反馈对应的指导建议发送至客户端,即用户可以根据评分发现英语段落中单个句子发音中存在的问题,如针对流利度、准确度、语速、重音、节奏和语调,并根据指导建议进行改进。
参见图2,作为上述方案的改进,所述根据预设的双参数双阈值的端点检测算法将所述待测段落英语语音信号分割成若干单句语音,具体包括:
对所述待测段落英语语音信号继续进行加窗分帧处理。
分别提取处理后的每一帧语音信号的短时平均能量特征以及过零率特征。
判断处理后的语音信号的所述短时能量特征及所述过零率特征是否满足预设的单句语音分割条件;其中,所述预设的单句语音分割条件为:当前帧语音信号的所述短时能量特征大于预设的第一能量特征阈值且小于预设的第二能量特征阈值,且当前帧语音信号的之后的任意一帧语音信号的短时能量特征大于预设的第二能量特征阈值,且当前帧至终止帧之间的语音信号的过零率特征均大于预设的过零率阈值;所述终止帧为当前帧语音信号的之后的短时平均能量特征大于预设的第二能量特征阈值的任意一帧语音信号。
响应于所述处理后的语音信号的所述短时平均能量特征及所述过零率特征满足预设的单句语音分割条件,则所述当前帧至所述终止帧之间的所有语音信号为一个单句语音。
作为上述方案的改进,在判断处理后的每一帧语音信号的所述短时能量特征及所述过零率特征是否满足预设的单句语音分割条件之后,还包括:
响应于连续多帧处理后的语音信号的所述短时能量特征及所述过零率特征不足预设的单句语音分割条件,且连续多帧处理后的语音信号的长度超过预设的最大静音长度,则连续多帧处理后的语音信号处于无效语音段,将续多帧处理后的语音信号进行丢弃处理。其中,最大静长度以每道题的标准音为基础,通过计算平均值,再计算最大值。
在本实施例中,在判断连续多帧处理后的语音信号的长度超过预设的最大静音长度,判断连续多帧处理后的语音信号的长度是否在预设的帧数范围内。其中,预设的帧数范围可以根据经验进行设定。
若是,则为单句语音边界点;若否则丢弃。
作为上述方案的改进,根据发音准确性评分标准对所述单句语音进行评分,具体包括:
根据预设的RNN集成语音模型对所述单句语音进行识别。
具体地,根据已知的循环神经网络构建RNN集成语音模型。
根据预设的标准语音模板计算所述识别后的单句语音的MFCC特征的相关系数。
根据预设的相关系数关系式对所述识别后的单句语音的发音准确性进行计算。
具体地,预设的相关系数关系式为
Figure BDA0002288933130000111
其中,X代表所述采集的语音信号的Mel倒谱系数,Y代表与所述采集的语音信号相对应的标准语音信号的Mel倒谱系数,n代表所述Mel倒谱系数的长度。
根据计算结果获取对应的发音准确性评分。
在本实施例中,发音准确性评分标准一般根据标准语音模板进行设定,根据计算结果查找对应的评分。
作为上述方案的改进,根据重音准确性评分标准对所述单句语音进行评分,具体包括:
根据预设的非重音能量阈值将所述单句语音进行分割若干语音段。
提取若干语音段中短时能量特征大于预设的非重音能量阈值的语音段。
将预设的标准语音与提取的语音段进行差异计算。
根据差异计算结果获取对应的重音准确性评分。
具体地,
差异计算公式为
Figure BDA0002288933130000112
其中,Lenstd是指标准语音的有效语音帧长度,Lentest是指输入语音的有效语音帧长度,除以二者是为求出起始位置与结束位置的相对位置。
在本实施例中,计算出语音信号的短时能量特征曲线;设定重音能量阈值E1,和非重音能量阈值E2;按非重音能量阈值把句子划分成块,去掉持续时间过短的块(根据平均重音时长进行确定);最后去掉能量阈值小于E1的块,余下的块即是重音块;由此即可知道句子的重音的起始帧位置组与结束帧位置组。以单句为单位与标准音比较重音分布差异,根据单句语音的起始帧位置组left[n]和结束帧位置组right[n]提出公式来计算二者差异。
作为上述方案的改进,根据朗读节奏评分标准对所述单句语音进行评分,具体包括:
根据预设的成对变异指数公式对所述单句语音的片段时长与预设的标准语音的片段时长进行比对计算。
根据比对计算结果获取对应的朗读节奏评分。
具体地,比对计算公式:
Figure BDA0002288933130000121
其中,m=min(Tsnum,Ssnum),d1k为与所述采集的语音信号相对应的标准语音信号的第k个重音段的时长,d1l为与所述采集的语音信号相对应的标准语音信号的最后一个重音段的时长,d2k为所述采集的语音信号的第k个重音段的时长,d2l为所述采集的语音信号
作为上述方案的改进,根据预设的篇章级朗读流利程度评分标准对所有单句语音进行评分得到篇章级朗读流利程度评分,具体包括:
所述预设的篇章级朗读流利程度评分标准包括:发音流利度评分标准、连读或失去爆破评分标准、整体语速评分标准、句子通顺性标准及句子表达的音素段长标准。
根据计算平均单词的发音犹豫时间确定发音流利度评分。
具体地,对于所有的单词以最后的单词为准,系统采用对ASR引擎识别结果和标准脚本进行匹配。匹配算法采用反向动态规划(DP),即匹配在标准脚本和识别结果中都是从后往前进行,代价函数如下:
di,j=min[di,j+w(si,e),di,j+1+w(e,hj),di+1,j+1,+w(si,e)]
其中:di,j代表匹配过程中的距离函数,si、hj分别代表标准脚本中第i个单词和识别结果中第j个单词,w代表插入、删除或替换过程中的耗费函数。
为了避免诸如the,an等高频词在反向DP过程中出现错位的匹配,匹配回溯过程中只有连续两个词同时和脚本相同才计入正确。对于所有标准脚本中的单词si,找到动态规划中识别脚本中对应的单词hDP(i)
对于满足以下条件的si,计算第i个单词的犹豫时间:
1)对应的hDP(i)序号不为空,即si识别正确,记该单词的发音开始时间为ti,start
2)si-1在动态规划过程匹配或者发生替换错误,但是没有删除错误,记该单词发音结束时间为ti-1,end
3)s1前的停顿不参加计算,之后有效单词的发音犹豫时间为该单词的所有准备时间和该单词发音中所有停顿时间的和:
Figure BDA0002288933130000131
根据连读或失去爆破词汇占所有应连读或失去爆破词汇的比率,确定连读或失去爆破评分。
在本实施例中,识别过程采用新的词表和合并失爆,连读后训练得到的语言模型,由于解码过程总是采用动态规划并裁减掉得分较低的竞争路径,如果测试者在阅读中有连读或失去爆破的技巧,在词树中则对应词表的词会以高的得分优先识别出来,之后对识别结果进行分析,统计连读或失去爆破词汇占所有应连读或失去爆破词汇的比率,作为连读得分Slink和失去爆破得分Sassim
通过将所有单句语音的语速与预设的标准语音模板进行比对,确定整体语速评分。
在本实施例中,正常的流利发音应该是150~160词/min。以时间段内识别结果作为衡量标准。
例如,统计单位时间段内发音phone的个数:
SROS=Nphone/(Trec-TSil-TSp)
其中,Nphone代表单位时间内识别出phone的总个数,Trec代表该时间内识别结果所占时长,TSil代表静音时长之和,TSp代表停顿时长之和。
根据插入词、删除词、替换词所占该单句语音中的所有单词的比率,确定句子通顺性评分。
具体地,句子的准确性计算公式如下:
Saccur=1-w1Rins-w2Rdel-w3Rsub
其中,Rins、Rdel、Rsub分别为在单个句子的动态匹配中,插入词、删除词、替换词所占该句所有单词的比率,各比率的权重采用前人的研究数据,利用多项式线性回归拟合系数;w1、w2、w3分别为0.38、0.56、0.54。
根据上下文无关音素的时长的离散概率分布计算归一化后时长评分的对数概率,确定句子表达的音素段长评分。
为了补偿各发音人在语速上的差异对所有发音部分进行归一化。然后,通过统计相应的上下文无关音素的时长的离散概率分布计算归一化后时长评分的对数概率,得到某个音素的段长评分。
整个句子的段长评分定义为句子中所有音素段长评分的平均值:
Figure BDA0002288933130000141
其中,n为所有音素个数,di是与音素qi对应的第i段语音的时长;f(di)=di ROS是时长归一化函数。ROS为单位时间语音内音素个数的平均值。
参见图3,是本发明一实施例提供的一种段落英语口语评分系统的结构示意图。
该实施例的所述的段落英语口语评分系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个段落英语口语评分方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
在本实施例中,用户可以通过账号密码登陆系统,还可以随时在客户端上进行真题训练等。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器11执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述无线通信设备中的执行过程。
所述段落英语口语评分系统可以是桌上型计算机、笔记本、掌上电脑、手机等计算设备。所述段落英语口语评分系统可包括,但不仅限于,处理器11、存储器12。本领域技术人员可以理解,所述示意图仅仅是段落英语口语评分系统的示例,并不构成对段落英语口语评分系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述段落英语口语评分系统还可以包括输入输出设备、网络接入设备、总线等。
所称处理器11可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等.可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述段落英语口语评分系统的控制中心,利用各种接口和线路连接整个口语评分系统的各个部分。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种段落英语口语评分方法,其特征在于,包括:
获取待测段落英语语音信号;
根据预设的双参数双阈值的端点检测算法将所述待测段落英语语音信号分割成若干单句语音,并建立相关单句语音发音数据库;
根据预设的发音质量评分标准对所述单句语音进行评分,得到单句语音评分;其中,所述发音质量评分标准包括:发音准确性评分标准、重音准确性评分标准以及朗读节奏评分标准;
根据预设的篇章级朗读流利程度评分标准对所有单句语音进行评分得到篇章级朗读流利程度评分;
根据所述篇级朗读流利程度评分以及所有单句语音的单句语音总分计算出所述待测段落英语语音信号对应的段落总分;
根据段落中所述单句语音评分、所述篇章级朗读流利程度评分以及所述段落总分分别反馈对应的单句语音指导建议、篇章级朗读流利程度指导建议以及总段落指导建议发送至客户端;其中,所述单句语音知道指导建议包括以下至少一项:段落中任一单句发音准确性评分建议、段落中任一单句重音准确性评分建议及段落中任一单句朗读节奏评分建议。
2.如权利要求1所述的段落英语口语评分方法,其特征在于,所述根据预设的双参数双阈值的端点检测算法将所述待测段落英语语音信号分割成若干单句语音,并建立相关单句语音发音数据库,具体包括:
对所述待测段落英语语音信号继续进行加窗分帧处理;
分别提取处理后的每一帧语音信号的短时平均能量特征以及过零率特征;
判断处理后的语音信号的所述短时平均能量特征及所述过零率特征是否满足预设的单句语音分割条件;其中,所述预设的单句语音分割条件为:当前帧语音信号的所述短时能量特征大于预设的第一能量特征阈值且小于预设的第二能量特征阈值,且当前帧语音信号的之后的任意一帧语音信号的短时能量特征大于预设的第二能量特征阈值,且当前帧至终止帧之间的语音信号的过零率特征均大于预设的过零率阈值;所述终止帧为当前帧语音信号的之后的短时平均能量特征大于预设的第二能量特征阈值的任意一帧语音信号;
响应于所述处理后的语音信号的所述短时平均能量特征及所述过零率特征满足预设的单句语音分割条件,则所述当前帧至所述终止帧之间的所有语音信号为一个单句语音。
3.如权利要求2所述的段落英语口语评分方法,其特征在于,在判断处理后的每一帧语音信号的所述短时能量特征及所述过零率特征是否满足预设的单句语音分割条件之后,还包括:
响应于连续多帧处理后的语音信号的所述短时能量特征及所述过零率特征不足预设的单句语音分割条件,且连续多帧处理后的语音信号的长度超过预设的最大静音长度,则连续多帧处理后的语音信号处于无效语音段,将续多帧处理后的语音信号进行丢弃处理。
4.如权利要求1所述的段落英语口语评分方法,其特征在于,所述根据预设的发音质量评分标准对所述单句语音进行评分,具体为:
根据预设的第一权重对发音准确性评分、重音准确性评分、朗读节奏评分以及朗读流利程度评分进行计算,得到单句语音总分。
5.如权利要求1所述的段落英语口语评分方法,其特征在于,根据预设的篇章级朗读流利程度评分标准对所有单句语音进行评分得到篇章级朗读流利程度评分,具体包括:
所述预设的篇章级朗读流利程度评分标准包括:发音流利度评分标准、连读或失去爆破评分标准、整体语速评分标准、句子通顺性标准及句子表达的音素段长标准;
根据计算平均单词的发音犹豫时间确定发音流利度评分;
根据连读或失去爆破词汇占所有应连读或失去爆破词汇的比率,确定连读或失去爆破评分;
通过将所有单句语音的语速与预设的标准语音模板进行比对,确定整体语速评分;
根据插入词、删除词、替换词所占该单句语音中的所有单词的比率,确定句子通顺性评分;
根据上下文无关音素的时长的离散概率分布计算归一化后时长评分的对数概率,确定句子表达的音素段长评分。
6.如权利要求1所述的段落英语口语评分方法,其特征在于,所述根据所述篇级朗读流利程度评分以及所有单句语音的单句语音总分计算出所述待测段落英语语音信号对应的段落总分,具体为:
根据预设的第二权重对所述篇级朗读流利程度评分以及所有单句语音的单句语音总分进行计算,得到所述待测段落英语语音信号对应的段落总分。
7.如权利要求1所述的段落英语口语评分方法,其特征在于,根据发音准确性评分标准对所述单句语音进行评分,具体包括:
根据预设的RNN集成语音模型对所述单句语音进行识别;
根据预设的标准语音模板计算所述识别后的单句语音的MFCC特征的相关系数;
根据预设的相关系数关系式对所述识别后的单句语音的发音准确性进行计算;
根据计算结果获取对应的发音准确性评分。
8.如权利要求1所述的段落英语口语评分方法,其特征在于,根据重音准确性评分标准对所述单句语音进行评分,具体包括:
根据预设的非重音能量阈值将所述单句语音进行分割若干语音段;
提取若干语音段中短时能量特征大于预设的非重音能量阈值的语音段;
将预设的标准语音与提取的语音段进行差异计算;
根据差异计算结果获取对应的重音准确性评分。
9.如权利要求1所述的段落英语口语评分方法,其特征在于,根据朗读节奏评分标准对所述单句语音进行评分,具体包括:
根据预设的成对变异指数公式对所述单句语音的片段时长与预设的标准语音的片段时长进行比对计算;
根据比对计算结果获取对应的朗读节奏评分。
10.一种段落英语口语评分系统,其特征在于,包括:包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至9中任意一项所述段落英语口语评分方法。
CN201911171909.2A 2019-11-26 2019-11-26 一种段落英语口语评分方法及系统 Pending CN110867193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911171909.2A CN110867193A (zh) 2019-11-26 2019-11-26 一种段落英语口语评分方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911171909.2A CN110867193A (zh) 2019-11-26 2019-11-26 一种段落英语口语评分方法及系统

Publications (1)

Publication Number Publication Date
CN110867193A true CN110867193A (zh) 2020-03-06

Family

ID=69656188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911171909.2A Pending CN110867193A (zh) 2019-11-26 2019-11-26 一种段落英语口语评分方法及系统

Country Status (1)

Country Link
CN (1) CN110867193A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599234A (zh) * 2020-05-19 2020-08-28 黑龙江工业学院 一种基于声音识别的英语口语朗读自动评分系统
CN112786054A (zh) * 2021-02-25 2021-05-11 深圳壹账通智能科技有限公司 基于语音的智能面试评估方法、装置、设备及存储介质
CN112951276A (zh) * 2021-04-23 2021-06-11 北京一起教育科技有限责任公司 一种综合评价语音的方法、装置及电子设备
CN112786054B (zh) * 2021-02-25 2024-06-11 深圳壹账通智能科技有限公司 基于语音的智能面试评估方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617799A (zh) * 2013-11-28 2014-03-05 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
CN107221318A (zh) * 2017-05-12 2017-09-29 广东外语外贸大学 英语口语发音评分方法和系统
US20180061417A1 (en) * 2016-08-30 2018-03-01 Tata Consultancy Services Limited System and method for transcription of spoken words using multilingual mismatched crowd
CN108198568A (zh) * 2017-12-26 2018-06-22 太原理工大学 一种多声源定位的方法及系统
CN109658918A (zh) * 2018-12-03 2019-04-19 广东外语外贸大学 一种智能英语口语复述题评分方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617799A (zh) * 2013-11-28 2014-03-05 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
US20180061417A1 (en) * 2016-08-30 2018-03-01 Tata Consultancy Services Limited System and method for transcription of spoken words using multilingual mismatched crowd
CN107221318A (zh) * 2017-05-12 2017-09-29 广东外语外贸大学 英语口语发音评分方法和系统
CN108198568A (zh) * 2017-12-26 2018-06-22 太原理工大学 一种多声源定位的方法及系统
CN109658918A (zh) * 2018-12-03 2019-04-19 广东外语外贸大学 一种智能英语口语复述题评分方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王满洪等: "《基于双门限算法的端点检测改进研究》", 《计算机与数字工程》 *
黄申等: "《辅助语音评分系统中一种流利度自动评分方法》", 《清华大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599234A (zh) * 2020-05-19 2020-08-28 黑龙江工业学院 一种基于声音识别的英语口语朗读自动评分系统
CN112786054A (zh) * 2021-02-25 2021-05-11 深圳壹账通智能科技有限公司 基于语音的智能面试评估方法、装置、设备及存储介质
CN112786054B (zh) * 2021-02-25 2024-06-11 深圳壹账通智能科技有限公司 基于语音的智能面试评估方法、装置、设备及存储介质
CN112951276A (zh) * 2021-04-23 2021-06-11 北京一起教育科技有限责任公司 一种综合评价语音的方法、装置及电子设备
CN112951276B (zh) * 2021-04-23 2024-02-20 北京一起教育科技有限责任公司 一种综合评价语音的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN107221318B (zh) 英语口语发音评分方法和系统
CN109545243B (zh) 发音质量评价方法、装置、电子设备及存储介质
US20140156276A1 (en) Conversation system and a method for recognizing speech
CN109192224B (zh) 一种语音评测方法、装置、设备及可读存储介质
EP2048655A1 (en) Context sensitive multi-stage speech recognition
CN106548775B (zh) 一种语音识别方法和系统
JPS62217295A (ja) 音声認識方式
CN108831463B (zh) 唇语合成方法、装置、电子设备及存储介质
CN107886968B (zh) 语音评测方法及系统
WO2014025682A2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
CN109903752B (zh) 对齐语音的方法和装置
CN102013253A (zh) 基于语音单元语速的差异的语音识别方法及语音识别系统
CN111816210B (zh) 一种语音评分的方法及装置
CN106875943A (zh) 一种用于大数据分析的语音识别系统
WO2018095167A1 (zh) 声纹识别方法和声纹识别系统
Barakat et al. Keyword spotting based on the analysis of template matching distances
CN110867193A (zh) 一种段落英语口语评分方法及系统
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
CN112015874A (zh) 学生心理健康陪伴对话系统
CN109065026A (zh) 一种录音控制方法及装置
JP2996019B2 (ja) 音声認識装置
CN111402893A (zh) 语音识别模型确定方法、语音识别方法及装置、电子设备
US20050246172A1 (en) Acoustic model training method and system
Barczewska et al. Detection of disfluencies in speech signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200306

RJ01 Rejection of invention patent application after publication