CN103021226A - 一种基于发音节奏的语音评测方法及装置 - Google Patents

一种基于发音节奏的语音评测方法及装置 Download PDF

Info

Publication number
CN103021226A
CN103021226A CN2012104734202A CN201210473420A CN103021226A CN 103021226 A CN103021226 A CN 103021226A CN 2012104734202 A CN2012104734202 A CN 2012104734202A CN 201210473420 A CN201210473420 A CN 201210473420A CN 103021226 A CN103021226 A CN 103021226A
Authority
CN
China
Prior art keywords
evaluation
test
model
vowel
consonant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104734202A
Other languages
English (en)
Other versions
CN103021226B (zh
Inventor
张劲松
时书菊
解焱陆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN201210473420.2A priority Critical patent/CN103021226B/zh
Publication of CN103021226A publication Critical patent/CN103021226A/zh
Application granted granted Critical
Publication of CN103021226B publication Critical patent/CN103021226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于发音节奏的语音评测方法及装置,该装置包括:GMM模型获取单元用于从被评测语音中选出训练数据,提取出所述训练数据的节奏特征参数进行训练得到GMM模型;似然度获取单元提取被评测语音的节奏特征参数作为所述GMM模型的输入,经GMM模型匹配获取相应的似然度值;评测模型获取单元用于所述似然度经过训练评测模型,根据所述评测模型对被评测语音的发音节奏进行评测。本申请所提出的技术方案用于辅助语言教学,尤其是对外汉语的教学,满足了学生学习语言的需要。另外,能及时发现学生的语音节奏中的偏误并给予他们有效的反馈,将会提高他们的语言学习效率。尤其在于日本学生学习汉语方面。

Description

一种基于发音节奏的语音评测方法及装置
技术领域
本发明涉及语音识别领域,特别涉及一种基于发音节奏的语音评测方法及装置。
背景技术
日常生活中,我们不难发现这样的现象:日本学生的汉语发音节奏往往会受到母语的影响,与汉语母语发音者存在着很大的不同。而研究表明,对日本学习者而言,最难的部分即为汉语口语的学习。如果能及时发现日本学生汉语发音节奏中的偏误并给予他们有效地反馈,将会对他们的大大提高他们的汉语口语学习效率。
然而随着汉语热的进一步升温,学习汉语的人数在急剧增加,传统的教学资源有限,并且不能及时发现学生汉语发音节奏中的偏误,无法满足学生的需要。
发明内容
本发明的目的是针对上述问题,考虑到第二语言学习者口语发音节奏往往会受到母语发音节奏的影响,提出一种基于发音节奏的语音评测方法及装置。
为实现上述目的,本发明提供了一种基于发音节奏的语音评测装置,该装置包括:
GMM模型获取单元,用于从被评测语音中选出训练数据,提取出所述训练数据的节奏特征参数进行训练得到GMM模型;
似然度获取单元,提取被评测语音的节奏特征参数作为所述GMM模型的输入,经GMM模型匹配获取相应的似然度值;
评测模型获取单元,包括评测模型模块,用于所述似然度经过训练评测模型,根据所述评测模型对被评测语音的发音节奏进行评测。
可选的,在本发明一实施例中,所述评测模型获取单元还包括标准化处理模块;
所述标准化处理模块用于似然度经过训练获取评测模型之前经过标准化处理;所述标准化处理包括:求解信差和Z-Score值。
可选的,在本发明一实施例中,所述评测模型模块中的评测模型为LDA模型。
可选的,在本发明一实施例中,所述GMM模型获取单元获取的GMM模型包括中国人说汉语GMM模型、日本人说汉语GMM模型和日本人说日语GMM模型。
可选的,在本发明一实施例中,所述GMM模型获取单元获取的GMM模型还用于对被评测语音进行类型识别,即被评测语音作为输入经过GMM模型获取似然度值,将获取最大似然度值的GMM模型对应的语料类型作为被评测语音的类型。
可选的,在本发明一实施例中,所述语料类型包括中国人说汉语类型、日本人说汉语类型和日本人说日语类型。
可选的,在本发明一实施例中,所述GMM模型获取单元中的节奏特征参数包括:%V、ΔV、rPVI、nPVI和ΔE;其中,
所述%V为在一句话中所有元音的时长占总时长的比例;
所述ΔV为在一句话中元音时长的标准差;
所述ΔE为一句话中辅音/元音能量值的标准差;所述ΔE表达式为:
ΔE = 1 n Σ i = 1 n ( E i - E ‾ ) 2
其中,n表示一句话中总的元音或者辅音个数;i表示第i个元音或者辅音;Ei表示第i个元音或者辅音的能量值;
Figure BDA00002434631200022
表示一句话中元音或者辅音能量的平均值;
所述rPVI为相邻两元音段或辅音段之间的时长差的平均值;所述rPVI表达式为:
rPVI = [ Σ k = 1 m - 1 | d k - d k - 1 | / ( m - 1 ) ]
其中,k表示第K个元音或者辅音段;m表示一句话中元音或者辅音段的总个数;dk表示第k个元音或者辅音段的时长;
所述nPVI为相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值;所述nPVI表达式为:
nPVI = 100 * [ Σ k = 1 m - 1 | d k - d k - 1 ( d k - d k - 1 ) / 2 | / ( m - 1 ) | ] .
可选的,在本发明一实施例中,所述评测模型获取单元还包括感知评测模块;
所述感知评测模块,用于对所述训练数据进行感知评测获取感知评测信息,将感知评测信息与所述似然度值经过训练获取评测模型。
为实现上述目的,本发明还提供了一种基于发音节奏的语音评测方法,该方法包括:
从被评测语音中选出训练数据,提取出所述训练数据的节奏特征参数进行训练得到GMM模型;
提取被评测语音的节奏特征参数作为所述GMM模型的输入,经GMM模型匹配获取相应的似然度值;
所述似然度经过训练评测模型,根据所述评测模型对被评测语音的发音节奏进行评测。
可选的,在本发明一实施例中,所述节奏特征参数包括:%V、ΔV、rPVI、nPVI和ΔE;其中,
所述%V为在一句话中所有元音的时长占总时长的比例;
所述ΔV为在一句话中元音时长的标准差;
所述ΔE为一句话中辅音/元音能量值的标准差;所述ΔE表达式为:
ΔE = 1 n Σ i = 1 n ( E i - E ‾ ) 2
其中,n表示一句话中总的元音或者辅音个数;i表示第i个元音或者辅音;Ei表示第i个元音或者辅音的能量值;
Figure BDA00002434631200032
表示一句话中元音或者辅音能量的平均值;
所述rPVI为相邻两元音段或辅音段之间的时长差的平均值;所述rPVI表达式为:
rPVI = [ Σ k = 1 m - 1 | d k - d k - 1 | / ( m - 1 ) ]
其中,k表示第K个元音或者辅音段;m表示一句话中元音或者辅音段的总个数;dk表示第k个元音或者辅音段的时长;
所述nPVI为相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值;所述nPVI表达式为:
nPVI = 100 * [ Σ k = 1 m - 1 | d k - d k - 1 ( d k - d k - 1 ) / 2 | / ( m - 1 ) | ] .
上述技术方案具有如下有益效果:本申请所提出的技术方案致力于基于语音节奏的自动评测,并开发出相关教辅平台,用于辅助语言教学,尤其是对外汉语的教学,满足了学生学习语言的需要。另外,能及时发现学生的语音节奏中的偏误并给予他们有效的反馈,将会提高他们的语言学习效率。尤其在于日本学生学习汉语方面。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提出的一种基于发音节奏的语音评测方法流程图;
图2为本发明提出的一种基于发音节奏的语音评测装置结构框图;
图3为本发明提出的一种基于发音节奏的语音评测装置中评测模型获取单元的结构框图;
图4为本发明提出的一种基于发音节奏的语音评测技术方案中的似然度获取流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
从听觉感知的角度说,节奏是一种由语音的时长、音高或者轻重的规律性显现而产生的韵律感知模式。通俗的说,节奏就是音节的长短强弱。现有关于节奏的研究主要集中在基于节奏的语言分类。不同的语言具有不同的节奏,现有研究将语言按节奏分为三类,分别是重音节奏语言、音节节奏语言和莫拉节奏语言。已有研究表明日语是莫拉节奏的语言,而主流语言学家倾向于把汉语归为音节节奏的语言。
虽然现有研究中不乏关于日语发音节奏的研究,但是关于汉语发音节奏的研究较少,更鲜有中日语音发音节奏的对比研究。基于主要考虑节奏的长短的特性,可以得到这样的结论:
(1)一句话中,汉语的声母/韵母时长变化大于相应的日语中元/辅音的时长变化;
(2)日本人说日语的语料中,元音平均时长远远大于辅音;而汉语的平均音节长度大于日语中的莫拉。
这个结论的可靠性由以下两点证实:(1)汉语是一门音调语言,而韵母是音调信息的负载,因此汉语中的韵母无论在时长和音高上都强于日语;(2)汉语存在很多送气音,如p,f,t,k等,而送气音的时长大于不送气音。
基于上述分析,本发明提出一种基于发音节奏的语音评测方法流程图。如图1所示,该方法包括:
步骤101:从被评测语音中选出训练数据,提取出所述训练数据的节奏特征参数进行训练得到GMM模型;
步骤102:提取被评测语音的节奏特征参数作为所述GMM模型的输入,经GMM模型匹配获取相应的似然度值;
步骤103:所述似然度经过训练评测模型,根据所述评测模型对被评测语音的发音节奏进行评测。
可选地,在本发明一实施例中,所述似然度经过训练获取评测模型之前还包括标准化处理;
所述标准化处理包括:求解信差(Confidence error)和Z-Score值。
可选地,在本发明一实施例中,所述评测模型为LDA模型。
可选地,在本发明一实施例中,所述GMM模型包括中国人说汉语GMM模型、日本人说汉语GMM模型和日本人说日语GMM模型。
可选地,在本发明一实施例中,所述GMM模型还用于对被评测语音进行类型识别,即被评测语音作为输入经过GMM模型获取似然度值,将获取最大似然度值的GMM模型对应的语料类型作为被评测语音的类型。
可选地,在本发明一实施例中,所述语料类型包括中国人说汉语类型、日本人说汉语类型和日本人说日语类型。
可选地,在本发明一实施例中,所述节奏特征参数包括:%V、ΔV、rPVI、nPVI和ΔE;其中,
所述%V为在一句话中所有元音的时长占总时长的比例;
所述ΔV为在一句话中元音时长的标准差;
所述ΔE为一句话中辅音/元音能量值的标准差;所述ΔE表达式为:
ΔE = 1 n Σ i = 1 n ( E i - E ‾ ) 2
其中,n表示一句话中总的元音或者辅音个数;i表示第i个元音或者辅音;Ei表示第i个元音或者辅音的能量值;表示一句话中元音或者辅音能量的平均值;
所述rPVI为相邻两元音段或辅音段之间的时长差的平均值;所述rPVI表达式为:
rPVI = [ Σ k = 1 m - 1 | d k - d k - 1 | / ( m - 1 ) ]
其中,k表示第K个元音或者辅音段;m表示一句话中元音或者辅音段的总个数;dk表示第k个元音或者辅音段的时长;
所述nPVI为相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值;所述nPVI表达式为:
nPVI = 100 * [ Σ k = 1 m - 1 | d k - d k - 1 ( d k - d k - 1 ) / 2 | / ( m - 1 ) | ] .
可选地,在本发明一实施例中,所述似然度经过训练评测模型,根据所述评测模型对被评测语音的发音节奏进行评测的步骤还包括;
对所述训练数据进行感知评测获取感知评测信息,将感知评测信息与所述似然度值经过训练获取评测模型。
如图2所示,本发明提出的一种基于发音节奏的语音评测装置结构框图。该装置包括:
GMM模型获取单元201,用于从被评测语音中选出训练数据,提取出所述训练数据的节奏特征参数进行训练得到GMM模型;
似然度获取单元202,提取被评测语音的节奏特征参数作为所述GMM模型的输入,经GMM模型匹配获取相应的似然度值;
评测模型获取单元203,包括评测模型模块2033,用于所述似然度经过训练评测模型,根据所述评测模型对被评测语音的发音节奏进行评测。
如图3所示,为本发明提出的一种基于发音节奏的语音评测装置中评测模型获取单元的结构框图。所述评测模型获取单元203还包括标准化处理模块2031;
所述标准化处理模块2031用于似然度经过训练获取评测模型之前经过标准化处理;所述标准化处理包括:求解信差和Z-Score值。
可选地,在本发明一实施例中,所述评测模型模块2033中的评测模型为LDA模型。
可选地,在本发明一实施例中,所述GMM模型获取单元201获取的GMM模型包括中国人说汉语GMM模型、日本人说汉语GMM模型和日本人说日语GMM模型。
可选地,在本发明一实施例中,所述GMM模型获取单元201获取的GMM模型还用于对被评测语音进行类型识别,即被评测语音的节奏特征参数作为输入经过GMM模型获取似然度值,将获取最大似然度值的GMM模型对应的语料类型作为被评测语音的类型。
可选地,在本发明一实施例中,所述语料类型包括中国人说汉语类型、日本人说汉语类型和日本人说日语类型。
可选地,在本发明一实施例中,所述GMM模型获取单元201中的节奏特征参数包括:%V、ΔV、rPVI、nPVI和ΔE;其中,
所述%V为在一句话中所有元音的时长占总时长的比例;
所述ΔV为在一句话中元音时长的标准差;
所述ΔE为一句话中辅音/元音能量值的标准差;所述ΔE表达式为:
ΔE = 1 n Σ i = 1 n ( E i - E ‾ ) 2
其中,n表示一句话中总的元音或者辅音个数;i表示第i个元音或者辅音;Ei表示第i个元音或者辅音的能量值;
Figure BDA00002434631200072
表示一句话中元音或者辅音能量的平均值;
所述rPVI为相邻两元音段或辅音段之间的时长差的平均值;所述rPVI表达式为:
rPVI = [ Σ k = 1 m - 1 | d k - d k - 1 | / ( m - 1 ) ]
其中,k表示第K个元音或者辅音段;m表示一句话中元音或者辅音段的总个数;dk表示第k个元音或者辅音段的时长;
所述nPVI为相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值;所述nPVI表达式为:
nPVI = 100 * [ Σ k = 1 m - 1 | d k - d k - 1 ( d k - d k - 1 ) / 2 | / ( m - 1 ) | ] .
如图3所示,为本发明提出的一种基于发音节奏的语音评测装置中评测模型获取单元的结构框图。所述评测模型获取单元203还包括感知评测模块2033;
所述感知评测模块2033,用于对所述训练数据进行感知评测获取感知评测信息,将感知评测信息与所述似然度值经过训练获取评测模型。
实施例:
现有研究表明第二语言学习者口语发音节奏往往会受到母语发音节奏的影响。为了实现节奏的自动评测,并将之用于计算机辅助学习,基于现有语音节奏研究我们提出了自己的方法,并做出了一定的成果。首先,通过大量调研,我们选取了对不同节奏语言有着较大区分性的语音特征参数,同时,基于节奏的声学特征,我们在研究中加入了自己提出的参数。其次,我们运用这些参数建立了相关的声学模型。在实现不同语音节奏的识别时,我们用到了GMM模型,而实现节奏的自动评价时用到了LDA模型。
其中,节奏特征参数包括%V、△V、rPVI、nPVI。
%V:在一句话中,所有元音的时长加占总时长的比例;△V:在一句话中,元音时长的标准差;rPVI:相邻两元音段或辅音段之间的时长差的平均值;nPVI:相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值;ΔE:一句话中辅音/元音能量值的标准差。
其计算公式如下:
ΔE = 1 n Σ i = 1 n ( E i - E ‾ ) 2
其中,n表示一句话中总的元音或者辅音个数;i表示第i个元音或者辅音;Ei表示第i个元音或者辅音的能量值;表示一句话中元音或者辅音能量的平均值;
rPVI = [ Σ k = 1 m - 1 | d k - d k - 1 | / ( m - 1 ) ]
其中,k表示第K个元音或者辅音段;m表示一句话中元音或者辅音段的总个数;dk表示第k个元音或者辅音段的时长;
所述nPVI为相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值;所述nPVI表达式为:
nPVI = 100 * [ Σ k = 1 m - 1 | d k - d k - 1 ( d k - d k - 1 ) / 2 | / ( m - 1 ) | ] .
如图4所示,为本发明提出的一种基于发音节奏的语音评测技术方案中的似然度获取流程图。
从被评测语音中选出训练数据,先进行预处理,然后提取出节奏特征参数,节奏特征参数经训练得到GMM语言模型。其中,在GMM模型中,提取特征参数后,用HTK工具训练。当然,可以选取其他现有的训练方法对特征参数进行训练。
被评测语音的节奏特征参数作为所述GMM模型的输入,经GMM模型匹配获取相应的似然度。在实施例中,选取了三种被评测语音,语料类型分别为“中国人说汉语、日本人说日语或日本人说汉语”。从上述三种被评测语音中选取三种训练数据。提取每种训练数据中的节奏特征参数后经训练获取三种GMM模型,三种GMM模型分别为中国人说汉语GMM模型、日本人说日语GMM模型和日本人说汉语GMM模型。提取出“中国人说汉语”的被评测语音的节奏参数先后作为中国人说汉语GMM模型、日本人说日语GMM模型和日本人说汉语GMM模型的输入后获得三个似然度值。三个似然度值中有一个最大的似然度值,根据能够获取最大似然度值的GMM模型对应的语料类型,可以知道被评测语音为到底是“中国人说汉语”、“日本人说日语”还是“日本人说汉语”。
每一个训练数据与三种GMM模型匹配会得到相应的似然度值,并且每一个训练数据经过评测专家打分获取感知评测信息
Figure BDA00002434631200091
在感知阶段中,共选取了3位北京语言大学语音学方面的三名专家对训练数据进行了MOS打分,其中,共分为5个等级,1表示发音节奏偏向日语;5表示发音节奏基本接近汉语母语发音者。
感知评测信息
Figure BDA00002434631200092
和对应的似然度值经过训练后获取LDA评测模型中的系数值。下式为LDA评测模型的表达式,经过训练后获取的系数值分别为a1,a2,….,an和b的值。
h=a1l1+a2l2+...+anln+b
其中,评测模型就是通过对被评测语音进行自动打分来对被测语音的发音节奏的偏误有效地反馈。经过训练,LDA评测模型的表达式中a1,a2,….,an和b分别为已知的。
被评测语音经过GMM模型获取相应的似然度值,获取的似然度值经LDA评测模型后可以获取分数h。该分数为基于发音节奏的语音评测装置获取的。上述
Figure BDA00002434631200093
为经过评测专家打分获取的。
本实施例中所选取的被评测语音是301句汉语教材,分别由中国人(北方标准普通话发音人)和日本人朗读所得。其中,中国发音人12名(6男6女),发音数据为3572句,日本人说汉语语料选取了19名发音人(9男10女)的数据,发音数据为5373句,日本人说日语数据较少,发音数据仅有412句。
下表1中,用于测试的数据包括中国人说汉语560句,日本人说汉语1088句。每一句“中国人说汉语”的被评测语音先后经过中国人说汉语GMM模型和日本人说汉语GMM模型后,被诊断为“中国人说汉语”的有474句。被诊断为“日本人说汉语”的有86句。每一句“日本人说汉语”的被评测语音先后经过中国人说汉语GMM模型和日本人说汉语GMM模型后,被诊断为“中国人说汉语”的有306句。被诊断为“日本人说汉语”的有782句。上述数据可知,中国人说汉语语料识别正确率为84.6%(474/560),日本人说汉语的语料识别正确率为71.9%(782/1088)。
表1
 中国人说汉语GMM模型  日本人说汉语GMM模型
  中国人说汉语  474(84.6%)  86
  日本人说汉语  306  782(71.9%)
每一句“中国人说汉语”的被评测语音先后经过中国人说汉语GMM模型和日本人说汉语GMM模型后获取相应的似然度值,每一句“日本人说汉语”的被评测语音先后经过中国人说汉语GMM模型和日本人说汉语GMM模型后获取相应的似然度值。上述似然度值经LDA评测模型后,对每一句被评测语音进行打分。
为了验证本申请提出的技术方案的可靠性,计算经本申请提出的技术方案获取的打分的相关系数为0.55,上述每一句被评测语音经三位专家打分的相关系数为0.78。可知本申请提出的技术方案可以很好的代替专家来进行语音评测。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于发音节奏的语音评测装置,其特征在于,该装置包括:
GMM模型获取单元,用于从被评测语音中选出训练数据,提取出所述训练数据的节奏特征参数进行训练得到GMM模型;
似然度获取单元,提取被评测语音的节奏特征参数作为所述GMM模型的输入,经GMM模型匹配获取相应的似然度值;
评测模型获取单元,包括评测模型模块,用于所述似然度经过训练评测模型,根据所述评测模型对被评测语音的发音节奏进行评测。
2.根据权利要求1所述的装置,其特征在于,所述评测模型获取单元还包括标准化处理模块;
所述标准化处理模块用于似然度经过训练获取评测模型之前经过标准化处理;所述标准化处理包括:求解信差和Z-Score值。
3.根据权利要求1或2所述的装置,其特征在于,所述评测模型模块中的评测模型为LDA模型。
4.根据权利要求1或2所述的装置,其特征在于,所述GMM模型获取单元获取的GMM模型包括中国人说汉语GMM模型、日本人说汉语GMM模型和日本人说日语GMM模型。
5.根据权利要求4所述的装置,其特征在于,所述GMM模型获取单元获取的GMM模型还用于对被评测语音进行类型识别,即被评测语音的节奏特征参数作为输入经过GMM模型获取似然度值,将获取最大似然度值的GMM模型对应的语料类型作为被评测语音的类型。
6.根据权利要求4所述的装置,其特征在于,所述语料类型包括中国人说汉语类型、日本人说汉语类型和日本人说日语类型。
7.根据权利要求1或2所述的装置,其特征在于,所述GMM模型获取单元中的节奏特征参数包括:%V、ΔV、rPVI、nPVI和ΔE;其中,
所述%V为在一句话中所有元音的时长占总时长的比例;
所述ΔV为在一句话中元音时长的标准差;
所述ΔE为一句话中辅音/元音能量值的标准差;所述ΔE表达式为:
ΔE = 1 n Σ i = 1 n ( E i - E ‾ ) 2
其中,n表示一句话中总的元音或者辅音个数;i表示第i个元音或者辅音;Ei表示第i个元音或者辅音的能量值;
Figure FDA00002434631100021
表示一句话中元音或者辅音能量的平均值;
所述rPVI为相邻两元音段或辅音段之间的时长差的平均值;所述rPVI表达式为:
rPVI = [ Σ k = 1 m - 1 | d k - d k - 1 | / ( m - 1 ) ]
其中,k表示第K个元音或者辅音段;m表示一句话中元音或者辅音段的总个数;dk表示第k个元音或者辅音段的时长;
所述nPVI为相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值;所述nPVI表达式为:
nPVI = 100 * [ Σ k = 1 m - 1 | d k - d k - 1 ( d k - d k - 1 ) / 2 | / ( m - 1 ) | ] .
8.根据权利要求1或2所述的装置,其特征在于,所述评测模型获取单元还包括感知评测模块;
所述感知评测模块,用于对所述训练数据进行感知评测获取感知评测信息,将感知评测信息与所述似然度值经过训练获取评测模型。
9.一种基于发音节奏的语音评测方法,其特征在于,该方法包括:
从被评测语音中选出训练数据,提取出所述训练数据的节奏特征参数进行训练得到GMM模型;
提取被评测语音的节奏特征参数作为所述GMM模型的输入,经GMM模型匹配获取相应的似然度值;
所述似然度经过训练评测模型,根据所述评测模型对被评测语音的发音节奏进行评测。
10.根据权利要求9所述的方法,其特征在于,所述节奏特征参数包括:%V、ΔV、rPVI、nPVI和ΔE;其中,
所述%V为在一句话中所有元音的时长占总时长的比例;
所述ΔV为在一句话中元音时长的标准差;
所述ΔE为一句话中辅音/元音能量值的标准差;所述ΔE表达式为:
ΔE = 1 n Σ i = 1 n ( E i - E ‾ ) 2
其中,n表示一句话中总的元音或者辅音个数;i表示第i个元音或者辅音;Ei表示第i个元音或者辅音的能量值;表示一句话中元音或者辅音能量的平均值;
所述rPVI为相邻两元音段或辅音段之间的时长差的平均值;所述rPVI表达式为:
rPVI = [ Σ k = 1 m - 1 | d k - d k - 1 | / ( m - 1 ) ]
其中,k表示第K个元音或者辅音段;m表示一句话中元音或者辅音段的总个数;dk表示第k个元音或者辅音段的时长;
所述nPVI为相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值;所述nPVI表达式为:
nPVI = 100 * [ Σ k = 1 m - 1 | d k - d k - 1 ( d k - d k - 1 ) / 2 | / ( m - 1 ) | ] .
CN201210473420.2A 2012-11-20 2012-11-20 一种基于发音节奏的语音评测方法及装置 Active CN103021226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210473420.2A CN103021226B (zh) 2012-11-20 2012-11-20 一种基于发音节奏的语音评测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210473420.2A CN103021226B (zh) 2012-11-20 2012-11-20 一种基于发音节奏的语音评测方法及装置

Publications (2)

Publication Number Publication Date
CN103021226A true CN103021226A (zh) 2013-04-03
CN103021226B CN103021226B (zh) 2015-02-11

Family

ID=47969780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210473420.2A Active CN103021226B (zh) 2012-11-20 2012-11-20 一种基于发音节奏的语音评测方法及装置

Country Status (1)

Country Link
CN (1) CN103021226B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128237A (zh) * 2019-12-26 2020-05-08 北京大米未来科技有限公司 语音评测方法、装置、存储介质和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739870A (zh) * 2009-12-03 2010-06-16 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102723077A (zh) * 2012-06-18 2012-10-10 北京语言大学 汉语教学语音合成方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739870A (zh) * 2009-12-03 2010-06-16 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102723077A (zh) * 2012-06-18 2012-10-10 北京语言大学 汉语教学语音合成方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128237A (zh) * 2019-12-26 2020-05-08 北京大米未来科技有限公司 语音评测方法、装置、存储介质和电子设备
CN111128237B (zh) * 2019-12-26 2022-12-30 北京大米未来科技有限公司 语音评测方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN103021226B (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN103065626B (zh) 英语口语考试系统中的朗读题自动评分方法和设备
CN101751919B (zh) 一种汉语口语重音自动检测方法
CN101739867B (zh) 运用计算机对口语翻译质量进行评分的方法
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
CN105261246B (zh) 一种基于大数据挖掘技术的英语口语纠错系统
CN101727902B (zh) 一种对语调进行评估的方法
CN107221318A (zh) 英语口语发音评分方法和系统
CN103761975A (zh) 一种口语评测方法及装置
Bolanos et al. Automatic assessment of expressive oral reading
Chen et al. Applying rhythm features to automatically assess non-native speech
CN106856095A (zh) 一种拼音拼读的发音质量评测系统
CN103280224A (zh) 基于自适应算法的非对称语料库条件下的语音转换方法
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
Duan et al. A Preliminary study on ASR-based detection of Chinese mispronunciation by Japanese learners
CN109493658A (zh) 情景化人机对话式口语交互学习方法
CN108877769A (zh) 识别方言种类的方法和装置
CN106205603A (zh) 一种声调评估方法
CN102568477A (zh) 一种半监督的发音模型建模系统及方法
CN103021226B (zh) 一种基于发音节奏的语音评测方法及装置
Zhao Study on the effectiveness of the asr-based english teaching software in helping college students’ listening learning
Kim et al. Automatic assessment of American English lexical stress using machine learning algorithms
Hussein et al. Mandarin tone perception and production by German learners
Li et al. English sentence pronunciation evaluation using rhythm and intonation
Suzuki et al. Sub-structure-based estimation of pronunciation proficiency and classification of learners
Ma et al. Construction of College English Teaching Platform Based on Artificial Intelligence

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant