CN101727902B - 一种对语调进行评估的方法 - Google Patents

一种对语调进行评估的方法 Download PDF

Info

Publication number
CN101727902B
CN101727902B CN200810225405XA CN200810225405A CN101727902B CN 101727902 B CN101727902 B CN 101727902B CN 200810225405X A CN200810225405X A CN 200810225405XA CN 200810225405 A CN200810225405 A CN 200810225405A CN 101727902 B CN101727902 B CN 101727902B
Authority
CN
China
Prior art keywords
duration
pitch
curve
intonation
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810225405XA
Other languages
English (en)
Other versions
CN101727902A (zh
Inventor
柯登峰
陈振标
浦剑涛
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN200810225405XA priority Critical patent/CN101727902B/zh
Publication of CN101727902A publication Critical patent/CN101727902A/zh
Application granted granted Critical
Publication of CN101727902B publication Critical patent/CN101727902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种对语调进行评估的方法,该方法包括:对输入的语音进行基频提取,获得连续不断的基频曲线;对输入的语音进行对齐分割,获得声韵母边界,并对音高和时长进行规整化处理,获得规整音高曲线和规整时长曲线;将该规整音高曲线和规整时长曲线与标准音的规整音高曲线和规整时长曲线进行比较,计算出输入语音的音高和时长相对于标准音的误差值;将音高和时长的误差值分别进行排序,并抽取出有代表性的点,形成音高排序误差矢量和时长排序误差矢量;以音高排序误差矢量和时长排序误差矢量为特征对语调进行评估。利用本发明,解决了现有的计算机辅助语言教学技术中的语调评估问题。

Description

一种对语调进行评估的方法
技术领域
本发明涉及语音信息处理及计算机辅助教学技术领域,尤其涉及一种对语调进行评估的方法。
背景技术
随着语音技术的不断发展,利用计算机辅助口语教学的应用已经在国内外悄然兴起。专利号200410074445公开了一种基于语音识别及语音分析的发音评估方法,提出了对每个音节的发音评估的方法。然而该方法没有对汉语的语调层次的评估进行描述。专利号200510082059提出了一种语调相似性的匹配框架,但是没有对具体方法进行详细描述,特别是涉及到如何匹配的部分,原专利描述含糊不清,并没有对如何计算相似性作出合理的描述。而专利中提到的对提取不出基频的位置进行基频平均化,本身也不是解决基频提取问题的根本途径。该专利提出的方法,其主要缺点如下:
1.专利号200510082059的方法以词组为单位进行重新划分和处理音调数据。这样做有两个弊端。首先,词组的长度是非常不稳定的,有的词只含有一个音节,但有的词可以含有多个音节,这非常不利于语速归一化和调型归一化。其次,词组如果含有多个音节,中间可能出现清辅音和短静音,基频曲线在一个词组内部不能保证完全连续,因而不得不采用插值方法对无基频处进行插值修正,但这些修正都是会带来误差的,必然影响整体性能。
2.专利号200510082059的方法中的标准化和均匀化是在提取音调数据之后直接做的。这样做并没有充分利用好语音自动切分模块提供的边界信息,当静音长度发生变化时,必然影响基频规整化的结果。
3.专利号200510082059的方法中对标准化的描述含糊不清。虽然提到了标准化,但是标准化的概念是模糊的,零均值化、方差化为一、分布化为正态分布等等,都可以称为标准化。对于音调来说,不同人有不同的音高,特别是男女声大概相差一个八度音,因此,均值规整化是必要的。实验语音学成果还表明,不同人的调域也是不同的,特别是女声的调域大约是男声的1.5倍,因此,音高的方差规整化也是必要的。而分布的规整化只对声调识别有用,是不必要的。
4.专利号200510082059的方法中对处理音调数据没有详细描述,该方法谈及了通过切分结果,可以把每个词对应上。但是,每个词的长短是不一的,即使同个人读同一句话两次,也无法保证两句话的长度一直,如何解决长短不一的两个句子在时间上一一对应问题,对解决语调的对比评估非常重要。
5.专利号200510082059的方法中提到,可以给出语调的相似度,但没有给出具体方案。相似度的度量,并不是一个唯一确定的值,可以用欧几里德距离、马氏距离、相关系数、偏相关系数、平均误差、均方误差等等无穷尽的方法。不同方法的性能是有差异的。本发明的实验表明,采用相关系数法和均方误差法比较好,并且相关系数法比均方误差法要好很多。但是这两种方法对基频提取性能的要求很高,当基频提取错误率上升到25%的时候,相关系数和均方误差法评估的等级划分错误率提升到40%。也就是说,这些方法对基频提取性能要求较高,随着基频提取性能下降,该方法性能下降非常快。
可见,如何评估语调的好坏,还未有比较可行的解决方案。本发明正是针对现有方案的问题,提出了一种可靠的语调的评估方法,用以解决语调评估问题。该发明在国际上首次提出“排序误差矢量”这种专门用于语调评估的特征。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于提出一种对语调进行自动评估的方法,用以解决现有的计算机辅助语言教学技术中的语调评估问题,该方法还可用于语音合成中的语调自动评估。
(二)技术方案
为了实现上述目的,本发明采用的技术方案如下:
一种对语调进行评估的方法,该方法包括:
对输入的语音进行基频提取,获得连续不断的基频曲线;
对输入的语音进行对齐分割,获得声韵母边界,并对音高和时长进行规整化处理,获得规整音高曲线和规整时长曲线;
将该规整音高曲线和规整时长曲线与标准音的规整音高曲线和规整时长曲线进行比较,计算出输入语音的音高和时长相对于标准音的误差值;
将音高和时长的误差值分别进行排序,然后对该排序进行任意N等分并抽取N个特征点,形成N维的音高排序误差矢量和时长排序误差矢量,N为自然数;以及
将音高排序误差矢量和时长排序误差矢量作为语调得分计算的一个重要特征,利用该特征对语调得分进行拟合,实现对语调等级的分类,进而实现对语调的评估;
其中,所述对输入的语音进行对齐分割,是以建模单元为单位对边界进行对齐,使待测语音与标准音的各个建模单元边界一一对齐;对汉语建模单元来说,是使声韵母边界对齐,包括声母与声母对齐、韵母与韵母对齐;所述对输入的语音进行对齐分割,获得声韵母边界,是采用动态时间规整DTW将输入语音与标注好边界的标准音进行对齐,或是采用维特比Viterbi切分分别求出输入语音和标准音的声韵母边界。
上述方案中,所述对输入的语音进行基频提取,获得连续不断的基频曲线,具体包括:对输入的语音先做初步提取,再利用频谱上的谐波亮纹,对提取过程产生的倍频和半频进行修正,对提不出基频的部分,利用嘎裂音基频提取办法对基频进行提取,再用样条函数对没有基频的位置进行插值,从而获得连续不断的基频曲线。
上述方案中,所述对输入的语音做初步提取,采用Praat的自相关法、AMDF算法、YIN算法或基于统计模型的基频识别方法。
上述方案中,所述对音高进行规整化处理,包括对音高均值的规整化和音高方差的规整化。
上述方案中,所述对音高进行规整化处理,获得规整音高曲线,具体包括:将音高的单位转换成半音,然后在每个韵母内部将每个建模单元内部的音高进行规整,首先计算所有韵母段的平均基频M,并计算所有韵母段基频的标准差,然后将每个韵母段的基频减去平均基频M,并将得到的差值除以R,R表示调域,然后将每个韵母段的基频规整化为N点,则每个韵母都会形成一个N点基频曲线,把每个字的N点基频曲线连起来,形成规整的音高曲线。
上述方案中,所述对时长进行规整化处理,包括建模单元层次的时长规整化和句子层次的时长规整化。
上述方案中,所述对建模单元层次的时长规整化,采用N等分元音建模单元处基频曲线的方法对每个元音建模单元的基频的重采样。
上述方案中,所述对句子层次的时长规整化,目的是消除语速对语调评估的影响,通过定义全句的所有建模单元的平均时长为1对每个建模单元时长进行规整化,从而获得各个建模单元的相对时长。
上述方案中,所述对时长进行规整化处理,获得规整时长曲线,具体包括:将音高的单位转换成半音,然后将不同的韵母的时长除以所有韵母的平均时长,获得每个韵母的相对时长信息,利用该相对时长信息形成规整的时长曲线。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1、本发明采用语音建模单元为分块单位,建模单位的长度比较稳定的,不受词组长短的影响,因此很适合进行语速归一化和调型归一化。
2、从目前的研究成果看,有调语言中对声调的感知的贡献是在元音段的,因此本发明提倡将建模单元分为辅音建模单元和元音建模单元,辅音建模单元的基频是不予考虑的,只考虑元音建模单元的基频。
3、本发明将标准化和均匀化放在边界切分之后进行,此时标准化可以利用边界信息,剔除静音段(无基频段)以及辅音段(无需考虑基频的段)。这样无论静音、停顿的长度如何,都不会影响基频规整化的最终结果。
4、本发明提出的规整化包含均值和方差的规整化过程,考虑到句子音高不一定覆盖整个调域,本发明还采用了方差规整门限解决此问题。
5、本发明提出将基频曲线一分为二的思想,将一条基频曲线,划分成“表示调型的曲线”和“表示时长的曲线”两条曲线,这样做既可以对比两句化的调型差异,又可以对比两句话中每个建模单元的长短差异,既解决了一一对应问题,又使得每条曲线的物理意义更加明确。
6、本发明中提出了一种新的特征——排序误差矢量,这种特征对基频提取性能的影响不太敏感,在基频提取错误率上升到25%的时候,还能保证等级划分错误率在23%的水平。
附图说明
图1是本发明提供的对语调进行评估的方法流程图;
图2是依照本发明实施例对语调进行评估的方法流程图;
图3是依照本发明实施例对音高和时长进行规整的方法流程图;
图4是依照本发明实施例对每个建模单元内部的音高进行规整的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的基本构思为:提取语音的基频特征,通过对齐和规整后,与标准音进行音高误差和时长误差统计,得到排序误差矢量,通过排序误差矢量来描述的句子语调的好坏,用排序误差矢量解决句子长短不一的问题,并最终用排序误差矢量对语调进行评估。
如图1所示,图1是本发明提供的对语调进行评估的方法流程图,该方法包括:
步骤101:对输入的语音进行基频提取,获得连续不断的基频曲线;
步骤102:对输入的语音进行对齐分割,获得声韵母边界,并对音高和时长进行规整化处理,获得规整音高曲线和规整时长曲线;
步骤103:将该规整音高曲线和规整时长曲线与标准音的规整音高曲线和规整时长曲线进行比较,计算出输入语音的音高和时长相对于标准音的误差值;
步骤104:将音高和时长的误差值分别进行排序,并抽取出有代表性的点,形成音高排序误差矢量和时长排序误差矢量;
步骤105:以音高排序误差矢量和时长排序误差矢量为特征对语调进行评估。
上述步骤101中所述对输入的语音进行基频提取,获得连续不断的基频曲线,具体包括:对输入的语音先做初步提取,再利用频谱上的谐波亮纹,对提取过程产生的倍频和半频进行修正,对提不出基频的部分,利用嘎裂音基频提取办法对基频进行提取,再用样条函数对没有基频的位置进行插值,从而获得连续不断的基频曲线。此处,对输入的语音做初步提取,可以采用任何一种非频域的算法,例如Praat的自相关法、AMDF算法、YIN算法以及基于统计模型的基频识别算法等。其中,Praat是一个软件的名称,Praat在1993年提出的基频提取算法;AMDF是平均幅度差函数(average magnitude difference function);YIN是日本人提出的算法,是根据中国“阴阳相生相克”的思想做出来的,所以称“YIN”。
上述步骤102中所述对输入的语音进行对齐分割,是以建模单元为单位对边界进行对齐,使待测语音与标准音的各个建模单元边界一一对齐;对汉语建模单元来说,是使声韵母边界对齐,包括声母与声母对齐、韵母与韵母对齐。所述对输入的语音进行对齐分割,获得声韵母边界,是采用动态时间规整(DTW)将输入语音与标注好边界的标准音进行对齐,或是采用维特比(Viterbi)切分分别求出输入语音和标准音的声韵母边界。
上述步骤103中所述对音高进行规整化处理,包括对音高均值的规整化和音高方差的规整化。所述对音高进行规整化处理,获得规整音高曲线,具体包括:将音高的单位转换成半音,然后在每个韵母内部将每个建模单元内部的音高进行规整,首先计算所有韵母段的平均基频M,并计算所有韵母段基频的标准差,然后将每个韵母段的基频减去平均基频M,并将得到的差值除以R(R为range,即表示调域),然后将每个韵母段的基频规整化为N点,则每个韵母都会形成一个N点基频曲线,把每个字的N点基频曲线连起来,形成规整的音高曲线。
所述对时长进行规整化处理,包括建模单元层次的时长规整化和句子层次的时长规整化。所述对建模单元层次的时长规整化,采用N等分元音建模单元处基频曲线的方法对每个元音建模单元的基频的重采样。所述对句子层次的时长规整化,是采用一定方法消除语速对语调评估的影响;实现该过程,通过定义全句的所有建模单元的平均时长为1对每个建模单元时长进行规整化,从而获得各个建模单元的相对时长。
上述步骤103中所述对时长进行规整化处理,获得规整时长曲线,具体包括:将音高的单位转换成半音,然后将不同的韵母的时长除以所有韵母的平均时长,获得每个韵母的相对时长信息,利用该相对时长信息形成规整的时长曲线。
上述步骤104中所述将音高和时长的误差值分别进行排序,并抽取出有代表性的点,形成音高排序误差矢量和时长排序误差矢量,具体包括:将音高和时长的误差值分别进行排序,然后对该排序进行任意N等分并抽取N个特征点,形成N维的音高排序误差矢量和时长排序误差矢量,N为自然数。一种可行的办法是分别抽取10%、20%、30%、......、100%处的误差值,形成10维的音高排序误差矢量和时长排序误差矢量。
上述步骤105中所述以音高排序误差矢量和时长排序误差矢量为特征对语调进行评估,具体包括:将音高排序误差矢量和时长排序误差矢量作为语调得分计算的一个重要特征,利用该特征对语调得分进行拟合,实现对语调等级的分类,进而实现对语调的评估。
下面以汉语普通话的语调评估为例。如图2所示,图2是依照本发明实施例对语调进行评估的方法流程图。从210处输入的语音要通过220提取基频,要通过270获得声韵母边界,然后在230处对音高和时长进行规整化处理,在240处求出规整化的音高和规整化的时长跟标准音比较的误差,在250处将这些误差值排序,抽取出有代表性的点,形成排序误差适量,再通过260对语调的好坏进行评估和诊断。
在210处输入的语音,既可以是录音设备实时地输入,也可以是从已经存盘的文件中读取出来。
在220处提取基频,可以采用Praat的自相关法先做初步提取,再利用频谱上的谐波亮纹,对提取过程产生的倍频和半频进行修正,对提不出基频的部分,利用嘎裂音基频提取办法对基频进行提取,再用样条函数对没有基频的位置进行插值。从而获得连续不断的基频曲线。
在270处对语音进行对齐分割,可以采用动态时间规整(DTW)把输入语音与标注好边界的标准音进行对齐,也可以采用维特比(Viterbi)切分分别求出输入语音和标准音的声韵母边界。
在230处进行音高和时长规整化,一种可行的办法是将音高的单位转换成半音(semitone),然后按照图3所示方法进行规整。图3是依照本发明实施例对音高和时长进行规整的方法流程图。首先在320处进行时长规整,不同的韵母的时长除以所有韵母的平均时长,获得每个韵母的相对时长信息,该信息输出为340处的“规整的时长曲线”。而对每个韵母内部,则在330按照图4所示方法把每个建模单元内部的音高进行规整,图4是依照本发明实施例对每个建模单元内部的音高进行规整的方法流程图。首先在410处计算所有韵母段的平均基频M,在420处计算所有韵母段基频的标准差,在430处把每个韵母段的基频减去平均基频M,在450处把430的输出除以R(注意450处把每个基频除以R而不是S,是因为当整句话都是第一声时,S远远小于真实调域,所以需要统计人的调域门限Θ来辅助修正这个不足),然后在460处把每个韵母段的基频规整化为N点,则每个韵母都会在470处形成一个N点基频曲线,把每个字的N点基频曲线连起来,在350处形成规整的句子音高曲线。
在240处,通过对比标准音的“规整音高曲线”和“规整时长曲线”,可以一一对应地计算出音高和时长相对于标准音的误差。
然后在250处,将音高的误差值进行排序,将时长的误差值进行排序,分别抽取10%,20%,30%,......,100%处的误差值,形成10维的音高排序误差矢量和时长排序误差矢量,以这两个排序误差矢量为特征输入到260处进行语调评估。
此方法不仅可以对整句进行语调评估,还可以对句子中指定的韵律词,韵律短语等小片段进行评估,按照260的输出结果,可以知道具体错误在哪个韵律词或者哪个韵律短语,从而完成语调错误位置的具体诊断。
此方法还可以应用在语音合成中,对合成的语调进行自动评估。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种对语调进行评估的方法,其特征在于,该方法包括:
对输入的语音进行基频提取,获得连续不断的基频曲线;
对输入的语音进行对齐分割,获得声韵母边界,并对音高和时长进行规整化处理,获得规整音高曲线和规整时长曲线;
将该规整音高曲线和规整时长曲线与标准音的规整音高曲线和规整时长曲线进行比较,计算出输入语音的音高和时长相对于标准音的误差值;
将音高和时长的误差值分别进行排序,然后对该排序进行任意N等分并抽取N个特征点,形成N维的音高排序误差矢量和时长排序误差矢量,N为自然数;以及
将音高排序误差矢量和时长排序误差矢量作为语调得分计算的一个重要特征,利用该特征对语调得分进行拟合,实现对语调等级的分类,进而实现对语调的评估;
其中,所述对输入的语音进行对齐分割,是以建模单元为单位对边界进行对齐,使待测语音与标准音的各个建模单元边界一一对齐;对汉语建模单元来说,是使声韵母边界对齐,包括声母与声母对齐、韵母与韵母对齐;所述对输入的语音进行对齐分割,获得声韵母边界,是采用动态时间规整DTW将输入语音与标注好边界的标准音进行对齐,或是采用维特比Viterbi切分分别求出输入语音和标准音的声韵母边界。
2.根据权利要求1所述的对语调进行评估的方法,其特征在于,所述对输入的语音进行基频提取,获得连续不断的基频曲线,具体包括:
对输入的语音先做初步提取,再利用频谱上的谐波亮纹,对提取过程产生的倍频和半频进行修正,对提不出基频的部分,利用嘎裂音基频提取办法对基频进行提取,再用样条函数对没有基频的位置进行插值,从而获得连续不断的基频曲线。
3.根据权利要求2所述的对语调进行评估的方法,其特征在于,所述对输入的语音做初步提取,采用Praat的自相关法、AMDF算法、YIN算法或基于统计模型的基频识别方法。
4.根据权利要求1所述的对语调进行评估的方法,其特征在于,所述对音高进行规整化处理,包括对音高均值的规整化和音高方差的规整化。
5.根据权利要求1所述的对语调进行评估的方法,其特征在于,所述对音高进行规整化处理,获得规整音高曲线,具体包括:
将音高的单位转换成半音,然后在每个韵母内部将每个建模单元内部的音高进行规整,首先计算所有韵母段的平均基频M,并计算所有韵母段基频的标准差,然后将每个韵母段的基频减去平均基频M,并将得到的差值除以R,R表示调域,然后将每个韵母段的基频规整化为N点,则每个韵母都会形成一个N点基频曲线,把每个字的N点基频曲线连起来,形成规整的音高曲线。
6.根据权利要求1所述的对语调进行评估的方法,其特征在于,所述对时长进行规整化处理,包括建模单元层次的时长规整化和句子层次的时长规整化。
7.根据权利要求6所述的对语调进行评估的方法,其特征在于,所述对建模单元层次的时长规整化,采用N等分元音建模单元处基频曲线的方法对每个元音建模单元的基频的重采样。
8.根据权利要求6所述的对语调进行评估的方法,其特征在于,所述对句子层次的时长规整化,目的是消除语速对语调评估的影响,通过定义全句的所有建模单元的平均时长为1对每个建模单元时长进行规整化,从而获得各个建模单元的相对时长。
9.根据权利要求1所述的对语调进行评估的方法,其特征在于,所述对时长进行规整化处理,获得规整时长曲线,具体包括:
将音高的单位转换成半音,然后将不同的韵母的时长除以所有韵母的平均时长,获得每个韵母的相对时长信息,利用该相对时长信息形成规整的时长曲线。
CN200810225405XA 2008-10-29 2008-10-29 一种对语调进行评估的方法 Active CN101727902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810225405XA CN101727902B (zh) 2008-10-29 2008-10-29 一种对语调进行评估的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810225405XA CN101727902B (zh) 2008-10-29 2008-10-29 一种对语调进行评估的方法

Publications (2)

Publication Number Publication Date
CN101727902A CN101727902A (zh) 2010-06-09
CN101727902B true CN101727902B (zh) 2011-08-10

Family

ID=42448693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810225405XA Active CN101727902B (zh) 2008-10-29 2008-10-29 一种对语调进行评估的方法

Country Status (1)

Country Link
CN (1) CN101727902B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419973B (zh) * 2011-11-18 2013-06-19 中国科学院自动化研究所 一种声调评测方法
CN105468860A (zh) * 2015-12-01 2016-04-06 新疆大学 一种基于Praat脚本的数字信号处理算法的实现方法
CN108922516B (zh) * 2018-06-29 2020-11-06 北京语言大学 检测调域值的方法和装置
CN109147757B (zh) * 2018-09-11 2021-07-02 广州酷狗计算机科技有限公司 歌声合成方法及装置
CN109817198B (zh) * 2019-03-06 2021-03-02 广州多益网络股份有限公司 语音合成方法、装置及存储介质
CN110085257A (zh) * 2019-03-29 2019-08-02 语文出版社有限公司 一种基于国学经典学习的韵律自动评价系统
CN111599230B (zh) * 2020-06-12 2022-01-25 西安培华学院 一种基于大数据的语言教学方法及装置
CN112309410B (zh) * 2020-10-30 2024-08-02 北京有竹居网络技术有限公司 一种歌曲修音方法、装置、电子设备及存储介质
CN115148225B (zh) * 2021-03-30 2024-09-03 北京猿力未来科技有限公司 语调评分方法、语调评分系统、计算设备及存储介质
CN115148224B (zh) * 2021-03-30 2024-08-23 北京猿力未来科技有限公司 语调评分方法、语调评分系统、计算设备及存储介质
CN113450623A (zh) * 2021-06-01 2021-09-28 浙江工贸职业技术学院 一种演唱训练系统
CN116884437B (zh) * 2023-09-07 2023-11-17 北京惠朗时代科技有限公司 基于人工智能的语音识别处理器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN1525435A (zh) * 2003-02-24 2004-09-01 国际商业机器公司 用于估计语音信号的音调频率的方法和装置
CN1645475A (zh) * 2005-01-18 2005-07-27 中国电子科技集团公司第三十研究所 客观音质评价归一化主客观统计相关模型的建立方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN1525435A (zh) * 2003-02-24 2004-09-01 国际商业机器公司 用于估计语音信号的音调频率的方法和装置
CN1645475A (zh) * 2005-01-18 2005-07-27 中国电子科技集团公司第三十研究所 客观音质评价归一化主客观统计相关模型的建立方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
.基于声韵母建模基元拼接和整词识别的非特定人孤立词语音识别系统的研究.《第七届全国人机语音通讯学术会议(NCMMSC7)论文集》.2003,
徐波.基于统计方法的汉语连续语音中声调模式的研究.《自动化学报》.2004,
曹阳
曹阳;黄泰翼;徐波.基于统计方法的汉语连续语音中声调模式的研究.《自动化学报》.2004, *
李峰
李峰;浦剑涛;李成荣;.基于声韵母建模基元拼接和整词识别的非特定人孤立词语音识别系统的研究.《第七届全国人机语音通讯学术会议(NCMMSC7)论文集》.2003, *
李成荣
浦剑涛
黄泰翼

Also Published As

Publication number Publication date
CN101727902A (zh) 2010-06-09

Similar Documents

Publication Publication Date Title
CN101727902B (zh) 一种对语调进行评估的方法
CN109255113B (zh) 智能校对系统
US9711139B2 (en) Method for building language model, speech recognition method and electronic apparatus
US9613621B2 (en) Speech recognition method and electronic apparatus
CN103928023B (zh) 一种语音评分方法及系统
CN101645271B (zh) 发音质量评估系统中的置信度快速求取方法
US20150112674A1 (en) Method for building acoustic model, speech recognition method and electronic apparatus
CN104637482B (zh) 一种语音识别方法、装置、系统以及语言交换系统
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN107564511A (zh) 电子装置、语音合成方法和计算机可读存储介质
CN110767213A (zh) 一种韵律预测方法及装置
CN103345922A (zh) 一种长篇幅语音全自动切分方法
CN102254554B (zh) 一种对普通话重音进行层次化建模和预测的方法
CN105810191B (zh) 融合韵律信息的汉语方言辨识方法
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
Malviya et al. Structural analysis of Hindi phonetics and a method for extraction of phonetically rich sentences from a very large Hindi text corpus
JPH0250198A (ja) 音声認識システム
Lee et al. Korean dialect identification based on intonation modeling
Dai [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Jyothi et al. Improved hindi broadcast ASR by adapting the language model and pronunciation model using a priori syntactic and morphophonemic knowledge.
Ijima et al. Prosody Aware Word-Level Encoder Based on BLSTM-RNNs for DNN-Based Speech Synthesis.
Alqadasi et al. Improving Automatic Forced Alignment for Phoneme Segmentation in Quranic Recitation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ANHUI USTC IFLYTEK CO., LTD.

Free format text: FORMER OWNER: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Effective date: 20120831

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100080 HAIDIAN, BEIJING TO: 230088 HEFEI, ANHUI PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20120831

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Anhui USTC iFLYTEK Co., Ltd.

Address before: 100080 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee before: Anhui USTC iFLYTEK Co., Ltd.