CN104143342A - 一种清浊音判定方法、装置和语音合成系统 - Google Patents

一种清浊音判定方法、装置和语音合成系统 Download PDF

Info

Publication number
CN104143342A
CN104143342A CN201310179862.0A CN201310179862A CN104143342A CN 104143342 A CN104143342 A CN 104143342A CN 201310179862 A CN201310179862 A CN 201310179862A CN 104143342 A CN104143342 A CN 104143342A
Authority
CN
China
Prior art keywords
pure
phoneme
sound
impure
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310179862.0A
Other languages
English (en)
Other versions
CN104143342B (zh
Inventor
唐宗尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310179862.0A priority Critical patent/CN104143342B/zh
Priority to PCT/CN2013/087821 priority patent/WO2014183411A1/en
Priority to US14/186,933 priority patent/US20140343934A1/en
Publication of CN104143342A publication Critical patent/CN104143342A/zh
Application granted granted Critical
Publication of CN104143342B publication Critical patent/CN104143342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

本发明实施方式提出了一种清浊音判定方法、装置和语音合成系统。方法包括:设置清浊音判定问题集;利用语音训练数据和清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果;接收语音测试数据,并利用训练后的清浊音判定模型判定语音测试数据为清音或浊音。本发明实施方式提高了清浊音判定成功率以及语音合成质量。

Description

一种清浊音判定方法、装置和语音合成系统
技术领域
本发明实施方式涉及语音处理技术领域,更具体地,涉及一种清浊音判定方法、装置和语音合成系统。
背景技术
在当今的信息时代中,各种信息设备应运而生:有用于话音传输的固定电话、移动电话;有用于信息资源共享、处理的服务器和个人电脑;有用于视频数据显示的各种电视机等等。这些设备都是在特定领域内为解决实际的需求而产生的。随着电子消费、计算机、通信(3C)融合的到来,人们越来越多地将注意力放到了对各个不同领域的信息设备进行综合利用的研究上,以充分利用现有资源设备来为人们更好的服务。
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以语音输出的技术。在语音合成技术中,通常会涉及到清浊音判定问题。
在现有的语音合成系统中,清浊音的判定模型采用多空间概率分布方式,而且与基频参数模型结合一起训练。由一个浊音权重值(weight)确定其是否是浊音,而且一旦该值低于0.5,被判定为清音后,该模型的浊音部分值就不会再被用到。
然而,为了训练隐马尔科夫(HMM)模型而设计的问题集合并不是专门针对清浊判定的,在预测过程中,决策树中的问题可能根本与清浊音无关,却被用于判定语音的清浊,这自然会导致清浊音判定的不准确。当清浊音判定准确度不够高发生错误后,合成语音的浊音清化以及清音浊化会严重影响合成效果。
发明内容
本发明实施方式提出一种清浊音判定方法,以提高清浊音判定成功率。
本发明实施方式还提出了一种清浊音判定装置,以提高清浊音判定成功率。
本发明实施方式还提出了一种语音合成系统,以提高合成质量。
本发明实施方式的具体方案如下:
一种清浊音判定方法,该方法包括:
设置清浊音判定问题集;
利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为所述清浊音判定问题集中的问题,叶子节点为清浊音判定结果;
接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音。
一种清浊音判定装置,该装置包括:清浊音判定问题集设置单元、模型训练单元和清浊音判定单元,其中:
清浊音判定问题集设置单元,用于设置清浊音判定问题集;
模型训练单元,用于利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果;
清浊音判定单元,用于接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音。
一种语音合成系统,包括清浊音判定装置和语音合成器,其中:
清浊音判定装置,用于设置清浊音判定问题集,利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果;接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音;并当利用训练后的所述清浊音判定模型判定语音测试数据为浊音之后,利用隐马尔科夫模型预测该语音测试数据的基频值;
语音合成器,用于基于该语音测试数据的基频值和谱参数合成语音,其中当语音测试数据被判定为浊音之后,在语音合成过程中该语音测试数据的激励信号被假设为冲击响应序列,当语音测试数据被判定为清音之后,在语音合成过程中该语音测试数据的激励信号被假设为白噪声。
从上述技术方案可以看出,在本发明实施方式中,设置清浊音判定问题集;利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为所述清浊音判定问题集中的问题,叶子节点为清浊音判定结果;接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音。由此可见,本发明实施方式采用独立的清浊音判定模型对合成语音中音素状态的清浊进行判定,从而提高了清浊音判定成功率。
另外,本发明实施方式还解决了合成语音的浊音清化以及清音浊化所导致的合成效果低下的缺陷,提高了语音合成的质量。
附图说明
图1为根据本发明实施方式清浊音判定方法流程图;
图2为根据本发明实施方式二叉判定树模型示意图;
图3为根据本发明实施方式二叉判定树模型使用示意图;
图4为根据本发明实施方式清浊音判定装置示意图;
图5为根据本发明实施方式语音合成系统结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在基于隐马尔科夫模型的可训练语音合成系统(Trainable TTS)里,语音信号被按帧(frame)转换为激励参数(Excitation parameter)和谱参数(Spectral parameter)。激励参数和谱参数分别训练为HMM模型(trainingpart)。然后,在语音合成端(synthesis part),基于HMM模型预测出的清浊判定、浊音基频和谱参数,通过合成器(vocoder)合成为语音。
在合成阶段,如果某帧被判定为浊音,则激励信号被假设为冲击响应序列;若被判定为清音,则激励信号被假设为白噪声。若清浊判定错误,则会发生浊音清化、清音浊化,严重影响到最终的合成效果。
然而,为了训练隐马尔科夫(HMM)模型而设计的问题集合并不是专门针对清浊判定的,在预测过程中,决策树中的问题可能根本与清浊音无关,却被用于判定语音的清浊,这自然会导致清浊音判定的不准确。当清浊音判定准确度不够高发生错误后,合成语音的浊音清化以及清音浊化会严重影响合成效果。
本发明实施方式提出了一种清浊音判定方法。
图1为根据本发明实施方式清浊音判定方法流程图。
如图1所示,该方法包括:
步骤101:设置清浊音判定问题集。
在这里,首先设计一个专门针对清浊判定问题的问题集合,称为清浊音判定问题集。在清浊音判定问题集中包含有大量的是否类型问题,这些问题包括并不限于询问如下信息:
(1)、语音帧所属的音素的相关语音信息:比如语音帧所属的音素是否是元音、是否是爆破音、是否是摩擦音、是否是鼻音、是否重读、是否是某个具体音素,是否是阴平、是否是阳平、是否是上声、是否是去声,等等。
(2)、语音帧所属音素在句子中的前一个音素的相关语音信息:比如语音帧所属的音素在句子中的前一个音素是否是元音、是否是爆破音、是否是摩擦音、是否是鼻音、是否重读、是否是某个具体音素,是否是阴平、是否是阳平、是否是上声、是否是去声,等等。
(3)、语音帧所属音素在句子中的后一个音素的相关语音信息:比如语音帧所属的音素在句子中的后一个音素是否是元音、是否是爆破音、是否是摩擦音、是否是鼻音、是否重读、是否是某个具体音素,是否是阴平、是否是阳平、是否是上声、是否是去声,等等。
(4)、语音帧在所属音素中位于第几个状态(通常把一个音素分为5个状态),该帧所属音素的声调和该帧所属音素是否重读等等。
在一个实施方式中:
清浊音判定问题集包含有是否判定类型的问题,而且在清浊音判定问题集中设置下列问题中的至少一个:
语音帧所属的音素是否是元音;语音帧所属的音素是否是爆破音;语音帧所属的音素是否是摩擦音;语音帧所属的音素是否重读;语音帧所属的音素是否是鼻音;语音帧所属的音素是否是阴平;语音帧所属的音素是否是阳平;语音帧所属的音素是否是上声;语音帧所属的音素是否是去声;语音帧所属的音素在语音句子中的前一个音素是否是元音;语音帧所属的音素在语音句子中的前一个音素是否是爆破音;语音帧所属的音素在语音句子中的前一个音素是否是摩擦音;语音帧所属的音素在语音句子中的前一个音素是否重读;语音帧所属的音素在语音句子中的前一个音素是否是鼻音;语音帧所属的音素在语音句子中的前一个音素是否是鼻音;语音帧所属的音素在语音句子中的前一个音素是否是阴平;语音帧所属的音素在语音句子中的前一个音素是否是阳平;语音帧所属的音素在语音句子中的前一个音素是否是上声;语音帧所属的音素在语音句子中的前一个音素是否是去声;语音帧所属的音素在语音句子中的后一个音素是否是元音;语音帧所属的音素在语音句子中的后一个音素是否是爆破音;语音帧所属的音素在语音句子中的后一个音素是否是摩擦音;语音帧所属的音素在语音句子中的后一个音素是否重读;语音帧所属的音素在语音句子中的后一个音素是否是鼻音;语音帧所属的音素在语音句子中的后一个音素是否是阴平;语音帧所属的音素在语音句子中的后一个音素是否是阳平;语音帧所属的音素在语音句子中的后一个音素是否是上声;语音帧所属的音素在语音句子中的后一个音素是否是去声。
其中,音素类似汉语的拼音或者英文的国际音标,是语音的一个片段。
步骤102:利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果。
在这里,可以针对清浊音判定问题集中的每一个问题,对于回答是和否的语音训练数据分别计算浊音比例值,并且选择浊音比例差值最大的问题作为根节点;而且在根节点下针对基于类似原则对语音训练数据进行分裂,以形成非叶子节点和叶子节点。
其中,当预先设定的分裂停止条件得到满足之后,停止分裂,其中所述分裂停止条件可以为:非叶子节点或叶子节点的语音训练数据少于预先设定的第一门限值或非叶子节点或叶子节点的浊音比例差值小于预先设定的第二门限值。
在计算机科学中,二叉树是每个结点最多有两个子树的有序树。通常子树的根被称作“左子树”(left subtree)和“右子树”(right subtree)。二叉树常被用作二叉查找树和二叉堆或是二叉排序树。二叉树的每个结点至多只有二棵子树(不存在出度大于2的结点),二叉树的子树有左右之分,次序不能颠倒。二叉树的第i层至多有2的i-1次方个结点;深度为k的二叉树至多有2^(k)-1个结点;对任何一棵二叉树T,如果其终端结点数(即叶子结点数)为n0,出度为2的结点数为n2,则n0=n2+1。在本发明实施方式中,该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果。
图2为根据本发明实施方式二叉判定树模型示意图。
本发明实施方式采用二叉判定树模型,使用的训练数据为语音帧,附带信息包括:基频信息(其中清音基频信息用0表示,而浊音基频信息用对数域的基频表示)、该帧的音素以及该帧前后的音素(triphone)、帧在音素内的状态序数(即在音素内的第几个状态)等。
训练过程中,针对设计的问题集合每一个问题,针对属于是(yes)和否(no)的训练数据,分别计算浊音帧比例值,选择使得yes和no的浊音比例值相差最大的问题为该节点的问题,然后将训练数据进行分裂。
可以预先设定停止分裂的条件(比如:节点的训练数据少于多少帧或者继续分裂的浊音比例差值少于某一个阈值),然后根据叶子节点的训练数据中浊音帧的比例确定该节点的清浊音判定(比如:大于50%判定为浊音,否则判定为清音)。
若判定为浊音,则再通过训练好的HMM模型去预测该帧的基频值。在本发明实施方式中,不需要用到多空间概率分布的方法对基频建模。
步骤103:接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音。
在这里,可以接收语音测试数据,并利用训练后的清浊音判定模型判定语音测试数据为清音或浊音。
其中,当语音测试数据被判定为浊音之后,在语音合成过程中该语音测试数据的激励信号被假设为冲击响应序列;当语音测试数据被判定为清音之后,在语音合成过程中该语音测试数据的激励信号被假设为白噪声。
图3为根据本发明实施方式二叉判定树模型使用示意图。
如图3所示,清浊音判定模型为一个二叉判定树,每个非叶子节点代表一个问题,yes走左子树,no走右子树,叶子节点代表判定结果(清音或浊音),若为浊音,取此节点的基频均值作为基频的预测值。
如图3所示,如果一帧数据进来,首先从根节点开始,询问该帧所属音素的后一个音素是否是浊音音素,如果是,则进入左子树;并再询问该帧所属音素的后一个音素是否是元音,如果否,则进入右子树,问该帧所属音素的前一个音素是否是鼻音;如果是,则进入2号叶子节点,如果2号叶子节点判定为浊音,则该帧被判定为浊音。
清浊判定完成后,可以再进行基频的预测,基频的预测值和谱参数的预测值一起计入合成器合成为语音。在语音合成阶段,如果某帧被判定为浊音,则激励信号被假设为冲击响应序列;若被判定为清音,则激励信号被假设为白噪声。
基于上述详细分析,本发明实施方式还提出了一种清浊音判定装置。
图4为根据本发明清浊音判定装置结构图。
如图4所示,该装置包括:清浊音判定问题集设置单元401、模型训练单元402和清浊音判定单元403,其中:
清浊音判定问题集设置单元401,用于设置清浊音判定问题集;
模型训练单元402,用于利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果;
清浊音判定单元403,用于接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音。
在一个实施方式中:
模型训练单元402,用于针对清浊音判定问题集中的每一个问题,对于回答是和否的语音训练数据分别计算浊音比例值,并且选择浊音比例差值最大的问题作为根节点;并在根节点下针对语音训练数据进行分裂,以形成非叶子节点和叶子节点。
在一个实施方式中:
模型训练单元402,用于当预先设定的分裂停止条件得到满足之后,停止所述分裂,其中所述分裂停止条件至少包括:非叶子节点或叶子节点的语音训练数据少于预先设定的第一门限值;或非叶子节点或叶子节点的浊音比例差值小于预先设定的第二门限值。
在一个实施方式中:
模型训练单元402,进一步用于获取语音训练数据的基频信息、语音训练数据的音素以及前后音素、语音训练数据在音素内的状态序数,并将语音训练数据的基频信息、语音训练数据的音素以及前后音素、语音训练数据在音素内的状态序数作为训练过程中的附带信息。
基于上述详细分析,本发明实施方式还提出了一种语音合成系统。
图5是根据本发明实施方式语音合成系统结构图。
如图5所示,该系统包括清浊音判定装置501和语音合成器502,其中:
清浊音判定装置501,用于设置清浊音判定问题集,利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果;接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音;并当利用训练后的所述清浊音判定模型判定语音测试数据为浊音之后,利用隐马尔科夫模型预测该语音测试数据的基频值;
语音合成器502,用于基于该语音测试数据的基频值和谱参数合成语音,其中当语音测试数据被判定为浊音之后,在语音合成过程中该语音测试数据的激励信号被假设为冲击响应序列,当语音测试数据被判定为清音之后,在语音合成过程中该语音测试数据的激励信号被假设为白噪声。
在一个实施方式中:
清浊音判定装置501,用于针对清浊音判定问题集中的每一个问题,对于回答是和否的语音训练数据分别计算浊音比例值,并且选择浊音比例差值最大的问题作为根节点;并在根节点下针对语音训练数据进行分裂,以形成非叶子节点和叶子节点。
在一个实施方式中:
清浊音判定装置501,用于当预先设定的分裂停止条件得到满足之后,停止所述分裂,其中所述分裂停止条件至少包括:非叶子节点或叶子节点的语音训练数据少于预先设定的第一门限值;或非叶子节点或叶子节点的浊音比例差值小于预先设定的第二门限值。
用户可以在各种终端上执行清浊音判定处理,这些终端可以包括但是不局限于:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等。
以上虽然详细罗列了终端的具体实例,本领域人员可以意识到,这些罗列仅是阐述目的,并不用于限定本发明实施方式的保护范围。浏览器具体可以包括微软的Internet Explorer、Mozilla的Firefox、Apple的Safari,Opera、GoogleChrome、GreenBrowser等浏览器。
以上虽然详细列出了一些常用浏览器,本领域技术人员可以意识到,本发明实施方式并不局限于这些浏览器,而是可以适用于任意可用于显示网页服务器或档案系统内的文件、并让用户与文件互动的应用(App),这些应用可以是目前常见的各种浏览器,也可以是其他的任意具有网页浏览功能的应用程序。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的清浊音判定方法、装置和语音合成系统。
比如,可以遵循一定规范的应用程序接口,将清浊音判定方法编写为安装到个人电脑、移动终端等中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的清浊音判定方法方法。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的清浊音判定方法方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的清浊音判定方法方法应用到基于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,设置清浊音判定问题集;利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为所述清浊音判定问题集中的问题,叶子节点为清浊音判定结果;接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音。由此可见,本发明实施方式采用独立的清浊音判定模型对合成语音中音素状态的清浊进行判定,从而提高了清浊音判定成功率。
另外,本发明实施方式还解决了合成语音的浊音清化以及清音浊化所导致的合成效果低下的缺陷,提高了语音合成的质量。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种清浊音判定方法,其特征在于,该方法包括:
设置清浊音判定问题集;
利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为所述清浊音判定问题集中的问题,叶子节点为清浊音判定结果;
接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音。
2.根据权利要求1所述的清浊音判定方法,其特征在于,该方法进一步包括:
当语音测试数据被判定为浊音之后,在语音合成过程中该语音测试数据的激励信号被假设为冲击响应序列;当语音测试数据被判定为清音之后,在语音合成过程中该语音测试数据的激励信号被假设为白噪声。
3.根据权利要求1所述的清浊音判定方法,其特征在于,所述利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练包括:
针对清浊音判定问题集中的每一个问题,对于回答是和否的语音训练数据分别计算浊音比例值,并且选择浊音比例差值最大的问题作为根节点;
在根节点下针对语音训练数据进行分裂,以形成非叶子节点和叶子节点。
4.根据权利要求3所述的清浊音判定方法,其特征在于,该方法进一步包括:当预先设定的分裂停止条件得到满足之后,停止所述分裂,其中所述分裂停止条件为:非叶子节点或叶子节点的语音训练数据少于预先设定的第一门限值。
5.根据权利要求3所述的清浊音判定方法,其特征在于,该方法进一步包括:
当预先设定的分裂停止条件得到满足之后,停止所述分裂,其中所述分裂停止条件为:非叶子节点或叶子节点的浊音比例差值小于预先设定的第二门限值。
6.根据权利要求1所述的清浊音判定方法,其特征在于,该方法进一步包括:
当利用训练后的所述清浊音判定模型判定语音测试数据为浊音之后,利用隐马尔科夫模型预测该语音测试数据的基频值。
7.根据权利要求1所述的清浊音判定方法,其特征在于,进一步获取语音训练数据的基频信息、语音训练数据的音素以及前后音素、语音训练数据在音素内的状态序数;
所述利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,包括:
将语音训练数据的基频信息、语音训练数据的音素以及前后音素、语音训练数据在音素内的状态序数作为训练过程中的附带信息。
8.根据权利要求1所述的清浊音判定方法,其特征在于,所述设置清浊音判定问题集包括:设置是否判定类型的清浊音判定问题集,而且在清浊音判定问题集中设置下列问题中的至少一个:
语音帧所属的音素是否是元音;
语音帧所属的音素是否是爆破音;
语音帧所属的音素是否是摩擦音;
语音帧所属的音素是否重读;
语音帧所属的音素是否是鼻音;
语音帧所属的音素是否是阴平;
语音帧所属的音素是否是阳平;
语音帧所属的音素是否是上声;
语音帧所属的音素是否是去声;
语音帧所属的音素在语音句子中的前一个音素是否是元音;
语音帧所属的音素在语音句子中的前一个音素是否是爆破音;
语音帧所属的音素在语音句子中的前一个音素是否是摩擦音;
语音帧所属的音素在语音句子中的前一个音素是否重读;
语音帧所属的音素在语音句子中的前一个音素是否是鼻音;
语音帧所属的音素在语音句子中的前一个音素是否是鼻音;
语音帧所属的音素在语音句子中的前一个音素是否是阴平;
语音帧所属的音素在语音句子中的前一个音素是否是阳平;
语音帧所属的音素在语音句子中的前一个音素是否是上声;
语音帧所属的音素在语音句子中的前一个音素是否是去声;
语音帧所属的音素在语音句子中的后一个音素是否是元音;
语音帧所属的音素在语音句子中的后一个音素是否是爆破音;
语音帧所属的音素在语音句子中的后一个音素是否是摩擦音;
语音帧所属的音素在语音句子中的后一个音素是否重读;
语音帧所属的音素在语音句子中的后一个音素是否是鼻音;
语音帧所属的音素在语音句子中的后一个音素是否是阴平;
语音帧所属的音素在语音句子中的后一个音素是否是阳平;
语音帧所属的音素在语音句子中的后一个音素是否是上声;
语音帧所属的音素在语音句子中的后一个音素是否是去声。
9.一种清浊音判定装置,其特征在于,该装置包括:清浊音判定问题集设置单元、模型训练单元和清浊音判定单元,其中:
清浊音判定问题集设置单元,用于设置清浊音判定问题集;
模型训练单元,用于利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果;
清浊音判定单元,用于接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音。
10.根据权利要求9所述的清浊音判定装置,其特征在于,
模型训练单元,用于针对清浊音判定问题集中的每一个问题,对于回答是和否的语音训练数据分别计算浊音比例值,并且选择浊音比例差值最大的问题作为根节点;并在根节点下针对语音训练数据进行分裂,以形成非叶子节点和叶子节点。
11.根据权利要求10所述的清浊音判定装置,其特征在于,
模型训练单元,用于当预先设定的分裂停止条件得到满足之后,停止所述分裂,其中所述分裂停止条件至少包括:非叶子节点或叶子节点的语音训练数据少于预先设定的第一门限值;或非叶子节点或叶子节点的浊音比例差值小于预先设定的第二门限值。
12.根据权利要求10所述的清浊音判定装置,其特征在于,
模型训练单元,进一步用于获取语音训练数据的基频信息、语音训练数据的音素以及前后音素、语音训练数据在音素内的状态序数,并将语音训练数据的基频信息、语音训练数据的音素以及前后音素、语音训练数据在音素内的状态序数作为训练过程中的附带信息。
13.一种语音合成系统,其特征在于,包括清浊音判定装置和语音合成器,其中:
清浊音判定装置,用于设置清浊音判定问题集,利用语音训练数据和所述清浊音判定问题集,对二叉判定树结构的清浊音判定模型进行训练,其中该二叉判定树结构中的非叶子节点为清浊音判定问题集中的问题,叶子节点为清浊音判定结果;接收语音测试数据,并利用训练后的所述清浊音判定模型判定语音测试数据为清音或浊音;并当利用训练后的所述清浊音判定模型判定语音测试数据为浊音之后,利用隐马尔科夫模型预测该语音测试数据的基频值;
语音合成器,用于基于该语音测试数据的基频值和谱参数合成语音,其中当语音测试数据被判定为浊音之后,在语音合成过程中该语音测试数据的激励信号被假设为冲击响应序列,当语音测试数据被判定为清音之后,在语音合成过程中该语音测试数据的激励信号被假设为白噪声。
14.根据权利要求13所述的语音合成系统,其特征在于,
清浊音判定装置,用于针对清浊音判定问题集中的每一个问题,对于回答是和否的语音训练数据分别计算浊音比例值,并且选择浊音比例差值最大的问题作为根节点;并在根节点下针对语音训练数据进行分裂,以形成非叶子节点和叶子节点。
15.根据权利要求13所述的语音合成系统,其特征在于,
清浊音判定装置,用于当预先设定的分裂停止条件得到满足之后,停止所述分裂,其中所述分裂停止条件至少包括:非叶子节点或叶子节点的语音训练数据少于预先设定的第一门限值;或非叶子节点或叶子节点的浊音比例差值小于预先设定的第二门限值。
CN201310179862.0A 2013-05-15 2013-05-15 一种清浊音判定方法、装置和语音合成系统 Active CN104143342B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310179862.0A CN104143342B (zh) 2013-05-15 2013-05-15 一种清浊音判定方法、装置和语音合成系统
PCT/CN2013/087821 WO2014183411A1 (en) 2013-05-15 2013-11-26 Method, apparatus and speech synthesis system for classifying unvoiced and voiced sound
US14/186,933 US20140343934A1 (en) 2013-05-15 2014-02-21 Method, Apparatus, and Speech Synthesis System for Classifying Unvoiced and Voiced Sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310179862.0A CN104143342B (zh) 2013-05-15 2013-05-15 一种清浊音判定方法、装置和语音合成系统

Publications (2)

Publication Number Publication Date
CN104143342A true CN104143342A (zh) 2014-11-12
CN104143342B CN104143342B (zh) 2016-08-17

Family

ID=51852500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310179862.0A Active CN104143342B (zh) 2013-05-15 2013-05-15 一种清浊音判定方法、装置和语音合成系统

Country Status (2)

Country Link
CN (1) CN104143342B (zh)
WO (1) WO2014183411A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328167A (zh) * 2016-08-16 2017-01-11 成都市和平科技有限责任公司 一种智能语音识别机器人及控制系统
CN107017007A (zh) * 2017-05-12 2017-08-04 国网山东省电力公司经济技术研究院 一种基于语音传输的变电站现场作业远程指挥方法
CN107256711A (zh) * 2017-05-12 2017-10-17 国网山东省电力公司经济技术研究院 一种配电网应急维修远程指挥系统
CN109545195A (zh) * 2018-12-29 2019-03-29 深圳市科迈爱康科技有限公司 陪伴机器人及其控制方法
CN109545196A (zh) * 2018-12-29 2019-03-29 深圳市科迈爱康科技有限公司 语音识别方法、装置及计算机可读存储介质
CN110070863A (zh) * 2019-03-11 2019-07-30 华为技术有限公司 一种语音控制方法及装置
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998027543A2 (en) * 1996-12-18 1998-06-25 Interval Research Corporation Multi-feature speech/music discrimination system
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US20020010575A1 (en) * 2000-04-08 2002-01-24 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
US20050075887A1 (en) * 2003-10-07 2005-04-07 Bernard Alexis P. Automatic language independent triphone training using a phonetic table
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN101656070A (zh) * 2008-08-22 2010-02-24 展讯通信(上海)有限公司 一种语音检测方法
CN102655000A (zh) * 2011-03-04 2012-09-05 华为技术有限公司 一种清浊音分类方法和装置
CN102831891A (zh) * 2011-06-13 2012-12-19 富士通株式会社 一种语音数据处理方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998027543A2 (en) * 1996-12-18 1998-06-25 Interval Research Corporation Multi-feature speech/music discrimination system
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US20020010575A1 (en) * 2000-04-08 2002-01-24 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
US20050075887A1 (en) * 2003-10-07 2005-04-07 Bernard Alexis P. Automatic language independent triphone training using a phonetic table
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN101656070A (zh) * 2008-08-22 2010-02-24 展讯通信(上海)有限公司 一种语音检测方法
CN102655000A (zh) * 2011-03-04 2012-09-05 华为技术有限公司 一种清浊音分类方法和装置
CN102831891A (zh) * 2011-06-13 2012-12-19 富士通株式会社 一种语音数据处理方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328167A (zh) * 2016-08-16 2017-01-11 成都市和平科技有限责任公司 一种智能语音识别机器人及控制系统
CN107017007A (zh) * 2017-05-12 2017-08-04 国网山东省电力公司经济技术研究院 一种基于语音传输的变电站现场作业远程指挥方法
CN107256711A (zh) * 2017-05-12 2017-10-17 国网山东省电力公司经济技术研究院 一种配电网应急维修远程指挥系统
CN109545195A (zh) * 2018-12-29 2019-03-29 深圳市科迈爱康科技有限公司 陪伴机器人及其控制方法
CN109545196A (zh) * 2018-12-29 2019-03-29 深圳市科迈爱康科技有限公司 语音识别方法、装置及计算机可读存储介质
CN109545195B (zh) * 2018-12-29 2023-02-21 深圳市科迈爱康科技有限公司 陪伴机器人及其控制方法
CN110070863A (zh) * 2019-03-11 2019-07-30 华为技术有限公司 一种语音控制方法及装置
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2014183411A1 (en) 2014-11-20
CN104143342B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN104143342A (zh) 一种清浊音判定方法、装置和语音合成系统
CN104538024B (zh) 语音合成方法、装置及设备
JP4769223B2 (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
CN105185373B (zh) 韵律层级预测模型的生成及韵律层级预测方法和装置
CN108597492A (zh) 语音合成方法和装置
US8447603B2 (en) Rating speech naturalness of speech utterances based on a plurality of human testers
CN103400577A (zh) 多语种语音识别的声学模型建立方法和装置
CN107195295A (zh) 基于中英文混合词典的语音识别方法及装置
CN106875936B (zh) 语音识别方法及装置
CN103680493A (zh) 区分地域性口音的语音数据识别方法和装置
CN102982811A (zh) 一种基于实时解码的语音端点检测方法
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN102270449A (zh) 参数语音合成方法和系统
CN105609097A (zh) 语音合成装置及其控制方法
CN105654940B (zh) 一种语音合成方法和装置
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN112397056B (zh) 语音评测方法及计算机存储介质
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置
CN111710337A (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
CN109326278B (zh) 一种声学模型构建方法及装置、电子设备
CN109859747A (zh) 语音交互方法、设备以及存储介质
CN113380222A (zh) 语音合成方法、装置、电子设备及存储介质
CN111599339A (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200825

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right