CN101114446A - 一种嵌入式平台语音合成系统及其方法 - Google Patents

一种嵌入式平台语音合成系统及其方法 Download PDF

Info

Publication number
CN101114446A
CN101114446A CNA200710098522XA CN200710098522A CN101114446A CN 101114446 A CN101114446 A CN 101114446A CN A200710098522X A CNA200710098522X A CN A200710098522XA CN 200710098522 A CN200710098522 A CN 200710098522A CN 101114446 A CN101114446 A CN 101114446A
Authority
CN
China
Prior art keywords
buffer unit
speech
frame
voice
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200710098522XA
Other languages
English (en)
Other versions
CN101114446B (zh
Inventor
徐磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vimicro Corp
Original Assignee
Vimicro Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vimicro Corp filed Critical Vimicro Corp
Priority to CN200710098522XA priority Critical patent/CN101114446B/zh
Publication of CN101114446A publication Critical patent/CN101114446A/zh
Application granted granted Critical
Publication of CN101114446B publication Critical patent/CN101114446B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明的一种嵌入式平台语音合成系统及其方法,用于在嵌入式平台上进行文语转换,其包括:语音库,用于存储语音数据;算法库,调用与所输入的文本数据相对应的语音数据,并将所述语音数据合成为语音后输出,用于存储所述已合成语音的第一缓存单元和第二缓存单元;以及控制装置,用于控制所述第一缓存单元和所述第二缓存单元中已合成语音的读写。本发明通过设置片内缓冲单元,可以很好地解决在嵌入式平台上合成语音不连续的问题,较好的实现语音的实时播放效果,并且,本发明对于TTS系统的嵌入式环境移植具有良好的通用性。

Description

一种嵌入式平台语音合成系统及其方法
技术领域
本发明涉及语音合成领域,尤其是涉及语音合成领域中的一种嵌入式平台语音合成系统及其方法,其有利于消除语音合成系统移植到嵌入式平台上出现的不连续现象。
背景技术
语音合成系统是一种文语转化(Text To Speech,TTS)系统,是自动将输入文字转换成语音输出,并尽量使输出的语音流畅、自然的一种技术。近年来汉语语音合成技术取得了突飞猛进的发展,合成语音的可懂度和自然度都有了较大提高,基于TTS技术的语音对话系统、语音呼叫中心、语音触发的网站和电子邮件等业务已进入市场使用阶段。这些已经较为成熟的运用于商业的语音合成系统,都采用了波形拼接的技术,因此,它们有一些共同的特点。
图1为现有技术中的语音合成系统的结构图,如图1所示,现有的语音合成系统大致由两部分组成:算法库和语音库。算法库用于将文字转换成为语音库中目标语音的地址,并从语音库中读取目标语音,然后再对目标语音进行解码、拼接、平滑等操作后得到合成的语音,最后按“帧”输出所合成的语音;语音库用于存储目标语音的地址以及目标语音。所输入文本的国标码(GB码)由串口送入,通过调用算法库中的函数,将GB码映射为语音库地址表中对应项的目标语音的地址,然后根据此地址取得对应项中的命令字,由算法库根据该命令字,在语音库语音数据区读取所对应的语音数据,然后由算法库提供数据解码、连接和平滑等操作后,将语音输出,然后按照语音采样时的固定速率通过D/A转换和功率放大播放。
而如何在手持移动终端、车载多媒体设备等嵌入式平台上实现文语转化,成为TTS系统一个重要的发展方向。目前,语音合成系统一般采用波形拼接的合成模式。相较参数合成和声道模型参数合成,这种模式在合成清晰度和自然度方面有明显改善,音质也有很大提高,但这是以大规模的语料库和复杂的搜索算法为代价的。
在嵌入式环境下实现TTS系统,有限的资源成为制约语音合成质量的决定性因素。为了满足实时合成出可懂的较自然的语音,各TTS系统均对大规模语料库进行了裁减,以降低对存储资源和搜索算法复杂度的要求。这在很大程度上缓解了两者之间的矛盾,但是对很多嵌入式系统来说,实现实时的语音合成功能仍然存在较大困难,合成语音经常会出现不连续、有噪音漏字等现象。这就需要我们在实现过程中进行有效的设计,以规避和隐藏这些影响合成质量的现象。
对于语音合成系统,通过优化,其算法库的算法复杂度可远低于嵌入式平台的处理能力,这为在嵌入式平台下实现语音合成系统提供了保证。但是巨大的语音库和有限的嵌入式平台片内存储资源形成了冲突。为了解决这一矛盾,各语音合成系统都在尽量保证语音质量的前提下,对语音库进行了裁减。这大大降低了语音库的体积,但是,相对于片内存储器而言,语音库仍远大于了它们的容量。所以在实现TTS系统的过程中,我们不得不将语音库置于片外闪存(FLASH)中,需要对其进行操作时,嵌入式平台的语音合成系统访问片外的FLASH获取数据。为了提高对FLASH的访问速度,设置了高速缓充存储器(cache),处理器优先从cache中寻找目标数据。由于对FLASH上的语音库操作的不连续性及随机性,会导致高速缓冲存储器失误(cache miss),即cache中不存在需要的数据。这样,就必须先从FLASH中将数据导入cache,然后再供嵌入式平台访问。因此,频繁的访问FLASH容易造成某些语音帧的合成时间特别的长。表1为语音合成系统在嵌入式平台下的合成时间测试结果(该测试仅针对合成效率而做,即合成出的语音数据不作记录)。
表1:嵌入式平台下语音合成系统测试结果
测试序列 Length T_Frame T_ave T_max
TEST-1 3.29s 64ms 18.8ms 161ms
TEST-2 29.93s 64ms 19.5ms 479ms
TEST-3 31.80s 64ms 19.1ms 439ms
TEST-4 33.77s 64ms 20.1ms 505ms
TEST-5 177.5s 64ms 9.1ms 810ms
TEST-6 391.0s 64ms 5.5ms 738ms
表1中的Length表示合成目标语音的总长度;T_Frame表示一帧语音的时间长度,即帧时长;T_ave表示合成一帧语音所需的平均时间;T_max表示合成一帧语音所需的最大时间。很明显,从表1中数据可以看出:T_max远大于T_ave,而且,随着合成文件的增大,最大合成时间迅速增大。
很明显,由于单帧的合成时间应小于帧时长T_Frame,才能达到实时合成语音的目标。因此,从测试数据可以看出,单帧的平均合成时间T_ave明显小于帧时长T_Frame,但是单帧的最大合成时间T_max却远大于帧时长T_Frame。这样,在合成语音实时播放的过程中,就会出现不连续的“断点”。断点的频繁出现,必将会影响听者对语音内容的理解。因此,如何避免这些断点的出现,成为在嵌入式平台下实现TTS系统的关键。
发明内容
本发明要解决的技术问题是消除语音合成系统移植到嵌入式平台上出现的不连续现象,提出了一种嵌入式平台语音合成系统及其方法。
为达到上述目的,本发明所提供的一种嵌入式平台语音合成系统,用于在嵌入式平台上进行文语转换,包括:语音库,用于存储语音数据;算法库,调用与所输入的文本数据相对应的语音数据,并将所述语音数据合成为语音后输出,其特点在于,所述系统还包括:用于存储所述已合成语音的第一缓存单元和第二缓存单元;以及控制装置,用于控制所述第一缓存单元和所述第二缓存单元中已合成语音的读写。
上述的系统,其特点在于,所述控制装置交替读写所述第一缓存单元和所述第二缓存单元。
上述的系统,其特点在于,所述第一缓存单元和第二缓存单元的每一个的容量均包含多个帧,帧的数值满足关系式:
T_frame*N=T_max+T_ave*(N-1);
其中,T_frame表示一帧语音的时间长度,T_max表示单帧语音合成最大时间,T_ave表示每帧语音的平均合成时间,N表示帧数。
上述的系统,其特点在于,每帧语音的平均合成时间T_ave小于一帧语音的时间长度T_frame,且单帧语音合成最大时间T_max大于一帧语音的时间长度T_frame。
上述的系统,其特点在于,所述第一缓存单元和第二缓存单元的容量相等。
为实现上述目的,本发明还提供了一种嵌入式平台语音合成方法,用于在嵌入式平台上进行文语转换,包括步骤:
设置一个语音库,用于存储语音数据;
设置一个算法库,通过调用与所输入的文本数据相对应的语音数据,将所述语音数据合成为语音后输出;
设置第一缓存单元和第二缓存单元,用于存储所述已合成语音;以及
设置一个控制装置,用于控制所述第一缓存单元和所述第二缓存单元中已合成语音的读写。
上述的方法,其特点在于,该设置一个控制装置以控制合成语音的读写步骤还包括:
将该合成语音顺序地写入到第一缓存单元;
读取第一缓存单元中的已合成语音;
将该合成语音再顺序地写入到第二缓存单元中;
读取该第二缓存单元中的已合成语音。
上述的方法,其特点在于,如果判断该第一缓存单元被写满后,读取第一缓存单元中的已合成语音的步骤和将该合成语音再顺序地写入到第二缓存单元中的步骤是同时进行的。
上述的方法,其特点在于,读取该第二缓存单元中的已合成语音的步骤是在判断该第一缓存单元中的合成语音被全部读取和判断该第二缓存单元被写满后执行的。
上述的方法,其特点在于,如果判断该第一缓存单元的合成语音已被全部读取时该第二缓存单元未被写满,该方法包括在输出第一缓存单元的合成语音时,在句与句之间中断播放。
上述的方法,其特点在于,还包括
从该第一缓存单元读取一帧已合成语音;
判断其信号幅值;
如果该信号幅值为零,并且该第二缓存单元未写满时,进行中断播放直到该第二缓存单元被写满;
如果该幅值不等于零,继续读取下一帧合成语音。
上述的方法,其特点在于,所述第一缓存单元和第二缓存单元的每一个的容量均包括多个帧,该帧数值满足关系式:
T_frame*N=T_max+T_ave*(N-1);
其中,T_frame表示一帧语音的时间长度,T_max表示单帧语音合成最大时间,T_ave表示每帧语音的平均合成时间,N表示帧数。
上述的方法,其特点在于,所述第一缓存单元和第二缓存单元的容量相等。
本发明通过设置片内缓冲单元,可以很好地解决在嵌入式平台上合成语音不连续的问题,较好的实现语音的实时播放效果。并且,这种方法具有良好的通用性,对于TTS系统的嵌入式环境移植具有普遍的借鉴意义。而主动选择断点法则是在条件不允许的情况下,强行实现语音合成系统,并最大限度的达到可理解语音的方法。
附图说明
图1为现有技术中的语音合成系统的结构图;
图2为本发明中的嵌入式平台语音合成系统的结构图;
图3为本发明中的嵌入式平台语音合成方法的流程图;
图4为本发明中的第一和第二缓存单元中已合成语音的读写示意图;
图5为本发明中第一和第二缓存单元交替读写的流程示意图;
图6为本发明中的嵌入式平台语音合成方法的断点控制流程图。
具体实施方式
下面结合附图,详细说明本发明的具体实施方式。
为了得到流利的合成语音,单帧的合成时间应小于帧时长。这是对目标嵌入式平台的基本要求。但由于单帧合成时间的巨大波动,对于满足基本要求的嵌入式平台仍然会有不连续现象。针对这种现象,我们采用了设置缓存单元的方法。这样能对时间波动起到平滑作用。
如图2所示,本发明中的用于在嵌入式平台上进行文语转换的嵌入式平台语音合成系统1除包括用于存储语音数据的语音库2和用于调用与所输入的文本数据相对应的语音数据,并将所述语音数据合成为语音后输出的算法库3外,还包括用于存储已合成语音的第一缓存单元4和第二缓存单元5,以及控制装置6,其用于控制第一缓存单元4和第二缓存单元5中已合成语音的读写。
同时参阅图2和3,来描述本发明的嵌入式平台语音合成方法。首先,在步骤S11,向嵌入式平台语音合成系统1输入文本,具体地,该文本输入到嵌入式平台语音合成系统1中的算法库3。然后,在步骤S12,针对该输入的文本进行合成语音的处理,即,算法库3将所输入的文本转换成为语音库2中目标语音数据的地址,并从语音库2中读取目标语音数据,然后再对目标语音数据进行解码、拼接、平滑等操作后得到已合成语音。这样,本发明在步骤S13可以针对该已合成的语音进行读写处理,特别的是,本发明利用控制装置6将该已合成的语音顺序地写入到第一缓存单元4和第二缓存单元5中,然后,控制装置6再顺序地读取存储在第一缓存单元4和第二缓存单元5中的已合成语音。最后,在步骤S14,输出已合成语音,即形成了连续的语音输出。
接下来对控制装置6控制第一缓存单元4和第二缓存单元5中已合成语音的读写过程进行详细说明。
如图4、5所示,首先,在步骤S21,算法库3向控制装置6输出已合成语音,然后,在步骤S22,该控制装置6将合成语音顺序写入第一缓存单元4中,并在接下来的步骤S23,进一步地判断该第一缓存单元是否被写满?如果判断该第一缓存单元已被写满,一方面,控制装置6开始顺序地读取第一缓存单元4中的已合成语音,即步骤S24;另一方面,控制装置6在读取第一缓存单元4中的已合成语音的同时,将算法库3输出的已合成语音又顺序地写入到第二缓存单元5,即步骤S26中。接下来,控制装置需要分别在步骤S26判断该第一缓存单元是否被全部读取,以及在步骤S27判断该第二缓存单元是否已被写满。当第一缓存单元4中所写入的已合成语音被全部读取后,并且,第二缓存单元5中已被写满合成语音,则在步骤S28,控制装置6开始读取该第二缓存单元5中的已合成语音。最后,控制装置6需要进一步判断是否还有合成语音输出,即步骤S29,控制装置6在读取第二缓存单元5中的已合成语音的同时,将算法库3输出的已合成语音再次顺序地写入到第一缓存单元4中,即返回到步骤S22。如此,控制装置6重复进行上述对第一缓存单元4和第二缓存单元5的交替读写操作以实现已合成语音的连续输出。
对应嵌入式平台,其基本的要求是写入的速度是大于读的速度,所以只要第一缓存单元4和第二缓存单元5的容量合理,就能满足已合成语音写入的时间小于其读取的时间。这样,在写完第二缓存单元5后,只需等待第一缓存单元4中的已合成语音被读取完毕,再开始向第一缓存单元4中写入已合成语音,并且同时读取第二缓存单元5中的已合成语音即可。
如上所述,需要合理的设置第一缓存单元4和第二缓存单元5的容量,优选的,可以在嵌入式平台语音合成系统1中设置了两个等大的缓存单元,即第一缓存单元4和第二缓存单元5的容量相等。本发明的第一缓存单元4和第二缓存单元5的容量Buffer_size是按照下列关系式计算的:
Buffer_size=N*L_frame        (1)
其中,参数L_frame表示帧长,是一个固定值,表示一帧中包含的语音点的个数,而参数N表示至少应存储在缓存单元中的已合成语音的帧数。
特别的是,在本发明的语音合成系统中,参数N满足下列关系式:
T_frame*N=T_max+T_ave*(N-1)  (2)
其中,参数T_frame表示一帧语音的时间长度,即帧时长;T_max和T_ave分别表示单帧语音合成最大时间和每帧语音的平均合成时间,是可以通过大量的合成试验测试得到的。
更进一步地,参数T_frame满足下列关系式:
L_frame=T_frame*f            (3)
其中,f为语音信号的采用频率,它是由语音库中合成基元的采样频率所决定的。
通常,根据标准,合成语音的帧长L_frame为512个样本点(即1024个Byte的语音数据),是固定的,f采样频率为8000Hz,那么根据关系式(3)可以计算得到:
T _ frame = L _ frame f = 512 8000 = 64 ms .
本发明还可以通过多组测试进一步确定参数T_max和T_ave。本发明根据所有测试得到的Ti_max的最大值为最后用于计算的T_max;根据每组测试得到的Ti_ave的平均值为最后用于计算的T_ave,即
T _ ave = Σ i = 1 n Ti _ ave n - - - ( 4 )
根据本发明的第一较佳实施例,在嵌入式平台系统中输入文本:
“风平浪静的高井朝着木樨园跋涉。”
对该实施例的测试得知其合成语音的时长Length为3.29s,合成语音为8K采样频率的单声道语音,合成算法总的耗时为978ms,总共合成了52帧语音,每帧信号的时常为64ms,因此每帧语音的平均合成时间T_ave为18.8ms。合成一帧语音的最大耗时T_max为161ms。
根据本发明的第二较佳实施例,在嵌入式平台系统中输入文本:
“从今天开始,北京地铁将延长运营时间,其中2号线地铁运营延长时间多达82分钟。具体运营时间为:1号线:苹果园站首班车5:10,末班车23:30;四惠东站首班车5:05,末班车23:50。2号线:积水潭站首班车5:10,末班车次日0:18。”
对该实施例的测试得知其合成语音的长度Length为29.93s,合成该段语音总的算法执行时间为9.12s,总共合成了468帧,因此平均每帧的合成时间T_ave为19.5ms。合成一帧语音的最大耗时T_max为479ms。
根据本发明的第三较佳实施例,在嵌入式平台系统中输入文本:
“本主题可以为您提供参赛者、参赛队、体育场馆以及赛程安排的详细信息。您可以通过输入运动员或运动队的名称来获得他们的信息,如:给我介绍一下美国篮球队;也可以通过输入场馆名称来获取场馆介绍信息;如:给我介绍一下工人体育馆;还可以通过输入项目、时间或参赛者来获得详细的赛程安排。”
对该实施例的测试得知其合成语音的长度Length为31.80s,合成该段语音总的算法执行时间为9.52s,总共合成了498帧,因此平均每帧的合成时间T_ave为19.1ms。合成一帧语音的最大耗时T_max为439ms。
根据本发明的第四较佳实施例,在嵌入式平台系统中输入文本:
“事实证明,还真不能神化.COM。新浪、搜狐接近垃圾股边缘,国内靠.COM拉升的股票也不再风光。互联网是什么?是工具,甚至是最先进的工具。但你要用好它才能见效益,并不是说你拿在手里就能像聚宝盆一样,要什么有什么,天底下任何时候都不会有这样的好事。”
对该实施例的测试得知其合成语音的长度Length为33.77s,合成该段语音总的算法执行时间为10.62s,总共合成了528帧,因此平均每帧的合成时间T_ave为20.1ms。合成一帧语音的最大耗时T_max为505ms。
根据本发明的第五较佳实施例,在嵌入式平台系统中输入文本:
“江泽民同志是党的第三代中央领导集体的核心,是“三个代表”重要思想的主要创立者。党的十六大提出,“三个代表”重要思想是对马克思列宁主义、毛泽东思想和邓小平理论的继承和发展,反映了当代世界和中国的发展变化对党和国家工作的新要求,是加强和改进党的建设、推进我国社会主义自我完善和发展的强大理论武器,是全党集体智慧的结晶,是党必须长期坚持的指导思想。
党的十六大后,党中央部署在全党兴起学习贯彻“三个代表”重要思想新高潮,开展以实践“三个代表”重要思想为主要内容的保持共产党员先进性教育活动,把学习贯彻“三个代表”重要思想不断引向深入。2003年11月,党中央作出编辑出版《江泽民文选》的重大决定。《江泽民文选》的出版发行,是党和国家政治生活中的一件大事,也是马克思主义中国化发展进程中的一件大事,具有重大的现实意义和深远的历史意义。
《江泽民文选》收入了江泽民同志在1980年8月至2004年9月这段时间内具有代表性和独创性的重要著作,共有报告、讲话、谈话、文章、信件、批示、命令、题词等203篇,很大一部分是第一次公开发表。《江泽民文选》生动记录了以江泽民同志为核心的党的第三代中央领导集体带领全党全国各族人民把中国特色社会主义事业推向前进的历史进程,科学总结了我们党领导人民战胜各种艰难险阻、全面开创中国特色社会主义事业新局面的宝贵经验,集中反映了我们党坚持以马克思列宁主义、毛泽东思想、邓小平理论为指导,坚持马克思主义基本原理同当代中国实践和时代特征相结合创造性地提出的新的重大理论成果,深刻反映了“三个代表”重要思想孕育、形成、发展的历史过程和重大成果。”
对该实施例的测试得知其合成语音的长度Length为137.50s,合成该段语音总的算法执行时间为19.56s,总共合成了2150帧,因此平均每帧的合成时间T_ave为9.1ms。合成一帧语音的最大耗时T_max为810ms。
根据本发明的第六较佳实施例,在嵌入式平台系统中输入文本:
“《江泽民文选》第一卷以1980年8月21日江泽民同志在五届全国人大常委会第十五次会议上所作的关于在广东、福建两省设置经济特区和广东省经济特区条例的说明《设置经济特区,加快经济发展》为开卷篇,以1997年8月5日江泽民同志的批示《再造一个山川秀美的西北地区》为结束篇,收入江泽民同志的著作81篇。
《江泽民文选》第二卷以1997年9月12日江泽民同志在中国共产党第十五次全国代表大会上所作的报告《高举邓小平理论伟大旗帜,把建设有中国特色社会主义事业全面推向二十一世纪》为开卷篇,以2000年2月1日江泽民同志在中央政治局常委会会议上的讲话《正确引导青少年健康成长》为结束篇,收入江泽民同志的著作59篇。
《江泽民文选》第三卷以2000年2月25日江泽民同志在广东省考察工作时的讲话《在新的历史条件下更好地做到“三个代表”》为开卷篇,以2004年9月20日江泽民同志辞去中共中央军委主席的职务后、在经过调整充实的中央军委举行的第一次扩大会议上的讲话《我的心永远同人民军队在一起》为结束篇,收入江泽民同志的著作63篇。
《江泽民文选》内容丰富,具有很强的现实针对性和鲜明的时代特征,集中展现了马克思主义中国化的新发展及其重大成果,系统阐述了“三个代表”重要思想的科学体系,充分体现了江泽民同志在经济、政治、文化、社会等各个领域和改革发展稳定、内政外交国防、治党治国治军等各个方面作出的杰出理论贡献。《江泽民文选》收入的著作包括:全面论述新的历史时期党的基本理论、基本路线、基本纲领、基本经验的党的十四大报告、十五大报告、十六大报告,通报中央政治局常委“三讲”情况的讲话、在庆祝中国共产党成立八十周年大会上的讲话等重要著作;着重和文艺、卫生、体育等的重要著作;着重论述就业再就业、社会保障、关心困难群众生活、扶贫开发、计划生育、残疾人事业和正确处理新时期人民内部矛盾、社会治安等的重要著作;着重论述坚持党对军队的绝对领导、国防和军队现代化建设、新时期军事战略方针、中国特色军事变革、国家战略能力等的重要著作;着重论述“一国两制”方针、港澳工作、对台工作的重要著作;着重论述国际形势、世界多极化和经济全球化趋势、独立自主的和平外交政策和中美关系、中俄关系、中欧关系、中日关系、中非关系、周边外交、联合国、亚太经济合作组织、上海合作组织等的重
《江泽民文选》中的重要著作和重大思想观点,充分展现了江泽民同志为党和人民的事业不懈奋斗的鲜明革命品格,充分反映了江泽民同志作为马克思主义政治家的雄才大略和高超政治领导艺术,充分体现了江泽民同志作为一位真正马克思主义者的巨大政治勇气和理论勇气。我们要学习江泽民同志的理论观点和战略思想,学习他科学运用马克思主义的立场、观点、方法研究和解决实际问题的求实态度和创新精神,继续推动改革发展稳定的各项工作取得新成就、开创新局面。
《江泽民文选》的出版发行,必将激励全党全国各族人民更加紧密地团结在以胡锦涛同志为总书记的党中央周围,高举邓小平理论和“三个代表”重要思想伟大旗帜,全面贯彻落实科学发展观,扎实工作,开拓进取,全面推进社会主义经济建设、政治建设、文化建设、社会建设,努力实现全面建设小康社会的宏伟目标,不断把中国特色社会主义伟大事业推向前进。”
对该实施例的测试得知其合成语音的长度Length为391.0s,合成该段语音总的算法执行时间为33.6s,总共合成了6110帧,因此平均每帧的合成时间T_ave为5.5ms。合成一帧语音的最大耗时T_max为738ms。
根据以上实施例,可以确定参数T_max=810ms,并且根据关系式(4)可以计算得到参数
T _ ave = Σ i = 1 n Ti _ ave n = 18.8 + 19.5 + 19.1 + 20.1 + 9.1 + 5.5 6 = 15.35 ms .
进而,将所得到的T_max和T_ave值代入到公式(2)中即可得到参数N,即:64*N=810+15.35*(N-1),从而得到N为17帧。
最后,再将帧长L_frame和计算所得到帧数N的代入到关系式(1)中即可得到第一缓存单元4和第二缓存单元5容量,即Buffer_size=17*1024=17KByte。也就是说,在本发明的嵌入式平台语音合成系统1中,为了实现实时合成语音的目的,第一缓存单元4和第二缓存单元5的大小都至少应为17KB。由于本发明的参数T_max和T_ave是基于测试得到,根据本发明的方法,参数T_max和T_ave首先需要满足的条件是:T_ave<T_frame,且T_max>T_frame,从而保证合成语音可以更容易地被写入。特别的是,为保证嵌入式平台的正常运行,本发明的缓存单元的N*L_frame*2的大小不能超过嵌入式平台的缓存允许使用的大小。
需要说明的是,为了使得公式(1)、(2)和(3)的计算更加清楚,本发明示例性的给出第一缓存单元4和第二缓存单元5的大小,但本领域的技术人员公知的是,在本发明中也可根据文语转换的实际情况,将上述第一缓存单元4和第二缓存单元5设置为其他容量,因此,本发明中的第一缓存单元4和第二缓存单元5的容量并不限于上述数值。
基于本发明所提供的上述系统和方法,如果受到片内存储空间的限制,无法设置足够大的第一缓存单元4和第二缓存单元5来存储已合成语音,那么当第一缓存单元4读取完毕而第二缓存单元5未写满时,就会出现语音不连续现象。针对这一状况,本发明在上述系统和方法的基础之上进一步提供一种选择断点方法。其通过主动选择不连续语音点的位置,具体是通过在句与句之间的停顿中进行中断,也就是说,当读取第一缓存单元4的一帧已合成语音时,控制装置6判断其是否为句与句之间的停顿,如果是句与句之间的停顿,并且当第二缓存单元5未写满时,控制装置6进行中断播放,从而缓解不连续语音带来的理解障碍,并且对听者理解内容不会造成影响。
参阅图5,在步骤S31,首先从第一缓存单元4读取一帧已合成语音。接下来,在步骤S32,利用控制装置6来判断该帧已合成语音的信号幅值是否为零,由于合成语音在文本的标点符号处会有较长时间的停顿,与自然状态的停顿不同,由标点符号造成的合成语音的停顿,其信号幅值为零,因此,很容易由合成结果判断一句话是否结束。
如果控制装置6判断信号幅值为零,则表示该帧已合成语音位于文本的标点符号处,执行步骤S33,即控制装置6继续判断第二缓存单元5是否已写满;否则,本发明的系统继续从第一缓存单元4读取下一帧合成语音,即步骤S35。
如果控制装置6判断该第二缓存单元5已经写满,则本发明的系统会进一步执行步骤S35,即继续从第一缓存单元4读取下一帧合成语音;否则,在步骤S34,控制装置6将中断播放,以等待该第二缓存单元5所进行的写操作。
由此,通过上述选择断点方法,在标点停顿处,可采用强制播放中断,延长停顿时间,以让另外一个缓存单元写满,然后继续播放当前缓存单元的语音。这样,人为的将停顿调整到了标点符号处,而非缓存单元切换造成的随机停顿,使得听者对合成内容的理解不会存在困难。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (13)

1.一种嵌入式平台语音合成系统,用于在嵌入式平台上进行文语转换,包括:
语音库,用于存储语音数据;
算法库,调用与所输入的文本数据相对应的语音数据,并将所述语音数据合成为语音后输出,其特征在于,所述系统还包括:
用于存储所述已合成语音的第一缓存单元和第二缓存单元;以及
控制装置,用于控制所述第一缓存单元和所述第二缓存单元中已合成语音的读写。
2.如权利要求1所述的系统,其特征在于,所述控制装置交替读写所述第一缓存单元和所述第二缓存单元。
3.如权利要求2所述的系统,其特征在于,所述第一缓存单元和第二缓存单元的每一个的容量均包含多个帧,帧的数值满足关系式:
T_frame*N=T_max+T_ave*(N-1);
其中,T_frame表示一帧语音的时间长度,T_max表示单帧语音合成最大时间,T_ave表示每帧语音的平均合成时间,N表示帧数。
4.如权利要求3所述的系统,其特征在于,每帧语音的平均合成时间T_ave小于一帧语音的时间长度T_frame,且单帧语音合成最大时间T_max大于一帧语音的时间长度T_frame。
5.如权利要求3所述的系统,其特征在于,所述第一缓存单元和第二缓存单元的容量相等。
6.一种嵌入式平台语音合成方法,用于在嵌入式平台上进行文语转换,包括步骤:
设置一个语音库,用于存储语音数据;
设置一个算法库,通过调用与所输入的文本数据相对应的语音数据,将所述语音数据合成为语音后输出;
设置第一缓存单元和第二缓存单元,用于存储所述已合成语音;以及
设置一个控制装置,用于控制所述第一缓存单元和所述第二缓存单元中已合成语音的读写。
7.如权利要求6所述的方法,其特征在于,该设置一个控制装置以控制合成语音的读写步骤还包括:
将该合成语音顺序地写入到第一缓存单元;
读取第一缓存单元中的已合成语音;
将该合成语音再顺序地写入到第二缓存单元中;
读取该第二缓存单元中的已合成语音。
8.如权利要求7所述的方法,其特征在于,如果判断该第一缓存单元被写满后,读取第一缓存单元中的已合成语音的步骤和将该合成语音再顺序地写入到第二缓存单元中的步骤是同时进行的。
9.如权利要求8所述的方法,其特征在于,读取该第二缓存单元中的已合成语音的步骤是在判断该第一缓存单元中的合成语音被全部读取和判断该第二缓存单元被写满后执行的。
10.如权利要求9所述的方法,其特征在于,如果判断该第一缓存单元的合成语音已被全部读取时该第二缓存单元未被写满,该方法包括
在输出第一缓存单元的合成语音时,在句与句之间中断播放。
11.如权利要求10所述的方法,其特征在于,还包括
从该第一缓存单元读取一帧已合成语音;
判断其信号幅值;
如果该信号幅值为零,并且该第二缓存单元未写满时,进行中断播放直到该第二缓存单元被写满;
如果该幅值不等于零,继续读取下一帧合成语音。
12.如权利要求6所述的方法,其特征在于,所述第一缓存单元和第二缓存单元的每一个的容量均包括多个帧,该帧数值满足关系式:
T_frame*N=T_max+T_ave*(N-1);
其中,T_frame表示一帧语音的时间长度,T_max表示单帧语音合成最大时间,T_ave表示每帧语音的平均合成时间,N表示帧数。
13.如权利要求12所述的方法,其特征在于,所述第一缓存单元和第二缓存单元的容量相等。
CN200710098522XA 2007-04-19 2007-04-19 一种嵌入式平台语音合成系统及其方法 Expired - Fee Related CN101114446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710098522XA CN101114446B (zh) 2007-04-19 2007-04-19 一种嵌入式平台语音合成系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710098522XA CN101114446B (zh) 2007-04-19 2007-04-19 一种嵌入式平台语音合成系统及其方法

Publications (2)

Publication Number Publication Date
CN101114446A true CN101114446A (zh) 2008-01-30
CN101114446B CN101114446B (zh) 2011-11-23

Family

ID=39022755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710098522XA Expired - Fee Related CN101114446B (zh) 2007-04-19 2007-04-19 一种嵌入式平台语音合成系统及其方法

Country Status (1)

Country Link
CN (1) CN101114446B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750126A (zh) * 2012-06-27 2012-10-24 深圳Tcl新技术有限公司 语音输入方法及终端
WO2014134999A1 (zh) * 2013-09-23 2014-09-12 中兴通讯股份有限公司 音频数据的处理方法及系统
CN107370814A (zh) * 2017-07-21 2017-11-21 掌阅科技股份有限公司 电子书朗读处理方法、终端设备及计算机存储介质
CN108231060A (zh) * 2017-12-06 2018-06-29 贵阳朗玛信息技术股份有限公司 一种文本转化成语音的方法及装置
CN110600003A (zh) * 2019-10-18 2019-12-20 北京云迹科技有限公司 机器人的语音输出方法、装置、机器人和存储介质
CN111613205A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于嵌入式设备的语音交互方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4228322A (en) * 1979-01-02 1980-10-14 International Business Machines Corporation Decreasing time duration of recorded speech
US5694332A (en) * 1994-12-13 1997-12-02 Lsi Logic Corporation MPEG audio decoding system with subframe input buffering
KR100379450B1 (ko) * 1998-11-17 2003-05-17 엘지전자 주식회사 음성합성보드에서의 연속적인 음성재생을 위한 구조 및 그 구조를 이용한 연속적인 음성재생방법
CN1212601C (zh) * 2002-11-01 2005-07-27 中国科学院声学研究所 一种嵌入式语音合成方法及系统
CN100481125C (zh) * 2005-08-26 2009-04-22 北京中星微电子有限公司 图像数据压缩前预存储处理装置和方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750126A (zh) * 2012-06-27 2012-10-24 深圳Tcl新技术有限公司 语音输入方法及终端
CN102750126B (zh) * 2012-06-27 2016-02-03 深圳Tcl新技术有限公司 语音输入方法及终端
WO2014134999A1 (zh) * 2013-09-23 2014-09-12 中兴通讯股份有限公司 音频数据的处理方法及系统
CN104464766A (zh) * 2013-09-23 2015-03-25 中兴通讯股份有限公司 音频数据的处理方法及系统
CN104464766B (zh) * 2013-09-23 2018-08-28 南京中兴软件有限责任公司 音频数据的处理方法及系统
CN107370814A (zh) * 2017-07-21 2017-11-21 掌阅科技股份有限公司 电子书朗读处理方法、终端设备及计算机存储介质
CN107370814B (zh) * 2017-07-21 2018-09-04 掌阅科技股份有限公司 电子书朗读处理方法、终端设备及计算机存储介质
CN108231060A (zh) * 2017-12-06 2018-06-29 贵阳朗玛信息技术股份有限公司 一种文本转化成语音的方法及装置
CN110600003A (zh) * 2019-10-18 2019-12-20 北京云迹科技有限公司 机器人的语音输出方法、装置、机器人和存储介质
CN111613205A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于嵌入式设备的语音交互方法

Also Published As

Publication number Publication date
CN101114446B (zh) 2011-11-23

Similar Documents

Publication Publication Date Title
CN106611597B (zh) 基于人工智能的语音唤醒方法和装置
CN101114446A (zh) 一种嵌入式平台语音合成系统及其方法
CN105869446B (zh) 一种电子阅读装置和语音阅读加载方法
WO2024103609A1 (zh) 一种对话模型的训练方法及装置、对话响应方法及装置
AU2004229094A1 (en) Conversation control apparatus, and conversation control method
CN110176230A (zh) 一种语音识别方法、装置、设备和存储介质
CN101577059A (zh) 支持多语种的语言学习系统
Roeder The Canadian shift in two Ontario cities
CA2564760A1 (en) Speech analysis using statistical learning
CN109547331A (zh) 一种基于多轮语音聊天模型构建方法
CN106708789B (zh) 一种文本处理方法及装置
CN103714248A (zh) 一种竞聘演讲的训练系统
CN107767862A (zh) 语音数据处理方法、系统及存储介质
CN116978381A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN110869923A (zh) 从查询生成子查询
Frenander No discord, or, an area without significant political stakes? Some reflections on Swedish post‐war cultural policy discourse
CN108109620A (zh) 一种机器人智能交互方法及系统
Zhang et al. The construction and application of the multimedia corpus of Bisu language: taking the study on measure words as an example
JPH08123471A (ja) 音声認識装置
Mallinson et al. The intersection of regional and ethnic identity: African American English in Appalachia
US20190189108A1 (en) Text message processing method and device
US20050197839A1 (en) Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same
Hundt et al. One voice or many? Homeland politics, the impeachment of Park Geun-hye, and the South Korean diaspora in Melbourne, Australia
Senevirathne et al. Intervention of Early Leftist Movement in the Culture in Sri Lanka: A Reading on'Red Poets'
A'Hearn et al. Moving forward, looking backward

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111123

Termination date: 20130419