CN101334995B - 文本到语音转换设备及其转换方法 - Google Patents

文本到语音转换设备及其转换方法 Download PDF

Info

Publication number
CN101334995B
CN101334995B CN2008101248954A CN200810124895A CN101334995B CN 101334995 B CN101334995 B CN 101334995B CN 2008101248954 A CN2008101248954 A CN 2008101248954A CN 200810124895 A CN200810124895 A CN 200810124895A CN 101334995 B CN101334995 B CN 101334995B
Authority
CN
China
Prior art keywords
phoneme
length
data
word speed
pause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101248954A
Other languages
English (en)
Other versions
CN101334995A (zh
Inventor
西池理香
佐佐木均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101334995A publication Critical patent/CN101334995A/zh
Application granted granted Critical
Publication of CN101334995B publication Critical patent/CN101334995B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本到语音转换设备及其转换方法。根据本发明实施例的一个方面,提供一种用于将文本数据转换为声音信号的设备,包括:音素确定器,用于确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据,其中所述停顿被插入到将被转换为声音信号的文本数据中的一连串音素之间;音素长度调整器,通过分别根据声音信号的速度确定音素的长度,以及选择性调整文本数据中作为摩擦音的至少一个音素的长度,使得至少一个摩擦音音素与其它音素相比在时间上被相对延长,以此调整音素数据和停顿数据;以及输出单元,用于基于通过音素长度调整器所调整的音素数据和停顿数据,输出声音信号。本发明能够改善文本转换为语音的可识别性和可听性。

Description

文本到语音转换设备及其转换方法
技术领域
本发明涉及用于将字符数据转换为语音并输出语音的语音朗读(speechreading)设备、程序和方法,其中字符数据包括例如文档的表音字符(phoneticcharacter)。具体地,本发明涉及用于根据语速控制音素(phoneme)长度的语音朗读设备、程序和方法,尤其是在以高速朗读语音时,选择特定音素等并使所述特定音素等能够延长或缩短。
背景技术
众所周知,所谓语音朗读的技术,对包括表音字符的字符数据进行分析,通过语音合成从字符数据合成语音,并将字符数据输出为语音。在例如蜂窝电话的便携式终端中,已开始广泛使用朗读例如邮件的自由文本的语音合成功能。此外,在个人计算机(PC)中,已开始广泛使用所谓“屏幕阅读器”的软件。当通过语音对文本内容进行理解时,表示作用于听觉的例如元音、辅音或停顿等的音素的长度,是增强可识别性的重要因素。
关于这种语音朗读,日本特开专利公布No.6-149283(例如摘要和图1)公开了一种语音合成技术;其中,当语速(speech rate)小于预定值时,将短音节(mora)长度设定为最小值,并基于语速设定与语速相对应的短帧周期,使得语速高于正常速度;以及,当语速等于或大于预定值时,设定与语速相对应的长短音节长度,并基于语速将帧周期的长度设定为最小值,使得语速低于正常速度。
在此,假定可灵活设定语速,将每个音素的长度设定为随着语速反向变化。例如,当语速加倍时,音素长度则减至1/2;当语速减至1/2时,音素长度则加倍。在将语速和音素长度之间的关系简单化(即音素长度随着语速反向变化)的安排中,即使当语音在正常语速下是正常的(当可轻松听到该语音)时,在以高速和低速朗读语音时,可能很难听到该语音,以及该语音可能是不自然的。因此,降低了可识别性。
日本特开专利公布No.6-149283既没有公开或建议这种问题,也没有公开或建议提供解答的任何方案。
发明内容
根据本发明实施例的一个方面,提供一种将文本数据转换为声音信号的设备,包括:音素确定器,用于确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据,其中所述多个停顿被插入到将被转换为声音信号的所述文本数据中的一连串音素之间;音素长度调整器,通过分别根据所述声音信号的语速确定所述音素的长度,以及通过当所述语速为高速时对所述文本数据中摩擦音的所述音素的长度作调整,使得至少一个摩擦音音素与其它音素相比在时间上被相对延长来调整所述音素数据和所述停顿数据;以及输出单元,基于由所述音素长度调整器所调整的音素数据和停顿数据,来输出声音信号。
根据本发明实施例的另一个方面,提供一种用于将文本数据转换为声音信号的方法,包括以下步骤:确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据,其中所述多个停顿被插入到将被转换为声音信号的所述文本数据中的一连串音素之间;通过分别根据所述声音信号的语速来确定所述音素的长度,以及通过当所述语速为高速时对所述文本数据中摩擦音的所述音素的长度作调整,使得至少一个摩擦音音素与其它音素相比在时间上被相对延长,来调整所述音素数据和所述停顿数据;以及基于所调整的音素数据和停顿数据,输出声音信号。
本发明能够改善文本转换为语音的可识别性和可听性。
附图说明
图1为示出根据本发明第一实施例的语音朗读设备的示例性组成的框图;
图2为示出该语音朗读设备中音素长度控制单元的示例性组成的框图;
图3为示出其中整合有该语音朗读设备的示例性便携式终端的框图;
图4示出该便携式终端的示例性结构;
图5示出示例性屏幕显示;
图6为示出根据该第一实施例的用于控制音素长度的示例性处理过程的流程图;
图7为示出根据本发明第二实施例的用于控制音素长度的示例性处理过程的流程图;
图8为示出根据本发明第三实施例的用于控制音素长度的示例性处理过程的流程图;
图9为示出根据本发明第四实施例的音素长度控制单元的框图;
图10为示出根据该第四实施例的用于控制音素长度的示例性处理过程的流程图;
图11为示出根据本发明第五实施例的音素长度控制单元的框图;
图12为示出根据该第五实施例的用于控制音素长度的示例性处理过程的流程图;
图13为示出根据本发明第六实施例的用于控制音素长度的示例性处理过程的流程图;
图14为示出根据本发明第七实施例的用于控制音素长度的示例性处理过程的流程图;
图15为示出根据本发明第八实施例的用于控制音素长度的示例性处理过程的流程图;
图16为示出包括语速调整单元的参数生成单元的框图;
图17为示出用于控制音素长度的示例性处理过程的流程图;
图18为示出语言处理结果的表;
图19为示出所生成的音素长度示例的表;
图20为示出所生成的音素长度示例的表;
图21a、图21b和图21c分别示出合成的语音波形;
图22a和图22b分别示出合成的语音波形;
图23a和图23b分别示出合成的语音波形;
图24a和图24b分别示出合成的语音波形;以及
图25a和图25b分别示出合成的语音波形。
具体实施方式
第一实施例
关于本发明的第一实施例,请参阅图1和图2。图1为示出语音朗读设备2的示例性组成的框图。图2为示出语音朗读设备2中音素长度控制单元18的示例性组成的框图。
语音朗读设备(语音朗读装置、文本到语音朗读设备)2包括计算机。语音朗读设备2包括例如语音合成器,语音合成器将例如文本(在日语的情况下,文本包括中文字符和日语假名字符的混合体)的包括摩擦音(fricative)和停顿(pause)的字符数据转换为语音并朗读该语音。语音朗读设备2通过根据语速控制字符数据中每个摩擦音的音素长度,来改善从字符数据获得的输出语音的可听性(listenability),从而改善合成语音(朗读输出)的可识别性(recognizability)。在这种情况下,字符数据经历语音朗读,并包括含有摩擦音和停顿的表音字符串。表音字符或表音字符串为包括标音(phonetictranscription)的中间语言(interlanguage),其中该标音具有用于语音合成的韵律符号(prosodic symbol)。摩擦音为当呼吸通过由口腔中发声器官形成的狭窄空间时发出的辅音,并包括例如“f”、“v”、“s”和“z”。停顿为无声区间(silent intervals),例如不被转换为语音的区间(除了刚好在爆破音或日语sokuon之前的间隙)。日语sokuon为英语中所谓的长辅音(geminate consonant)或双辅音(double consonant)。例如,在日语语句“sotsugyoshi te,shinyou kin koni...”中,逗号“,”表示“so tsugyoshi te”和“shinyoukin koni”之间存在的无声期间,而该逗号即为停顿的示例。日语语句“sotsugyoshi te,shinyou kin koni...”的意思是“(他)从(高中)毕业之后,(他已)在银行(工作)…”。换句话说,“so tsugyoshi te”的意思是“毕业之后”,而“shinyou kin koni”的意思是“在银行”。在这种情况下,呼吸群(breath group)为人类在一次呼吸中发出声音的单位,并且上述停顿插入在呼吸群之间的呼吸中。
为了实现这种功能,如图1所示,语音朗读设备2包括语言处理单元(语言处理器)4、词典6、参数生成单元(参数生成器)8、基音(pitch)提取/交叠单元(基音提取/重叠单元)10和波形库12。
语言处理单元4为语言处理装置,在其中输入包括中文字符和日语假名字符混合体的文本,通过参阅词典6分析文本中的词,确定读音(reading)、重音(accent)和声调(intonation),并输出表音字符串(中间语言)。在词典6中存储词的类型(例如,部分语音)、读音、重音位置等。
按自然规律(in physical term),重音和声调与基音频率(pitch frequency)中的时间变化(temporal variations)模式紧密相关。特别地,基音频率在重音位置处是高的,以及在声调上升时是高的。因此,基于例如通过输入文本中的词分析提取出标点符号和子句,语言处理单元4将输入文本划分为上述呼吸群。
参数生成单元8为参数生成装置,用于设定例如每个音素的持续时间、每个停顿的持续时间以及基音频率模式。参数生成单元8根据语速控制音素长度。
参数生成单元8包括音素长度设定单元(音素长度设定器)14、音素长度表16、音素长度控制单元(音素长度控制器)18以及基音模式生成单元(基音模式生成器)20。
在语言处理单元4中生成的表音字符串的级别,确定哪些音素需经历语音合成。音素长度设定单元14为用于设定每个音素的音素长度的装置;并且,音素长度设定单元14设定正常语速下的音素长度。音素长度表16为用于存储正常语速下的音素长度的装置,其中每个音素长度与相应的音素以及之前和之后的音素相对应。在音素长度的示例性设定中,将正常语速下的音素长度(从数据库提取到的值)预先存储于音素长度表16,每个音素长度与相应的音素以及之前和之后的音素相对应,并参考音素长度的这些值设定音素长度。可利用其它参数成分对音素长度进行校正。
音素长度控制单元18为音素长度控制装置,用于根据语速控制音素长度设定单元14中设定的正常语速下的音素长度。将来自例如用于调整语速的装置(未示出)的语速提供给音素长度控制单元18,作为控制信息(例如,用户设定)。
如图2所示,音素长度控制单元(音素长度控制器)18包括音素长度调整单元(音素长度调节单元)24、语速确定单元(语速确定单元、讲话速度确定单元)26以及音素确定单元28。一旦接收到来自语速确定单元26和音素确定单元28的确定结果,音素长度调整单元24调整每个音素的长度和每个停顿的长度。语速确定单元26确定输入语速属于正常速度、高速和低速中的哪一个,并将确定结果输出给音素长度调整单元24。在这种情况下,从语速确定单元26输出的确定结果包括指示正常速度、高速、或低速的输出以及指示语速级别的输出。音素确定单元28确定例如具有音素长度设定单元14(图1)中所设定的音素长度的音素和停顿,并将确定结果输出给音素长度调整单元24。
在音素长度控制单元18中进行如下操作,例如,设定音素长度,使其随着语速反向变化。特别地,假定正常语速为每秒7个短音节,当语速被设定为每秒14个短音节时,每个音素长度被减半;当语速被设定为每秒6个短音节时,每个音素长度乘以7/6。短音节为与一个假名字符相对应的单位,其中假名字符为表音字符。一个例如“kya”的日语youon对应于一个短音节。在日语中,每个字符的短音节与此相同。youon为例如,其中具有半元音(semivowel)[j]的辅音放在每个日语元音[a]、[u]和[o]之前的音节,或者其中发音[w]插入在“ka”、“ga”、“ke”和“ge”每一个的辅音和元音之间的音节。
基音模式生成单元20为模式生成装置,用于考虑例如有关表音字符串中重音的信息来设定每个音素中的基音周期。
基音提取/交叠单元10为使用基音同步交叠相加(PSOLA,PitchSynchronous OverLap and Add)方法(利用波形添加叠印的基音转换方法)的基音提取及交叠装置。波形库12中存储了关于声音的语音波形、表示哪一部分对应于哪一音素的音素表以及表示基音周期的基音标记。基音提取/交叠单元10基于参数生成单元8中所生成的参数,从波形库12提取两个周期的语音波形,将所述语音波形与窗函数(例如,汉宁(Hanning)窗)相乘,再将乘积乘以用于振幅调节的增益,如果需要的话,在波形库12中的基音频率不同于期望的基音频率时执行基音转换,并随后将所提取的波形加入波形相互交叠的状态,以输出合成语音信号。
关于语音朗读设备2的硬件,请参阅图3、图4和图5。图3为示出其中整合有语音朗读设备2的示例性便携式终端200的框图。图4示出便携式终端200的示例性结构。图5示出示例性屏幕显示。
便携式终端(移动终端设备、便携式终端装置)200仅为其上应用有上述语音朗读设备2的一个示例,且根据本发明的用于语音朗读的设备、方法和程序并不局限于这种结构。便携式终端200包括例如通信功能,以及用于将包括摩擦音和停顿的字符数据转换为语音并输出该语音的功能,其中该字符数据例如是邮件文本的文本(在日语的情形下,文本包括中文字符和日语假名字符的混合体)。如图3所示,便携式终端200包括处理器202、存储单元204、无线电单元(无线通信单元、无线单元)206、输入单元208、显示单元210、语音输入单元(声音输入单元、嗓音输入单元)212以及语音输出单元(声音输出单元、嗓音输出单元)214。
处理器202为控制装置,用于控制电话通信、例如语音合成的语音朗读以及其它处理。处理器202包括中央处理单元(CPU)或微处理器单元(MPU),并执行存储单元204中所存储的操作系统(OS)和应用程序。这些应用程序包括,例如,用于执行语音朗读过程的程序。
存储单元204为存储介质,其中存储有在处理器202中执行的程序以及用于执行程序的各种数据,并形成处理区。存储单元204包括程序存储单元216、数据存储单元218以及随机存取存储器(RAM)220。程序存储单元216存储OS和应用程序。数据存储单元218存储词典6、波形库12以及音素长度表16(图1),其中音素长度表16中存储有上述数据段(pieces of data)。RAM 220组成工作区。
无线电单元206为无线电通信装置,用于通过大气向基站发射例如语音信号波和包信号波以及从基站接收例如语音信号波和包信号波。无线电单元206受处理器202控制。
输入单元208为通过用户的操作输入例如控制数据并响应于显示在显示单元210上的对话的装置。输入装置208包括例如键盘和触摸板。
显示单元210受控于处理器202。显示单元210为用于显示例如字符和图形的显示装置,并包括例如液晶显示(LCD)元件。例如,在显示单元210上显示待朗读的文本。
语音输入单元212为受控于处理器202的语音输入装置,并包括麦克风222。在麦克风222中将输入的语音转换为语音信号,将所述语音信号转换为数字信号,并随后将所述数字信号发送至处理器202。
语音输出单元214为受控于处理器202的语音输出装置,并包括接收器224以及作为语音转换装置的扬声器226R和226L。从接收器224以及扬声器226R和226L重现语音朗读中的合成语音。
在便携式终端200中,语音朗读设备2包括例如处理器202、存储单元204、显示单元210以及语音输出单元214。
如图4所示,在便携式终端200中,例如,壳体228包括第一壳体单元230和第二壳体单元232。第一壳体单元230和第二壳体单元232通过铰接单元234结合在一起,从而使得壳体228可折叠。第一壳体单元230包括输入单元208和麦克风222。第二壳体单元232包括显示单元210、接收器224以及扬声器226R和226L。输入单元208包括用于输入例如字符的键236、光标键238、确认键(conformation key)240等。
通过便携式终端200使得例如邮件文本和小说文本的各种类型文本经历语音朗读,以及例如,使得显示在显示单元210的屏幕上的文本经历语音合成,以从接收器224以及扬声器226R和226L得以重现。在这种情况下,如图5所示,在显示单元210的邮件文本显示屏幕242上显示邮件文本,并将该邮件文本输出为语音。在这个示例中,日语文本“yamanashiken no koukouwo so tsugyoshi te shinyou kin koni haitte 4nenme desu.”显示在邮件文本显示屏幕242上,并被重现为语音。“yamanashiken no koukou wo so tsugyoshi teshinyou kin koni haitte 4nenme desu”表示日语发音。日语语句“yamanashikenno koukou wo so tsugyoshi te shinyou kin koni haitte 4nenme desu”在英语中的意思也是“从高中毕业之后,他已在银行工作了四年(after he graduated fromhigh school,he has worked at a bank for 4years)”。
关于音素长度的控制,请参阅图6。图6为示出根据本发明第一实施例用于控制音素长度的示例性过程的流程图。
该过程为用于语音朗读的示例性程序或示例性方法;并包括在以高速朗读语音的情况下,当音素为摩擦音时,延长该音素的步骤。在语音朗读设备2(图1)中的音素长度控制单元18(图2)内执行该过程。在这个实施例中,为了改善可听性,根据语速对摩擦音的音素长度进行调整,例如,使其变成其它音素长度的3/2(three seconds)。
在这个过程中,如图6所示,分别在步骤S101执行语言处理以及在步骤S102执行音素长度设定。语言处理是在语言处理单元4中执行的。在语言处理中,从输入数据生成表音字符串。在这个阶段,确定哪个音素将经历语音合成。随后,在音素长度设定单元14中执行音素长度设定。在音素长度设定中,为每个音素设定正常语速下的音素长度。在这种情况下,通过参考音素长度表16来设定与相应的音素以及之前和之后的音素相对应的正常语速下的音素长度。
在这种音素长度设定之后,当对呼吸群中的音素进行处理时,执行步骤S103到S110。在步骤S103,对音素编号n进行初始化(n=1)。随后,在步骤S104到S110,根据语速对音素长度进行控制。对每个呼吸群均执行音素长度控制,且步骤S105到S109形成用于处理每个呼吸群中音素的循环。音素长度控制包括对经受控制的音素的确定,以及根据确定结果调整音素长度。
在音素长度控制单元18中,在步骤S104,对输入的语速信息进行识别,并根据语速将相应音素的长度乘以常数因子(constant factor);以及,随后在步骤S105,确定语速是否为高速以及相应的音素是否为摩擦音。也就是说,在这个确定中,将摩擦音的音素长度确定为待调整的目标。
当语速为高速且相应的音素为摩擦音时,在步骤S106,将该音素的长度进一步乘以预定因子,例如3/2。否则,不对该音素的长度进行调整。随后,在步骤S107,对音素编号n进行更新(n=n+1);以及,在步骤S108,确定是否已处理了该呼吸群中的所有音素,也即,音素编号n是否已达到该呼吸群中音素的数量。这样,该呼吸群中的所有音素均已被处理。
当该呼吸群中的所有音素均已被处理,以及当到达该呼吸群结尾处的停顿时,在步骤S109,根据语速将停顿的长度乘以常数因子;以及,随后在步骤S110,执行终止判定。在这个终止判定中,确定是否已处理了输入数据的全部数据段。重复步骤S103到S110,直到输入数据的全部数据段均已被处理。当确定输入数据的全部数据段均已被处理时,在步骤S111,执行语音合成以输出语音。
这样,根据语速对每个呼吸群调整摩擦音;并且,如上所述,在以高速朗读语音的情况下,每个摩擦音的音素长度均乘以例如3/2。因此,由高速朗读语音导致的不清楚被消除,并可以实现可听性,从而能够改善文本转换为语音的可识别性。
第二实施例
关于本发明的第二实施例,请参阅图7。图7为示出根据第二实施例的用于控制音素长度的示例性过程的流程图。
该过程为用于语音朗读的示例性程序或示例性方法;并包括在以高速朗读语音的情况下,当音素为摩擦音或前导音素(leading phoneme)时,延长该音素的步骤。利用语音朗读设备2(图1)以及音素长度控制单元18(图2)执行该过程。在第二实施例中,在以高速朗读语音的情况下,除了第一实施例中的音素长度调整之外,确定相应的音素是否为前导音素,也即相应的音素是否跟在停顿后,以便延长摩擦音的音素长度和跟在停顿后的音素的长度。以此,改善可听性,却不显著延长语音朗读的总重现(playback)时间。
在第二实施例中,为了确定其长度需要延长的音素,在音素确定单元28(图2)中,确定相应的音素是否为摩擦音,并基于确定结果将摩擦音的音素长度延长。
在这个过程中,如图7所示,分别在步骤S201执行语言处理以及在步骤S202执行音素长度设定。在语言处理和音素长度设定之后,当对呼吸群中的音素进行处理时,执行步骤S203到S211。在步骤S203,对音素编号n进行初始化(n=1)。随后,在步骤S204到S211,根据语速对音素长度进行控制。与第一实施例中一样,对每个呼吸群均执行音素长度控制。
在音素长度控制单元18中,在步骤S204,根据输入的有关语速的信息,将相应音素的长度乘以常数因子;以及,随后在步骤S205,确定语速是否为高速以及相应的音素是否为摩擦音。也就是说,在这个确定中,将摩擦音的音素长度确定为待调整的目标。
当语速为高速且相应的音素为摩擦音时,在步骤S206,将该音素的长度进一步乘以预定因子,例如3/2。否则,不对该音素的长度进行调整。
随后,在步骤S207,确定语速是否为高速以及相应的音素是否为前导音素(n=1)。当语速为高速且相应的音素为前导音素(n=1)时,在步骤S208,将该音素的长度进一步乘以预定因子,例如3/2。否则,不对该音素的长度进行调整。
随后,在步骤S209,对音素编号n进行更新(n=n+1);以及,在步骤S210,确定是否已处理了呼吸群中的所有音素。这样,该呼吸群中的所有音素均被处理。
当该呼吸群中的所有音素均已被处理以及当到达该呼吸群结尾处的停顿时,在步骤S211,根据语速将停顿的长度乘以常数因子;以及,随后在步骤S212,执行终止判定。重复步骤S203到S212,直到全部数据均已被处理。当确定全部数据均已被处理时,在步骤S213,执行语音合成以输出语音。
这样,根据语速对每个呼吸群调整前导音素以及摩擦音;并且,如上所述,摩擦音和跟在停顿后的音素的音素长度均乘以例如3/2。因此,改善了合成语音的可听性,从而改善了文本转换为语音的可识别性。
第三实施例
关于本发明的第三实施例,请参阅图8。图8为示出根据第三实施例的用于控制音素长度的示例性过程的流程图。
该过程为用于语音朗读的示例性程序或示例性方法;并包括在以高速朗读语音的情况下,延长摩擦音的长度并缩短其它音素的长度的步骤。利用语音朗读设备2(图1)以及音素长度控制单元18(图2)执行该过程。在第三实施例中,除了第一实施例中的音素长度调整之外,还将其它音素的长度缩短。在本实施例中,在摩擦音的音素长度被延长时,其它音素的长度被缩短。以此,改善可听性,却不延长将文本转换为语音所需的时间。在本实施例中,作为其它音素的元音(vowel)的音素长度被缩短。
在第三实施例中,为了确定其长度需要调整的音素,在音素确定单元28(图2)中,确定相应的音素是否为元音,并基于确定结果将元音的音素长度缩短。
在这个过程中,如图8所示,分别在步骤S301执行语言处理以及在步骤S302执行音素长度设定。随后,在对呼吸群中的音素进行处理时,执行步骤S303到S311。在步骤S303,对音素编号n进行初始化(n=1)。随后,在步骤S304到S311,根据语速对音素长度进行控制。与第一实施例中一样,对每个呼吸群均执行音素长度控制。
在音素长度控制单元18中,在步骤S304,根据输入的有关语速的信息,将相应音素的长度乘以常数因子;以及,随后在步骤S305,确定语速是否为高速以及相应的音素是否为摩擦音。也就是说,在这个确定中,将摩擦音的音素长度确定为待调整的目标。
当语速为高速且相应的音素为摩擦音时,在步骤S306,将该音素的长度进一步乘以预定因子,例如3/2。否则,不对该音素的长度进行调整。
随后,在步骤S307,确定语速是否为高速以及相应的音素是否为元音。当语速为高速且相应的音素为元音时,在步骤S308,将该音素的长度进一步乘以预定因子,例如9/10。否则,不对该音素的长度进行调整。
随后,在步骤S309,对音素编号n进行更新(n=n+1);以及,在步骤S310,确定是否已处理了呼吸群中的所有音素。在该呼吸群中的所有音素均已被处理之后,当到达该呼吸群结尾处的停顿时,在步骤S311,根据语速将停顿的长度乘以常数因子;以及,随后在步骤S312,执行终止判定。重复步骤S303到S312,直到全部数据均已被处理。当确定全部数据均已被处理时,在步骤S313,执行语音合成以输出语音。
这样,根据语速对每个呼吸群调整摩擦音以及元音的音素长度。如上所述,在摩擦音的音素长度乘以例如3/2时,元音的音素长度乘以例如9/10。元音音素长度的缩短补偿了摩擦音音素长度的延长。因此,在不延长输出语音的总重现时间并将其实质上保持不变的同时,改善了合成语音的可听性,从而改善了文本转换为语音的可识别性。
第四实施例
关于本发明的第四实施例,请参阅图9和图10。图9为示出根据第四实施例的音素长度控制单元18的框图。图10为示出根据第四实施例用于控制音素长度的示例性过程的流程图。在图9中,利用与图2中相同的附图标记标识相应的元件。
该过程为用于语音朗读的示例性程序或示例性方法,并且是利用语音朗读设备2(图1)和音素长度控制单元18(图2)来执行的。在第四实施例中,除了第一实施例中的音素长度调整(即延长摩擦音的音素长度)之外,通过将摩擦音音素长度的延长量按比例分配给呼吸群中的音素来削减(cut)该延长量。以此,在保持呼吸群长度(即不延长将文本转换为语音所需的时间)的同时,改善了可听性。
在第四实施例中,如图9所示,语音朗读设备2(图1)中的音素长度控制单元18(图2)还包括呼吸群长度计算单元(短语长度计算单元)30。呼吸群长度计算单元30计算从音素长度调整单元24输出的呼吸群的总长度。将计算结果作为控制信息提供给音素长度调整单元24。音素长度调整单元24包括通过将特定音素(在这个示例中为摩擦音)的长度延长量按比例分配给呼吸群中的所有音素,来减小所有音素的长度的功能,从而使得朗读该呼吸群所需的时间长度等于预定长度。
在这个过程中,如图10所示,分别在步骤S401执行语言处理以及在步骤S402执行音素长度设定。随后,当对呼吸群中的音素进行处理时,执行步骤S403到S412。在步骤S403,对音素编号n进行初始化(n=1)。随后,在步骤S404到S412,根据语速对音素长度进行控制。与第一实施例中一样,对每个呼吸群均执行音素长度控制。
在音素长度控制单元18中,在步骤S404,根据输入的有关语速的信息,将相应音素的长度乘以常数因子;以及,随后在步骤S405,确定语速是否为高速以及相应的音素是否为摩擦音。也就是说,在这个确定中,将摩擦音的音素长度确定为待调整的目标。
当语速为高速且相应的音素为摩擦音时,在步骤S406,将该音素的长度进一步乘以预定因子,例如3/2。否则,不对该音素的长度进行调整。
随后,在步骤S407,对音素编号n进行更新(n=n+1);以及,在步骤S408,确定是否已处理了呼吸群中的所有音素。在该呼吸群中的所有音素均被处理之后,当到达该呼吸群结尾处的停顿时,在步骤S409,根据语速将停顿的长度乘以常数因子。
随后,在步骤S410,计算该呼吸群的总长度;以及在步骤S411,将所有音素的总长度按比例分配给这些音素,从而使得该呼吸群的长度等于预定长度(例如,等于或实质上等于在摩擦音的音素长度未延长情况下该呼吸群的长度)。随后,在步骤S412,执行终止判定。重复步骤S403到S412,直到全部数据均已被处理。当确定全部数据均已被处理时,在步骤S413,执行语音合成以输出语音。
这样,根据语速对每个呼吸群调整摩擦音的音素长度。如上所述,虽然摩擦音的音素长度乘以例如3/2,但通过将摩擦音音素长度的延长量按比例分配给呼吸群中的音素而削减了该延长量。因此,在保持呼吸群长度的同时,改善了合成语音的可听性,从而改善了文本转换为语音的可识别性。
第五实施例
关于本发明的第五实施例,请参阅图11和图12。图11为示出根据第五实施例的音素长度控制单元18的框图。图12为示出根据第五实施例用于控制音素长度的示例性过程的流程图。在图11中,利用与图2中相同的附图标记标识相应的元件。
该过程为用于语音朗读的示例性程序或示例性方法,并且是利用语音朗读设备2(图1)和音素长度控制单元18(图2)来执行的。在第五实施例中,除了第一实施例中的音素长度调整之外,其它音素的长度被缩短。在这个实施例中,在延长摩擦音音素长度的同时,通过将摩擦音音素长度的延长量按比例分配给整个文本中的音素来削减该延长量。因此,在保持整个文本的长度(即不延长将文本转换为语音所需的时间)的同时,改善了可听性。
在第五实施例中,如图11所示,语音朗读设备2(图1)中的音素长度控制单元18(图2)还包括总文本长度计算单元(整句长度计算单元)32。总文本长度计算单元32计算从音素长度调整单元24输出的整个文本的长度。将计算结果作为控制信息提供给音素长度调整单元24。音素长度调整单元24包括通过将特定音素(在这个示例中为摩擦音)的长度延长量按比例分配给整个文本中的所有音素,来减小所有音素的长度的功能,从而使得朗读该文本所需的时间长度等于预定长度。
在这个过程中,如图12所示,分别在步骤S501执行语言处理以及在步骤S502执行音素长度设定。随后,当对呼吸群中的音素进行处理时,执行步骤S503到S512。在步骤S503,对音素编号n进行初始化(n=1)。随后,在步骤S504到S512,根据语速对音素长度进行控制。与第一实施例中一样,对每个呼吸群均执行音素长度控制。
在音素长度控制单元18中,在步骤S504,根据输入的有关语速的信息,将相应音素的长度乘以常数因子;以及,随后在步骤S505,确定语速是否为高速以及相应的音素是否为摩擦音。也就是说,在这个确定中,将摩擦音的音素长度确定为待调整的目标。
当语速为高速且相应的音素为摩擦音时,在步骤S506,将该音素的长度进一步乘以预定因子,例如3/2。否则,不对该音素的长度进行调整。
随后,在步骤S507,对音素编号n进行更新(n=n+1);以及,在步骤S508,确定是否已处理了呼吸群中的所有音素。在该呼吸群中的所有音素均已被处理之后,当到达该呼吸群结尾处的停顿时,在步骤S509,根据语速将停顿的长度乘以常数因子;以及,随后在步骤S510,执行终止判定。重复步骤S503到S510,直到全部数据均已被处理。
在全部数据均已被处理之后,在步骤S511,计算整个文本的长度;以及在步骤S512,将整个文本中所有音素的总长度按比例分配给这些音素,从而使得整个文本的长度(即,朗读该文本所需的时间)为预定长度(例如,等于或实质上等于在摩擦音的音素长度未延长情况下整个文本的长度)。随后,在步骤S513,执行语音合成以输出语音。
这样,根据语速对每个呼吸群调整摩擦音的音素长度。如上所述,虽然摩擦音的音素长度乘以例如3/2,但通过将摩擦音音素长度的延长量按比例分配给整个文本中的所有音素而削减了该延长量。因此,在保持朗读整个文本所需的时间长度的同时,改善了合成语音的可听性,从而改善了文本转换为语音的可识别性。
第六实施例
关于本发明的第六实施例,请参阅图13。图13为示出根据第六实施例用于控制音素长度的示例性过程的流程图。
该过程为用于语音朗读的示例性程序或示例性方法,并且是利用语音朗读设备2(图1)和音素长度控制单元18(图2)来执行的。在第六实施例中,组合使用第二实施例(图7)中的音素长度调整以及第三实施例(图8)中的音素长度调整。在延长前导音素和摩擦音的音素长度时,其它音素(例如,元音)的长度被缩短。以此,改善可听性,却不延长将文本转换为语音所需的时间。
在这个过程中,如图13所示,分别在步骤S601执行语言处理以及在步骤S602执行音素长度设定。随后,当对呼吸群中音素进行处理时,执行步骤S603到S613。在步骤S603,对音素编号n进行初始化(n=1)。随后,在步骤S604到S613,根据语速对音素长度进行控制。与第二实施例(图7)中一样,对每个呼吸群均执行音素长度控制。
在步骤S604,根据语速将相应音素的长度乘以常数因子;以及,随后在步骤S605,确定语速是否为高速以及相应的音素是否为摩擦音。当语速为高速且相应的音素为摩擦音时,在步骤S606,将该音素的长度进一步乘以预定因子,例如3/2。在步骤S607,确定语速是否为高速以及相应的音素是否为前导音素(n=1)。当语速为高速且相应的音素为前导音素(n=1)时,在步骤S608,将该音素的长度进一步乘以预定因子,例如3/2。
随后,在步骤S609,确定语速是否为高速以及相应的音素是否为元音。当语速为高速且相应的音素为元音时,在步骤S610,将该音素的长度进一步乘以预定因子,例如9/10。否则,不对该音素的长度进行调整。
随后,在步骤S611,对音素编号n进行更新(n=n+1)。在步骤S612,确定是否已处理了呼吸群中的所有音素。当到达该呼吸群结尾处的停顿时,在步骤S613,根据语速将停顿的长度乘以常数因子。在步骤S614,执行终止判定。随后,在步骤S615,执行语音合成。
这样,根据语速对每个呼吸群调整前导音素和摩擦音的音素长度。如上所述,虽然摩擦音和跟在停顿后的音素的音素长度乘以例如3/2,但元音的音素长度乘以例如9/10而被缩短。由跟在停顿后的音素以及摩擦音的音素长度的延长导致的重现时间的延长被减少,且所减少的量等于元音音素长度的缩短量。因此,在不延长输出语音的总重现时间(在一些示例中,总重现时间被缩短)并将总重现时间保持大体不变的同时,改善了合成语音的可听性,从而改善了文本转换为语音的可识别性。
第七实施例
关于本发明的第七实施例,请参阅图14。图14为示出根据第七实施例的用于控制音素长度的示例性过程的流程图。
该过程为用于语音朗读的示例性程序或示例性方法,并且是利用语音朗读设备2(图1)和音素长度控制单元18(图2)来执行的。在这个实施例中,除了第二实施例(图7)中的音素长度调整(即,延长前导音素和摩擦音的音素长度)之外,还提供了如下的安排;在该安排中,不保留或者减少对应于音素长度的延长量的其它音素(例如,停顿)的长度。在这种设置中,将前导音素和摩擦音的音素长度的延长量按比例分配给呼吸群中的音素,以此削减该延长量。因此,在保持呼吸群长度(即,不延长将文本转换为语音所需的时间)的同时,改善可听性。
在第七实施例中,与第四实施例(图9)中一样,为音素长度控制单元18中的音素长度调整单元24提供呼吸群长度计算单元30。呼吸群长度计算单元30计算从音素长度调整单元24输出的呼吸群的总长度。将计算结果作为控制信息提供给音素长度调整单元24。音素长度调整单元24包括通过将特定音素(在这个示例中为摩擦音和前导音素)的长度延长量按比例分配给呼吸群中的所有音素,来减少所有音素的长度的功能,从而使得朗读该呼吸群所需的时间长度等于预定长度。
在这个过程中,如图14所示,分别在步骤S701执行语言处理以及在步骤S702执行音素长度设定。随后,当对呼吸群中的音素进行处理时,执行步骤S703到S713。在步骤S703,对音素编号n进行初始化(n=1)。随后,在步骤S704到S713,根据语速对音素长度进行控制。与第二实施例(图7)中一样,对每个呼吸群均执行音素长度控制。
在步骤S704,根据语速将相应音素的长度乘以常数因子;以及,随后在步骤S705,确定语速是否为高速以及相应的音素是否为摩擦音。当语速为高速且相应的音素为摩擦音时,在步骤S706,将该音素的长度进一步乘以预定因子,例如3/2。在步骤S707,确定语速是否为高速以及相应的音素是否为前导音素(n=1)。当语速为高速且相应的音素为前导音素(n=1)时,在步骤S708,将该音素的长度进一步乘以预定因子,例如3/2。
随后,在步骤S709,对音素编号n进行更新(n=n+1);以及,在步骤S710,确定是否已处理了呼吸群中的所有音素。当到达该呼吸群结尾处的停顿时,在步骤S711,根据语速将停顿的长度乘以常数因子。随后,在步骤S712,计算该呼吸群的总长度;以及,在步骤S713,将所有音素的总长度按比例分配给这些音素,从而使得该呼吸群的长度等于预定长度(例如,等于或实质上等于在音素长度未延长情况下该呼吸群的长度)。随后,在步骤S714,执行终止判定。重复步骤S703到S714,直到全部数据均已被处理。当确定全部数据均已被处理时,在步骤S715,执行语音合成以输出语音。
这样,根据语速对每个呼吸群调整前导音素和摩擦音的音素长度。如上所述,虽然摩擦音和跟在停顿后的音素的音素长度乘以例如3/2,但通过将这些音素的音素长度延长量按比例分配给呼吸群中的音素而削减了该延长量。因此,在保持呼吸群长度的同时,改善了合成语音的可听性,从而改善了文本转换为语音的可识别性。
第八实施例
关于本发明的第八实施例,请参阅图15。图15为示出根据第八实施例的用于控制音素长度的示例性过程的流程图。
该过程为用于语音朗读的示例性程序或示例性方法,并且是利用语音朗读设备2(图1)和音素长度控制单元18(图2)来执行的。在这个实施例中,除了第二实施例(图7)中的音素长度调整之外,还通过将摩擦音和前导音素的音素长度的延长量按比例分配给整个文本中的音素来削减该延长量。因此,在保持整个文本长度(即,不延长将文本转换为语音所需的时间)的同时,改善可听性。
在第八实施例中,与第五实施例(图11)中一样,语音朗读设备2(图1)中的音素长度控制单元18包括总文本长度计算单元32。总文本长度计算单元32计算从音素长度调整单元24输出的整个文本的长度。将计算结果作为控制信息提供给音素长度调整单元24。音素长度调整单元24包括通过将特定音素(在这个示例中为前导音素和摩擦音)的长度延长量按比例分配给整个文本中的所有音素来减少所有音素的长度的功能,从而使得朗读该文本所需的时间长度等于预定长度。
在这个过程中,如图15所示,分别在步骤S801执行语言处理以及在步骤S802执行音素长度设定。随后,当对呼吸群中的音素进行处理时,执行步骤S803到S811。在步骤S803,对音素编号n进行初始化(n=1)。随后,在步骤S804到S811,根据语速对音素长度进行控制。与第二实施例(图7)中一样,对每个呼吸群均执行音素长度控制。
在步骤S804,根据语速将相应音素的长度乘以常数因子;以及,随后在步骤S805,确定语速是否为高速以及相应的音素是否为摩擦音。当语速为高速且相应的音素为摩擦音时,在步骤S806,将该音素的长度进一步乘以预定因子,例如3/2。在步骤S807,确定语速是否为高速以及相应的音素是否为前导音素(n=1)。当语速为高速且相应的音素为前导音素(n=1)时,在步骤S808,将该音素的长度进一步乘以预定因子,例如3/2。
随后,在步骤S809,对音素编号n进行更新(n=n+1);以及,在步骤S810,确定是否已处理了呼吸群中的所有音素。当到达该呼吸群结尾处的停顿时,在步骤S811,根据语速将停顿的长度乘以常数因子。随后,在步骤S812,执行终止判定。
在全部数据均已被处理之后,在步骤S813,计算整个文本的长度;以及,在步骤S814,将整个文本中所有音素的总长度按比例分配给这些音素,从而使得整个文本的长度(即,朗读该文本所需的时间)为预定长度(例如,等于或实质上等于在音素长度未延长情况下整个文本的长度)。随后,在步骤S815,执行语音合成以输出语音。
这样,根据语速对每个呼吸群调整前导音素和摩擦音的音素长度。如上所述,虽然摩擦音和跟在停顿后的音素的长度例如乘以3/2,但通过将音素长度的延长量按比例分配给整个文本中的所有音素即削减了该延长量。因此,在保持朗读整个文本所需的时间长度的同时,改善了合成语音的可听性,从而改善了文本转换为语音的可识别性。
其它实施例
关于输入到音素长度控制单元18的语速信息,请参阅图16。图16为示出参数生成单元8的框图,其包括语速调整单元22。在上述实施例中,将语速信息输入到音素长度控制单元18。参数生成单元8可包括能够被外部调整的语速调整单元22,使得能够外部设定期望的语速。
虽然在上述实施例中描述了延长例如摩擦音的音素长度的示例,但本发明还可应用于缩短音素长度的示例。
在第一实施例中,示出便携式终端200(图3和图4)作为示例。然而,本发明并不局限于上述实施例,还可应用于例如个人数字助理(PDA)、包括计算机并输出语音的电子设备(例如个人计算机)以及其中整合有电子装置单元的各种设备。
虽然在上述实施例中描述了摩擦音、元音以及辅音作为示例,但本发明可支持其它音素,例如半元音(semivowel)、youons以及塞擦音(affricate)。在这种情况下,半元音在清晰度(articulation)方面与元音类似。然而,半元音无法独立形成音节。示例性半元音包括[w]和[j]。塞擦音以如下方式发音,其中摩擦音跟在爆破音(plosive)后,且该摩擦音和该爆破音被当成一个发音。示例性塞擦音包括[ts]、[dz]和[t∫]。
在上述实施例中,当语速为高时,可将字符数据中的一些或全部停顿删除。通过删除停顿,能够减少重现时间却不消弱可听性。
示例
第一示例
关于本发明的第一示例,请参阅图17和图18。图17为示出与图6中流程图相对应的对比示例的流程图。图18示出语言处理结果。
在语音朗读设备2(图1)中,当根据语速以相同的方式延长了各音素的长度时,执行图17中流程图所示的处理。在这种情况下,与图6中相同的附图标记标识相对应的步骤,并且示出了其中不对摩擦音的音素长度进行调整的处理。也就是说,图17中的流程图不包括图6中的流程图内的步骤S105和S106。在图17所示的处理中,在以高速朗读语音时不延长摩擦音的音素长度,而将音素长度乘以随语速而反向变化的常数因子。
在这个处理中,当示例性输入文本为日语文本“yamanashi ken no koukouo so tsugyoushi te,shinyou kin koni haitte yonenme desu.”(图5)时,如图18所示,可通过输入文本、语音部分以及表音字符来示出词分析结果。
在日语文本“yamanashi ken no koukou o so tsugyoushi te,shinyou kin konihaitte yonenme desu.”中,“yamanashi”为名词(noun),相应的表音字符串为“yamanashi’”;“ken”为名词,相应的表音字符串为“ken”;“no”为日语助词(particle)joshi,相应的表音字符串为“no”;跟在“no”后的空白为重音短语边界(boundary);“koukou”为名词,相应的表音字符串为“koukou”;“o”为日语助词joshi,相应的表音字符串为“o”;跟在“o”后的空白为重音短语边界;“so tsugyoshi”为动词(verb)(renyou形式(日语中动词和形容词的结合形式)),相应的表音字符串为“sotsugyo shi”;“te”为日语助词joshi,相应的表音字符串为“te”;“,”为呼吸群边界(停顿长度为中等),相应的表音字符串为“,”;“shinyou”为名词,相应的表音字符串为“shinyoo”;“kin ko”为名词,相应的表音字符串为“ki′nko”;“ni”为日语助词joshi,相应的表音字符串为“ni”;跟在“ni”后的空白为重音短语边界;“hait”为动词(renyou形式(日语中动词和形容词的结合形式),日语sokuon-bin),相应的表音字符串为“ha*it”;“te”为日语助词joshi,相应的表音字符串为“te”;跟在“te”后的部分为呼吸群边界(停顿长度为小),相应的表音字符串为“·”;“yo”为数词(numeral),相应的表音字符串为“yo”;“nen”为日语josuushi(量词(counter word),日语语音部分),相应的表音字符串为“nen”;“me”为josuushi的后置,相应的表音字符串为“me′”;“desu”为动态助词(auxiliary verb),相应的表音字符串为“desu”;以及“.”为呼吸群边界(停顿长度为大),相应的表音字符串为“.”。这样,上述示例性日语文本的表音字符串为“yamanashi′ken no koukou o so tsugyoushi te,shinyoo ki′n koni ha*itte·yonenme′desu.”。
关于表音字符串中“shinyoo”部分音素长度的生成以及根据语速对该音素长度的调整,请参阅图19。图19示出在这种情况下所生成的音素长度的示例。在图18中,通过使用罗马字符书写输入文本和表音字符串,但输入文本是与表音字符串不同的数据。换句话说,语音朗读设备2将输入文本转换为表音字符串。
在这些示例中,假定每秒约7个短音节为1倍(1×)速度,当生成了3倍(3×)速度下的音素长度(每秒约21个短音节)时,从音素长度表16(图1)读取1倍速度下的音素长度,并对音素长度进行调整,使其随语速而反向变化。在调整音素长度之后,基于有关例如重音的信息生成基音模式,并合成语音波形。
另一方面,关于第一实施例(图6)中处理的结果,请参阅图20。图20为示出第一实施例(图6)中所生成音素长度的示例。
在这个示例中,当生成3倍速度下的音素长度时,通过将基于简单反比关系获得的“sh”(为摩擦音)的音素长度乘以3/2,来生成“sh”的音素长度。结果,如图20所示,当“sh”在1倍速度下的音素长度为117ms时,“sh”在3倍速度下的音素长度为59ms。将这些音素长度与其它音素“i”、“n”、“y”、“o”和“o”的音素长度进行比较,显示出:在1倍速度下,由于音素“sh”的音素长度为117ms,而其它音素“i”、“n”、“y”、“o”和“o”的音素长度分别为60ms、60ms、65ms、80ms和105ms,没有出现明显差异;另一方面,在3倍速度下,由于音素“sh”音素长度为59ms,而其它音素“i”、“n”、“y”、“o”和“o”的音素长度分别为20ms、20ms、22ms、27ms和35ms,出现了明显差异。结果,可以改善可听性,从而改善可识别性。
关于作为处理结果的合成语音波形,请参阅图21a、图21b和图21c。图21c示出以正常语速朗读文本“so tsugyoushi te,shinyou kin koni”的情况下的合成语音波形。在这种情况下,通过图17中流程图所示的处理朗读该文本。图21b示出以高语速朗读同一文本的情况下的合成语音波形。在这种情况下,通过图17中流程图所示的处理朗读该文本,即不延长摩擦音的音素长度。图21c示出以高语速朗读同一文本的情况下的合成语音波形。在这种情况下,应用根据第一实施例的处理(图6中所示流程图),并延长摩擦音的音素长度。假定图21a中的语音朗读时间为To,在图21b和图21c中,由于选择了3倍速度,因此语音朗读时间为To/3。
图21a中由虚线包围的部分a表示摩擦音,图21b中由虚线包围的部分b也表示同一音素。能够理解,根据三倍的语速,部分b中的音素长度被减小。当听取这个音素的语音发声时,就象声音中出现了中断(break),难于听到该摩擦音。另一方面,对于图21c中由虚线包围的部分c,根据三倍的语速将该摩擦音的音素长度延长。因此,即使在高语速下听取这个音素的语音发声,声音中也没有中断出现,并能够改善可听性。
第二示例
关于表示第二示例中处理结果的合成语音波形,请参阅图22a和图22b以及图23a和图23b。图22a和图22b示出对比示例中的合成语音波形。图23a和图23b示出第二示例中的合成语音波形。图22a示出正常语速下的波形,而图22b示出高语速下的波形。在图22b示出的高语速下朗读语音的情况中,部分d中摩擦音的音素长度被缩短,使其随语速而反向变化。在这个示例中,摩擦音的音素长度被缩短为15ms。
另一方面,图23a示出根据第一实施例的处理(图6中流程图)中在正常语速下的波形,而图23b示出根据高语速将摩擦音的音素长度延长的情况下的波形。
将图22b中的部分d和图23b中的部分e进行比较,显示出:当将基于简单反比关系得到的音素长度延长时,该音素长度被延长为35ms,即该音素长度乘以约2.3。因此,声音中不出现中断,而改善了可听性。
第三实施例
关于表示第三示例中处理结果的合成语音波形,请参阅图24a和图24b以及图25a和图25b。图24a和图24b示出对比示例中的合成语音波形。图25a和图25b示出第三示例中的合成语音波形。在第一和第二示例中朗读日语文本,而在第三示例中朗读英语文本“ha ppy,sho ck,shoo t”。
图24a示出正常语速下的波形,而图24b示出高语速下的波形。在以图24b示出的高语速朗读语音的情况中,部分f和g中摩擦音的音素长度被缩短,使其随语速而反向变化。在这个示例中,部分f中摩擦音的音素长度被缩短为19ms,而部分g中摩擦音的音素长度被缩短为14ms。
另一方面,图25a示出根据第一实施例的处理(图6中流程图)中在正常语速下的波形,而图25b示出根据高语速将摩擦音的音素长度延长的情况下的波形。
将图24b中的部分f和g与图25b中的部分h和i进行比较,显示出:当将基于简单反比关系得到的音素长度延长时,部分h中的音素长度被延长为27ms,而部分i中的音素长度被延长为25ms,即音素长度实质上翻倍了。因此,声音中不出现中断,而改善了可听性。
在权利要求中将描述从本发明的上述实施例提取出的技术构思。

Claims (12)

1.一种将文本数据转换为声音信号的设备,包括:
音素确定器,用于确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据,其中所述多个停顿被插入到将被转换为声音信号的所述文本数据中的一连串音素之间;
音素长度调整器,通过分别根据所述声音信号的语速确定所述音素的长度,以及通过当所述语速为高速时对所述文本数据中摩擦音的所述音素的长度作调整,使得至少一个摩擦音音素与其它音素相比在时间上被相对延长来调整所述音素数据和所述停顿数据;以及
输出单元,基于由所述音素长度调整器所调整的音素数据和停顿数据,来输出声音信号。
2.如权利要求1所述的设备,还包括:
语速确定器,用于确定所述声音信号的语速;
其中,当所述语速确定器确定所述声音信号的语速高于预定语速时,所述音素长度调整器通过增大所述摩擦音音素的长度对所述音素数据进行调整。
3.如权利要求1所述的设备,还包括:
呼吸群计算器,用于计算呼吸群的长度;
其中,所述音素长度调整器通过将所述摩擦音音素的长度延长量按比例分配给所述呼吸群中的所有音素,来减小所有音素的长度。
4.如权利要求1所述的设备,其中,当所述声音信号的语速高于预定语速时,所述音素长度调整器通过将所述文本数据中的停顿长度减小为比与所述声音信号的语速相对应的停顿长度小的停顿长度,来调整所述停顿数据。
5.如权利要求1所述的设备,其中,当所述声音信号的语速高于预定语速时,所述音素长度调整器通过移除所述文本数据中的最后一个停顿,来调整所述停顿数据。
6.如权利要求2所述的设备,其中,所述音素长度调整器通过减小其它音素长度和其它停顿长度以与所述摩擦音音素的长度的增大相对应,来调整所述音素数据和所述停顿数据。
7.一种用于将文本数据转换为声音信号的方法,包括以下步骤:
确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据,其中所述多个停顿被插入到将被转换为声音信号的所述文本数据中的一连串音素之间;
通过分别根据所述声音信号的语速来确定所述音素的长度,以及通过当所述语速为高速时对所述文本数据中摩擦音的所述音素的长度作调整,使得至少一个摩擦音音素与其它音素相比在时间上被相对延长,来调整所述音素数据和所述停顿数据;以及
基于所调整的音素数据和停顿数据,输出声音信号。
8.如权利要求7所述的方法,还包括以下步骤:
确定所述声音信号的语速;以及
当所述声音信号的语速高于预定语速时,通过增大所述摩擦音音素的长度,来调整所述音素数据。
9.如权利要求7所述的方法,还包括以下步骤:
计算呼吸群的长度;以及
通过将所述摩擦音音素的长度延长量按比例分配给所述呼吸群中的所有音素,来减小所有音素的长度。
10.如权利要求7所述的方法,还包括以下步骤:
当所述声音信号的语速高于预定语速时,通过将所述文本数据中的停顿长度减小为比与所述声音信号的语速相对应的停顿长度小的停顿长度,来调整所述停顿数据。
11.如权利要求7所述的方法,还包括以下步骤:
当所述声音信号的语速高于预定语速时,移除所述文本数据中的最后一个停顿,来调整所述停顿数据。
12.如权利要求8所述的方法,还包括以下步骤:
通过减小其它音素长度和其它停顿长度,使得与所述摩擦音音素的长度的增大相对应,来调整所述音素数据和所述停顿数据。
CN2008101248954A 2007-06-25 2008-06-25 文本到语音转换设备及其转换方法 Expired - Fee Related CN101334995B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007167019A JP5029168B2 (ja) 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法
JP2007167019 2007-06-25
JP2007-167019 2007-06-25

Publications (2)

Publication Number Publication Date
CN101334995A CN101334995A (zh) 2008-12-31
CN101334995B true CN101334995B (zh) 2011-08-03

Family

ID=39683831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101248954A Expired - Fee Related CN101334995B (zh) 2007-06-25 2008-06-25 文本到语音转换设备及其转换方法

Country Status (5)

Country Link
US (1) US20080319754A1 (zh)
EP (1) EP2009620B1 (zh)
JP (1) JP5029168B2 (zh)
KR (1) KR101019851B1 (zh)
CN (1) CN101334995B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930192B1 (en) * 2010-07-27 2015-01-06 Colvard Learning Systems, Llc Computer-based grapheme-to-speech conversion using a pointing device
JP5914996B2 (ja) * 2011-06-07 2016-05-11 ヤマハ株式会社 音声合成装置およびプログラム
JP6127371B2 (ja) * 2012-03-28 2017-05-17 ヤマハ株式会社 音声合成装置および音声合成方法
JP6121313B2 (ja) * 2013-11-19 2017-04-26 日本電信電話株式会社 ポーズ推定装置、方法、プログラム
CN106952656A (zh) * 2017-03-13 2017-07-14 中南大学 语言感染力远程测评方法及系统
GB2565589A (en) * 2017-08-18 2019-02-20 Aylett Matthew Reactive speech synthesis
CN108682420B (zh) * 2018-05-14 2023-07-07 平安科技(深圳)有限公司 一种音视频通话方言识别方法及终端设备
CN113544768A (zh) * 2018-12-21 2021-10-22 诺拉控股有限公司 使用多传感器的语音识别
WO2021102193A1 (en) * 2019-11-19 2021-05-27 Apptek, Llc Method and apparatus for forced duration in neural speech synthesis
CN111627422B (zh) * 2020-05-13 2022-07-12 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890117A (en) * 1993-03-19 1999-03-30 Nynex Science & Technology, Inc. Automated voice synthesis from text having a restricted known informational content
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
EP0688010B1 (en) * 1994-06-16 2001-01-10 Canon Kabushiki Kaisha Speech synthesis method and speech synthesizer
JP3284634B2 (ja) * 1992-12-29 2002-05-20 ソニー株式会社 規則音声合成装置
US6470316B1 (en) * 1999-04-23 2002-10-22 Oki Electric Industry Co., Ltd. Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
CN1661673A (zh) * 2004-02-27 2005-08-31 雅马哈株式会社 语音合成装置、方法和记录语音合成程序的记录介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2628994B2 (ja) * 1987-04-10 1997-07-09 富士通株式会社 文−音声変換装置
JPH01118200A (ja) * 1987-10-30 1989-05-10 Fujitsu Ltd 音声合成方式
JP3113101B2 (ja) 1992-11-09 2000-11-27 株式会社東芝 音声合成装置
JPH0772896A (ja) * 1993-09-01 1995-03-17 Sanyo Electric Co Ltd 音声の圧縮伸長装置
JPH07140996A (ja) * 1993-11-16 1995-06-02 Fujitsu Ltd 音声規則合成装置
DE4341082A1 (de) * 1993-12-02 1995-06-08 Teves Gmbh Alfred Schaltungsanordnung für sicherheitskritische Regelungssysteme
US6823309B1 (en) * 1999-03-25 2004-11-23 Matsushita Electric Industrial Co., Ltd. Speech synthesizing system and method for modifying prosody based on match to database
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3284634B2 (ja) * 1992-12-29 2002-05-20 ソニー株式会社 規則音声合成装置
US5890117A (en) * 1993-03-19 1999-03-30 Nynex Science & Technology, Inc. Automated voice synthesis from text having a restricted known informational content
EP0688010B1 (en) * 1994-06-16 2001-01-10 Canon Kabushiki Kaisha Speech synthesis method and speech synthesizer
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
US6470316B1 (en) * 1999-04-23 2002-10-22 Oki Electric Industry Co., Ltd. Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
CN1661673A (zh) * 2004-02-27 2005-08-31 雅马哈株式会社 语音合成装置、方法和记录语音合成程序的记录介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2003-5774A 2003.01.08
JP特开平8-76782A 1996.03.22
JP特许第3284634号B2 2002.05.20

Also Published As

Publication number Publication date
CN101334995A (zh) 2008-12-31
KR101019851B1 (ko) 2011-03-04
US20080319754A1 (en) 2008-12-25
JP5029168B2 (ja) 2012-09-19
JP2009003395A (ja) 2009-01-08
EP2009620B1 (en) 2012-11-07
EP2009620A1 (en) 2008-12-31
KR20080114565A (ko) 2008-12-31

Similar Documents

Publication Publication Date Title
CN101334995B (zh) 文本到语音转换设备及其转换方法
CN101334994B (zh) 文本到语音设备
CN101334996B (zh) 文本到语音的设备
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US8504368B2 (en) Synthetic speech text-input device and program
KR970037209A (ko) 음성 출력 장치(speech synthsizer)
JP2000206982A (ja) 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JPH08248993A (ja) 音韻時間長制御方法
JP2012037726A (ja) 音声合成装置およびコンピュータプログラム
JP3297221B2 (ja) 音韻継続時間長制御方式
JP3862300B2 (ja) 音声合成に用いる情報の処理方法および装置
JP2004004952A (ja) 音声合成装置および音声合成方法
JP2624708B2 (ja) 音声合成装置
JPH07239698A (ja) 音声規則合成装置
JPH0363696A (ja) テキスト音声合成装置
JP2001282274A (ja) 音声合成装置及びその制御方法及び記憶媒体
TEWABE SCHOOL OF GRADUATE STUDIES INSTITUTE OF TECHNOLOGY DEPARTMENT OF COMPUTER SCIENCE AND IT
Hillenbrand et al. Effects of fundamental frequency contour on the identification of resynthesized vowels with static formant frequency patterns
JPH04281495A (ja) 音声波形ファイル装置
JPH08202381A (ja) 音声合成装置
JPH02285400A (ja) 音声合成装置
JPH06118991A (ja) 音声合成方法
JP2004004954A (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110803

Termination date: 20200625