CN101334996A - 文本到语音设备 - Google Patents

文本到语音设备 Download PDF

Info

Publication number
CN101334996A
CN101334996A CNA2008101273034A CN200810127303A CN101334996A CN 101334996 A CN101334996 A CN 101334996A CN A2008101273034 A CNA2008101273034 A CN A2008101273034A CN 200810127303 A CN200810127303 A CN 200810127303A CN 101334996 A CN101334996 A CN 101334996A
Authority
CN
China
Prior art keywords
phoneme
length
pause
data
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101273034A
Other languages
English (en)
Other versions
CN101334996B (zh
Inventor
西池理香
佐佐木均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101334996A publication Critical patent/CN101334996A/zh
Application granted granted Critical
Publication of CN101334996B publication Critical patent/CN101334996B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种文本到语音设备。根据本发明实施例的一个方面,提供一种将文本数据转换为声音信号的设备,该设备包括:音素确定器,用于确定与多个音素相对应的音素数据和与多个停顿相对应停顿数据,其中所述多个停顿待被插入到将被转换为语音信号的文本数据中的一系列音素之间;音素长度调整器,用于分别根据声音信号的速度确定音素的长度,以及选择性地将文本数据中至少一个停顿的长度减小到比与声音信号的速度相对应的停顿长度小的停顿长度,以此调整所述音素数据和所述停顿数据;以及输出单元,用于基于由音素长度调整器所调整的音素数据和停顿数据输出声音信号。

Description

文本到语音设备
技术领域
本发明涉及一种将包括表音符号(phonogram)的文本数据转换成声音并且输出所述声音的文本到语音读取设备、程序和方法,更具体地,涉及一种根据读取速率而能控制音素长度的文本到语音读取设备、程序和方法,尤其是能够基于低速读取而保持或缩短特定音素长度的文本到语音读取设备、程序和方法。
背景技术
所谓文本到语音读取技术是已知的。该技术分析包括表音符号的文本数据并且基于语音合成方法使用文本数据执行语音合成,从而以语音的形式输出所述文本数据。在便携终端设备(例如手机)领域,读取自由文本(例如电子邮件消息)的语音合成功能已经逐渐地广泛使用。在个人计算机(PC)领域,称为“屏幕读取器”的软件也逐渐流行。考虑到理解文本内容的情况,代表元音、辅音、停顿等的音素长度是帮助识别的重要因素。
有关这种文本到语音读取技术,日本特开专利公布No.6-149283公开了以下语音合成技术。根据该技术,如果话语速度信息小于预设值,则最小化短音节(mora)长度以基于所述信息将话语速度设置为高于标准速度,并且设置相应于所述话语速度信息的短帧周期。另一方面,如果话语速度信息不小于预设值,则根据所述话语速度信息设置长的短音节长度,以基于所述信息将话语速度设置为低于标准速度,并且最大化帧周期。
如果读取速率(话语速率)是可变的,则与所述话语速率成反比的方式设置每个音素的长度。例如,话语速率是正常话语速率的两倍,则音素长度变成正常长度的1/2。如果话语速率是正常速率的1/2,则音素长度变成正常长度的两倍。假设以这种方式简化话语速率与音素长度之间的关系,也即,话语速率与音素长度仅仅是反比,则有可能阻碍平滑识别,以至于在高速或低速朗读时难以听到一些声音,虽然这些声音在通常的话语速率(rate)下是正常(容易听到)的。
日本特开专利公布No.6-149283既没有公开和暗示这些需求或问题,也没有公开和暗示解决这些问题的任何方案。
发明内容
根据本发明实施例的一个方面,本发明提供一种用于将文本数据转换为声音信号的设备,该设备包括:音素确定器,用于确定与多个音素相对应的音素数据和与多个停顿相对应的停顿数据,其中所述停顿待被插入到将被转换为声音信号的所述文本数据中的一系列音素之间;音素长度调整器,用于分别根据所述声音信号的速度确定所述音素的长度,以及选择性地将所述文本数据中至少一个停顿的长度减少到比与所述声音信号的速度相对应的停顿长度小的停顿长度,以此调整所述音素数据和所述停顿数据;以及输出单元,用于基于由所述音素长度调整器所调整的音素数据和停顿数据输出所述声音信号。
附图说明
图1是显示根据本发明第一实施例的文本到语音读取设备的结构示例的框图;
图2是显示文本到语音读取设备的音素长度控制单元的结构示例的框图;
图3是显示整合有所述文本到语音读取设备的便携终端设备的示例框图;
图4显示便携终端设备的示例结构;
图5显示屏幕显示的示例;
图6是显示第一实施例的音素长度控制处理过程的示例流程图;
图7是显示根据本发明第二实施例的音素长度控制处理过程的示例流程图;
图8是显示根据本发明第三实施例的音素长度控制处理过程的示例流程图;
图9是显示根据本发明第四实施例的音素长度控制单元的框图;
图10是显示第四实施例的音素长度控制处理过程的示例流程图;
图11是显示根据本发明第五实施例的音素长度控制单元的框图;
图12是显示第五实施例的音素长度控制处理过程的示例流程图;
图13是显示根据本发明第六实施例的音素长度控制处理过程的示例流程图;
图14是显示根据本发明第七实施例的音素长度控制处理过程的示例流程图;
图15是显示根据本发明第八实施例的音素长度控制处理过程的示例流程图;
图16是显示根据本发明第九实施例的音素长度控制处理过程的示例流程图;
图17是显示根据本发明第十实施例的音素长度控制处理过程的示例流程图;
图18是显示根据本发明第十一实施例的音素长度控制处理过程的示例流程图;
图19是显示根据本发明第十二实施例的音素长度控制处理过程的示例流程图;
图20是显示根据本发明第十三实施例的音素长度控制处理过程的示例流程图;
图21是显示设有话语速率调整单元的参数生成单元的框图;
图22是显示根据本发明其它实施例的音素长度控制处理过程的示例流程图;
图23是显示根据本发明其它实施例的音素长度控制处理过程的示例流程图;
图24是显示音素长度控制处理过程的示例流程图;
图25显示语言处理结果;
图26a和图26b分别显示合成的语音波形;
图27a和图27b分别显示合成的语音波形;
图28a和图28b分别显示合成的语音波形;
图29a和图29b分别显示合成的语音波形;
图30a和图30b分别显示合成的语音波形;
图31a和图31b分别显示合成的语音波形;以及
图32a和图32b分别显示合成的语音波形。
具体实施方式
第一实施例
下面参照图1和图2描述本发明的第一实施例。图1是显示文本到语音读取设备的结构示例的框图。图2是显示文本到语音读取设备的音素长度控制单元的结构示例的框图。
文本到语音读取设备(语音朗读装置,语音朗读设备)2是本发明的文本到语音读取设备、程序和方法的示例。文本到语音读取设备2被配置为使用计算机,例如语音合成设备,将包括停顿、延长音(prolonged sound)、重叠辅音(geminate consonant)或辅音的文本数据(例如文本(在日语中,混有假名/汉字的句子))转换为声音并且用语音读取文本数据。所述文本到语音读取设备2根据话语速率(读取速率)控制如停顿、延长音、重叠辅音(日语促音(sokuon))或辅音的文本数据中的音素长度,由此改善通过转换所述文本数据获得的输出声音的清晰度,并且便于合成语音(读取语音)的识别。这里,所述文本数据是文本到语音转换的对象。该数据包括由停顿、延长音、重叠辅音或辅音组成的表音符号(photogram)及其字符串。所述表音符号或其字符串是中间语言,该中间语言由具有韵律符号的发音符号(phonetic symbol)组成,即,发音符号和韵律符号(假名)。停顿是无声期间的“沉默(silience)”,该无声期间例如为不转换为任何声音的期间(不包括正好在爆破音或重叠辅音前的停顿)。例如,在这样的日语句子“sotsugyoshi te,shinyou kin koni...”(以罗马字母书写)中,标点“,”被插入在“so tsugyoshi te”与“shinyou kin koni”之间作为无声期间。日语句子“sotsugyoshi te,shinyou kin koni...”的意思是“(他)从(高中)毕业之后,(他就)在银行(工作)...”。换句话说,“so tsugyoshi te”的意思是“毕业之后”以及“shinyou kin koni”的意思是“在银行”。通过该标点举例说明停顿。为了描述停顿与“短语(phrase)(呼吸群)”之间的关系,短语是与我们在一次呼吸中给出的话语(utterance)相对应的单位持续时间。然而前述的停顿被插入在所述短语前或后的换气位置(breathing position)。
延长音是延长的声音,不限于短持续时间的声音。在语音中重叠辅音是与之后音节的第一个辅音具有相同清晰度的止爆破音(stop-plosive)或摩擦音。例如,重叠辅音是“sakki”中的“kk”。此外,对比于元音,我们通过发音器官的阻塞(stopper)(封闭或缩小部分)而排出气息来产生重叠辅音。
为获得上述功能,如图1所示,所述文本到语音读取设备2包括语言处理单元(语言处理器)4、字典6、参数生成单元(参数生成器)8、基音(pitch)提取/交叠单元(音高提取/交叠单元)10以及波形库12。
所述语言处理单元4是语言处理装置,其通过参考字典6对输入的汉字/假名混合句子中的词进行分析,来确定如何朗读每个词、重音以及语调以输出表音字符串(photogramic string)(中间语言)。此外,字典6存储每个词的词性(kind)、如何朗读每个词以及哪个词有重音。
所述重音和语调实质上与基音频率的时间变化模式(pattern)有着密切关系。更具体地,在重音单词或升调中所述基音频率变高。因此,基于输入文本的标点或通过词分析所提取的分句,所述语言处理单元4将输入文本分成上述的短语。
所述参数生成单元8是用于设置音素持续时间、停顿持续时间或基音频率模式的参数生成装置。所述参数生成单元8根据话语速率控制音素长度。
如图1所示,参数生成单元8设有音素长度设定单元(音素长度设定器)14、音素长度表16、音素长度控制单元(音素长度控制器)18以及基音模式生成单元(基音模式生成器)20。
在语言处理单元4生成表音字符串的阶段,参数生成单元8确定对哪个音素进行语音合成。因此,音素长度设定单元14作为音素长度装置设定标准话语速率下的音素长度。音素长度表16是用于存储标准话语速率下的目标音素以及之前和之后音素的音素长度的装置。为描述音素长度的设定示例,音素长度表16预先存储标准话语速率下的目标音素以及之前和之后音素的的音素长度(从数据库中提取的值),并且基于预先存储的值来设定目标音素长度。可以使用其它参数校正音素长度。
音素长度控制单元18是音素长度控制装置,其用于根据实际话语速率对音素长度设定单元14设定的标准话语速率下的音素长度进行控制。将话语速率由用于调整读取速率(例如用户设定等)的装置(未显示)发送至音素长度控制单元18,作为控制信息。
如图2所示,音素长度控制单元18包括音素长度调整单元(音素-长度调节单元)24、话语速率确定单元(语音速度确定单元,语速确定单元)26以及音素确定单元28。音素长度调整单元24从话语速率确定单元26和音素确定单元28接收确定结果以调整音素长度或停顿长度。话语速率确定单元26分析输入的话语速率以确定所述话语速率为标准速度、高速或低速,并且将确定结果发送至音素长度调整单元24。在这种情况下,话语速率确定单元26的确定结果表示标准速度、高速或低速。此外,音素确定单元28确定任一音素或停顿是否位于文本数据的开头,例如,具有由音素长度设定单元14(图1)设定的音素长度的音素和停顿,并且将所述确定结果发送到音素长度调整单元24。
根据音素长度控制单元18,如果音素长度与基于标准话语速率确定的任何话语速率和标准话语速度的比成反比,更具体地,如果基于标准速率(例如,每秒7个短音节)将话语速率设定为每秒14个短音节,则将每个音素长度设定为1/2;如果设定话语速率为每秒6个短音节,则每个音素长度设定为7/6。这里,短音节(mora)是指节拍(beat)并且近似对应于一个假名字符。拗音(contracted sound)(小的假名字符“ya”、“yu”以及“yo”、“kya”)对应于1个短音节。在日语中,一个字符长度近似对应1个短音节。
基音模式生成单元20是模式生成装置,其考虑到表音字符串(photogramstring)中的重音信息设定各音素的基音频率。
基音提取/交叠单元10是使用PSOLA(基音同步交叠相加,PitchSynchronous OverLap and Add:基于波形复用的基音转换方法)的基音提取/交叠装置。波形库12存储语音波形、音素标志(phoneme label)以及基音标记(mark),其中音素标志表示波形的每个部分与音素之间的关系,基音标记表示所发声音(voiced sound)的基音频率。基于参数生成单元8生成的参数,基音提取/交叠单元10从波形库12中提取对应2个周期(cycle)的语音波形,将所述波形与窗函数(例如,汉宁窗)相乘,并且可选地,将所述波形与用于振幅调节的增益相乘。然后,如果期望的基音频率与存储在波形库12中的基音频率不匹配,基音提取/交叠单元10使得提取的波形交叠(overlap),由此计算总和,以输出合成的音频信号。
接下来参照图3、图4以及图5,描述文本到语音读取设备的硬件组成。图3是显示整合有所述文本到语音读取设备的便携式终端装置的示例框图。图4显示便携式终端装置的结构示例。图5显示屏幕显示的示例。
便携式终端装置(移动终端装置,便携式终端设备)200示例了文本到语音读取设备2的应用,并且便携式终端装置的结构不限于本发明的文本到语音读取设备、方法或程序。便携式终端装置200具有通信功能或者将文本数据转换为声音并且输出该声音的功能,所述文本数据例如是电子邮件消息(日语中的汉字/假名混合的句子)。因此,如图3所示,便携式终端装置200设有处理器202、存储单元204,无线单元(无线通信单元、无线电单元)206、输入单元208、显示单元210、嗓音输入单元(语音输入单元、声音输入单元)212以及嗓音输出单元(语音输出单元、声音输出单元)214。
处理器202是控制装置,其用于控制电话通信、诸如语音合成的文本到语音读取操作、或其它类似操作。处理器202包括CPU(中央处理单元)或MPU(微处理单元),并且执行存储单元204中的OS(操作系统)程序或应用程序。应用程序包括执行文本到语音读取处理过程的程序。
存储单元204是记录介质,其存储由处理器202执行的程序或为执行程序所使用的各种数据,并且定义处理区。存储单元204包括程序存储单元216、数据存储单元218以及RAM(随机存取存储器)220。程序存储单元216存储OS程序或应用程序。数据存储单元218包括字典6、波形库12以及音素长度表16(图1),并且存储上述数据。RAM 200提供工作区。
无线单元206是无线通信装置,其用于通过无线通信向/从基站发射/接收音频信号波或包信号波。该无线单元受处理器202的控制。
输入单元208是这样一种装置,其通过用户的操作输入对显示单元210提供的对话框的答复或输入控制数据。输入单元包括键盘和触控面板。
显示单元210是由处理器202控制并显示文本或图形数据的显示装置。该显示单元包括例如LCD(液晶显示器)元件。显示单元210显示用于文本到语音转换的文本数据。
语音输入单元212是由处理器202控制的语音输入装置。语音输入单元包括麦克风222。输入的语音由麦克风222转换为音频信号,该音频信号被转换为数字信号并输入到处理器202。
语音输出单元214是由处理器202控制的语音输出装置。语音输出单元包括作为语音转换装置的接收器224以及扬声器226R和226L。使用接收器224以及扬声器226R和226L再现通过文本到语音转换生成的合成语音。
在便携式终端装置200中,例如上述文本到语音读取设备2包括处理器202、存储单元204、显示单元210以及语音输出单元214。
如图4所示,便携式终端装置200包括第一壳体单元230和第二壳体单元232,作为例子这两个壳体单元组成壳体单元228。壳体单元230和232通过铰链部234以可折叠的方式耦合。壳体单元232具有显示单元210、接收器224以及扬声器226R和226L。输入单元208具有用于输入字符等的多个键236、光标键238以及回车键240。
便携式终端装置200的文本到语音读取操作的对象是各种类型的文本,例如电子邮件消息或小说。对显示单元210的屏幕上显示的句子等进行语音合成并且由接收器224、扬声器226R和226L进行再现。在这种情况下,如图5所示,在显示单元210上显示的电子邮件消息显示屏幕242上显示电子邮件消息。该电子邮件消息通过语音输出。在这个例子中,显示并由语音再现了消息“yamanashiken no koukou wo so tsugyoshi te shinyou kin koni haitte4nenme desu.”。“yamanashiken no koukou wo so tsugyoshi te shinyou kin konihaitte 4nenme desu”表示日语发音。日语句子“yamanashiken no koukou wo sotsugyoshi te shinyou kin koni haitte 4nen me desu”英语意思是“他高中毕业之后,在银行工作了4年”。
下面参照图6描述如何控制音素长度。图6是根据第一实施例的音素长度控制处理过程的示例流程图。
所述处理过程示例了文本到语音读取程序或方法。在第一实施例中,该过程包括如下进程或步骤:根据低速读取时的话语速率用固定值(fixedvalue)乘以音素长度;和保持短语中最后一个停顿的长度。由文本到语音读取设备2(图1)的音素长度控制单元18(图2)执行所述处理过程。
如图6所示,该处理过程包括语言处理(步骤S101)和音素长度设定处理(步骤S102)。由语言处理单元4执行语言处理(步骤S101)以利用输入数据生成表音字符串。在这个阶段,确定哪个音素用于语音合成。接下来,通过音素长度设定单元14执行音素长度设定处理(步骤S102)以设定包括停顿的每个音素在标准话语速率下的音素长度。在这种情况下,通过参考音素长度表16设定目标音素(target phoneme)以及之前和之后音素在标准话语速率下的音素长度。
在设定音素长度的上述处理之后,音素编号n被初始化(n=1)(步骤S103),以根据话语速率控制音素长度(步骤S104到步骤S108)。基于短语来控制音素长度,处理短语中音素的循环由步骤S103到步骤S108组成。音素长度控制处理包括确定要被控制的音素的处理以及基于确定结果调整音素长度的处理。
音素长度控制单元18分析输入的话语速率信息并且根据所述话语速率将音素长度乘以固定值(步骤S104)。在这种情况中,根据话语速率将停顿长度乘以固定值。在这种音素调整之后,更新音素编号n(n=n+1)(步骤S105)以确定是否已处理完帧内所有的音素,更具体地,是否短语中的音素编号n达到音素数量n(步骤S106),从而执行对短语中所有音素的处理。
在短语中所有音素都处理完成之后,确定话语速率,更具体地,确定话语速率是否是低速(步骤S107)。如果话语速率不是低速(步骤S107为否),则将短语中最后一个停顿的长度乘以固定值(步骤S108)。如果话语速率是低速(步骤S107为是),则处理跳过步骤S108并进行关于处理终止的确定(步骤S109)。在进行终止确定时,需要确定是否所有的输入数据都被处理完(步骤S109)。重复步骤S103到步骤S109的处理直到处理完所有输入数据。在确定终止之后,执行语音合成(步骤S110)并输出语音。
以这种方式,基于短语根据话语速率设定音素长度。如果话语速率为低速,则根据话语速率不增加最后一个停顿的长度,因此相比于低速读取时延长的音素,减小了停顿长度,因此读取语音不会出现声音脱落(draw out)并且可以缩短读取时间。
第二实施例
接下来描述本发明的第二实施例。图7是第二实施例的音素长度控制处理过程的示例流程图。
处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图2)执行该处理过程。
在第二实施例中,确定话语速率是否为低速以及目标声音是否为延长音或重叠辅音。当低速读取时,根据话语速率,将除了延长音或重叠辅音之外的音素长度乘以固定值,而延长音或重叠辅音的长度没有增加。这样,延长音或重叠辅音的长度作为标准长度没有被改变,由此实现悦耳的声音,而在读取文本数据时不会过多增加总的再现时间。
在第二实施例中,为了确定待增长的音素,音素确定单元28(图2)确定目标声音是否是延长音或重叠辅音,以将延长音或重叠辅音的音素长度设定为标准长度。
如图7所示,在该处理过程中,执行语言处理(步骤S201)和音素长度设定处理(步骤S202)。在处理过程、语言处理(步骤S201)和音素长度设定处理(步骤S202)之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S203)。
初始化之后,确定读取速率是否为低速以及目标音素是否为延长音或重叠辅音(步骤S204)。如果读取速率是低速并且目标音素不是延长音或重叠辅音(步骤S204为否),则根据话语速率设定音素长度(步骤S205)。换句话说,基于输入的话语速率信息,音素长度控制单元18根据话语速率将音素长度乘以固定值(步骤S205)。如果读取速率为低速并且目标音素是延长音或重叠辅音(步骤S204为是),则跳过步骤S205,更新音素编号n(n=n+1)(步骤S206)以确定是否已经处理了短语中所有音素(步骤S207),从而执行对短语中所有音素的处理。
在完成短语中音素的处理之后到达短语中最后的停顿,根据话语速率将停顿长度乘以固定值(步骤S208),接着进行关于终止的确定(步骤S209)。重复步骤S203到步骤S209,直到完成所有数据的处理。在确定终止之后,执行语音合成(步骤S210),并输出语音。
这样,基于短语根据话语速率调整音素长度。如果音素包括延长音或重叠辅音的音素,则将延长音或重叠辅音的音素长度设定为标准长度并且不将其增大,由此实现了易于听取的声音并且便于读取语音的识别。
第三实施例
接下来参照图8描述本发明的第三实施例。图8是第三实施例的音素长度控制处理过程的示例流程图。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图2)执行该处理过程。在第三实施例中,除了第二实施例中的音素长度调整之外,将停顿长度设定为标准长度而不增大,由此实现易于听取的声音。
在第三实施例中,为确定进行音素长度调整的音素,音素确定单元28(图2)确定目标音素是否为停顿或延长音或重叠辅音,以将所述停顿、延长音或重叠辅音的音素长度设定为标准长度,而不增加长度。
因此,在该处理过程中,如图8所示,执行语言处理(步骤S301)和音素长度设定处理(步骤S302)。在语言处理(步骤S301)、音素长度设定处理(步骤S302)以及设定音素长度的处理之后,作为短语中的音素的处理,初始化音素编号n(n=1)(步骤S303)。
初始化之后,确定读取速率是否为低速以及目标音素是否为停顿或延长音或重叠辅音(步骤S304)。如果读取速率为低速且目标音素不是停顿、延长音或重叠辅音(步骤S304为否),则根据话语速率设定音素长度(步骤S305)。更具体地,根据输入的话语速率信息,音素长度控制单元18根据话语速率将音素长度乘以固定值(步骤S305)。如果读取速率为低速且目标音素是停顿、延长音或重叠辅音(步骤S304为是),则跳过步骤S305,更新音素编号n(n=n+1)(步骤S306)以确定是否已经处理了短语中的所有音素(步骤S307),从而执行对短语中所有音素的处理。
在完成短语中音素的处理之后到达短语中最后的停顿,根据话语速率将停顿长度乘以固定值(步骤S308),接着进行关于终止的确定(步骤S309)。重复步骤S303到步骤S309,直到完成所有数据的处理。在确定终止之后,执行语音合成(步骤S310),并输出语音。
这样,基于短语根据话语速率调整音素长度。如果音素包括停顿、延长音或重叠辅音的音素,则将停顿、延长音或重叠辅音的音素长度设定为标准长度并且不增加,由此实现易于听取的声音并且便于读取语音的识别。
第四实施例
接下来参照图9和图10描述本发明的第四实施例。图9是第四实施例的音素长度控制单元的框图。图10是第四实施例的音素长度控制处理过程的示例流程图。在图9中,与图2中的部件相同的部件用相同的附图标记表示。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图2)执行该处理过程。在第四实施例中,除了第一实施例中的音素长度调整之外,在低速读取时不增加停顿长度,更具体地,相对于停顿的延长音素,将除停顿之外的音素的长度增加,因此保持了总体长度以避免读取语音的声音脱落情形。更详细地,计算短语的总体长度,将总体长度按比例分成预定长度,并且将其分配给除停顿之外的所有音素由此避免读取语音的声音脱落,从而实现易于听取声音。
在第四实施例中,在文本到语音读取设备2(图1)的音素长度控制单元18(图2)中,设置短语长度计算单元(呼吸群(breath group)长度计算单元)30,以基于从音素长度调整单元24输出的数据计算短语的总体长度。将计算结果发送至音素长度调整单元24作为控制信息,音素长度调整单元24根据话语速率将停顿长度乘以固定值,然后计算短语的总体长度,以按比例地将增加的长度分配给短语中的所有音素,以使短语的读取时间具有预定长度。
如图10所示,在该处理过程中,执行语言处理(步骤S401)和音素长度设定处理(步骤S402)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S403)并且基于话语速率控制音素长度(步骤S404到S408)。与第一实施例相似,基于短语控制音素长度。
基于输入的话语速率信息,音素长度控制单元18根据所述话语速率将音素长度乘以固定值(步骤S404)。在这种情况下,根据话语速率也将停顿长度乘以固定值。在这种音素调整之后,更新音素编号n(n=n+1)(步骤S405)以确定是否短语中的所有音素都已经被处理,也即,短语中的音素编号n是否达到音素数量n(步骤S406),从而执行对短语中所有音素的处理。
短语中音素处理完成之后,确定读取速率是否为低速(步骤S407)。如果读取速率不是低速(步骤S407为否),则当所述处理进行到短语中的最后停顿时,根据话语速率将停顿长度乘以固定值(步骤S408)。另一方面,如果读取速率为低速(步骤S407为是),则计算短语的总体长度(步骤S409),并通过按比例将该长度分配给除停顿之外的所有音素来调整音素长度,从而使得短语的长度等于或近似等于音素长度没被增加时获得的长度(步骤S410),然后执行关于终止的确定(步骤S411)。重复步骤S403到S411,直到完成所有数据的处理。在确定终止之后,执行语音合成(步骤S412),并输出语音。
这样,增加除停顿之外的音素的长度,而不是增加低速读取时短语中最后一个停顿的音素长度,因此在不改变总体长度的同时,不会出现读取语音的声音脱落并且易于听取。
第五实施例
接下来参照图11和图12描述本发明的第五实施例。图11是示出第五实施例的音素长度控制单元的框图。图12是第五实施例的音素长度控制处理过程的示例流程图。在图11中,与图2中的部件相同的部件用相同的附图标记表示。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图2)执行该处理过程。在第五实施例中,除了第一实施例中的音素长度调整之外,在低速读取时不增加短语中最后停顿的长度,更具体地,相对于停顿的延长音素计算总体文本长度,并且将总体长度按比例分成预定长度并分配给所有音素,由此避免读取语音听起来好像脱落的情形,并实现易于听取声音。
在第五实施例中,在文本到语音读取设备2(图1)的音素长度控制单元18(图2)中,设有总体文本长度计算单元(整句长度计算单元)32。该总体文本长度计算单元具有如下功能。也即,基于从音素长度调整单元24输出的数据计算总体文本长度。将计算结果发送至音素长度调整单元24作为控制信息,音素长度调整单元24根据话语速率将停顿长度乘以固定值,然后按比例将所保持的或减少的长度分配给文本中所有的音素,以调整每个音素的长度,从而使得短语的读取时间具有预定长度。
如图12所示,在该处理过程中,执行语言处理(步骤S501)和音素长度设定处理(步骤S502)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S503),并且基于话语速率控制音素长度(步骤S504到S508)。与第一实施例相似,基于短语而控制音素长度。
基于输入的话语速率信息,音素长度控制单元18根据所述话语速率将音素长度乘以固定值(步骤S504)。在这种情况下,根据话语速率将停顿长度也乘以固定值。在这种音素调整之后,更新音素编号n(n=n+1)(步骤S505)以确定是否短语中的所有音素都已经被处理,也即,短语中的音素编号n是否达到音素数量n(步骤S506),从而执行对短语中所有音素的处理。
在短语中的音素处理完成之后,确定读取速率是否为低速(步骤S507)。如果读取速率不是低速(步骤S507为否),则当所述处理进行到短语中的最后停顿时,根据话语速率将停顿长度乘以固定值(步骤S508)。另一方面,如果读取速率是低速(步骤S507为是),则执行关于终止的确定(步骤S509)。在关于终止的确定时,确定是否所有数据的处理已经完成。在确定终止之后,通过按比例给所有音素分配长度来调整音素长度,从而使得文本长度等于或近似等于音素长度没增加时获得的长度(步骤S511),然后执行语音合成(步骤S512)以输出语音。
这样,基于文本增长音素,而不是在低速读取时增加短语中最后一个停顿的音素长度,因此在不改变文本总体长度的同时,读取语音不会听起来像脱落并且易于听取。
第六实施例
接下来参照图13描述本发明的第六实施例。图13是第六实施例的音素长度控制处理过程的示例流程图。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图2)执行该处理过程。在第六实施例中,增加元音的音素长度,而不是缩短延长音或重叠辅音的音素长度,因此在大体保持整体长度的同时,实现了更易于听取的读取语音。在这种情况下,例如,将低速读取时的话语速率设置为标准速度的0.8倍(time)或更小,同时将音素长度设置为标准音素长度的0.8倍(fold)作为固定比率。虽然延长音或重叠辅音的音素长度减少,但是元音的音素长度增加,因此能够更容易听取读取语音,而不会增加文本到语音转换的时间。
如图13所示,在该处理过程中,执行语言处理(步骤S601)和音素长度设定处理(步骤S602)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S603)并且基于话语速率控制音素长度(步骤S604到S611)。
与第二实施例(图7)相似,基于短语控制音素长度。
同样,在第六实施例中,根据话语速率将音素长度乘以固定值(步骤S604)。确定读取速度是否为低速以及音素是否为延长音或重叠辅音(步骤S605)。如果读取速度为低速并且音素是延长音或重叠辅音(步骤S605为是),则将音素长度乘以预定值,例如0.8(步骤S606)。另一方面,如果读取速度为低速且音素不是延长音或重叠辅音(步骤S605为否),则确定读取速度是否为低速以及音素是否是元音(步骤S607)。如果读取速度为低速并且音素是元音(步骤S607为是),则将音素长度乘以预定值,例如1.1,即调整音素长度(步骤S608)。另一方面,如果读取速度为低速以及音素不是元音(步骤S607为否),则保持在步骤S604中根据话语速率乘以固定值的音素长度。
然后,如上所述,更新音素编号n(n=n+1)(步骤S609)。确定是否已经处理了短语中的所有音素(步骤S610)。当处理进行到短语中的最后停顿时,根据话语速率将停顿长度乘以固定值(步骤S611),接着执行关于终止的确定(步骤S612)以及语音合成(步骤S613)。
这样,延长音或重叠辅音的音素长度被设置为短于标准音素长度,并且元音的音素长度增加,因此大体上保持整体长度而不会增加输出语音的总体再现时间,并且更易于听取合成语音,和便于读取语音的识别。
第七实施例
接下来参照图14描述本发明的第七实施例。图14是第七实施例的音素长度控制处理过程的示例流程图。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图9)执行该处理过程。在第七实施例中,缩短延长音或重叠辅音的音素长度,并且所缩短的长度被按比例地分配给除延长音或重叠辅音之外的所有音素,以增加这些音素的长度。由此,保持短语的长度,也即,没有增加文本到语音转换的时间,同时使读取语音更易于听到。作为例子,将话语速率设置为低于标准速度的0.8倍,并且音素长度的缩短比率被设定为0.8。
如图14所示,在该处理过程中,执行语言处理(步骤S701)和音素长度设定处理(步骤S702)。之后,在处理短语中音素时,初始化音素编号n(n=1)(步骤S703),并且基于话语速率控制音素长度(步骤S704到S709)。与第二实施例相似(图7),基于短语控制音素长度。
同样在第七实施例中,根据话语速率将音素长度乘以固定值(步骤S704)。确定读取速度是否为低速以及音素是否为延长音或重叠辅音(步骤S705)。如果读取速度为低速并且音素是延长音或重叠辅音(步骤S705为是),则将音素长度乘以预定值,例如0.8(步骤S706)。另一方面,如果读取速度为低速并且音素不是延长音或重叠辅音(步骤S705为否),则保持步骤S704中根据话语速率乘以固定值的音素长度。
在上述处理之后,更新音素编号n(n=n+1)(步骤S707),然后确定是否完成短语中所有音素的处理(步骤S708)。在根据话语速率将短语中最后一个停顿的长度乘以固定值(步骤S709)之后,计算短语的总体长度(步骤S710),以按比例将所述长度分配给除停顿之外的所有音素,从而使得短语长度等于或近似等于预定长度,例如,音素长度不增加时获得的长度(步骤S711),然后执行关于终止的确定(步骤S712)。重复步骤S703到S712,直到完成所有数据的处理。在确定终止之后,执行语音合成(步骤S713),并且输出语音。
这样,根据话语速率将音素长度乘以固定值,然后,如果读取速度为低速并且音素是延长音或重叠辅音,则将音素长度设置为短于预设长度。在计算短语的总体音素长度后,将所缩短的长度按比例分配给除延长音或重叠辅音之外的所有音素,以增加长度。由此,保持了短语长度,此外,更易于听取读取语音,并且便于读取语音的识别。
第八实施例
接下来参照图15描述本发明的第八实施例。图15是第八实施例的音素长度控制处理过程的示例流程图。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图2)执行该处理过程。在第八实施例中,如果读取速率为低速且音素是延长音或重叠辅音,则缩短音素长度,但是不缩短其它音素的长度,实现了更易于听取的读取语音,同时大体保持了整体长度,即没有增加文本到语音转换的时间。
如图15所示,在该处理过程中,执行语言处理(步骤S801)和音素长度设定处理(步骤S802)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S803)并且基于话语速率控制音素长度(步骤S804到S809)。与第二实施例(图7)相似,基于短语控制音素长度。
同样,在第八实施例中,根据话语速率将音素长度乘以固定值(步骤S804)。确定读取速度是否为低速以及音素是否为延长音或重叠辅音(步骤S805)。如果读取速度为低速并且音素是延长音或重叠辅音(步骤S805为是),则将音素长度乘以预定值,例如0.8(步骤S806)。另一方面,如果读取速度为低速并且音素不是延长音或重叠辅音(步骤S805为否),则保持步骤S804中根据话语速率乘以固定值的音素长度。
在上述处理之后,更新音素编号n(n=n+1)(步骤S807),然后确定是否完成了对短语中所有音素的处理(步骤S808)。根据话语速率将短语中最后一个停顿的长度乘以固定值(步骤S809),接着执行有关终止的确定(步骤S810)。重复步骤S803到S810,直到完成所有数据的处理。在确定终止之后,执行语音合成(步骤S811),并且输出语音。
这样,如果读取速度为低速且音素是延长音或重叠辅音,则缩短音素长度,并将其它音素的长度设置为标准长度。结果,延长音或重叠辅音的音素长度短于其它音素的长度。因此,保持了读取句子的整体长度,此外,更易于听取合成语音,并且便于读取语音的识别。
第九实施例
接下来参照图16描述本发明的第九实施例。图16是第九实施例的音素长度控制处理过程的示例流程图。
该处理步骤示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图9)执行该处理过程。在第九实施例中,如果读取速率为低速且音素是停顿、或延长音或重叠辅音,则不增加音素长度,因此根据话语速率将除停顿或延长音或重叠辅音之外的音素的长度乘以固定值,由此增加长度。此外,基于短语将相应于没有增长的停顿、延长音或重叠辅音的音素的长度,按比例分配给除停顿、延长音或重叠辅音之外的所有音素,并由此增加长度。
如图16所示,在该处理过程中,执行语言处理(步骤S901)和音素长度设定处理(步骤S902)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S903)并且基于话语速率控制音素长度(步骤S904到S909)。与第二实施例(图7)相似,基于短语控制音素长度。
在第九实施例中,确定读取速度是否为低速以及音素是否为停顿或延长音或重叠辅音(步骤S904)。如果读取速度为低速并且音素不是停顿或延长音或重叠辅音(步骤S904为否),则根据话语速率将音素长度乘以预定值(步骤S905)。另一方面,如果读取速度为低速并且音素是停顿或延长音或重叠辅音(步骤S904为是),则跳过步骤S905,更新音素编号n(n=n+1)(步骤S906)。在确定完成对短语中音素的处理之后(步骤S907),根据话语速率将短语中最后一个停顿的长度乘以固定值(步骤S908)。
此外,计算总体短语长度(步骤S909),并且通过按比例地将该长度分配给除停顿或延长音或重叠辅音之外的音素,以使得短语的长度等于或近似等于预定长度,例如当音素长度没有增加时获得的长度(步骤S910),然后执行关于终止的确定(步骤S911)。重复步骤S903到S911,直到完成所有数据的处理。在确定终止之后,执行语音合成(步骤S912),并且输出语音。
这样,如果读取速度为低速且音素是停顿或延长音或重叠辅音,则基于短语将相应于没有增长的停顿或延长音或重叠辅音的音素的长度,按比例分配给除停顿或延长音或重叠辅音之外的所有音素,由此增加长度。因此保持了读取句子的整体长度,此外,更易于听取合成语音并且便于读取语音的识别。
第十实施例
接下来参照图17描述本发明的第十实施例。图17是第十实施例的音素长度控制处理过程的示例流程图。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图2)执行该处理过程。在第十实施例中,如果读取速度为低速且音素是辅音,则将所述速度保持为标准速度而不增加音素长度。
如图17所示,在该处理过程中,执行语言处理(步骤S1001)和音素长度设定处理(步骤S1002)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S1003)。
在第十实施例中,确定读取速度是否为低速以及音素是否是辅音(步骤S1004)。如果读取速度为低速且音素不是辅音(步骤S1004为否),则根据话语速率将音素长度乘以预定值(步骤S1005)。另一方面,如果读取速度为低速并且音素是辅音(步骤S1004为是),则跳过步骤S1005,更新音素编号n(n=n+1)(步骤S1006)。在确定完成对短语中所有音素的处理(步骤S1007)之后,根据话语速率将短语中最后一个停顿的长度乘以固定值(步骤S1008),接着执行关于终止的确定(步骤S1009)。重复步骤S1003到S1009,直到完成所有数据的处理。在确定终止之后,执行语音合成(步骤S1010),并且输出语音。
这样,如果读取速度为低速且音素是辅音,则不增加音素长度,也即,将所述速度保持为标准速度。因此,更易于听取合成语音,并且便于读取语音的识别。
第十一实施例
接下来参照图18描述本发明的第十一实施例。图18是第十一实施例的音素长度控制处理过程的示例流程图。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图2)执行该处理过程。在第十一实施例中,如果读取速度为低速并且音素是第一音素(top phoneme),则将所述速度保持为标准速度而不增加音素长度。
如图18所示,在该处理过程中,执行语言处理(步骤S1101)和音素长度设定处理(步骤S1102)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S1103)。
在第十一实施例中,确定读取速度是否为低速以及音素是否为第一音素(步骤S1104)。如果读取速度为低速且音素不是第一音素(n==1)(步骤S1104为否),则根据话语速率,将音素长度乘以预定值(步骤S1105)。另一方面,如果读取速度为低速并且音素是第一音素(n==1)(步骤S1104为是),则将第一音素的长度保持为标准长度。
在上述处理之后,更新音素编号n(n=n+1)(步骤S1106),并且根据话语速率将短语中最后一个停顿的长度乘以固定值(步骤S1108),接着执行关于终止的确定(步骤S1109)。重复步骤S1103到S1109,直到完成所有数据的处理。在确定终止之后,执行语音合成(步骤S1110),并且输出语音。
这样,如果读取速度为低速且音素不是第一音素,则根据话语速率将音素长度乘以固定值,由此增加音素长度。如果音素是第一音素,则不增加音素长度,所有更易于听取合成语音,并且便于读取语音的识别。
第十二实施例
接下来,参照图19描述本发明的第十二实施例。图19是第十二实施例的音素长度控制处理过程的示例流程图。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图11)执行该处理过程。在第十二实施例中,调整(例如缩短)延长音或重叠辅音的音素长度,并通过将对应于所述调整的长度按比例分配给文本中的所有音素,来调整总体长度。因此,实现了更易于听取的读取语音,同时大体上保持了整体长度,也即,不增加文本到语音转换的时间。作为例子,将话语速率设置为低于标准速度的0.8倍,而将音素长度的缩短比率设定为0.8。在这种情况下,与第七实施例相似,当调整(例如缩短)延长音或重叠辅音的音素长度时,可将相应于所述调整的长度按比例分配给除延长音或重叠辅音之外的所有音素。
如图19所示,在该处理过程中,执行语言处理(步骤S1201)和音素长度设定处理(步骤S1202)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S1203)并且基于话语速率控制音素长度(步骤S1204到S1209)。与第二实施例(图7)相似,基于短语控制音素长度。
在第十二实施例中,根据话语速率将音素长度乘以固定值(步骤S1204)。确定读取速度是否为低速以及音素是否为延长音或重叠辅音(步骤S1205)。如果读取速度为低速且音素是延长音或重叠辅音(步骤S1205为是),则将音素长度乘以预定值,例如0.8(步骤S1206)。另一方面,如果读取速度为低速并且音素不是延长音或重叠辅音(步骤S1205为否),则保持步骤S1204中根据话语速率乘以固定值的音素长度。
在上述处理之后,更新音素编号n(n=n+1)(步骤S1207),然后确定完成短语中所有音素的处理(步骤S1208)。根据话语速率,将短语中最后一个停顿的长度乘以固定值(步骤S1209),接着执行关于终止的确定(步骤S1210)。在确定终止时,确定是否完成所有数据的处理。在确定终止之后,计算整体文本长度(步骤S1211),按比例分配所有音素的长度并因此进行调整,从而使得所述文本长度等于或近似等于预定长度,例如当音素长度没有减小时获得的长度(步骤S1212),然后执行语音合成(步骤S1213)以输出语音。
以这种方式,在低速读取的情况下调整延长音或重叠辅音的音素长度时,减小延长音或重叠辅音的音素长度;在该实施例中,基于文本延长音素,所以保持了读取文本的整体长度,此外,读取语音不会听起来像脱落并且更易于听取。
第十三实施例
接下来参照图20描述本发明的第十三实施例。图20是第十三实施例的音素长度控制处理过程的示例流程图。
该处理过程示例了文本到语音读取程序或方法,并且使用上述文本到语音读取设备2(图1)和音素长度控制单元18(图11)执行该处理过程。在第十三实施例中,如果读取速率为低速且音素是停顿或延长音或重叠辅音,则调整所述音素长度,例如,不增加音素长度,所以根据话语速度将除停顿或延长音或重叠辅音之外的音素的长度乘以固定值,并由此增加音素长度;此外,将对应于未调整的音素(即,未增长的停顿或延长音或重叠辅音的音素)的长度按比例分配给除停顿或延长音或重叠辅音之外的所有音素。在这种情况下,与第九实施例类似,当调整(例如缩短)停顿或延长音或重叠辅音的长度时,可将对应于所述调整的长度按比例分配给除停顿或延长音或重叠辅音之外的所有音素。
如图20所示,在该处理过程中,执行语言处理(步骤S1301)和音素长度设定处理(步骤S1302)。之后,作为短语中音素的处理,初始化音素编号n(n=1)(步骤S1303)并且基于话语速率控制音素长度(步骤S1304到S1308)。与第二实施例(图7)相似,基于短语控制音素长度。
在第十三实施例中,确定读取速度是否为低速以及音素是否为停顿或延长音或重叠辅音(步骤S1304)。如果读取速度为低速并且音素不是停顿或延长音或重叠辅音(步骤S1304为否),则根据话语速率将音素长度乘以固定值(步骤S1305)。另一方面,如果读取速度为低速并且音素是停顿或延长音或重叠辅音(步骤S1304为是),则跳过步骤S1305,更新音素编号n(n=n+1)(步骤S1306)以确定是否已经处理了短语中的所有音素(步骤S1307)。然后,将短语中最后一个停顿的长度乘以固定值(步骤S1308),接着执行关于终止的确定(步骤S1309)。在确定终止时,确定是否完成了所有数据的处理。在确定终止之后,计算整体文本长度(步骤S1310),并且按比例分配所有音素的长度由此进行调整,从而使得所述文本长度等于或近似等于预定长度,例如,当所述音素长度没被增加时获得的长度(步骤S1311),然后执行语音合成(步骤S1312)以输出语音。
这样,取代低速读取时增加停顿或延长音或重叠辅音的音素长度,在本实施例中,基于文本增长音素,所以保持了读取文本的整体长度,此外,读取语音不会听起来像脱落并且易于听取。
其它实施例
上述描述了本发明的实施例,但是本发明的保护范围包括如下所述的其它实施例。
(1)参照图21描述输入到音素长度控制单元18的话语速率信息。图21是显示设有话语速率调整单元的参数生成单元的框图。在上述实施例中,话语速率信息被输入到音素长度控制单元18,但是如图21所示,可在参数生成单元8中设置能够外部调整话语速率的话语速率调整单元22,以外部设定期望的话语速率。
(2)在第一实施例中,如果读取速度不低,则根据话语速率将短语中最后一个停顿的长度乘以固定值。但是,如图22所示,可采用如下结构。也即,确定读取速度是否为低速(步骤S107),并且如果读取速度为低速(步骤S107为是),则根据话语速率将短语中最后一个停顿的长度乘以固定值并由此增加长度。如果读取速度不是低速(步骤S107为否),则不改变所述停顿长度。更具体地,如果读取速度为高速,则所述停顿长度不会缩短,从而易于听取读取语音。
(3)图23是第二实施例(图7)、第三实施例(图8)、第九实施例(图16)、第十实施例(图17)、第十一实施例(图18)以及第十三实施例(图20)的改型实例的流程图。在图23中,步骤S2001对应于步骤S204、S304、S904、S1004、S1104以及S1304。在上述实施例中,当根据话语速率将音素长度乘以固定值时(步骤S2002),可执行步骤S2003以将音素长度乘以0.8,作为缩短音素长度的处理。
(4)对于基于短语执行的处理,在第四实施例(图10)中,将与音素长度的调节相对应的长度按比例分配给除停顿之外的所有音素(步骤S410)。在第七实施例(图14)中,如果读取速度为低速,并且音素是延长音或重叠辅音,则将与延长音或重叠辅音的缩短长度相对应的长度按比例分配给除延长音或重叠辅音之外的所有音素(步骤S711)。在第九实施例(图16)中,如果读取速度为低速,并且音素是停顿或延长音或重叠辅音,则将与停顿或延长音或重叠辅音的缩短长度相对应的长度按比例分配给除停顿或延长音或重叠辅音之外的所有音素(步骤S910)。以这种方式,基于短语按比例分配音素长度。然而,可以通过将与对除停顿或延长音或重叠辅音之外的音素(例如,辅音)的调整相对应的长度按比例分配给所有音素,来执行所述处理。
(5)对于基于文本执行的处理,在第五实施例(图12)、第十二实施例(图19)以及第十三实施例(图20)中,基于文本按比例分配音素长度,以使得整体文本长度等于或近似等于预定长度。然而,可以将与对不同于停顿、延长音或重叠辅音的音素(例如,辅音)的调整相对应的长度按比例分配给所有音素,来执行所述处理。在这种情况下,与基于短语执行的处理相似,在基于文本执行的处理中,当停顿、延长音或重叠辅音或辅音的音素长度被调整时,可将整个文本中除了对应于所述调整的长度之外的音素长度按比例分配给其它音素。
(6)在第一实施例中,便携式终端设备200(图3和图4)用于示例,但是本发明可适用于整合有计算机且输出语音的电子设备,例如个人数字助理(PDA)或个人计算机或包括电子设备单元的各种设备。本发明不限于上述实施例。
示例1
参照图24和图25描述示例1。图24是图6的流程图的比较示例的流程图,以及图25显示语言处理结果。
在文本到语音读取设备2(图1)中,如果根据话语速率音素长度被相似地增加,则执行图24中流程图的处理,并且不调整停顿之后的音素长度。也即,图24的流程图相当于不包括步骤S107的图6的流程图。明显地在语言处理(步骤S1401)、音素长度设定处理(步骤S1402)、音素编号初始化(步骤S1403)、音素长度乘以固定值(步骤S1404)、更新音素编号(步骤S1405)、确定完成短语中所有音素处理(步骤S1406)、对最后一个停顿的长度增倍(步骤S1407)、关于终止的确定(步骤S1408)以及语音合成(步骤S1409)中,根据话语速率将音素长度或最后一个停顿的长度乘以固定值。
在所述处理中,如果输入如下文本“yamanashikennokoukouwosotsugyoushite,shinyoukinkonihaitte4nenmedesu.”(图5),如图25所示,以“输入文本”、“语音部分”以及“表音字符串”的分类分析词。
在文本“yamanashikennokoukouwosotsugyoushite,shinyoukinkonihaitte4nenmedesu.”中,“yamanashi”是名词,其表音字符串是[yamanashi’]。“ken”是名词,其表音字符串是[ken],并且“no”是助词(particle),其表音字符串是[no]。由于重音短语边界,所有在“no”之后是无声期间(unvoiced duration)。“koukou”是名词,其表音字符串是[koukou]。“wo”是助词,其表音字符串是[o]。由于重音短语边界,所以在“no”之后为无声期间,并且“sotsugyoushi”是动词(连续从句(continuous clause)),其表音字符串是[sotsugyoushi]。“te”是助词,其表音字符串是[te]。“,”是短语边界(中间停顿长度),其表音字符串是[,]。“shinyo”是名词,其表音字符串是[shinyo]。“kinko”是名词,其表音字符串是[k’inko]。“ni”是助词,其表音字符串是[ni]。由于重音短语边界而在“ni”之后为无声期间。“haitt”是动词(具有重叠辅音的连续从句),其表音字符串是[ha*itt]。“te”是助词,其表音字符串是[te]。“te”之后为短语边界(短停顿长度),其表音字符串是[.]。“4”是数词,其表音字符串是[yo]。“nen”是量词,其表音字符串是[nen]。“me”是量词的后置词,其表音字符串是[me’]。“desu”是助动词,其表音字符串是[desu]。“.”是短语边界(长停顿长度),其表音字符串是[.]。相应地,上述文本的表音字符串是[yamanashi′kennno koukouosotsugyoushite,shinyoki′nkoni ha*itte.yonennme′desu.]。在图25中,使用罗马字符书写输入文本和表音字符串,但是输入文本不同于作为数据的表音字符串。换句话说,所述文本到语音读取设备2将输入文本转换为表音字符串。
示例2
示例2是第一实施例(停顿长度不增加)的示例。参照图26a、图26b和图27a、图27b描述表示示例2处理结果的波形。图26a和图26b显示作为比较例的合成语音波形。图27a和图27b显示示例2的合成语音波形。图26a的波形是在标准速度下获得的,图26b的波形是在低读取速度下获得的。图26a的波形的部分a和图26b的波形的部分b代表停顿持续时间。
与之相对照,图27a的波形是在第一实施例(图6的流程图)的处理中在标准速度下获得的。图27b的波形是在低读取速度下获得的。在停顿持续时间c处不增加停顿长度。
示例3
示例3是第十实施例(辅音的音素长度不增加或缩短)和第十一实施例(第一音素的长度不增加或缩短)的示例。参照图28a、图28b和图29a、图29b描述表示示例3的处理结果的波形。图28a和图28b显示作为比较例的合成语音波形。图29a和图29b显示示例3的合成语音波形。图28a的波形是在标准速度下获得的,并且图28b的波形是在低读取速度下获得的。在图28b的波形中,辅音的音素长度在部分d的开始处是125毫秒(msec)。该值对应于话语速率比率(speaking rate ratio)。
与之相对照,图29a的波形是在第九和第十实施例(图16和图17的流程图)的处理中在标准速度下获得的。图29b的波形是在低读取速度下获得的。相比于话语速率比率,辅音的音素长度在部分e的开始处较短。
示例4
示例4是第十实施例(辅音的音素长度不增加或缩短)和第十一实施例(第一音素的长度不增加或缩短)的示例。参照图30a、图30b和图31a、图31b描述表示示例4的处理结果的波形。图30a、图30b显示作为比较例的合成语音波形。图31a、图31b显示示例4的合成语音波形。示例1、2和3描述了读取日语文本的情况,而示例4描述了读取英语文本“ha-ppy,sho-ck,shoo-t”的情况。图30a的波形是在标准速度下获得的,并且图30b的波形是在低读取速度下获得的。在图30b的波形中,辅音的音素长度在部分f的开始处是106msec(毫秒)。类似地,在部分g的辅音的音素长度是122msec。该值对应于话语速率比率。
与之相对照,图31a的波形是在第九和第十实施例(图16和图17的流程图)的处理中在标准速度下获得的。图31b的波形是在低读取速度下获得的。辅音的音素长度在部分h的开始处是86msec,并且类似地,辅音的音素长度在部分i的开始处是97msec。与话语速率比率相比,所述长度没有增加,即缩短了。
示例5
示例5是第一实施例(停顿长度不增加)的示例。示例4描述了读取英语文本“ha ppy,sho ck,shoo t”的情况。参照图32a、图32b描述表示示例5的处理结果的波形。图32a的波形是在标准速度下获得的,并且图32b的波形是在低读取速度下获得的。由于低速读取,所以相比于图32a的波形,图32b的波形延长了,但是仅在停顿持续时间l和m中,图32a的波形和图32b的波形具有与停顿持续时间j和k相同的长度,而没有增加音素长度。
接下来,列出了能够从本发明的上述实施例推导出的技术方案。

Claims (9)

1.一种用于将文本数据转换为声音信号的设备,包括:
音素确定器,用于确定与多个音素相对应的音素数据和与多个停顿相对应的停顿数据,其中所述多个停顿待被插入到将被转换为所述声音信号的所述文本数据中的一系列音素之间;
音素长度调整器,用于分别根据所述声音信号的速度确定所述音素的长度,以及选择性地将所述文本数据中至少一个停顿的长度减小到比与所述声音信号的速度相对应的停顿长度小的停顿长度,以此调整所述音素数据和所述停顿数据;以及
输出单元,用于基于由所述音素长度调整器所调整的音素数据和停顿数据,输出所述声音信号。
2.根据权利要求1所述的设备,还包括:
速度确定器,用于确定所述声音信号的速度;
其中当所述速度确定器确定所述声音信号的速度低于预定速度时,所述音素长度调整器通过缩短所述音素的长度调整所述音素数据。
3.根据权利要求1所述的设备,还包括:
呼吸群计算器,用于计算呼吸群的长度;其中根据所述呼吸群的长度,所述音素长度调整器通过按比例增加或减小所述呼吸群中的音素长度和停顿长度,来调整所述音素数据和所述停顿数据。
4.根据权利要求1所述的设备,还包括:
句子计算器,用于计算所述文本数据的朗读句子的长度;
其中根据所述文本数据的朗读句子的长度,所述音素长度调整器通过按比例增加或减小所述句子中的音素长度和停顿长度,来按比例调整所述音素数据和所述停顿数据。
5.一种用于将文本数据转换为声音信号的方法,包括如下步骤:
确定与多个音素相对应的音素数据和与多个停顿相对应的停顿数据,其中所述多个停顿待被插入到将被转换为所述声音信号的所述文本数据中的一系列音素之间;
分别根据所述声音信号的速度确定所述音素的长度,以及选择性地将所述文本数据中至少一个停顿的长度减小到比与所述声音信号的速度相对应的停顿长度小的停顿长度,以此调整所述音素数据和所述停顿数据;以及
基于所调整的音素数据和停顿数据输出所述声音信号。
6.根据权利要求5所述的方法,还包括如下步骤:
确定所述声音信号的速度;以及
当所述声音信号的速度低于预定速度时,通过缩短所述音素的长度调整所述音素数据。
7.根据权利要求5所述的方法,还包括如下步骤:
计算呼吸群的长度;以及
根据所述呼吸群的长度,通过按比例增加或减小所述呼吸群中的音素长度,来调整所述音素数据。
8.根据权利要求5所述的方法,还包括如下步骤:
计算所述文本数据的朗读句子的长度;以及
根据所述文本数据的朗读句子的长度,通过按比例增加或减小所述句子中的音素长度,来调整所述音素数据。
9.一种用于将文本数据转换为声音信号的设备,包括:
处理器,用于执行将所述文本数据转换为所述声音信号的处理,所述处理包括如下步骤:
确定与多个音素相对应的音素数据和与多个停顿相对应的停顿数据,其中所述多个停顿待被插入到将被转换为所述声音信号的所述文本数据中的一系列音素之间;和
分别根据所述声音信号的速度确定所述音素的长度,以及选择性地将所述文本数据中至少一个停顿的长度减小到比与所述声音信号的速度相对应的停顿长度小的停顿长度,以此调整所述音素数据和停顿数据;以及
输出单元,用于基于所调整的音素数据和停顿数据输出所述声音信号。
CN2008101273034A 2007-06-28 2008-06-27 文本到语音的设备 Expired - Fee Related CN101334996B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007170520A JP4973337B2 (ja) 2007-06-28 2007-06-28 音声読み上げのための装置、プログラム及び方法
JP2007170520 2007-06-28
JP2007-170520 2007-06-28

Publications (2)

Publication Number Publication Date
CN101334996A true CN101334996A (zh) 2008-12-31
CN101334996B CN101334996B (zh) 2011-12-21

Family

ID=39673189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101273034A Expired - Fee Related CN101334996B (zh) 2007-06-28 2008-06-27 文本到语音的设备

Country Status (6)

Country Link
US (1) US20090006098A1 (zh)
EP (1) EP2009621B1 (zh)
JP (1) JP4973337B2 (zh)
KR (1) KR101014462B1 (zh)
CN (1) CN101334996B (zh)
DE (1) DE602008000857D1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102045661A (zh) * 2010-09-29 2011-05-04 深圳市五巨科技有限公司 一种移动终端在线聊天的方法、装置和系统
CN103065619A (zh) * 2012-12-26 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
CN103377651A (zh) * 2012-04-28 2013-10-30 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
CN107430848A (zh) * 2015-03-25 2017-12-01 雅马哈株式会社 声音控制装置、声音控制方法以及声音控制程序
CN108231048A (zh) * 2017-12-05 2018-06-29 北京小唱科技有限公司 修正音频节奏的方法及装置
CN109792588A (zh) * 2016-09-30 2019-05-21 T移动美国公司 用于改进的呼叫处理的系统和方法
CN111627422A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool
JP5482042B2 (ja) 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
AT512197A1 (de) * 2011-11-17 2013-06-15 Joanneum Res Forschungsgesellschaft M B H Verfahren und system zur beschallung von räumen
US9508338B1 (en) * 2013-11-15 2016-11-29 Amazon Technologies, Inc. Inserting breath sounds into text-to-speech output
EP3921770A4 (en) * 2019-02-05 2022-11-09 Igentify Ltd. SYSTEM AND METHOD FOR MODULATION OF DYNAMIC GAPS IN SPEECH
CN110277092A (zh) * 2019-06-21 2019-09-24 北京猎户星空科技有限公司 一种语音播报方法、装置、电子设备及可读存储介质
CN110337030B (zh) * 2019-08-08 2020-08-11 腾讯科技(深圳)有限公司 视频播放方法、装置、终端和计算机可读存储介质
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis
EP4293660A4 (en) 2021-06-22 2024-07-17 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND ITS CONTROL METHOD

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4338490A (en) * 1979-03-30 1982-07-06 Sharp Kabushiki Kaisha Speech synthesis method and device
JPH03203800A (ja) * 1989-12-29 1991-09-05 Canon Inc 音声合成方式
JPH04270394A (ja) * 1991-02-26 1992-09-25 Nec Corp ポーズ長決定方式
JP3113101B2 (ja) 1992-11-09 2000-11-27 株式会社東芝 音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
CN1161673A (zh) * 1994-08-10 1997-10-08 伊夫斯·瓦特罗特 可变容积的瓶子
JPH08171394A (ja) * 1994-12-19 1996-07-02 Fujitsu Ltd 音声合成装置
JPH0990986A (ja) * 1995-09-21 1997-04-04 Canon Inc 音声合成方法及びその装置
JPH1078795A (ja) * 1996-09-04 1998-03-24 Secom Co Ltd 音声合成装置
CN1113330C (zh) * 1997-08-15 2003-07-02 英业达股份有限公司 语音合成中的语音规整方法
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000310996A (ja) * 1999-04-28 2000-11-07 Oki Electric Ind Co Ltd 音声合成装置および音韻継続時間長の制御方法
JP2003005774A (ja) * 2001-06-25 2003-01-08 Matsushita Electric Ind Co Ltd 音声合成装置
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP4580297B2 (ja) * 2005-07-13 2010-11-10 パナソニック株式会社 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102045661A (zh) * 2010-09-29 2011-05-04 深圳市五巨科技有限公司 一种移动终端在线聊天的方法、装置和系统
CN103377651A (zh) * 2012-04-28 2013-10-30 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN103377651B (zh) * 2012-04-28 2015-12-16 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN103065619A (zh) * 2012-12-26 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
CN103065619B (zh) * 2012-12-26 2015-02-04 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
CN107430848A (zh) * 2015-03-25 2017-12-01 雅马哈株式会社 声音控制装置、声音控制方法以及声音控制程序
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
CN109792588A (zh) * 2016-09-30 2019-05-21 T移动美国公司 用于改进的呼叫处理的系统和方法
US11170757B2 (en) 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN108231048A (zh) * 2017-12-05 2018-06-29 北京小唱科技有限公司 修正音频节奏的方法及装置
CN111627422A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
KR20090004586A (ko) 2009-01-12
DE602008000857D1 (de) 2010-05-06
CN101334996B (zh) 2011-12-21
JP4973337B2 (ja) 2012-07-11
US20090006098A1 (en) 2009-01-01
KR101014462B1 (ko) 2011-02-14
JP2009008910A (ja) 2009-01-15
EP2009621B1 (en) 2010-03-24
EP2009621A1 (en) 2008-12-31

Similar Documents

Publication Publication Date Title
CN101334996B (zh) 文本到语音的设备
CN101334994B (zh) 文本到语音设备
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
JP4473193B2 (ja) 混合言語テキスト音声合成方法および音声合成装置
CN101334995B (zh) 文本到语音转换设备及其转换方法
US6212501B1 (en) Speech synthesis apparatus and method
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
Jariwala et al. A system for the conversion of digital Gujarati text-to-speech for visually impaired people
JPH08335096A (ja) テキスト音声合成装置
Ngugi et al. Swahili text-to-speech system
KR0134707B1 (ko) 다이폰 단위를 이용한 엘에스피(lsp)방식의 음성 합성 방법
Hande A review on speech synthesis an artificial voice production
Gerazov et al. A novel quasi-diphone inventory approach to Text-To-Speech synthesis
JP2910587B2 (ja) 音声合成装置
JP3297221B2 (ja) 音韻継続時間長制御方式
Eady et al. Pitch assignment rules for speech synthesis by word concatenation
JPH06149283A (ja) 音声合成装置
Gopal et al. A simple phoneme based speech recognition system
Venkatagiri Digital speech technology: An overview
Shi A speech synthesis-by-rule system for Modern Standard Chinese
Damadi et al. Design and Evaluation of a Text-to-Speech System for Azerbaijani Turkish Language and Database Generation
JP2001166787A (ja) 音声合成装置および自然言語処理方法
Green Developments in synthetic speech
JPH01119822A (ja) 文章読み上げ装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111221

Termination date: 20200627