CN103366730B - 声音合成设备 - Google Patents

声音合成设备 Download PDF

Info

Publication number
CN103366730B
CN103366730B CN201310104780.XA CN201310104780A CN103366730B CN 103366730 B CN103366730 B CN 103366730B CN 201310104780 A CN201310104780 A CN 201310104780A CN 103366730 B CN103366730 B CN 103366730B
Authority
CN
China
Prior art keywords
sound
phoneme
unit
sounds
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310104780.XA
Other languages
English (en)
Other versions
CN103366730A (zh
Inventor
嘉山启
小笠原基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of CN103366730A publication Critical patent/CN103366730A/zh
Application granted granted Critical
Publication of CN103366730B publication Critical patent/CN103366730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了声音合成设备。该声音合成设备包括:耦接至存储器的处理器。该处理器被配置来执行计算机可执行单元,该计算机可执行单元包括:信息获取器,其适合于对指定了每个单位声音的持续时间和发音内容的合成信息进行获取;延长设置器,其适合于针对与每个单位声音的发音内容相对应的多个音素中的每一个来设置是允许延长还是禁止延长;以及声音合成器,其适合于通过连接与每个单位声音的发音内容相对应的多个声音分段来生成对应于所述合成信息的合成声音。所述声音合成器根据每个单位声音的持续时间来延长与允许延长的音素相对应的声音分段。

Description

声音合成设备
技术领域
本公开涉及合成声音的技术。
背景技术
传统上已经提出了分段连接型的声音合成技术,其中,针对合成的每个单元(例如音符,下文中称其为“单位声音”)指定持续时间和发音内容(例如,歌词),并且将与每个单位声音的发音内容相对应的多个声音分段互连,从而生成期望合成的声音。根据JP-B-4265501,将对应于与每个单位声音的发音内容相对应的多个音素中的元音音素的声音分段延长,从而可以生成在期望的持续时间内发出每个单位声音的发音内容的合成声音。
存在这样的情况,其中,例如将由多个元音耦合在一起构成的复合元音(双元音、三合元音)指定为一个单位声音的发音内容。作为用于确保关于上述指定了复合元音的一个单位声音有足够的持续时间的配置,例如,考虑延长复合元音的第一个元音的声音分段的配置。但是,使用将延长目标固定为该单位声音的第一个元音的配置,存在使可生成的合成声音受限的问题。例如,假设将包含复合元音的发音内容“fight”(一个音节)指定为一个单位声音的情况,其中,元音音素/a/和元音音素/I/在一个音节中连续,尽管可以生成复合元音的第一音素/a/被延长的合成声音“[fa:It]”,但是不能生成后面音素/I/被延长的合成声音“[faI:t]”(符号“:”是指延长的声音)。尽管以上的描述示出了复合元音的情况作为示例,但是当多个音素在一个音节中连续时,不管它们是元音还是辅音,都会出现类似的问题。鉴于上述状况,本公开的目的是通过减轻延长声音分段时的这种约束来生成各种合成声音。
发明内容
为了实现上述目的,根据本发明,提供了一种声音合成方法,其包括:
对指定了每个单位声音的持续时间和发音内容的合成信息进行获取;
针对与每个单位声音的发音内容相对应的多个音素中的每一个来设置是允许延长还是禁止延长;以及
通过连接与每个单位声音的发音内容相对应的多个声音分段来生成对应于合成信息的合成声音,
其中在生成过程中,对于在与每个单位声音的发音内容相对应的多个音素当中的与允许延长的音素相对应的声音分段,按照单位声音的持续时间来对该声音分段进行延长。
例如,在设置过程中,响应于来自用户的指令来设置对每个音素是允许还是禁止延长。
例如,所述声音合成方法还包括:显示设置图像,该设置图像提供了与用户在由所述合成信息指定的多个单位声音当中选出的一个单位声音的发音内容相对应的多个音素,显示该设置图像用以从用户接收关于对该多个音素中的每一个是允许延长还是禁止延长的指令。
例如,所述声音合成方法还包括:在显示装置上显示与每个单位声音的发音内容相对应的多个音素中的每一个的音素符号,从而以不同的显示模式来显示允许延长的音素和禁止延长的音素。
例如,在显示模式中,对允许延长的音素应用具有高亮、下划线部分、圆圈、以及点中的至少一种的音素符号。
例如,在设置过程中,针对与每个单位声音的发音内容相对应的多个音素中的时间上可持续的持续音素来设置是允许延长还是禁止延长。
例如,所述声音合成方法还包括:显示设置图像,该设置图像提供了与用户在由所述合成信息指定的多个单位声音当中选出的一个单位声音的发音内容相对应的多个音素,显示该设置图像用以从用户接收关于该多个音素的持续时间的指令,其中在设置过程中,延长与该单位声音的发音内容相对应的声音分段,以使得与该单位声音的发音内容相对应的音素中的每一个的持续时间符合在设置图像中接收到的指令所指定的音素的持续时间当中的比率。
根据本发明,还提供一种声音合成设备,其包括:
耦接至存储器的处理器,该处理器被配置来执行计算机可执行单元,该计算机可执行单元包括:
信息获取器,其适合于对指定了每个单位声音的持续时间和发音内容的合成信息进行获取;
延长设置器,其适合于针对与每个单位声音的发音内容相对应的多个音素中的每一个来设置是允许延长还是禁止延长;以及
声音合成器,其适合于通过连接与每个单位声音的发音内容相对应的多个声音分段来生成对应于所述合成信息的合成声音,
其中所述声音合成器对于在与每个单位声音的发音内容相对应的多个音素当中的与允许延长的音素相对应的声音分段来按照单位声音的持续时间对该声音分段进行延长。
根据本发明,还提供一种计算机可读介质,其上存储有用于使计算机实现所述声音合成方法的程序。
根据本发明,还提供一种声音合成方法,其包括:
对指定了每个单位声音的持续时间和发音内容的合成信息进行获取;
针对与每个单位声音的发音内容相对应的多个音素中的至少一个来设置是允许延长还是禁止延长;以及
通过连接与每个单位声音的发音内容相对应的多个声音分段来生成对应于所述合成信息的合成声音,
其中在生成过程中,对于在与每个单位声音的发音内容相对应的多个音素当中的与允许延长的音素相对应的声音分段,按照单位声音的持续时间来对该声音分段进行延长。
附图说明
通过参照附图来详细描述本公开的优选示例实施例,本公开的上述目的及优点将变得更显而易见,附图中:
图1是根据本公开的第一实施例的声音合成设备的框图;
图2是合成信息的简要示图;
图3是乐谱区域的简要示图;
图4是乐谱区域和设置图像的简要示图;
图5是声音合成器的操作(声音分段的延长)的说明示图;
图6是声音合成器的操作(声音分段的延长)的说明示图;
图7是第二实施例中的乐谱区域和设置图像的简要示图;以及
图8是修改实施例中的乐谱区域的简要示图。
具体实施方式
<第一实施例>
图1是根据本公开的第一实施例的声音合成设备100的框图。声音合成设备100是通过分段连接型的声音合成来生成歌声的声音信号S的信号处理设备,如图1所示,其被实现为计算机系统,包括算术处理单元12、存储装置14、显示装置22、输入装置24和发声装置26。声音合成设备100被实现为例如固定信息处理设备(个人计算机)或便携式信息处理设备(便携式电话或个人数字助理)。
算术处理单元12执行存储在存储装置14中的程序PGM,从而实现用于生成声音信号S的多个功能(显示控制器32、信息获取器34、延长设置器36和声音合成器38)。还可以采用以下配置:算术处理单元12的功能分布到多个设备的配置;以及用专用电子电路(例如,DSP)实现算术处理单元12的功能中的一些的配置。
显示装置22(例如,液晶显示面板)显示算术处理单元12所指定的图像。输入装置24是从用户接收指令的装置(例如,鼠标或键盘)。可以采用与显示装置22一体构建的触摸面板作为输入装置24。发声装置26(例如,耳机或扬声器)重现对应于算术处理单元12所生成的声音信号S的声音。
存储装置14存储算术处理单元12执行的程序PGM以及算术处理单元12使用的各种数据(声音分段组DA、合成信息DB)。可随意采用诸如半导体存储介质或磁记录介质之类的已知记录介质、或者多种记录介质的组合来作为存储装置14。
声音分段组DA是由被用作声音合成材料的多种声音分段的分段数据P构成的声音合成库。分段数据P中的每一个定义了例如声音分段的时间域波形以及声音分段的频域频谱的样本序列。声音分段的每一个是单个音素或音素链,单个音素(例如,一个元音或一个辅音)是从语言角度划分声音时的最小单元(单音),在音素链中多个音素耦合在一起(例如,双音或三合音)。各音素的声音分段的分段数据P表示该音素的连续发音的声音的波形稳定的部分(声学特性保持稳定的部分)。另一方面,音素链的声音分段的分段数据P表示从前一音素向后一音素过渡的发音。
音素被分成其发音在时间上可持续的音素(下文中称其为“持续音素”)和其发音在时间上不持续(或难以持续)的音素(下文中称其为“不持续音素”)。尽管持续音素的典型示例为元音,但是诸如塞擦音、摩擦音和流音(鼻音)之类的辅音(浊辅音、清辅音)也可以包含于持续音素中。另一方面,不持续音素是其发音短暂地执行的音素(例如,通过处于关闭状态下的声道的暂时变形发音的音素)。例如,爆破音是不持续音素的典型示例。存在这样的差别,在保持声音听起来自然的情况下,持续音素可以在时间上延长,而不持续音素难以在时间上延长。
存储在存储装置14中的合成信息DB是按时间顺序(以时序方式)将合成声音指定为声音合成目标的数据(谱数据),并且如图2所示,包括对应于不同单位声音(音符)的多个单元信息U。单位声音是例如对应于一个音符的合成单元。单元信息U的每一个指定音调信息XA、时间信息XB、发音信息XC和延长信息XD。这里,单元信息U中可以包括除以上所示元素之外的信息(例如,用于控制每个单位声音的诸如音量和颤音之类的音乐表达的变量)。图1中的信息获取器34响应于来自用户的指令来生成以及编辑合成信息DB。
图2中的音调信息XA指定该单位声音的音调(对应于该音调的音符编号)。可以通过音调信息XA来指定与该单位声音的音调相对应的频率。时间信息XB指定该单位声音在时间轴上的发音时间段。如图2中所示,第一实施例的时间信息XB指定表示该单位声音的发音开始时间的发音时间XB1以及表示该单位声音的发音持续时长(音值)的持续时间XB2。持续时间XB2可以由每个单位声音的发音时间XB1和声音消失时间指定。
发音信息XC是指定该单位声音的发音内容(字素)的信息,并且包括字素信息XC1和音素信息XC2。字素信息XC1指定表示每个单位声音的发音内容的发音字母(字素)。在第一实施例中,与一个单位声音相对应的发音字母(例如,歌词的一个字母串)的一个音节由字素信息XC1指定。音素信息XC2指定与字素信息XC1所指定的发音字母相对应的多个音素的音素符号。字素信息XC1不是单位声音合成的必要元素,其可以省略。
图2中的延长信息XD针对与发音信息XC所指定的发音内容相对应的多个音素中的每一个(即,音素信息XC2指定音素符号的音素)来指定是允许还是禁止时间延长。例如,使用将是允许还是禁止音素的延长表达为两个值(数值“1”表示允许延长并且数值“0”表示禁止延长)的标识序列作为延长信息XD。第一实施例的延长信息XD针对持续音素指定是允许延长还是禁止延长,而不针对不持续音素指定是允许延长还是禁止延长。对于不持续音素,可以总是禁止延长。图1中的延长设置器36针对每个单位声音的多个音素(持续音素)中的每一个设置是允许延长还是禁止延长(延长信息XD)。
图1中的显示控制器32在显示装置22上显示图3中的编辑屏幕,以表示合成信息DB的内容(多个单位声音的时间序列)。如图3中所示,显示在显示装置22上的编辑屏幕包括乐谱区域50。乐谱区域50是设置相互交叉的时间轴(横轴)AT和音调轴(纵轴)AF的钢琴作用型坐标平面。象征每个单位声音的图形(下文中称其为“声音指示符”)52置于乐谱区域50中。编辑屏幕的具体格式不局限于特定的一种。例如,还可以采用以列表形式显示合成信息DB的内容的配置以及以乐谱形式显示单位声音的配置。
用户可以通过操作输入装置24来指示声音合成设备100在乐谱区域50中布置声音指示符52(添加单位声音)。显示控制器32在乐谱区域50中布置用户所指定的声音指示符52,信息获取器34将与布置在乐谱区域50中的声音指示符52相对应的单元信息U添加到合成信息DB。根据声音指示符52在音调轴AF方向上的位置来选择与用户布置的声音指示符52相对应的单元信息U的音调信息XA。根据声音指示符52在时间轴AT方向上的位置来选择与声音指示符52相对应的单元信息U的时间信息XB的发音时间XB1,以及根据声音指示符52在时间轴AT方向上的显示长度来选择时间信息XB的持续时间XB2。响应于用户对乐谱区域50中先前布置的声音指示符52的指令,显示控制器32改变声音指示符52在时间轴AT上的位置及其显示长度,信息获取器34改变与该声音指示符52相对应的单元信息U的音调信息XA和时间信息XB。
通过适当操作输入装置24,用户可以选择乐谱区域50中给定单位声音的声音指示符52,并且指定期望的发音内容(发音字母)。信息获取器34设置指定用户所指定发音字母的字素信息XC1和指定与该发音字母相对应的音素符号的音素信息XC2,作为用户所选单位声音的单元信息U。延长设置器36设置用户所选单位声音的延长信息XD作为初始值(例如,禁止每个音素延长的数值)。
如图3中所示,显示控制器32在与每个单位声音的声音指示符52相对应的位置(例如,如图3中所示覆盖声音指示符52的位置)处布置由该单位声音的字素信息XC1指定的发音字母54和由音素信息XC2指定的音素符号56。当用户提供指令来改变每个单位声音的发音内容时,信息获取器34响应于来自用户的该指令来改变该单位声音的字素信息XC1和音素信息XC2,显示控制器32响应于来自用户的该指令来改变显示在显示装置22上的发音字母54和音素符号56。在以下的描述中,音素将由符合SAMPA(语言评估法语音字母表)的符号来表达。该表达类似于X-SAMPA(扩展SAMPA)的情况。
当用户选择期望单位声音(下文中称其为“所选单位声音”)的声音指示符52并且对输入装置24施加预定操作时,如图4中所示,显示控制器32在与所选单位声音(在图4中为对应于发音字母“fight”的单位声音)的声音指示符52相对应的位置(例如,在声音指示符52旁边)处显示设置图像60。设置图像60是这样的图像,其用于向用户呈现与所选单位声音的发音内容相对应的多个音素(由所选单位声音的音素信息XC2指定的多个音素)以及用于从用户接收是允许还是禁止每个音素的延长的指令。
如图4中所示,设置图像60包括分别针对与所选单位声音的发音内容相对应的多个音素(在第一实施例中为持续音素)的操作图像62。通过在设置图像60中操作期望音素的操作图像62,用户可以任意指定是允许还是禁止该音素的延长(允许/禁止)。延长设置器36响应于用户对设置图像60的指令,针对每个音素更新由所选单位声音的延长信息XD指定的延长是允许还是禁止。具体地,延长设置器36将其延长被指定为允许的音素的延长信息XD设置为数值“1”,将其延长被指定为禁止的音素的延长信息XD设置为数值“0”。
显示控制器32在显示装置22上以不同模式(用户可以从视觉上对彼此进行区分的模式)显示其延长信息XD指示延长允许的音素的音素符号56以及其延长信息XD指示延长禁止的音素的音素符号56。图3和图4示出了在其延长被指定为允许的音素/a/的音素符号56下面划线以及不在其延长被禁止的音素的音素符号56下面划线的情况。但是,不同的模式不限于带下划线的音素符号以及不带下划线的音素符号。这里,可以采用下述配置:根据是允许延长还是禁止延长来使音素符号56的诸如高亮(例如,亮度(灰度)、色度、色调)、大小和字母类型之类的显示模式不同的配置;对允许延长的音素应用诸如下划线部分、圆圈、和点之类的显示模式作为音素符号的配置;以及根据是允许还是禁止音素的延长来使音素符号56的背景的显示模式不同的配置(例如,使背景的图案不同的配置以及使存在或不存在闪烁不同的配置)。
图1中的声音合成器38交替地连接时间轴上与由信息获取器34所生成的合成信息DB按时间顺序指定的单位声音中的每一个的发音信息XC相对应的多个声音分段(分段数据P),从而生成合成声音的声音信号S。具体地,声音合成器38首先从存储装置14的声音分段组DA中顺次选择与每个单位声音的发音信息XC相对应的声音分段的分段数据P(音素信息XC2所指示的音素符号),其次,将每个分段数据P调整为由单元信息U的音调信息XA所指定的音调以及由时间信息XB的持续时间XB2所指定的时间长度。然后,声音合成器38将其音调和时间长度调整了的分段数据P置于由时间信息XB的发音时间XB1所指定时间处,并且将其互连,从而生成声音信号S。声音合成器38所生成的声音信号S被提供给发声装置26并被重现为声波。
图5和图6是声音合成器38延长分段数据P的处理的说明视图。在以下的描述中,为了与音素的表达区分,为了说明目的而使用括号[]来表达声音分段。例如,将音素/a/和音素/I/的音素链(双元音)的声音分段表达为符号[a-I]。为了描述的目的,使用“#”将静音表达为一个音素。
图5中的部分(A)示出了音素/f/(清唇齿摩擦音)、音素/a/(半前开非圆唇元音)、音素/I/(近闭合近前非圆唇元音)和音素/t/(清齿槽爆破音)连续的发音字母“fight”的一个音节作为示例。音素/a/和音素/I/构成复合元音(双元音)。针对音素为持续音素的发音字母“fight”的音素(/f/、/a/和/I/)中的每一个,响应于用户对设置图像60的指令来分别指定是允许延长还是禁止延长。另一方面,从将被延长的目标中排除为不持续音素的爆破音/t/。
当音素/a/的延长信息XD指定允许延长而音素/f/和音素/I/中的每一个的延长信息XD指定禁止延长时,如图5中的部分(B)所示,声音合成器38从声音分段组DA中选择声音分段[#-f]、[f-a]、[a]、[a-I]、[I-t]和[t-#]中的每一个的分段数据P,并且将与允许延长的音素/a/相对应的声音分段[a]的分段数据P延长至对应于持续时间XB2的时间长度(整个单位声音的持续时间为持续时间XB2的时间长度)。声音分段[a]的分段数据P表示通过发出音素/a/而产生的声音的波形保持稳定的部分。对于声音分段(分段数据P)的延长,可以任意采用已知技术。例如,通过在时间轴上重复声音分段的特定部分(例如,对应于一个周期的部分)来延长该声音分段。另一方面,不延长包含禁止延长音素(/f/、/I/和/t/)的声音分段([#-f]、[f-a]、[a-I]、[I-t]和[t-#])中的每一个的分段数据P。
当音素/I/的延长信息XD指定允许延长而音素/f/和音素/a/中的每一个的延长信息XD指定禁止延长时,如图5中的部分(C)所示,声音合成器38选择声音分段[#-f]、[f-a]、[a-I]、[I]、[I-t]和[t-#],并且将与允许延长的音素/I/相对应的声音分段[I]延长至对应于持续时间XB2的时间长度。另一方面,不延长包含禁止延长音素(/f/、/a/和/t/)的声音分段([#-f]、[f-a]、[a-I]、[I-t]和[t-#])中的每一个的分段数据P。
当音素/a/和音素/I/中的每一个的延长信息XD指定允许延长而音素/f/的延长信息XD指定禁止延长时,如图5中的部分(D)所示,声音合成器38选择声音分段[#-f]、[f-a]、[a]、[a-I]、[I]、[I-t]和[t-#],并且将音素/a/的声音分段[a]和音素/I/的声音分段[I]延长至对应于持续时间XB2的时间长度。
图6中的部分(A)示出了音素/f/(清唇齿摩擦音)、音素/V/(半开后非圆唇元音)和音素/n/(齿槽鼻音)连续的发音字母“fun”的一个音节作为示例。针对构成发音字母“fun”的音素(持续音素)/f/、/V/和/n/中的每一个,响应于来自用户的指令来分别指定是允许延长还是禁止延长。
当音素/V/的延长信息XD指定允许延长而音素/f/和音素/n/中的每一个的延长信息XD指定禁止延长时,如图6中的部分(B)所示,声音合成器38选择声音分段[#-f]、[f-V]、[V]、[V-n]和[n-#],并且将与允许延长的音素/V/相对应的声音分段[V]延长至对应于持续时间XB2的时间长度。不延长包含禁止延长的音素(/f/和/n/)的声音分段([#-f]、[f-V]、[V-n]和[n-#])。
另一方面,当音素/n/的延长信息XD指定允许延长而音素/f/和音素/V/中的每一个的延长信息XD指定禁止延长时,如图6中的部分(C)所示,声音合成器38选择声音分段[#-f]、[f-V]、[V-n]、[n]和[n-#],并且将与允许延长的音素/n/相对应的声音分段[n]延长至对应于持续时间XB2的时间长度。不延长包含禁止延长音素(/f/和/V/)的声音分段([#-f]、[f-V]、[V-n]和[n-#])。
当音素/V/和音素/n/中的每一个的延长信息XD指定允许延长而音素/f/的延长信息XD指定禁止延长时,如图6中的部分(D)所示,声音合成器38选择声音分段[#-f]、[f-V]、[V]、[V-n]、[n]和[n-#],并且将音素/V/的声音分段[V]和音素/n/的声音分段[n]延长至对应于持续时间XB2的时间长度。
如从上述示例理解的那样,声音合成器38根据一个单位声音的持续时间XB2来延长与该单位声音的发音内容相对应的多个音素中对应于延长设置器36允许延长的音素的声音分段。具体地,从声音分段组DA中选择与延长设置器36允许延长的各音素相对应的声音分段(在图5所示示例中为声音分段[a]和[I]以及在图6的示例中为声音分段[V]和[n]),并且根据持续时间XB2对其进行延长。
如上所述,根据第一实施例,由于分别针对与一个单位声音的发音内容相对应的多个音素中的每一个来设置是允许延长还是禁止延长,因此,例如与延长复合元音的第一个元音的声音分段的配置相比较,可以减轻对声音分段的延长的约束。从而,提供了可以生成各种合成声音的优点。例如,对于图5中的示例所示的发音字母“fight”,可以生成延长音素/a/的合成声音“[fa:It]”(图5中的部分(B))、延长音素/I/的合成声音“[faI:t]”(图5中的部分(C))以及延长音素/a/和音素/I/二者的合成声音“[fa:I:t]”(图5中的部分(D))。特别地,在第一实施例中,由于响应于来自用户的指令来设置是允许还是禁止每个音素的延长,因此提供了可以生成符合用户意愿的各种合成声音的优点。
<第二实施例>
以下将描述本公开的第二实施例。在作为示例的下述模式中,类似于第一实施例中的动作和功能的元素仍然由参照第一实施例的描述的参考符号来表示,以下视情况而省略其详细描述。
图7是第二实施例的显示控制器32显示在显示装置22上的设置图像70的简要视图。如第一实施例中的设置图像60,第二实施例中的设置图像70是这样的图像,其向用户呈现与用户从乐谱区域50中选择的所选单位声音的发音内容相对应的多个音素以及从用户接收是允许还是禁止每个音素的延长的指令。具体地,如图7所示,设置图像70包括对应于所选单位声音的声音指示符72和操作图像74(74A和74B),以指示所选单位声音的多个音素的串联中音素之间的边界。声音指示符72是在时间轴AT方向(横向)上延伸的条形(或线性)图形,以表达所选单位声音的发音部分。通过适当地操作输入装置24,用户可以在时间轴AT方向上任意移动操作图像74。以操作图像74的时间点划分声音指示符72而获得的部分的显示长度对应于所选单位声音的音素的持续时间。具体地,将对应于发音字母“fun”的三个音素(/f/、/V/和/n/)的第一个音素/f/的持续时间定义为声音指示符72的左端与操作图像74A之间的距离,将音素/V/的持续时间定义为操作图像74A与操作图像74B之间的距离,以及将最后一个音素/n/的持续时间定义为操作图像74B与声音指示符72的右端之间的距离。
第二实施例的延长设置器36根据设置图像70中操作图像74的位置来设置是允许还是禁止每个音素的延长。声音合成器38延长每个声音分段以使得与一个单位声音相对应的音素的持续时间符合设置图像70上所指定的音素的持续时间之间的比率。即,在第二实施例中,如在第一实施例中一样,针对每个单位声音的多个音素中的每一个分别设置是允许延长还是禁止延长。从而,在第二实施例中实现了与第一实施例中的类似的效果。
<修改>
可以对上述实施例进行各种修改。以下将示出具体的修改。可以适当地合并下述修改中的任意两个或更多个修改。
(1)尽管在上述实施例中示出了生成英语(发音字母“fight”和“fun”)的发音的合成声音的情况作为示例,但是合成声音的语言可以为任意语言。在一些语言中,存在可以将第一辅音、元音和第二辅音(C-V-C)的一个音节的音素链指定为一个单位声音的发音字母的情况。例如,在韩语中,存在由第一辅音、元音和第二辅音构成的音素链。该音素链包括被称为“patchim”的第二辅音(在音节的末端的辅音)。当第一辅音和第二辅音为持续音素时,如在上述第一和第二实施例中一样,分别设置是允许还是禁止第一辅音、元音和第二辅音中的每一个的延长的配置是合适的。例如,当将由第一辅音音素/h/、元音音素/a/和第二辅音音素/n/构成的一个音节发音字母“han”指定为一个单位声音时,可以选择性地生成延长音素/a/的合成声音“[ha:n]”和延长音素/n/的合成声音“[han:]”。
尽管在第一实施例中所参照的图5示出了包含音素/a/和音素/I/在一个音节中连续的双元音的发音字母“fight”作为示例,但是,在汉语中,可以将三个元音在一个音节中连续的复合元音(三合音)指定为一个单位声音的发音字母。因此,其中针对三合音的三个元音的音素中的每一个分别设置是允许延长还是禁止延长的配置是合适的。
(2)尽管在上述实施例中信息获取器34响应于来自用户的指令而生成合成信息DB,但是可以采用以下配置:信息获取器34例如通过通信网络从外部设备获取合成信息DB的配置;以及信息获取器34从便携式记录介质获取合成信息DB的配置。即,可以省略响应于来自用户的指令而生成或编辑合成信息DB的配置。如从以上描述所理解的那样,信息获取器34被包括作为获取合成信息DB的元件(从外部设备获取合成信息DB的元件或自己生成合成信息DB的元件)。
(3)尽管在上述实施例中示出了将发音字母的一个音节指定为一个单位声音的情况,但是也可以将发音字母的一个音节分配给多个单位声音。例如,如图8中所示,可以将发音字母“fun”的一个音节整体及其最后一个音素/n/分配给不同的单位声音。根据该配置,可以在合成声音的一个音节内改变音调。
(4)尽管在上述实施例中示出了针对不持续音素不指定是允许延长还是禁止延长的配置,但是也可以采用能够针对不持续音素指定是允许延长还是禁止延长的配置。不持续音素的声音分段包括不持续音素发音之前的静音部分。因此,当允许不持续音素延长时,声音合成器38例如延长不持续音素的声音分段的静音部分。
[新的]
这里,将上述实施例的细节总结如下。
本公开的声音合成设备包括:信息获取器(例如,信息获取器34),用于获取指定每个单位声音的持续时间和发音内容的合成信息;延长设置器(例如,延长设置器36),用于针对与每个单位声音的发音内容相对应的多个音素中的每一个设置是允许延长还是禁止延长;以及声音合成器(例如,声音合成器38),用于通过连接与每个单位声音的发音内容相对应的多个声音分段来生成对应于合成信息的合成声音,该声音合成器根据每个单位声音的持续时间来延长与该单位声音的发音内容相对应的多个音素中对应于延长设置器允许延长的音素的声音分段。
根据该配置,由于针对与每个单位声音的发音内容相对应的多个音素中的每一个来设置是允许延长还是禁止延长,因此与例如总是延长与每个单位声音相对应的多个音素(例如,复合元音)中的第一音素的配置相比,提供了这样的优点,即,减轻了合成声音生成时对声音分段的延长的限制,从而可以生成各种合成声音。
例如,延长设置器响应于来自用户的指令来设置是允许还是禁止每个音素的延长。
根据该配置,由于响应于来自用户的指令而设置是允许还是禁止每个音素的延长,因此提供了这样的优点,即,可以生成复合用户意愿的各种合成声音。例如,提供了这样的声音合成设备,其具有第一显示控制器(例如,显示控制器32),用于提供与用户在由所述合成信息指定的多个单位声音中选出的单位声音的发音内容相对应的多个音素,以及显示设置图像(例如,设置图像60或设置图像70),以从用户接收是允许还是禁止每个音素的延长的指令。
根据该配置,由于在显示装置上显示了提供与用户所选择的单位声音相对应的多个音素以及从用户接收指令的设置图像,因此提供了这样的优点,即,用户可以容易地针对多个单位声音中的每一个指定是允许还是禁止每个音素的延长。
声音合成设备提供有第二显示控制器(例如,显示控制器32),用于在显示装置上显示与每个单位声音的发音内容相对应的多个音素中的每一个的音素符号,从而以不同显示模式来显示延长设置器允许延长的音素和延长设置器禁止延长的音素。根据该配置,由于根据是允许延长还是禁止延长来以不同显示模式显示音素的音素符号,因此提供了这样的优点,即,用户可以容易地检查是允许还是禁止每个音素的延长。显示模式是指用户可以从视觉上区分的图像特征,显示模式的典型示例为亮度(灰度)、色度、色调和格式(字母类型、字母大小、是否存在诸如下划线之类的突出显示)。此外,除了使其音素符号的显示模式不同的配置之外,还可以包括这样的配置,其中根据是允许还是禁止音素的延长来使音素符号的背景(基础)的显示模式不同。例如,可以采用以下配置:使音素符号的背景图案不同的配置;以及使音素符号的背景闪烁的配置。
而且,延长设置器针对与每个单位声音的发音内容相对应的多个音素中的时间上可持续的持续音素设置是允许延长还是禁止延长。
根据该配置,由于针对持续音素设置是允许延长还是禁止延长,因此提供了这样的优点,可以在保持每个音素的声音听起来自然的情况下生成合成声音。
通过诸如CPU(中央处理单元)之类的通用算术处理单元和程序的协作以及通过诸如DSP(数字信号处理器)之类的专用于合成声音生成的硬件(电子电路)来实现根据上述实施例的声音合成设备。本公开的程序使计算机执行:信息获取处理,用于获取指定每个单位声音的持续时间和发音内容的合成信息;延长设置处理,用于针对与每个单位声音的发音内容相对应的多个音素中的每一个来设置是允许延长还是禁止延长;以及声音合成处理,用于通过连接与每个单位声音的发音内容相对应的多个声音分段来生成对应于合成信息的合成声音,该声音合成处理根据每个单位声音的持续时间来延长与该单位声音的发音内容相对应的多个音素中与延长设置处理允许延长的音素相对应的声音分段。根据该配置,实现了与本公开的音乐数据编辑设备类似的工作和效果。本公开的程序以通过通信网络的分发形式提供而安装于计算机上,以及通过以存储在计算机可读记录介质中的形式提供而安装于计算机上。
尽管已针对特定优选实施例而示出和描述了本发明,但是,对于本领域技术人员而言显然的是,可以根据本发明的教导来进行各种改变和修改。显然,这些改变和修改在所附权利要求所定义的本发明的精神、范围、和意图内。
本申请基于2012年3月28日提交的日本专利申请No.2012-074858,该日本专利申请的内容以引用的方式并入本文。

Claims (7)

1.一种声音合成方法,包括:
对指定了每个单位声音的持续时间和发音内容的合成信息进行获取;
针对与每个单位声音的发音内容相对应的多个音素中的时间上可持续的持续音素来设置是允许延长还是禁止延长;以及
通过连接与每个单位声音的发音内容相对应的多个声音分段来生成对应于所述合成信息的合成声音,
其中在生成过程中,对于在与每个单位声音的发音内容相对应的多个音素当中的与允许延长的音素相对应的声音分段,按照单位声音的持续时间来对该声音分段进行延长。
2.根据权利要求1所述的声音合成方法,其中在设置过程中,响应于来自用户的指令来设置对每个音素是允许延长还是禁止延长。
3.根据权利要求2所述的声音合成方法,还包括:
显示设置图像,该设置图像提供了与用户在由所述合成信息指定的多个单位声音当中选出的一个单位声音的发音内容相对应的多个音素,显示该设置图像用以从用户接收关于对该多个音素中的每一个是允许延长还是禁止延长的指令。
4.根据权利要求1至3中任一项所述的声音合成方法,还包括:
在显示装置上显示与每个单位声音的发音内容相对应的多个音素中的每一个的音素符号,从而以不同的显示模式来显示允许延长的音素和禁止延长的音素。
5.根据权利要求4所述的声音合成方法,其中在所述显示模式中,对允许延长的音素应用具有高亮、下划线部分、圆圈、以及点中的至少一种的音素符号。
6.根据权利要求1所述的声音合成方法,还包括:
显示设置图像,该设置图像提供了与用户在由所述合成信息指定的多个单位声音当中选出的一个单位声音的发音内容相对应的多个音素,显示该设置图像用以从用户接收关于该多个音素的持续时间的指令,
其中在设置过程中,延长与该单位声音的发音内容相对应的声音分段,以使得与该单位声音的发音内容相对应的音素中的每一个的持续时间符合在设置图像中接收到的指令所指定的音素的持续时间当中的比率。
7.一种声音合成设备,包括:
信息获取器,其适合于对指定了每个单位声音的持续时间和发音内容的合成信息进行获取;
延长设置器,其适合于针对与每个单位声音的发音内容相对应的多个音素中的时间上可持续的持续音素来设置是允许延长还是禁止延长;以及
声音合成器,其适合于通过连接与每个单位声音的发音内容相对应的多个声音分段来生成对应于所述合成信息的合成声音,
其中所述声音合成器对于在与每个单位声音的发音内容相对应的多个音素当中的与允许延长的音素相对应的声音分段来按照单位声音的持续时间对该声音分段进行延长。
CN201310104780.XA 2012-03-28 2013-03-28 声音合成设备 Active CN103366730B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012074858A JP6127371B2 (ja) 2012-03-28 2012-03-28 音声合成装置および音声合成方法
JP2012-074858 2012-03-28

Publications (2)

Publication Number Publication Date
CN103366730A CN103366730A (zh) 2013-10-23
CN103366730B true CN103366730B (zh) 2016-12-28

Family

ID=47843125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310104780.XA Active CN103366730B (zh) 2012-03-28 2013-03-28 声音合成设备

Country Status (4)

Country Link
US (1) US9552806B2 (zh)
EP (1) EP2645363B1 (zh)
JP (1) JP6127371B2 (zh)
CN (1) CN103366730B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916295B1 (en) * 2013-03-15 2018-03-13 Richard Henry Dana Crawford Synchronous context alignments
JP6569246B2 (ja) * 2015-03-05 2019-09-04 ヤマハ株式会社 音声合成用データ編集装置
WO2016196041A1 (en) * 2015-06-05 2016-12-08 Trustees Of Boston University Low-dimensional real-time concatenative speech synthesizer
JP6784022B2 (ja) 2015-12-18 2020-11-11 ヤマハ株式会社 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP6523998B2 (ja) * 2016-03-14 2019-06-05 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
EP3602539A4 (en) * 2017-03-23 2021-08-11 D&M Holdings, Inc. SYSTEM FOR PROVIDING EXPRESSIVE AND EMOTIONAL TEXT-TO-LANGUAGE
JP6988343B2 (ja) * 2017-09-29 2022-01-05 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
CN113421548B (zh) * 2021-06-30 2024-02-06 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470316B1 (en) * 1999-04-23 2002-10-22 Oki Electric Industry Co., Ltd. Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
EP1617408A2 (en) * 2004-07-15 2006-01-18 Yamaha Corporation Voice synthesis apparatus and method

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4034344C2 (de) 1990-10-29 2003-11-27 Philips Broadcast Television S Anordnung zur Wiedergabe breitbandiger Signale für ein magnetisches Aufzeichnungs/Wiedergabe-Gerät
DE69228211T2 (de) * 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
CA2221762C (en) * 1995-06-13 2002-08-20 British Telecommunications Public Limited Company Ideal phonetic unit duration adjustment for text-to-speech system
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP2001343987A (ja) * 2000-05-31 2001-12-14 Sanyo Electric Co Ltd 音声合成方法、および音声合成装置
JP3589972B2 (ja) * 2000-10-12 2004-11-17 沖電気工業株式会社 音声合成装置
US7031922B1 (en) * 2000-11-20 2006-04-18 East Carolina University Methods and devices for enhancing fluency in persons who stutter employing visual speech gestures
US7546241B2 (en) * 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
US20040102973A1 (en) * 2002-11-21 2004-05-27 Lott Christopher B. Process, apparatus, and system for phonetic dictation and instruction
JP3843953B2 (ja) 2003-02-27 2006-11-08 ヤマハ株式会社 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
EP1726005A4 (en) * 2004-03-05 2007-06-20 Lessac Technologies Inc CODES FOR THE SYNTHESIS OF TEXT SPEECH, USE OF THEM IN COMPUTERIZED SPEECH SYSTEMS
JP4298612B2 (ja) * 2004-09-01 2009-07-22 株式会社フュートレック 音楽データ加工方法、音楽データ加工装置、音楽データ加工システム及びコンピュータプログラム
JP5029167B2 (ja) 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法
JP5029168B2 (ja) * 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法
US8370151B2 (en) * 2009-01-15 2013-02-05 K-Nfb Reading Technology, Inc. Systems and methods for multiple voice document narration
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
JP5423375B2 (ja) * 2009-12-15 2014-02-19 ヤマハ株式会社 音声合成装置
JP5257856B2 (ja) 2010-09-27 2013-08-07 Toto株式会社 燃料電池セルスタックユニット
JP2012163721A (ja) * 2011-02-04 2012-08-30 Toshiba Corp 読み記号列編集装置および読み記号列編集方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470316B1 (en) * 1999-04-23 2002-10-22 Oki Electric Industry Co., Ltd. Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
EP1617408A2 (en) * 2004-07-15 2006-01-18 Yamaha Corporation Voice synthesis apparatus and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Daniel Tihelka and Martin M&acute *
ener.Generalized Non-uniform Time Scaling Distribution Method for Natural-Sounding Speech Rate Change.《Text, Speech and Dialogue Lecture Notes in Computer Science》.2011,第6836卷 *

Also Published As

Publication number Publication date
EP2645363B1 (en) 2014-12-03
JP2013205638A (ja) 2013-10-07
CN103366730A (zh) 2013-10-23
US9552806B2 (en) 2017-01-24
EP2645363A1 (en) 2013-10-02
US20130262121A1 (en) 2013-10-03
JP6127371B2 (ja) 2017-05-17

Similar Documents

Publication Publication Date Title
CN103366730B (zh) 声音合成设备
US8975500B2 (en) Music data display control apparatus and method
US9424831B2 (en) Voice synthesizing having vocalization according to user manipulation
WO2017033612A1 (ja) 表示制御方法および合成音声編集装置
US9711123B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program recorded thereon
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JP5423375B2 (ja) 音声合成装置
JP6136202B2 (ja) 音楽データ編集装置および音楽データ編集方法
Pritchard et al. Grassp: Gesturally-realized audio, speech and song performance
JP6044284B2 (ja) 音声合成装置
KR101016978B1 (ko) 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5935545B2 (ja) 音声合成装置
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
CN113314093B (zh) 音频合成方法、装置、终端及存储介质
JPH07244496A (ja) テキスト朗読装置
JP2018077281A (ja) 音声合成方法
JP5641266B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5782751B2 (ja) 音声合成装置
JP2015079065A (ja) 合成情報管理装置および音声合成装置
JP6286946B2 (ja) 音声合成装置および音声合成方法
CN117711375A (zh) 语音生成方法、装置、计算机设备和存储介质
Pritchard et al. Performance: what does a body know?
Shen et al. Digital Storytelling Book Generator with MIDI-to-Singing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant