CN104050961A - 语音合成装置和方法以及存储有语音合成程序的记录介质 - Google Patents

语音合成装置和方法以及存储有语音合成程序的记录介质 Download PDF

Info

Publication number
CN104050961A
CN104050961A CN201410098488.6A CN201410098488A CN104050961A CN 104050961 A CN104050961 A CN 104050961A CN 201410098488 A CN201410098488 A CN 201410098488A CN 104050961 A CN104050961 A CN 104050961A
Authority
CN
China
Prior art keywords
many
sequence data
singing
sequence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410098488.6A
Other languages
English (en)
Inventor
入山达也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of CN104050961A publication Critical patent/CN104050961A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

公开了语音合成装置和方法以及存储有语音合成程序的记录介质,该语音合成装置包括:序列数据生成单元,被配置为生成序列数据,该序列数据包括用于控制要基于乐曲信息和歌词信息合成的语音的发声的多种参数;输出单元,被配置为基于序列数据输出歌唱语音;以及处理内容信息获取单元,被配置为获取多条处理内容信息。该多条处理内容信息与各条预设的歌唱方式信息相关联。多条处理内容信息中的每一条均表示用于多种参数的全部或部分的编辑处理的内容。序列数据生成单元生成多条序列数据。通过基于与用户指定的一条歌唱方式信息相关联的多条处理内容信息编辑序列数据中所包括的多种参数的全部或部分,来获得多条序列数据。

Description

语音合成装置和方法以及存储有语音合成程序的记录介质
相关申请的交叉引用
本申请要求日本申请JP2013-052758的优先权。该日本申请的内容在此通过引用合并于本申请中。
技术领域
本发明涉及语音合成装置、语音合成方法和存储有语音合成程
序的记录介质。
背景技术
这种语音合成技术的示例包括声乐合成技术,该声乐合成技术用于基于表示构成一首乐曲的旋律的音符串的信息(即,表示旋律的韵律变化的信息;下文中称其为“乐曲信息”)以及表示与各个音符同步地发声的歌词的信息(表示构成歌词的音素串的信息,下文中称其为“歌词信息”)来对歌唱语音进行电子合成(例如,参见WO2007/010680,日本专利申请公开第2005-181840号以及日本专利申请公开第2002-268664号)。近年来,用于使得诸如个人计算机之类的一般计算机执行这样的声乐合成的应用软件得到广泛普及。这种应用软件的示例包括一组声乐合成程序以及存储与从语音表演者或歌手的语音中提取的各种音素相关的各条波形数据的用于声乐合成的数据库。
声乐合成程序是这样一种程序,其用于使得计算机执行如下处理:从用于声乐合成的数据库读取与由歌词信息指定的音素相关的波形数据,对各波形数据进行音高转换以实现由乐曲信息指定的音高,以及按发音顺序组合各波形数据,以生成表示歌唱语音的声音波形的波形数据。另外,在一些声乐合成程序中,不仅可以精细地指定构成在进行歌词发音时所展现的歌词和音高的音素串,而且还可以精细地指定表示诸如在进行歌词发音时所展现的速度和音量之类的语音的发声方式的各种参数,以便获得接近人类歌唱语音的自然歌唱语音。
发明内容
当记录歌手的歌唱语音以制作CD等时,该记录可以包括使歌手重复歌唱直到录音师等满意为止以再次记录歌唱语音的全部或部分的“重录”。在这样的重录中,录音师等通过指定要重录的时间区间(下文中,称其为“重录区间”)和针对该重录区间的歌唱方式(例如,“更轻柔地”或“清楚地吐字”)来指示歌手再次歌唱,同时歌手通过反复试验再次歌唱以便实现录音师等指定的歌唱方式。
此外,在声乐合成中,自然优选的是以声乐合成程序的用户期望的歌唱方式对歌唱语音进行合成。在声乐合成中,通过编辑定义发声方式的各种参数中的每一个,可以按与在人歌唱的情况下所进行的重录中的方式相同的方式来改变合成歌唱语音的歌唱方式。然而,从一般用户的角度来看,他/她经常不知道如何编辑哪个参数来实现诸如“更轻柔地”的歌唱方式并且几乎不能实现期望的歌唱方式。基于表示要合成的语音的韵律变化的信息(与在声乐合成中所使用的乐曲信息相对应的信息)和表示要发声的内容的信息(与在声乐合成中所使用的歌词信息相对应的信息)对除了歌唱语音外的语音(诸如,针对于文学作品的朗读语音或针对各种指导的指导语音)进行电子合成的情况也是如此。在以下描述中,再次进行语音合成以在语音合成中实现期望的发声方式(在声乐合成的情况下,为歌唱方式)也被称为“重录”。
鉴于上述问题做出了本发明的一个或多个实施例,并且本发明的一个目的在于提供一种能够在不直接编辑表示语音的发声方式的各种参数的情况下进行合成语音的重录的技术。
(1)一种语音合成装置包括:序列数据生成单元,其被配置为生成序列数据,该序列数据包括用于控制要基于乐曲信息和歌词信息合成的语音的发声的多种参数;输出单元,其被配置为基于序列数据输出歌唱语音;以及处理内容信息获取单元,其被配置为获取多条处理内容信息。该多条处理内容信息与各条预设的歌唱方式信息相关联。该多条处理内容信息表示用于多种参数的全部或部分的编辑处理的内容。序列数据生成单元生成多条序列数据。通过基于与用户指定的一条歌唱方式信息相关联的多条处理内容信息编辑序列数据中所包括的多种参数的全部或部分,来获得多条序列数据中的每一条。
(2)在根据(1)的语音合成装置中,输出单元基于多条序列数据顺序地输出歌唱语音。
(3)在根据(1)的语音合成装置中,序列数据生成单元还生成多条序列数据。通过基于与用户指定的一条歌唱方式信息相关联的多条处理内容信息的全部或部分的组合编辑序列数据中所包括的多种参数的全部或部分,来获得多条序列数据中的每一条。
(4)在根据(2)的语音合成装置中,多条处理内容信息中的每一条还与表示输出单元输出歌唱语音的优先级的优先级信息相关联。输出单元根据优先级、基于所生成的多条序列数据来顺序地输出歌唱语音。
(5)在根据(4)的语音合成装置中,基于用户输入的对于编辑后的序列数据的评价值来更新优先级。
(6)在根据(1)的语音合成装置中,输出单元仅基于所生成的多条序列数据当中的一条所生成的包括编辑后的参数的序列数据来输出歌唱语音,该歌唱语音在基于所生成的包括编辑后的参数的序列数据输出的歌唱语音与基于编辑前的序列数据输出的歌唱语音之间存在差异。该差异等于或大于预定阈值。
(7)在根据(1)的语音合成装置中,序列数据生成单元仅基于编辑前的序列数据中所包括的音素和多条处理内容信息中的每一条,生成多条序列数据中的部分。
(8)在根据(1)的语音合成装置中,序列数据生成单元生成多条序列数据。通过在用户指定的区间内编辑序列数据中所包括的多种参数的全部或部分来获得多条序列数据中的每一条。
(9)根据(8)的语音合成装置还包括被配置为将多个区间显示为生成多条序列数据的候选的显示单元。
(10)一种语音合成方法,包括如下步骤:生成序列数据,该序列数据包括用于控制要基于乐曲信息和歌词信息合成的语音的发声的多种参数;基于序列数据输出歌唱语音;获取多条处理内容信息,该多条处理内容信息与各条预设歌唱方式信息相关联。多条处理内容信息中的每一条表示针对多种参数的全部或部分的编辑处理的内容。该语音合成方法还包括生成多条序列数据的步骤。通过基于与所述多条歌唱方式信息中由用户指定的一条歌唱方式信息相关联的多条处理内容信息对序列数据中所包括的多种参数的全部或部分进行编辑,来获得所述多条序列数据。
(11)根据(10)的语音合成方法,还包括基于多条序列数据顺序地输出歌唱语音。
(12)根据(10)的语音合成方法,还包括生成多条序列数据的步骤。通过基于与所述多条歌唱方式信息中由用户指定的一条歌唱方式信息相关联的多条处理内容信息的全部或部分的组合对序列数据中所包括的多种参数的全部或部分进行编辑,来获得多条序列数据中的每一条。
(13)在根据(11)的语音合成方法中,多条处理内容信息中的每一条还与表示输出歌唱语音的优先级的优先级信息相关联。该语音合成方法还包括根据优先级、基于所生成的多条序列数据顺序地输出歌唱语音。
(14)在根据(13)的语音合成方法中,基于用户输入的对于编辑后的序列数据的评价值来更新优先级。
(15)根据(10)的语音合成方法还包括如下步骤:仅基于所生成的多条序列数据当中的包括编辑后的参数的序列数据输出歌唱语音,所述歌唱语音在基于所生成的包括编辑后的参数的序列数据输出的歌唱语音与基于编辑前的序列数据输出的歌唱语音之间存在差异。该差异等于或大于预定阈值。
(16)在根据(10)的语音合成方法中,生成多条序列数据的步骤仅基于编辑前的序列数据中所包括的音素和多条处理内容信息中的每一条,来生成多条序列数据中的部分。
(17)在根据(10)的语音合成方法中,生成多条序列数据的步骤生成多条序列数据。通过在用户指定的区间内编辑序列数据中所包括的多种参数的全部或部分来获得多条序列数据中的每一条。
(18)根据(17)的语音合成方法还包括将多个区间显示为生成多条序列数据的候选的步骤。
(19)一种非暂态计算机可读记录介质,其存储包括以下指令的语音合成程序:生成序列数据,该序列数据包括用于控制要基于乐曲信息和歌词信息合成的语音的发声的多种参数;基于序列数据输出歌唱语音;获取多条处理内容信息,该多条处理内容信息与各条预设歌唱方式信息相关联。多条处理内容信息中的每一条均表示用于多种参数的全部或部分的编辑处理的内容。该语音合成程序还包括生成多条序列数据的指令。通过基于与所述多条歌唱方式信息中由用户指定的一条歌唱方式信息相关联的多条处理内容信息对序列数据中所包括的多种参数的全部或部分进行编辑,来获得所述多条序列数据。
附图说明
图1是示出根据本发明的第一实施例的声乐合成装置10A的配置示例的示图。
图2是示出声乐合成装置10A的用户I/F单元120的显示单元上所显示的输入画面的示例的示图。
图3A是示出声乐合成装置10A的用户I/F单元120的显示单元上所显示的重录支持画面的示例的示图。
图3B是示出声乐合成装置10A的用户I/F单元120的显示单元上所显示的重录支持画面的示例的示图。
图4是示出存储在声乐合成装置10A的非易失性存储单元144中的重录支持表144c的示例的示图。
图5是示出控制单元110根据存储在上述非易失性存储单元144中的声乐合成程序144a执行的处理的流程的流程图。
图6A是示出控制单元110生成的用于声乐合成的序列数据的示例的示图。
图6B是示出控制单元110生成的用于声乐合成的序列数据的示例的示图。
图7A是示出根据该实施例的编辑处理的示例的曲线图。
图7B是示出根据该实施例的编辑处理的示例的曲线图。
图8A是用于示出上述编辑处理的效果的示图。
图8B是用于示出上述编辑处理的效果的示图。
图8C是用于示出上述编辑处理的效果的示图。
图8D是用于示出上述编辑处理的效果的示图。
图8E是用于示出上述编辑处理的效果的示图。
图9是示出根据本发明的第二实施例的声乐合成装置10B的配置示例的示图。
图10是示出声乐合成装置10B的控制单元110根据声乐合成程序144d执行的处理的流程的流程图。
具体实施方式
现在,参照附图描述本发明的实施例。
(A:第一实施例)
图1是示出根据本发明的第一实施例的声乐合成装置10A的配置示例的示图。声乐合成装置10A是如下装置:其用于以与现有技术的声乐合成装置相同的方式,基于表示构成要合成歌唱语音的乐曲的旋律的音符串的乐曲信息和表示要与各个音符同步歌唱的歌词的歌词信息,电子地生成关于歌唱语音的波形数据。如图1所示,声乐合成装置10A包括控制单元110、用户I/F单元120、外部装置I/F单元130、存储单元140和用于在这些部件之间进行居间数据交换的总线150。
例如,控制单元110是中央处理单元(CPU)。控制单元110读取并执行存储在存储单元140(更确切地,为非易失性存储单元144)中的声乐合成程序144a,从而起到声乐合成装置10A的控制中心的作用。稍后描述控制单元110根据声乐合成程序144a执行的处理。
用户I/F单元120提供了用于允许用户使用声乐合成装置10A的各种用户接口。用户I/F单元120包括用于显示各种画面的显示单元和用于允许用户输入各种数据和各种指令的操作单元(两者在图1中都未被示出)。显示单元由液晶显示器和用于该液晶显示器的驱动电路构成,并且在控制单元110的控制下显示各种画面。操作单元包括设置有诸如数字小键盘和光标键之类的许多操作键的键盘以及诸如鼠标之类的定点装置。当用户对操作单元执行给定操作时,操作单元通过总线150向控制单元110给出表示给定操作的详情的数据。通过该操作,将用户的操作详情传送至控制单元110。
包括在用户I/F单元120中的显示单元上所显示的画面的示例包括用于允许用户输入乐曲信息和歌词信息的输入画面以及用于支持用户重录合成歌唱语音的重录支持画面。图2是示出输入画面的示例的示图。如图2所示,输入画面具有区域A01和区域A02这两个区域。模仿钢琴卷帘窗(piano roll)的图像显示在区域A01内。在该图像中,纵轴方向(钢琴卷帘窗的键排列的方向)表示音高,以及横轴方向表示时间。用户可以通过用鼠标等在区域A01内与期望音高和发声时间相对应的位置描绘矩形R1来输入与音符相关的信息(音高、发声开始时间和音符的持续时间),并且可以通过在矩形R1内输入表示与音符同步发声的音素的平假名和音素符号来输入歌词信息。另外,通过用鼠标等在上述矩形R1下方描绘音高曲线PC,用户可以指定音高随着时间的变化。
区域A02是用于允许用户指定:在每一个均表示语音的发声方式并用于控制语音的发声的各参数当中除了乐曲信息或歌词信息外的参数(诸如速度(在图2中被表示为“VEL”)或音量(在图2中被表示为“DYN”)的值、以及参数随着时间的变化。例如,图2示出指定了速度的示例性情况。用户可以通过用鼠标等指定对应于参数的字符串并描绘表示该参数的值的曲线图(在图2的示例中,为曲线图G1和G2)来指定期望参数的值及其随着时间的变化。
当通过在图2所示的输入画面内用鼠标等进行拖动来指定期望重录的时间区间时,图3A所示的重录支持画面显示在显示单元上。图3A示出了第三小节和第四小节被指定为重录区间的示例性情况。视觉上识别出重录支持画面的用户可以通过鼠标点击“指定”按钮B1来使得歌唱方式指定菜单M1得以显示,并且可以从在歌唱方式指定菜单M1上所显示的多种歌唱方式(在图3A所示的示例中,为“轻柔地”、“强烈地”、“辅音清楚”和“元音清楚”这四种)当中选择期望的歌唱方式,以指定歌唱方式。应注意,歌唱方式的指定不限于以音符为单位,而是可以针对多个音符指定歌唱方式。例如,如图3B所示,当选择了歌唱方式“能共鸣地”时,显示用于指定该指定歌唱方式的强度的按钮B2,从而可以允许用户通过鼠标点击按钮B2作为触发来显示允许用户指定该指定歌唱方式的强度随着时间的变化的图形曲线GP并且允许用鼠标等使图形曲线GP变形来输入该指定歌唱方式的强度。
应该注意,可以通过对上述图2所示的输入画面进行操作直接地对各种参数进行编辑来重录合成后的歌唱语音。具体地,精通声乐合成的用户可以精细地对各种参数的值进行调整,从而随意实现期望的歌唱方式。然而,大多数一般用户可能不知道如何编辑哪个参数来实现期望歌唱方式。根据该实施例的声乐合成装置10A具有如下的特征:即使不知道如何编辑哪个参数来实现期望歌唱方式的一般用户也可以容易地通过在重录支持画面上指定重录区间并且进一步指定歌唱方式来进行重录。
外部装置I/F单元130是诸如通用串行总线(USB)接口和网络接口卡(NIC)之类的各种输入/输出接口的集合。在外部装置连接至声乐合成装置10A的情况下,外部装置连接至外部装置I/F单元130中所包括的各个输入/输出接口中的优选的一个输入/输出接口。连接至外部装置I/F单元130的外部装置的示例包括用于与波形数据同步地再现声音的音响系统。应注意,在该实施例中,歌词信息和乐曲信息通过用户I/F单元120输入至声乐合成装置10A,但也可以通过外部装置I/F单元130输入。具体地,写入与要合成歌唱语音的乐曲相关的乐曲信息和歌词信息的诸如USB存储器之类的存储装置可以连接至外部装置I/F单元130,以使得控制单元110执行用于从存储装置读取信息的处理。
存储单元140包括易失性存储单元142和非易失性存储单元144。易失性存储单元142由例如随机存取存储器(RAM)构成。易失性存储单元142被控制单元110用作执行各种程序时所使用的工作区。非易失性存储单元144由诸如硬盘驱动器和闪存之类的非易失性存储器构成。非易失性存储单元144存储用于使得控制单元110实现根据该实施例的声乐合成装置10A特有功能的程序和数据。
存储在非易失性存储单元144中的程序的示例包括声乐合成程序144a。声乐合成程序144a使得控制单元110以与用于现有技术的声乐合成技术的程序相同的方式执行用于基于乐曲信息和歌词信息生成表示合成歌唱语音的波形数据的处理,并且使得控制单元110执行该实施例特有的重录支持处理。存储在非易失性存储单元144中的数据的示例包括定义各种画面的格式的画面格式数据(图1中未示出)、用于声乐合成的数据库144b和重录支持表144c。用于声乐合成的数据库144b与现有技术的声乐合成装置中所包括的用于声乐合成的数据库无明显不同,因此,省略对其的详细描述。
图4是示出重录支持表144c的示例的示图。
如图4所示,重录支持表144c与表示可以在图3A所示的重录支持画面上指定的给定歌唱方式的歌唱方式标识符(表示每种歌唱方式的字符串信息)相关联地存储处理内容数据,该处理内容数据表示可以实现给定的歌唱方式的多种编辑处理。在图4的示例中,与歌唱方式标识符“辅音清楚”相关联地存储表示“(方法A):降低速度(即,增大辅音持续时间)”、“(方法B):增大辅音音量”以及“(方法C):减小辅音的音高”这三种编辑处理的处理内容的处理内容数据。
如图4所示,由于在实现一种歌唱方式时多种编辑处理中的哪一种更有效可以根据重录区间中所包括的音素的前后关系及其类型而不同,因此多种编辑处理与一种歌唱方式相关联。例如,当重录区间内的歌词中所包括的辅音是“s”时,辅音“s”不具有音高,因此可想到(方法C)是无效的而(方法A)和(方法B)是有效的。另外,当重录区间内的歌词中所包括的辅音是“t”时,可想到(方法B)是有效的,而当重录区间内的歌词中所包括的辅音是“d”时,可想到(方法A)、(方法B)和(方法C)中的任一种都是有效的。
接下来,描述控制单元110根据声乐合成程序144a所执行的处理。控制单元110将声乐合成程序144a读取到易失性存储单元142上,并且开始其执行。图5是示出控制单元110根据声乐合成程序144a执行的处理的流程的流程图。如图5所示,控制单元110根据声乐合成程序144a执行的处理被划分成声乐合成处理(步骤SA100至步骤SA120)和重录支持处理(步骤SA130至步骤SA170)。
已开始执行声乐合成程序144a的控制单元110首先在用户I/F单元120的显示单元上显示图2所示的输入画面(步骤SA100),并且提示用户输入乐曲信息和歌词信息。视觉上识别出图2所示的输入画面的用户操作用户I/F单元120的操作单元来输入与期望合成歌唱语音的歌曲相关的乐曲信息和歌词信息,从而指示控制单元110开始合成。当通过用户I/F单元120指示开始合成时,控制单元110根据通过用户I/F单元120接收到的乐曲信息和歌词信息来生成用于声乐合成的序列数据(步骤SA110)。
图6A是示出例示用于声乐合成的序列数据的声乐合成得分的示图。如图6A所示,声乐合成得分包括音高数据音轨和音素数据音轨。音高数据音轨和音素数据音轨是共用时间轴的多条时序数据。表示构成一首乐曲的各音符的音高、音量等的各种参数被映射在音高数据音轨中,并且构成与各个音符同步发音的歌词的音素串被映射在音素数据音轨中。即,在图6A所示的声乐合成得分中,公共时间轴被用作音高数据音轨的时间轴和音素数据音轨的时间轴,从而使与构成要合成歌唱语音的歌曲的旋律的音符相关的信息与要与音符同步歌唱的歌词的音素相关联。
图6B是示出用于声乐合成的序列数据的另一具体示例的示图。图6B所示的用于声乐合成的序列数据是XML格式数据,其中,对于构成这首乐曲的各音符,描述了一对与由音符表示的声音相关的信息(诸如,发声时间、音符的持续时间、音高、音量和速度)和与同音符同步地发声的歌词的一部分相关的信息(表示歌词的一部分的音标和音素)。例如,在图6B所示的用于声乐合成的XML格式序列数据中,由标记<note>和标记</note>限定的数据对应于一个音符。为了更详细地描述,在由标记<note>和标记</note>限定的数据内,由标记<posTick>和标记</posTick>限定的数据表示音符的发声时间,由标记<durTick>和标记</durTick>限定的数据表示音符的持续时间,以及由标记<noteNum>和标记</noteNum>限定的数据表示音符的音高。另外,由标记<Lyric>和标记</Lyric>限定的数据表示与音符同步地发声的歌词的一部分,以及由标记<phnms>和标记</phnms>限定的数据表示与歌词的一部分相对应的音素。
存在可想到的与以哪种单位生成用于声乐合成的序列数据相关的各种模式。其示例可以包括用于针对要合成歌唱语音的整首乐曲生成用于声乐合成的一条序列数据的模式、以及用于针对诸如乐曲的第一段和第二段或者A部、B部以及合唱曲之类的乐曲中的各组块生成用于声乐合成的序列数据的模式。然而,应该理解,考虑到进行重录而优选后一模式。
在步骤SA110之后的步骤SA120中,控制单元110首先基于在步骤SA110中所生成的用于声乐合成的序列数据来生成合成歌唱语音的波形数据。应注意,关于合成歌唱语音的波形数据的生成并不特别不同于用于现有技术的声乐合成装置进行的生成,因此,省略对其的详细描述。随后,控制单元110将基于用于声乐合成的序列数据所生成的波形数据给予连接至外部装置I/F单元130的音响系统,并且将该波形数据输出为声音。
以上描述针对声乐合成处理。
接下来,将描述重录支持处理。
用户可以收听从音响系统输出的合成歌唱语音并且验证歌唱语音是否如期望那样被合成。然后用户可以操作用户I/F单元120的操作单元以便发出用以结束合成或进行重录的指令(具体地,为表示需要进行重录的时间区间的信息)。具体地,当已如期望的那样合成了歌唱语音时,发出用以结束合成的指令,而当没有如期望的那样合成歌唱语音时,发出用以进行重录的指令。控制单元110确定通过用户I/F单元120发出了用以结束合成的指令和用以进行重录的指令中的哪个指令(步骤SA130)。当已发出用以结束合成的指令时,控制单元110将在步骤SA110中所生成的用于声乐合成的序列数据(或在步骤SA120中所生成的波形数据)写入至非易失性存储单元144的预定存储区域,以完成执行声乐合成程序144a。相反,当用户已发出用以进行重录的指令时,执行步骤SA140及随后步骤的处理。具体地,例如,控制单元110接收表示需要进行重录的时间区间的信息,并且执行步骤SA140及随后步骤的处理。
在已发出用以执行重录的指令时所执行的步骤SA140中,控制单元110在用户I/F单元120的显示单元上显示图3A所示的重录支持画面。视觉上识别出重录支持画面的用户可以操作用户I/F单元120的操作单元以从多种歌唱方式当中指定期望的歌唱方式。已接收到歌唱方式的指定的控制单元110首先读取与该歌唱方式相关联地存储在重录支持表144c中的多条处理内容数据(步骤SA150)。
随后,控制单元110执行重录处理(步骤SA160),用于使属于在步骤SA140中指定的区间的用于声乐合成的序列数据进行用于基于由在步骤SA150中读取的多种处理内容数据中的每一个所表示的处理内容来编辑参数的处理。应注意,在重录处理中,不仅基于在步骤SA150中所读取的多种处理内容数据中的每一种来执行编辑处理,而且还可以通过组合多种编辑处理来执行编辑处理。
例如,当用户指定的歌唱方式是“辅音清楚”时,不仅执行图4所示的(方法A)、(方法B)和(方法C),而且还执行(方法A)与(方法B)的组合、(方法A)与(方法C)的组合、(方法B)与(方法C)的组合以及(方法A)、(方法B)与(方法C)的组合。这是因为可想到当要重录的合成歌唱语音的节奏慢时通过执行(方法A)、(方法B)和(方法C)中的任一种都可以有效地清楚地表达辅音,而可想到当节奏快时或者当重录区间中所包括的音符具有短音符持续时间时在不组合多种方法的情况下不能产生充分的效果。在这种情况下,声乐合成装置10A可以被配置成使得例如按顺序执行上述组合(诸如,(方法A)与(方法C)、(方法B)与(方法C)、(方法A)与(方法B)与(方法C)、以及(方法A)与(方法B))并且向用户呈现该组合以允许用户按顺序验证是否已如期望的那样合成了歌唱语音。另外,声乐合成装置10A可被配置成使得显示与上述方法中的每一种和上述组合中的每一种相对应的图标,并且每当用户选择图标时执行与该图标对应的每种方法等,并且向用户呈现每种方法等以允许用户按顺序验证是否已如期望的那样合成了歌唱语音。
另外,重录区间内的乐句结构和乐曲结构可以用于重录处理。例如,当“更强有力地”被指定为歌唱方式时,可以向用户呈现基于小节的选项(诸如,“加强整个重录区间”、“仅加强第一拍”、“仅加强第二拍”、…、“仅将第一拍加强10%”、以及“仅将第一拍加强20%”),并且可以使得重录处理的处理内容根据用户的选择而不同。另外,可以参考存储表示每个单词的重音位置的信息的字典来加强重录区间内的歌词中所包括的单词的重音部分,并且可以呈现允许用户指定是否加强这样的重音部分的选项。
另外,在SA130中,在显示单元的输入画面上,可以显示预先设置了定界符位置的重录区间的一个或多个候选,并且可以提示用户从候选当中选择期望的重录区间。在这种情况下,例如,当存在对用于声乐合成的序列数据的呼吸符号/音符(诸如,[Sil]或[br])的用户输入时,当存在无音符输入的小节时,或者当存在持续时间的值等于或大于预定阈值的剩余区间时,基于其部分或全部来设置重录区间的定界符位置。然后,控制单元110基于如何在输入画面上输入上述信息来自动地指定定界符位置,并且基于定界符位置在输入画面上显示重录区间的一个或多个候选。可以允许用户对操作单元(诸如指示装置)进行操作以调整输入画面上重录区间的候选的起点和终点的位置。在这种情况下,可以基于合成歌唱语音的重录区间的指定来支持用户。
在利用根据该实施例的(方法A)执行的编辑中,控制单元110通过将编辑前的速度V0乘以1/10来计算编辑后的速度V1。另外,在利用(方法B)执行的编辑中,控制单元110通过将表示编辑前的音量的参数D0[t]乘以函数k[t]来计算表示编辑后的音量的参数D1[t],函数k[t]表示如图7A所示的在音符开启时间(在该操作示例中,为t=0)具有峰值并且在在其他时间区间内呈现恒定值(在该实施例中为1)的曲线。这仅提高了在音符开启时间附近的音量。然后,在利用(方法C)执行的编辑中,控制单元110通过从表示编辑前的音高的参数P0[t]减去表示如图7B所示的在音符开启时间(在该操作示例中,为t=0)具有陡峭谷的曲线的函数k[t]来计算表示编辑后的音高的参数P1[t],并且还将图7B所示的函数n[t]的值用作表示弯音灵敏度的参数B1[t]。
当上述重录处理结束时,控制单元110执行选择支持处理(步骤SA170)。在选择支持处理中,控制单元110向用户呈现由在重录处理中生成的用于声乐合成的多条序列数据所表示的歌唱语音,并且提示用户选择用于声乐合成的任一个序列数据。应注意,例如,当仅存在一条在重录处理中所生成的用于声乐合成的序列数据时,控制单元110可以被配置为仅向用户呈现由用于声乐合成的一条序列数据表示的歌唱语音,并且提示用户选择该歌唱语音。用户预览声乐合成装置10A呈现的歌唱语音,并且选择似乎最好地实现在重录支持画面上所指定的歌唱方式的一个歌唱语音,从而指示声乐合成装置10A完成重录。控制单元110保存用户指示的用于声乐合成的序列数据,这完成了合成歌唱语音的重录。
例如,在重录区间内的歌词的部分是“asa”的情况下,通过(方法A)对如图8A所示的重录之前的这种声音波形进行编辑以获得图8B所示的编辑后的声音波形,并且进一步通过(方法B)对如图8A所示的重录之前的这种声音波形进行编辑,以获得图8C所示的编辑后的声音波形。另外,在重录区间内的歌词的部分是“ada”的情况下,通过(方法C)对如图8D所示的重录之前的这种声音波形进行编辑以获得图8E所示的编辑后的声音波形。用户将图8A所示的声音波形与图8B(或图8C)所示的声音波形之间的差别或者图8D所示的声音波形与图8E所示的声音波形之间的差别看成是否听清辅音的这种可听性的差别。
如上所述,根据本实施例,在没有直接对诸如音高、速度或音量之类的参数进行编辑的情况下,可以以期望的歌唱方式实现合成歌唱语音的重录。应注意,已通过考虑如下情况来描述了本实施例,但可以根据处理内容数据的条数来重复重录处理和对重录结果的呈现,已考虑的情况中,使用在步骤SA150中所获取的各条处理内容数据来对用于声乐合成的序列数据进行编辑,并且生成与各条处理内容数据相对应的用于声乐合成的序列数据,此后,执行选择支持处理。具体地,应该理解,可根据处理内容的条数来重复(1)“编辑用于声乐合成的序列数据”、(2)“基于编辑后的用于声乐合成的序列数据生成波形数据”、(3)“将波形数据输出为声音(即,呈现编辑结果)”。
另外,当与可以指定的各种歌唱方式相比可以显示歌唱方式指定菜单M1的画面尺寸小时,可以对这些歌唱方式分组(例如,分组成与以音符为单位的歌唱方式相关的组以及与关于多个音符的歌唱方式相关的组),并且可以按诸如(1)“指定以音符为单位的歌唱方式”、(2)“编辑用于声乐合成的序列数据”、(3)“基于编辑后的用于声乐合成的序列数据来生成波形数据”、(4)“将波形数据输出为声音”、(5)“指定关于多个音符的歌唱方式”、(6)“编辑用于声乐合成的序列数据”→…的顺序、根据组数来重复步骤SA140至步骤SA170的处理(替选地,将对于一组的步骤SA140至步骤SA170的处理的结束作为触发,执行步骤SA130的处理以提示用户输入完成合成或执行重录的指令,并且当发出用以执行重录的指令时(即,当发出再次执行重录的指令时)开始对于另一组的处理,而当发出完成合成的指令时省略对于另一组的处理)。应注意,当发出再次执行重录的指令时,可以再次指定重录区间,或者可以省略重录区间的指定(即,可以设置与紧接之前的组的重录区间相同的重录区间)。根据这样的模式,不仅可以应对不能以足够的画面尺寸显示歌唱方式指定菜单M1的这种状况,而且可以有效地防止用户在一次呈现各种歌唱方式时感到困惑。
另外,在用于将歌唱方式分成以音符为单位的组的模式中,从以音符为单位的歌唱方式的组开始按顺序向用户呈现关于多个音符的组、关于多个小节的组、…、歌唱方式,从而允许从以音符为单位的组到更宽编辑范围的组来系统地验证重录结果,这使得即使不熟悉声乐合成的初学者用户也能够容易且系统地执行歌唱语音的重录。应注意,在作为对歌唱方式进行分组的结果而仅一种自然可接受的歌唱方式属于一组的情况下,当显示对于一组的歌唱方式指定菜单M1时,可以显示仅仅标记为“重录”的歌唱方式指定菜单M1来代替表示一种歌唱方式的歌唱方式标识符(例如,“辅音清楚”)。这是因为存在详细信息的呈现可能引起初学者用户感到困惑或不容易的担心,并且在一些情况下简单显示可能是优选的。
(B:第二实施例)
图9是示出根据本发明的第二实施例的声乐合成装置10B的配置示例的示图。
在图9中,与图1的部件相同的部件由相同的参考标记表示。从图9与图1之间的比较显而易见,声乐合成装置10B的配置与声乐合成装置10A的配置的不同之处在于,声乐合成程序144d而不是声乐合成程序144a存储在非易失性存储器144中。以下主要描述作为与第一实施例的不同之处的声乐合成程序144d。
图10是示出控制单元110根据声乐合成程序144d执行的处理的流程的流程图。从图10与图5之间的比较显而易见的是,根据该实施例的声乐合成程序144d与根据第一实施例的声乐合成程序144a的不同之处在于,声乐合成程序144d使得控制单元110执行在重录处理(步骤SA160)之后的初步评价处理(步骤SA165),并且在执行初步评价处理之后执行选择支持处理(步骤SA170)。以下主要描述作为与第一实施例不同之处的初步评价处理(步骤SA165)。
在初步评价处理(步骤SA165)中,控制单元110基于在重录处理中所生成的每条用于声乐合成的序列数据来生成波形数据,确定基于原始的用于声乐合成的序列数据所生成的波形数据与基于在重录处理中生成的每条用于声乐合成的序列数据所生成的波形数据之间是否存在差别,并且从在选择支持处理中要向用户呈现的歌唱语音中排除由已被确定为不具有差别的用于声乐合成的序列数据所表示的歌唱语音(步骤SA170)。这里,作为确定基于在重录处理中生成的用于声乐合成的序列数据所生成的波形数据与基于原始的用于声乐合成的序列数据所生成的波形数据之间是否存在差别的具体地方法,可以存在如下两种模式:一种模式用于获得表示关于前一序列数据的波形数据的样本串内与表示关于后一序列数据的波形数据的样本串内处于相同时刻的样本之间的差别(例如,振幅差别),并且当该差别的绝对值的总和超过预定阈值时确定存在“差别”;以及另一模式用于获得两个样本串之间的相关系数,并且基于相关系数的值比1小多少来进行该确定。为了以下原因而提供了上述初步评价处理。
由与歌唱方式标识符相关联的多种处理内容数据中的每一个表示的编辑处理可以实现由该歌唱方式标识符表示的歌唱方式,但如上所述,可能无法根据哪种音素包括在重录区间中或者根据节奏或音符持续时间来获得充分的效果。基于通过进行由处理内容处理表示的编辑而生成的用于声乐合成的序列数据所生成的波形数据与基于原始的用于声乐合成的序列数据所生成的波形数据之间存在差别的事实意味着,由处理内容数据表示的编辑内容没有呈现足够的实现歌唱方式的效果。即,提供根据该实施例的初步评价处理是为了从用户要验证的重录结果中排除不能充分实现用户指定的歌唱方式的重录结果并且允许用户高效地执行验证工作。
根据该实施例以及第一实施例,在不直接对诸如音高、速度或音量之类的参数进行编辑的情况下,可以以期望的歌唱方式实现合成歌唱语音的重录。另外,根据该实施例,可以从要向用户呈现的重录结果中排除未呈现出效果的重录结果并且允许用户高效地执行重录结果的验证和选择。
(C:变型例)
以上描述了本发明的第一和第二实施例,但以下变型例可以自然添加到这些实施例中。(1)通过以将本发明应用于基于乐曲信息和歌词信息来对歌唱语音进行电子合成的声乐合成装置作为示例来描述上述实施例中的每一个。然而,本发明的应用不限于声乐合成装置,而可以自然应用于基于表示要合成语音的韵律变化的信息(与用于声乐合成的乐曲信息相对应的信息)以及表示语音的音素串的信息(与用于声乐合成的歌词信息相对应的信息)来对用于文学作品的朗读语音或用于各种引导的引导语音进行电子合成的语音合成装置。另外,替代专用于语音合成的装置,本发明可以自然应用于例如用于与其他处理并行地(或作为其他处理的一部分)执行语音合成处理的装置,诸如用于执行将角色台词输出为声音的角色扮演游戏等的游戏机或者具有音频重放功能的玩具。
(2)在上述实施例中的每一个中,重录支持表144c作为与声乐合成程序分离的数据存储在非易失性存储单元144中。然而,重录支持表144c可以与声乐合成程序一体地存储在非易失性存储单元144中(即,通过将重录支持表144c并入声乐合成程序中)。
(3)在上述实施例中的每一个中,表示相互不同种类的编辑处理的处理内容数据与表示歌唱方式的歌唱方式标识符相关联地存储在重录支持表144c中。然而,在呈现相互不同的编辑强度的同时表示相同的编辑内容的多条处理内容数据可以作为表示相互不同的编辑内容的多条处理内容数据存储在重录支持表144c中。例如,多条处理内容数据替代表示(方法A)的上述处理内容数据存储在图4所示的重录支持表144c中,以使得表示速度要乘以1/2的处理内容数据被存储为表示(方法A1)的处理内容数据,表示速度要乘以1/3的处理内容数据被存储为表示(方法A2)的处理内容数据,以及表示速度要乘以1/10的处理内容数据被存储为表示(方法A3)的处理内容数据。在这种情况下,可以将(方法A1)与(方法A2)的组合当作用于将速度乘以1/6的编辑处理,或者可以禁止呈现相互不同的编辑强度的同时表示相同编辑内容的多条处理内容数据彼此组合。
(4)在上述实施例中的每一个中,表示可以实现给定歌唱方式的多种编辑处理的处理内容数据与表示可以在重录支持画面上指定的给定歌唱方式的歌唱方式标识符相关联地存储在重录支持表144c中。然而,可以仅在重录支持表144c中存储表示相互不同的处理内容的各条处理内容数据,可以针对用于声乐合成的序列数据来执行基于这些处理内容数据中的每一条的编辑处理,并且可以允许用户验证编辑结果并且选择期望的重录结果,或者可以允许用户验证通过编辑处理产生了哪种效果并且根据效果对处理内容数据进行分类。应注意,可以通过使用现有歌唱评分技术或者现有的歌唱评价技术来自动进行这种验证/分类工作。
(5)利用根据用户的偏好赋予实现相同歌唱方式的多种编辑处理中的每一个的优先级,可以按赋予产生重录结果的编辑处理的优先级的降序来向用户呈现重录结果。具体地,表示由各条处理内容数据表示的各种编辑处理的优先级的各条优先级数据(在初始状态下全部是诸如出厂默认值的相同值)与各条处理内容数据相关联地存储在重录支持表144c中,允许用户输入对于重录结果的评价值(例如,当在选择支持处理中似乎不存在效果时为零,以及对于似乎更大的效果为较大值),并且使得控制单元110执行用于基于评价值更新每条处理内容数据的优先级的评价处理。然后,在选择支持处理中,按赋予表示生成重录结果的处理内容的处理内容数据的优先级的降序来向用户呈现重录结果。根据这样的模式,可以反映使用哪种编辑处理实现给定的歌唱方式的用户偏好,并且根据用户偏好呈现重录结果。另外,利用针对包括在重录区间中的各个音素而存储的各条优先级数据,可以基于用户指定的歌唱方式和包括在重录区间中的音素来选择编辑处理。
另外,可以针对每条处理内容数据、按赋予其的优先级的降序来执行重录处理、重录结果的呈现和评价输入(用于提示用户输入用以结束合成的指令和用以进行重录的指令中的任一个的处理),并且可以每当指示重录时更新优先级。根据这样的模式,可以动态地改变采用编辑处理的顺序,并且期望可以进一步加强允许用户有效地验证并选择重录结果的效果。应注意,根据本发明的上述实施例的声乐合成程序还可以用于自动乐曲构成程序的后处理。
(6)通过采用通过为声乐合成装置设置的用户I/F单元120执行乐曲信息和歌词信息的输入以及重录区间和歌唱方式的指定的示例来描述了上述实施例中的每一个。然而,通过设置用于通过诸如因特网之类的电信线路向/从通信对应方发送/接收数据的通信I/F部来代替用户I/F单元120,可以通过上述电信线路输入乐曲信息和歌词信息,并且可以通过其来指定重录区间和歌唱方式,同时可以通过上述电信线路返回在重录处理中所生成的用于声乐合成的各条序列数据(或者基于各条用于声乐合成的序列数据所生成的波形数据)。根据这样的模式,可以将声乐合成提供为所谓的云服务。
(7)在上述实施例中的每一个中,用于使得控制单元110执行显著地展现本发明的一个或多个实施例的特征的处理的程序(第一实施例中的声乐合成程序144a或者第二实施例中的声乐合成程序144d)预先存储在声乐合成装置的非易失性存储单元中。然而,上述程序可以通过记录在诸如CD-ROM之类的计算机可读记录介质上来分发,或者可以通过经由诸如因特网之类的电信线路下载来分发。这是因为可以根据以这种方式分发的程序使得通用计算机起到根据上述实施例中的每一个的声乐合成装置的作用。
另外,在上述实施例中的每一个中,显著地展现本发明的特征的一个或多个实施例的处理(第一实施例中的重录处理和选择支持处理或者第二实施例中除了这两种处理外的初步评价处理)通过软件来实现。然而,用于执行重录处理的重录单元可以由电子电路构成,用于执行选择支持处理的选择支持单元可以由电子电路形成,并且那些电子电路可以并入通用的声乐合成装置以构成根据上述第一实施例的声乐合成装置10A,或者另外,用于执行初步评价处理的电子电路可以作为初步评价单元并入,以构成根据上述第二实施例的声乐合成装置10B。
尽管关于有限数量的实施例描述了本发明,但是受益于本公开的本领域技术人员将认识到,可以提出不背离本文中所述的本发明范围的其他实施例。因此,本发明的范围应该仅由所附权利要求限制。
例如,在本发明的一方面,提供了一种用于基于序列数据合成语音的语音合成装置,该序列数据包括表示语音的发声方式的多种参数,该语音合成装置包括:重录单元,其被配置为允许用户指定要再次合成语音的重录区间,被配置为通过预定编辑处理对序列数据中所包括的参数当中的在重录区间内的参数进行编辑,并且被配置为生成表示重录结果的序列数据;以及选择支持单元,其被配置为呈现由重录单元生成的序列数据所表示的声音,并且允许用户选择重新执行重录和结束重录之一。
根据这样的语音合成装置,当重录单元指定了要再次合成语音的重录区间时,通过预定编辑处理对重录区间内的序列数据中所包括的参数进行编辑,并且向用户呈现由编辑后的序列数据表示的声音。在以这样的方式所呈现的合成语音是以用户的期望发声方式所合成的语音时用户可以指示结束重录,而当以这样的方式所呈现的合成语音不是以用户的期望发声方式所合成的语音时,用户可以指示再次执行重录,这允许用户不直接编辑各个参数而重录合成语音。应注意,提供的编辑处理的种类数可以为仅一种或者可以为至少两种。当预定了多种编辑处理时,选择支持单元可以向用户呈现多种编辑处理中的每一种的编辑结果,并且允许用户选择以期望的发声方式所获得的结果(即,指示结束重录)。在这种情况下,当用户没有选择任何一个编辑结果时,假设用户已指示再次执行重录,则重录单元可以通过例如调整编辑处理的强度来再次执行处理。
作为这样的语音合成装置的具体示例,可以提供用于基于乐曲信息和歌词信息对歌唱语音进行合成的声乐合成装置。另外,上述语音合成装置的其他具体示例包括用于基于表示要合成的语音的韵律变化的信息和表示要发声的内容的信息对除了歌唱语音外的语音(诸如,用于文学作品的朗读语音或用于各种引导的引导语音)进行电子合成的语音合成装置。另外,作为本发明的另一方面,可以提供一种用于使得计算机起到以下作用的程序:语音合成单元,用于基于包括表示语音的发声方式的多种参数的序列数据对语音进行合成;重录单元,用于允许用户指定要再次合成语音的重录区间,通过预定编辑处理对序列数据中所包括的参数当中的在重录区间内的参数进行编辑,并且生成表示重录结果的序列数据;以及选择支持单元,用于呈现由重录单元生成的各条序列数据所表示的声音并且允许用户选择重新执行重录和结束重录之一。
在本发明的另一方面,作为编辑处理,根据通过执行编辑处理将要实现的语音的发声方式(在声乐合成的情况下,为诸如“轻柔地”或“辅音清楚”之类的歌唱方式)对多种编辑处理进行分组,并且重录单元允许用户指定重录区间以及重录区间内的语音的发声方式,并且生成表示与用户指定的语音的发声方式相对应的编辑处理的重录结果的序列数据。根据这样的方面,用户可以仅通过指定期望的发声方式和期望的重录区间来指示进行重录,从而不直接编辑各种参数而对合成歌唱语音进行重录。
在本发明的另一方面,语音合成装置还可以包括初步评价单元,其被配置为从选择支持单元将要呈现的语音中排除基于通过编辑处理进行了的编辑的序列数据而合成的语音与基于编辑前的序列数据所合成的语音之间具有微小差别的语音。上述编辑处理中的一些种类表现出对于音素的依赖性,并对特定音素基本上未产生效果。根据该方面,可以从要向用户呈现的语音中排除由于对音素等的依赖性而基本上不产生效果的编辑结果。
在本发明的另一方面,语音合成装置还可以包括:表,其彼此相关联地存储表示编辑处理的处理内容的处理内容数据和表示使用编辑处理的优先级的优先级数据;以及评价单元,其被配置为允许用户针对重录单元生成的各条序列数据来输入对于由序列数据表示的声音的评价值,并且基于评价值更新与表示用于生成各条序列数据的编辑处理的处理内容的处理内容数据相关联的优先级数据,并且选择支持单元可以按优先级的降序呈现由重录单元生成的各条序列数据所表示的声音。即使用于实现相同发声方式的编辑处理也可以经常产生其评价根据用户偏好而不同的编辑结果。根据这样的方面,可以反映使用哪种编辑处理来实现给定的发声方式的用户偏好,并且可以基于用户偏好按顺序呈现重录结果。

Claims (19)

1.一种语音合成装置,包括:
序列数据生成单元,被配置为生成序列数据,所述序列数据包括用于控制要基于乐曲信息和歌词信息合成的语音的发声的多种参数;
输出单元,被配置为基于所述序列数据输出歌唱语音;以及
处理内容信息获取单元,被配置为获取与预设的多条歌唱方式信息中的各条相关联的多条处理内容信息,
其中,所述多条处理内容信息中的每一条均表示用于所述多种参数的全部或部分的编辑处理的内容,
其中,所述序列数据生成单元生成多条序列数据,并且
其中,通过基于与所述多条歌唱方式信息中由用户指定的一条歌唱方式信息相关联的所述多条处理内容信息编辑所述序列数据中所包括的所述多种参数的全部或部分,来获得所述多条序列数据。
2.根据权利要求1所述的语音合成装置,其中,所述输出单元顺序地基于所述多条序列数据来输出歌唱语音。
3.根据权利要求1所述的语音合成装置,其中,所述序列数据生成单元还生成多条序列数据,以及
其中,通过基于与所述多条歌唱方式信息中由用户指定的所述一条歌唱方式信息相关联的所述多条处理内容信息的全部或部分的组合编辑所述序列数据中所包括的所述多种参数的全部或部分,来获得所述多条序列数据中的每一条。
4.根据权利要求2所述的语音合成装置,其中,所述多条处理内容信息中的每一条还与表示所述输出单元输出歌唱语音的优先级的优先级信息相关联,并且
其中,所述输出单元根据所述优先级、基于所生成的多条序列数据来顺序地输出所述歌唱语音。
5.根据权利要求4所述的语音合成装置,其中,基于所述用户输入的对于编辑后的序列数据的评价值来更新所述优先级。
6.根据权利要求1所述的语音合成装置,其中,所述输出单元仅基于所生成的多条序列数据当中的包括编辑后的参数的序列数据输出歌唱语音,基于所生成的包括编辑后的参数的序列数据所输出的歌唱语音与基于编辑前的序列数据所输出的歌唱语音之间存在差异,并且
其中,所述差异等于或大于预定阈值。
7.根据权利要求1所述的语音合成装置,其中,所述序列数据生成单元仅基于编辑前的序列数据中所包括的音素和所述多条处理内容信息中的每一条,来生成所述多条序列数据中的部分。
8.根据权利要求1所述的语音合成装置,其中,所述序列数据生成单元生成多条序列数据,并且
其中,通过在所述用户指定的区间内编辑所述序列数据中所包括的所述多种参数的全部或部分来获得所述多条序列数据中的每一条。
9.根据权利要求8所述的语音合成装置,还包括被配置为显示多个区间作为用于生成所述多条序列数据的候选的显示单元。
10.一种语音合成方法,包括如下步骤:
生成序列数据,所述序列数据包括用于控制要基于乐曲信息和歌词信息合成的语音的发声的多种参数;
基于所述序列数据输出歌唱语音;
获取与预设的多条歌唱方式信息中的各条相关联的多条处理内容信息,并且
其中,所述多条处理内容信息中的每一条均表示用于所述多种参数的全部或部分的编辑处理的内容;
生成多条序列数据,其中,通过基于与所述多条歌唱方式信息中由用户指定的一条歌唱方式信息相关联的所述多条处理内容信息对所述序列数据中所包括的多种参数的全部或部分进行编辑,来获得所述多条序列数据。
11.根据权利要求10所述的语音合成方法,还包括顺序地基于所述多条序列数据输出歌唱语音。
12.根据权利要求10所述的语音合成方法,还包括生成多条序列数据的步骤,
其中,通过基于与所述多条歌唱方式信息中由所述用户指定的所述一条歌唱方式信息相关联的所述多条处理内容信息的全部或部分的组合对所述序列数据中所包括的多种参数的全部或部分进行编辑,来获得所述多条序列数据中的每一条。
13.根据权利要求11所述的语音合成方法,其中,所述多条处理内容信息中的每一条还与表示输出所述歌唱语音的优先级的优先级信息相关联,并且
其中,所述语音合成方法还包括根据所述优先级、基于所生成的多条序列数据顺序地输出所述歌唱语音。
14.根据权利要求13所述的语音合成方法,其中,基于所述用户输入的对于编辑后的序列数据的评价值来更新所述优先级。
15.根据权利要求10所述的语音合成方法,还包括如下步骤:仅基于所生成的多条序列数据当中的包括编辑后的参数的序列数据输出歌唱语音,基于所生成的包括编辑后的参数的序列数据所输出的歌唱语音与基于编辑前的序列数据所输出的歌唱语音之间存在差异,
其中,所述差异等于或大于预定阈值。
16.根据权利要求10所述的语音合成方法,其中,所述生成多条序列数据的步骤仅基于编辑前的序列数据中所包括的音素和所述多条处理内容信息中的每一条,来生成所述多条序列数据中的部分。
17.根据权利要求10所述的语音合成方法,其中,所述生成多条序列数据的步骤生成多条序列数据,并且
其中,通过在所述用户指定的区间内编辑所述序列数据中所包括的多种参数的全部或部分来获得所述多条序列数据中的每一条。
18.根据权利要求17所述的语音合成方法,还包括以下步骤:显示多个区间作为用于生成所述多条序列数据的候选。
19.一种非暂态计算机可读记录介质,存储包括以下指令的语音合成程序:
生成序列数据,所述序列数据包括用于控制要基于乐曲信息和歌词信息合成的语音的发声的多种参数;
基于所述序列数据输出歌唱语音;
获取与预设的多条歌唱方式信息中的各条相关联的多条处理内容信息,并且
其中,所述多条处理内容信息中的每一条均表示用于所述多种参数的全部或部分的编辑处理的内容;
生成多条序列数据,其中,通过基于与所述多条歌唱方式信息中由用户指定的一条歌唱方式信息相关联的所述多条处理内容信息对所述序列数据中所包括的多种参数的全部或部分进行编辑,来获得所述多条序列数据。
CN201410098488.6A 2013-03-15 2014-03-17 语音合成装置和方法以及存储有语音合成程序的记录介质 Pending CN104050961A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013052758A JP5949607B2 (ja) 2013-03-15 2013-03-15 音声合成装置
JP2013-052758 2013-03-15

Publications (1)

Publication Number Publication Date
CN104050961A true CN104050961A (zh) 2014-09-17

Family

ID=50190344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410098488.6A Pending CN104050961A (zh) 2013-03-15 2014-03-17 语音合成装置和方法以及存储有语音合成程序的记录介质

Country Status (4)

Country Link
US (1) US9355634B2 (zh)
EP (1) EP2779159A1 (zh)
JP (1) JP5949607B2 (zh)
CN (1) CN104050961A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112970058A (zh) * 2018-11-06 2021-06-15 雅马哈株式会社 信息处理方法及信息处理系统
CN113016028A (zh) * 2018-11-06 2021-06-22 雅马哈株式会社 音响处理方法及音响处理系统

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8847056B2 (en) 2012-10-19 2014-09-30 Sing Trix Llc Vocal processing with accompaniment music input
US9595256B2 (en) * 2012-12-04 2017-03-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
US9123315B1 (en) * 2014-06-30 2015-09-01 William R Bachand Systems and methods for transcoding music notation
US9384728B2 (en) * 2014-09-30 2016-07-05 International Business Machines Corporation Synthesizing an aggregate voice
JP6728754B2 (ja) 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
JP6004358B1 (ja) * 2015-11-25 2016-10-05 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP2019066649A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP7000782B2 (ja) * 2017-09-29 2022-01-19 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6988343B2 (ja) * 2017-09-29 2022-01-05 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6729539B2 (ja) * 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1229500A (zh) * 1997-06-18 1999-09-22 株式会社奥普特罗姆 具有电子电路的存储媒体和具有该存储媒体的声音合成装置
US20030221542A1 (en) * 2002-02-27 2003-12-04 Hideki Kenmochi Singing voice synthesizing method
US20090306987A1 (en) * 2008-05-28 2009-12-10 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
US20120239404A1 (en) * 2011-03-17 2012-09-20 Kabushiki Kaisha Toshiba Apparatus and method for editing speech synthesis, and computer readable medium
WO2012148112A2 (ko) * 2011-04-28 2012-11-01 주식회사 티젠스 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
JP2013011828A (ja) * 2011-06-30 2013-01-17 Fujitsu Ltd 音声合成装置、音質修正方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731847A (en) * 1982-04-26 1988-03-15 Texas Instruments Incorporated Electronic apparatus for simulating singing of song
JP3333022B2 (ja) * 1993-11-26 2002-10-07 富士通株式会社 歌声合成装置
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
US5895449A (en) * 1996-07-24 1999-04-20 Yamaha Corporation Singing sound-synthesizing apparatus and method
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
JP2002268664A (ja) 2001-03-09 2002-09-20 Ricoh Co Ltd 音声変換装置及びプログラム
JP3823930B2 (ja) * 2003-03-03 2006-09-20 ヤマハ株式会社 歌唱合成装置、歌唱合成プログラム
US20040193429A1 (en) * 2003-03-24 2004-09-30 Suns-K Co., Ltd. Music file generating apparatus, music file generating method, and recorded medium
JP4409279B2 (ja) 2003-12-22 2010-02-03 株式会社日立製作所 音声合成装置及び音声合成プログラム
CN101223571B (zh) * 2005-07-20 2011-05-18 松下电器产业株式会社 音质变化部位确定装置及音质变化部位确定方法
JP5269668B2 (ja) * 2009-03-25 2013-08-21 株式会社東芝 音声合成装置、プログラム、及び方法
JP5510852B2 (ja) * 2010-07-20 2014-06-04 独立行政法人産業技術総合研究所 声色変化反映歌声合成システム及び声色変化反映歌声合成方法
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US8729374B2 (en) * 2011-07-22 2014-05-20 Howling Technology Method and apparatus for converting a spoken voice to a singing voice sung in the manner of a target singer

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1229500A (zh) * 1997-06-18 1999-09-22 株式会社奥普特罗姆 具有电子电路的存储媒体和具有该存储媒体的声音合成装置
US20030221542A1 (en) * 2002-02-27 2003-12-04 Hideki Kenmochi Singing voice synthesizing method
US20090306987A1 (en) * 2008-05-28 2009-12-10 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
US20120239404A1 (en) * 2011-03-17 2012-09-20 Kabushiki Kaisha Toshiba Apparatus and method for editing speech synthesis, and computer readable medium
WO2012148112A2 (ko) * 2011-04-28 2012-11-01 주식회사 티젠스 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
JP2013011828A (ja) * 2011-06-30 2013-01-17 Fujitsu Ltd 音声合成装置、音質修正方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112970058A (zh) * 2018-11-06 2021-06-15 雅马哈株式会社 信息处理方法及信息处理系统
CN113016028A (zh) * 2018-11-06 2021-06-22 雅马哈株式会社 音响处理方法及音响处理系统
US11842720B2 (en) 2018-11-06 2023-12-12 Yamaha Corporation Audio processing method and audio processing system
US11942071B2 (en) 2018-11-06 2024-03-26 Yamaha Corporation Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles

Also Published As

Publication number Publication date
JP2014178512A (ja) 2014-09-25
US9355634B2 (en) 2016-05-31
US20140278433A1 (en) 2014-09-18
EP2779159A1 (en) 2014-09-17
JP5949607B2 (ja) 2016-07-13

Similar Documents

Publication Publication Date Title
US11776518B2 (en) Automated music composition and generation system employing virtual musical instrument libraries for producing notes contained in the digital pieces of automatically composed music
CN104050961A (zh) 语音合成装置和方法以及存储有语音合成程序的记录介质
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
EP2680254B1 (en) Sound synthesis method and sound synthesis apparatus
US10325581B2 (en) Singing voice edit assistant method and singing voice edit assistant device
CN107430849A (zh) 声音控制装置、声音控制方法和声音控制程序
US10497347B2 (en) Singing voice edit assistant method and singing voice edit assistant device
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP3807380B2 (ja) スコアデータ編集装置、スコアデータ表示装置およびプログラム
Georgaki Virtual voices on hands: Prominent applications on the synthesis and control of the singing voice

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140917

WD01 Invention patent application deemed withdrawn after publication