CN1842702B - 声音合成装置和声音合成方法 - Google Patents

声音合成装置和声音合成方法 Download PDF

Info

Publication number
CN1842702B
CN1842702B CN200580000891XA CN200580000891A CN1842702B CN 1842702 B CN1842702 B CN 1842702B CN 200580000891X A CN200580000891X A CN 200580000891XA CN 200580000891 A CN200580000891 A CN 200580000891A CN 1842702 B CN1842702 B CN 1842702B
Authority
CN
China
Prior art keywords
tonequality
unit
mentioned
function
voice unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200580000891XA
Other languages
English (en)
Other versions
CN1842702A (zh
Inventor
广濑良文
斋藤夏树
釜井孝浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1842702A publication Critical patent/CN1842702A/zh
Application granted granted Critical
Publication of CN1842702B publication Critical patent/CN1842702B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

提供可适当变换音质的声音合成装置。该声音合成装置具有:单元存储部(102),存储有多个声音单元;函数存储部(104),存储有多个变换函数;拟和优度判断部(105),比较单元存储部(102)中存储的声音单元、和制作函数存储部(104)中存储的变换函数时使用的声音单元的音响特征,来导出类似度;选择部(103)和音质变换部(106),根据由拟和优度判断部(105)导出的类似度,对单元存储部(104)中存储的每个声音单元,应用函数存储部(104)中存储的某个变换函数,从而变换该声音单元的音质。

Description

声音合成装置和声音合成方法
技术领域
本发明涉及利用声音单元合成声音的声音合成装置和声音合成方法,尤其涉及变换音质的声音合成装置和声音合成方法。
背景技术
在现有技术中,已经提出有变换音质的声音合成装置,例如参照专利文献1~3。
专利文献1:日本特开平7-319495号公报(第0014段落至第0019段落);
专利文献2:日本特开2003-66982号公报(第0035段落至第0053段落);
专利文献3:日本特开2002-215198号公报。
上述专利文献1的声音合成装置通过保持不同音质的多个声音单元组、并切换使用声音单元组,来进行音质的变换。
图1是表示上述专利文献1的声音合成装置结构的结构图。
该声音合成装置包括合成单位数据信息表901、个人代码簿保存部902、似然计算部903、多个个人合成单位数据库904、音质变换部905。
合成单位数据信息表901保持与作为声音合成对象的合成单位有关的数据(合成单位数据)。在这些合成单位数据中,分配有用于识别各合成单位数据的合成单位数据ID。个人代码簿保存部902存储所有讲话者的标识符(个人标识ID)和表示其音质特征的信息。似然计算部903根据基准参数信息、合成单位名称、音韵环境信息、目标音质信息,并参考合成单位数据信息表901和个人代码簿保存部902,来选择合成单位数据ID和个人标识ID。
多个个人合成单位数据库904保持音质互不相同的声音单元组。并且,各个人合成单位数据库904与个人标识ID相对应。
音质变换部905取得由似然计算部903选择的合成单位数据ID和个人标识ID。并且,音质变换部905从该个人表示ID所表示的个人合成单位数据库904取得与表示该合成单位数据ID所表示的合成单位数据对应的声音单元,来生成声音波形。
另一方面,上述专利文献2的声音合成装置通过使用用于进行音质变换的变换函数,来变换通常的合成音的音质。
图2是表示上述专利文献2的声音合成装置的结构图。
该声音合成装置包括文本输入部911、单元存储部912、单元选择部913、音质变换部914、波形合成部915、音质变换参数输入部916。
文本输入部911取得表示要合成的语言内容的文本信息或音素信息、和表示重音或讲话整体的抑扬的韵律信息。单元存储部912存储一组声音单元(合成声音单位)。单元选择部913根据由文本输入部911取得的音素信息或韵律信息,从单元存储部912选择多个最佳声音单元,并输出该选择的多个声音单元。音质变换参数输入部916取得表示有关音质的参数的音质参数。
音质变换部914根据由音质变换参数输入部916取得的音质参数,对由单元选择部913选择的声音单元进行音质变换.从而对该声音单元进行线形或非线性的频率变换.波形合成部915根据由音质变换部914进行了音质变换的声音单元,生成声音波形.
图3是用于说明在上述专利文献2的声音变换部914中的声音单元的音质变换中使用的变换函数的说明图。在此,图3的横轴(Fi)表示输入到音质变换部914的声音单元的输入频率,图3的纵轴(Fo)表示由音质变换部914输出的声音单元的输出频率。
在作为音质参数使用变换函数f101的情况下,音质变换部914不对由单元选择部913选择的声音单元进行音质变换就输出。此外,在作为音质参数使用变换函数f102的情况下,音质变换部914对由单元选择部913选择的声音单元的输入频率进行线性变换之后输出,并在作为音质参数使用变换函数f103的情况下,对由单元选择部913选择的声音单元的输入频率进行非线性变换之后输出。
此外,专利文献3的声音合成装置(音质变换装置)根据音质变换对象的音素的音响特征,来判断属于该音素群。并且,该声音合成装置利用对属于该音素的群设定的变换函数来变换该音素的音质。
但是,在上述专利文献1~专利文献3的声音合成装置中,存在不能变换为适当的音质的问题。
即,上述专利文献1的声音合成装置由于切换个人合成单位数据库904来变换合成音的音质,所以不能进行连续的音质变换,或不能生成在各个人合成单位数据库904中没有的音质的声音波形。
此外,上述专利文献2的声音合成装置由于对表示文本信息的输入文整体进行音质变换,因而不能对各音韵进行最佳变换。并且,由于专利文献2的声音合成装置依次且独立地进行声音单元的选择和音质变换,如图3所示,通过变换函数f102,有时共振峰频率(输出频率F0)超过奈奎斯特频率(Nyquist frequency)fn。这种情况下,专利文献2的声音合成装置盲目地对共振峰频率进行校正而使其小于等于奈奎斯特频率fn。其结果,不能变换为适当的音质。
此外,由于上述专利文献3的声音合成装置对属于组的所有音素使用相同的变换函数,因此有时在变换后的声音中产生变形。即,对各音素的组划分是根据各音素的音响特征是否满足对各组设定的阈值来进行。在这种情况下,若对充分满足某个组的阈值的音素应用该组的变换函数,则该音素的音质被适当变换。但是,如果对音响特征存在于某个组的阈值附近的音素应用该组的变换函数,则该音素变换后的音质中产生变形。
发明内容
在此,本发明是鉴于上述问题而做出的,其目的在于可适当变换音质的声音合成装置和声音合成方法。
为了达到上述目的,本发明的声音合成装置,利用声音单元合成声音,以变换音质,其特征在于,具有:单元存储机构,存储有多个声音单元;函数存储机构,存储有用于变换声音单元的音质的多个变换函数;类似度导出机构,比较表示上述单元存储机构中所存储的声音单元的音响特征、和制作上述函数存储机构中所存储的变换函数时使用的声音单元的音响特征,来导出类似度;变换机构,根据由上述类似度导出机构导出的类似度,对上述单元存储机构中存储的每个声音单元应用上述函数存储机构中所存储的几个变换函数,从而变换该声音单元的音质.例如,上述类似度导出机构导出上述单元存储机构中存储的声音单元的声音特征与制作上述变换函数时使用的声音单元的声音特征类似的程度高的类似度;上述变换机构对上述单元存储机构中存储的声音单元应用使用上述类似度最高的声音单元来制作的变换函数.此外,上述声音特征是倒频谱距离(Cepstrum Distance)、共振峰频率、基本频率、持续时间长度和功率中的至少一个。
从而,由于用变换函数变换音质,所以能够连续变换音质,并且,对每个声音单元根据类似度来应用变换函数,因此,能够对各声音单元进行最佳的变换。并且,不像现有例那样不需要在变换后进行用于将共振峰频率抑制在规定范围内的无理的校正,即可适当变换音质。
在此,上述声音合成装置还具有生成表示对应于用户操作的音素和韵律的韵律信息的生成机构;上述变换机构具有:选择机构,根据上述类似度,从上述单元存储机构及函数存储机构相辅地选择对应于上述韵律信息表示的音素及韵律的声音单元、和对应于上述韵律信息表示的音素及韵律的变换函数;应用机构,对由上述选择机构选择的声音单元应用由上述选择机构选择的变换函数。
从而,根据类似度来选择由韵律信息表示的音素及对应于韵律的声音单元和变换函数,并将变换函数应用于该声音单元,因此,可通过改变韵律信息的内容,能够对所希望的音素及韵律次变换音质。此外,由于根据类似度来相辅地选择声音单元及变换函数,所以能够更适当地变换音质。
此外,上述声音合成装置还具有生成表示对应于用户操作的音素及韵律的韵律信息的生成机构;上述变换机构具有:函数选择机构,从上述函数存储机构选择对应于表示上述韵律信息的音素及韵律的变换函数;单元选择机构,对由上述函数选择机构选择的变换函数,根据上述类似度从上述单元存储机构选择对应于表示上述韵律信息的音素及韵律的声音单元;应用机构,对由上述单元选择机构选择的声音单元,应用由上述函数选择机构选择的变换函数。
从而,首先选择对应于韵律信息的变换函数,由于对于该变换函数,根据类似度来选择声音单元,所以,例如即使函数存储单元中存储的变换函数的个数较少,只要单元存储机构中存储的声音单元的个数多,就能够适当变换音质。
上述声音合成装置还具有生成表示对应于用户操作的音素及韵律的韵律信息;上述变换机构具有:单元选择机构,从上述单元存储机构选择对应于上述韵律信息的音素及韵律的声音单元;函数选择机构,对由上述单元选择机构选择的声音单元,根据上述类似度从上述函数存储机构选择对应于表示上述韵律信息的音素及韵律的变换函数;应用机构,对由上述单元选择机构选择的声音单元应用由上述函数选择机构选择的变换函数。
从而,首先选择对应于韵律信息的变换函数,由于对于该声音单元,根据类似度来选择变换函数,所以,例如即使函数存储单元中存储的声音单元的个数较少,只要单元存储机构中存储的变换函数的个数多,就能够适当变换音质。
在此,上述声音合成装置还具有接受由用户指定的音质的音质指定机构;上述选择机构选择用于变换为由上述音质指定机构接受的音质的变换函数。
从而,由于用于变换为由用户指定的音质的变换函数被选择,因此能够适当地变换为所希望的音质。
在此,上述类似度导出机构根据由上述单元存储机构中存储的声音单元和该声音单元的前后声音单元构成的一系列音响特征、和由制作上述变换函数时使用的声音单元及该声音单元的前后声音单元构成的一系列音响特征之间的类似度,来导出动态的上述类似度。
从而,由于使用与由单元存储机构的系列整体表示的音响特征类似的系列来制作的变换函数,应用于该单元存储机构的系列中包含的声音单元,因此能够确保该系列整体的音质的调和。
再有,上述单元存储机构存储构成第1音质的声音的多个声音单元;上述函数存储机构对地1音质的声音的声音单元,将该声音单元、表示该声音单元的音响特征的基准代表值、和对上述基准代表值的变换函数分别关联起来进行存储;上述声音合成装置还具有代表值确定机构,该代表值确定机构对上述单元存储机构中存储的第1音质的声音的声音单元,确定表示该声音单元的音响特征的代表值;上述类似度导出机构比较表示上述单元存储机构中存储的声音单元的上述代表值和制作上述函数存储机构中存储的变换函数时使用的声音单元的上述基准代表值,来导出类似度。上述变换机构具有:选择机构,对上述单元存储机构中存储的每个声音单元,从与该声音单元相同的声音单元相关联地存储在上述函数存储装置中的变换函数中,选择与和该声音单元的代表值的类似度最高的基准代表值相关联的变换函数;函数应用机构,对上述单元存储机构中存储的声音单元,通过将由上述选择机构选择的变换函数应用于上述声音单元,来将上述第1音质的声音变换为第2音质的声音。
从而,在对第1音质的声音的音素选择变换函数时,不像现有例那样与该音素的音响特征无关地对该音素选择预先设定的变换函数,而选择与该音素的音响特征所表示的代表值最近的基准代表值关联的变换函数。因此,即使是同一音素其频谱(音响特征)根据上下文或感情而变动,但是在本发明中,能够进行使用了对该频谱所具有的音素总是最佳的变换函数的音质变换,能够适当变换音质。即,为了保证变换后的频谱的妥当性,能够得到高质量的音质变换声音。
此外,本发明中,用代表值和基准代表值简单地表示音响特征,所以在从函数存储机构选择变换函数时,能够不进行复杂的运算处理而简单且迅速和适当地选择变换函数。例如,在用频谱表示音响特征时,必须通过复杂的处理比较地1音质的音素的频谱和函数存储机构的音素的频谱,但是本发明中能够减轻这样的处理负担。此外,由于在函数存储机构中作为音响特征而存储有基准代表值,所以与作为音响特征而存储频谱的情况相比,能够减小函数存储机构的存储容量。
在此,上述声音合成装置还具有声音合成机构,该声音合成机构取得文本数据,并生成表示与上述文本数据相同的内容的上述多个声音单元之后,存储到上述单元存储机构中。
此时,上述声音合成机构具有:单元代表值存储机构,将构成上述第1音质的声音的各声音单元和表示上述各声音单元的音响特征的代表值相关联起来进行存储;分析机构,取得并分析上述文本数据;选择存储机构,根据上述分析机构的分析结果,从上述单元代表值存储机构选择对应于上述文本数据的声音单元,并将所选择的声音单元和该声音单元的代表值向关联起来存储到上述单元存储机构中;上述代表值确定机构对上述单元存储机构中存储的每个声音单元,确定与该声音单元关联起来存储的代表值.
从而,通过将文本数据经第1音质的声音适当地变换为第2音质的声音。
此外,上述声音合成装置还具有:基准代表值存储机构,对上述第1音质的声音的每个声音单元,存储该声音单元和表示该声音单元的音响特征的基准代表值;目标代表值存储机构,对上述第2音质的声音的每个声音单元,存储该声音单元和表示该声音单元的音响特征的目标代表值;变换函数生成机构,根据与上述基准代表值存储机构和目标代表值存储机构中存储的相同的声音单元对应的基准代表值和目标代表值,声称对上述基准代表值的上述变换函数。
从而,根据表示第1音质的音响特征的基准代表值和表示第2音质的音响特征的目标代表值来生成变换函数,因此能够防止无理的音质变换的音质的破绽,能够将第1音质可靠地变换为第2音质。
在此,表示上述音响特征的代表值和基准代表值分别是音素的时间中心的共振峰频率的值。
特别是,由于在元音的时间中心,共振峰频率稳定,所以能够将第1音质适当地变换为第2音质。
此外,表示上述音响特征的代表值和基准代表值分别是音素的共振峰频率的平均值。
特别是,由于在无声辅音中共振峰频率的平均值适当地表示音响特征,所以能够将第1音质适当地变换为第2音质。
此外,不仅能够作为上述的声音合成装置来实现,还可以作为合成声音的方法、或使计算机基于该方法来合成声音的程序、存储有该程序的存储介质来实现。
本发明的声音合成装置具有可适当变换音质的作用效果。
附图说明
图1是表示专利文献1的声音合成装置的结构的结构图。
图2是表示专利文献2的声音合成装置的结构的结构图。
图3是用于说明在专利文献2的音质变换部中的声音单元的音质变换中使用的变换函数的说明图。
图4是表示本发明的第1实施方式中的声音合成装置的结构的结构图。
图5是表示同上的选择部的结构的结构图。
图6是用于说明同上的单元点阵确定部和函数点阵确定部的动作的说明图。
图7是用于说明同上的动态拟合优度的说明图。
图8是表示同上的选择部的动作的流程图。
图9是表示同上的声音合成装置的动作的流程图。
图10是表示元音“i”的声音频谱的图。
图11是表示元音“i”的其他声音频谱的图。
图12A是表示对元音“i”的频谱应用变换函数的例的图。
图12B是表示对元音“i”的其他频谱应用变换函数的例的图。
图13是用于说明第1实施方式中的声音合成装置适当地选择变换函数的情况的说明图.
图14是用于说明有关同上的变形例的单元点阵确定部和函数点阵确定部的动作的说明图。
图15是表示本发明的第2实施方式中的声音合成装置的结构的结构图。
图16是表示同上的函数选择部的结构的结构图。
图17是表示同上的单元选择部的结构的结构图。
图18是表示同上的声音合成装置的动作的流程图。
图19是表示本发明的第3实施方式中的声音合成装置的结构的结构图。
图20是表示同上的单元选择部的结构的结构图。
图21是表示同上的函数选择部的结构的结构图。
图22是表示同上的声音合成装置的动作的流程图。
图23是表示本发明的第4实施方式的音质变换装置(声音合成装置)的结构的结构图。
图24A是表示同上的音质A的基点信息的一例的示意图。
图24B是表示同上的音质B的基点信息的一例的示意图。
图25A是用于说明同上的A基点数据库中存储的信息的说明图。
图25B是用于说明同上的B基点数据库中存储的信息的说明图。
图26是表示同上的函数提取部的处理例的示意图。
图27是表示同上的函数选择部的处理例的示意图。
图28是表示同上的函数选择部的处理例的示意图。
图29是表示同上的音质变换装置的动作的流程图。
图30是表示同上的变形例1的音质变换装置的结构的结构图。
图31是表示同上的变形例3的音质变换装置的结构的结构图。
具体实施方式
下面,参照附图说明本发明的实施方式。
(实施方式1)
图4是表示本发明的第1实施方式中的声音合成装置的结构的结构图。
本实施方式的声音合成装置可适当变换音质,包括:韵律推定部101、单元存储部102、选择部103、函数存储部104、拟合优度判断部105、音质变换部106、音质指定部107、波形合成部108。
单元存储部102作为单元存储机构构成,保存表示多种声音单元的信息。该声音单元根据预先收录的声音,按音素、音节、莫勒等单位进行保存。再有,单元存储部102也可以将声音单元作为声音波形或分析参数来保存。
函数存储部104作为函数保存机构构成,保存用于对保存在单元存储部102种的声音单元进行音质变换的多个变换函数。
这些多个变换函数与通过该变换函数可变换的音质相关联。例如,变换函数与表示“生气”、“高兴”、“悲伤”等感情的音质相关联。此外,变换函数例如与表示“DJ风格”、“播音员风格”等讲话风格等的音质相关联。
变换函数的使用单位例如是声音单元、音素、音节、莫勒、重音句等。
例如使用共振峰频率的变形率或差分值、功率的变形率或差分值、基本频率的变形率或差分值等来生成变换函数。此外,变换函数也可以是将共振峰、功率或基本频率等分别同时变更的函数。
此外,变换函数中设定有可应用该函数的声音单元的范围。例如,被设定为:若对预定的声音单元应用变换函数,则其使用结果被学习,从而该预定的声音单元被包含到变换函数的应用范围内。
此外,通过对表示“生气”等感情的音质的变换函数改变变量,来对音质进行内插,能够实现连续的音质变换。
韵律推定部101作为生成机构来构成,取得例如基于用户操作生成的文本数据。之后,韵律推定部101根据表示该文本数据中包含的各音素的音素信息,来对每个音素推定音韵环境、基本频率、持续时间长度,功率等韵律特征(韵律),并生成音素和表示该韵律的韵律信息。该韵律信息作为最终输出的合成声音的目标来使用。韵律推定部101向选择部103输出该韵律信息。此外,除音素信息之外,韵律推定部101也可以取得词素信息、重音信息、语法信息。
拟合优度判断部105作为类似度导出机构构成,判断存储在单元存储部102中的声音单元和存储在函数存储部104中的变换函数之间的拟合优度。
音质指定部107作为音质指定机构而构成,取得由用户指定的合成声音的音质,并输出表示其音质的音质信息。该音质表示例如“生气”、“高兴”、“悲伤”等感情或“DI风格”、“播音员风格”等讲话风格等。
选择部103作为选择机构而构成,根据从韵律推定部101输出的韵律信息、从音质指定部107输出的音质、以及由拟合优度105判断的拟合优度,从单元存储部102选择最佳的声音单元,并且,从函数存储部104选择最佳的变换函数。即,选择部103根据拟合优度来相辅地选择声音单元和变换函数。
音质变换部106作为使用机构而构成,对于由选择部103选择的声音单元使用由选择部103选择的变换函数。即,音质变换部106通过用该变换函数变换声音单元,来生成由音质指定部107指定的音质的声音单元。本实施方式中,由该音质变换部106和选择部103构成了变换机构。
波形合成部108根据由音质变换部106变换的声音单元生成并输出声音波形。例如,波形合成部108通过波形连接型声音合成方法、分析合成型声音合成方法,来生成声音波形。
在上述的声音合成装置中,当文本数据所包含的音质信息表示一连串的音素和韵律时,选择部103从单元存储部102选择与该音素信息对应的一连串声音单元(声音单元系列),并从函数存储部104选择与该音素信息对应的一连串的变换函数(变换函数系列)。之后,音质变换部106分别处理由选择部103选择的声音单元系列及变换函数系列的各自中包含的声音单元和变换函数。此外,波形合成部108根据由音质变换部106变换了的一连串声音单元,生成并输出声音波形。
图5是表示选择部103的结构的结构图。
选择部103具有单元点阵确定部201、函数点阵确定部202、单元成本判断部203、成本综合部204以及检索部205.
单元点阵确定部201根据从韵律推定部101输出的韵律信息,从存储在单元存储部102中的多个声音单元中确定最终应选择的声音单元的多个候补。
例如,单元点阵确定部201将所有的表示与韵律信息中包含的音素相同的音素的声音单元确定为候补。此外,单元点阵确定部201将韵律信息中包含的音素和韵律的类似度成为规定的阈值以内(例如,基本频率的差分在20Hz以内的情况等)的声音单元确定为候补。
函数点阵确定部202根据韵律信息、从音质指定部107输出的音质信息,从存储在函数存储部104中的多个变换函数中确定最终应选择的变换函数的几个候补。
例如,函数点阵确定部202将包含在韵律信息中的音素作为应用对象,将可变换为由音质信息表示的音质(例如“生气”的音质)的变换函数作为候补。
单元成本判断部203判断由单元点阵确定部201确定的声音单元候补和韵律信息的单元成本。
例如,单元成本判断部203将连接了由韵律推定部101推定的韵律和声音单元候补的韵律的类似度、及声音单元时的连接边界附近的平滑程度用作最近似度,来判断单元成本。
成本综合部204综合由拟合优度判断部105判断的拟合优度和由单元成本判断部203判断的单元成本。
检索部205从由单元点阵确定部201确定的声音单元候补、由函数点阵确定部202确定的变换函数候补中,选择由成本综合部204计算的成本的价值成为最小的声音单元和变换函数。
下面,对选择部103和拟合优度判断部105进行具体说明。
图6是用于说明单元点阵确定部201和函数点阵确定部202的动作的说明图。
例如,韵律推定部101取得表示“红”的文本数据(单元信息),并输出包含在该音素信息中的包括各音素和各韵律的韵律信息组11。该韵律信息组11包括:音素a和表示与其对应的韵律的韵律信息t1、音素k和表示与其对应的韵律的韵律信息t2、音素a和表示与其对应的韵律的韵律信息t3、音素i和表示与其对应的韵律的韵律信息t4
单元点阵确定部201取得该韵律信息组11,来确定声音单元候补组12。该声音单元候补组12包括:对音素a的声音单元候补u11、u12、u13,对音素k的声音单元候补u21、u22,对音素a的声音单元候补u31、u32、u33,对音素i的声音单元候补u41、u42、u43、u44
函数点阵确定部202取得上述韵律信息组11和音质信息,来确定例如与“生气”的音质对应的变换函数候补组13。该变换函数候补组13包括:对音素a的变换函数候补f11、f12、f13,对音素k的变换函数候补f21、f22、f23,对音素a的变换函数候补f31、f32、f33、f34、对音素i的变换函数候补f41、f42
单元成本判断部203计算表示由单元点阵确定部201确定的声音单元候补的最近似程度的单元成本ucost(ti,uij)。该单元ucost(ti,uij)是根据由韵律推定部101推定的音素所应具有的韵律信息韵律信息ti和声音单元候补uij的类似度来判断的成本。
在此,韵律信息ti表示对由韵律推定部101推定的音素信息的第i个音素的音韵环境、基本频率、持续时间长度和功率等。此外,声音单元候补uij是对第i个音素的第j个声音单元候补.
例如,单元成本判断部203计算综合了音韵环境的一致度、基本频率的误差、持续时间长度的误差、功率的误差和连接了声音单元时的连接变形等的单元成本。
拟合优度判断部105计算声音单元候补uij和变换函数候补fij的拟合优度fcost(uij,fik)。在此,变换函数候补fjk是对第i个音素的第k个变换函数候补。由公式1定义该拟合优度fcost(uii,fik)。
公式1:
fcost(uij,fik)=static_cost(uij,fik)+dynamic_cost(u(i-1)i,uij,u(i+1)j,fik)…(式1)
在此,static_cost(uij,fik)是声音单元候补uij、(声音单元候补uij的音响特征)和变换函数候补fik(在制作变换函数候补fik时使用的声音单元的音响特征)的静态拟合优度(类似度)。这样的静态拟合优度通过例如在制作变换函数候补时使用的声音单元的音响特征、即假定为可适当使用变换函数的音响特征(例如,共振峰频率、基本频率、功率、倒频谱系数(cepstral coefficients)等)与声音单元候补的音响特征的类似度来表现。
另外,静态拟合优度不限于这些,只要利用声音单元和变换函数中的某个的类似度就可以。此外,对于所有的声音单元和变换函数,当预先在未连线的状态下计算静态拟合优度,并对各声音单元使拟合优度对应上位的变换函数,计算静态拟合优度时,可以只将与该声音单元对应的变换函数设定为对象。
另一方面,dynamic_cost(u(i-1)j,uij,u(i+1)j,fik)是动态拟合优度,是对象的变换函数候补fik和声音单元候补uij的前后环境之间的拟合优度。
图7是用于说明动态拟合优度的说明图。
动态拟合优度例如根据学习数据来计算。
变换函数是根据通常发音的声音单元与基于感情或讲话风格来学习发音的声音单元的差分值来学习(制作)的。
例如图7的(b)所示,学习数据表示对一连串的声音单元候补(系列)u11、u12、u13中的声音单元候补u12,提高了基本频率F0的变换函数F12所学习的情况。此外,如图7(c)所示,学习数据表示对一连串的声音单元候补(系列)u21、u22、u23中的声音单元候补u22,提高了基本频率F0的变换函数F22所学习的情况。
拟合优度判断部105在对图7(a)所示的声音单元候补u32选择变换函数时,根据包含u32的前后声音单元的环境(u31,u32,u33)、和变换函数候补(f11,f22)的学习数据环境(u11,u12,u13和u21,u22,u23)的一致度,来判断拟合优度。
在图7所示的情况下,(a)的学习数据所表示的环境是基本频率F0随时间t而增加的环境,因此,如图(c)的学习数据所示,拟合优度判断部105判断为在基本频率F0增加的环境下学习(生成)的变换函数f22的动态拟合优度高(dynamic_cost的值小)。
即,由于图7(a)所示的声音单元候补u33是基本频率F0与时间t一起增加的环境,因此,如图(b)所示,拟合优度判断部105将在图7(b)所示的基本频率F0减少的环境中学习了的变换函数f12的动态拟合优度计算为较低,将在图7(c)所示的基本频率F0增加的环境中学习了的变换函数f22的动态拟合优度计算为较高。
换言之,拟合优度判断部105判断为:同要抑制前后环境的基本频率F0相比,要进一步促进前后环境的基本频率F0的增加的变换函数f22的与图7(a)所示前后环境的拟合优度更高。即,拟合优度判断部105判断为,对于声音单元候补u32应选择变换函数候补f22。反之,若选择变换函数f12,则不能将具有变换函数f22的变换特性反映到声音单元候补u32。此外,可以说,动态拟合优度是应该应用变换函数候补fik的一连串声音单元(在制作变换函数候补fik时使用的一连串声音单元)的动态特性与一连串声音单元候补uij的动态特性之间的类似度。
再有,图7中使用了基本频率的F0动态特性,但本发明并不限于此,例如,也可以使用功率、持续时间长度、共振峰频率、倒频谱系数等。此外,不限于上述功率等的单个,而可以组合基本频率、功率、持续时间长度、共振峰频率、倒频谱系数等来计算动态拟合优度。
成本综合部204计算综合成本manage_cost(ti,uij,fik)。由公式2定义该综合成本。
公式2:
manage_cost(ti,uij,fik)=ucost(ti,uij)+fcost(uij,fik)…(式2)
此外,在公式2中,分别将单元成本ucost(ti,uij)和拟合优度发fcost(tij,fik)均等地相加,但也可以分别附以权重之后相加。
检索部205从由单元点阵确定部201和函数点阵确定部202确定的声音单元候补和变换函数候补中,选择由成本综合部204计算的综合成本的累加值成为最小的声音单元系列U和变换函数系列F。例如,如图6所示,检索部205选择声音单元系列U(u11,u21,u31,u44)和变换函数系列F(f13,f22,f32,f41)。
具体来说,检索部205根据公式3选择上述的声音单元系列U和变换函数系列F。再有,n表示音素信息中所包含的音素的个数。
公式3:
U , F = arg min u , f Σ i = 1,2 , . . . , n manage _ cos t ( t i , u ij , f ik ) …(式3)
图8是表示上述选择部103的动作的流程图。
首先,选择部103确定几个声音单元候补和变换函数候补(步骤S100)。接着,选择部103对n个韵律信息ti、对应于各韵律信息ti的n’个声音单元候补和对应于各韵律信息ti的n”个变换函数候补的各组合,计算综合成本manage_cost(ti,uij,fik)(步骤S102~S106)。
选择部103为了计算综合成本,首先计算单元成本ucost(ti,uij)(步骤S102),并计算拟合优度fcost(uij,fik)。此外,选择部103通过将在步骤S102、S104算出的单元成本ucost(ti,uij)和拟合优度fcost(uij,fik)相加,来计算综合成本manage_cost(ti,uij,fik)。这样的综合成本的计算,是通过选择部103的检索部205对单元成本判断部203和拟合优度判断部105指示改变i、j、k,来对各i、j、k的各组合进行。
接着,选择部103在个数n’、n”的范围内改变j、k来累加i=1~n的各综合成本manage_cost(ti,uij,fik)(步骤S108)。之后,选择部103选择该累加值成为最小的声音单元系列U和变换函数系列F(步骤S110)。
此外,图8中,预先计算成本值之后,选择了累加值成为最小的声音单元系列U和变换函数系列F,但也可以使用检索问题中所使用的Viterbi算法来选择声音单元系列U和变换函数系列F.
图9是表示本实施方式的声音合成装置的动作的流程图。
声音合成装置的韵律推定部101取得包含音素信息的文本数据,并根据该音素信息来推定各音素应具有的基本频率、持续时间长度、功率等韵律性特征(韵律)(步骤S200)。例如,韵律推定部101通过使用了数量化1类的方法来进行推定。
之后,声音合成装置的音质指定部107取得用户所指定的合成声音的音质,例如“生气”的音质(步骤S202)。
声音合成装置的选择部103根据表示韵律推定部101的推定结果的韵律信息和由音质指定部107取得的音质,从单元存储部102确定声音单元候补(步骤S204),并且,从函数存储部104确定表示“生气”的变换函数候补(步骤S206)。之后,选择部103从被确定的声音单元候补和变换函数候补选择综合成本成为最小的声音单元和变换函数(步骤S208)。即,在音素信息表示一连串的音素的情况下,选择部103选择综合成本的累加值成为最小的声音单元系列U和变换函数系列F。
接着,声音合成装置的音质变换部106使用变换函数系列F,对在步骤S208被选择的声音单元系列U进行音质变换(步骤S210)。声音合成装置的波形合成部108根据被音质变换部106进行了音质变换的声音单元系列U,生成并输出声音波形(步骤S212)。
如上所述,在本实施方式中,对每个声音单元应用最佳的变换函数,因此,能够适当地变换音质。
再此,将本实施方式与现有技术(特开2002-215198号公报)进行比较,来详细说明本实施方式的效果。
上述现有技术的声音合成装置,按元音和辅音等的各种类型制作频谱包络变换表(变换函数),对属于某种类型的声音单元,应用设定在该类型中的频谱包络变换表。
但是,若将由类型代表的频谱包络变换表应用于类型中的所有声音单元,则产生例如如下问题:在变换后的声音中多个共振峰频率过于接近,或者,变换后的声音的频率超过奈奎斯特频率。
具体地,用图10和图11说明上述问题。
图10是表示元音“i”的声音频谱的图。
图10中的A101、A102、A103表示频谱强度高的部分(频谱的峰值)。
图11是表示元音“i”以外的其他声音的频谱的图。
与图10同样,图11中的B101、B102、B103表示频谱强度高的部分。
如上述的图10和图11所示,即使是相同的元音“i”,有时频谱的形状也大不相同。因此,在以代表类型的声音(声音单元)为基础制作频谱包络变换表的情况下,若对与代表声音单元的频谱大不相同的声音单元使用该频谱包络变换表,则有时不能得到预想的音质变换效果。
用图12A和图12B说明更具体的例子。
图12A是表示对元音“i”的频谱应用变换函数的例子的图。
变换函数A202是对图10所示的元音“i”的声音制作的频谱包络变换表。频谱A201表示代表类型的声音单元(例如图10所示的元音“i”)的频谱。
例如,若对频谱A201使用变换函数A202,则频谱A201变换为频谱A203.该变换函数A202对中间频带频率进行了提升到高频带的变换.
但是,如图10和11所示,即使两个声音单元是相同的元音“i”,它们的频谱有时也大不相同。
图12B是表示对元音“i”的其它频谱应用了变换函数的例子的图。
频谱B201是例如图11所示的元音“i”的频谱,与图12A的频谱A201大不相同。
若对该频谱201应用变换函数A202,则频谱B102变换为频谱B203。即,频谱B203中,该频谱的第2峰值和第3峰值显著接近,形成一个峰值。这样,若对频谱B201应用变换函数A202,则不能得到与对频谱A201应用了变换函数A202时的音质变换同样的音质变换效果。此外,在上述现有技术中,存在有如下的问题:在变换后的频谱B203中两个峰值过于接近而形成一个峰值,损害元音“i”的音韵性。
另一方面,在本发明的实施方式的声音合成装置中,将声音单元的音响特征和作为变换函数的源数据的声音单元的音响特征,并将两个声音单元的音响特征最接近的声音单元和变换函数对应起来。接着,本发明的声音合成装置对声音单元的音质利用与该声音单元对应的变换函数来进行变换。
即,本发明的声音合成装置保持多个对元音“i”的变换函数候补,并根据在制作变换函数时使用的声音单元的音响特征,来选择对作为变换对象的声音单元最佳的变换函数,将该选择的变换函数应用于声音单元。
图13是用于说明本实施方式的声音合成装置适当地选择变换函数的情况的说明图。再有,图13(a)示出变换函数(变换函数候补)n、和在制作该变换函数候补n时使用了的声音单元的音响特征;图13(b)表示变换函数(变换函数候补)m、和在制作该变换函数候补m时使用了的声音单元的音响特征。此外,图13(c)表示变换对象的声音单元的音响特征。在此,(a)、(b)和(c)中,利用第1共振峰F1、第2共振峰F2、第3共振峰F3来用图表表示音响特征,该图表的横轴表示时间,该图表的纵轴表示频率。
本实施方式中的声音合成装置例如从(a)所示的变换函数候补n和(b)所示的变换函数候补m中,将音响特征与(c)所示的变换对象的声音单元类似的变换函数候补作为变换函数选择。
在此,(a)所示的变换函数候补n进行使第2共振峰F2降低100Hz的变换、使第3共振峰F3降低100Hz的变换。另一方面,(b)所示的变换函数候补m进行将第2共振峰F2提高500Hz、将第3共振峰F3降低500Hz。
这样的情况下,本实施方式的声音合成装置计算(c)所示的变换对象的声音单元的音响特征、和在制作(a)所示的变换函数候补n时所使用的声音单元的音响特征之间的类似度,并计算(c)所示的变换对象的声音单元的音响特征、和在制作(b)所示的变换函数候补m时所使用的声音单元的音响特征之间的类似度。其结果,本实施方式中的声音合成装置在第2共振峰F2和第3共振峰F3的频率中,能够判断为变换函数候补n的音响特征与变换函数候补m的音响特征相比,与变换函数候补n的音响特征更类似。因此,声音合成装置将变换函数候补n作为变换函数选择,并将该变换函数n应用于变换对象的声音单元。这时,声音合成装置利用各共振峰的移动量来进行频谱包络的变形。
在此,如上述现有技术的声音合成装置,在使用类型代表函数(例如,图13(b)所示的变换函数候补m)的情况下,第2共振峰和第3共振峰交叉,从而不仅得不到音质变换效果,还不能确保音韵性.
而在本发明的声音合成装置中,通过利用类似度(拟合优度)来选择变换函数,对图13(c)所示的变换对象的声音单元使用以与该声音单元的音响特征接近的声音单元为基础制作的变换函数。因此,在本实施方式中,在变换后的声音中,能够消除共振峰频率分别过于接近、或该声音的频率超过奈奎斯特频率的问题。此外,在本实施方式中,对于作为变换函数制作源的声音单元(例如,具有图13(a)所示的音响特征的声音单元)类似的声音单元(例如,具有图13(c)所示的音响特征的声音单元)应用该变换函数,因此,能够得到与将该变换函数应用于制作源的声音单元时所得到的音质变换效果相同的效果。
如上所述,在本实施方式中,不像上述现有的声音合成装置那样,不被声音单元的类型等而左右,而能够对各声音单元分别选择最适合的变换函数,能够将音质变换的变形抑制在最小限度上。
此外,在本实施方式中,由于用变换函数变换音质,能够连续变换音质,并且能够生成数据库(单元存储部102)中所没有的音质的声音波形。此外,在本实施方式中,由于如上所述能够对每个声音单元使用最佳的变换函数,因此,不用进行无用的校正即可将声音波形的共振峰频率抑制在适当的范围内。
此外,在本实施方式中,从单元存储部102和函数存储部104同时相辅地选择文本数据和用于实现由音质指定部107指定的音质的声音单元和变换函数。即,在找不到与声音单元对应的变换函数的情况下,变更为不同的声音单元。此外,在找不到与变换函数对应的声音单元的情况下,变更为不同的变换函数。由此,能够同时对与该文本数据对应的合成声音的质量和变换为由音质指定部107指定的音质的质量进行最优化,能够得到高音质(质量)且所希望的音质的合成声音。
再有,在本实施方式中,选择部103根据综合成本的结果来选择了声音单元和变换函数,但也可以选择由拟合优度判断部105计算的静态拟合优度、动态拟合优度或者将这些组合的拟合优度成为规定的阈值以上的声音单元和变换函数。
(变形例)
上述实施方式1的声音合成装置根据指定的一个音质,来选择声音单元系列U和变换函数系列F(声音单元和变换函数)。
本变形例的声音合成装置接受多个音质的指定,并根据该多个音质来选择声音单元系列U和变换函数系列F。
图14是用于说明本变形例的单元点阵确定部201和函数点阵确定部202的动作的说明图。
函数点阵确定部202确定用于实现由函数存储部104指定的多个音质的变换函数候补。例如,在由音质指定部107接受了“生气”和“高兴”的音质的指定的情况下,函数点阵确定部202从函数存储部104确定与“生气”和“高兴”的各音质对应的变换函数候补。
例如,如图14所示,函数点阵确定部202确定变换函数候补组13。该变换函数候补组13中包含与“生气”的音质对应的变换函数候补组14和与“高兴”的音质对应的变换函数候补组15。变换函数候补组14包括:对应于音素a的变换函数候补f11,f12,f13、对应于音素k的变换函数候补f21,f22,f23、对应于音素a的变换函数候补f31,f32,f33,f34、对应于音素i的变换函数候补f41,f42。变换函数候补组15包括:对应于音素a的变换函数候补g11,g12、对应于音素k的变换函数候补g21,g22,g23、对应于音素a的变换函数候补g31,g32,g33、对应于音素i的变换函数候补g41,g42,g43
拟合优度判断部105计算声音单元候补uij、变换函数候补fik和变换函数候补gih之间的拟合优度fcost(uij,fik,gih)。在此,变换函数候补是对第i个音素的第h个变换函数候补。
根据公式4计算该拟合优度fcost(uij,fik,gih)。
公式4
fcost(uij,fik,gih)=fcost(uij,fik)+fcost(uij*fik,gih)…(式4)
在此,公式4中所示的uij*fik表示对单元使用了变换函数之后的声音单元。
成本综合部204使用单元选择成本ucost(ti,uij)和拟合优度fcost(uij,fik,gih),来计算综合成本manage_cost(ti,uij,fik,gih)。根据公式5计算该综合成本manage_cost(ti,uij,fik,gih)。
公式5:
manage_cost(ti,uij,fik,gih)=ucost(ti,uij)+fcost(uij,fik,gih)…(式5)
检索部205根据公式6选择声音单元系列U和变换函数系列F、G。
公式6:
U , F , G = arg min u , f , g Σ i = 1,2 , . . . , n manage _ cos t ( t i , u ij , f ik , g ih ) …(式6)
例如,如图14所示,选择部103选择声音单元系列U(u11,u21,u32,u44)、变换函数系列F(f13,f22,f32,f4,)和变换函数系列G(g12,g22,g32,g41)。
如上所述,在本变形例中,音质指定部107接受多个音质的指定,来计算基于这些音质的拟合优度和综合成本,因此,能够同时对与文本数据对应的合成声音的质量和向上述多个音质的变换的质量进行最优化。
再有,在本实施方式中,拟合优度判断部105在拟合优度fcost(uij,fik)上加上拟合优度fcost(uij*fik,gih),来计算最终的拟合优度fcost(uij,fik,gih),但是也可以拟合优度fcost(uij,fik)上加上拟合优度fcost(uij,gih),来计算最终的拟合优度fcost(uij,fik,gih)。
此外,在本实施例中,音质指定部107接受了两个音质的指定,但是也可以接受3个以上的音质的指定。在这样的情况下,本变形例中,拟合优度判断部105用与上述同样的方法计算拟合优度,并将与各音质对应的变换函数应用于声音单元。
(实施方式2)
图15是表示本发明实施方式2的声音合成装置结构的结构图。
本实施方式的声音合成装置包括:韵律推定部101、单元存储部102、单元选择部303、函数存储部104、拟合优度判断部302、音质变换部106、音质指定部107、函数选择部301、波形合成部108。再有,本实施方式的构成要素中,对于与实施方式1的声音合成装置的构成要素相同的构件,标注了与实施方式1的构成要素相同的标记,并省略详细说明。
在此,在本实施方式的声音合成装置中,首先,函数选择部301根据由音质指定部107指定的音质和韵律信息来选择变换函数(变换函数系列),并由单元选择部303根据该变换函数选择声音单元(声音单元系列),这一点与实施方式1不同。
函数选择部301作为函数选择机构构成,根据从韵律推定部101输出的韵律信息和从音质指定部107输出的音质信息,从函数存储部104选择变换函数。
单元选择部303作为单元选择机构而构成,根据从韵律推定部101输出的韵律信息,从单元存储部102确定几个声音单元的候补。并且,单元选择部303从该候补中选择与该韵律信息和由函数选择部301选择的变换函数最合适的声音单元。
拟合优度判断部302利用与实施方式1的拟合优度判断部105相同的方法,来判断由函数选择部301已选择的变换函数和由单元选择部303确定的几个声音单元候补之间的拟合优度fcost(uij,fik)。
音质变换部106对由单元选择部303选择的声音单元,应用由函数选择部301选择的变换函数。由此,音质变换部106生成由用户在音质指定部107指定的音质的声音单元。本实施方式中,由该音质变换部106、函数选择部301和单元选择部303构成变换机构。
波形合成部108根据由音质变换部106变换的声音单元生成并输出声音波形。
图16是表示函数选择部301的结构的结构图。
函数选择部301包括函数点阵确定部311和检索部312。
函数点阵确定部311从存储在函数存储部104中的变换函数中,将几个变换函数确定为用于变换为由音质信息表示的音质(被指定的音质)的变换函数候补。
例如,在音质指定部107接受了“生气”的音质的指定的情况下,函数点阵确定部311从函数存储部104中存储的变换函数中,把用于变换为“生气”的音质的变换函数确定为候补。
检索部312从由函数点阵确定部311确定的几个变换函数候补中,选择对从韵律推定部107输出的韵律信息适当的变换函数。例如,韵律信息包括音素系列、基本频率、持续时间长度和功率等。
具体而言,检索部312选择一连串韵律信息ti和一连串变换函数候补fik的拟合优度(在学习变换函数候补fik时所使用的声音单元的韵律特征和韵律信息ti的类似度)最大、即如满足公式7的满足一连串变换函数的变换函数系列F(f1k,f2k,...,fnk)。
公式7:
F = arg min f Σ i = 1 , . . . , n f cos t ( t i , f ik ) = static _ cos t ( t i , f ik ) + dynamic _ cos t ( t i - 1 , t i , t i + 1 , f ik ) …(式7)
在此,本实施方式中,如图7所示,在计算拟合优度时所使用的项目只是基本频率、持续时间长度、功率等韵律信息ti,这一点与实施方式1的公式1所表示的拟合优度不同。
此外,检索部312将所选择的候补作为用于变换为被指定的音质的变换函数(变换函数系列)来输出。
图17是表示单元选择部303结构的结构图。
单元选择部303具备单元点阵确定部321、单元成本判断部323、成本综合部324、检索部325。
这样的单元选择部303选择从韵律推定部101输出的韵律信息和最符合从函数选择部301输出的变换函数的声音单元。
单元点阵确定部321与实施方式1的单元点阵确定部321同样,根据由韵律推定部101输出的韵律信息,从单元存储部102中存储的多个声音单元中确定几个声音单元候补.
单元成本判断部323与实施方式1的单元成本判断部203同样,判断由单元点阵确定部321确定的声音单元候补和韵律信息的单元成本。即,单元成本判断部323计算由单元点阵确定部321确定的声音单元候补的最近似程度的单元成本ucost(ti,uij)。
成本综合部324与实施方式1的成本综合部204同样,通过综合由拟合优度判断部302判断的拟合优度和由单元成本判断部323判断的单元成本,计算综合成本manage_cost(ti,uij,fik)。
检索部325从由单元点阵确定部321确定的声音单元候补中,选择由成本综合部324计算出的综合成本的累加值成为最小的声音单元系列U。
具体来说,检索部325根据公式8来选择上述的声音单元系列U。
公式8:
U = arg min u Σ i = 1,2 , . . . , n manage _ cos t ( t i , u ij , f ik ) …(式8)
图18是表示本实施方式中的声音合成装置的结构的流程图。
声音合成装置的韵律推定部101取得包含音素信息的文本数据,并根据该音素信息,来推定各音素所应具有的基本频率、持续时间长度、功率等韵律性特征(韵律)(步骤S300)。例如,韵律推定部101利用采用了数量化I类的方法来进行推定。
接着,声音合成装置的音质指定部107取得用户所指定的合成声音的音质例如“生气”的音质(步骤S302)。
声音合成装置的函数选择部301根据被音质指定部107取得的音质,从函数存储部104中确定表示“生气”的音质的变换函数候补(步骤S304)。之后,函数选择部301从该变换函数候补中选择与表示韵律推定部101的推定结果的韵律次信息最合适的变换函数(步骤S306)。
声音合成装置的单元选择部303根据韵律信息,从单元存储部102确定几个声音单元的候补(步骤S308)。此外,单元选择部303从该候补中选择与该韵律信息以及由函数选择部301选择的变换函数最适合的声音单元(步骤S310)。
接着,声音合成装置的音质变换部106将在步骤S306选择的变换函数应用于在步骤S310被选择的声音单元,进行音质变换(步骤S312)。声音合成装置的波形合成部108根据由音质变换部106进行了音质变换的声音单元,生成并输出声音波形(步骤S314)。
在上述的本实施方式中,首先,根据音质信息和韵律信息选择变换函数,并选择对该选择的变换函数最佳的声音单元。作为该实施方式的较佳状况,有时不能充分确保变换函数。具体而言,在准备对各种音质的变换函数时,对各音质准备多个变换函数是较困难的。在这样的情况下,即使函数存储部104中存储的变换函数的个数少,只要是单元存储部102中存储的声音单元的个数充分多,则能够同时最优化与文本数据对应的合成声音的质量和向由音质指定部107指定的音质变换的质量。
此外,与同时选择声音单元和变换函数的情况相比,能够减少计算量。
此外,在本实施方式中,单元选择部303根据综合成本的结果选择了声音单元,但也可以选择由拟合优度判断部302计算的静态拟合优度、动态拟合优度或组合它们的拟合优度大于等于预定的阈值的声音单元.
(实施方式3)
图19是表示本发明的第3实施方式的声音合成装置结构的结构图。
本实施方式的声音合成装置包括:韵律推定部101、单元存储部102、单元选择部403、函数存储部104、拟合优度判断部402、音质变换部106、音质指定部107、函数选择部401、波形合成部108。再有,本实施方式的构成要素中,对于与实施方式1的声音合成装置的构成要素相同的构件,标注与实施方式1的构成要素相同的标记,省略详细说明。
在此,在本实施方式的声音合成装置中,首先单元选择部403根据从韵律推定部101输出的韵律信息来选择声音单元(声音单元系列),并由函数选择部401根据该声音单元选择变换函数(变换函数系列),这一点与实施方式1不同。
单元选择部403从单元存储部102选择与从韵律推定部101输出的韵律信息最合适的声音单元。
函数选择部401根据音质信息和韵律信息,从函数存储部104确定几个变换函数的候补。此外,函数选择部401从该候补中选择适合由单元选择部403选择的声音单元的变换函数。
拟合优度判断部402通过与实施方式1的拟合优度判断部105相同的方法,判断已由单元选择部403选择的声音单元和由函数选择部401确定的几个变换函数候补之间的拟合优度fcost(uij,fik)。
音质变换部106对由单元选择部403选择的声音单元,应用由函数选择部401选择的变换函数。从而,音质变换部106生成由音质指定部107指定的音质的声音单元。
波形合成部108根据由音质变换部106变换了的声音单元生成并输出声音波形。
图20是表示单元选择部403的结构的结构图。
单元选择部403具备单元点阵确定部411、单元成本判断部412、检索部413。
单元点阵确定部411与实施方式1的单元点阵确定部201同样,根据从韵律推定部101输出的韵律信息,从存储在单元存储部102中的多个声音单元中,确定几个声音单元候补。
单元成本判断部412与实施方式1的单元成本判断部203同样,判断由单元点阵确定部411确定的声音单元候补和韵律信息的单元成本。即,单元成本判断部412计算表示由单元点阵确定部411确定的声音单元候补的最近似程度的单元成本ucost(ti,uij)。
检索部413从由单元点阵确定部411确定的声音单元候补中,选择由单元成本判断部412计算的单元成本的累加值最小的声音单元系列U。
具体而言,检索部413根据公式9,选择上述的声音单元系列U。
公式9:
U = arg min u Σ i = 1,2 , . . . , n u cos t ( t i , u ij ) …(式9)
图21是表示函数选择部401的结构的结构图。
函数选择部401具备函数点阵确定部421和检索部422。
函数点阵确定部421根据从音质指定部107输出的音质信息、从韵律推定部101输出的韵律信息,从函数存储部104确定几个变换函数候补。
检索部422从由函数点阵确定部421确定的几个变换函数候补中,选择最符合已由单元选择部403选择的声音单元的变换函数。
具体而言,检索部422根据公式10,选择一连串的变换函数即变换函数系列F(f1k,f2k,...,fnk)。
公式10:
F = arg min f Σ i = 1,2 , . . . , n f cos t ( u ij , f ik ) …(式10)
图22是表示本实施方式的声音合成装置的动作的流程图。
声音合成装置的韵律推定部101取得包含音素信息的文本数据,并根据该音素信息推定各音素所应具有的基本频率、持续时间长度、功率等韵律性特征(韵律)(步骤S400)。例如,韵律推定部101利用采用了数量化I类的方法来进行推定。
接着,声音合成装置的音质指定部107取得用户所指定的合成声音的音质例如“生气”的音质(步骤S402)。
声音合成装置的单元选择部403根据从韵律推定部101输出的韵律信息,从单元存储部102确定几个声音单元候补(步骤S404)。此外,单元选择部403从该声音单元候补中选择与该韵律信息最适合的声音单元(步骤S406)。
声音合成装置的函数选择部401根据音质信息和韵律信息,从函数存储部104中确定几个表示“生气”的音质的变换函数候补(步骤S408)。之后,函数选择部401从该变换函数候补中选择与表示由单元选择部403已选择的声音单元最合适的变换函数(步骤S410)。
接着,声音合成装置的音质变换部106将在步骤S410选择的变换函数应用于在步骤S406被选择的声音单元,进行音质变换(步骤S412)。声音合成装置的波形合成部108根据由音质变换部106进行了音质变换的声音单元,生成并输出声音波形(步骤S414)。
在上述的本实施方式中,首先,根据音质信息选择声音单元,选择对该被选择了的声音单元最佳的变换函数。作为该实施方式的较佳状况,例如,能确保足够变量的变换函数,但是有时不能确保足够变量的表示新讲话者的音质的声音单元。具体而言,一般即使将多个使用者的声音作为声音单元来使用,也很难收录大量的声音。在这样的情况下,即使单元存储部102中存储的声音单元的个数少,如本实施方式那样,只要是函数存储部104中存储的变换函数的个数充分多,则能够同时最优化与文本数据对应的合成声音的质量和向由音质指定部107指定的音质变换的质量。
此外,与同时选择声音单元和变换函数的情况相比,能减少计算量。
此外,在本实施方式中,函数选择部401根据综合成本的结果选择了声音单元,但也可以选择由拟合优度判断部402计算的静态拟合优度、动态拟合优度或组合它们的拟合优度大于等于预定的阈值的声音单元。
(实施方式4)
下面,用附图对本发明的第4实施方式进行详细说明。
图23是表示本发明实施方式的音质变换装置(声音合成装置)结构的结构图。
本实施方式的声音合成装置根据文本数据501生成表示音质A的声音的A声音数据506,并将该音质A适当地变换为音质B,其包括:文本分析部502、韵律生成部503、单元连接部504、单元选择部505、变换率指定部507、函数应用部509、A单元数据库510、A基点数据库511、B基点数据库512、函数提取部513、变换函数数据库514、函数选择部515、第1缓冲器517、第2缓冲器518和第3缓冲器519.
此外,在本实施方式中,变换函数数据库514作为函数保存机构构成,函数选择部515作为类似度导出机构、代表值确定机构和选择机构来构成。此外,函数应用部509作为函数适用单元来构成。即,本实施方式中,由作为函数选择部515的选择机构的功能和作为函数应用部509的函数适用机构的功能来构成了变换机构。此外,文本分析部502作为分析机构构成,A单元数据库510作为单元代表值存储机构构成,单元选择部505作为选择存储机构构成。再有,A基点数据库511作为基准代表值存储机构构成,B基点数据库512作为目标代表值存储机构构成,函数提取部513作为变换函数生成机构构成。此外,第1缓冲器506作为单元存储机构构成。
文本分析部502取得作为读取对象的文本数据501并进行语言分析,进行从假名和汉字交叉的文章向单元串(音素串)的变换或词素信息的提取等。
韵律生成部503根据该分析结果,生成包括附加在声音上的重音或各单元(音素)的持续时间长度等的韵律信息。
A单元数据库510存储对应于音质A的声音的多个单元和附加在各单元上的表示该单元的音响特征的信息。以后,将该信息称作基点信息。
单元选择部505从A单元数据库510选择与所生成的语言分析结果和韵律信息对应的最佳单元。
单元连接部504通过连接被选择的单元,生成将文本数据501的内容作为音质A的声音表示的A声音数据506。之后,单元连接部504将该A声音数据506存储到第1缓冲器517中。
A声音数据506除了包含波形数据以外,还包含被使用的单元的基点信息和波形数据的标识信息。A声音数据506中包含的基点信息是附加在单元选择部505所选择的各单元上的信息,标识信息是由单元连接部504根据韵律生成部503所生成的各单元的持续时间长度来生成的。
A基点数据库511按照包含在音质A的声音中的各单元,存储着该单元的标识信息和基点信息。
B基点数据库512对与A基点数据库511中的音质A的声音中包含的各单元对应的、包含在音质B的声音中的各个单元,存储着该单元的标识信息和基点信息。例如,如果A基点数据库511对音质A的声音“祝贺”中包含的各个单元存储着该单元的标识信息和基点信息,则B基点数据库512对音质B的声音“祝贺”中所包含的各个单元存储着该单元的标识信息和基点信息。
函数提取部513将分别与A基点数据库511和B基点数据库512对应的单元之间的标识信息及基点信息的差分,作为用于将各单元的音质从音质A变换为音质B的变换函数来生成。之后,函数提取部513将A基点数据库511的每个单元的标识信息及基点信息分别与如上述那样声称的各单元的变换函数对应起来,存储到变换函数据库514中。
函数提取部515对A声音数据506中包含的每个单元部分,从变换函数数据库514选择与最接近该单元部分所具有的基点信息的基点信息对应的变换函数.从而,对A声音数据506中包含的各单元部分,能够自动高效地选择最适合于该单元部分的变换的变换函数.此外,函数选择部515将依次选择的所有变换函数作为变换函数数据516生成,并存储到第3缓冲器519中.
变换率指定部507对函数应用部509指定表示音质A的声音接近音质B的声音的比例的变换率。
函数应用部509用变换函数数据516将该A声音数据506变换为已变换声音数据508,以使A声音数据506所表示的音质A的声音按由变换率指定部507指定的变换率接近音质B的声音。此外,函数应用部509将已变换声音数据508存储在第2缓冲器518中。这样被存储的已变换声音数据508被传递给声音输出用设备或记录用设备以及通信用设备等。
再有,本实施方式中,将声音的构成单位即单元(声音单元)作为音素进行了说明,但该单元也可以是其它构成单位。
图24A和图24B是表示本实施方式中的基点信息的一例的概略图。
基点信息是表示音素的基点的信息,下面,说明该基点。
如图24A所示,音质A的声音中包含的规定的音素部分的频谱中,表现了带有声音的音质的两个共振峰的轨迹803。例如,该音素的基点807是作为两个共振峰的轨迹803所示的频率中的、与该音素的持续时间长度的中心805对应的频率定义。
和上述同样,如图24B所示,音质B的声音中包含的规定的音素部分的频谱中,表现了带有声音的音质的两个共振峰轨迹804。例如,该音素的基点808是作为两个共振峰轨迹804所示的频率中的、与该音素的持续时间长度的中心806对应的频率定义。
例如,上述音质A的声音和上述音质B的声音在文章(内容)上相同,图24A所示的音素与图24B所示的音素对应的情况下,本实施方式的音质变换装置利用上述基点807、808,变换该音素的音质。即,本实施方式的音质变换装置对音质A的音素的声音频谱进行频率轴上的频谱伸缩,以使基点807表示的音质A的声音频谱的共振峰位置对准进入到由基点808表示的音质B的声音频谱的共振峰位置,而且,在时间轴上也进行伸缩,以使该音素的持续时间长度对准进入。由此,能够使音质A的声音与音质B的声音相似。
此外,在本实施方式中,将音素的中心位置的共振峰频率作为基点来定义,是因为元音的声音频谱在音素中心附近最稳定。
图25A和图25B是用于说明存储在A基点数据库511和B基点数据库512中的信息的说明图。
如图25A所示,A基点数据库511中存储有包含在音质A的声音中的音素串和与该音素串的各音素对应的标识信息和基点信息。如图25B所示,B基点数据库512中存储有包含在音质B的声音中的音素串和与该音素串的各音素对应的标识信息和基点信息。标识信息是表示声音中包含的各音素的讲话定时的信息,通过各音素的持续时间长度(持续长度)来表现。即,规定音素的讲话定时由到前一个音素为止的各音素的持续长度的总合来表示。此外,基点信息由用上述各音素的频谱表示的两个基点(基点1和基点2)来表示。
例如,如图25A所示,A基点数据库511中存储有音素串“ome”,并且,对于音素“o”,存储着持续时间长度(80ms)、基点1(3000Hz)、基点2(4300Hz).此外,对于音素“m”,存储着持续长度(50ms)、基点1(2500ms)、基点2(4250Hz).此外,音素“m”的讲话定时是,在从音素“o”开始讲话的情况下,是从该开始起经过了80ms的定时.
另一方面,如图25B所示,B基点数据库512中存储着与上述A基点数据库对应的音素串“ome”,并且,对于音素“o”,存储着持续时间长度(70ms)、基点1(3100Hz)、基点2(4400Hz)。此外,对于音素“m”,存储着持续长度(40ms)、基点1(2400ms)、基点2(4200Hz)。
函数提取部513根据包含在A基点数据库511和B基点数据库512中的信息,来计算分别与其对应的音素部分的基点和持续长度之比。此外,函数提取部513将作为该计算结果的比值作为变换函数,将该变换函数和音质A的基点及持续长度成组,保存到变换函数数据库514。
图26是表示本实施方式中的函数提取部513的一处理例的概略图。
函数提取部513从A基点数据库511和B基点数据库512中,按分别对应的各音素取得该音素的基点和持续长度。之后,函数提取部513对每个音素计算音质B的值与音质A的值之比。
例如,函数提取部513从A基点数据库511取得音素“m”的持续长度(50ms)、基点1(2500Hz)、基点2(4250Hz),并从B基点数据库512取得音素“m”的持续长度(40ms)、基点1(2400Hz)、基点2(4200Hz)。此外,函数提取部513将音质B的持续长度与音质A的持续长度之比(持续长度比)计算为40/50=0.8,音质B的基点1与音质A的基点1之比(基点1比)计算为2400/2500=0.96,音质B的基点2与音质A的基点2之比(基点2比)计算为4200/4250=0.988。
当这样计算比值时,函数提取部513按每个音素、将音质A的持续长度(A持续长度)、基点1(A基点1)及基点2(A基点2)和计算出的持续长度比、基点1比及基点2比成组,保存到变换函数数据库514。
图27是表示本实施方式中的函数选择部515的一处理例的概略图。
函数选择部515按照A声音数据506所示的各音素,从变换函数数据库514检索表示与该音素的基点1和基点2的组最接近的频率的A基点1和A基点2的组。之后,当函数选择部515发现该组时,从变换函数数据库514中将与该组对应的持续长度比、基点1比和基点2比作为对该音素的变换函数选择。
例如,当函数选择部515从变换函数数据库514选择对A声音数据506所示的音素“m”的变换最佳的变换函数时,从变换函数数据库514检索表示与该音素“m”所示的基点1(2550Hz)及基点2(4200Hz)最接近的频率的A基点1及A基点2的组。即,在变换函数数据库514中有对音素“m”的两个变换函数时,函数选择部515计算A声音数据506的音素“m”所示的基点1及基点2(2550Hz,4200Hz)与变换函数数据库514的音素“m”所示的A基点1及A基点2(2500Hz,4250Hz)的距离(类似度)。此外,函数选择部515计算A声音数据506的音素“m”所示的基点1及基点2(2550Hz,4200Hz)与变换函数数据库514的音素“m”所示的另一个A基点1及A基点2(2400Hz,4300Hz)的距离(类似度)。结果,函数选择部515将与距离最短的即类似度最高的A基点1及基点2(2500Hz,4250Hz)对应的持续长度比(0.8)、基点1比(0.96)及基点2比(0.988),作为对A声音数据506的音素“m”的变换函数来选择。
这样,函数选择部515对A声音数据506所示的各音素,选择对该音素最佳的变换函数.即,该函数选择部515具备类似度导出机构,对作为单元存储机构的第1缓冲器517的A声音数据506中包含的各音素,比较该音素的音响特征(基点1和基点2)、和制作作为函数存储机构的变换函数数据库514中所存储的变换函数时使用的音素的音响特征(基点1和基点2),来导出类似度.此外,函数选择部515对包含在A声音数据506中的各音素,选择使用该音素和类似度最高的音素来生成的变换函数.此外,函数选择部515生成包含该选择的变换函数、和在变换函数数据库514中对应于该变换函数的A持续长度、包含A基点1及A基点2的变换函数数据516.
此外,也可以通过按照基点的种类来对距离附加权重,进行优先考虑某个特定种类的基点的位置的接近程度的计算。例如,通过使左右音韵性的低阶共振峰频率的权重较大,能够降低因音质变换而音韵性变形的风险。
图28是表示本实施方式中的函数应用部59的处理的一例的概略图。
函数应用部509通过对A声音数据506的各音素所表示的持续长度、基点1及基点2,乘上变换函数数据516所表示的持续时间长度比、基点1比及基点2比和由变换率指定部507指定的变换率,来校正该A声音数据506的各音素所示的持续长度、基点1及基点2。此外,函数应用部509使A声音数据506所示的波形数据变形,以与该被校正的持续长度、基点1及基点2一致。即,本实施方式中的函数应用部509对A声音数据506中包含的各音素,应用由函数选择部115选择的变换函数,来改变该音素的音质。
例如,函数应用部509在A声音数据506的音素“u”所表示的持续长度(80ms)、基点1(3100Hz)及基点2(4300Hz)上,乘上变换函数数据516所表示的持续长度比(1.5)、基点1比(0.95)及基点2比(1.05)和由变换率指定部507指定的变换率100%。从而,A声音数据506的音素“u”所表示的持续长度(80ms)、基点1(3000Hz)及基点2(4300Hz)被修正为持续长度(120ms)、基点1(2850Hz)及基点2(4515Hz)。之后,函数应用部509对其波形数据进行变形,以使A声音数据506的波形数据的音素“u”部分的持续长度、基点1和基点2成为被修正后的持续长度(120ms)、基点1(2850Hz)及基点2(4515Hz)。
图29是表示本实施方式的音质变换装置的动作的流程图。
首先,音质变换装置取得文本数据501(步骤S500)。音质变换装置对该取得的文本数据501进行语言分析或词素分析等,并根据该分析结果生成韵律(步骤S502)。
当生成韵律时,音质变换装置通过根据该韵律从A单元数据库510选择并连接音素,来生成表示音质A的声音的A声音数据506(步骤S504)。
音质变换装置确定A声音数据中包含的最初音素的基点(步骤S506),将基于与该基点最近的基点生成的变换函数作为对该音素最佳的变换函数,从变换函数数据库514中选择(步骤S508)。
在此,音质变换装置判断是否对在步骤S504生成的A声音数据中包含的所有音素都选择了变换函数(步骤S510)。在判断为没有被选择时(步骤S510的“否”),音质变换装置对A声音数据506中包含的下一个音素重复执行步骤S506后的处理。另一方面,在判断为被选择时(步骤S510的“是”),音质变换装置通过将所选择的变换函数适用于A声音数据506,将该A声音数据506变换为音质B的声音所示的已变换声音数据508(步骤S512)。
在这样的本实施方式中,通过对A声音数据506的音素使用根据与该音素的基点最近的基点来生成的变换函数,将A声音数据506所表示的声音的音质从音质A变换为音质B.因此,在本实施方式中,例如A声音数据506中有多个相同的音素、并且这些音素的音响特征不同时,不会像现有例那样不管音响特征不同将相同的变换函数用于这些音素,而应用对应于该音响特征的变换函数,能够适当地变换A声音数据506所示的声音的音质.
此外,在本实施方式中,用称作基点的代表值简单地表示了音响特征,因此,在从变换函数数据库514选择变换函数时,不进行复杂的运算处理即可简单且迅速并适当地选择变换函数。
此外,在以上的方法中,将各音素内的各基点的位置或对各音素内的各基点位置的倍率设定为恒定值,但是也可以分别光滑地内插到音素之间。例如,图28中,音素“u”的中心位置中的基点1的位置是3000Hz、音素“m”的中心位置中为2550Hz,但是在其中间时刻,考虑到基点1的位置为(3000+2550)/2=0.955,也可以进行变形,以使声音在该时刻的短时间频谱的2775Hz附近对准进入到2775×0.955=2650.125Hz附近。
再有,在上述方法中,通过使声音的频谱形状变形来进行了音质变换,但也可以通过变换模型基本(モデルべ一ス)声音合成法的模型参数值来进行音质变换。该情况下,可以不把基点位置提供到声音频谱上,而代之把各波形参数提供到各模型参数的时间系列变化图表上。
此外,在上述方法中,以对全部音素使用共同种类的基点为其前提,但是也可以改变根据音素的种类使用的基点的种类。例如,在元音中,以共振峰频率为基础定义基点信息的情况较有效,但是在无声辅音中,由于共振峰定义自身的物理意义较少,因此,也可以考虑与适用于元音的共振峰分析分开而独立地提取频谱上的特征点(峰值等),并设定为基点信息,这种情况也是有效的。此时,在元音部和无声辅音部设定的基点信息的个数(维数)相互不同。
(变形例1)
在上述实施方式的方式中,以音质变换为音素单位进行,但也能够以比单词单位和重音语句单位等更长的单位来进行。尤其是决定韵律的基本频率和持续长度的信息很难仅用音素单位来完成处理,因此,用变换目标的音质决定对文本整体的韵律信息,并通过进行与变换源音质中的韵律信息的替换或渐变(morphing)来进行变形。
即,本变形例中的音质变换装置通过分析文本数据501,来生成与将音质A靠近音质B的中间音质对应的韵律信息(中间韵律信息),并从A单元数据库510选择与该中间韵律信息对应的音素,来生成声音数据506。
图30是表示本变形例的音质变换装置结构的结构图。
本变形例的音质变换装置具备生成与从音质A靠近音质B的音质对应的中间韵律信息的韵律生成部503a。
该韵律生成部503a具备:A韵律生成部601、B韵律生成部602、中间韵律生成部603。
A韵律生成部601生成包含附加在音质A的声音上的重音或各音素的持续长度等的A韵律信息。
B韵律生成部602生成包含附加在音质B的声音上的重音或各音素的持续长度等的B韵律信息。
中间韵律生成部603根据分别由A韵律生成部601及B韵律生成部602生成的A韵律信息及B韵律信息、和由变换率指定部507指定的变换率进行计算,来生成与将音质A靠近音质B该变换率程度的音质对应的中间韵律信息.再有,变换率指定部507对中间韵律生成部603指定与对函数应用部509指定的变换率相同的变换率.
具体来说,中间韵律生成部603按照由变换率指定部507指定的变形率,对分别与A韵律信息和B韵律信息对应的音素计算持续长度的中间值和各时刻中的基本频率的中间值,并生成表示这些计算结果的中间韵律信息。之后,中间韵律生成部603将该生成的中间韵律信息输出到单元选择部505。
通过以上的结构,能够进行将可在音素单位内变形的共振峰频率等的变形和文本单位内的变形有效的韵律信息变形组合的音质变换处理。
此外,在本变形例中,根据中间韵律信息选择音素,并生成了A声音数据506,因此,在函数应用部509将A声音数据506变换为已变换声音数据508时,可防止无理的音质变换引起的音质的恶化。
(变形例2)
在上述方法中,通过在各音素的中心位置定义基点,来稳定地表现各音素的音响特征,但是也可以将基点定义为音素内的各共振峰频率的平均值、音素内的各频带的频谱强度的平均值、这些值的分散值等。即,也可以通过按照在声音识别技术中一般使用的HMM音响模型的形式定义基点,极端单元侧模型的各状态变量和变换函数侧模型的各状态变量之间的距离,来选择最佳的函数。
与上述实施方式比较,该方法中由于基点信息包含更多的信息,所以具有能够选择更适合的函数的优点,但是有如下缺点:为了基点信息的大小变大而使得选择处理的负荷变大,保持基点信息的各数据库的大小也变大。再有,在从HMM音响模型生成声音的HMM声音合成装置中,具有能够将单元数据和基点信息共同化的优良效果。即,只要比较表示各变换函数的生成源声音的特征的HMM的各状态变量和所使用的HMM音响模型的各状态变量,来选择最佳的变换函数即可。表示各变量的生成源声音的特征的HMM的各状态变量在用于合成的HMM音响中识别生成源声音,只要在各音素内的对应于各HMM状态的部分计算音响特征量的平均或分散值就可以。
(变形例3)
本实施方式是将文本数据51作为输入来接受并输出声音的声音合成装置中组合音质变换功能的方式,但也可以将声音作为输入来接受、并利用输入声音的自动标注来生成标识信息、在各音素中心提取频谱峰值点来自动生成基点信息。这样,能够将本发明的技术作为声音转换装置来使用。
图31是表示本变形例的音质变换装置的结构的结构图。
本变形例的音质变换装置包括:上述实施方式的图23所示的文本分析部502、韵律生成部503、单元连接部504、单元选择部505,以及代替A单元数据库510的A声音数据生成部700。该A声音数据生成部700把音质A的声音作为输入声音来取得,并生成与该输入声音对应的A声音数据506。即,本变形例中,A声音数据生成部700构成为生成A生意数据506的生成机构。
A声音数据生成部700包括麦克风705、标注部702、音响特征分析部703、标注用音响模型704。
麦克风705收集输入声音,并生成表示该输入声音的波形的A输入声音波形数据701.
标注部702参照标注用音响模型704,对A输入声音波形数据701进行音素的标注。从而生成对该A输入声音波形数据701种包含的音素的标签信息。
音响特征分析部703通过提取由标注部702标注的各音素中心点(时间轴中心)中的频谱峰值点(共振峰频率),来生成基点信息。此外,音响特征分析部703生成包括所生成的基点信息、标注部702生成的标签信息和A输入声音波形数据701的A声音数据506,并存储到第1缓冲器517。
从而,在本变形例中,能够变换所输入的声音音质。
此外,用实施方式和其变形例来对本发明进行说明,但是并不限定于此。
例如,在本实施方式及其变形例中,如基点1和基点2,将基点数设定为两个,并如基点1比和基点2比那样,将变换函数中的基点比的个数设定为两个,但是也可以将基点和基点比的个数分别设定为1个,也可以设定为3个以上。通过增加基点和基点比的个数,能够对音素选择更加合适的变换函数。
产业上的可利用性
本发明的声音合成装置具有可适当地变换音质的效果,并且,可用于例如汽车导航系统、家庭用电器产品等娱乐性较高的声音接口、分开使用各种音质的同时进行合成音的信息提供的装置、以及应用程序等中,尤其是在需要声音的感情表现的邮件文章的读取或要求表现讲话者的性别的代理应用程序等用途中有用。此外,通过组合声音的自动标注技术,也可以应用到可按所希望的歌手的音质来唱歌的卡拉OK装置、或以个人秘密保护等为目的的声音转换等中。

Claims (12)

1.一种声音合成装置,利用声音单元合成声音,以变换音质,其特征在于,具有:
单元存储机构,存储有多个声音单元;
函数存储机构,存储有用于变换声音单元的音质的多个变换函数;
音质指定机构,接受由用户指定的音质;
韵律生成机构,取得文本,根据上述文本中包含的音素推定韵律,生成表示上述音素和韵律的韵律信息;
类似度导出机构,比较表示上述单元存储机构中存储的声音单元的音响特征、和制作上述函数存储机构中所存储的变换函数时使用的上述变换函数所固有的声音单元的音响特征,来导出类似度;
变换机构,变换声质,
所述变换机构具有:
选择机构,从上述单元存储机构中选择与上述韵律信息所表示的音素及韵律相对应的声音单元,根据由上述类似度导出机构对所选择的上述声音单元导出的类似度和由上述音质指定机构接受的音质,从上述函数存储机构选择将所选择的上述声音单元的音质变换为在上述音质指定机构接受的音质的变换函数;以及
应用机构,通过对所选择的上述声音单元应用由上述选择机构选择的上述变换函数,将该声音单元的音质变换为在上述音质指定机构接受的音质。
2.如权利要求1所述的声音合成装置,其特征在于,
上述单元存储机构中存储的声音单元的声音特征和制作上述变换函数时使用的声音单元的声音特征越类似,上述类似度导出机构导出越高的类似度;
上述选择机构对所选择的上述声音单元,选择变换函数,该变换函数为使用上述类似度最高的声音单元来制作的变换函数。
3.如权利要求2所述的声音合成装置,其特征在于,
上述类似度导出机构根据由上述单元存储机构中存储的声音单元和该声音单元的前后声音单元构成的系列音响特征、和由制作上述变换函数时使用的声音单元及该声音单元的前后声音单元构成的系列音响特征之间的类似度,来导出动态的上述类似度。
4.如权利要求2所述的声音合成装置,其特征在于,
上述类似度导出机构根据上述单元存储机构中存储的声音单元的音响特征和制作上述变换函数时使用的声音单元的音响特征之间的类似度,来导出静态的上述类似度。
5.如权利要求1所述的声音合成装置,其特征在于,
上述选择机构对所选择的上述声音单元,选择使用上述类似度大于等于规定阈值的声音单元来制作的变换函数。
6.如权利要求1所述的声音合成装置,其特征在于,
上述单元存储机构存储着构成第1音质的声音的多个声音单元;
上述函数存储机构对第1音质的声音的每个声音单元,将该声音单元、表示该声音单元的音响特征的基准代表值、和对上述基准代表值的变换函数分别关联起来进行存储;
上述声音合成装置还具有代表值确定机构,该代表值确定机构对上述单元存储机构中存储的第1音质的声音的每个声音单元,确定表示该声音单元的音响特征的代表值;
上述类似度导出机构比较上述单元存储机构中存储的声音单元所表示的上述代表值、和制作上述函数存储机构中存储的变换函数时使用的声音单元的上述基准代表值,来导出类似度;
上述选择机构对于所选择的上述声音单元,从同与该声音单元相同的声音单元相关联地存储在上述函数存储装置中的变换函数中,选择与和该声音单元的代表值和类似度最高的基准代表值相关联的变换函数;
上述应用机构通过对由上述选择机构选择的上述声音单元应用所选择的变换函数,将上述第1音质的声音变换为第2音质的声音。
7.如权利要求6所述的声音合成装置,其特征在于,
上述声音合成装置还具有声音合成机构,该声音合成机构取得文本数据,并生成表示与上述文本数据相同内容的上述多个声音单元,存储到上述单元存储机构中。
8.如权利要求7所述的声音合成装置,其特征在于,
上述声音合成机构具有:
单元代表值存储机构,将构成上述第1音质的声音的各声音单元和表示上述各声音单元的音响特征的代表值相关联起来进行存储;
分析机构,取得并分析上述文本数据;
选择存储机构,根据上述分析机构的分析结果,从上述单元代表值存储机构选择对应于上述文本数据的声音单元,并将所选择的声音单元和该声音单元的代表值关联起来存储到上述单元存储机构中;
上述代表值确定机构对上述单元存储机构中存储的每个声音单元,确定与该声音单元关联起来存储的代表值。
9.如权利要求8所述的声音合成装置,其特征在于,
上述声音合成装置还具有:
基准代表值存储机构,对上述第1音质的声音的每个声音单元,存储着该声音单元和表示该声音单元的音响特征的基准代表值;
目标代表值存储机构,对上述第2音质的声音的每个声音单元,存储着该声音单元和表示该声音单元的音响特征的目标代表值;
变换函数生成机构,根据与上述基准代表值存储机构和目标代表值存储机构中存储的相同的声音单元对应的基准代表值和目标代表值,生成对上述基准代表值的上述变换函数。
10.如权利要求9所述的声音合成装置,其特征在于,
上述声音单元是音素,表示上述音响特征的代表值和基准代表值分别是音素的时间中心处的共振峰频率值。
11.如权利要求9所述的声音合成装置,其特征在于,
上述声音单元是音素,表示上述音响特征的代表值和基准代表值分别是音素的共振峰频率的平均值。
12.一种声音合成方法,利用声音单元合成声音,以变换音质,其特征在于,
单元存储机构存储有多个声音单元,函数存储机构存储有用于变换声音单元的音质的多个变换函数,
上述声音合成方法包括:
音质指定步骤,接受由用户指定的音质;
韵律生成步骤,取得文本,根据上述文本中包含的音素推定韵律,生成表示上述音素和韵律的韵律信息;
类似度导出步骤,比较上述单元存储机构中存储的声音单元所表示的音响特征、和制作上述函数存储机构中存储的变换函数时使用的上述变换函数所固有的声音单元的音响特征,来导出类似度;
变换步骤,变换声质,
所述变换步骤,包括:
选择步骤,从上述单元存储机构中选择与上述韵律信息所表示的音素及韵律相对应的声音单元,根据由上述类似度导出步骤对所选择的上述声音单元导出的类似度和在上述音质指定步骤接受的音质,从上述函数存储机构选择将所选择的上述声音单元的音质变换为在上述音质指定步骤接受的音质的变换函数;以及
应用步骤,通过对所选择的上述声音单元应用在上述选择步骤选择的上述变换函数,将该声音单元的音质变换为在上述音质指定步骤接受的音质。
CN200580000891XA 2004-10-13 2005-09-20 声音合成装置和声音合成方法 Expired - Fee Related CN1842702B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP299365/2004 2004-10-13
JP2004299365 2004-10-13
JP2005198926 2005-07-07
JP198926/2005 2005-07-07
PCT/JP2005/017285 WO2006040908A1 (ja) 2004-10-13 2005-09-20 音声合成装置及び音声合成方法

Publications (2)

Publication Number Publication Date
CN1842702A CN1842702A (zh) 2006-10-04
CN1842702B true CN1842702B (zh) 2010-05-05

Family

ID=36148207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580000891XA Expired - Fee Related CN1842702B (zh) 2004-10-13 2005-09-20 声音合成装置和声音合成方法

Country Status (4)

Country Link
US (1) US7349847B2 (zh)
JP (1) JP4025355B2 (zh)
CN (1) CN1842702B (zh)
WO (1) WO2006040908A1 (zh)

Families Citing this family (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7809145B2 (en) * 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US8073157B2 (en) * 2003-08-27 2011-12-06 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection and characterization
US9174119B2 (en) 2002-07-27 2015-11-03 Sony Computer Entertainement America, LLC Controller for providing inputs to control execution of a program when inputs are combined
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
US7803050B2 (en) 2002-07-27 2010-09-28 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US8233642B2 (en) 2003-08-27 2012-07-31 Sony Computer Entertainment Inc. Methods and apparatuses for capturing an audio signal based on a location of the signal
US8139793B2 (en) * 2003-08-27 2012-03-20 Sony Computer Entertainment Inc. Methods and apparatus for capturing audio signals based on a visual image
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20110014981A1 (en) * 2006-05-08 2011-01-20 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US20100030557A1 (en) 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
US20080120115A1 (en) * 2006-11-16 2008-05-22 Xiao Dong Mao Methods and apparatuses for dynamically adjusting an audio signal based on a parameter
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101589430B (zh) 2007-08-10 2012-07-18 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
JP5282469B2 (ja) * 2008-07-25 2013-09-04 ヤマハ株式会社 音声処理装置およびプログラム
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
JP5300975B2 (ja) * 2009-04-15 2013-09-25 株式会社東芝 音声合成装置、方法およびプログラム
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5301376B2 (ja) * 2009-07-03 2013-09-25 日本放送協会 音声合成装置およびプログラム
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US9053095B2 (en) * 2010-10-31 2015-06-09 Speech Morphing, Inc. Speech morphing communication system
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9401138B2 (en) * 2011-05-25 2016-07-26 Nec Corporation Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
FR2993088B1 (fr) * 2012-07-06 2014-07-18 Continental Automotive France Procede et systeme de synthese vocale
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
JP6433063B2 (ja) * 2014-11-27 2018-12-05 日本放送協会 音声加工装置、及びプログラム
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP6747489B2 (ja) * 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치
CN112786018A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 语音转换及相关模型的训练方法、电子设备和存储装置
US11699430B2 (en) * 2021-04-30 2023-07-11 International Business Machines Corporation Using speech to text data in training text to speech models

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005775A (ja) * 2001-06-26 2003-01-08 Oki Electric Ind Co Ltd テキスト音声変換装置における高速読上げ制御方法
US6516298B1 (en) * 1999-04-16 2003-02-04 Matsushita Electric Industrial Co., Ltd. System and method for synthesizing multiplexed speech and text at a receiving terminal
CN1397651A (zh) * 2002-08-08 2003-02-19 王云龙 冷固含碳球团海绵铁生产方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319495A (ja) * 1994-05-26 1995-12-08 N T T Data Tsushin Kk 音声合成装置のための合成単位データ生成方式及び方法
JP3536996B2 (ja) 1994-09-13 2004-06-14 ソニー株式会社 パラメータ変換方法及び音声合成方法
JP2898568B2 (ja) * 1995-03-10 1999-06-02 株式会社エイ・ティ・アール音声翻訳通信研究所 声質変換音声合成装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP2912579B2 (ja) * 1996-03-22 1999-06-28 株式会社エイ・ティ・アール音声翻訳通信研究所 声質変換音声合成装置
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
JPH1185194A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP3667950B2 (ja) * 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP3646060B2 (ja) * 2000-12-15 2005-05-11 シャープ株式会社 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP3662195B2 (ja) * 2001-01-16 2005-06-22 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
JP3703394B2 (ja) 2001-01-16 2005-10-05 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
JP4408596B2 (ja) 2001-08-30 2010-02-03 シャープ株式会社 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体
JP3706112B2 (ja) * 2003-03-12 2005-10-12 独立行政法人科学技術振興機構 音声合成装置及びコンピュータプログラム
WO2004097792A1 (ja) * 2003-04-28 2004-11-11 Fujitsu Limited 音声合成システム
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6516298B1 (en) * 1999-04-16 2003-02-04 Matsushita Electric Industrial Co., Ltd. System and method for synthesizing multiplexed speech and text at a receiving terminal
JP2003005775A (ja) * 2001-06-26 2003-01-08 Oki Electric Ind Co Ltd テキスト音声変換装置における高速読上げ制御方法
CN1397651A (zh) * 2002-08-08 2003-02-19 王云龙 冷固含碳球团海绵铁生产方法及装置

Also Published As

Publication number Publication date
US7349847B2 (en) 2008-03-25
WO2006040908A1 (ja) 2006-04-20
JP4025355B2 (ja) 2007-12-19
US20060136213A1 (en) 2006-06-22
JPWO2006040908A1 (ja) 2008-05-15
CN1842702A (zh) 2006-10-04

Similar Documents

Publication Publication Date Title
CN1842702B (zh) 声音合成装置和声音合成方法
Chu et al. Selecting non-uniform units from a very large corpus for concatenative speech synthesizer
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
WO2004097792A1 (ja) 音声合成システム
US20200365137A1 (en) Text-to-speech (tts) processing
US8942983B2 (en) Method of speech synthesis
MXPA06003431A (es) Metodo para sintetizar voz.
US10699695B1 (en) Text-to-speech (TTS) processing
US20060229874A1 (en) Speech synthesizer, speech synthesizing method, and computer program
US7069216B2 (en) Corpus-based prosody translation system
Bettayeb et al. Speech synthesis system for the holy quran recitation.
US7089187B2 (en) Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP2007086309A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2001265375A (ja) 規則音声合成装置
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
Hansakunbuntheung et al. Space reduction of speech corpus based on quality perception for unit selection speech synthesis
JPH08263095A (ja) 音声素片選択方法および音声合成装置
JPH1049193A (ja) 自然発話音声波形信号接続型音声合成装置
JP3576066B2 (ja) 音声合成システム、および音声合成方法
CN1979636B (zh) 一种音标到语音的转换方法
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置
JPH10254471A (ja) 音声合成装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20141011

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20141011

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100505