CN1282017A - 声音合成方法和装置、词典构筑方法和计算机可读媒体 - Google Patents

声音合成方法和装置、词典构筑方法和计算机可读媒体 Download PDF

Info

Publication number
CN1282017A
CN1282017A CN00120198A CN00120198A CN1282017A CN 1282017 A CN1282017 A CN 1282017A CN 00120198 A CN00120198 A CN 00120198A CN 00120198 A CN00120198 A CN 00120198A CN 1282017 A CN1282017 A CN 1282017A
Authority
CN
China
Prior art keywords
dictionary
rhythm
word
character string
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00120198A
Other languages
English (en)
Other versions
CN1117344C (zh
Inventor
笠井�治
沟口稔幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Computer Entertainment Co Ltd
Konami Group Corp
Original Assignee
Konami Corp
Konami Computer Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Corp, Konami Computer Entertainment Co Ltd filed Critical Konami Corp
Publication of CN1282017A publication Critical patent/CN1282017A/zh
Application granted granted Critical
Publication of CN1117344C publication Critical patent/CN1117344C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

设定讲话者或进话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务(S1),构筑与各任务对应的单词词典、韵律词典和波形词典(S2),在由游戏系统等输入要合成的字符串及指定任务时采用该指定任务的单词词典、韵律词典和波形词典进行声音合成处理(S3),由此可生成反映讲话者个性和讲话时的感情、状况、讲话内容的声音信息。

Description

声音合成方法和装置、词典构筑方法和计算机可读媒体
本发明涉及适用于视频游戏等的声音合成方法、用于声音合成的词典构筑方法、声音合成装置及记录声音合成程序的计算机可读媒体。
近年来,随着电话报时、银行ATM声音引导之类需反复输出声音信息(人所讲的言词)的服务的普及和各种电气制品等人机界面要求的提高,希望由机械输出声音信息的需求增大。
作为以往输出声音信息的方法,有一种真人朗读预定的引导词或文章并把它预先存储在存储装置中,然后在所需场面原样重现加以输出的方法(下文称为记录重现法)。还有一种在存储装置中存储与构成声音信息的各种词对应的声音数据,然后根据任意输入的字符串(文本),组合该声音数据加以输出的方法(所谓声音合成方法)。
在上述记录重现方法中,可输出高品质的声音信息。但另一方面,也有不能输出确定的引导词和文章以外的声音信息,而且需要容量与引导词和文章数量成比例的存储装置这些缺陷。
另一方面,在声音合成方法中,可输出对应于任意输入的字符串,即对应于任意词的声音信息,且与上述记录重现方法相比,其需要的存储容量也小。但是,存在有些字符串变成留有不自然感的声音信息这样的缺陷。
可是,在近来视频游戏中,随着游戏机主体性能的提高和存储媒体存储容量的增加,游戏中登场角色的声音信息与BGM和效果音一起输出的可能性增大。
这时,在视频游戏这种娱乐性高的场合,强烈希望每个游戏角色输出音质不同的声音信息,而且输出反映讲话时感性、状况的声音信息。进而,也迫切希望由游戏角色念游戏者任意输入、设定的游戏者角色姓名(称呼)。
如果要用上述的记录重现方法实现适合上述希望的声音信息输出,则必须对游戏者任意输入、设定的游戏者角色姓名(称呼)这种遍及几千至几万词全部进行声音收录、重现。为此,收录所需时间和费用、必需的存储装置容量变得十分庞大,事实上,不可能实施。
另一方面,用声音合成方法,任意输入、设定的游戏者角色姓名发声比较容易。但,以往的声音合成方法仅以产生明了的自然声音信息为目标,因而根本不能合成与讲话人的个性、讲话时的感性和状况相应的声音信息,即不能根据每个游戏角色输出音质不同的声音信息,不能输出反映游戏角色的感情、状况的声音信息。
本发明的目的在于提供一种适合视频游戏这种娱乐性高的用途且能产生与讲话者的个性、讲话时的感情和状况或各种讲话内容相应的声音信息的声音合成方法,用于声音合成的词典构筑方法,声音合成装置及记录声音合成程序的计算机可读媒体。
为了达到上述目的,本发明的一种采用单词词典、韵律词典和波形词典生成声音信息的声音合成方法,该方法包括下述步骤:设定讲话者或讲话时感情、状况或讲话内容中至少一个不同的多个声音合成处理作业单位(下文称为任务);至少构筑与各任务对应的韵律词典和波形词典;在与任务指定的同时输入要合成的字符串时,用与该任务对应的单词词典、韵律词典和波形词典进行声音合成处理。
根据本发明,声音合成处理分成:多个讲话者,讲话时的多个感情、状况,多个讲话内容等任务,每个任务构筑词典进行声音合成,因此易于产生与讲话者个性、讲话时的感情与状况、讲话内容对应的声音信息。
上述多个任务中的每个任务的词典,由下述步骤构筑:生成与任务对应的单词词典;从单词词典的全部单词中选出可成为模型的字符串生成声音收录脚本;按照声音收录脚本收录讲话者的声音;由所述收录的声音构筑韵律词典和波形词典;对各任务进行上述步骤。
上述每个任务的词典由下述步骤构筑:生成与任务对应的单词词典和单词变形现则;按照与所述任务对应的单词变形规则,对与任务对应的单词词典中包含的全部单词进行变形处理;从经变形处理的单词词典中的全部单词选出可成为模型的字符串生成声音收录脚本;根据声音收录脚本收录讲话者的声音;从所述收录的声音构筑韵律词典和波形词典;对各任务进行上述步骤。
每个上述任务的词典由下述步骤构筑:生成与任务对应的单词变形规则;按照与任务对应的单词变形规则,对单词词典所包含的全部单词进行变形处理;从经变形处理的单词词典中的全部单词选出可成为模型的字符串生成声音收录脚本;根据声音收录脚本收录讲话者的声音;从所述收录的声音构筑韵律词典和波形词典;对各任务进行上述步骤。
根据本发明,可简单生成与任务相应的声音收录脚本,根据该脚本收录声音构筑各词典,进行字符串变形处理,由此,可不增加词典容量,易于生成含多样表现内容的声音信息。
采用这些词典的声音合成方法包括下述步骤:根据与要合成的字符串一起输入的任务指定,切换单词词典、韵律词典和波形词典;采用切换后的单词词典、韵律词典和波形词典,对与要合成的字符串对应的声音信息进行合成处理。
这时,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时,该声音合成处理包括下述步骤:从单词词典判定要合成的字符串的语调类型;根据要合成的字符串与语调类型,从韵律词典选择韵律模型数据;根据选择的韵律模型数据,从波形词典选择与要合成的字符串各字符对应的波形数据;相互连接所述选择的波形数据。
采用这些词典的另一声音合成方法,包括下述步骤:根据与要合成的字符串一起输入的任务指定,切换单词词典、韵律词典、波形词典和单词变形规则;按照单词变形规则对要合成的字符串进行变形处理;采用切换后的单词词典、韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理。
采用这些词典的另一声音合成方法,包括下述步骤:根据与要合成的字符串一起输入的任务指定,切换韵律词典、波形词典和单词变形规则;按照单词变形规则对要合成的字符进行变形处理;采用单词词典、切换后的韵律词典和波形词典,对与变形处理后的字符串对应的声音信息进行合成处理。
这时,在各词典是收录许多至少含一个字符的单词及其语词类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时,该声音合成处理包括下述步骤:从单词词典或单词变形规则判定要合成的字符串的语调类型;根据要合成的字符串与语调类型,从韵律词典选择韵律模型数据;根据选择的韵律模型数据,从波形词典选择与要合成的字符串的各字符对应的波形数据;相互连接所述选择的波形数据。
采用上述词典的声音合成装置包括:根据与要合成的字符串一起输入的任务指定,切换单词词典、韵律词典和波形词典的手段;采用切换后的单词词典、韵律词典和波形词典,对与要合成的字符串对应的声音信息进行合成处理的手段。
采用上述词典的另一声音合成装置包括:根据与要合成的字符串一起输入的任务指定,切替单词词典、韵律词典、波形词典和单词变形规则的手段;按照单词变形规则对要合成的字符串进行变形处理的手段;采用切换后的单词词典、韵律词典和波形词典,对与变形处理后的字符串对应的声音信息进行合成处理的手段。
采用上述词典的另一声音合成装置包括:根据与要合成的字符串一起输入的任务指定,切换韵律词典、波形词典和单词变形规则的手段;按照单词变形规则对要合成的字符串进行变形处理的手段;采用单词词典、切换后的韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理的手段。
上述声音合成装置通过一种记录声音合成程序的计算机可读媒体加以实现,该媒体在所述程序被计算机读取时,使该计算机在功能上包括下述手段:与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典;根据与要合成的字符串一起输入的任务指定切换单词词典、韵律词典和波形词典的手段;采用切换后的单词词典、韵律词典和波形词典对与要合成的字符串对应的声音信息进行合成处理的手段。
上述声音合成装置通过一种记录声音合成程序的计算机可读媒体加以实现,该媒体在所述程序被计算机读取时,使该计算机在功能上包括下述手段:与讲话者或讲话时的感情、状况或进话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典、波形词典和单词变形规则;根据与要合成的字符串一起输入的任务指定,切换单词词典、韵律词典、波形词典和单词变形规则的手段;按照单词变形规则对要合成的字符串进行变形处理的手段;采用切换后的单词词典、韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理的手段。
上述声音合成装置通过一种记录声音合成程序的计算机可读媒体加以实现,该媒体在所述程序被计算机读取时,使该计算机在功能上包括下述手段:单词词典、及与讲话者或讲话时的感情、状态之一不同的多个声音合成处理任务分别对应的韵律词典、波形词典和单词变形规则;根据与要合成的字符串一起输入的任务指定切换韵律词典、波形词典和单词变形规则的手段;按照单词变形规则对要合成的字符串进行变形处理的手段;采用单词词典、切换后的韵律词典和波形词典,对与变形处理后的字符串对应的声音信息进行合成处理的手段。
通过以下说明及附图,本发明的上述和其它目的、特征、优点会变得更为明了。
图1是整体表示本发明声音合成方法的流程图。
图2是任务说明图。
图3是具体任务一个例子的示图。
图4是表示本发明用于声音合成的词典构筑方法的流程图。
图5是单词变形规则一个例子示图。
图6是选出的字符串一个例子示图。
图7是根据单词词典、单词变形规则、字符串选出规则产生声音收录脚本的情况的一个例子示图。
图8是表示本发明声音合成方法的流程图。
图9是本发明声音合成装置的功能框图。
下面叙述本发明的最佳实施例。
图1是表示本发明的声音合成方法(含用于声音合成的词典构筑的广义声音合成方法)的整体流程图。
首先,设定多个声音合成处理任务,这些任务中讲话者或讲话时的感情、状况或讲话内容中至少有一个不同(S1)。根据声音合成目的由手工操作进行该作业。
图2用于说明任务,图1,A1、A2、A3表示多个不同讲话者,B1、B2、B3表示多个不同感情、状况,C1、C2、C3表示多个不同讲话内容。这里,所谓讲话内容不仅表示单一的词,还表示向对方招呼的词、高兴时发出的言词等根据一定定义的词集合。
图2中,讲话者A1,在感情、状况为B1时发表内容为C1的讲话这种情况(A1-B1-C1)为一个任务。讲话者A1在感情、状况为B2时发表内容C1的讲话这种情况(A1-B2-C1)为另一个任务。同样,讲话者A2在感情、状况为B1时发表内容为C2的讲话这种情况(A2-B1-C2),讲话者A2在感情、状况为B2时发表内容为C3的讲话这种情况(A2-B2-C3),讲话者A3在感情、状况为B3时发表内容为C2的讲话这种情况(A3-B3-C2)各自为另一任务。
这里,常常不必设定包罗全部多个讲话者、多种讲话时感情,状况、多种讲话内容的任务。即,即使如果对讲话者A1设定感情、状况B1,B2,B3且对感情、状况B1,B2,B3各自设定讲话内容C1、C2、C3,设定全部9种任务,有时对讲话者A2也仅设定感情、状况B1、B2,且对该感情、状况B1仅设定讲话内容C1、C2,对感情、状况B2仅设定讲话内容C3,即仅全部设定3种任务。设定怎样的任务根据声音合成目的任意决定。
虽然这里讲话者、讲话时的感情、状况及讲话内容均以多个进行说明,但也可按照声音合成的目的,把其中任1或2项限定为一种设定任务。
图3表示具体任务的一个例子,这里以视频游戏中合成游戏角色的声音信息为例,尤其表示讲话内容仅限于对游戏者角色的招呼这一例子。
在图3中,对名为“黑卡利(ひカリ)”的讲话者(游戏角色)设定“幼年时的普通招呼”、“成为高中生时的普通招呼”、“成为高中生时电话中的普通招呼”、“自白、重逢时富感情的招呼”这4种感情、状况,这些分别设定作为任务1、2、3、4。对名为“阿卡奈(ぁカね)”的讲话者设定“普通招呼”、“电话中普通招呼”,“自白、放学时亲切的招呼”这3种感情、状况,这些分别设定作为任务5、6、7。
各任务中的信息例子示出附加后述的每个任务的单词变形处理后的例子。图中“奇亚恩(ちゃん)”、“库恩(くん)(君)”是日语中的敬称。
然后,对每个如上所述设定的任务构筑声音合成所必需的词典,即单词词典、韵律词典和波形词典(S2)。
这里,所谓单词词典是指收录许多包含至少一个字符的单词及其语调类型的部分,若以例如图3中说明的任务而言,单词词典是收录预想输入的许多表示游戏者角色姓名的单词及其语调类型的部分。所谓韵律词典是指收录韵律模型数据中代表性的韵律模型数据的部分,该韵律模型数据对收录于单词词典的单词表示韵律。所谓波形词典是指把收录声音作为合成单位的声音数据(音素片)加以收录的部分。
如果加以后文所述的单词变形处理,则讲话者或感情、状况不同的任务可共用单词词典,特别如果讲话内容限定一种,则可仅为一个单词词典。
通过未图示的输入手段和游戏系统等,输入要合成的字符串和指定任务时,采用与该任务对应的单词词典、韵律词典及波形词典进行声音合成处理(S3)。
图4是表示用于本发明声音全成的词典构筑方法的流程图。
首先,用手工操作生成与上述设定的多个任务的讲话者,讲话时的感情、状况,讲话内容相应的单词词典(S21)。这时,根据需要,产生单词变形规则(S22)。
这里,所谓单词变形规则是确定把收录于单词词典的单词变换处理成与讲话者或感情、状况不同的任务所对应的单词的规则。通过该变换处理,如上所述,可把一个单词词典作为与讲话者或感情状况不同的任务虚拟对应的多个单词词典使用。
图5表示单词变形规则的一个例子,在这里表示与图3中说明过的“任务5”对应的变形规则,即从姓名(游戏者角色名)生成2拍(モ-ラ)(日文字母计数单位)外号名作为对游戏角色招呼时的规则为例子。
接着,从上述产生的单词词典或单词词典和单词变形规则,选择与某任务对应的单词词典或单词词典和单词变形规则(S23)。这对,若有单词变形规则就进行单词变形处理(S24)。
单词变形处理,根据与任务对应的单词变形规则,对与该任务对应的单词词典中所包含的全部单词进行变形处理。
对图3、图5的例子而言,这种处理是:逐个取出收录于单词词典的游戏角色名,若是2拍以上的通常名,则在最前面2拍所对应的字符后附加“库恩”;如果是1拍的名字,则在该1拍所对应的字符上附加“-(长音)”及“库恩”;如果是其它特殊的名字,则附加长音、促音、拨音等变形,生成外号名;或在生成外号名时,还进行使语调为第一拍升高等的对语调的变形处理。
接着,从收录于上述单词词典的全部单词中或对之加以单词变形处理的全部单词中,根据字符串选出规则,选出字符串,生成声音收录脚本(S25)。
所谓字符串选出规则是从收录于单词词典的全部单词或对之附加单词变形处理的全部单词中选出可成为模型的字符串的规则。例如,在从上述收录许多游戏者角色名的单词词典中,选出可成为模式的字符串,即选出名字时,可采用:(1)从1拍至6拍的名字,(2)至少采用一个每拍分别不同的语调类型的单词。根据该规则选出的字符串的一个例子示于图6。
单词词典所含的单词,如果词典产生时使讲话内容的定义越窄,则限定模式、类似度大的单词越多。在单词词典中包含很多类似度大的单词时,向各单词赋予表示其重要度、出现概率(频度)的信息,把利用该信息的选择基准与上述拍数和指定的语调类型等一起包含在字符串选出规则中,由此,在声音收录脚本中,包含实际声音合成中作为要合成的字符串输入的字符串或与其类似的字符串的概率高,从而,可提高实际声音合成的品位。
接着,按照如上所述生成的任务所对应的声音收录脚本,收录讲话者的声音(S26)。这时一种通常的工序:在演播室邀请与任务相应的讲话者(配声演员等)按照脚本讲,用话筒收录其声音,记录在录音机中。
最后,由收录的声音构筑韵律词典和波形词典(S27)。根据该收录声音构筑词典的详细处理,不是本申请的对象,可照用公知的算法和处理方法,因而这里省略其说明。
对全部任务重复进行上述处理(S28)。在如上所述,通过单词变形处理,把一个单词词典作为与讲话者或感情、状况不同的任务虚拟对应的多个单词词典处理时,单词词典按原样,仅对应于单词变形规则不同的任务进行选择。S24~S27的处理不必对每个任务全部顺序进行,也可同时并行进行。
图7示出一个例子:根据与任务对应的单词变形规则,对收录在预定任务所对应的单词词典中的单词进行变形处理,进而,产生按字符串选出规则选出并与预定任务对应的声音收录脚本。
这里,单词变形规则是图3说明过的“任务2”所对应的变形规则,即在名字(游戏角色名)上附加“库恩”作为对游戏角色的招呼加以生成时的规则。字符串选择规则是:(1)变形后在3拍至8拍以内,(2)至少采用一个全部拍中每个均不同的语调类型的单词,(3)出现概率高的词优先,(4)预定收录在脚本中的字符串个数(超过该指定的时刻选择结束)。
在本例中,虽然“阿基约希库恩(ぁきょしくん)”、“姆茨约希库恩(むフょしくん)”均是6拍,且同样具有中间拍升高型语调类型(图中实线所示),但“阿基约希”出现的概率高,因而选择“阿基约希库恩”,输出至脚本。又,“沙爱摩恩扎部劳乌库恩(さぇもんさぶろぅくん)”是10拍,因而不输出至脚本。
在上述用于声音合成的词典构筑方法中,包含人工操作的生成词典及声音收录等现场作业,因而不能通过装置或程序来实现全部工序,但对于单词变形工序、字符串选出工序,可通过按照各自规则进行处理的装置或程序来实现。
图8是表示声音合成方法(这里,是采用如上所述生成的每个任务的单词词典、韵律词典和波形词典,进行实际声音合成的狭义的声音合成方法)的流程图。
首先,当通过没有图示的输入手段和游戏系统等输入要合成的字符串和指定任务时,根据该指定的任务,切换单词词典、韵律词典和波形词典,在词典构筑阶段进行单词变形处理时还切换单词变形规则(S31)。
接着,在词典构筑阶段进行单词变形处理时,按照上述切换的单词变形规则,对要合成的字符串进行单词变形处理(S32)。这里所用的单词变形规则,基本上按原样使用词典构筑阶段所用的规则。
接着,由单词词典或单词变形规则判定要合成字符串的语调类型(S33)。具体而言,比较要合成的字符串与收录在单调词典的单词,若是同一单词,则采用其语调类型;若不是,则采用同一拍数的单词中具有类似字符串的单词的语调类型。在没有同一单词时,操作者(游戏者)可从与要合成的字符串相同拍数的单词中可出现的全部语调类型中,通过未图示的输入手段任意进行选择。
这时,在上述单词变形处理阶段,对上述词典构筑中已说明的语调进行变形处理时,采用按照上述单词变形规则的语调类型。
接着,根据要合成的字符串与语调类型,从韵律词典选择韵律模型数据(S34),根据选择的韵律模型数据,从波形词典选择与要合成的字符串的各字符对应的波形数据(S35),该选择的波形数据彼此连接(S36),生成合成声音数据。
关于S34~S36的处理细节,不是本申请的对象,可原样采用公知的算法和处理方法,因而省略其说明。
图9是本发明声音合成装置的功能框图,图中,11-1、11-2、……11-11是任务1、任务2……任务n所用的词典,12-1、12-2、……12-n是任务1、任务2、……任务n所用变形规则,13是词典、变形规则切换手段,14是单词变形手段,15是语调类型判定手段,16是韵律模型选择手段,17是波形选择手段,18是波形连接手段。
任务1~任务n所用词典11-1~11-n,分别是任务1~任务n用的单词词典、韵律词典和波形词典(的存储部)。任务1~任务n用变形规则12-1~12-n分别是任务1~任务n用的单词变形规则(的存储部)。
词典、变形规则切换手段13,根据与要合成的字符串一起输入的指定任务,切换使用的任务1~任务n用词典11-1~11-n及任务1~任务n用变形规则12-1~12-n并分别选择该词典和规则中之一,向各部分提供。
单向变形手段14,按照上述选择的单词变形规则,对要合成的字符串进行变形处理。语调类型判定手段15,根据选择的单词词典或单词变形规则,判定要合成的字符串的语调类型。
韵律模型选择手段,根据要合成的字符串与语调类型,从选择的韵律词典选择韵律模型数据。波形选择手段17,根据选择的韵律模拟数据,从选择的波形词典选择与要合成字符串的各字符对应的波形数据。波形连接手段18相互连接选择的波形数据,生成合成声音数据。
本说明书记载的最佳形态仅是例示,而不是用以限定。发明范围由所附权利要求所示,落入该权利要求精神中的全部变形均包含在本发明中。

Claims (22)

1.一种采用单词词典、韵律词典和波形词典生成声音信息的声音合成方法,其特征在于,该方法包括下述步骤:
设定讲话者或讲话时感情、状况或讲话内容中至少一个不同的多个声音合成处理任务;
至少构筑与各任务对应的韵律词典和波形词典;
在与任务指定的同时输入要合成的字符串时,用与该任务对应的单词词典、韵律词典和波形词典进行声音合成处理。
2.一种用于声音合成的词典构筑方法,是一种构筑进话者或讲话时感情、状况或讲话内容中至少一个不同的多个声音合成处理任务各自对应的单词词典、韵律词典和波形词典的词典构筑方法,其特征在于,该方法包括下述步骤:
生成与任务对应的单词词典;
从单词词典的全部单词中选出可成为模型的字符串生成声音收录脚本;
按照声音收录脚本收录讲话者的声音;
由所述收录的声音构筑韵律词典和波形词典;
对各任务进行上述步骤。
3.一种用于声音合成的词典构筑方法,是一种构筑进话者或讲话时感情、状况或讲话内容中至少一个不同的多个声音合成处理任务各自对应的单词词典、韵律词典和波形词典的词典构筑方法,其特征在于,该方法包括下述步骤:
生成与任务对应的单词词典和单词变形现则;
按照与所述任务对应的单词变形规则,对与任务对应的单词词典中包含的全部单词进行变形处理;
从经变形处理的单词词典中的全部单词选出可成为模型的字符串生成声音收录脚本;
根据声音收录脚本收录讲话者的声音;
从所述收录的声音构筑韵律词典和波形词典;
对各任务进行上述步骤。
4.一种用于声音合成的词典构筑方法,是一种构筑单词词典、与讲话者或讲话时的感情、状况之一不同的多个声音合成处理任务分别对应的韵律词典和波形词典的词典构筑方法,其特征在于,该方法包括下步骤:
生成与任务对应的单词变形规则;
按照与任务对应的单词变形规则,对单词词典所包含的全部单词进行变形处理;
从经变形处理的单词词典中的全部单词选出可成为模型的字符串生成声音收录脚本;
根据声音收录脚本收录讲话者的声音;
从所述收录的声音构筑韵律词典和波形词典;
对各任务进行上述步骤。
5.一种采用与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典进行声音合成的方法,其特征在于,该方法包括下述步骤:
根据与要合成的字符串一起输入的任务指定,切换单词词典、韵律词典和波形词典;
采用切换后的单词词典、韵律词典和波形词典,对与要合成的字符串对应的声音信息进行合成处理。
6.如权利要求5所述的声音合成方法,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时,该声音合成处理包括下述步骤:
从单词词典判定要合成的字符串的语调类型;
根据要合成的字符串与语调类型,从韵律词典选择韵律模型数据;
根据选择的韵律模型数据,从波形词典选择与要合成的字符串各字符对应的波形数据;
相互连接所述选择的波形数据。
7.一种采用与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典及单词变形规则进行声音合成的方法,其特征在于,该方法包括下述步骤:
根据与要合成的字符串一起输入的任务指定,切换单词词典、韵律词典、波形词典和单词变形规则;
按照单词变形规则对要合成的字符串进行变形处理;
采用切换后的单词词典、韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理。
8.如权利要求7所述的声音合成方法,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时,该声音合成处理包括下述步骤:
从单词词典或单词变形规则判定要合成的字符串的语调类型;
根据要合成的字符串和语调类型,从韵律词典选择韵律模型数据;
根据选择的韵律模型数据,从波形词典选择与要合成的字符串的各字符对应的波形数据;
相互连接所述选择的波形数据。
9.一种采用单词词典、与讲话者或讲话时的感情、状况之一不同的多个声音合成处理任务分别对应的韵律词典、波形词典和单词变形规则的声音合成方法,其特征在于,该方法包括下述步骤:
根据与要合成的字符串一起输入的任务指定,切换韵律词典、波形词典和单词变形规则;
按照单词变形规则对要合成的字符进行变形处理;
采用单词词典、切换后的韵律词典和波形词典,对与变形处理后的字符串对应的声音信息进行合成处理。
10.如权利要求9所述的声音合成方法,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时,该声音合成处理包括下述步骤:
从单词词典或单词变形规则判定要合成的字符串的语调类型;
根据要合成的字符串与语调类型,从韵律词典选择韵律模型数据;
根据选择的韵律模型数据,从波形词典选择与要合成的字符串的各字符对应的波形数据;
相互连接所述选择的波形数据。
11.一种采用与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典的声音合成装置,其特征在于,它包括:
根据与要合成的字符串一起输入的任务指定,切换单词词典、韵律词典和波形词典的手段;
采用切换后的单词词典、韵律词典和波形词典,对与要合成的字符串对应的声音信息进行合成处理的手段。
12.如权利要求11所述的声音合成装置,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时,声音合成处理手段包括:
由单词词典判定要合成字符串的语调类型的手段;
根据要合成的字符串和语调类型,从韵律词典选择韵律模型数据的手段;
根据选择的韵律模型数据,从波形词典选择与要合成的字符串的各字符对应的波形数据;
相互连接所述选择的波形数据的手段。
13.一种采用与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典及单词变形规则的声音合成装置,其特征在于,它包括:
根据与要合成的字符串一起输入的任务指定,切替单词词典、韵律词典、波形词典和单词变形规则的手段;
按照单词变形规则对要合成的字符串进行变形处理的手段;
采用切换后的单词词典、韵律词典和波形词典,对与变形处理后的字符串对应的声音信息进行合成处理的手段。
14.如权利要求13所述的声音合成装置,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时,声音合成处理手段包括:
由单词词典或单词变形规则判定要合成字符串的语调类型的手段;
根据要合成字符串与语调类型,从韵律词典选择韵律模型数据的手段;
根据选择的韵律模型数据,从波形词典选择与要合成字符串各字符对应的波形数据的手段;
相互连接所述选择的波形数据的手段。
15.一种采用单词词典、与讲话者或讲话时的感情、状况之一不同的多个声音合成处理任务分别对应的韵律词典、波形词典和单词变形规则的声音合成装置,其特征在于,它包括:
根据与要合成的字符串一起输入的任务指定,切换韵律词典、波形词典和单词变形规则的手段;
按照单词变形规则对要合成的字符串进行变形处理的手段;
采用单词词典、切换后的韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理的手段。
16.如权利要求15所述的声音合成装置,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时,声音合成处理手段包括:
从单词词典或单词变形规则判定要合成字符串的语调类型的手段;
根据要合成字符串与语调类型从韵律词典选择韵律模型数据的手段;
根据选择的韵律模型数据,从波形词典选择与要合成的字符串各字符对应的波形数据的手段;
相互连接所述选择的波形数据的手段。
17.一种记录声音合成程序的计算机可读媒体,其特征在于,所述程序在被计算机读取时,使该计算机在功能上包括下述手段:
与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典;
根据与要合成的字符串一起输入的任务指定切换单词词典、韵律词典和波形词典的手段;
采用切换后的单词词典、韵律词典和波形词典对与要合成的字符串对应的声音信息进行合成处理的手段。
18.如权利要求17所述的记录声音合成程序的计算机可读媒体,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时,声音合成处理手段包括:
由单词词典判定要合成字符串的语调类型的手段;
根据要合成的字符串和语调类型,从韵律词典选择韵律模型数据的手段;
根据选择的韵律模型数据,从波形词典选择与要合成的字符串的各字符对应的波形数据;
相互连接所述选择的波形数据的手段。
19.一种记录声音合成程序的计算机可读媒体,其特征在于,所述程序在被计算机读取时,使该计算机在功能上包括下述手段:
与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典、波形词典和单词变形规则;
根据与要合成的字符串一起输入的任务指定,切换单词词典、韵律词典、波形词典和单词变形规则的手段;
按照单词变形规则对要合成的字符串进行变形处理的手段;
采用切换后的单词词典、韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理的手段。
20.如权利要求19所述的计算机可读媒体,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时,声音合成处理手段包括:
由单词词典或单词变形规则判定要合成的字符串的语调类型的手段;
根据要合成的字符串和语调类型,从韵律词典选择韵律模型数据的手段;
根据选择的韵律模型数据,从波形词典选择与要合成的字符串的各字符对应的波形数据;
相互连接所述选择的波形数据的手段。
21.一种记录声音合成程序的计算机可读媒体,其特征在于,所述程序在被计算机读取时,使该计算机在功能上包括下述手段:
单词词典、与讲话者或讲话时的感情、状态之一不同的多个声音合成处理任务分别对应的韵律词典、波形词典和单词变形规则;
根据与要合成的字符串一起输入的任务指定切换韵律词典、波形词典和单词变形规则的手段;
按照单词变形规则对要合成的字符串进行变形处理的手段;
采用单词词典、切换后的韵律词典和波形词典,对与变形处理后的字符串对应的声音信息进行合成处理的手段。
22.如权利要求21所述的计算机可读媒体,其特征在于,在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时,声音合成处理手段包括:
由单词词典或单词变形规则判定要合成的字符串的语调类型的手段;
根据要合成的字符串和语调类型,从韵律词典选择韵律模型数据的手段;
根据选择的韵律模型数据,从波形词典选择与要合成的字符串的各字符对应的波形数据;
相互连接所述选择的波形数据的手段。
CN00120198A 1999-07-21 2000-07-21 声音合成方法和装置、用于声音合成的词典构筑方法 Expired - Fee Related CN1117344C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11205945A JP2001034282A (ja) 1999-07-21 1999-07-21 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP205945/1999 1999-07-21

Publications (2)

Publication Number Publication Date
CN1282017A true CN1282017A (zh) 2001-01-31
CN1117344C CN1117344C (zh) 2003-08-06

Family

ID=16515324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00120198A Expired - Fee Related CN1117344C (zh) 1999-07-21 2000-07-21 声音合成方法和装置、用于声音合成的词典构筑方法

Country Status (7)

Country Link
US (1) US6826530B1 (zh)
EP (1) EP1071073A3 (zh)
JP (1) JP2001034282A (zh)
KR (1) KR100522889B1 (zh)
CN (1) CN1117344C (zh)
HK (1) HK1034129A1 (zh)
TW (1) TW523734B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101461262B (zh) * 2006-06-02 2012-01-11 朴尚喆 用于生成对应于字符串的声音的系统
CN103021402A (zh) * 2011-09-26 2013-04-03 株式会社东芝 合成字典制作装置及合成字典制作方法
CN110431621A (zh) * 2017-03-15 2019-11-08 东芝数字解决方案株式会社 声音合成装置、声音合成方法及程序

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002282543A (ja) * 2000-12-28 2002-10-02 Sony Computer Entertainment Inc オブジェクトの音声処理プログラム、オブジェクトの音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体、プログラム実行装置、及びオブジェクトの音声処理方法
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
GB2380847A (en) * 2001-10-10 2003-04-16 Ncr Int Inc Self-service terminal having a personality controller
EP1345207B1 (en) * 2002-03-15 2006-10-11 Sony Corporation Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
GB2427109B (en) * 2005-05-30 2007-08-01 Kyocera Corp Audio output apparatus, document reading method, and mobile terminal
KR100644814B1 (ko) * 2005-11-08 2006-11-14 한국전자통신연구원 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법
US20070150281A1 (en) * 2005-12-22 2007-06-28 Hoff Todd M Method and system for utilizing emotion to search content
JP2007264466A (ja) 2006-03-29 2007-10-11 Canon Inc 音声合成装置
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
KR100859532B1 (ko) 2006-11-06 2008-09-24 한국전자통신연구원 대응 문형 패턴 기반 자동통역 방법 및 장치
GB2447263B (en) * 2007-03-05 2011-10-05 Cereproc Ltd Emotional speech synthesis
JP5198046B2 (ja) 2007-12-07 2013-05-15 株式会社東芝 音声処理装置及びそのプログラム
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
US20100324895A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Synchronization for document narration
TW201236444A (en) 2010-12-22 2012-09-01 Seyyer Inc Video transmission and sharing over ultra-low bitrate wireless communication channel
KR101203188B1 (ko) 2011-04-14 2012-11-22 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
CN103650002B (zh) * 2011-05-06 2018-02-23 西尔股份有限公司 基于文本的视频生成
GB2501067B (en) 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US9368104B2 (en) * 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
KR102222122B1 (ko) 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
US10803850B2 (en) * 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
CN113920983A (zh) * 2021-10-25 2022-01-11 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
JPH04350699A (ja) * 1991-05-28 1992-12-04 Sharp Corp テキスト音声合成装置
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3397406B2 (ja) * 1993-11-15 2003-04-14 ソニー株式会社 音声合成装置及び音声合成方法
JP2770747B2 (ja) * 1994-08-18 1998-07-02 日本電気株式会社 音声合成装置
JPH08328590A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd 音声合成装置
JPH09171396A (ja) * 1995-10-18 1997-06-30 Baisera:Kk 音声発生システム
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JPH1097290A (ja) * 1996-09-24 1998-04-14 Sanyo Electric Co Ltd 音声合成装置
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5966691A (en) * 1997-04-29 1999-10-12 Matsushita Electric Industrial Co., Ltd. Message assembler using pseudo randomly chosen words in finite state slots
JP3667950B2 (ja) * 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
CA2354871A1 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
JP2000155594A (ja) * 1998-11-19 2000-06-06 Fujitsu Ten Ltd 音声案内装置
US6144939A (en) * 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
US6697780B1 (en) * 1999-04-30 2004-02-24 At&T Corp. Method and apparatus for rapid acoustic unit selection from a large speech corpus
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101461262B (zh) * 2006-06-02 2012-01-11 朴尚喆 用于生成对应于字符串的声音的系统
CN103021402A (zh) * 2011-09-26 2013-04-03 株式会社东芝 合成字典制作装置及合成字典制作方法
CN103021402B (zh) * 2011-09-26 2015-09-09 株式会社东芝 合成字典制作装置及合成字典制作方法
CN110431621A (zh) * 2017-03-15 2019-11-08 东芝数字解决方案株式会社 声音合成装置、声音合成方法及程序

Also Published As

Publication number Publication date
EP1071073A2 (en) 2001-01-24
HK1034129A1 (en) 2001-11-09
KR100522889B1 (ko) 2005-10-19
TW523734B (en) 2003-03-11
CN1117344C (zh) 2003-08-06
KR20010021104A (ko) 2001-03-15
US6826530B1 (en) 2004-11-30
EP1071073A3 (en) 2001-02-14
JP2001034282A (ja) 2001-02-09

Similar Documents

Publication Publication Date Title
CN1117344C (zh) 声音合成方法和装置、用于声音合成的词典构筑方法
CN1108603C (zh) 声音合成方法和声音合成装置
US5878393A (en) High quality concatenative reading system
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN1128435C (zh) 用于无读本的和无显示装置的语音识别注册方法
CN101694772B (zh) 将文本文字转换成说唱音乐的方法及装置
CN101156196A (zh) 混合语音合成器、方法和使用
CN103503015A (zh) 利用客户端终端机的音乐内容制作系统
SG185300A1 (en) System and method for distributed text-to-speech synthesis and intelligibility
CN103514874A (zh) 声音合成方法和声音合成设备
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN113555027B (zh) 语音情感转换方法、装置、计算机设备及存储介质
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
CN100337104C (zh) 语音合成装置、方法和记录语音合成程序的记录介质
CN1979636B (zh) 一种音标到语音的转换方法
JP2894447B2 (ja) 複合音声単位を用いた音声合成装置
CN116580721B (zh) 表情动画的生成方法、装置和数字人平台
CN114678006B (zh) 一种基于节奏的语音合成方法及系统
CN1206603C (zh) 音乐音频产生方法与播放系统
JP3588266B2 (ja) 音声合成方法、音声合成装置及び記録媒体
CN1452111A (zh) 随机跟读释义的外语听讲训练系统及其方法
CN1051857C (zh) 汉语语音输入方法
CN1269103C (zh) 基于不同种类声音数据的声音合成系统
CN114023286A (zh) 一种说唱音乐生成方法、系统、装置与存储介质
JPH06130986A (ja) 音声認識装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030806

Termination date: 20150721

EXPY Termination of patent right or utility model