CN1643572A - 用于语音合成的文本结构、语音合成方法、语音合成设备及其计算机程序 - Google Patents
用于语音合成的文本结构、语音合成方法、语音合成设备及其计算机程序 Download PDFInfo
- Publication number
- CN1643572A CN1643572A CNA038061244A CN03806124A CN1643572A CN 1643572 A CN1643572 A CN 1643572A CN A038061244 A CNA038061244 A CN A038061244A CN 03806124 A CN03806124 A CN 03806124A CN 1643572 A CN1643572 A CN 1643572A
- Authority
- CN
- China
- Prior art keywords
- text
- synthetic speech
- feature
- identifier
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 48
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 47
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000001308 synthesis method Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims description 43
- 230000008859 change Effects 0.000 claims description 40
- 230000036651 mood Effects 0.000 claims description 18
- 230000002194 synthesizing effect Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims 1
- 230000008451 emotion Effects 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 24
- 230000002159 abnormal effect Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000029052 metamorphosis Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 230000007488 abnormal function Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
在一种语音合成设备中,通过用例如开始标记“<morphing type=‘emotion’start=‘happy’end=‘angry’>”和结束标记</morphing>来限定要输出的输入文本的所需范围,连续地改变合成语音的特征,在输出合成语音时将语音从愉快的语音逐渐变化为愤怒的语音。
Description
技术领域
本发明涉及从扬声器将输入的句子(文本)作为合成语音输出的语音合成设备的技术领域。
背景技术
已经提出过将输入的句子(文本)作为合成语音(合成声音,合成话语)从扬声器输出的语音合成设备。
为了用这样的设备从文本产生表达丰富的合成语音,必须给定关于力度、速度、音调等的控制信息,以便作为听者的用户能够听到自然的语音。
为此,即使基于包含在文本字符串中的预定规则输出合成语音时,也尝试向该文本添加所需的语言信息。
在这种情况下,被赋予该文本的附加信息使用这样的格式:使用标记限定附加信息的边界,所述标记例如表示为“<>”,就如在所谓的HTML(超文本标记语言)中使用的标记那样。并且提出了一种使用这些标记的控制与输入的文本对应的合成语音音调的方法。
但是,在这种传统的标记方法中,由于对各离散单元比如句子、单词等设置标记以设置预定的固定值,要被实际输出的合成语音只是被施加了离散的变化,而该方法的目的本来是要输出与输入文本中的各种字符和单词对应的合成语音,同时连续地改变适当的语调。结果,对于听者来说合成语音并不自然。
作为一种连续改变语音的特定语调的技术,日本专利公开No.9-244693提出了一种语音变态方法。但是,使用这种方法,只能对音调模式进行内插。
另外,使用这些方法,当要连续改变输入文本中由标记限定的部分的合成语音时,必须充分地分配标记,以改变合成语音的各点。这样,标记操作很麻烦,因而只能获得离散的变化。
发明内容
本发明的提出就是为了解决上述传统中的问题,目的在于连续和容易地改变所需范围内的合成语音的特征。
为了实现上述目的,本发明的语音合成方法的特征在于以下方案。也就是,提供了一种用于合成语音波形的语音合成方法,以在输出对应于输入的文本的合成语音时,连续地改变包括在输入的文本中、被分配了预定标识符的范围的合成语音的特征,该方法的特征在于包括:
设置步骤,使用预定的包括属性信息的标识符设置要输出的文本的所需范围,在该范围中的合成语音的特征要被连续地改变,所述属性信息表示合成语音的所述特征的变化模式;识别步骤,从带有在所述设置步骤设置的标识符的文本识别所述预定标识符以及包含在该预定标识符中的属性信息的类型;以及语音合成步骤,根据所述识别步骤的识别结果,对带有所述标识符的文本在所需范围内的文本所对应的合成语音进行内插,从而根据包含在所述预定标识符中的属性信息合成具有连续变化的合成语音特征的语音波形。
在一个优选实施例中,包含在所述预定标识符中的所述属性信息表示在所述标识符设置的所述范围的开始位置处,合成语音的特征的变化模式,以及在结束位置处合成语音的特征的变化模式。
例如,由所述属性信息表示的合成语音的特征的变化模式是下述中的至少一个:音量的变化,发话者的变化,输出设备的变化,发话者数目的变化,情绪的变化,语速的变化,以及基频的变化。
例如,语音合成步骤包括下述步骤:基于预定标识符所包含的与标识符设置的范围的开始和结束位置相关的属性信息,以及所述开始位置之前合成语音的特征的模式,产生所需范围内文本所对应的合成语音。
更具体地说,所述语音合成步骤最好包括下述步骤:
根据被设置为与开始位置和结束位置相关的属性信息的表示语速的值与表示所述开始位置之前的语速的值的比,产生与所需范围内的文本对应的合成语音,或者:
根据被设置为与开始位置和结束位置相关的属性信息的表示音量的值与表示所述开始位置之前的音量的值的比,产生与所需范围内的文本对应的合成语音。
或者,为了达到上述目的,提供了一种用于语音合成的文本结构,其中,分配预定的标识符,以改变要通过语音合成输出的文本的所需范围的合成语音的特征,其特征在于所述预定标识符包含表示连续改变所述合成语音特征时的变化模式的属性信息。
注意,上述目的还可以由对应于具有上述方案的语音合成方法的语音合成设备实现。另外,上述目的还可以由使得计算机实现具有上述结构的语音合成方法或者设备的程序代码实现,或者由存储所述程序代码的计算机可读存储介质实现。
结合附图阅读下面的说明可以知道本发明的其它特征和优点。在附图中,相同的附图标记表示相同或者类似的部件。
附图说明
附图构成说明书的一部分,用于图示本发明的实施例,并与说明书一起用来说明本发明的原理。
图1是第一实施例的语音合成设备的框图;
图2是被赋予文本的标记的示例;
图3A和3B是表示第一实施例的语音合成设备的控制过程的流程图;
图4的曲线图用于解释在输出合成语音时对语速进行内插的一个例子;
图5的曲线图用于解释在输出合成语音时对音量进行内插的一个例子;
图6的曲线图用于解释在输出合成语音时对发话者数量进行内插的一个例子;
图7是第二实施例中被分配了文本的标记的示例;
图8是第三实施例中被分配了文本的标记的示例;
图9是表示第三实施例的语音合成设备的控制过程的流程图;
图10是第四实施例中被分配了文本的标记的示例;
图11是第五实施例中被分配了文本的标记的示例;
图12是表示第五实施例的语音合成设备的控制过程的流程图;
图13是第六实施例中被分配了文本的标记的示例;
具体实施方式
下面结合附图详细描述本发明的优选实施例。
(第一实施例)
下面结合图1简要说明根据本实施例的语音合成设备的结构。
图1是第一实施例的语音合成设备的框图。作为可以采用的硬件,可以使用通用信息处理设备比如个人计算机或者类似设备。
见图1,该设备包括用于产生文本体的文本产生模块101,以及通过在该文本的所需位置插入预定标记来产生被标记文本103的标记产生模块102,与要作为语音被输出的被标记文本的产生相关联,该标记产生模块还产生这些标记中的属性。该文本产生模块101基于各种信息源比如邮件消息、新闻文章、杂志、印刷书籍等来产生文本。在这种情况下,用于写入标记和文本的编辑软件没有特别的限制。
注意,所谓“模块”指的是由本实施例的语音合成设备的硬件执行的软件程序的功能单元。
注意,所述文本产生模块101和标记产生模块102既可以是语音合成设备本身的外部模块,也可以是其内部模块。
被标记文本103通过通信线路或者便携式存储介质(CD-R或者类似设备)被输入到文本输入模块104中。被输入到所述文本输入模块104的被标记文本103的文本部分由文本分析模块105加以分析,其标记部分由标记分析模块106加以分析。另外,在本实施例中,由标记属性分析模块107对包含在标记中的属性信息加以分析(详述见后)。
语言处理模块108参考预先存储了语言信息的语言词典110处理输出语音所需的语言信息(例如重音或者类似信息)。语言合成模块109参考预先存储了语调音素(prosodic phoneme)或者类似信息的语调模型/波形词典111,产生表示要实际输出的语音的合成波形,并基于所述合成波形从扬声器(未图示)输出合成语音。
下面描述本实施例的特征结构。
所述标记产生模块102在文本产生模块101产生的文本中插入预定标记和属性。在这个例子中,标记可以插入到用户选择的位置,并可以被分配给合成语音的特征需要象图像处理中的所谓变态(变形,过渡,morphing)那样平滑变化的部分。在每一个标记中,可以写入称为属性的附加信息(属性信息)。更具体地,可以将预定标记“<morphing...>”和“</morphing>”分配给文本(其中排列字符和单词)的合成语音特征需要平滑变化的部分的开始点和结束点,并在每一个标记中写入属性信息,所述属性信息表示要连续改变合成语音特征的对象,换句话说,是写入连续改变所述合成语音特征时的变化模式。
在本实施例中,合成语音特征的变化不仅包括语音的所谓语调,还包括发话者、发话者数量、情绪等。
注意,用户在生成文本时写入属性信息。还有,用户设置标记和标记中的各种属性。注意,标记或者属性值也可以由多功能编辑器等自动地或者半自动地设置。
嵌在每一个标记中的属性信息是表示合成语音特征的,与例如音量、发话者、输出设备、发话者数量、情绪、语速、基频等相关的信息。另外,也可以使用在输出合成语音时可以连续变化(在本实施例中称为“变态”(morphing))的其它事项。设置在文本中的开始点和结束点标记可以具有相同或者不同的属性信息种类。当开始点和结束点具有相同的属性信息时,在实际输出合成语音时,根据开始点标记设置的属性信息输出语音,不改变与该属性信息相关的任何合成语音特征。
如果属性是音量,则嵌在每一标记中的属性信息对应的值是一个数字值。如果属性是发话者,则可以指定男性或者女性,或者发话者的标识号(ID)。
图2图示了被分配给文本的标记的一个例子。在该例子中,要连续改变合成语音特征的范围对应于开始标记″<morphing...>″和结束标记″</morphing>″所限定的范围。开始标记″<morphing...>″中的属性描述作为要连续改变合成语音特征的对象的情绪(emotion),在开始点(start)的情绪(happy),以及在结束点(end)的情绪(angry)。这样,当实际输出该文本的合成语音时,当说出所述标记限定的句子时,输出的语音逐渐从愉快(happy)的语音变化到愤怒(angry)的语音。
本实施例的语音合成设备的文本输入模块104接收如上所述被分配了标记的被标记文本103,所述文本分析模块105根据输入的被标记文本103的格式和文本标题字段(header field)中的信息获取与文本的类型、内容等相关的信息。
所述标记分析模块106确定嵌在输入的被标记文本103中的标记的类型。标记属性分析模块107分析在标记中描述的属性和属性值。
所述语言处理模块108和语音合成模块109基于所述标记属性分析模块107获取的属性值,将从所述语调模型/波形词典111读出的数据处理为对应于所述文本分析模块105所分析的文本的音素,从而产生要输出的语音波形,并根据该语音波形输出合成语音(注意,基于属性值的处理在下面描述)。
下面结合图3A和图3B说明用标记分析模块106提取″<morphing>...</morphing>″标记中的属性值的方法。
图3A和图3B是表示第一实施例的语音合成设备的控制过程的流程图,也就是要由该设备的CPU(未图示)执行的处理的序列。
现在看图3A和图3B。由文本分析模块105、标记分析模块106和标记属性分析模块107对文本输入模块104输入的被标记文本103进行文本分析、标记分析和标记属性分析(步骤S301到S303)。
检查开始标记″<morphing...>″是否包括对象以及开始和结束点(步骤S304)。首先检查是否包括要变态(be morphed)的属性值。如果没有找到要变态的属性值,则根据在该标记之前朗读句子的语音来朗读由所述开始和结束标记限定的字符和单词(步骤S305)。相反,如果找到了要变态的属性值,则检查是否找到了开始和结束点的任一属性(步骤S306)。如果开始和结束点都没有属性,则使用一种根据要变态的默认属性值的合成音调读出由所述开始和结束标记限定的字符和单词(步骤S307)。所述要变态的默认属性值是预先设置的。另一方面,如果开始或者结束点具有属性值,则检查是否是开始点的属性值(步骤S308)。如果不是开始点的属性值,则检查结束点的属性值和要被变态的属性值是否匹配,从而判断它们是否有效(匹配)(步骤S309)。如果两个值匹配,则使用结束点的属性值(步骤S311)。在步骤S309,例如,如果要被变态的对象是音量,则检查结束点的属性值是否是音量值,如果匹配的话,则基于结束点的信息读出开始标记和结束标记所限定的字符和单词;如果不匹配,则用与对象的属性值对应的预先准备的默认合成音调来读出开始和结束标记所限定的字符和单词(步骤S310)。
如果在步骤S308判定开始点具有一个属性值,并且结束点没有属性值,则根据开始点的属性值读出文本(步骤S312,步骤S315)。在这种情况下,类似地检查对象的有效性,如果两个值匹配,则根据开始点的属性值读出文本(步骤S313,步骤S314)。
如果开始点和结束点都有属性值,并且它们针对对象的值是有效的(匹配),则基于所述属性值进行内插之后输出合成音调(步骤S316,S320)。也就是,如果对象是音量,则仅当开始点和结束点都采用了音量值时才判定开始点和结束点的属性值是有效的。例如,如果开始点和结束点的属性值不同(例如,开始点是音量值,结束点是情绪),则使用与对象匹配的属性值(步骤S317,步骤S319)。如果开始和结束点的属性值不同,并且也不同于要变态的对象,则用对应于对象的属性值的默认合成音调读出由所述开始和结束标记所限定的字符和单词(步骤S318)。当被检查的标记具有不同的属性值时,语音输出的优先顺序是″对象(object)″>″开始点(start point)″>″结束点(end point)″。
下面结合图4描述基于属性值进行的作为语音生成的序列的内插。
图4是一个曲线图,用于解释对输出合成语音时的语速进行内插的例子。
作为内插方法的一种例子,当要对语速进行内插时,根据要输出的文本计算输出全文本(图4中的a,i,u,e)的波形所需的时间,还计算构成该文本的各音素的时间长度t。在本实施例中,由于预先在语调模型/波形词典111中登记了标准语音模型和语音波形,可以通过计算从所述语调模型/波形词典111读出的合成语音的输出所需的各音素(图4中的a,i,u,e)的时间长度t的和,来计算要输出的全文本的波形的输出所需的时间。
然后,计算被设置为开始和结束点的属性值的值和当前语速之间的比r。在这种情况下,如果被设置为开始点和结束点的属性值的值等于当前速度,由于r=1,就不需要进行该内插过程。
基于计算出的比值,通过“内插值=t×r”来计算每一个音素的内插函数。通过根据计算出的内插值来缩短或者延迟波形的时间长度来改变语速。或者,可以进行一个改变与每一个音素的特定特征部分对应的时间长度的过程。
在进行音量的内插时,象在语速的内插中一样,根据该文本使用构成要输出的文本(图5中的a,i,u,e)的各音素的时间长度t。然后,计算被设置为开始和结束点的属性值的值和当前音量之间的比r’。
图5是用于解释输出合成语音时音量的内插的曲线图。在图5中,用“内插值=f×r’”来计算内插函数。注意,f是从音素/波形词典111获得的合成语音波形的幅度。
根据计算出来的内插值,减小或者扩展幅度f。也可以不改变幅度,采用直接改变输出硬件的音量的方法。同样的方法适用于基频。
另外,通过对情绪或者发声风格进行内插,可以对被设置为要输出的文本的开始和结束点的属性值的值所对应的语音合成数据进行内插,从而产生合成语音。
例如,在一种基于波形编辑方法比如PSOLA或者类似方法的语音合成方法中,对于所需的持续时间长度和基频,对语音波形词典中对应于在要输出的文本的开始点设置的情绪的语音片断,以及语音波形词典中对应于在结束点位置设置的情绪的语音片断,进行PSOLA处理,从而根据以与音量相同的方式获得的内插函数,对所述语音波形片断或者合成语音波形进行内插。
另外,在基于参数分析合成方法比如对数倒频谱(cepstrum)等的语音合成方法中,对从语音波形词典获得的对应于在要输出的文本的开始位置设置的情绪的参数序列,以及从语音波形词典获得的对应于在结束位置设置的情绪的参数序列,进行内插以产生一个参数,用该参数产生对应于所需的持续时间长度和基频的合成语音。
另外,比如在从男声到女声的变化中,可以用类似的方法在发话者之间进行内插。另外,当输出设备包括立体声扬声器时,输出可以从左扬声器连续变化到右扬声器。或者,当输出设备包括耳机和外部扬声器时,输出可以从耳机连续变化到外部扬声器。
在对发话者数量(说话的人的数量)进行内插时,计算如图6所示的内插函数。
图6是用于解释在输出合成语音时对发话者数量进行内插的例子。在图6所示的例子中,实施了从一个发话者到五个发话者的变化。在这个例子中,从要输出的文本获得波形的持续时间被分为五段。每当过去一个分割的时间段时,发话者数量就增加一个,并基于图6所示的内插函数(一个在0和1之间变化的函数)改变合成音调的音量。另外,对波形电平(波形声平,waveform level)进行归一化,以防止幅度超过预定值。
注意,发话者添加的顺序可以是预定顺序或者随机顺序。
在本实施例中,根据执行上述各种内插处理而得到的语音波形输出合成语音。这样,与传统的语音合成设备(其中,合成语音的特征的变化是离散的)相比,可以实现自然的合成语音,也就是,其合成语音特征是连续变化的。
(第二实施例)
下面描述上述第一实施例的语音合成设备的第二实施例。在下面的说明中,对与第一实施例中相同的部件的重复描述被省略了,只是主要描述本实施例的不一样的特征。
在本实施例中,除了与第一实施例一样的两个标记″<morphing...>″和″</morphing>”之外,被包含在被标记文本103中的预定标记采用一种标记嵌套结构,如图7所示,从而设置多个要变化的对象。使用这种嵌套结构,可以实现改变多个对象的语音合成变态。也就是,在图7所示的例子中,要作为合成语音输出的文本发声时的合成语音特征一开始是大音量的愉快的语调,然后变为愤怒的语调,同时音量比最初变小了。
由于其它方面与第一实施例是一样的,因此省略了重复的说明。
根据具有上述方案的本实施例,可以连续而容易地改变要输出的文本的所需范围的合成语音特征。
(第三实施例)
下面描述基于上述第一实施例的语音合成设备的第三实施例。在下面的说明中,对与第一实施例中相同的部件的重复描述被省略了,只是主要描述本实施例的不一样的特征。
在上述第一和第二实施例中,包含在开始标记″<morphing...>”中的属性信息描述要连续改变合成语音特征的对象,以及该对象的开始和结束点的属性值。相反,在第三实施例中,开始标记″<morphing...>″描述要在开始和结束点变化的对象的标签(label)。
图8图示了第三实施例中被分配给文本的标记的一个例子,被标记限定的文本本身与图7所示的第二实施例是一样的。在本实施例中,要改变的对象是情绪(emotion)。这样,开始和结束点描绘了要被改变的对象的标签″emotionstart″和″emotionend″。由于第三实施例的语音合成设备的结构与第一实施例是一样的,因此省略了重复的说明。下面描述第一和第三实施例之间的区别。
与第一实施例中一样,文本分析模块105基于文本的格式和标题信息分析输入的被标记文本103的类型、内容等,从而获得与它们相关的信息。标记分析模块105判断嵌在文本中的标记的类型。标记属性分析模块107分析所述标记中描述的属性和属性值。在本实施例中,只分析开始点和结束点,所述标记属性分析模块107检查开始和结束点的对象。语音合成模块109基于标记属性分析模块107获得的属性值进行内插,根据作为内插的结果获得的语音波形产生对应于文本内容的合成语音。
由于嵌在每一个标记中的属性信息具有与第一实施例相同的结构,省略其重复说明。下面说明第一和第三实施例之间的区别。这就是,在描述作为合成语音特征要连续变化的对象的情绪(emotion)、开始点(start)的情绪和结束点(end)的情绪时,开始点被分配一个要变化的对象的标签″emotionstart″,结束点被分配一个要变化的对象的标签“emotionend″。在本实施例中,由于,与标签格式的这种变化相应,排除过程部分地不同,下面结合图9来说明这种差异。
图9的流程图图解了第三实施例中的语音合成设备的控制过程,也就是由该设备的CPU(未图示)执行的过程序列。
见图9,由文本分析模块105、标记分析模块106和标记属性分析模块107对文本输入模块104输入的被标记文本103进行文本分析、标记分析和标记属性分析(步骤S901到S903)。
检查开始标记″<morphing...>″是否包括开始和结束点。检查是否开始点或者结束点具有属性(步骤S904)。如果开始点和结束点都没有属性值,则根据在该标记之前朗读句子的语音来朗读文本(步骤S905)。然后检查开始点是否具有属性值,如果开始点没有属性值,则使用结束点的属性值(步骤S906,S907)。相反,如果开始点具有属性值而结束点没有属性值,则根据开始点的属性值读出文本(步骤S908,S909)。如果开始点和结束点都有属性值,并且它们不是不相同,则基于这些属性值进行内插,输出合成语音(步骤S910,S912)。
作为开始点和结束点的属性值,如果要连续改变合成语音特征的对象是音量,则开始点和结束点都应采用音量值。如果开始点和结束点的属性值的类型不同(例如开始点是音量值,结束点是情绪),则使用开始点的属性值(步骤S911)。当标记具有错误的属性值时,语音输出的优先顺序是:开始点的指定>结束点的指定。
由于其它方面与第一实施例是一样的,因此省略了重复的说明。
根据具有上述方案的本实施例,可以连续而容易地改变要输出的文本的所需范围的合成语音特征。
(第四实施例)
下面描述基于上述第一实施例的语音合成设备的第四实施例。在下面的说明中,对与第一实施例中相同的部件的重复描述被省略了,只是主要描述本实施例的不一样的特征。
在第一到第三实施例中,变态的变化是恒定的,也就是,取决于变态算法本身的变化率。但是,第四实施例的特征在于也可以添加用于变态变化的属性。图10图示了该例子。
图10图示了第四实施例中被分配给文本的标记的例子。在该实施例中,在开始标记″<morphing...>″中的属性中还设置用于变态的变化率的属性信息。作为表示变态的变化率的属性值,在“function(函数)”中设置在变化中使用的函数类型,比如线性(linear)、非线性(non-linear)算法等。
在本实施例中,在分析标记时,标记属性分析模块107不仅分析对象和开始点、结束点,而且根据表示变态的变化率的属性值分析变态变化的属性。作为分析的结果,如果在“function”字段中描述了属性值比如线性、非线性算法等,则根据该属性值给出的变化率进行内插,并根据内插获得的合成波形输出合成语音。另一方面,如果没有描述该属性值,则根据由变态算法(morphing algorithm)预先确定的变化方法进行内插。
由于其它方面与第一实施例是一样的,因此省略了重复的说明。
根据具有上述方案的本实施例,可以连续而容易地改变要输出的文本的所需范围的合成语音特征。
(第五实施例)
下面描述基于上述第一实施例的语音合成设备的第五实施例。在下面的说明中,对与第一实施例中相同的部件的重复描述被省略了,只是主要描述本实施例的不一样的特征。
在第一到第三实施例中,变态的变化是恒定的,也就是,取决于变态算法本身的变化率。但是,第五实施例的特征在于也可以在标记中单独地添加用于变态变化的属性。图11图示了该例子。
图11图示了第五实施例中被分配给文本的标记的例子。在该实施例中,在由″<morphing...>...</morphing>”标记限定的文本中进一步插入用于变态变化的中间标记。
在本实施例中,在分析标记时,标记分析模块106不仅分析″<morphing>″标记,而且分析产生变态变化的中间标记。中间标记使用诸如″<rate value=“*.*”/>”之类的标记,在“value(值)”属性字段中描述从0到1的变化率。然后,将这样的中间标记单独地嵌入合成语音特征要连续变化的文本中的所需位置。这样,在内插之后实际输出合成语音时,合成语音的特征可以有更复杂的变化,如图12所示。
需要注意的是,插有标记比如″<rate value=″*.*″/>″的每一部分的顺序之所以如图11所示,是因为在从原始日本申请翻译为英文的PCT申请时,日文和英文之间的词序不同。因此图12中的曲线图也是按照图11的方式安排的,以便清楚而适当地解释本发明。
当也指定了在第四实施例中使用的用于变态变化的函数“function”时,早先指定的函数被用作从给定的″<rate/>″标记到下一个″<rate/>″标记的内插函数。
由于其它方面与第一实施例是一样的,因此省略了重复的说明。
根据具有上述方案的本实施例,可以连续而容易地改变要输出的文本的所需范围的合成语音特征。
(第六实施例)
下面描述基于上述第一实施例的语音合成设备的第六实施例。在下面的说明中,对与第一实施例中相同的部件的重复描述被省略了,只是主要描述本实施例的不一样的特征。
在前述各实施例中,开始点和结束点的属性值是在开始标记″<morphing...>″中设置的。但是,在本实施例中,结束点的属性值在标记的结束部分设置,如图13所示。
图13图示了第六实施例中被分配给文本的标记的一个例子。
在第一实施例的标记结构中,描述了″<morphing type=″emotion″start=″happy″>″,作为开始标记″<morphing...>″中的开始点和对象的属性,并在结束标记中描述结束点的属性,比如″</morphing end=″angry″>″。相反,在本实施例中,在开始标记中描述″<morphing emotionstart=″happy″>″,在结束标记中描述″</morphing emotionend=″angry″>″。当在本实施例中指定第四实施例的内插函数时,在开始标记中对其进行描述。
由于其它方面与第一实施例是一样的,因此省略了重复的说明。
根据具有上述方案的本实施例,可以连续而容易地改变要输出的文本的所需范围的合成语音特征。
(第七实施例)
下面描述基于上述第一实施例的语音合成设备的第六实施例。在下面的说明中,对与第一实施例中相同的部件的重复描述被省略了,只是主要描述本实施例的不一样的特征。
在本实施例中,如果标记中的开始点和结束点的属性相互不同,则判定出错,禁止随后的处理,这与上述其它实施例不同。
下面以第一实施例的标记结构作为例子。也就是,如果“start”和“end”的属性相互不同,比如″<morphing type=″emotion″start=″happy″end=10”>”,则判定出错,不进行处理。
如果开始点和结束点都没有属性或者如果开始点和结束点之一没有属性,则执行与第一实施例相同的处理。在第三实施例中,如果开始点和结束点都没有属性或者如果开始点和结束点之一没有属性,则执行与第三实施例相同的处理。
由于其它方面与第五实施例是一样的,因此省略了重复的说明。
根据具有上述方案的本实施例,可以连续而容易地改变要输出的文本的所需范围的合成语音特征。
(第八实施例)
下面描述基于上述第一实施例的语音合成设备的第八实施例。在下面的说明中,对与第一实施例中相同的部件的重复描述被省略了,只是主要描述本实施例的不一样的特征。
在前述各实施例中,即使在要被设置在标记中的多个属性信息中的至少一个没有被找到时,也输出合成语音。但是,在本实施例中,当开始点和结束点的属性相互不同时,以及当开始点和结束点的属性与对象的属性不同时,判定出错,不进行处理。
由于其它方面与第一到第七实施例是一样的,因此省略了重复的说明。
根据具有上述方案的本实施例,可以连续而容易地改变要输出的文本的所需范围的合成语音特征。
因此,根据前述各实施例,通过用标记限定输入文本的要被输出的所需范围,能够在输出合成语音时象在变态(morphing)中那样连续地改变合成语音的特征,从而,与产生离散的语音的现有技术不同,对于听者来说,可以实现自然的文本到语音的转换功能。
(其它实施例)
上面已经描述了本发明的优选实施例。本发明可以应用于由多个设备构成的系统或者由单个装置构成的设备。
注意,本发明包括这样的情况:通过向系统或者设备直接或者远程地提供实现前述各实施例的功能的软件程序,并由该系统或者设备的计算机读出和执行所提供的程序代码,从而实现本发明。在这种情况下,只要具有程序的功能,形式上不限于程序。
因此,安装在计算机中的用以使用计算机实现本发明的功能过程的程序代码本身实现本发明。也就是,本发明的权利要求包括用以实现本发明的功能处理的计算机程序本身。
在这种情况下,所述程序的形式没有限制,只要具有程序功能,可以使用目标代码、由解释器执行的程序、要提供给OS的脚本数据,等等。
作为提供所述程序的记录介质,例如,可以使用软盘、硬盘、光盘、磁光盘、MO、CD-ROM、CD-R、CD-RW、磁带、非易失性存储卡、ROM、DVD(DVD-ROM,DVD-R)等等。
作为另一种程序提供方法,可以以下述方式提供所述程序:用客户计算机上的浏览器建立到因特网上的主页的连接,从所述主页将本发明的计算机程序本身或者包含自动安装功能的压缩文件下载到记录介质比如硬盘等上。
另外,构成本发明的程序的程序代码可以被分割为多个文件,这些文件可以从不同的主页下载。也就是,本发明的权利要求包括使得多个用户能够下载由计算机实现本发明的功能处理所需的程序文件的WWW(万维网)服务器。
另外,还可以将存储本发明的加密程序的存储介质比如CD-ROM等发送给用户,完成了预定条件的用户可以通过因特网从主页下载用来将所述程序解密的密钥信息,可以使用所述密钥信息执行所述加密程序以安装到计算机上,从而实现本发明。
上述各实施例的功能不仅可以由计算机执行读出的程序代码来实现,而且可以基于所述程序的指令,由在计算机上运行的OS等执行部分或者全部实际处理操作。
另外,还可以在将从所述记录介质读出的程序写入插入或者连接到计算机的功能扩展板或者功能扩展单元的存储器中之后,由功能扩展板或者功能扩展单元中设置的CPU等执行部分或者全部实际处理,以实现前述各实施例的功能。
如上所述,根据上述各实施例,可以连续而容易地改变要输出的文本的所需范围的合成语音特征。
由于可以做出本发明的许多范围广泛的不同实施例而不脱离本发明的实质精神和范围,应当理解,本发明不限于这里的特定实施例,而应由所附权利要求限定其范围。
Claims (10)
1.一种用于合成语音波形的语音合成方法,用以在输出对应于输入的文本的合成语音时,连续地改变被包括在输入的文本中、被分配了预定标识符的范围的合成语音的特征,该方法的特征在于包括:
设置步骤,使用预定的包括属性信息的标识符设置要输出的文本的所需范围,在该范围中的合成语音的特征要被连续地改变,所述属性信息表示合成语音的所述特征的变化模式;
识别步骤,从带有在所述设置步骤设置的标识符的文本识别所述预定标识符以及包含在该预定标识符中的属性信息的类型;以及
语音合成步骤,根据所述识别步骤的识别结果,对带有所述标识符的文本的所需范围内的文本所对应的合成语音进行内插,从而根据包含在所述预定标识符中的属性信息合成具有连续变化的合成语音特征的语音波形。
2.如权利要求1所述的语音合成方法,其特征在于,包含在所述预定标识符中的所述属性信息表示在所述标识符设置的所述范围的开始位置处,合成语音的特征的变化模式,以及在结束位置处合成语音的特征的变化模式。
3.如权利要求1所述的语音合成方法,其特征在于,由所述属性信息表示的合成语音的特征的变化模式是下述中的至少一个:音量的变化,发话者的变化,输出设备的变化,发话者数目的变化,情绪的变化,语速的变化,以及基频的变化。
4.如权利要求1所述的语音合成方法,其特征在于所述语音合成步骤包括下述步骤:
基于预定标识符所包含的与标识符设置的范围的开始和结束位置相关的属性信息,以及所述开始位置之前合成语音的特征的模式,产生所需范围内文本所对应的合成语音。
5.如权利要求4所述的语音合成方法,其特征在于所述语音合成步骤包括下述步骤:
根据被设置为与开始位置和结束位置相关的属性信息的表示语速的值与表示所述开始位置之前的语速的值的比,产生与所需范围内的文本对应的合成语音。
6.如权利要求4所述的语音合成方法,其特征在于所述语音合成步骤包括下述步骤:
根据被设置为与开始位置和结束位置相关的属性信息的表示音量的值与表示所述开始位置之前的音量的值的比,产生与所需范围内的文本对应的合成语音。
7.一种用于合成语音波形的语音合成设备,用以在输出对应于输入的文本的合成语音时,连续地改变被包括在输入的文本中、被分配了预定标识符的范围的合成语音的特征,该设备的特征在于包括:
识别装置,从带有标识符的文本识别所述预定标识符以及包含在该预定标识符中的属性信息的类型,所述预定标识符表示要连续改变合成语音的特征的所需范围,并包含表示所述合成语音特征的变化模式的属性信息;以及
语音合成装置,根据所述识别装置的识别结果,对带有所述标识符的文本的所需范围内的文本所对应的合成语音进行内插,从而根据包含在所述预定标识符中的属性信息合成具有连续变化的合成语音特征的语音波形。
8.一种用于语音合成的文本结构,其中,分配预定的标识符,以改变要通过语音合成输出的文本的所需范围的合成语音的特征,其特征在于所述预定标识符包含表示连续改变所述合成语音特征时的变化模式的属性信息。
9.构成用于实现权利要求1到6之一所述的语音合成方法的操作命令的计算机程序。
10.一种指令计算机用作语音合成设备的计算机程序,所述语音合成设备用于合成语音波形,以在输出对应于输入的文本的合成语音时,改变被包括在输入的文本中、被分配了预定标识符的范围的合成语音的特征,其特征在于包括:
用于识别功能的程序代码,所述识别功能从带有标识符的文本识别所述预定标识符以及包含在该预定标识符中的属性信息的类型,所述预定标识符表示要连续改变合成语音的特征的所需范围,并包含表示所述合成语音特征的变化模式的属性信息;以及
语音合成功能的程序代码,所述语音合成功能根据所述识别功能的识别结果,对带有所述标识符的文本的所需范围内的文本所对应的合成语音进行内插,从而根据包含在所述预定标识符中的属性信息合成具有连续变化的合成语音特征的语音波形。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP100467/2002 | 2002-04-02 | ||
JP2002100467A JP2003295882A (ja) | 2002-04-02 | 2002-04-02 | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1643572A true CN1643572A (zh) | 2005-07-20 |
CN1269104C CN1269104C (zh) | 2006-08-09 |
Family
ID=29241389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB038061244A Expired - Fee Related CN1269104C (zh) | 2002-04-02 | 2003-04-02 | 语音合成方法和语音合成设备 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7487093B2 (zh) |
EP (1) | EP1490861B1 (zh) |
JP (1) | JP2003295882A (zh) |
KR (1) | KR100591655B1 (zh) |
CN (1) | CN1269104C (zh) |
AU (1) | AU2003226446A1 (zh) |
DE (1) | DE60325191D1 (zh) |
ES (1) | ES2316786T3 (zh) |
WO (1) | WO2003088208A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426838A (zh) * | 2011-08-24 | 2012-04-25 | 华为终端有限公司 | 语音信号处理方法和用户设备 |
CN101896803B (zh) * | 2007-12-12 | 2012-09-26 | 诺基亚公司 | 用于从源数据到音频/视频数据的语义媒体转换的方法、设备 |
CN101295504B (zh) * | 2007-04-28 | 2013-03-27 | 诺基亚公司 | 用于仅文本的应用的娱乐音频 |
CN108305611A (zh) * | 2017-06-27 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本转语音的方法、装置、存储介质和计算机设备 |
CN110138654A (zh) * | 2019-06-06 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
Families Citing this family (199)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CN1260704C (zh) * | 2003-09-29 | 2006-06-21 | 摩托罗拉公司 | 语音合成方法 |
CN1914666B (zh) * | 2004-01-27 | 2012-04-04 | 松下电器产业株式会社 | 声音合成装置 |
JP2005234337A (ja) * | 2004-02-20 | 2005-09-02 | Yamaha Corp | 音声合成装置、音声合成方法、及び音声合成プログラム |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP4720974B2 (ja) * | 2004-12-21 | 2011-07-13 | 株式会社国際電気通信基礎技術研究所 | 音声発生装置およびそのためのコンピュータプログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
WO2007138944A1 (ja) * | 2006-05-26 | 2007-12-06 | Nec Corporation | 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8990087B1 (en) * | 2008-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Providing text to speech from digital content on an electronic device |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
US8374881B2 (en) * | 2008-11-26 | 2013-02-12 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with dialog acts |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
JP5275102B2 (ja) * | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
GB0906470D0 (en) | 2009-04-15 | 2009-05-20 | Astex Therapeutics Ltd | New compounds |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8996384B2 (en) * | 2009-10-30 | 2015-03-31 | Vocollect, Inc. | Transforming components of a web page to voice prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8965768B2 (en) | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US8731932B2 (en) | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP5596649B2 (ja) | 2011-09-26 | 2014-09-24 | 株式会社東芝 | 文書マークアップ支援装置、方法、及びプログラム |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP2922054A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922055A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
JP6415929B2 (ja) | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10579742B1 (en) * | 2016-08-30 | 2020-03-03 | United Services Automobile Association (Usaa) | Biometric signal analysis for communication enhancement and transformation |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR20180055189A (ko) | 2016-11-16 | 2018-05-25 | 삼성전자주식회사 | 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11393451B1 (en) * | 2017-03-29 | 2022-07-19 | Amazon Technologies, Inc. | Linked content in voice user interface |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10600404B2 (en) * | 2017-11-29 | 2020-03-24 | Intel Corporation | Automatic speech imitation |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US10706347B2 (en) | 2018-09-17 | 2020-07-07 | Intel Corporation | Apparatus and methods for generating context-aware artificial intelligence characters |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN112349271A (zh) * | 2020-11-06 | 2021-02-09 | 北京乐学帮网络技术有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2628994B2 (ja) | 1987-04-10 | 1997-07-09 | 富士通株式会社 | 文−音声変換装置 |
JP3425996B2 (ja) | 1992-07-30 | 2003-07-14 | 株式会社リコー | ピッチパターン生成装置 |
JP3373933B2 (ja) | 1993-11-17 | 2003-02-04 | 三洋電機株式会社 | 話速変換装置 |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JP3559588B2 (ja) * | 1994-05-30 | 2004-09-02 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3548230B2 (ja) * | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3465734B2 (ja) * | 1995-09-26 | 2003-11-10 | 日本電信電話株式会社 | 音声信号変形接続方法 |
JPH09160582A (ja) | 1995-12-06 | 1997-06-20 | Fujitsu Ltd | 音声合成装置 |
JPH09244693A (ja) * | 1996-03-07 | 1997-09-19 | N T T Data Tsushin Kk | 音声合成方法及び装置 |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
JP3616250B2 (ja) * | 1997-05-21 | 2005-02-02 | 日本電信電話株式会社 | 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP2001282279A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP4054507B2 (ja) | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
JP4632384B2 (ja) | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
EP1160764A1 (en) * | 2000-06-02 | 2001-12-05 | Sony France S.A. | Morphological categories for voice synthesis |
JP2002132287A (ja) | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
DE60314929T2 (de) | 2002-02-15 | 2008-04-03 | Canon K.K. | Informationsverarbeitungsgerät und Verfahren mit Sprachsynthesefunktion |
US7546241B2 (en) | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
-
2002
- 2002-04-02 JP JP2002100467A patent/JP2003295882A/ja active Pending
-
2003
- 2003-04-02 WO PCT/JP2003/004231 patent/WO2003088208A1/en active IP Right Grant
- 2003-04-02 CN CNB038061244A patent/CN1269104C/zh not_active Expired - Fee Related
- 2003-04-02 KR KR1020047013129A patent/KR100591655B1/ko not_active IP Right Cessation
- 2003-04-02 AU AU2003226446A patent/AU2003226446A1/en not_active Abandoned
- 2003-04-02 EP EP03746418A patent/EP1490861B1/en not_active Expired - Lifetime
- 2003-04-02 DE DE60325191T patent/DE60325191D1/de not_active Expired - Lifetime
- 2003-04-02 ES ES03746418T patent/ES2316786T3/es not_active Expired - Lifetime
-
2004
- 2004-08-10 US US10/914,169 patent/US7487093B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295504B (zh) * | 2007-04-28 | 2013-03-27 | 诺基亚公司 | 用于仅文本的应用的娱乐音频 |
CN101896803B (zh) * | 2007-12-12 | 2012-09-26 | 诺基亚公司 | 用于从源数据到音频/视频数据的语义媒体转换的方法、设备 |
CN102426838A (zh) * | 2011-08-24 | 2012-04-25 | 华为终端有限公司 | 语音信号处理方法和用户设备 |
CN108305611A (zh) * | 2017-06-27 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本转语音的方法、装置、存储介质和计算机设备 |
CN110138654A (zh) * | 2019-06-06 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
KR100591655B1 (ko) | 2006-06-20 |
EP1490861B1 (en) | 2008-12-10 |
ES2316786T3 (es) | 2009-04-16 |
KR20040086432A (ko) | 2004-10-08 |
EP1490861A1 (en) | 2004-12-29 |
EP1490861A4 (en) | 2007-04-18 |
WO2003088208A1 (en) | 2003-10-23 |
US20050065795A1 (en) | 2005-03-24 |
US7487093B2 (en) | 2009-02-03 |
AU2003226446A1 (en) | 2003-10-27 |
JP2003295882A (ja) | 2003-10-15 |
DE60325191D1 (de) | 2009-01-22 |
CN1269104C (zh) | 2006-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1269104C (zh) | 语音合成方法和语音合成设备 | |
US8856008B2 (en) | Training and applying prosody models | |
US8326629B2 (en) | Dynamically changing voice attributes during speech synthesis based upon parameter differentiation for dialog contexts | |
CN112334973B (zh) | 用于创建基于对象的音频内容的方法和系统 | |
CN1783212A (zh) | 转换文本为语音的系统和方法 | |
CN101079301A (zh) | 文本映射到音频并动画文本的设备及方法 | |
CN101030368A (zh) | 在保持情感的同时跨通道进行通信的方法和系统 | |
CN1194336C (zh) | 波形产生方法 | |
US7792673B2 (en) | Method of generating a prosodic model for adjusting speech style and apparatus and method of synthesizing conversational speech using the same | |
CN101046956A (zh) | 交互式音效产生方法及系统 | |
CN103366731A (zh) | 语音合成方法及系统 | |
CN1254786C (zh) | 在语音合成系统中将提示音与文本语音合成输出的方法 | |
CN1461464A (zh) | 语言处理装置 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
CN1099165A (zh) | 基于波形编辑的汉语文字-语音转换方法及系统 | |
JP4409279B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP6289950B2 (ja) | 読み上げ装置、読み上げ方法及びプログラム | |
WO2021231050A1 (en) | Automatic audio content generation | |
CN1310209C (zh) | 语音和乐曲再生装置 | |
JP2006349787A (ja) | 音声合成方法および装置 | |
JP2002268664A (ja) | 音声変換装置及びプログラム | |
CN1629933A (zh) | 用于双语连接语音合成的声单元 | |
JP2003208191A (ja) | 音声合成システム | |
CN1622194A (zh) | 乐音·语音再现装置和乐音·语音再现方法 | |
JP2003241783A (ja) | 音声合成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060809 Termination date: 20170402 |