CN1584980A - 在语音合成系统中将提示音与文本语音合成输出的方法 - Google Patents

在语音合成系统中将提示音与文本语音合成输出的方法 Download PDF

Info

Publication number
CN1584980A
CN1584980A CNA200410045000XA CN200410045000A CN1584980A CN 1584980 A CN1584980 A CN 1584980A CN A200410045000X A CNA200410045000X A CN A200410045000XA CN 200410045000 A CN200410045000 A CN 200410045000A CN 1584980 A CN1584980 A CN 1584980A
Authority
CN
China
Prior art keywords
text
prompt tone
voice
synthesis
synthesis system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200410045000XA
Other languages
English (en)
Other versions
CN1254786C (zh
Inventor
严峻
于继栋
张贻武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV filed Critical ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority to CNB200410045000XA priority Critical patent/CN1254786C/zh
Publication of CN1584980A publication Critical patent/CN1584980A/zh
Application granted granted Critical
Publication of CN1254786C publication Critical patent/CN1254786C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种在语音合成系统中将提示音与文本语音合成输出的方法,包括先由用户向合成系统提供合成文本信息,合成系统经过文本分析和韵律分析,再调用音库中的发音单元,组合成连续的被合成文本语音数据,本发明特征是建立提示音库,在语音合成系统的用户开发接口设置提示音的合成参数,或者在合成文本中插入提示音CSSML标记;通过文本匹配或者CSSML标记的方式调用的提示音,与合成语音拼接,获得含有提示音的合成语音数据输出。提示音是合成系统的一种资源,用户可以将想要播放的提示音添加到提示音库中,实现了提示音的统一管理和处理。

Description

在语音合成系统中将提示音与文本语音合成输出的方法
技术领域
本发明涉及语音合成领域,具体是一种在使用计算机完成从文本到自然语音的转换过程中,管理和应用提示语音的方法。
背景技术
在IVR、呼叫中心等电话语音系统中,业务流程往往需要同时使用预录的提示音和合成语音。预录提示音采用真人录音,效果自然,并且能体现更多的情感风格,给用户以亲切感受。合成语音虽然清晰准确,但是在语气和情感方面还与真人录音存在一定的差距。在具体应用中,预录语音用于播报语音服务系统中相对固定的内容,通常是进系统的问候语和系统操作方法的提示。合成语音用于播报内容经常变化、信息量大、需要即时合成的文本。预录语音与合成语音结合,既可以满足电话语音服务中人性化的要求,又实现了动态信息的即时播报。
但是,目前的电话语音服务系统中,所应用的语音合成系统存在如下的问题:
第一,在系统集成过程中,通常要使用两套接口来分别调用和播放提示音和合成语音,在电话语音系统所提供的服务相对复杂的情况下,尤其是提示语音和合成语音交替出现,需要频繁切换的情况下,业务流程的编写就显得特别复杂,由此也增加了集成开发的工作量。
第二,提示语音一般使用语音文件的形式存放和管理,一条提示语音保存为一个语音文件,而且一般都需要从某种语音数据格式转化为指定的语音数据格式,文件数量众多,管理不便,匹配也困难,在转化的过程中很容易出错。
第三,由于提示音是预录语音,它与合成语音在能量等多个方面有不同的特征,因此,如果只是简单地拼接提示音和合成语音,会造成两段语音差别明显,在语音衔接处会出现跳音等现象,影响播报的整体效果。
另外,由于提示语音文件和合成语音文件都各自保存,电话语音系统中只有提示语音的声音文件,无法从文本角度完全显示整个服务流程及内容,也无法进行提示音、合成语音的拼接调整和优化处理。
发明的内容
本发明的目的就是提供一种在语音合成系统中将提示音与文本语音合成输出的方法。
一种在语音合成系统中将提示音与文本语音合成输出的方法,包括先由用户向合成系统提供合成文本信息,合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等),再调用音库中的发音单元,组合成连续的被合成文本语音数据,其特征是:建立提示音库,建立标识(序号或名称)与提示音内容相对应的提示音索引,在语音合成系统的资源管理中心中增加对对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等程序内容;在语音合成系统的用户开发接口提供的设置合成参数的函数中增加有关提示音的合成参数,采用文本匹配的方式,使语音合成系统自动比较合成文本与提示音库,搜索合成文本中与提示音文本相同的内容,并将合成文本与提示音文本完全相同的内容替换成相应的提示语音,其余文本仍使用合成语音;或者在合成文本中插入提示音CSSML标记,指定文本中需要使用的提示语音文件名称或者是提示语音的索引序号或名称,并调用提示音库中的相应的提示音,合成文本其它部分仍保持合成语音;通过上述文本匹配或者CSSML标记的方式调用的提示音,均是与合成语音按照一定的音量(能量)比例进行拼接,获得含有提示音的合成语音数据输出。
所述的将提示音与文本语音合成输出的方法,其特征在于提示音库的制作步骤如下:
(1)录音:用户根据自己的应用需要,人工预先录制常用的提示语音,并保存为语音文件;
(2)格式转换:用户将语音文件手工转化为线性PCM、Alaw或vox等合成系统可以识别的语音数据格式;
(3)采样率转换:合成系统根据用户已安装音库的采样率,把提示音转换成相同采样率的语音文件;
(4)能量调整:合成系统根据用户指定的参数,对提示语音进行能量的调整;
(5)语音数据压缩:合成系统将所有提示语音数据压缩成alaw格式;
(6)保存:合成系统将提示语音数据、提示音文本内容等信息按照一定的格式保存到提示音库中。
所述的将提示音与文本语音合成输出的方法,其特征在于采用CSSML标记方式调用提示音步骤如下:
(1)设置标记:在合成文本中按照文本标记语言规范的要求,使用CSSML标记插入提示音的信息,如提示语音的索引序号或名称;
(2)标记解析:合成系统解析CSSML标记文本,对提示音标记进行分析,得到其携带的信息;
(3)提取语音:合成系统根据CSSML标记携带的信息,从提示音音库中提取提示语音数据并解压为线性PCM格式;
(4)波形拼接:合成语音和提示音的语音进行能量比例的调整,使得波形拼接处声音频率与波形和缓;
(5)数据输出:合成系统输出符合要求的语音数据。
所述的将提示音与文本语音合成输出的方法,其特征在于文本匹配方式调用提示音步骤如下:
(1)参数设置:用户在语音合成系统中应用程序设置提示音的合成参数打开合成系统的提示音替换功能;
(2)文本匹配:合成系统将合成文本的内容和提示音文本的内容进行比较;
(3)文本替换:合成系统将合成文本和提示音文本的完全相同的内容替换成相应的提示音的标识(序号或名称);
(4)提取语音:合成系统根据提示音标识(序号或名称)从提示音音库中提取语音数据并解压;
(5)波形拼接:合成系统将合成语音与替换的提示音语音进行能量调整,使得波形拼接处声音频率与波形和缓;
(6)数据输出:合成系统输出符合要求的语音数据。
所述的将提示音与文本语音合成输出的方法,其特征在于资源管理中心的提示音用户界面中,提供了自动替换提示语音的功能,合成系统能在合成过程中搜索待合成的文本,当文本内容与提示语音的文本信息完全相同时,合成语音中将自动使用提示语音来完成对应文本的播报;“资源管理中心”的“提示语音”界面实现了提示语音资源的添加、删除和修改,以及设置提示音的相关属性的功能;“提示语音信息设置”界面实现了提示语音属性的设置与修改,这些属性包括提示语音名称、提示音索引序号、是否生效、提示音文本内容、匹配语音文件位置、语音文件格式;“提示语音信息设置”界面实现了提示语音试听和调节功能,界面中为用户提供合成语音的参考音量,以及提示音音量的调节工具,便于用户对比和调整,以获得最佳提示音效果;“合成演示程序”界面“高级参数设置”提供了是否开启提示音自动替换文本功能来控制提示音自动替换的功能,如果该参数打开,在语音合成过程中,系统将自动比较被合成文本与提示音资源,并将被合成文本中与提示音文本完全相同的内容替换成该提示语音。
发明的效果
本发明方法应用在InterPhonic CE3.0语音合成系统中,提示音是合成系统的一种资源,存放于系统的提示音库中。在使用合成系统前,需要将用户想要播放的提示音添加到提示音库中,然后就可以在合成系统中使用了。
InterPhonic CE 3.0语音合成系统实现了提示音的统一管理和处理的功能。
与其它电话语音系统中的提示音应用情况相比,本发明的优势显而易见:
首先,本发明使用统一的提示语音管理将IVR系统从原来的众多提示语音文件管理工作中解放出来,而由语音合成系统来进行更加合理的管理和共享;(通过语音合成服务器,多个IVR服务器中都可以使用添加的提示语音)。客户不需要额外的开发工作就可以提升同时使用两种语音的情况下播报的语音效果。
其次,使用语音合成系统提供的统一的开发接口,电话语音流程能更加侧重于业务流程的处理,而不用再处理预录语音和合成语音切换的细节工作,从而减小了集成工作的复杂性,提高了集成开发的效率;
第三,语音合成系统在管理提示语音的过程中,提供了工具帮助用户解决提示语音与合成语音能量不同的问题,在内部自动处理了语音格式转化的问题,在合成过程中还采用了算法保证提示语音和合成语音的自然过渡衔接;
最后,采用CSSML文本标记语言的方式或者是文本替换的方式,用户可以在合成文本的层面进行提示语音和合成语音的拼接处理,方便易用。
另外,本系统还提供面向行业的定制提示音库,满足不同行业提示音应用的需要。
术语解释
语音合成(Text-To-Speech):又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机能够产生高清晰度、高自然度的连续语音。
IVR:交互式语音应答(Interactive Voice Response),是呼叫中心系统结构中不可或缺的重要组成部分,它能为来话者提供相应的语音引导,并为其实现自动语音服务。
CSSML:即中文语音合成标记语言(Chinese Speech SynthesisMarkup Language),是针对中文语音合成的特点,由科大讯飞公司制定的中文语音合成标记规范,该规范是SSML v1.0规范的扩展,于2002年12月发布。本公司语音合成系统产品都把CSSML规范作为中文语音合成的支持标准,用户可以通过CSSML标记文本来指定文本的合成方式,这种方法能够规范化文本的合成方式、解决许多语音合成系统难以智能处理的问题。
附图说明
图1:在InterPhonic 3.0语音合成系统的资源管理中心提示音界面管理提示音资源。可以添加、删除提示音文件,设置提示音文本。
图2:在InterPhonic 3.0语音合成系统的提示音属性设置界面设置提示音属性和调节试听效果。
图3:在InterPhonic 3.0语音合成系统的合成演示程序界面中设置系统参数,确定是否启用提示语音。
图4:本发明的工作流程框图。
具体实施方式
一种在语音合成系统中将提示音与文本语音合成输出的方法,包括先由用户向合成系统提供合成文本信息,合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等),再调用音库中的发音单元,组合成连续的被合成文本语音数据,其特征是:建立提示音库,建立标识(序号或名称)与提示音内容相对应的提示音索引,在语音合成系统的资源管理中心中增加对对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等程序内容;在语音合成系统的用户开发接口提供的设置合成参数的函数(本例中采用为TtssetSyuthParam函数)中增加有关提示音的合成参数,采用文本匹配的方式,使语音合成系统自动比较合成文本与提示音库,搜索合成文本中与提示音文本相同的内容,并将合成文本与提示音文本完全相同的内容替换成相应的提示语音,其余文本仍使用合成语音;或者在合成文本中插入提示音CSSML标记,指定文本中需要使用的提示语音文件名称或者是提示语音的索引序号或名称,并调用提示音库中的相应的提示音,合成文本其它部分仍保持合成语音;通过上述文本匹配或者CSSML标记的方式调用的提示音,均是与合成语音按照一定的音量(能量)比例进行拼接,获得含有提示音的合成语音数据输出。
提示音库的制作步骤如下:
(1)录音:用户根据自己的应用需要,人工预先录制常用的提示语音,并保存为语音文件;
(2)格式转换:用户将语音文件手工转化为线性PCM、Alaw或vox等合成系统可以识别的语音数据格式;
(3)采样率转换:合成系统根据用户已安装音库的采样率,把提示音转换成相同采样率的语音文件;
(4)能量调整:合成系统根据用户指定的参数,对提示语音进行能量的调整;
(5)语音数据压缩:合成系统将所有提示语音数据压缩成alaw格式;
(6)保存:合成系统将提示语音数据、提示音文本内容等信息按照一定的格式保存到提示音库中。
采用CSSML标记方式调用提示音步骤如下:
(1)设置标记:在合成文本中按照文本标记语言规范的要求,使用CSSML标记插入提示音的信息,如提示语音的索引序号或名称;
(2)标记解析:合成系统解析CSSML标记文本,对提示音标记进行分析,得到其携带的信息;
(3)提取语音:合成系统根据CSSML标记携带的信息,从提示音音库中提取提示语音数据并解压为线性PCM格式;
(4)波形拼接:合成语音和提示音的语音进行能量比例的调整,使得波形拼接处声音频率与波形和缓;
(5)数据输出:合成系统输出符合要求的语音数据。
文本匹配方式调用提示音步骤如下:
(1)参数设置:用户在语音合成系统中应用程序设置提示音的合成参数打开合成系统的提示音替换功能;
(2)文本匹配:合成系统将合成文本的内容和提示音文本的内容进行比较;
(3)文本替换:合成系统将合成文本和提示音文本的完全相同的内容替换成相应的提示音的标识(序号或名称);
(4)提取语音:合成系统根据提示音标识(序号或名称)从提示音音库中提取语音数据并解压;
(5)波形拼接:合成系统将合成语音与替换的提示音语音进行能量调整,使得波形拼接处声音频率与波形和缓;
(6)数据输出:合成系统输出符合要求的语音数据。
本发明上述方法采用计算机软件形式,应用在InterPhonic CE3.0语音合成系统中,为用户提供一系列提示音应用和管理的用户界面,使提示音和合成语音的应用实现自然拼接,提高语音服务品质。
该合成系统目前支持的提示语音文件格式为:单声道量化比特为8/16位、采样率为6/8/11/16/22/44K的pcm和alaw数据格式,以及单声道6k/8k的vox数据格式。系统能够自动识别有头的语音文件格式,对于无头的语音文件,需要用户指定其格式。
以下对本发明的提示音界面进行描述。
■界面1(图1):在InterPhonic 3.0语音合成系统的资源管理中心提示音界面管理提示音资源。可以添加、删除提示音文件,设置提示音文本。
■界面2(图2):在InterPhonic 3.0语音合成系统的提示音属性设置界面设置提示音属性和调节试听效果。其中听音即提供提示音和我们合成语音的能量调整和拼接效果测听。
其中各项参数说明:
名称:当前所设置的提示语音标题,也即该提示语音文件的文件名。需要用户输入,长度不大于32个字符。
音库标识:选择匹配音库类型。
生效:表示当前所设置的提示语音是否立即启用。只有在生效的情况下,合成文本中才能使用提示语音。
文本内容:当前所设置的提示语音的文字内容。需要用户输入,长度不大于4K字符(注意:最后的字符不能是标点符号或空格)。语音文件:是指与当前所设置提示语音相匹配的预录语音文件的位置。
语音格式:当系统能够识别预录语音文件格式的时候,采样率选择框变灰;反之,则需要指定语音文件格式。格式说明:
PCM 6K8B1C:6k8bit单声道pcm数据
PCM 6K16B1C:6k16bit单声道pcm数据
PCM 8K8B1C:8k8bit单声道pcm数据
PCM 8K16B1C:8k16bit单声道pcm数据
以此类推;
ALAW 6K1C:6k单声道alaw数据
ALAW 8K1C:8k单声道alaw数据
ALAW 11K1C:11k单声道alaw数据
以此类推;
VOX6K1C:单声道6k的vox数据
VOX8K1C:单声道8k的vox数据
试听功能:单击“试听”按钮,可以试听当前正在设置的提示语音。
用户可以根据需要调整提示语音的音量大小。提示语音后面的女声“科大讯飞语音合成系统”是系统自动加入的合成语音,目的是帮助用户根据合成语音的音量调整提示语音的音量,使之更好地符合合成文本的整体风格。单击“停止”按钮结束试听。
■界面3(图3):在InterPhonic 3.0语音合成系统的合成演示程序界面中设置系统参数,确定是否启用提示语音。选择“禁用替换功能”,合成的语音文件中不出现提示语音,这是默认形式;选择“启用替换功能”,就是在合成的语音文件中应用提示音。在语音合成过程中,系统将自动比较被合成文本与提示音资源,并将被合成文本中与提示音文本完全相同的内容替换成该提示语音。另外,还可以使用CSSML标记替换被合成文本中指定位置的文字,方法是:用CSSML的audio标记,其src属性值指定为该提示音的名称,例如:
<CSSML version=″1.0″><speak><audio src=″name:帐户余额″>帐户余额</audio>:“当前余额:5907.15元”。<audio src=″name:帐户明细″/>“第一笔,2003年2月14日,存入6700.00元”</speak>
在合成文本中用CSSML标记引用背景音有三种形式:一是用提示音名称,如:
<audio src=″name:提示音名称″></environment>二是用提示音编号,如:
<audio src=″id:2″></environment>三是用提示音文件路径,如:
<audio src=″d:\欢迎词.wav″></environment>

Claims (5)

1、一种在语音合成系统中将提示音与文本语音合成输出的方法,包括先由用户向合成系统提供合成文本信息,合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等),再调用音库中的发音单元,组合成连续的被合成文本语音数据,其特征是:建立提示音库,建立标识(序号或名称)与提示音内容相对应的提示音索引,在语音合成系统的资源管理中心中增加对对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等程序内容;在语音合成系统的用户开发接口提供的设置合成参数的函数中增加有关提示音的合成参数,采用文本匹配的方式,使语音合成系统自动比较合成文本与提示音库,搜索合成文本中与提示音文本相同的内容,并将合成文本与提示音文本完全相同的内容替换成相应的提示语音,其余文本仍使用合成语音;或者在合成文本中插入提示音CSSML标记,指定文本中需要使用的提示语音文件名称或者是提示语音的索引序号或名称,并调用提示音库中的相应的提示音,合成文本其它部分仍保持合成语音;通过上述文本匹配或者CSSML标记的方式调用的提示音,均是与合成语音按照一定的音量(能量)比例进行拼接,获得含有提示音的合成语音数据输出。
2、如权利要求1所述的将提示音与文本语音合成输出的方法,其特征在于提示音库的制作步骤如下:
(1)录音:用户根据自己的应用需要,人工预先录制常用的提示语音,并保存为语音文件;
(2)格式转换:用户将语音文件手工转化为线性PCM、Alaw或vox等合成系统可以识别的语音数据格式;
(3)采样率转换:合成系统根据用户已安装音库的采样率,把提示音转换成相同采样率的语音文件;
(4)能量调整:合成系统根据用户指定的参数,对提示语音进行能量的调整;
(5)语音数据压缩:合成系统将所有提示语音数据压缩成alaw格式;
(6)保存:合成系统将提示语音数据、提示音文本内容等信息按照一定的格式保存到提示音库中。
3、如权利要求1所述的将提示音与文本语音合成输出的方法,其特征在于采用CSSML标记方式调用提示音步骤如下:
(1)设置标记:在合成文本中按照文本标记语言规范的要求,使用CSSML标记插入提示音的信息,如提示语音的索引序号或名称;
(2)标记解析:合成系统解析CSSML标记文本,对提示音标记进行分析,得到其携带的信息;
(3)提取语音:合成系统根据CSSML标记携带的信息,从提示音音库中提取提示语音数据并解压为线性PCM格式;
(4)波形拼接:合成语音和提示音的语音进行能量比例的调整,使得波形拼接处声音频率与波形和缓;
(5)数据输出:合成系统输出符合要求的语音数据。
4、如权利要求1所述的将提示音与文本语音合成输出的方法,其特征在于文本匹配方式调用提示音步骤如下:
(1)参数设置:用户在语音合成系统中应用程序设置提示音的合成参数打开合成系统的提示音替换功能;
(2)文本匹配:合成系统将合成文本的内容和提示音文本的内容进行比较;
(3)文本替换:合成系统将合成文本和提示音文本的完全相同的内容替换成相应的提示音的标识(序号或名称);
(4)提取语音:合成系统根据提示音标识(序号或名称)从提示音音库中提取语音数据并解压;
(5)波形拼接:合成系统将合成语音与替换的提示音语音进行能量调整,使得波形拼接处声音频率与波形和缓;
(6)数据输出:合成系统输出符合要求的语音数据。
5、如权利要求1所述的将提示音与文本语音合成输出的方法,其特征在于资源管理中心的提示音用户界面中,提供了自动替换提示语音的功能,合成系统能在合成过程中搜索待合成的文本,当文本内容与提示语音的文本信息完全相同时,合成语音中将自动使用提示语音来完成对应文本的播报;“资源管理中心”的“提示语音”界面实现了提示语音资源的添加、删除和修改,以及设置提示音的相关属性的功能;“提示语音信息设置”界面实现了提示语音属性的设置与修改,这些属性包括提示语音名称、提示音索引序号、是否生效、提示音文本内容、匹配语音文件位置、语音文件格式;“提示语音信息设置”界面实现了提示语音试听和调节功能,界面中为用户提供合成语音的参考音量,以及提示音音量的调节工具,便于用户对比和调整,以获得最佳提示音效果;“合成演示程序”界面“高级参数设置”提供了是否开启提示音自动替换文本功能来控制提示音自动替换的功能,如果该参数打开,在语音合成过程中,系统将自动比较被合成文本与提示音资源,并将被合成文本中与提示音文本完全相同的内容替换成该提示语音。
CNB200410045000XA 2004-06-01 2004-06-01 在语音合成系统中将提示音与文本语音合成输出的方法 Expired - Lifetime CN1254786C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200410045000XA CN1254786C (zh) 2004-06-01 2004-06-01 在语音合成系统中将提示音与文本语音合成输出的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200410045000XA CN1254786C (zh) 2004-06-01 2004-06-01 在语音合成系统中将提示音与文本语音合成输出的方法

Publications (2)

Publication Number Publication Date
CN1584980A true CN1584980A (zh) 2005-02-23
CN1254786C CN1254786C (zh) 2006-05-03

Family

ID=34601871

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200410045000XA Expired - Lifetime CN1254786C (zh) 2004-06-01 2004-06-01 在语音合成系统中将提示音与文本语音合成输出的方法

Country Status (1)

Country Link
CN (1) CN1254786C (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945692B (zh) * 2006-10-16 2010-05-12 安徽中科大讯飞信息科技有限公司 一种在语音合成系统中提升提示音匹配效果的智能方法
CN101033977B (zh) * 2007-04-18 2010-09-22 江苏华科导航科技有限公司 导航仪的语音导航方法
CN102572089A (zh) * 2010-12-31 2012-07-11 联想(北京)有限公司 一种修改移动终端提示音的方法和移动终端
CN103137124A (zh) * 2013-02-04 2013-06-05 武汉今视道电子信息科技有限公司 一种语音合成方法
CN106686135A (zh) * 2017-02-22 2017-05-17 北京南师信息技术有限公司 一种配药信息语音提示系统
CN108681529A (zh) * 2018-03-26 2018-10-19 山东科技大学 一种流程模型图的多语言文本及语音生成方法
CN109495636A (zh) * 2018-10-23 2019-03-19 慈中华 信息交互方法及装置
CN109584859A (zh) * 2018-11-07 2019-04-05 上海指旺信息科技有限公司 语音合成方法及装置
CN110517662A (zh) * 2019-07-12 2019-11-29 云知声智能科技股份有限公司 一种智能语音播报的方法及系统
CN110970011A (zh) * 2019-11-27 2020-04-07 腾讯科技(深圳)有限公司 图片处理方法、装置、设备及计算机可读存储介质
CN112289298A (zh) * 2020-09-30 2021-01-29 北京大米科技有限公司 合成语音的处理方法、装置、存储介质以及电子设备
CN113516962A (zh) * 2021-04-08 2021-10-19 Oppo广东移动通信有限公司 语音播报方法、装置、存储介质及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480159A (zh) * 2016-12-02 2017-12-15 广东小天才科技有限公司 一种语音数据的录入方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945692B (zh) * 2006-10-16 2010-05-12 安徽中科大讯飞信息科技有限公司 一种在语音合成系统中提升提示音匹配效果的智能方法
CN101033977B (zh) * 2007-04-18 2010-09-22 江苏华科导航科技有限公司 导航仪的语音导航方法
CN102572089A (zh) * 2010-12-31 2012-07-11 联想(北京)有限公司 一种修改移动终端提示音的方法和移动终端
CN102572089B (zh) * 2010-12-31 2015-01-28 联想(北京)有限公司 一种修改移动终端提示音的方法和移动终端
CN103137124A (zh) * 2013-02-04 2013-06-05 武汉今视道电子信息科技有限公司 一种语音合成方法
CN106686135A (zh) * 2017-02-22 2017-05-17 北京南师信息技术有限公司 一种配药信息语音提示系统
CN108681529B (zh) * 2018-03-26 2022-01-25 山东科技大学 一种流程模型图的多语言文本及语音生成方法
CN108681529A (zh) * 2018-03-26 2018-10-19 山东科技大学 一种流程模型图的多语言文本及语音生成方法
CN109495636A (zh) * 2018-10-23 2019-03-19 慈中华 信息交互方法及装置
US11315562B2 (en) 2018-10-23 2022-04-26 Zhonghua Ci Method and device for information interaction
CN109584859A (zh) * 2018-11-07 2019-04-05 上海指旺信息科技有限公司 语音合成方法及装置
CN110517662A (zh) * 2019-07-12 2019-11-29 云知声智能科技股份有限公司 一种智能语音播报的方法及系统
CN110970011A (zh) * 2019-11-27 2020-04-07 腾讯科技(深圳)有限公司 图片处理方法、装置、设备及计算机可读存储介质
CN112289298A (zh) * 2020-09-30 2021-01-29 北京大米科技有限公司 合成语音的处理方法、装置、存储介质以及电子设备
CN113516962A (zh) * 2021-04-08 2021-10-19 Oppo广东移动通信有限公司 语音播报方法、装置、存储介质及电子设备
CN113516962B (zh) * 2021-04-08 2024-04-02 Oppo广东移动通信有限公司 语音播报方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN1254786C (zh) 2006-05-03

Similar Documents

Publication Publication Date Title
CN101872615B (zh) 用于分布式文本到话音合成以及可理解性的系统和方法
CN108364632B (zh) 一种具备情感的中文文本人声合成方法
CN1269104C (zh) 语音合成方法和语音合成设备
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
CN100347741C (zh) 移动语音合成方法
CN1168068C (zh) 语音合成系统与语音合成方法
CN101030368A (zh) 在保持情感的同时跨通道进行通信的方法和系统
US9196241B2 (en) Asynchronous communications using messages recorded on handheld devices
WO2017197809A1 (zh) 语音合成方法和语音合成装置
US20090326948A1 (en) Automated Generation of Audiobook with Multiple Voices and Sounds from Text
CN1254786C (zh) 在语音合成系统中将提示音与文本语音合成输出的方法
US20050144002A1 (en) Text-to-speech conversion with associated mood tag
CN101667424A (zh) 普通话与多种方言之间的语音翻译系统及其方法
CN1783212A (zh) 转换文本为语音的系统和方法
CN101079301A (zh) 文本映射到音频并动画文本的设备及方法
CN1246826C (zh) 在语音合成系统中将背景音与文本语音混合输出的方法
CN1815551A (zh) 在方言语音合成系统中进行文本方言化处理的方法
Blache et al. Creating and exploiting multimodal annotated corpora: the ToMA project
US20060136216A1 (en) Text-to-speech system and method thereof
Campbell Developments in corpus-based speech synthesis: Approaching natural conversational speech
GB2444539A (en) Altering text attributes in a text-to-speech converter to change the output speech characteristics
CN1333501A (zh) 一种动态汉语语音合成方法
CN1945692A (zh) 一种在语音合成系统中提升提示音匹配效果的智能方法
JP5343293B2 (ja) 音声編集合成装置及び音声編集合成方法
CN1811912A (zh) 小音库语音合成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: ANHUI KEDAXUNFEI SCIENCE AND TECHNOLOGY INFORMATIO

Free format text: FORMER NAME OR ADDRESS: ZHONGKEDA XUNFEI INFORMATION SCIENCE +. TECHNOLOGY CO., LTD., ANHUI PROV.

CP03 Change of name, title or address

Address after: Building 2, software park, 669 Changjiang West Road, Hefei, Anhui

Patentee after: Anhui USTC iFLYTEK Co., Ltd.

Address before: Building 2, software park, 669 Changjiang West Road, Hefei, Anhui

Patentee before: Zhongkeda Xunfei Information Science &. Technology Co., Ltd., Anhui Prov.

EE01 Entry into force of recordation of patent licensing contract

Assignee: IFLYTEK Xinjiang Information Technology Co., Ltd.

Assignor: Anhui USTC iFLYTEK Co., Ltd.

Contract record no.: 2012340000138

Denomination of invention: Method for synthetic output with prompting sound and text sound in speech synthetic system

Granted publication date: 20060503

License type: Exclusive License

Open date: 20050223

Record date: 20120426

C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 230088, building 2, software park, 669 West Changjiang Road, Hefei, Anhui

Patentee before: Anhui USTC iFLYTEK Co., Ltd.