CN102117614A

CN102117614A - 个性化文本语音合成和个性化语音特征提取

Info

Publication number: CN102117614A
Application number: CN2010100023128A
Authority: CN
Inventors: 何守春; 王庆芳
Original assignee: Sony Ericsson Mobile Communications AB
Current assignee: Sony Mobile Communications AB
Priority date: 2010-01-05
Filing date: 2010-01-05
Publication date: 2011-07-06
Anticipated expiration: 2030-01-05
Also published as: EP2491550B1; US8655659B2; US20110165912A1; WO2011083362A1; CN102117614B; EP2491550A1

Abstract

本发明涉及个性化文本语音合成和个性化语音特征提取。个性化文本语音合成装置包括：个性化语音特征库创建部，其被设置为，通过对特定讲话人的随意性的语音片断与预先设定的关键字进行比对，识别该特定讲话人的个性化语音特征，由此创建与该特定讲话人相关联的个性化语音特征库，并将该个性化语音特征库与该特定讲话人相关联地存储起来；和文本语音合成部，其被设置为，基于与该特定讲话人相关联的个性化语音特征库，对源于该特定讲话人的文本消息进行语音合成，以生成并输出具有该特定讲话人的发音特点的语音片断。根据本发明，不必通过专门的训练过程，即可建立特定讲话人的个性化语音特征库，从而对文本进行个性化语音合成，以输出带有讲话人的个性化发音特点的语音。

Description

个性化文本语音合成和个性化语音特征提取

技术领域

本发明总体上涉及语音特征提取和文本语音合成(Text-To-Speech，简称TTS)技术，更具体地说，涉及通过基于预先设置的关键字从随机采集的某个人的语音片断中提取他/她的个性化语音特征的方法和装置，和利用提取的个性化语音特征，对源于该人的文本消息进行个性化TTS的装置和方法，以及包括该装置的通信终端和通信系统。

背景技术

TTS是用于从文本合成语音的技术，具体地说，是一种将任意文字信息转化为标准、流畅语音的技术。TTS涉及自然语言处理、韵律学、语音信号处理、声音感知等多种前沿的高新科技，横跨声学、语言学、数字信号处理等多个学科，是文字信息处理领域的一项前沿技术。

传统的标准TTS系统只能用一种标准的男声或女声来进行发音，声音单调，无法反映出生活中各种人五花八门的说话习惯；例如，如果语音缺乏娱乐性，收听者或者听众可能感觉不亲切，或者不能感受有意的幽默。

例如，美国专利No.7277855提出了一种个性化的文本语音合成方案。根据该方案，通过让特定讲话人事先说一些固定的文字，并对生成的语音进行分析，获得该特定讲话人的一些语音特征数据。然后利用这些语音特征数据结合标准TTS系统进行文本语音合成，从而实现了个性化的TTS。该方案的主要问题在于，需要通过特定的“学习”过程来获得特定讲话人的语音特征数据，而这个“学习”过程既需要花时间精力也没有乐趣，而且选取的素材在很大程度上会影响到“学习”结果的有效性。

随着同时具有文本传送和语音通话功能的设备越来越普及，强烈需要这样一种技术，其在用户通过该设备进行语音通话时，可以顺便容易地获得通话任一方或双方的个性化语音特征，并在随后的文本通信过程中，利用所获得的个性化语音特征将文本合成为语音呈现出来。

另外，还需要一种能够从用户随意性的语音片断中容易且准确地识别出该用户的语音特征以供进一步利用的技术。

发明内容

根据本发明的一方面，TTS技术不需要特定讲话人朗读专门的文本。代替的是，该TTS技术可以在特定讲话人并非一定针对TTS的随意性讲话过程中，获得该特定讲话人的语音特征数据，并在随后将所获得的具有该特定讲话人的发音特点的语音特征数据应用于对特定文本的TTS过程，从而获得带有该特定讲话人的语音风格的、自然流畅的合成语音。

根据本发明的第一方面，提供了一种个性化文本语音合成装置，其包括：

个性化语音特征库创建部，其被设置为，通过对特定讲话人的随意性的语音片断与预先设定的关键字进行比对，识别所述特定讲话人的个性化语音特征，由此创建与所述特定讲话人相关联的个性化语音特征库，并将所述个性化语音特征库与所述特定讲话人相关联地存储起来；和

文本语音合成部，其被设置为，基于由所述个性化语音特征库创建部所创建的与所述特定讲话人相关联的个性化语音特征库，对源于该特定讲话人的文本消息进行语音合成，以生成并输出具有所述特定讲话人的发音特点的语音片断。

根据本发明的第二方面，提供了一种基于本发明第一方面的个性化文本语音合成装置，其中，所述个性化语音特征库创建部包括：

关键字设置单元，其针对特定语言设置适于体现所述特定讲话人的发音特点的一个或更多个关键字，并将所设置的关键字与所述特定讲话人相关联地存储起来；

语音特征识别单元，其识别在所述特定讲话人的所述语音片断中是否存在与所述特定讲话人相关联的关键字，并且在识别出所述特定讲话人的所述语音片断中存在所述关键字时，根据所识别出的关键字的标准读音和所述特定讲话人的发音，来识别出所述特定讲话人的语音特征；以及

语音特征滤选单元，其在所述语音特征识别单元所识别出的所述特定讲话人的语音特征达到预定数量后，通过统计分析滤除异常语音特征，而保留体现所述特定讲话人的正常发音特点的语音特征，由此创建与所述特定讲话人相关联的个性化语音特征库，并将所述个性化语音特征库与所述特定讲话人相关联地存储起来。

根据本发明的第三方面，提供了一种基于本发明第二方面的个性化文本语音合成装置，其中，所述关键字设置单元进一步被设置为，针对多种特定语言设置适于体现所述特定讲话人的发音特点的关键字。

根据本发明的第四方面，提供了一种基于本发明第二方面的个性化文本语音合成装置，其中，所述语音特征识别单元进一步被设置为，通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

根据本发明的第五方面，提供了一种基于本发明第一方面的个性化文本语音合成装置，其中，所述个性化语音特征库创建部进一步被设置为，在接收到所述特定讲话人的新的语音片断时，更新与所述特定讲话人相关联的个性化语音特征数据库。

根据本发明的第六方面，提供了一种基于本发明第二方面的个性化文本语音合成装置，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

根据本发明的第七方面，提供了一种基于本发明第六方面的个性化文本语音合成装置，其中，所述语音特征滤选单元进一步被设置为，针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

根据本发明的第八方面，提供了一种基于本发明第一方面的个性化文本语音合成装置，其中，所述关键字是单音节高频用字。

根据本发明的第九方面，提供了一种个性化文本语音合成方法，其包括：

针对特定语言预先设定一个或更多个关键字；

接收特定讲话人的随意性的语音片断；

通过对接收到的所述特定讲话人的所述语音片断与预先设定的所述关键字进行比对，识别所述特定讲话人的个性化语音特征，由此创建与所述特定讲话人相关联的个性化语音特征库，并将所述个性化语音特征库与所述特定讲话人相关联地存储起来；以及

基于与所述特定讲话人相关联的所述个性化语音特征库，对源于该特定讲话人的文本消息进行语音合成，以生成并输出具有所述特定讲话人的发音特点的语音片断。

根据本发明的第十方面，提供了一种基于本发明第九方面的个性化文本语音合成方法，其中，所述关键字被设置为适于体现所述特定讲话人的发音特点，并且被与所述特定讲话人相关联地存储起来。

根据本发明的第十一方面，提供了一种基于本发明第十方面的个性化文本语音合成方法，其中，所述创建与所述特定讲话人相关联的个性化语音特征库的步骤包括：

识别在所述特定讲话人的所述语音片断中是否存在所设置的与所述特定讲话人相关联的关键字；

在识别出所述特定讲话人的所述语音片断中存在与所述特定讲话人相关联的关键字时，根据所识别出的关键字的标准读音和所述特定讲话人的发音，来识别出所述特定讲话人的语音特征；以及

在所识别出的所述特定讲话人的语音特征达到预定数量后，通过统计分析，滤除异常语音特征，而保留体现所述特定讲话人的正常发音特点的语音特征，由此创建与所述特定讲话人相关联的个性化语音特征库，并将所述个性化语音特征库与所述特定讲话人相关联地存储起来。

根据本发明的第十二方面，提供了一种基于本发明第十一方面的个性化文本语音合成方法，其中，针对多种特定语言设置了适于体现所述特定讲话人的发音特点的关键字。

根据本发明的第十三方面，提供了一种基于本发明第十一方面的个性化文本语音合成方法，其中，通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

根据本发明的第十四方面，提供了一种基于本发明第九方面的个性化语音合成方法，其中，所述创建个性化语音特征库的步骤包括：在接收到所述特定讲话人的新的语音片断时，更新与所述特定讲话人相关联的个性化语音特征库。

根据本发明的第十五方面，提供了一种基于本发明第十一方面的个性化文本语音合成方法，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

根据本发明的第十六方面，提供了一种基于本发明第十五方面的个性化文本语音合成方法，其中，针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

根据本发明的第十七方面，提供了一种基于本发明第九方面的个性化语音合成方法，其中，所述关键字是单音节高频用字。

根据本发明的第十八方面，提供了一种具有文本传送和语音通话能力的通信终端，所述通信终端通过无线通信网络或者有线通信网络相连接，以使得彼此间能够进行文本传送或语音通话，

其中，所述通信终端包括文本传送装置、语音通话装置、以及如本发明第一方面到第八方面中的任一方面所述的个性化文本语音合成装置。

根据本发明的第十九方面，提供了一种基于本发明第十八方面的通信终端，其中，所述通信终端还包括：

语音特征识别触发装置，其被设置为，在利用所述通信终端进行语音通话时，触发所述个性化文本语音合成装置对语音通话中的任一方或双方讲话人的语音片断进行个性化语音特征识别，以生成并存储与语音通话中的任一方或双方讲话人相关联的个性化语音特征库；和

文本语音合成触发装置，其被设置为，在利用所述通信终端发送文本消息或者接收文本消息时，查询在所述通信终端中是否存储有与文本消息的发送方用户或者文本消息的来源方用户相关联的个性化语音特征库，并在查询结果为肯定时，触发所述个性化文本语音合成装置，将待发送的文本消息或者接收到的文本消息合成为语音片断，并将该语音片断发送给对方或者在所述通信终端处呈现给本地用户。

根据本发明的第二十方面，提供了一种基于本发明第十八方面或第十九方面的通信终端，其中，该通信终端是移动电话。

根据本发明的第二十一方面，提供了一种基于本发明第十八方面或第十九方面的通信终端，其中，该通信终端是计算机客户端。

根据本发明的第二十二方面，提供了一种具有文本传送和语音通话能力的通信系统，该通信系统包括控制装置和多个通信终端，所述多个通信终端能够经由所述控制装置进行文本传送和语音通话，

其中，在所述控制装置上设置有如本发明第一方面到第八方面中的任一方面所述的个性化文本语音合成装置。

根据本发明的第二十三方面，提供了一种基于本发明第二十二方面的通信系统，其中，所述控制装置还包括：

语音特征识别触发装置，其被设置为，在所述多个通信终端中的任意两个或更多个经由所述控制装置进行语音通话时，触发所述个性化文本语音合成装置对语音通话中的各方讲话人的语音片断进行个性化语音特征识别，以生成并存储分别与语音通话中的各方讲话人相关联的个性化语音特征库；和

文本语音合成触发装置，其被设置为，在所述控制装置接收到所述多个通信终端中的任一个通信终端发送给另一通信终端的文本消息时，查询在所述控制装置中是否存储有与文本消息的发送方用户相关联的个性化语音特征库，并在查询结果为肯定时，触发所述个性化文本语音合成装置，将接收到的文本消息合成为语音片断，然后将该语音片断转发给所述另一通信终端。

根据本发明的第二十四方面，提供了一种基于本发明第二十二方面或第二十三方面的通信系统，其中，所述控制装置是无线网络控制器，所述通信终端是移动电话，并且所述无线网络控制器和所述移动电话间通过无线通信网络相连接。

根据本发明的第二十五方面，提供了一种基于本发明第二十二或第二十三方面的通信系统，其中，所述控制装置是服务器，所述通信终端是计算机客户端，并且所述服务器和所述计算机客户端通过因特网相连接。

根据本发明的第二十六方面，提供了一种计算机程序产品，该计算机程序产品记录在计算机可读记录介质上，该计算机可读记录介质在被加载到计算机上时，可由该计算机读取并执行该计算机可读记录介质上记载的计算机程序代码装置以实现个性化的文本语音合成，所述计算机程序代码装置包括：

针对特定语言预先设定一个或更多个关键字的计算机程序代码装置；

接收特定讲话人的随意性的语音片断的计算机程序代码装置；

通过对接收到的所述特定讲话人的所述语音片断与预先设定的所述关键字进行比对，识别所述特定讲话人的个性化语音特征，由此创建与所述特定讲话人相关联的个性化语音特征库，并将所述个性化语音特征库与所述特定讲话人相关联地存储起来的计算机程序代码装置；以及

基于与所述特定讲话人相关联的所述个性化语音特征库，对源于该特定讲话人的文本消息进行语音合成，以生成并输出具有所述特定讲话人的发音特点的语音片断的计算机程序代码装置。

根据本发明的第二十七方面，提供了一种基于本发明第二十六方面的计算机程序产品，其中，所述关键字被设置为适于体现所述特定讲话人的发音特点，并且被与所述特定讲话人相关联地存储起来。

根据本发明的第二十八方面，提供了一种基于本发明第二十七方面的计算机程序产品，其中，所述创建与所述特定讲话人相关联的个性化语音特征库的计算机程序代码装置包括：

识别在所述特定讲话人的所述语音片断中是否存在所设置的与所述特定讲话人相关联的关键字的计算机程序代码装置；

在识别出所述特定讲话人的所述语音片断中存在与所述特定讲话人相关联的关键字时，根据所识别出的关键字的标准读音和所述特定讲话人的发音，来识别出所述特定讲话人的语音特征的计算机程序代码装置；以及

在所识别出的所述特定讲话人的语音特征达到预定数量后，通过统计分析，滤除异常语音特征，而保留体现所述特定讲话人的正常发音特点的语音特征，由此创建与所述特定讲话人相关联的个性化语音特征库，并将所述个性化语音特征库与所述特定讲话人相关联地存储起来的计算机程序代码装置。

根据本发明的第二十九方面，提供了一种基于本发明第二十八方面的计算机程序产品，其中，针对多种特定语言设置了适于体现所述特定讲话人的发音特点的关键字。

根据本发明的第三十方面，提供了一种基于本发明第二十八方面的计算机程序产品，其中，通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

根据本发明的第三十一方面，提供了一种基于本发明第二十六方面的计算机程序产品，其中，所述创建个性化语音特征库的计算机程序代码装置包括：在接收到所述特定讲话人的新的语音片断时，更新与所述特定讲话人相关联的个性化语音特征库的计算机程序代码装置。

根据本发明的第三十二方面，提供了一种基于本发明第二十八方面的计算机程序产品，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

根据本发明的第三十三方面，提供了一种基于本发明第三十二方面的计算机程序产品，其中，针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

根据本发明的第三十四方面，提供了一种基于本发明第二十六方面的计算机程序产品，其中，所述关键字是单音节高频用字。

根据本发明的第三十五方面，提供了一种个性化语音特征提取装置，其包括：

关键字设置单元，其针对特定语言设置适于体现特定讲话人的发音特点的一个或更多个关键字，并将所设置的关键字与所述特定讲话人相关联地存储起来；

语音特征识别单元，其识别在所述特定讲话人的随意性的语音片断中是否存在与所述特定讲话人相关联的关键字，并且在识别出所述特定讲话人的所述语音片断中存在所述关键字时，根据所识别出的关键字的标准读音和所述特定讲话人的发音，来识别出所述特定讲话人的语音特征；以及

根据本发明的第三十六方面，提供了一种基于本发明第三十五方面的个性化语音特征提取装置，其中，所述关键字设置单元进一步被设置为，针对多种特定语言设置适于体现所述特定讲话人的发音特点的关键字。

根据本发明的第三十七方面，提供了一种基于本发明第三十五方面的个性化语音特征提取装置，其中，所述语音特征识别单元进一步被设置为，通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

根据本发明的第三十八方面，提供了一种基于本发明第三十五方面的个性化语音特征提取装置，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

根据本发明的第三十九方面，提供了一种基于本发明第三十八方面的个性化语音特征提取装置，其中，所述语音特征滤选单元进一步被设置为，针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

根据本发明的第四十方面，提供了一种基于本发明第三十五方面的个性化语音特征提取装置，其中，所述关键字是单音节高频用字。

根据本发明的第四十一方面，提供了一种个性化语音特征提取方法，其包括：

针对特定语言设置适于体现特定讲话人的发音特点的一个或更多个关键字，并将所设置的关键字与所述特定讲话人相关联地存储起来；

识别在所述特定讲话人的随意性的语音片断中是否存在与所述特定讲话人相关联的关键字，并且在识别出所述特定讲话人的所述语音片断中存在所述关键字时，根据所识别出的关键字的标准读音和所述特定讲话人的发音，来识别出所述特定讲话人的语音特征；以及

在识别出的所述特定讲话人的语音特征达到预定数量后，通过统计分析滤除异常语音特征，而保留体现所述特定讲话人的正常发音特点的语音特征，由此创建与所述特定讲话人相关联的个性化语音特征库，并将所述个性化语音特征库与所述特定讲话人相关联地存储起来。

根据本发明的第四十二方面，提供了一种基于本发明第四十一方面的个性化语音特征提取方法，其中，所述设置关键字的步骤包括：针对多种特定语言设置适于体现所述特定讲话人的发音特点的关键字。

根据本发明的第四十三方面，提供了一种基于本发明第四十一方面的个性化语音特征提取方法，其中，所述识别步骤包括：通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

根据本发明的第四十四方面，提供了一种基于本发明第四十一方面的个性化语音特征提取方法，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

根据本发明的第四十五方面，提供了一种基于本发明第四十四方面的个性化语音特征提取方法，其中，所述滤选处理包括：针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

根据本发明的第四十六方面，提供了一种本发明第四十一方面的个性化语音特征提取方法，其中，所述关键字是单音节高频用字。

根据本发明的个性化TTS技术方案，不需要特定讲话人针对TTS朗读专门的文本，而是在该特定讲话人的随意性的讲话过程中，例如，通话过程中，即可在该特定讲话人“知情或者不知情的情况下”根据指示或者自动获得该特定讲话人的语音特征数据。随后，例如，在获得该特定讲话人传送的文本消息后，可以自动利用所获得的该特定讲话人的语音特征数据，对获得的文本消息进行语音合成，最终输出带有该特定讲话人的语音风格的、自然流畅的语音。这样，既避免了标准TTS技术合成的语音的单调、呆板的缺点，又使合成的语音具有明显的辨识性。

另外，根据本发明的技术方案，采用关键字比对的方法来从特定讲话人的语音片断中获得语音特征数据，这可以减少语音特征识别过程的计算工作量，提高效率。

而且，关键字的选择可以针对不同的语言、不同的个人、不同的领域来进行，从而可以准确、高效地抓住每种特定情境下的语音特点，使得既可以高效地获得语音特征数据，又可以获得具有准确辨识性的合成语音。

根据本发明的个性化语音特征提取方案，通过将讲话人的随意性的语音与预先设定的关键字进行比对，可以比较容易且准确地获得讲话人的语音特征数据，以便进一步将所获得的语音特征数据应用于个性化文本语音合成或者其它应用场景，例如，口音辨识等。

附图说明

所包括的附图用来提供对本发明的进一步的理解，其构成了说明书的一部分，例示了本发明的优选实施方式，并与文字说明一起用来解释本发明的原理，其中对于相同的要素，始终用相同的附图标记来表示。在附图中：

图1是例示根据本发明一实施方式的个性化文本语音合成装置的构成示例的功能框图；

图2是例示根据本发明一实施方式的个性化文本语音合成装置中包括关键字设置单元的构成示例的功能框图；

图3是例示关键字存储数据条目的示例；

图4是例示根据本发明一实施方式的个性化文本语音合成装置中包括的语音特征识别单元的一个构成示例的功能框图；

图5是例示根据本发明的一实施方式的个性化语音特征提取方法的流程图(有时也被称为逻辑图)；以及

图6是例示包括有根据本发明一实施方式的个性化文本语音合成装置的移动电话的整体构成示例的功能框图。

具体实施方式

参照下面的描述和附图，将清楚本发明的这些和其他方面。在这些描述和附图中，具体公开了本发明的一些特定实施方式，来表示实施本发明的原理的一些方式，但是应当理解，本发明的范围不受此限制。相反，本发明包括落入所附权利要求书的精神和内涵范围内的所有变化、修改和等同物。

针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

应当强调的是，词语“包括”当在本说明书中使用时用来指所述特征、要件、步骤或组成部分的存在，但不排除一个或更多个其它特征、要件、步骤、组成部分或它们的组合的存在或增加。

下面首先简要介绍一下本发明的一示例实施方式。

通过预先设定一组关键字，在普通的通话过程中获得特定讲话人的随意性的语音片断时，对该语音片断和所设定的关键字进行比对，根据特定讲话人的语音片断中与关键字对应的发音，来识别出该特定讲话人的个性化语音特征，进而构建该特定讲话人的个性化语音特征库，利用该个性化语音特征库，对(源于该特定讲话人的)文本消息进行语音合成，从而生成具有该特定讲话人的发音特点的合成语音。另外，特定讲话人的随意性的语音片断也可以是预先存储在数据库中的。

为了容易地从特定讲话人随意性的语音片断中识别出该特定讲话人的语音特点，关键字的选取特别重要。下面举例说明在本发明中关键字的特征和选择条件：

1)关键字优选是最小的语言文字单位(如中文中的语素，英文中的单字)，包括常用字、常用停顿词、拟声词、转折词、感叹词、冠词(适用于英文)、数字等；

2)关键字要易于识别，应尽量避免多音字，另一方面它又要能体现出说话人的语调、音色、节奏、停顿等个性化语音合成所必须的特征；

3)关键字在讲话人的随意性的语音片断中出现频率要高。若使用讲话过程中较少用到的字作为关键字，则可能比较难于从讲话人的随意性的语音片断中识别出关键字，从而不能有效地建立个性化语音特征库。换言之，关键字应是高频使用字。例如，在用英语进行的日常会话中，人们常用“hi”作为开始，因此，可以将这样的词设为关键词。

4)对于任何一种语言，可以选择一组通用关键字，另外针对不同职业、性格的人群，还可以定义一些附加的特征关键字，用户在对说话人充分了解的基础上可以将这些附加关键字和通用关键字结合起来使用；

5)关键字的数量取决于语言类型(中文、英文等)、系统处理能力(对于高性能的系统，可以多一些；对于低性能的设备，如手机，例如由于容量、电力和成本方面的限制，可以少一些，但相应地合成效果也会打折扣)。

下面参照附图来对本发明的各个实施方式进行详细说明。

图1例示了根据本发明第一实施方式的个性化TTS(pTTS)装置1000的结构示意框图。

pTTS装置1000可以包括个性化语音特征库创建部1100、pTTS引擎1200以及个性化语音特征库存储部1300。

个性化语音特征库创建部1100基于预先设定的关键字，根据特定讲话人的语音片断来识别该特定讲话人的语音特征，并将该语音特征与该特定讲话人(的标识符)相关联地存储在个性化语音特征库存储部1300中。

例如，个性化语音特征库创建部1100可以包括关键字设置单元1110、语音特征识别单元1120以及语音特征滤选单元1130。

关键字设置单元1110可以用于针对特定语言设置适于体现特定讲话人的发音特点的一个或更多个关键字，并将所设置的关键字与该特定讲话人(的标识符)相关联地存储起来。

图2示意性地例示出了关键字设置单元1110的功能框图。如图所示，关键字设置单元1110可以包括语言选择部1112、讲话人设定部1114、关键字输入部1116以及关键字存储部1118。语言选择部1112用来选择不同的语言，例如汉语、英语、日语等。讲话人设定部1114被设置为，使得可以针对不同的讲话人或者讲话人组来设置关键字。例如，不同地区、不同工作领域等的人会使用不同的常用字，因此，可以针对不同地区、不同工作领域的人来设置不同的关键字，例如，针对某些特殊的人，可以单独设置关键字，这样可以提高后面根据讲话人的随意性的语音片断来识别其语音特征的效率和准确度。关键字输入部1116用来输入关键字。关键字存储部1118用来将通过语言选择部1112选择的语言、通过讲话人设定部1114设定的讲话人(或讲话人组)、通过关键字输入部1116输入的关键字相关联地进行存储。例如，图3例示了在关键字存储部1118中存储的数据条目的示例。所设置的关键字除了可以包括通用关键字外，还可以包括专用关键字。

应当理解，关键字可以提前预置，例如在出厂时预置。因而，关键字设置单元1110并非是必要部件。这里只是为了完整说明起见而例示了关键字设置单元1110。还应当理解，关键字设置单元1110的构成也不必限于图2所示的形式，本领域技术人员可以构想出其它的构成形式，只要能实现输入并存储关键字的功能即可。例如，可以预先存储一组关键字，随后用户在该一组关键字中选择并设置适合于特定人(特定人组)的一些或全部关键字。关键字的数量也可以任意设置。

接着参照图1，语音特征识别单元1120可以在接收到特定讲话人的随意性的语音片断时，基于在关键字设置单元1110中的关键字存储部1118中针对各个特定讲话人(讲话人组)存储的关键字，识别在接收到的特定讲话人的随意性的语音片断中，是否存在与该特定讲话人相关联的关键字，若结果为“是”，则根据所识别出的关键字的标准读音和该特定讲话人的发音，来识别出该特定讲话人的语音特征，否则，继续接收新的语音片断。

例如，可以通过语音频谱比对的方式来判断在语音片断中是否存在特定的关键字。下面参照图4来描述语音特征识别单元1120的一个构成示例。

图4示出了采用语音频谱比对方式的语音特征识别单元的一个构成示例。如图所示，语音特征识别单元1120包括标准语音数据库1121、语音检索部1122、关键字获取部1123、语音频谱比对部1125以及语音特征提取部1126。标准语音数据库1121以文字和语音相对应的方式存储有各种语素的标准语音。语音检索部1122根据关键字获取部1123从关键字设置单元1110中的关键字存储部1118获取的针对语音输入1124的讲话人的关键字(这些关键字可以是用户设置的或者出厂时预先设置的)，从标准语音数据库1121中检索出与所述关键字对应的标准语音。语音频谱比对部1125对语音输入1124(例如，特定讲话人的语音片断1124)与语音检索部1122检索出的各个关键字的标准语音分别进行语音频谱(例如，对时域信号进行快速傅利叶变换(FFT)后获得的频域信号)比对，从而确定在语音片断1124中是否存在针对特定讲话人的关键字。这个过程可参照语音识别处理来实现。不过，与标准的语音识别处理相比，本发明的关键字识别要更为简单。标准的语音识别处理需要准确识别出语音输入的文字内容，而本发明只需要识别出一些特定讲话人口语中常用的一些关键字即可。而且，本发明也不必要求识别的绝对精确性。本发明的重点在于在一段连续语音中找到与关键字的标准发音在语音频谱特征上接近(理想情况下，相同)的语音段(换言之，标准的语音识别技术会将该语音段识别为所述关键字，尽管这也可能是误识别)，进而利用该语音段来识别讲话人的个性化语音特征。另外，关键字的设置本身考虑到了其在讲话人随意性的语音片断中的重复性，即，很可能多次出现。这种重复性，也有利于关键字的识别。当在语音片断中“识别”到关键字时，语音特征提取部1126基于关键字的标准语音以及与关键字对应的语音段，来识别并提取讲话人的语音特征，例如音频、音量、节奏、尾音等，并进行存储。根据一段语音来提取相应的语音特征参数，可以参照现有技术执行，在此不再详述。另外，所列举的语音特征并非全部，也不是必须同时使用这些语音特征，完全可以根据具体的应用场景而设置使用合适的语音特征，这些是本领域技术人员在阅读本申请的公开内容后可以想到的。另外，不限于通过对时域语音信号执行FFT变换来获得语音频谱数据，还可以对时域语音信号执行其它时域到频域变换(如小波变换)来获得相应的语音频谱数据。本领域技术人员可以基于要捕捉的语音特征的特点，来选择合适的时域到频域变换方式。而且，对于不同的语音特征，可以采用不同的时域到频域变换方式，以便于恰当地提取语音特征，而不必限于对时域语音信号只应用一种时域到频域变换。

在一个语音片断(或者一次通话过程)中，对于关键字存储部1118中存储的每个关键字都提取并存储对应的讲话人的语音特征。若在讲话人的语音片断中没有“识别”到某一关键字，可以存储该关键字的各个标准语音特征(例如，这可以从标准语音数据库中获得，或者设置为默认的设置值)，以便进行后面的统计分析。另外，在一个语音片断(或者一次通话过程)中，可能会多次重复某一关键字。在此情况下，可以对与该关键字对应的各语音段进行平均，然后根据经过平均后获得的语音段，来获得与该关键字对应的语音特征；或者，另选地，可以根据最后一个语音段获得与该关键字对应的语音特征。这样，例如，在一次通话过程(或者一段语音片断)中，可以获得例如以下形式的一个矩阵：

F_{speech} = [\begin{matrix} F_{11} & F_{12} & \cdot \cdot \cdot & F_{1 n} \\ F_{21} & F_{22} & \cdot \cdot \cdot & F_{2 n} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ F_{m 1} & F_{m 2} & \cdot \cdot \cdot & F_{mn} \end{matrix}] .

其中，n为表示关键字个数的自然然，m为表示所选语音特征的个数的自然数。矩阵中的每个元素F_ij(i、j均为自然数)表示针对第j个关键字的第i个特征所识别出的语音特征参数值。矩阵的每一列构成了针对对应关键字的语音特征向量。

需要说明的是，在一次通话过程中，或者在规定时长的语音片断中，可能不一定能识别出所有关键字的全部语音特征，为方便处理，如前所述，可以用标准语音特征数据或者默认参数值来填补语音特征参数矩阵中未识别出的元素，以便于后续处理。

接下来，继续参照图1，对语音特征滤选单元1130进行描述。例如，在语音特征识别单元1120所识别出并存储的讲话人的语音特征(例如，上面的语音特征参数矩阵)达到预定数量(例如，50)个后，语音特征滤选单元1130通过统计分析滤除异常语音特征，而保留体现特定讲话人的正常发音特点的语音特征，对这些语音特征进行处理(例如，平均)，由此创建与该特定讲话人相关联的个性化语音特征库(语音特征矩阵)，并将该个性化语音特征库与该特定讲话人(例如，该特定讲话人的标识符、电话号码等)相关联地存储起来，以备后续使用。滤除异常语音特征的过程将在后面详细描述。另外，替代提取预定数量个语音特征，而可以例如考虑在提取的语音特征趋于稳定(例如，相连提取的两个语音特征的变化小于或等于预定阈值)的情况下，结束个性化语音特征库创建部1100的操作。

pTTS引擎1200包括标准语音数据库1210、标准TTS引擎1220以及个性化语音数据合成部1230。和标准语音数据库1121一样，标准语音数据库1210存储标准的文本-语音数据。标准TTS引擎1220首先对输入的文本信息进行分析，将文本信息分解成合适的文本单元，然后参照标准语音数据库1210中存储的文本-语音数据，选择与各个文本单元对应的语音单元，对这些语音单元进行拼接，生成标准语音数据。个性化语音数据合成部1230参照个性化语音特征库存储部1300中存储的与文本信息的输入者对应的个性化语音特征数据，对标准TTS引擎1220生成的标准语音数据进行韵律、音量等方面的调节。例如，对于尾音、停顿等特征，可以直接插入。从而生成具有文本信息的输入者的发音特点的语音输出。可以通过扬声器等发声装置直接播放所生成的个性化语音数据，或者也可以将该个性化语音数据进行存储，以供以后使用，或者可以通过网络发送该个性化语音数据。

以上只是pTTS引擎1200的一种实现示例，但本发明并不限于这里例示的结构。本领域技术人员完全可以选择各种其它已知方式，来实现基于输入的文本信息并参照个性化语音特征数据合成具有个性化发音特点的语音数据。

另外，上面参照图1、图2和图4进行了描述，这些图以框图形式示出了pTTS装置的构成，但这并非意味着本发明的pTTS装置必须由这些分立的单元/部分构成。这样的框图的例示主要是针对功能进行逻辑上的划分。这些框图所例示的各个单元/部分可以由硬件、软件、固件分立地或组合地实现，特别是，可以在通用计算装置上以计算机程序代码的形式实现框图的各个部分所对应的功能。在实际的实现中，可以将一些框图的功能进行合并，例如，标准语音数据库1210和1121可以是一个，这里只是为了叙述清楚起见而示出了两个。

另选地，代替以上语音特征滤选单元1130，还可以提供其它形式的语音特征创建单元。例如，对于特定讲话人的每个语音片断(或每次通话过程)，语音特征识别单元1120都生成一个语音特征矩阵F_{speech，current}。语音特征创建单元通过以下公式以递归方式来生成要存储到个性化语音特征库存储部1300中的语音特征矩阵：

F_{speech，final}＝αF_{speech，previous}+(1-α)F_{speech，current}

其中，F_{speech，current}为语音特征识别单元1120本次生成的语音特征矩阵，F_{speech，previous}为个性化语音特征库存储部1300中存储的与特定讲话人相关联的语音特征矩阵，F_{speech，final}为最终生成的要保存到个性化语音特征库存储部1300中的语音特征矩阵，α为递归因子，0＜α＜1，其表示历史语音特征所占的比重。特定讲话人的语音特点可能因为各种因素(例如身体状态、不同场合等)而随时间变化。为了使最终合成的语音尽量和特定讲话人最近的语音特点接近，可以将α设置得较小，例如，0.2，从而减小历史语音特征所占的比重。还可以设计出其它计算语音特征的公式，这些都应涵盖在本发明的范围内。

下面参照图5的流程图5000(有时也被称为逻辑图)，来详细描述根据本发明第二实施方式的个性化语音特征提取过程。

首先，在步骤S5010，针对特定语言(如汉语、英语、日语等)设置适于体现特定讲话人的发音特点的一个或更多个关键字，并将所设置的关键字与该特定讲话人(的标识符、电话号码等)相关联地存储起来。

如前所述，另选的是，关键字可以是例如在出厂时预置的，或者可以在该步骤S5010从预先存储的关键字中选择针对特定讲话人的关键字。

在步骤S5020，当例如在通话过程中，接收到一特定讲话人的语音数据时，从存储的关键字中获取通用关键字和/或与该特定讲话人相关联的专用关键字，并从标准语音数据库中检索出与所获取的一个关键字对应的标准语音，对接收到的语音数据与检索出的与该关键字对应的标准语音就它们各自的通过对相应时域语音数据执行时域到频域变换(如快速傅里叶变换或小波变换)而获得的语音频谱进行比对，来识别在接收到的语音数据中是否存在所述关键字。

在步骤S5030，若在接收到的语音数据中未识别出所述关键字，则过程转到步骤S5045；否则，若识别出关键字，则过程转到步骤S5040。

在步骤S5040，基于所述关键字的标准语音和对应的讲话人语音(例如，对时域语音数据进行时域到频域变换后的语音频谱)，来提取讲话人的语音特征，并进行存储。

在步骤S5045，例如从标准语音数据库中或者默认设置数据中获得所述关键字的默认语音特征数据，并进行存储。

在步骤S5040和S5045中所获得的关键字的语音特征数据构成了一个语音特征向量。

接着，在步骤S5050，判断是否对与该特定讲话人相关联的所有关键字都执行了语音特征提取处理。若判断结果为“否”，则过程转到步骤S5020，继续针对同一语音片断和下一个关键字，重复进行步骤S5030到S5045的过程，来获得与该关键字对应的语音特征向量。

当在步骤S5050判断已对所有关键字都获得了相应的语音特征向量时，例如可以将这些语音特征向量组成为一个语音特征矩阵并进行存储。接着，在步骤S5060，判断所获得的语音特征矩阵是否已达到预定数量(例如，50个)。若判断结果为“否”，则继续等待新的通话过程(或者接受新的语音数据输入)，然后重复步骤S5020到S5050的过程。

当在步骤S5060判断所获得的个性化语音特征(语音特征矩阵)达到预定数量时，过程转到步骤S5070，在此对这些个性化语音特征(语音特征矩阵)进行统计分析，确定其中是否有异常语音特征。若没有异常特征，则过程转到步骤S5090；若有异常特征，则过程转到步骤S5080。

例如，针对一个具体语音特征参数，对其预定数量个(例如，50个)采样求平均值和标准偏差，然后将采样值与平均值之间的偏差超过标准偏差的采样确定为异常特征。例如，可以将每个元素的值与对应于该元素的平均值之间的偏差的总和超过对应于每个元素的标准偏差的总和的语音特征矩阵确定为异常语音特征矩阵，从而剔除它。求平均的方法可以有多种，例如，可以采用算术平均，或者对数平均等。

判断异常特征的方法也不限于上述方法。可以构思出其它能够判断出一个语音特征的采样值明显偏离了讲话人的正常语音特征的方法，它们也应包括在本发明的范围中。

在步骤S5080，剔除异常语音特征(语音特征矩阵)，然后转到步骤S5090。

在步骤S5090，确定所生成的个性化语音特征(语音特征矩阵)是否达到预定数量(例如，50个)。若结果为“否”，则转到步骤S5095。若结果为“是”，则例如对这些个性化语音特征进行平均，将平均后的个性化语音特征进行存储以备后面的TTS过程使用，然后结束该个性化语音特征提取过程。

在步骤S5095，判断是否已进行了预定次数(例如，100次)的个性化语音特征识别过程，即，对预定数量个语音片断(通话过程)进行了分析。若结果为“否”，则转到步骤S5020，重复以上过程，在再一次语音通话过程中，针对新的语音片断，继续提取个性化语音特征。若结果为“是”，则例如对所提取的个性化语音特征进行平均，将平均后的个性化语音特征进行存储以备后面的TTS过程使用，然后结束该个性化语音特征提取过程。

另外，可以针对各个关键字单独识别个性化语音特征，随后应用该个性化语音特征进行对文本消息进行个性化文本语音合成。以后，可以在新的通话过程中不断更新个性化语音特征库。

上面的流程图只是例示性和说明性的，根据本发明的方法并非必须包括上面每一个步骤，其中某些步骤是可以删除、合并或者颠倒次序的。只要没有脱离本发明的精神和范围，这些变型例都应包括在本发明的范围内。

下面结合在移动电话和无线通信网络中或者在计算机和诸如互联网的网络中的应用，对本发明的个性化文本语音合成技术进行进一步的说明。

图6例示了根据本发明第三实施方式的移动电话600的操作电路601或系统构成的示意框图，其中包括有根据本发明第一实施方式的pTTS装置6000。该图是示例性的；还可以使用其他类型的电路，来补充或代替该操作电路，以实现电信功能或其他功能。该操作电路601包括控制器610(有时也称为处理器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置)，该控制器610接收输入并控制所述操作电路601的各个部分和操作。输入模块630向控制器610提供输入。该输入模块630例如为按键或触摸输入装置。摄像机660可以包括镜头、快门、图像传感器660s(例如，诸如CCD(电荷耦合器件)的数字图像传感器、CMOS器件、或其他图像传感器)。图像传感器660s检测到的图像可以提供给控制器610，以按常规方式使用，例如，存储、传送等。

显示控制器625对来自触摸屏显示器620或来自其他类型的能够向该显示控制器625提供输入的显示器620的输入进行响应。这样，例如，触摸笔或手指对触摸屏显示器620的一部分的接触，例如，在显示的图片列表中选择图片，在显示器620上示出的图形用户界面(GUI)中选择图标或功能，可以按常规方式向控制器610提供输入。显示控制器625还可以接收来自控制器610的输入，以在显示器620上示出图像、图标、信息等。输入模块630例如可以是按键本身，和/或可以是信号调节电路、解码电路或其它用于向控制器610提供表示按常规方式操作一个或更多个按键的信息的合适电路。

存储器640耦合到控制器610。该存储器640可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器640可以是某种其它类型的装置。存储器640包括缓冲存储器641(有时被称为缓冲器)。存储器640可以包括应用/功能存储部642，该应用/功能存储部642用于存储应用程序和功能程序或用于通过控制器610执行移动电话600的操作的例程。存储器640还可以包括数据存储部643，该数据存储部643用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由移动电话600使用的数据。存储器640的驱动程序存储部644可以包括移动电话600的用于通信功能和/或用于执行移动电话600的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

移动电话600包括电信部。电信部例如包括通信模块650，即经由天线655发送出站信号和接收入站信号的发送机/接收机650。通信模块(发送机/接收机)650耦合到控制器610，以提供输入信号和接收输出信号，这可以和常规移动电话的情况相同。通信模块(发送机/接收机)650还经由音频处理器670耦合到扬声器672和麦克风671，以经由扬声器672提供音频输出，和接收来自麦克风671的音频输入，从而实现通常的电信功能。扬声器672和麦克风671使得用户能够通过移动电话600进行收听和讲话。音频处理器670可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器670还耦合到控制器610，从而使得可以通过麦克风671在本机上录音，且使得可以通过扬声器672来播放本机上存储的声音。

移动电话600还包括电源605，电源605可以被耦合以在合上通/断开关606后向操作电路601提供电力。

对于可以从GUI选择的电信功能和/或各种其它应用和/或功能，移动电话600可以按常规方式操作。例如，移动电话600可以发起和接收电话呼叫，播放歌曲、图片、视频、电影等，拍摄和存储照片或视频，制作、保存、维护、和显示文件和数据库(如联系人或其它数据库)，浏览因特网，日历提醒等。

移动电话600中包括的pTTS装置6000和前面参照图1、图2、图4所描述的pTTS装置1000的结构基本相同，这里不再详细描述。需要说明的是，一般而言，并不需要在移动电话600上设置专门的部件来实现pTTS装置6000，而是通过已有的硬件(例如，控制器610、通信模块650、音频处理器670、存储器640、输入模块630、显示器620等)并结合相应的实现本发明的pTTS装置的功能的应用程序，来在移动电话600中实现pTTS装置600。但本发明并不排除将pTTS装置6000实现为专门的芯片或硬件的实施方式。

在一个实施方式中，可以pTTS装置6000与移动电话600中已经实现的电话本功能相结合，以与电话本中的各个联系人相关联地设置、存储关键字，在和电话本中记录的一个联系人进行通话时，自动或根据设置利用与该联系人相关联的关键字对该联系人的通话语音进行分析，以提取其个性化语音特征，并将所提取的个性化语音特征与该联系人相关联地进行存储。随后，例如，在收到该联系人发送来的文本短消息或电子邮件时，可以自动或根据设置将该文本短消息或电子邮件的内容合成为具有该联系人的发音特点的语音数据，并通过扬声器输出。还可以在通话过程中提取移动电话600的用户本身的个性化语音特征数据，并在随后用户通过移动电话600的文本传送功能发送短消息时，自动或根据设置将文本短消息合成为具有该用户发音特点的语音数据并发送。

这样，在移动电话600的用户使用移动电话600与电话本上记录的任何联系人进行通话时，都可以提取通话对方以及用户本身的个性化语音特征，并随后在收发文本消息时，将该文本消息合成为具有文本消息的发送者的发音特点的个性化语音数据并输出。

因此，虽然在图中未示出，但可以想到的是，移动电话600可以包括：语音特征识别触发部，其被设置为，在利用移动电话600进行语音通话时，触发pTTS装置6000对语音通话中的任一方或双方讲话人的语音片断进行个性化语音特征识别，以生成并存储与语音通话中的任一方或双方讲话人相关联的个性化语音特征库；和文本语音合成触发部，其被设置为，在利用移动电话600发送文本消息或者接收文本消息时，查询在移动电话600中是否存储有与文本消息的发送方用户或者文本消息的来源方用户相关联的个性化语音特征库，并在查询结果为肯定时，触发pTTS装置6000，将待发送的文本消息或者接收到的文本消息合成为语音片断，并将该语音片断发送给对方或者在所述通信终端处呈现给本地用户。语音特征识别触发部和文本语音合成触发部可以是通过软件实现的内嵌式功能，或者可以分别实现为与移动电话600的语音通话功能和文本传送功能相关联的菜单，或者也可以实现为移动电话600上的单独操作开关，对该操作开关的操作将触发pTTS装置6000的语音特征识别操作或个性化文本语音合成操作。

另外，移动电话600还可以具有在通过过程中在通话双方之间相互传递个性化语音特征数据的功能。例如，当用户A和用户B通过各自的移动电话a、b通话时，用户A的移动电话a可以将其中已存储的用户A的个性化语音特征数据传送给用户B的移动电话b，也可以请求并接收用户B的移动电话b中存储的用户B的个性化语音特征数据。相应地，可以在移动电话600中设置与该功能对应的软件代码或硬件、固件等。

这样，在使用移动电话600进行语音通话的过程中，可以自动或者根据用户的设置来利用移动电话600中嵌入的个性化TTS模块以及语音特征识别触发模块和个性化文本语音合成触发模块，针对呼入/呼出的语音进行个性化语音特征识别，并对识别出的个性化语音特征进行滤选、保存，进而在接收到或者发出文本消息时，该个性化TTS模块可以利用相关联的个性化语音特征库来将该文本消息合成为语音输出。例如，在携带移动电话600的用户正在移动时或者处于其他不便收看文本消息的状态下时，可以收听语音合成的该文本消息，并且容易辨识出文本消息的发送者是谁。

根据本发明的另一实施方式，还可以将前述的pTTS模块及语音特征识别触发模块和文本语音合成触发模块实现在无线通信网络的网络控制装置(例如，无线网络控制器RNC等)而非移动终端上。移动终端的用户可以进行设置，以确定是否启用该pTTS模块的功能。这样，可以减少移动终端的设计变化，并且尽量避免占用移动终端的有限的资源。

根据本发明的另一实施方式，可以在因特网上的彼此间可以进行文本和语音通信的计算机客户端中嵌入这样的个性化TTS模块及语音特征识别触发模块和文本语音合成触发模块。例如，将该个性化TTS模块与现有的即时通信应用(如MSN)结合起来。目前的即时通信应用既可以进行文本消息传送，也可以进行音频和视频通信。文本消息的传送占用网络资源少，但有时不便利。而使用音频和视频的通信，由于占用网络资源多，受网络影响，有时会有中断或者滞后。而根据本发明，例如通过将个性化TTS模块与现有的即时通信应用(如MSN)结合起来，可以在进行音频通信的过程中在计算机客户端处创建用户的个性化语音特征库，随后，当接收到文本消息时，可以利用与该文本消息的发送者相关联的个性化语音特征库，对该文本消息进行语音合成并输出。这克服了直接进行音频通信存在的受网络影响会有中断或者滞后的缺点，而且，使得不在计算机客户端旁的用户也可以获知文本消息的内容，并且辨识出文本消息的发送者。

根据本发明的另一实施方式，可以在因特网上的使多个计算机客户端彼此间可以进行文本和语音通信的服务器上嵌入这样的个性化TTS模块及语音特征识别触发模块和文本语音合成触发模块。例如，对于即时通信应用(如MSN)的服务器，在用户通过即时通信应用进行语音通信时，即可利用个性化TTS模块创建该用户的个性化语音特征库。这样，可以在服务器上形成一个包括大量用户的个性化语音特征库的数据库。即时通信应用的用户在任一计算机客户端上使用该即时通信应用，都可以享受该个性化TTS服务。

尽管以上仅选择了优选实施例来例示本发明，但是本领域技术人员根据这里公开的内容，很容易在不脱离由所附权利要求限定的发明范围的情况下进行各种变化和修改。上述实施例的说明仅是例示性的，而不构成对由所附权利要求及其等同物所限定的发明的限制。

应当理解，本发明的各部分可以用硬件、软件、固件或者它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可以用本领域共知的下列技术中的任一项或者他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

流程图中或在此以其它方式描述的任何过程或方法描述或框可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程中的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中，可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或者按相反的顺序，来执行功能，这应被本发明所述技术领域的技术人员所理解。

在流程图中表示或者在此以其它方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质例如可以是但不限于电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或更多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)(电子装置)，只读存储器(ROM)(电子装置)，可擦除可编程只读存储器(EPROM或闪速存储器)(电子装置)，光纤(光装置)，以及便携式光盘只读存储器(CDROM)(光学装置)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其它合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

上述文字说明和附图示出了本发明的各种不同的特征。应当理解，本领域普通技术人员可以准备合适的计算机代码来实现上面描述且在附图中例示的各个步骤和过程。还应当理解，上面描述的各种终端、计算机、服务器、网络等可以是任何类型的，并且可以根据公开内容来准备所述计算机代码以利用所述装置实现本发明。

在此公开了本发明的特定实施方式。本领域的普通技术人员将容易地认识到，本发明在其他环境下具有其他应用。实际上，还存在许多实施方式和实现。所附权利要求绝非为了将本发明的范围限制为上述具体实施方式。另外，任意对于“用于……的装置”的引用都是为了描绘要素和权利要求的装置加功能的阐释，而任意未具体使用“用于……的装置”的引用的要素都不希望被理解为装置加功能的元件，即使该权利要求包括了“装置”的用词。

尽管已经针对特定优选实施方式或多个实施方式示出并描述了本发明，但是显然，本领域技术人员在阅读和理解说明书和附图时可以想到等同的修改例和变型例。尤其是对于由上述要素(部件、组件、装置、组成等)执行的各种功能，除非另外指出，希望用于描述这些要素的术语(包括“装置”的引用)对应于执行所述要素的具体功能的任意要素(即，功能等效)，即使该要素在结构上不同于在本发明的所例示的示例性实施方式或多个实施方式中执行该功能的公开结构。另外，尽管以上已经针对几个例示的实施方式中的仅一个或更多个描述了本发明的具体特征，但是可以根据需要以及从对任意给定或具体应用有利的方面考虑，将这种特征与其他实施方式的一个或更多个其他特征相结合。

Claims

1.一种个性化文本语音合成装置，其包括：

2.如权利要求1所述的个性化文本语音合成装置，其中，所述个性化语音特征库创建部包括：

语音特征识别单元，其识别在所述特定讲话人的所述语音片断中是否存在与所述特定讲话人相关联的关键字，并且在识别出所述特定讲话人的所述语音片断中存在所述关键字时，根据所识别出的关键字的标准读音和所述讲话人的发音，来识别出所述特定讲话人的语音特征；以及

3.如权利要求2所述的个性化文本语音合成装置，其中，所述关键字设置单元进一步被设置为，针对多种特定语言设置适于体现所述特定讲话人的发音特点的关键字。

4.如权利要求2所述的个性化文本语音合成装置，其中，所述语音特征识别单元进一步被设置为，通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

5.如权利要求1所述的个性化文本语音合成装置，其中，所述个性化语音特征库创建部进一步被设置为，在接收到所述特定讲话人的新的语音片断时，更新与所述特定讲话人相关联的个性化语音特征数据库。

6.如权利要求2所述的个性化文本语音合成装置，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

7.如权利要求6所述的个性化文本语音合成装置，其中，所述语音特征滤选单元进一步被设置为，针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

8.如权利要求1所述的个性化语音合成装置，其中，所述关键字是单音节高频用字。

9.一种个性化文本语音合成方法，其包括：

针对特定语言预先设定一个或更多个关键字；

接收特定讲话人的随意性的语音片断；

10.如权利要求9所述的个性化文本语音合成方法，其中，所述关键字被设置为适于体现所述特定讲话人的发音特点，并且被与所述特定讲话人相关联地存储起来。

11.如权利要求10所述的个性化文本语音合成方法，其中，所述创建与所述特定讲话人相关联的个性化语音特征库的步骤包括：

12.如权利要求11所述的个性化文本语音合成方法，其中，针对多种特定语言设置了适于体现所述特定讲话人的发音特点的关键字。

13.如权利要求11所述的个性化文本语音合成方法，其中，通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

14.如权利要求9所述的个性化语音合成方法，其中，所述创建个性化语音特征库的步骤包括：在接收到所述特定讲话人的新的语音片断时，更新与所述特定讲话人相关联的个性化语音特征库。

15.如权利要求11所述的个性化文本语音合成方法，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

16.如权利要求15所述的个性化文本语音合成方法，其中，针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

17.如权利要求9所述的个性化语音合成方法，其中，所述关键字是单音节高频用字。

18.一种具有文本传送和语音通话能力的通信终端，所述通信终端通过无线通信网络或者有线通信网络相连接，以使得彼此间能够进行文本传送或语音通话，

其中，所述通信终端包括文本传送装置、语音通话装置、以及如权利要求1到8中的任一项所述的个性化文本语音合成装置。

19.如权利要求18所述的通信终端，其中，所述通信终端还包括：

20.如权利要求18或19所述的通信终端，其中，该通信终端是移动电话。

21.如权利要求18或19所述的通信终端，其中，该通信终端是计算机客户端。

22.一种具有文本传送和语音通话能力的通信系统，该通信系统包括控制装置和多个通信终端，所述多个通信终端能够经由所述控制装置进行文本传送和语音通话，

其中，在所述控制装置上设置有如权利要求1到8中的任一项所述的个性化文本语音合成装置。

23.如权利要求22所述的通信系统，其中，所述控制装置还包括：

24.如权利要求22或23所述的通信系统，其中，所述控制装置是无线网络控制器，所述通信终端是移动电话，并且所述无线网络控制器和所述移动电话间通过无线通信网络相连接。

25.如权利要求22或23所述的通信系统，其中，所述控制装置是服务器，所述通信终端是计算机客户端，并且所述服务器和所述计算机客户端通过因特网相连接。

26.一种个性化语音特征提取装置，其包括：

语音特征识别单元，其识别在所述特定讲话人的随意性的语音片断中是否存在与所述特定讲话人相关联的关键字，并且在识别出所述特定讲话人的所述语音片断中存在所述关键字时，根据所识别出的关键字的标准读音和所述讲话人的发音，来识别出所述特定讲话人的语音特征；以及

27.如权利要求26所述的个性化语音特征提取装置，其中，所述关键字设置单元进一步被设置为，针对多种特定语言设置适于体现所述特定讲话人的发音特点的关键字。

28.如权利要求26所述的个性化语音特征提取装置，其中，所述语音特征识别单元进一步被设置为，通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

29.如权利要求26所述的个性化语音特征提取装置，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

30.如权利要求29所述的个性化语音特征提取装置，其中，所述语音特征滤选单元进一步被设置为，针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

31.如权利要求26所述的个性化语音特征提取装置，其中，所述关键字是单音节高频用字。

32.一种个性化语音特征提取方法，其包括：

识别在所述特定讲话人的随意性的语音片断中是否存在与所述特定讲话人相关联的关键字，并且在识别出所述特定讲话人的所述语音片断中存在所述关键字时，根据所识别出的关键字的标准读音和所述讲话人的发音，来识别出所述特定讲话人的语音特征；以及

33.如权利要求32所述的个性化语音特征提取方法，其中，所述设置关键字的步骤包括：针对多种特定语言设置适于体现所述特定讲话人的发音特点的关键字。

34.如权利要求32所述的个性化语音特征提取方法，其中，所述识别步骤包括：通过对所述特定讲话人的所述语音片断与所述关键字的标准读音就它们各自的通过对相应时域语音数据执行时域到频域变换而获得的语音频谱进行比对，来识别在所述特定讲话人的所述语音片断中是否存在所述关键字。

35.如权利要求32所述的个性化语音特征提取方法，其中，表征语音特征的参数包括音频、音量、节奏、尾音。

36.如权利要求35所述的个性化语音特征提取方法，其中，所述滤选处理包括：针对表征语音特征的各个参数，来对相应的语音特征进行滤选。

37.如权利要求32所述的个性化语音特征提取方法，其中，所述关键字是单音节高频用字。