CN101981614B

CN101981614B - 媒体处理服务器设备及其媒体处理方法

Info

Publication number: CN101981614B
Application number: CN200980111721.7A
Authority: CN
Inventors: 磯部慎一; 薮崎正实
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2008-04-08
Filing date: 2009-04-02
Publication date: 2012-06-27
Anticipated expiration: 2029-04-02
Also published as: EP2267696A4; WO2009125710A1; KR20100135782A; EP2267696A1; KR101181785B1; CN101981614A; JPWO2009125710A1; US20110093272A1

Abstract

媒体处理服务器设备具有在按情感归类之后，保存与用户标识符关联的语音合成用数据的语音合成数据存储装置，根据从消息服务器设备接收的文本消息，确定文本的情感的文本分析器，和通过利用对应于确定的情感，并且与作为文本消息的传送者的用户的用户标识符关联的语音合成用数据，合成对应于所述文本的语音，生成带情感表现的语音数据的语音数据合成器。

Description

媒体处理服务器设备及其媒体处理方法

技术领域

本发明涉及能够根据文本数据合成语音消息的媒体处理服务器设备和媒体处理方法。

背景技术

由于高度发达的信息处理技术和通信技术，电子邮件代表的利用文本的消息通信目前得到广泛使用。在这种利用文本的消息通信中，常常在消息中使用图形表情符号，和通过组合多于一个的字符而创建的文本表情符号或脸谱，以情感更丰富地表达消息的内容。

常规地，已知一种终端设备，该终端设备具有用发信人的声音，充满情感地朗读包含在电子邮件中的消息的功能(例如，参见专利文献1)。

在把从通话中得到的语音数据获得的声音特征数据归类到各种情感之后，在专利文献1中描述的终端设备关联地保存所述声音特征数据和电话号码或邮件地址。此外，当从为其保存声音特征数据的通信对方收到消息时，终端设备判定包含在消息中的文本数据对应于哪种情感，通过利用对应于邮件地址的声音特征数据执行语音合成，并进行消息的朗读。

专利文献1：日本专利公布No.3806030

发明内容

但是，在上面的常规终端设备中，由于诸如存储器容量之类的限制，其声音特征数据能够被记录的通信对方的数目，或者每位通信对方的声音特征数据的记录数有限。于是，存在能够用于合成的情感表现变化很少，合成的精确度降低的问题。

鉴于上述问题，做出了本发明，本发明的目的是提供一种能够根据文本数据，合成质量高并且情感表现丰富的语音消息的媒体处理服务器设备及其媒体处理方法。

为了解决上述问题，本发明提供一种媒体处理服务器设备，用于通过合成与在多于一个的通信终端间发射和接收的文本消息对应的语音，生成语音消息，所述媒体处理服务器设备具有语音合成数据存储装置，用于在按情感类别归类之后，保存与唯一地识别多于一个的通信终端的相应用户的用户标识符关联的语音合成用数据；情感判定器，用于当收到从多于一个的通信终端中的第一通信终端传来的文本消息时，提取收到的文本消息的每个判定单元的情感信息，所述情感信息提取自判定单元中的文本，并根据提取的情感信息判定情感类别；和语音数据合成器，用于从语音合成数据存储装置读取和指示第一通信终端的用户的用户标识符关联的语音合成用数据中的、与情感判定器判定的情感类别对应的语音合成用数据，并利用读取的语音合成用数据，合成与判定单元的文本对应的带情感表现的语音数据。

本发明的媒体处理服务器设备保存按用户并按情感类别归类的语音合成用数据，并根据文本消息的情感类别的判定结果，利用作为文本消息的传送者的用户的语音合成用数据，合成语音数据。于是，能够利用传送者本身的声音生成富有情感的语音消息。此外，由于保存语音合成用数据的存储装置设置在媒体处理服务器设备，因此与所述存储装置被设置在诸如通信终端之类终端设备的情况相比，能够记录大量的语音合成用数据。于是，由于为其记录语音合成用数据的用户的数目，和每位用户能够被记录的语音合成用数据的数目被增大，能够合成高质量并且情感表现丰富的语音消息。不需要在终端设备中记录语音合成用数据，尽管按照惯例语音合成数据是记录在终端设备中的，终端设备的存储容量不再有负担。此外，由于判定文本消息的情感的功能和合成语音的功能不再是必需的，因此减轻了终端设备的处理负荷。

按照本发明的优选实施例，在提取情感符号作为情感信息的情况下，情感判定器可根据情感符号判定情感类别，情感符号用多于一个的字符的组合表现情感。例如，情感符号是文本表情符号，由作为消息的传送者的通信终端的用户输入。换句话说，情感符号表示用户指定的情感。于是，通过提取情感符号作为情感信息，并根据情感符号判定情感类别，能够获得更准确地反映消息的传送者的情感的判定结果。

按照本发明的另一个实施例，在要插入文本中的图像被附加在接收的文本消息上的情况下，除了判定单元中的文本之外，情感判定器还可从要插入文本中的图像提取情感信息，当用图形表现情感的情感图像被提取为情感信息时，情感判定器可根据情感图像判定情感类别。例如，情感图像是图形表情符号图像，是由作为消息的传送者的通信终端的用户通过选择输入的。换句话说，情感图像表示用户指定的情感。于是，通过提取情感图像作为情感信息，并根据情感图像判定情感类别，能够获得更准确地反映消息的传送者的情感的判定结果。

最好，在从判定单元提取的情感信息多于一个的情况下，情感判定器可判定所述多于一个的情感信息中的每个情感信息的情感类别，并从判定的情感类别之中选择出现次数最多的情感类别作为判定结果。按照该实施例，能够选择判定单元中最突出出现的情感。

另一方面，在从判定单元提取的情感信息多于一个的情况下，情感判定器可根据出现在与判定单元的终点最接近的位置的情感信息，判定情感类别。按照该实施例，能够从消息中的传送者的情感之中，选择更接近传送时刻的情感。

在本发明的又一个优选实施例中，语音合成数据存储装置可另外保存为每种情感类别，设置所述多于一个的通信终端的每位用户的语音模式的特征的参数，语音数据合成器可根据所述参数调整合成的语音数据。在本实施例中，由于利用为每位用户保存的取决于情感类别的参数，调整语音数据，因此生成与用户的语音模式的特征匹配的语音数据。于是，能够生成反映作为传送者的用户的个人的声音特征的语音消息。

最好，所述参数是关于每位用户保存的，并按情感归类的语音合成用数据中的话音的音量平均值、话速平均值、语调平均值和频率平均值至少之一。这种情况下，根据每个用户的话音的音量、语速(话速)、语调(抑扬顿挫、节奏和重读)、和频率(音高)，调整语音数据。于是，能够再现更接近用户本人话音的腔调的语音消息。

按照本发明的另一个优选实施例，语音数据合成器可把判定单元中的文本分解成多于一个的合成单元，并执行每个合成单元的语音数据的合成，当与情感判定器判定的情感对应的语音合成用数据未被包括在与指示第一通信终端的用户的用户标识符关联的语音合成用数据中时，语音数据合成器可从与指示第一通信终端的用户的用户标识符关联的语音合成用数据之中，选择和读取其发音部分与合成单元的文本一致的语音合成用数据。按照本发明，即使要被语音合成的文本的字符串实际上未保存在语音合成数据存储装置中，也能够进行语音合成。

另外，本发明提供一种供通过合成与在多于一个的通信终端间发射和接收的文本消息对应的语音，生成语音消息的媒体处理服务器设备之用的媒体处理方法，所述媒体处理服务器设备具有语音合成数据存储装置，用于在按情感类别归类之后，保存与唯一地识别多于一个的通信终端的相应用户的用户标识符关联的语音合成用数据，所述方法具有当收到从多于一个的通信终端中的第一通信终端传来的文本消息时，提取收到的文本消息的每个判定单元的情感信息，并根据提取的情感信息判定情感类别的判定步骤，所述情感信息提取自判定单元中的文本；和从语音合成数据存储装置读取和指示第一通信终端的用户的用户标识符关联的语音合成用数据中的、与在判定步骤中判定的情感类别对应的语音合成用数据，并利用读取的语音合成用数据，合成与判定单元的文本对应的语音数据的合成步骤。按照本发明，能够获得与上面的媒体处理服务器设备中相同的效果。

按照本发明，可提供能够根据文本数据，合成质量高，并且情感表现丰富的语音消息的媒体处理服务器设备及其媒体处理方法。

附图说明

图1是表示带情感表现的语音合成消息系统的简化结构图，该系统包括按照本发明的实施例的媒体处理服务器设备。

图2是按照本发明的实施例的通信终端的功能结构图。

图3是按照本发明的实施例的媒体处理服务器设备的功能结构图。

图4是描述在按照本发明的实施例的语音合成数据存储装置处管理的数据的示图。

图5是描述按照本发明的实施例的媒体处理方法的过程的时序图。

具体实施方式

下面将参考附图，详细说明本发明的实施例。在说明附图时，相同的附图标记被分配给相同的元件，相同元件的描述将被省略。

图1表示带情感表现的语音合成消息系统(下面简称为“语音合成消息系统”)，该系统包括按照本实施例的媒体处理服务器设备。语音合成消息系统具有多于一个的通信终端10(10a，10b)，能够在通信终端间实现文本消息的发射和接收的消息服务器设备20，为通信终端保存和处理媒体信息的媒体处理服务器设备30，和连接各个设备的网络N。为了说明的简明起见，图1只表示了两个通信终端10，不过实际上，语音合成消息系统包括大量的通信终端。

网络N是通信终端10的连接点，向通信终端10提供通信服务，例如是移动通信网络。

通信终端10经由中继装置(未示出)无线或者有线地与网络N连接，能够经由中继装置和与网络N连接的另一个通信终端进行通信。尽管未示出，不过通信终端10被配置成具有硬件，例如CPU(中央处理器)、作为主存储装置的RAM(随机存取存储器)和ROM(只读存储器)、进行通信的通信模块、和比如硬盘之类的辅助存储装置的计算机。这些组件相互协同工作，从而实现通信终端10(后面说明)的功能。

图2是通信终端10的功能结构图。如图2中所示，通信终端10具有发射器-接收器101，文本消息生成器102，语音消息重放单元103，输入装置104和显示单元105。

当从文本消息生成器102收到文本消息时，发射器-接收器101经网络N把文本消息发射给消息服务器设备20。例如，文本消息是电子邮件、聊天消息或者IM(即时消息接发)消息。当经网络N从消息服务器设备20收到在媒体处理服务器设备30语音合成的语音消息时，发射器-接收器101把语音消息传送给语音消息重放单元103。当收到文本消息时，发射器-接收器101把文本消息传送给显示单元105。

输入装置104是触摸面板和键盘，把输入的字符传送给文本消息生成器102。当通过选择输入了要插入文本中的图形表情符号图像时，输入装置104把输入的图形表情符号图像传送给文本消息生成器102。在选择图形表情符号图像的过程中，保存在通信终端10的存储器(未示出)中的图形表情符号词典被显示在显示单元105上，通过操作输入装置104，通信终端10的用户能够从显示的图形表情符号图像中选择希望的图像。例如，这种图形表情符号词典包括由网络N的通信公司唯一提供的图形表情符号词典。“图形表情符号图像”包括其中用图形表达情感的情感图像，和其中用图形表达事件或对象的非情感图像。情感图像包括其中用面部表情的变化表达情感的面部表情情感图像，和能够根据图形本身推断情感的非面部表情情感图像，比如表示“愤怒”的炸弹图像，或者表示“喜悦”和“好意”的心脏图像。非情感图像包括表示天气的太阳或雨伞的图像，和表示运动的种类的球或球拍的图像。

输入字符可包括用字符的组合(字符串)表现情感的文本表情符号或脸谱(情感符号)。文本表情符号用字符串表现情感，所述字符串是诸如逗号、冒号和连字号之类的标点符号，诸如星号和“”(“at符号”)之类的符号，字母表的一些字母(“m”和“T”)等的组合。典型的文本表情符号是表示笑脸的“:)”(冒号是眼睛，圆括号是嘴)，表示怒脸的“＞:(”，和表示哭脸的“T_T”。按照和图形表情符号类似的方式，文本表情符号词典已被保存在该通信终端10的存储器(未示出)中，通过操作输入装置104，通信终端10的用户能够从显示在显示单元105上的文本表情符号中选择希望的文本表情符号。

文本消息生成器102从由输入装置104输入的字符和文本表情符号生成文本消息，以便传送给发射器-接收器101。当要输入文本中的图形表情符号图像由输入装置104输入，并被传送给文本消息生成器102时，文本消息生成器生成文本消息，所述文本消息包括作为附加图像的图形表情符号图像，以便传送给发射器-接收器101。这种情况下，文本消息生成器102生成指示图形表情符号图像的插入位置的插入位置信息，并通过把插入位置信息附在文本消息上，把插入位置信息传送给发射器-接收器101。在附加多于一个的图形表情符号图像的情况下，为每个图形表情符号图像生成所述插入位置信息。文本消息生成器102是安装在通信终端10中的电子邮件、聊天或IM的软件。不过，文本消息生成器102并不局限于软件，相反可由硬件构成。

当从发射器-接收器101收到语音消息时，语音消息重放单元103重放语音消息。语音消息重放单元103是语音编码器和扬声器。当从发射器-接收器101收到文本消息时，显示单元105显示文本消息。在图形表情符号图像被附加在文本消息上的情况下，显示文本消息，同时在由插入位置信息指定的位置插入图形表情符号图像。例如，显示单元105是LCD(液晶显示器)，不但能够显示接收的文本消息，而且能够显示各种信息。

通信终端10一般是移动通信终端，不过并不局限于此。例如，可以使用能够进行话音通信的个人计算机或者SIP(会话发起协议)电话机。在本实施例中，将在假定通信终端10是移动通信终端的情况下进行说明。这种情况下，网络N是移动通信网络，上面的中继装置是基站。

消息服务器设备20是安装有电子邮件、聊天、IM用应用服务器计算机程序和其它程序的计算机设备。当从通信终端10收到文本消息时，如果发射器通信终端10预订了语音合成服务，那么消息服务器设备20把接收的文本消息传送给媒体处理服务器设备30。语音合成服务是对用电子邮件、聊天和IM传送的文本消息执行语音合成，并把文本消息作为语音消息传递给目的地的服务。当消息仅仅传送自或者传送给用合同预订语音合成服务的通信终端10时，生成并传递语音消息。

媒体处理服务器设备30与网络N连接，并经由网络N与通信终端10连接。尽管图中未示出，不过媒体处理服务器设备30被配置成具有硬件(比如CPU、作为主存储装置的RAM和ROM、进行通信的通信模块、和诸如硬盘之类的辅助存储装置)的计算机。这些组件相互协同工作，从而实现媒体处理服务器设备30(后面说明)的功能。

如图3中所示，媒体处理服务器设备30具有发射器-接收器301，文本分析器302，语音数据合成器303，语音消息生成器304，和语音合成数据存储装置305。

当从消息服务器设备20收到文本消息时，发射器-接收器301把文本消息传送给文本分析器302。当从语音消息生成器304收到语音合成的消息时，发射器-接收器301把消息传送给消息服务器设备20。

当从发射器-接收器301收到文本消息时，文本分析器302从字符或字符串和附加图像中提取表示文本内容的情感的情感信息，从而根据提取的情感信息推断确定情感类别。文本分析器随后把指示确定的情感类别的信息连同要语音合成的文本数据一起输出给语音数据合成器303。

具体地说，文本分析器302根据个别附加到电子邮件等上的图形表情符号图像和文本表情符号(情感符号)，判定情感。文本分析器302还根据表达诸如“高兴”、“悲伤”、“快乐”之类情感的词语识别文本的情感类别。

更具体地说，文本分析器302关于每个判定单元判定文本的情感类别。在本实施例中，检测文本消息的文本中的标点符号(表示句子结束的终止符；日语中的“。”(小圆)和英语中的句点“.”(圆点))或者空格，以分解文本，从而使用每个分解的文本作为判定单元。

随后，文本分析器302通过从出现在判定单元中的图形表情符号图像、文本表情符号和词语中提取指示表达判定单元的情感的情感信息，来判定情感。具体地说，文本分析器302提取图形表情符号图像的情感图像、每个文本表情符号、和表示情感的每个词语，作为上述情感信息。为此，在媒体处理服务器设备30的存储器(未示出)中保存有图形表情符号词典、文本表情符号词典、和表示情感的词语的词典。在每个文本表情符号词典和图形表情符号词典中保存有与每个文本表情符号和图形表情符号对应的词语的字符串。

由于文本表情符号和图形表情符号图像能够表达许多不同种类的情感，因此情况通常是与用句子表达情感相比，用文本表情符号和图形表情符号图像能够更容易、更准确地表达情感。于是，电子邮件(尤其是移动电话机的电子邮件)、聊天、IM等的文本消息的传送者往往会依靠文本表情符号和图形表情符号图像表达传送者的情感。由于本实施例被这样配置，以致在确定诸如电子邮件、聊天、IM之类文本消息的情感时，使用文本表情符号和图形表情符号图像，因此依据消息的传送者他/她本人指定的情感判定情感。于是，与仅仅利用包含在句子中的词语判定情感的情况相比，能够获得更准确地反映消息的传送者的情感的判定结果。

在多于一个的情感信息出现在一个判定单元中的情况下，文本分析器302可确定每个情感信息的情感类别，并计数每个确定的情感类别的出现次数，以选择出现次数最大的情感，或者可以选择出现在最接近判定单元的结尾或终点的位置的图形表情符号、文本表情符号或词语的情感。

就把文本数据分离成判定单元的方法而论，应根据编写文本的语言的特征，恰当地改变和设置判定单元的分离点。此外，应根据所述语言恰当地选择要提取为情感信息的词语。

如上所述，文本分析器302充当所接收文本消息的每个判定单元的情感判定器，用于从判定单元中的文本中提取情感信息，并根据提取的情感信息判定情感类别。

此外，文本分析器302对分解成判定单元的文本执行词法分析，把每个判定单元分解成更小的合成单元。合成单元是进行语音合成处理(语音合成处理或文本到语音处理)时的标准单元。在把表示判定单元中的文本的文本数据分割成合成单元之后，文本分析器302把文本数据连同指示关于整个判定单元的情感判定结果的信息一起传送给语音数据合成器303。当在判定单元的文本数据中包括文本表情符号时，文本分析器用对应词语的字符串替换构成该文本表情符号的字符串，以便随后作为一个合成单元传送给语音数据合成器303。类似地，在包括图形表情符号图像的情况下，文本分析器用对应词语的字符串替换该图形表情符号图像，以便随后作为一个合成单元传送给语音数据合成器303。通过参照保存在存储器中的文本表情符号词典和图形表情符号词典，执行文本表情符号和图形表情符号的替换。

可能存在其中文本消息包括作为句子的基本构成要素的图形表情符号图像或文本表情符号的情况(例如，“今天[代表“下雨”的图形表情符号]。”)，和其中在词语的字符串之后直接包括图形表情符号或文本表情符号至少之一(所述图形表情符号或文本表情符号具有与该词语相同的含意)的情况(例如，“今天下雨[代表“下雨”的图形表情符号]”)。在后一情况下，如果执行上述替换，那么会在“下雨”的字符串之后插入与“下雨”的图形表情符号图像对应的字符串。于是，在两个连续的合成单元的字符串相同或几乎相同的情况下，在把文本数据传送给语音数据合成器303之前，可先删除它们之一。或者，文本分析器可检索包括图形表情符号图像或文本表情符号的判定单元是否还包括含意与该图形表情符号图像或文本表情符号相同的词语，如果是，那么可以简单地删除该图形表情符号或文本表情符号，而不用字符串替换它。

语音数据合成器303从文本分析器302接收要语音合成的文本数据，和表示该文本数据的判定单元的情感类别的信息。对于每个合成单元，语音数据合成器303根据接收的文本数据和情感信息，从语音合成数据存储装置305中的通信终端10a的数据中取回与所述情感类别对应的语音合成用数据，并且如果已记录了实际上与文本数据对应的语音，那么读取并使用该语音合成用数据。

在未记录实际上与合成单元的文本数据对应的语音的情况下，语音数据合成器303读取相对相似的词语的语音合成用数据，并把该数据用于合成语音数据。当完成了判定单元中的每个合成单元的文本数据的语音合成时，语音数据合成器303组合各个合成单元的语音数据，从而生成整个判定单元的语音数据。

相对相似的词语是其发音部分相同的词语，例如，对“tanoshi-katta”(enjoyed)和“tanoshi-mu”(enjoy)来说，是“tanoshi-i”(enjoyable)。具体地说，如果记录了与词语“tanoshi-i”对应的语音合成用数据，但是未记录与其日语字尾被改变的词语(比如“tanoshi-katta”和“tanoshi-mu”)对应的语音合成用数据，那么提取记录的“tanoshi”(“tanoshi-katta”和“tanoshi-mu”的词干部分)的语音合成用数据，并从相同情感类别中的另一个词语中提取“tanoshi-katta”的“-katta”或者“tanoshi-mu”的“-mu”，从而合成“tanoshi-katta”或“tanoshi-mu”。同样地，在未关于图形表情符号和文本表情符号记录对应的字符串的情况下，通过提取相对类似的词语，能够合成语音数据。

图4是在语音合成数据存储装置305管理的数据。对于每位用户，与诸如通信终端ID、邮件地址、聊天ID或IM ID之类的用户标识符关联地管理该数据。在图4的例子中，通信终端ID被用作用户标识符，作为例子表示了通信终端10a的数据3051。通信终端10a的数据3051是通信终端10a的用户本人的声音的语音数据，并且如图所示，是在其中记录语音数据而不将该语音数据归类到各种情感的语音数据3051a和按情感区分的数据部分3051b中管理的。按情感区分的数据部分3051b具有归类到各种情感的语音数据3052，和每种情感的参数3053。

其中记录语音数据而不将该语音数据归类到各种情感的语音数据3051a是在把记录的语音数据分成预定的分段单元(例如，文节(bunsetsu))之后记录的、但是未按情感归类的语音数据。记录在每种情感的数据部分中的语音数据3051a是在把记录的语音数据分成预定的分段单元之后，关于每种情感类别记录的语音数据。在作为语音合成服务的对象的语言是不同于日语的语言的情况下，应利用适合于该语言的分段单元，而不是文节来记录语音数据。

在记录语音数据时，对预订语音合成服务的通信终端10来说，可以考虑：(i)在通信终端10和媒体处理服务器30通过网络N连接的状态下，由对着通信终端10说话的用户在媒体处理服务器设备30录音的方法，(ii)复制通信终端10之间的话音通信的内容，以便保存在媒体处理服务器30的方法，和(iii)把用户在词语语音识别游戏期间，用话音输入的词语保存在通信终端10，并在游戏结束之后，把保存的词语经由网络传送给媒体处理服务器30，以便保存在媒体处理服务器设备30的方法等等。

在对语音数据归类时，可以考虑(i)在媒体处理服务器设备30，为每个用户和每种情感提供存储区，并按照从通信终端10接收的情感类别的指示，把在情感类别的指示时或以后所说的语音数据记录在对应情感的存储区中的方法，和(ii)预先准备供按照情感归类之用的文本信息的词典，在服务器执行语音识别，并且当发现属于每种情感的词语时，自动在服务器对语音数据归类的方法。

从而，在本实施例中，由于语音合成用数据被保存在媒体处理服务器设备30，因此与在存储容量有限的通信终端10保存语音合成用数据的情况相比，能够为其保存语音合成用数据的用户的数目和每位用户的语音合成用数据的记录数能够被增大。于是，能够增大要合成的情感表现的变化，并且能够精度更高地完成合成。因此，能够生成质量更高的语音合成数据。

此外，由于常规的终端设备是在语音通信期间学习和记录通信对方的声音特征数据(语音合成用数据)的，因此，能够利用电子邮件的传送者的语音语音合成的消息局限于终端设备的用户已借助电话机与传送者话音通话的情况。不过，按照本实施例，即使作为文本消息的接收器的通信终端10(例如，通信终端10b)实际上未与传送消息的通信终端10(例如，通信终端10a)进行过话音通信，如果通信终端10a的用户的语音合成用数据被保存在媒体处理服务器设备30，那么也能够接收利用通信终端10a的用户的话音合成的语音消息。

此外，数据部分3051b具有按情感归类的语音数据3052，和按情感记录的语音数据的平均参数3053。按情感归类的语音数据3052是按情感归类并保存在未按情感归类的情况下记录的语音数据而获得的数据。

按照本实施例，在按情感归类或未按情感归类的情况下重复地记录一个数据。于是，实际的语音数据可被记录在记录的语音数据3051a的区域中，而按情感区分的数据区3051b可保存记录的语音数据的文本信息，和实际记录的语音数据的区域的指针(地址，编号)。更具体地说，假定语音数据“enjoyable”被保存在记录的语音数据3051a的区域的地址编号100中，那么可以这样配置，以致按情感区分的数据区3051b把文本信息“enjoyable”保存在“‘enjoyment’的数据”的区域中，另外保存作为实际语音数据的存储位置的地址编号100。

作为参数3053，话音音量、话速、语调或节奏、话音频率等被设置成用于表现与通信终端10a的用户的每种情感对应的语音模式(说话的方式)的参数。

当完成判定单元的语音合成时，语音数据合成器303根据保存在语音合成数据存储装置305中的对应情感的参数3053，调整(处理)合成的语音数据。语音数据合成器再次匹配最终合成的判定单元的语音数据和每种情感的参数，并检查语音数据是否整体与记录的参数相适应。

当完成上述检查时，语音数据合成器303把合成的语音数据传给语音消息生成器304。之后，语音数据合成器对从文本分析器302接收的每个判定单元的文本数据重复上述操作。

对于每种情感类别，每种情感的参数被设置为移动通信终端10的每个用户的语音模式，如图4的参数3053中所示，每种情感的参数是话音音量、话速、语调、频率等等。参照每种情感的参数调整合成的语音意味着按照该情感的平均参数，调整话音的语调和话速。在合成语音时，由于是根据对应的情感选择词语用于语音合成的，因此合成的语音和另一语音的接合点可能听起来不舒服。于是，通过按照情感的平均参数调整话音的语调和话速，能够减少合成的语音和另一语音之间的接合点的使人不舒服的声音。更具体地说，根据关于每种情感记录的语音数据计算语音数据的音量、话速、语调、频率等的平均值，计算出的平均值被保存为代表每种情感的平均参数(图4中的附图标记3053)。语音数据合成器303比较这些平均参数和合成的语音数据的每个值，从而如果发现差异较大，那么调整合成的语音，以致合成的语音的每个值更接近所述平均参数。在上述参数之中，语调被用于调整与判定单元的文本对应的整个一组语音数据的话音的节奏、重读或者抑扬顿挫。

当从语音数据合成器303收到每个判定单元的合成语音数据时，语音消息生成器304连接收到的各个语音数据，从而生成与文本消息对应的语音消息。生成的语音消息由发射器-接收器301传送给消息服务器设备20。例如，在文本消息中的句子是通过插入两个图形表情符号，比如“xxxx[图形表情符号1]yyyy[图形表情符号2]”而构成的情况下，连接各个语音数据意味着按对应于图形表情符号1的情感语音合成在图形表情符号1之前的短语，和按对应于图形表情符号2的情感语音合成在图形表情符号2之前的短语。分别按每种情感合成的各个语音数据最后作为一个句子的语音消息被输出。这种情况下，“xxxx[图形表情符号1]”和“yyyy[图形表情符号2]”均对应于上面的判定单元。

保存在语音合成数据存储装置305中的数据被语音数据合成器303用于生成语音合成数据。即，语音合成数据存储装置305把语音合成用数据和参数提供给语音数据合成器303。

下面参考图5，说明按照本实施例的语音合成消息系统中的处理。该处理表示在经由消息服务器设备20传送从通信终端10a(第一通信终端)到通信终端10b(第二通信终端)的文本消息的过程中，媒体处理服务器设备30合成与文本消息对应的带情感表现的语音消息，以便作为语音消息传送给通信终端10b的处理。

通信终端10a生成去往通信终端10b的文本消息(S1)。文本消息的例子包括IM、电子邮件或聊天。

通信终端10a把在步骤S1中生成的文本消息传给消息服务器设备20(S2)。

当从通信终端10a收到消息时，消息服务器设备20把该消息传递给媒体处理服务器设备(S3)。当收到消息时，消息服务器设备20首先确定通信终端10a或通信终端10b是否预订了语音合成服务。具体地说，消息服务器设备20一旦检查合同信息，并且在消息来自或者去往预订语音合成服务的通信终端10的情况下，把消息传递给媒体处理服务器设备30，否则把消息原样作为普通的文本消息传送给通信终端10b。在文本消息不被传递给媒体处理服务器设备30的情况下，媒体处理服务器设备30不参与文本消息的处理，文本消息是按照和传送或接收普通的电子邮件、聊天或IM的相同方式处理的。

当从消息服务器设备20收到文本消息时，媒体处理服务器设备30确定消息中的情感(S4)。

媒体处理服务器设备30按照在步骤S4中确定的情感，语音合成接收的文本消息(S5)。

当生成语音合成的语音数据时，媒体处理服务器设备30生成与从消息服务器设备20传来的文本消息对应的语音消息(S6)。

当生成语音消息时，媒体处理服务器设备30把语音消息送回消息服务器设备20(S7)。这种情况下，媒体处理服务器设备30把合成的语音消息连同从媒体服务器设备20传来的文本消息一起传送给消息服务器设备20。具体地说，以文本消息的附加文件的形式传送语音消息。

当从媒体处理服务器设备30收到语音消息时，消息服务器设备20把语音消息连同文本消息一起传送给通信终端10b(S8)。

当从消息服务器设备20收到语音消息时，通信终端10b重放该语音(S9)。接收的文本消息由电子邮件软件显示。这种情况下，可以只有当存在来自用户的指令时，才显示文本消息。

修改

上面的实施例表示了其中语音数据被保存在语音合成数据存储装置305中，按情感被归类，并被分成文节等的例子，不过本发明并不局限于此。例如，可以这样配置，以致在按音素划分数据之后，按情感保存语音数据。这种情况下，可以这样配置，以致语音数据合成器303从文本分析器302接收要语音合成的文本数据，和表示与文本数据的文本对应的情感的信息，从语音合成用数据库305读取作为与该情感对应的语音合成用数据的音素，并使用所述音素合成语音。

在上面的实施例中，文本是按标点符号和空格划分成判定单元的，不过并不局限于此。例如，通常在句子的结尾插入图形表情符号和文本表情符号。于是，在包括图形表情符号或文本表情符号的情况下，图形表情符号或文本表情符号可被视为句子的定界符，并可据此分解判定单元。另外，由于有时直接在词语之后，或者替换词语而插入图形表情符号或文本表情符号，因此，文本分析器302可把由在出现图形表情符号或文本表情符号的位置之前和之后出现标点符号的位置定界的部分判定为一个判定单元。或者，整个文本消息可被看作判定单元。

可能存在没有从判定单元提取出任何情感信息的情况。在这种情况下，例如，基于在紧接的前一个或下一个判定单元中提取的情感信息的情感判定结果可被用于进行文本的语音合成。此外，在从文本消息中只提取到一条情感信息的情况下，基于该情感信息的情感判定结果可被用于语音合成整个文本消息。

在上面的实施例中，对于要作为情感信息提取的词语，没有提出任何特殊的限制。不过，可以预先准备要提取的词语的列表，在列表中的某个词语被包括在判定单元中的情况下，可提取该词语作为情感信息。按照这种方法，由于仅仅提取有限的情感信息，并用作判定的对象，因此与对判定单元的整个文本进行情感判定的方法相比，能够更容易地进行情感判定。于是，能够缩短情感判定所需的处理时间，从而能够快速进行语音消息的传递。另外，媒体处理服务器设备30需要较少的处理负荷。此外，如果被这样配置，以致从将从中提取情感信息的项目中排除词语(即，只有文本表情符号和图形表情符号图像被提取为情感信息)，那么能够进一步缩短处理时间，并进一步降低处理负荷。

在上面的实施例中，说明了其中使用通信终端ID、邮件地址、聊天ID或IM ID作为用户标识符的情况。单个用户有时具有多于一个的通信终端ID和邮件地址。为此，可以分别提供唯一地识别用户的用户标识符，以致与该用户标识符关联地管理语音合成数据。这种情况下，最好另外保存其中使通信终端ID、邮件地址、聊天ID或IMID等与用户标识符关联的对应表。

在上面的实施例中，只有当文本消息的发射器或接收器终端预订语音合成服务时，消息服务器设备20才把接收的文本消息传送给媒体处理服务器设备30。不过，所有文本消息都可被传送给媒体处理服务器设备30，而不考虑语音合成服务的预定。

附图标记说明

10，10a，10b 通信终端

101 发射器-接收器

102 文本消息生成器

103 语音消息重放单元

104 输入装置

105 显示单元

20 消息服务器设备

30 媒体处理服务器设备

301 发射器-接收器

302 文本分析器(情感判定器)

303 语音数据合成器

304 语音消息生成器

305 语音合成数据存储装置

N 网络

Claims

1.一种媒体处理服务器设备，用于通过合成与在多于一个的通信终端间发射和接收的文本消息对应的语音来生成语音消息，

所述媒体处理服务器设备包括：

语音合成数据存储装置，用于在按情感类别归类之后，与唯一地识别多于一个的通信终端的相应用户的用户标识符关联地保存语音合成用数据，其中所述语音合成用数据是各个通信终端的用户本人的声音的语音数据；

情感判定器，用于当收到从多于一个的通信终端中的第一通信终端传来的文本消息时，提取收到的文本消息的每个判定单元的情感信息，并根据提取的情感信息判定情感类别，所述情感信息提取自判定单元中的文本；和

语音数据合成器，用于从语音合成数据存储装置读取与指示第一通信终端的用户的用户标识符关联的语音合成用数据中的、与由所述情感判定器判定的情感类别对应的语音合成用数据，并利用所读取的语音合成用数据来合成与判定单元的文本对应的带情感表现的语音数据，

其中，由语音数据合成器合成的语音数据要被发送到所述多于一个的通信终端中的第二通信终端，该第二通信终端是第一通信终端发送的文本消息的目的地。

2.按照权利要求1所述的媒体处理服务器设备，

其中在提取情感符号作为情感信息的情况下，情感判定器根据情感符号判定情感类别，所述情感符号用多于一个的字符的组合来表现情感。

3.按照权利要求1或2所述的媒体处理服务器设备，

其中在要插入文本中的图像被附加到所接收的文本消息的情况下，除了判定单元中的文本之外，所述情感判定器还从要插入文本中的图像提取情感信息，当用图形表现情感的情感图像被提取为情感信息时，情感判定器根据情感图像判定情感类别。

4.按照权利要求1或2所述的媒体处理服务器设备，

其中在从判定单元提取的情感信息多于一个的情况下，情感判定器判定所述多于一个的情感信息中的每个情感信息的情感类别，并从所判定的情感类别之中选择出现次数最多的情感类别作为判定结果。

5.按照权利要求1或2所述的媒体处理服务器设备，

其中在从判定单元提取的情感信息多于一个的情况下，情感判定器根据出现在与判定单元的终点最接近的位置的情感信息来判定情感类别。

6.按照权利要求1或2所述的媒体处理服务器设备，

其中语音合成数据存储装置另外保存用于为每种情感类别设置所述多于一个的通信终端的每位用户的语音模式的特征的参数，

其中语音数据合成器根据所述参数来调整合成的语音数据。

7.按照权利要求6所述的媒体处理服务器设备，

其中所述参数是为每位用户保存的、并按情感类别归类的语音合成用数据中的话音的音量平均值、话速平均值、语调平均值和频率平均值中的至少一个。

8.按照权利要求1、2以及7之一所述的媒体处理服务器设备，

其中语音数据合成器把判定单元中的文本分解成多于一个的合成单元，并执行每个合成单元的语音数据的合成，

其中当与由情感判定器判定的情感类别对应的语音合成用数据未被包括在与指示第一通信终端的用户的用户标识符关联的语音合成用数据中时，语音数据合成器从与指示第一通信终端的用户的用户标识符关联的语音合成用数据之中，选择和读取其发音部分地与合成单元的文本一致的语音合成用数据。

9.一种供通过合成与在多于一个的通信终端间发射和接收的文本消息对应的语音来生成语音消息的媒体处理服务器设备之用的媒体处理方法，

其中所述媒体处理服务器设备包括语音合成数据存储装置，该语音合成数据存储装置用于在按情感归类之后，与唯一地识别多于一个的通信终端的相应用户的用户标识符关联地保存语音合成用数据，其中所述语音合成用数据是各个通信终端的用户本人的声音的语音数据，

所述方法包括：

判定步骤，当收到从多于一个的通信终端中的第一通信终端传来的文本消息时，提取所收到的文本消息的每个判定单元的情感信息，并根据所提取的情感信息判定情感类别，所述情感信息提取自判定单元中的文本；和

合成步骤，从语音合成数据存储装置读取与指示第一通信终端的用户的用户标识符关联的语音合成用数据中的、与在判定步骤中判定的情感类别对应的语音合成用数据，并利用所读取的语音合成用数据来合成与判定单元的文本对应的语音数据，