CN103796181A

CN103796181A - 一种发送消息的播放方法、系统及相关设备

Info

Publication number: CN103796181A
Application number: CN201210436069.XA
Authority: CN
Inventors: 来意哲
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-11-05
Filing date: 2012-11-05
Publication date: 2014-05-14
Also published as: EP2747464A1; EP2747464A4; WO2014067269A1

Abstract

本发明实施例公开了消息播放方法、系统及设备，应用于通信技术领域。本发明实施例中，接收终端在接收到包括用户标识和文本信息的消息，获取用户标识对应的语音标识和图像标识，并获取根据语音标识指示的语音特征参数、图像标识指示的图像特征参数及文本信息生成或获取语音动画流并播放该语音动画流。使得可以将消息中的文本信息根据用户标识播放成语音动画流，既可以生动地展示消息中的文本信息，又可以根据用户标识对应的语音标识和图像标识对消息进行个性化展示。

Description

一种发送消息的播放方法、系统及相关设备

技术领域

本发明涉及通信技术领域，特别涉及发送消息的播放方法、系统及相关设备。

背景技术

在现有的通信过程中，接收消息的一端对发送消息的展示一般采用直接展示，比如将发送消息中的文本信息解析后进行显示，或将发送消息中的媒体流解析后进行播放等，但是这种展示方法比较单一，无法满足用户对发送消息展示的需求。

发明内容

本发明实施例提供了发送消息的播放方法、系统及相关设备，对发送消息进行个性化的展示，用于解决现有技术存在着的展示方式单一的问题。

本发明实施例第一方面提供一种消息播放方法，应用于终端设备，所述方法包括：

接收消息，所述消息中包括用户标识和文本信息；

获取与所述用户标识对应的语音标识和图像标识，所述语音标识用于指示语音特征参数，所述图像标识用于指示图像特征参数；

根据所述语音标识指示的语音特征参数，所述图像标识指示的图像特征参数以及所述文本信息生成或获取语音动画流并播放所述语音动画流。

本发明实施例第一方面的第一种可能的实现方式中，所述接收消息之前还包括：

提供设置界面，所述设置界面用于接收所述用户标识与所述语音标识以及所述图像标识之间的对应关系；

从所述设置界面上接收所述用户标识与所述语音标识以及所述图像标识之间的对应关系并储存所述对应关系；

所述获取与所述用户标识对应的语音标识和图像标识包括：

根据存储的对应关系获取与所述用户标识对应的所述语音标识和所述图像标识。

结合本发明实施例第一方面，或第一方面的第一种可能实现方式，在本发明实施例第一方面的第二种可能的实现方式中，所述根据所述语音标识指示的语音特征参数，所述图像标识指示的图像特征参数以及所述文本信息生成语音动画流，具体包括：

所述终端设备获取所述语音标识指示的语音特征参数，及获取所述图像标识指示的图像特征参数；

所述终端设备根据所述语音标识指示的语音特征参数将所述文本信息转换成音素时间序列和语音流；

所述终端设备根据所述音素时间序列及所述图像标识指示的图像特征参数生成动画流；

所述终端设备将所述语音流及所述动画流同步合成语音动画流。

结合本发明实施例第一方面的第二种可能实现方式，在本发明实施例第一方面的第三种可能的实现方式中，所述接收消息之前还包括：

获取图像样本和语音样本；

提取获取图像样本的图像特征参数，按第一对应关系储存所述图像特征参数与图像标识；

提取获取语音样本的语音特征参数，按第二对应关系储存所述语音特征参数与语音标识；

所述获取所述语音标识指示的语音特征参数，及图像标识指示的图像特征参数包括：根据所述第二对关系获取所述语音标识指示的语音特征参数，根据所述第一对应关系获取所述图像标识指示的图像特征参数。

结合本发明实施例第一方面，或第一方面第一种可能实现方式，在本发明实施例第一方面的第四种可能的实现方式中，所述根据所述语音标识指示的语音特征参数，所述图像标识指示的图像特征参数以及所述文本信息获取语音动画流包括：

将所述语音标识和图像标识发送给服务器，以指示所述服务器根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成所述文本信息的语音动画流；

获取所述服务器发送的语音动画流。

结合本发明实施例第一方面的第四种可能实现方式，在本发明实施例第一方面的第五种可能的实现方式中，所述接收消息之前还包括：

获取图像样本和语音样本；

将所述图像样本发送给服务器，以指示所述服务器提取所述图像样本的图像特征参数，并按第一对应关系储存所述图像特征参数与图像标识；

将获取的语音样本发送给服务器，以指示所述服务器提取所述语音样本的语音特征参数，并按第二对应关系储存所述语音特征参数与所述语音标识。

本发明实施例第二方面提供一种消息播放方法，应用于网络服务器，所述方法包括：

接收发送终端发送的消息，所述消息中包括文本信息和所述发送终端对应用户的用户标识；

根据预先存储的用户标识与语音标识和图像标识的对应关系，获取与所述发送终端发送的用户标识对应的语音标识以及图像标识，所述语音标识用于指示语音特征参数，所述图像标识用于指示图像特征参数；

根据所述发送终端发送的用户标识对应的语音标识指示的语音特征参数、以及图像标识指示的图像特征参数，以及所述文本信息生成语音动画流；

将生成的所述语音动画流发送给接收终端，使得所述接收终端收到后播放所述语音动画流。

在本发明实施例第二发明的第一种实现方式中，所述根据所述发送终端发送的用户标识对应的语音标识指示的语音特征参数、以及图像标识指示的图像特征参数，以及所述文本信息生成语音动画流，具体包括：

获取所述语音标识指示的语音特征参数，及获取所述图像标识指示的图像特征参数；

根据所述语音标识指示的语音特征参数将所述文本信息转换成音素时间序列和语音流；

根据所述音素时间序列及所述图像标识指示的图像特征参数生成动画流；

将所述语音流及所述动画流同步合成语音动画流。

结合本发明实施例第二方面的第一种可能实现方式，在本发明实施例第二方面的第二种可能的实现方式中，所述接收终端设备发送的消息之前还包括：

接收终端设备发送的图像样本和语音样本；

提取所述图像样本的图像特征参数，按第一对应关系储存所述图像特征参数与图像标识；

提取所述语音样本的语音特征参数，按第二对应关系储存所述语音特征参数与图像标识；

所述获取所述语音标识指示的语音特征参数具体包括：根据所述第二对关系获取所述语音标识指示的语音特征参数；所述获取所述图像标识指示的图像特征参数具体包括：根据所述第一对应关系获取所述图像标识指示的图像特征参数。

本发明实施例第三方面提供一种终端设备，包括：

消息接收单元，用于接收消息，所述消息中包括用户标识和文本信息；

标识获取单元，用于获取与所述消息接收单元接收的发送消息中用户标识对应的语音标识和图像标识，所述语音标识用于指示在生成语音动画流时，用于生成所述语音动画流中的语音所需的语音特征参数，所述图像标识用于指示生成所述语音动画流时，用于生成所述语音动画流中的图像所需的图像特征参数；

媒体流获取单元，用于根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成或获取语音动画流；

播放单元，用于播放所述媒体流获取单元生成或获取的语音动画流。

结合本发明实施例第三方面第一种可能实现方式中，所述终端设备还包括：

界面提供单元，用于提供设置界面，所述设置界面用于接收所述用户标识与所述语音标识以及所述图像标识之间的对应关系；

第一对应关系储存单元，用于从所述设置界面上接收所述用户标识与所述语音标识以及所述图像标识之间的对应关系并储存所述对应关系；

所述标识获取单元，具体用于根据所述第一对应关系储存单元储存的对应关系获取所述语音标识和图像标识。

结合本发明实施例第三方面，或第三面的第一种可能实现方式，在本发明实施例第三方面的第二种实现方式中，所述媒体流获取单元具体包括：

特征获取单元，获取所述标识获取单元获取的语音标识指示的语音特征参数，及获取所述标识获取单元获取的图像标识指示的图像特征参数；

语音流生成单元，用于根据所述语音标识指示的语音特征参数将所述文本信息转换成音素时间序列和语音流；

动画流生成单元，用于根据所述语音流生成单元生成的音素时间序列及所述图像标识指示的图像特征参数生成动画流；

同步单元，用于将所述语音流及所述动画流同步合成语音动画流。

结合本发明实施例第三方面第二种可能实现方式，在本发明实施例第三方面的第三种实现方式中，所述终端设备还包括：

第二对应关系储存单元，用于获取图像样本，并提取获取所述图像样本的图像特征参数，按第一对应关系储存所述图像特征参数与图像标识；及用于获取语音样本，并提取获取语音样本的语音特征参数，按第二对应关系储存所述语音特征参数与语音标识；

所述特征获取单元，具体用于分别根据所述第二对应关系储存单元储存的第一对应关系和第二对应关系，获取所述图像标识指示的图像特征参数和所述语音标识指示的语音特征参数。

结合本发明实施例第三方面，或第三面的第一种可能实现方式，在本发明实施例第三方面的第四种实现方式中，所述媒体流获取单元具体包括：

标识发送单元，用于将所述语音标识和图像标识发送给服务器，以指示所述服务器根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成所述文本信息的语音动画流；

发送媒体流获取单元，用于获取所述服务器发送的语音动画流。

结合本发明实施例第三方面第四种可能实现方式，在本发明实施例第三方面的第五种实现方式中，所述终端设备还包括：

样本发送单元，用于获取图像样本，将获取的图像样本发送给服务器，以指示所述服务器提取所述图像样本的图像特征参数，并按第一对应关系储存所述图像特征参数与图像标识；及用于获取语音样本，并将获取的语音样本发送给服务器，以指示所述服务器提取所述语音样本的语音特征参数，并按第二对应关系储存所述语音特征参数与图像标识。

本发明实施例第四方面提供一种服务器，包括：

发送消息接收单元，用于接收发送终端发送的消息，所述消息中包括文本信息和所述发送终端对应用户的用户标识；

媒体标识获取单元，用于根据预先存储的用户标识与语音标识和图像标识的对应关系，获取与所述发送终端发送的用户标识对应的语音标识以及图像标识，所述语音标识用于指示语音特征参数，所述图像标识用于指示图像特征参数；

媒体流生成单元，用于根据所述发送终端发送的用户标识对应的语音标识指示语音特征参数、图像标识指示的图像特征参数，以及所述文本信息生成语音动画流；

媒体流发送单元，用于将生成的所述语音动画流发送给接收终端，使得所述接收终端收到后播放所述语音动画流。

在本发明实施例第四方面的第一种可能的实现方式中，所述媒体流生成单元具体包括：

媒体特征获取单元，用于获取所述语音标识指示的语音特征参数，及获取所述图像标识指示的图像特征参数；

转换单元，用于根据所述语音标识指示的语音特征参数将所述文本信息转换成音素时间序列和语音流；

生成单元，用于根据所述音素时间序列及所述图像标识指示的图像特征参数生成动画流；

合成单元，用于将所述语音流及所述动画流同步合成语音动画流。

结合本发明实施例第四方面的第一种可能实现方式，在本发明实施例第四方面的第二种可能的实现方式中，所述服务器还包括：

样本接收单元，用于接收终端设备发送的图像样本和语音样本；

对应关系储存单元，用于提取所述图像样本的图像特征参数，并按第一对应关系储存所述图像特征参数与图像标识，及提取所述语音样本的语音特征参数，并按第二对应关系储存所述语音特征参数与图像标识；

所述媒体特征获取单元，具体用于根据所述第二对关系获取所述语音标识指示的语音特征参数；且根据所述第一对应关系获取所述图像标识指示的图像特征参数。

本发明实施例第五方面提供一种消息播放系统，包括接收终端和服务器；

所述接收终端是如上述本发明实施例第三方面的第四种或第五种实现方式所述的终端设备；

所述服务器，用于根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成所述文本信息的语音动画流并发送给所述接收终端。

本发明实施例第六方面提供一种消息播放系统，包括接收终端和网络服务器；

所述网络服务器是如上述权利要求本发明实施例第四方面到第四方面的第二种实现方式的服务器中任一种方式所述的服务器；

所述接收终端，用于接收所述网络服务器发送的语音动画流，并播放所述语音动画流。

本发明实施例中，接收终端在接收到包括用户标识和文本信息的消息，获取用户标识对应的语音标识和图像标识，并根据语音标识指示的语音特征参数、图像标识指示的图像特征参数及文本信息生成或获取语音动画流并播放该语音动画流。使得可以将消息中的文本信息根据用户标识播放成语音动画流，既可以生动地展示消息中的文本信息，又可以根据用户标识对应的语音标识和图像标识对消息进行个性化展示。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种发送消息播放方法的流程图；

图2是本发明实施例中生成语音动画流的结构示意图；

图3是本发明实施例提供的另一种消息播放方法的流程图；

图4是本发明具体应用实施例中提供的一种发送消息的播放方法结构示意图；

图5是本发明实施例中终端设备提供的设置界面的示意图；

图6是本发明具体应用实施例中提供的另一种发送消息播放方法的结构示意图；

图7是本发明具体应用实施例中提供的另一种发送消息播放方法的结构示意图；

图8是本发明实施例提供的一种终端设备的结构示意图；

图9是本发明实施例提供的另一种终端设备的结构示意图；

图10是本发明实施例提供的另一种终端设备的结构示意图；

图11是本发明实施例提供的另一种终端设备的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图；

图13是本发明实施例提供的另一种服务器的结构示意图；

图14是本发明实施例提供的另一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种消息播放方法，主要是对于进行通信的终端设备，当接收终端接收到发送终端发送的发送消息后进行的播放，比如当手机1接收到手机2发送的短消息，对该短消息的播放，本实施例的方法是接收终端即接收消息的终端设备所执行的方法，流程图如图1所示，包括：

步骤101，接收终端接收发送终端发送的消息比如短消息等，在消息中包括发送终端对应用户的用户标识和文本信息。

步骤102，接收终端获取与用户标识对应的语音标识和图像标识，这里语音标识是用于指示语音特征参数，而图像标识用于指示图像特征参数。

可以理解，当接收终端接收到消息后，解析该消息得到能唯一标识一个用户的用户标识，比如在发送终端上使用的用户识别模块(Subscriber IdentityModel，SIM)的号码，或用户注册账号等，并可以在接收终端中查找预置的与该用户标识对应的语音标识和图像标识，其中在接收终端中可以预先储存不同用户标识对应的语音标识和图像标识，比如储存陌生联系人及接收终端中各个联系人对应的语音标识和图像标识等。

具体地，接收终端可以通过如下的步骤来设置语音标识和图像标识：

A：用户操作该接收终端的按键(包括物理按键或触摸按键)，使得接收终端提供设置界面，该设置界面用于接收某一用户标识与语音标识以及图像标识之间的对应关系，在该设置界面上可以包括该用户标识，及该用户标识对应的语音标识和图像标识的选择信息，比如选择接收终端中储存的哪个图像标识和语音标识的信息等。

其中图像标识为唯一标识数据库中某一图像特征参数的信息，即在数据库中将图像标识与图像特征参数进行绑定储存，语音标识为唯一标识数据库中某一语音特征参数的信息，即在数据库中将语音标识与语音特征参数进行绑定储存。而图像特征是指某一图像向用户所表现出的属性比如颜色、线条和轮廓等属性，具体可以通过图像特征参数来表示比如像素等参数，语音特征是指某一段语音向用户所表现出的属性，比如音色、音调和音量，具体可以通过语音特征参数来表示，比如基音、梅尔倒谱参数、共振峰参数等参数。

B：用户选择某一图像标识和语音标识后，当接收终端从设置界面上接收到上述用户标识对应用户选择的语音标识和图像标识，储存该用户标识与选择的语音标识和图像标识之间的对应关系。这样接收终端可以根据步骤B储存的对应关系中获取与步骤101中接收的消息中的用户标识对应的语音标识和图像标识。

步骤103，根据上述语音标识指示的语音特征参数、图像标识指示的图像特征参数及文本信息生成或获取语音动画流并播放该语音动画流。

需要说明的是，接收终端可以自己根据语音特征参数和图像特征参数生成语音动画流；也可以将语音特征参数和图像特征参数发送给服务器，由服务器来生成语音动画流并返回给接收终端进行播放，这种情况下，接收终端不用生成语音动画流，减轻了接收终端的运作负担。

接收终端或服务器在生成语音动画流时，需要先获取语音标识指示的语音特征参数及图像标识指示的图像特征参数；然后再根据语音动画技术来生成语音动画流，其中，在获取图像特征参数和语音特征参数时，可以在接收端终或服务器端的数据库中进行查找。

而接收终端或服务器根据语音动画技术生成语音动画流时，具体可以通过TTS模块、动画模块和同步合成模块来实现，结构示意图如图2所示，主要是将文本转语音(Text to Speech，TTS)技术和动画技术结合起来，其中TTS主要是将文字信息实时转化为标准流畅的语音朗读出来的技术，动画技术主要是运用计算机技术合成特定图像的运动，比如在人脸动画技术中包括人脸建模和人脸表情动画生成等。本实施例中，TTS模块可以根据语音标识指示的语音特征参数将文本信息转换成语音流及文本信息对应的音素时间序列比如在语音流中读文本信息中每个文字的时间顺序及每个文字之间间隔等信息；动画模块可以根据音素时间序列及与图像特征参数生成动画流，具体地，可以先根据图像特征参数进行图像建模，然后确定语音流中读文本信息中每个文字时图像的运动状态，从而根据因素时间序列形成动画流；最后同步合成模块将语音流和动画流同步合成语音动画流。

可见，本发明实施例中，接收终端在接收到包括用户标识和文本信息的消息，获取了用户标识对应的语音标识和图像标识，并根据语音标识指示的语音特征参数、图像标识指示的图像特征参数及文本信息生成或获取语音动画流并播放该语音动画流。使得可以将消息中的文本信息根据用户标识播放成语音动画流，既可以生动地展示消息中的文本信息，又可以根据用户标识对应的语音标识和图像标识对消息进行个性化展示。

需要说明的是，接收终端在执行上述步骤103时，可以是由接收终端来生成语音动画流，这样就需要接收终端确定语音标识指示的语音特征参数和图像标识指示的图像特征参数，而这些语音特征参数和图像特征参数可以是用户预置在接收终端中的，具体地，接收终端在预置图像特征参数时，可以先获取一个图像样本，比如通过摄像头或在本地查找一个图像样本，并提取该图像样本的图像特征参数比如用于表示颜色和线条等特征的参数，将提取的图像特征参数通过图像标识来唯一标识，按第一对应关系储存图像特征参数与图像标识；接收终端在预置语音特征参数时，可以先获取语音样本比如通过录音器或在本地查找一个语音样本，并提取该语音样本的语音特征参数比如用于表示音色、音调和音量等特征的参数，将提取的语音特征参数通过语音标识来唯一标识，并按第二对应关系储存语音特征参数与语音标识。这样接收终端在获取语音标识指示的语音特征参数时，会根据上述储存的第二对关系获取步骤102中获取的语音标识指示的语音特征参数，在获取图像标识指示的图像特征参数时，会根据上述储存的第一对应关系获取步骤102中获取的图像标识指示的图像特征参数。

在另一个具体的实施例中，接收终端在执行上述步骤103时，可以是由接收终端先将步骤102中获取的语音标识和图像标识发送给服务器，由服务器来生成语音动画流，这样服务器需要确定语音标识指示的语音特征参数和图像标识指示的图像特征参数，而这些语音特征参数和图像特征参数可以是由接收终端通过网络在服务器中预置的，具体地：接收终端可以先获取图像样本，并将图像样本发送给服务器，以指示服务器提取图像样本的图像特征参数，并在服务器中按第一对应关系储存图像特征参数与图像标识；且接收终端还可以将获取语音样本，并将语音样本发送给服务器，以指示服务器提取语音样本的语音特征参数，并在服务器中按第二对应关系储存语音特征参数与语音标识。这样服务器可以根据语音特征参数、图像特征参数和文本信息生成语音动画流。

本发明实施例提供一种消息播放方法，主要是对于进行通信的终端设备，发送终端通过网络服务器将消息发送给接收终端进行播放，比如当手机1通过网络服务器接收到手机2发送的短消息，对该短消息的播放，本实施例的方法是网络服务器所执行的方法，其中该网络服务器可以是发送终端到接收终端路径中的任一网络设备，流程图如图3所示，包括：

步骤201，网络服务器接收发送终端(比如手机)发送的消息比如短消息等，在消息中包括发送终端对应用户的用户标识和文本信息。

步骤202，网络服务器根据预先存储的用户标识与语音标识和图像标识的对应关系，获取与发送终端发送的用户标识对应的语音标识和图像标识，这里语音标识是用于指示语音特征参数，而图像标识用于指示图像特征参数。

可以理解，当发送终端在发送消息给接收终端的过程中，该消息经过网络服务器后，该网络服务器解析该消息得到能唯一标识发送终端对应用户的用户标识，比如在发送终端上使用的SIM卡号码即手机号码等，并可以在网络服务器预置的对应关系中查找与发送终端发送的用户标识对应的语音标识和图像标识，其中在网络服务器中可以预先储存不同用户标识对应的语音标识和图像标识，这些信息可以是接收终端通过网络预置到网络服务器中的，比如接收终端可以将接收终端中储存的各个联系人对应的语音标识和图像标识同步到网路侧。

步骤203，网络服务器根据上述语音标识指示的语音特征参数、图像标识指示的图像特征参数，以及文本信息生成语音动画流。其中网络服务器具体在生成语音动画流时，需要先获取语音标识指示的语音特征参数和获取图像标识指示的图像特征参数；然后再根据语音动画技术来生成语音动画流，具体地可以通过TTS模块、动画模块和同步合成模块来实现，具体生成的流程与上述接收终端生成语音动画流的过程类似，在此不进行赘述。

其中，网络服务器获取的图像特征参数和语音特征参数可以是分别根据接收终端提供的图像样本和语音样本预置在网络服务器中的，具体地，网络服务器可以接收上述接收终端发送的图像样本，并提取该图像样本的图像特征参数，将提取的图像特征参数通过图像标识来唯一标识，并按第一对应关系储存图像特征参数与图像标识；网络服务器还可以接收上述接收终端发送的语音样本，并提取该语音样本的语音特征参数，将提取的语音特征参数通过语音标识来唯一标识，并按第二对应关系储存语音特征参数与语音标识。这样网络服务器在获取语音标识指示的语音特征参数时，会根据上述储存的第二对关系获取步骤202中获取的语音标识指示的语音特征参数，在获取图像标识指示的图像特征参数时，会根据上述储存的第一对应关系获取步骤202中获取的图像标识指示的图像特征参数。

步骤204，网络服务器将生成的语音动画流发送给接收终端，使得接收终端收到后播放该语音动画流。

本发明实施例中，当包括发送终端对应的用户标识和文本信息的消息从发送终端发送到接收终端的过程中，在经过网络服务器时，由网络服务器获取用户标识对应的语音标识和图像标识，并生成的语音动画流后将生成的语音动画流发送给接收终端播放，其中语音动画流是服务器根据语音标识指示的语音特征参数、图像标识指示的图像特征参数及文本信息生成的。使得可以将消息中的文本信息根据用户标识播放成语音动画流，既可以生动地展示消息中的文本信息，又可以根据用户标识对应的语音标识和图像标识对消息进行个性化展示；且本实施例中，不用接收终端生成语音动画流，减轻了终端的负担。

以下以一个具体的实施例来说明本发明实施例中所述的消息播放方法，参考图4所示，本实施例的接收终端中包括短信处理模块、参数配置模块、模板制作模块、语音动画引擎和语音动画播放器，其中：

参数配置模块可以设置通讯录中每个联系人对应的人脸图像标识和语音标识，具体地，用户通过操作接收终端使得参数配置模块提供对通讯录中联系人信息进行设置的设置界面，如图5所示，用户可以编辑联系人的姓名、电话和邮箱，且还可以通过选择的方式来选择发音人的标识即语音标识，和选择人脸图像的标识即图像标识，具体地，用户可以在一个下拉的菜单中进行选择，其中下拉菜单中显示的图像标识或语音标识都已经是储存在接收终端的数据库中的，当数据库进行更新后，可以同步更新该下拉菜单中显示的语音标识和图像标识；当接收终端从设置界面上接收到用户编辑的信息，则储存用户编辑的姓名、电话、邮箱、发音人标识和人脸图像标识的对应关系。

模板制作模块可以通过摄像头或在本地查找一个人脸图像样本，然后提取该人脸图像样本的图像特征参数比如用于表示人脸的轮廓等特征的参数，用一个图像标识比如“张三”来标识该图像特征参数，再将该图像标识和图像特征参数的对应关系储存到数据库中；同样，模块制作模块可以通过录音器或在本地查找一段语音样本，然后提取该语音样本的语音特征参数比如用于表示音色和音调等特征的参数，用一个语音标识比如“唐老鸭”来标识该语音特征参数，再将该语音标识和语音特征参数的对应关系储存到数据库中。

当接收终端的短信处理模块接收到其它移动终端发送的短消息，则将短消息中的用户标识比如对端的SIM卡号通知给参数配置模块，并将短消息中的文本信息发给语音动画引擎。这样参数配置模块会在通讯录中查找到该SIM卡号对应的人脸图像标识和语音标识并传送到模板制作模块，而模块制作模块在数据库中找到该人脸图像标识指示的人脸图像特征参数及语音标识指示的语音特征参数并传送到语音动画引擎中。语音动画引擎中的TTS模块会根据文本信息和语音特征参数生成语音流和音素时间序列，而人脸动画模块会根据该音素时间序列及人脸图像特征参数生成人脸动画流，最后由同步模块将语音流和人脸动画流进行同步合成语音动画流，并传送给语音动画播放器进行播放。

通过上述接收终端来生成语音动画流并播放的方式，实现了将短消息进行形象地播放，且可以根据用户自己的需要来进行播放。

参考图6所示，本实施例的接收终端中包括短信处理模块、参数配置模块、数据库、语音动画引擎和语音动画播放器，其中：

接收终端可以通过A2接口将获取的人脸图像样本发送给服务器，通过A3接口将获取的语音样本发送服务器，由服务器进行图像特征参数或语音特征参数的提取后储存到服务器的数据库中，且服务器在更新数据库后可以通过A1接口将更新的信息发送给接收终端进行更新接收终端的数据库。则在本实施例中，接收终端接收到短消息后，生成语音动画流的过程与如图3对应的实施例类似，不同的是，本实施例中接收终端在获取语音标识指示的语音特征参数和人脸图像指示的人脸图像特征参数时可以从接收终端的数据库中获取，也可以从服务器的数据库中获取，这样接收终端省去对图像特征参数和语音特征参数的提取。

参考图7所示，本实施例中语音动画流在服务器端生成，其中接收终端中包括短信处理模块、参数配置模块和语音动画播放器，服务器中包括所述模板制作模块和语音动画引擎，其中：

接收终端可以通过A4接口将获取的人脸图像样本发送给服务器，通过A5接口将获取的语音样本发送服务器，由服务器中的模板制作模块进行图像特征参数或语音特征参数的提取后储存到服务器的数据库中。则在本实施例中，接收终端接收到短消息后，将其中的文本信息通过接口A1发送给服务器中的语音动画引擎；而将用户标识比如对端的SIM卡号发送给接收终端包括的参数配置模块，由参数配置模块在通讯录中查找到对应的语音标识和图像标识后，通过接口A2将语音标识和图像标识发送给服务器的模板制作模块，服务器中的语音动画引擎和模板制作模块配合生成语音动画流后，通过接口A3发送给接收终端的语音播放器进行播放，这样接收端省去对生成语音动画流的过程，减少功耗。

本发明实施例还提供一种终端设备即上述图1对应实施例的方法中的接收终端，结构示意图如图8所示，包括：

消息接收单元10，用于接收消息，所述消息中包括用户标识和文本信息；

标识获取单元11，用于获取与所述消息接收单元10接收的消息中用户标识对应的语音标识和图像标识，所述语音标识用于指示语音特征参数，所述图像标识用于指示图像特征参数；

媒体流获取单元12，用于根据所述标识获取单元11获取的语音标识指示的语音特征参数、所述标识获取单元11获取的图像标识指示的图像特征参数及文本信息生成或获取语音动画流，具体地，媒体流获取单元12可以根据语音动画技术生成，或向服务器请求获取语音动画流。

播放单元13，用于播放所述媒体流获取单元12生成或获取的语音动画流。

本发明实施例的终端设备中，消息接收单元10接收到包括用户标识和文本信息的消息，标识获取单元11获取了用户标识对应的语音标识和图像标识，并由媒体流获取单元12根据语音标识指示的语音特征参数、图像标识指示的图像特征参数及文本信息生成或获取语音动画流，最后由播放单元13播放播放该语音动画流。使得可以将消息中的文本信息根据用户标识播放成语音动画流，既可以生动地展示消息中的文本信息，又可以根据用户标识对应的语音标识和图像标识对消息进行个性化展示。

参考图9所示，在一个具体的实施例中，终端设备除了可以包括如图8所示的结构外，还可以包括界面提供单元14、第一对应关系储存单元15和第二对应关系储存单元16，且其中的媒体流获取单元12可以通过语音流生成单元120、动画流生成单元121、同步单元122和特征获取单元123来实现，其中：

界面提供单元14，用于提供设置界面，所述设置界面用于接收所述用户标识与所述语音标识以及所述图像标识之间的对应关系。

第一对应关系储存单元15，用于从所述设置界面上接收所述用户标识与所述语音标识以及所述图像标识之间的对应关系并储存所述对应关系。

第二对应关系储存单元16，用于获取图像样本，并提取获取图像样本的图像特征参数，按第一对应关系储存所述图像特征参数与图像标识；且该第二对应关系储存单元16还可以获取语音样本，并提取获取语音样本的语音特征参数，按第二对应关系储存所述语音特征参数与语音标识。

特征获取单元123，用于获取所述标识获取单元11获取的语音标识指示的语音特征参数，及获取所述标识获取单元11获取的图像标识指示的图像特征参数；

语音流生成单元120，用于根据特征获取单元123获取的所述语音标识指示的语音特征参数将所述文本信息转换成音素时间序列和语音流；

动画流生成单元121，用于根据所述语音流生成单元120生成的音素时间序列及所述特征获取单元123获取的图像标识指示的图像特征参数生成动画流；

同步单元122，用于将所述语音流及所述动画流同步合成语音动画流。

本发明实施例的终端设备中，当消息接收单元10接收到消息后，标识获取单元11根据其中的用户标识获取对应的语音标识和图像标识，媒体流获取单元12中的特征获取单元123会获取语音特征参数和图像特征参数，语音流生成单元120根据消息中的文本信息及特征获取单元123获取的语音标识指示的语音特征参数生成音素时间序列和语音流，动画流生成单元121根据该音素时间序列及特征获取单元123获取的图像标识指示的图像特征参数生成动画流，最后由同步单元122将语音流和动画流同步合成语音动画流，并由播放单元13播放同步单元122合成的语音动画流。

本实施例中，界面提供单元14可以提供设置界面以供用户来设置某个用户标识对应的语音标识和图像标识，当第一对应关系储存单元15接收到所述用户标识对应用户在该设置界面上编辑的语音标识和图像标识，储存用户标识与该语音标识和图像标识的对应关系，则标识获取单元11是根据第一对应关系储存单元15储存的对应关系来获取与所述消息接收单元10接收消息中用户标识对应的语音标识和图像标识的。且终端设备可以通过第二对应关系储存单元16储存图像特征参数和语音特征参数，这样媒体流获取单元12中的特征获取单元123就可以根据第二对应关系储存单元16储存的对应关系获取图像特征参数和语音特征参数。

参考图10所示，在另一个具体的实施例中，终端设备除了可以包括如图8所示的结构外，还可以包括界面提供单元14、第一对应关系储存单元15和样本发送单元17，且媒体流获取单元12还可以通过标识发送单元124和发送媒体流获取单元125来实现，具体地：

样本发送单元17，用于获取图像样本，将获取的图像样本发送给服务器，以指示所述服务器提取所述图像样本的图像特征参数，并按第一对应关系储存所述图像特征参数与图像标识，且该样本发送单元17还可以获取语音样本，并将获取的语音样本发送给服务器，以指示所述服务器提取所述语音样本的语音特征参数，并按第二对应关系储存所述语音特征参数与图像标识。

标识发送单元124，用于将所述标识获取单元11获取的语音标识和图像标识发送给服务器，以指示所述服务器根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成所述文本信息的语音动画流；发送媒体流获取单元125，用于获取所述服务器发送的语音动画流，并由播放单元13来播放该语音动画流。

本实施例中，终端设备可以通过样本发送单元17将图像样本和语音样本发送给服务器，由服务器来按第二对应关系储存语音特征参数与语音标识及按第一对应关系储存图像标识和图像特征参数，从而节省了终端设备的存储资源。

本发明实施例还提供一种终端设备即上述图1对应实施例的方法中的接收终端，结构示意图如图11所示，包括分别连接到总线上的存储器20、处理器21、输入装置23和输出装置24，其中：

存储器20中用来储存从输入装置23输入的数据，且还可以储存处理器21处理数据的必要文件等信息；

输入装置23和输出装置24是用户终端与其他设置通信的端口；

本实施例中输入装置23接收消息后传送给处理器21，该消息中包括用户标识和文本信息；处理器21可以执行如下的步骤：获取与用户标识对应的语音标识和图像标识；根据语音标识指示的语音特征参数，图像标识指示的图像特征参数以及文本信息生成或获取语音动画流并播放该语音动画流。

进一步地，处理器21还可以在获取语音标识和图像标识之前，提供设置界面，该设置界面用于接收用户标识与语音标识以及图像标识之间的对应关系，并将从设置界面上接收的用户标识与语音标识以及图像标识之间的对应关系传送给存储器20进行储存。这样处理器21在获取语音标识和图像标识时，可以根据存储器20中储存的对应关系获取。

进一步地，在一种情况下，处理器21在获取生成的语音动画流时，可以先获取语音标识指示的语音特征参数，及获取图像标识指示的图像特征参数；根据语音标识指示的语音特征参数将文本信息转换成音素时间序列和语音流；根据音素时间序列及图像标识指示的图像特征参数生成动画流；将语音流及所述动画流同步合成语音动画流。在这种情况下，处理器21可以通过如下步骤来预置图像特征参数和语音特征参数，具体地，处理器21可以获取图像样本，提取获取图像样本的图像特征参数，将图像标识和图像特征参数传送给存储器20按第一对应关系储存图像特征参数与图像标识；处理器21还可以语音样本，提取获取语音样本的语音特征参数，并将语音特征参数与语音标识传送给存储器20按第二对应关系储存，处理器21在生成语音动画流的过程中获取语音特征参数和图像特征参数时，可以分别根据存储器20中储存的第二对应关系和第一对应关系获取。

进一步地，在一种情况下，处理器21可以控制输出装置24将语音标识和图像标识发送给服务器，以指示服务器根据语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成文本信息的语音动画流，当输入装置23接收到服务器发送的语音动画流，即可传送给处理器21进行其他处理。在这种情况下，处理器21可以获取图像样本和语音样本，并控制输出装置24将图像样本发送给服务器，以指示服务器提取图像样本的图像特征参数，并按第一对应关系储存图像特征参数与图像标识，且处理器21还可以控制输出装置24将获取的语音样本发送给服务器，以指示服务器提取语音样本的语音特征参数，并按第二对应关系储存语音特征参数与图像标识。

本发明实施例还提供一种服务器即上述图3对应实施例的方法中的网络服务器，结构示意图如图12所示，包括：

发送消息接收单元30，用于接收发送终端发送的消息，所述消息中包括文本信息和所述发送终端对应用户的用户标识；

媒体标识获取单元31，用于根据预先存储的用户标识与语音标识和图像标识的对应关系，获取与所述发送消息接收单元30接收的消息中发送终端发送的用户标识对应的语音标识以及图像标识，所述语音标识用于指示在生成语音动画流时，用于生成所述语音动画流中的语音所需的语音特征参数，所述图像标识用于指示生成所述语音动画流时，用于生成所述语音动画流中的图像所需的图像特征参数；

媒体流生成单元32，用于根据所述媒体标识获取单元31获取的发送终端发送的用户标识对应的语音标识指示的语音特征参数、图像标识指示的图像特征参数，以及所述文本信息生成语音动画流；

媒体流发送单元33，用于将生成的所述语音动画流发送给接收终端，使得所述接收终端收到后播放所述语音动画流。

本发明实施例中，当包括发送终端对应的用户标识和文本信息的消息从发送终端发送到接收终端的过程中，在经过网络服务器时，由网络服务器中的发送消息接收单元30接收该消息，媒体标识获取单元31获取用户标识对应的语音标识和图像标识，并由媒体流生成单元32生成的语音动画流后，媒体流发送单元33将生成的语音动画流发送给接收终端进行播放，其中语音动画流是根据语音标识指示的语音特征参数、图像标识指示的图像特征参数及文本信息生成的。使得在消息中的文本信息可以根据不同用户标识播放成不同的语音动画流，既可以生动地播放消息中的文本信息，又可以根据用户标识对应的语音标识和图像标识对消息进行个性化播放；且本实施例中，不用接收终端生成语音动画流，减轻了终端的负担。

参考图13所示，在一个具体的实施例中，服务器除了包括如图12所示的结构外，还可以包括：样本接收单元34和对应关系储存单元35，且媒体流生成单元32具体可以通过媒体特征获取单元320、转换单元321、生成单元322和合成单元323来实现，具体地：

媒体特征获取单元320，用于获取所述媒体标识获取单元31获取的语音标识指示的语音特征参数，及获取所述媒体标识获取单元31获取的图像标识指示的图像特征参数；

转换单元321，用于根据媒体特征获取单元320获取的所述语音标识指示的语音特征参数将所述文本信息转换成音素时间序列和语音流；

生成单元322，用于根据所述转换单元321转换的音素时间序列，及所述媒体特征获取单元320获取的图像标识指示的图像特征参数生成动画流；

合成单元323，用于将所述转换单元321转换的语音流及所述生成单元322生成的动画流同步合成语音动画流。

样本接收单元34，用于接收终端设备发送的图像样本和语音样本；对应关系储存单元35，用于提取所述样本接收单元34接收的图像样本的图像特征参数，并按第一对应关系储存所述图像特征参数与图像标识，及提取所述样本接收单元34接收的语音样本的语音特征参数，并按第二对应关系储存所述语音特征参数与图像标识。这样媒体特征获取单元320就可以根据所述对应关系储存单元35中储存的第二对关系获取语音特征参数，可以根据所述对应关系储存单元35中储存第一对应关系获取图像特征参数。

本发明实施例还提供一种服务器即上述图3对应实施例的方法中的网络服务器，结构示意图如图14所示，包括分别连接到总线上的存储器40、处理器41、输入装置43和输出装置44，其中：

存储器40中用来储存从输入装置43输入的数据，且还可以储存处理器41处理数据的必要文件等信息；

输入装置43和输出装置44是用户终端与其他设置通信的端口；

本实施例中输入装置43接收到发送终端发送的消息后传送给处理器41，该消息中包括文本信息和所述发送终端对应用户的用户标识；由处理器41根据存储器40中存储的用户标识与语音标识和图像标识的对应关系，获取与发送终端发送的用户标识对应的语音标识以及图像标识，且根据发送终端发送的用户标识对应的语音标识指示的语音特征参数、图像标识指示的图像特征参数，以及文本信息生成语音动画流；并控制输出装置44将生成的语音动画流发送给接收终端，使得接收终端收到后播放语音动画流。

进一步地，本实施例中的处理器41在生成语音动画流时，可以先获取语音标识指示的语音特征参数，及获取图像标识指示的图像特征参数；然后根据语音标识指示的语音特征参数将文本信息转换成音素时间序列和语音流；根据音素时间序列及图像标识指示的图像特征参数生成动画流；将语音流及动画流同步合成语音动画流。

进一步地，本实施例中可以预先在存储器40中预置语音特征和图像特征，具体地，当输入装置43接收终端设备发送的图像样本和语音样本传送给处理器41；由处理器41提取图像样本的图像特征参数，并将图像特征参数与图像标识按第一对应关系储存到存储器40中，且处理器41还可以提取语音样本的语音特征参数，并将语音特征参数与图像标识按第二对应关系储存到存储器40中。这样处理器41在生成语音动画流的过程中，可以根据存储器40中储存的第二对关系获取语音特征参数，且根据存储器40中储存的第一对应关系获取图像特征参数。

本发明实施例还提供一种消息播放系统，包括接收终端和服务器，其中：

接收终端，用于接收消息，所述消息中包括用户标识和文本信息；获取所述用户标识对应的语音标识和图像标识；根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息获取语音动画流并播放该语音动画流；所述语音标识用于指示语音特征参数，所述图像标识用于指示图像特征参数；

服务器，用于根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成所述文本信息的语音动画流并发送给所述接收终端，具体的生成语音动画流的方法如上述方法实施例中所述。

其中接收终端可以是如图8、10和11中任一个图所示的终端设备，且终端设备中各个单元之间可以按照上述图1对应方法实施例中所述的方法进行消息的播放，在此不进行赘述。

本发明实施例还提供一种消息播放系统，包括接收终端和网络服务器，其中：

所述网络服务器，用于接收到发送终端发送的消息后该消息中包括文本信息和所述发送终端对应用户的用户标识；根据预先储存的用户标识与语音标识和图像标识的对应关系，获取与发送终端发送的用户标识对应的语音标识以及图像标识，且根据发送终端发送的用户标识对应的语音标识指示的语音特征参数、图像标识指示的图像特征参数，以及文本信息生成语音动画流；并将生成的语音动画流发送给接收终端；所述语音标识用于指示语音特征参数，所述图像标识用于指示图像特征参数；

其中网络服务器可以是如图12到14中任一个图所示的服务器，网络服务器中各个单元之间可以按照上述图3对应方法实施例中所述的方法进行消息的播放，在此不进行赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。

以上对本发明实施例所提供的消息播放方法、系统及相关设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种消息播放方法，其特征在于，应用于终端设备，所述方法包括：

接收消息，所述消息中包括用户标识和文本信息；

根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数以及所述文本信息生成或获取语音动画流并播放所述语音动画流。

2.如权利要求1所述的方法，其特征在于，所述接收消息之前，所述方法还包括：

从所述设置界面上接收所述用户标识与所述语音标识以及所述图像标识之间的对应关系并存储所述对应关系；

所述获取与所述用户标识对应的语音标识和图像标识包括：

3.如权利要求1或2所述的方法，其特征在于，所述根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数以及所述文本信息生成语音动画流包括：

4.如权利要求3所述的方法，其特征在于，所述接收消息之前，所述方法还包括：

获取图像样本和语音样本；

5.如权利要求1或2所述的方法，其特征在于，所述根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数以及所述文本信息获取语音动画流包括：

获取所述服务器发送的语音动画流。

6.如权利要求5所述的方法，其特征在于，所述服务器根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成所述文本信息的语音动画流，具体包括：

所述服务器获取所述语音标识指示的语音特征参数，及获取所述图像标识指示的图像特征参数；

所述服务器根据所述语音标识指示的语音特征参数将所述文本信息转换成音素时间序列和语音流；

所述服务器根据所述音素时间序列及所述图像标识指示的图像特征参数生成动画流；

所述服务器将所述语音流及所述动画流同步合成语音动画流。

7.如权利要求6所述的方法，其特征在于，所述接收消息之前还包括：

获取图像样本和语音样本；

将获取的语音样本发送给服务器，以指示所述服务器提取所述语音样本的语音特征参数，并按第二对应关系储存所述语音特征参数与所述语音标识；

所述服务器获取所述语音标识指示的语音特征参数，及所述图像标识指示的图像特征参数包括：根据所述第二对关系获取所述语音标识指示的语音特征参数，根据所述第一对应关系获取所述图像标识指示的图像特征参数。

8.一种消息播放方法，其特征在于，应用于网络服务器，所述方法包括：

根据所述语音标识指示的语音特征参数、以及图像标识指示的图像特征参数，以及所述文本信息生成语音动画流；

9.如权利要求8所述的方法，其特征在于，所述根据所述语音标识指示的语音特征参数、以及图像标识指示的图像特征参数，以及所述文本信息生成语音动画流，具体包括：

根据所述音素时间序列及所图像标识指示的图像特征参数生成动画流；

将所述语音流及所述动画流同步合成语音动画流。

10.如权利要求9所述的方法，其特征在于，所述接收终端设备发送的消息之前还包括：

接收终端设备发送的图像样本和语音样本；

11.如权利要求8到10任一项所述的方法，其特征在于，所述发送终端为手机，所述发送终端发送的消息为短消息，所述消息中包括的用户标识为手机号码。

12.一种终端设备，其特征在于，包括：

标识获取单元，用于获取与所述消息接收单元接收的发送消息中用户标识对应的语音标识和图像标识，所述语音标识用于指示语音特征参数，所述图像标识用于指示图像特征参数；

媒体流获取单元，用于根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数以及所述文本信息生成或获取语音动画流；

播放单元，用于播放所述媒体流获取单元生成或获取的所述语音动画流。

13.如权利要求12所述的终端设备，其特征在于，所述终端设备还包括：

所述标识获取单元，具体用于根据所述第一对应关系储存单元储存的对应关系获取与所述用户标识对应的所述语音标识和图像标识。

14.如权利要求12或13所述的终端设备，其特征在于，所述媒体流获取单元具体包括：

15.如权利要求14所述的终端设备，其特征在于，所述终端设备还包括：

16.如权利要求12或13所述的终端设备，其特征在于，所述媒体流获取单元具体包括：

17.如权利要求16所述的终端设备，其特征在于，所述终端设备还包括：

18.一种服务器，其特征在于，包括：

媒体流生成单元，用于根据所述语音标识指示语音特征参数、图像标识指示的图像特征参数，以及所述文本信息生成语音动画流；

19.如权利要求18所述的服务器，其特征在于，所述媒体流生成单元具体包括：

20.如权利要求19所述的服务器，其特征在于，所述服务器还包括：

21.一种消息播放系统，其特征在于，包括接收终端和服务器；

所述接收终端是如上述权利要求16或17所述的终端设备；所述服务器，用于根据所述语音标识指示的语音特征参数、所述图像标识指示的图像特征参数及文本信息生成所述文本信息的语音动画流并发送给所述接收终端。

22.一种消息播放系统，其特征在于，包括接收终端和网络服务器；

所述网络服务器是如上述权利要求18到20任一项所述的服务器；所述接收终端，用于接收所述网络服务器发送的语音动画流，并播放所述语音动画流。