CN103794206B

CN103794206B - 将文本数据转换为语音数据的方法以及终端设备

Info

Publication number: CN103794206B
Application number: CN201410061987.8A
Authority: CN
Inventors: 戴海生
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2014-02-24
Filing date: 2014-02-24
Publication date: 2017-04-19
Anticipated expiration: 2034-02-24
Also published as: CN103794206A

Abstract

本发明提供了一种将文本数据转换为语音数据的方法以及终端设备。上述方法应用于终端设备，包括：获取文本数据；以及使用文本/语音映射表从所述文本数据转换为语音数据，其中，所述文本/语音映射表根据第一通话数据生成，所述第一通话数据为与规定联系人的通话数据的集合。根据上述方法以及终端设备，通过保存规定联系人的通话数据，从该联系人的通话数据的集合生成规定联系人的声音的文本/语音映射表，并且使用该文本/语音映射表来实现文本数据到语音数据的转换，因此在通话过程中自动收集语音数据，而无需规定联系人为了生成文本/语音映射表而特意进行录制，就能方便地将文本数据转换为规定联系人的声音的语音数据。

Description

将文本数据转换为语音数据的方法以及终端设备

技术领域

本发明涉及一种将文本数据转换为语音数据的方法以及终端设备，尤其涉及无需规定联系人为了生成文本/语音映射表而特意进行录制就能够将文本数据转换为用户所期望的规定联系人的语音数据的方法以及终端设备。

背景技术

如今，随着科学的发展以及社会的进步，电子产品更加人性化，出现了很多具有文本朗读功能的终端设备。例如，出现了带有短信朗读功能的手机，为老人、盲人等具有视力障碍的人等提供了很大的方便。此外，车载导航设备也具备了朗读电子邮件、新闻等功能，保证了驾驶司机的行车安全。

然而，在这样的朗读功能中，朗读声音往往非常单调，所有的短信、电子邮件、新闻等均通过事先录制成的一种声音进行播放。这样单调的声音不仅让用户听起来比较生硬、乏味。

为此，提出了用户能够根据自己的需要，将特定人的声音作为朗读的声音的方案。采用这样的语音朗读功能，其声音可以设定为自己所熟悉的人，因此能够给用户带来亲切感，可以使得用户听起来更加自然、舒服。但是，如果试图模拟特定人的声音，则需要使用该特定人的声音定制文本/语音映射表。这就需要该特定人来特意为此进行录制，直到发音音素覆盖率达到一定标准。这给该特定人以及用户带来很大的负担，可执行性不强。

发明内容

本发明鉴于以上课题完成，其目的在于，提供一种将文本数据转换为语音数据的方法以及终端设备，通过保存规定联系人的通话数据，从该联系人的通话数据的集合生成规定联系人的声音的文本/语音映射表，并且使用该文本/语音映射表来实现文本数据到语音数据的转换，因此在通话过程中自动收集语音数据，而无需规定联系人为了生成文本/语音映射表而特意进行录制，就能方便地将文本数据转换为规定联系人的声音的语音数据。

本发明的一个实施例提供一种将文本数据转换为语音数据的方法，应用于具有终端设备，包括：获取文本数据；以及使用文本/语音映射表从所述文本数据转换为语音数据，其中，所述文本/语音映射表根据第一通话数据生成，所述第一通话数据为与规定联系人的通话数据的集合。

本发明的实施例还提供一种终端设备，包括：通话数据保存模块，配置来存储通话数据；以及处理模块，配置来获取文本数据，并获取使用文本/语音映射表从文本数据转换为语音数据，其中，所述文本/语音映射表根据第一通话数据生成，所述第一通话数据为与规定联系人的通话数据的集合。

根据本发明的将文本数据转换为语音数据的方法以及终端设备，通过保存规定联系人的通话数据，从该联系人的通话数据的集合生成规定联系人的声音的文本/语音映射表，并且使用该文本/语音映射表来实现文本数据到语音数据的转换，因此在通话过程中自动收集语音数据，而无需规定联系人为了生成文本/语音映射表而特意进行录制，就能方便地将文本数据转换为规定联系人的声音的语音数据。

附图说明

图1是用于说明将文本数据转换为语音数据的方法的示意图。

图2是用于说明本发明的将文本数据转换为语音数据的方法中，生成文本/语音映射表的一个优选实施例的时序图。

图3是用于说明本发明的将文本数据转换为语音数据的方法中，通话数据的筛选的流程图。

图4是用于说明本发明的将文本数据转换为语音数据的方法中，覆盖预定范围的发音音素的检测过程的流程图。

图5是用于说明本发明的将文本数据转换为语音数据的方法中，一个优选实施例的流程图。

图6是用于说明本发明的将文本数据转换为语音数据的方法中，使用多个文本/语音映射表时的一优选实施例的示意图。

图7是用于说明本发明的将文本数据转换为语音数据的方法中，使用多个文本/语音映射表时的一优选实施例的流程图。

图8是用于说明本发明的终端设备的结构的功能框图。

具体实施方式

为使本领域的技术人员能够更好地理解本发明的技术方案，下面结合附图详细说明本发明的本发明的将文本数据转换为语音数据的方法以及终端设备的具体实施方式。

【将文本数据转换为语音数据的方法】

下面，结合附图来说明本发明的将文本数据转换为语音数据的方法的具体实施方式。本发明的将文本数据转换为语音数据的方法的实施例中，主要以将智能手机中的短信内容转换为语音数据为例进行说明，但事实上转换的文本数据不限于短信内容，还可以是电子邮件，新闻等任何形式的文本数据。此外，终端设备还可以是PDA、平板电脑、电子阅读器、车载导航等其他任何终端设备。因此，基于本发明中的实施例，本领域普通技术人员在未经创造性劳动而能够获得的所有其他实施例都属于本发明保护的范围。

图1是用于说明将文本数据转换为语音数据的方法的示意图。如图1所示，文本数据与语音数据之间的转换一般通过文本/语音映射表来实现。文本/语音映射表中存储了字符或者字符串与发音音素之间的对应关系。在终端设备获取文本数据后，使用文本/语音映射表将文本数据转换为语音数据。具体而言，首先识别该文本数据中的字符或者字符串。其次通过文本/语音映射表检索到与该字符以及字符串对应的发音音素。最后对该发音音素进行拼接、调整、优化，从而转换为与该文本数据对应的语音数据。可见，转换出来的语音数据中的声色、声调、强弱等声音取决于文本/语音映射表中存储的发音音素。同一个文本数据可以通过不同的文本/语音映射表分别转换为不同人的声音的语音数据。本发明的实施例通过保存规定联系人的通话数据，从该联系人的通话数据的集合生成规定联系人的声音的文本/语音映射表，并且使用该文本/语音映射表来实现文本数据到语音数据的转换，因此能够在通话过程中自动收集语音数据，而无需规定联系人为了生成文本/语音映射表而特意进行录制，就能方便地将文本数据转换为规定联系人的声音的语音数据。

接下来，结合图2说明本发明的将文本数据转换为语音数据的方法中，生成文本/语音映射表的一个优选实施方式。图2是用于说明本发明的将文本数据转换为语音数据的方法中生成文本/语音映射表的一个优选实施例的时序图。

首先，智能手机（终端设备）保存与规定联系人的通话数据（步骤S11）。在这里以电话的通话数据为例进行说明，但需要指出的是，通话数据不仅包括电话的通话数据，还可以包括通过微信（注册商标）、LINE（注册商标）等其他带有语音通信功能的第三方应用软件的通话数据。这里的规定联系人一般是关系亲近的人，例如可以是亲属、爱人、或者特定的朋友。规定联系人可以由用户手动设定，也可以根据智能手机的通话记录、短信记录等通信记录来确定，还可以根据智能手机的桌面图像等图片数据的来确定。根据通话记录来确定规定联系人，例如可以是通过识别在单位时间内的通话次数或者通话时间超过一定阈值的联系人来确定。根据短信记录确定规定联系人，例如可以是通过识别在单位时间内短信次数或者短信内容字数超过一定阈值的联系人来确定。根据智能手机的桌面图像来确定，例如可以是通过桌面图像的人脸识别，与电话簿中存储的人脸进行匹配，从而识别该联系人。优选地，智能手机还可以对通话数据进行筛选，当通话质量或者置信度达不到一定程度时，抛弃该通话数据，以保证通话数据的准确性。该筛选过程将在后面详细叙述。

接下来，智能手机将所保存的通话数据发送至服务器（步骤S12）。服务器可以是通过广域网连接的远程服务器，也可以是通过局域网或者其他方式连接的近程服务器。智能手机可以积攒多个通话数据，并且达到一定数量后一并发送至服务器，也可以是每当保存一个通话数据就立即向该服务器发送该通话数据，还可以是其他任何形式。服务器接收并存储来自智能手机的规定联系人的通话数据，形成通话数据的集合。

接下来，服务器根据所存储的规定联系人的通话数据的集合生成文本/语音映射表（步骤S13）。具体而言，对通话数据进行解析、并且分解为各个发音音素，并与字符或者字符串建立对应关系，从而生成文本/语音映射表。优选地，为了保证转换出来的语音数据的准确性，还可以对通话数据的集合覆盖发音音素的程度进行检测，并且在覆盖预定范围的发音音素后生成文本/语音映射表。该检测过程将在后面详细叙述。

最后，服务器将生成的文本/语音映射表发送给智能手机（步骤S14），以供智能手机使用该生成的文本/语音映射表进行文本数据与语音数据的转换。

由于通常需要大量的通话数据来生成文本/语音映射表，因此在上述生成文本/语音映射表的优选实施方式中，由服务器端存储通话数据，并根据规定联系人的通话数据的集合生成文本/语音映射表，从而能够有效减少智能手机的负载，提高转换效率。当然，本领域技术人员知道，上述生成文本/语音映射表的步骤也可以在智能手机中进行。

下面，结合图3来详细说明通话数据的筛选过程的一个优选实施方式。图3是用于说明本发明的将文本数据转换为语音数据的方法中，通话数据的筛选的流程图。

首先，获取规定联系人的通话数据（步骤S31）。

接下来，判断该通话数据的信号噪音比是否大于第一阈值（此处例如为20dB），并且噪声水平小于第二阈值（此处例如为45dB）（步骤S32）。

当信号噪音比大于20dB并且噪声水平小于45dB（步骤S32，是）时，说明该通话数据的质量较好，判断为适宜作为生成文本/语音映射表的元素，因此结束筛选过程，即保存通话数据。

当信号噪音比小于20dB或者噪声水平大于45dB（步骤S32，否）时，说明该通话数据的质量较差，继续分析通话数据，判断其置信度是否大于第三阈值（第三阈值取值范围为0～1，此处例如为0.85）（步骤S33）。

当置信度大于0.85时（步骤S33，是），说明该通话数据的可识别性高，判断为适宜作为生成文本/语音映射表的元素，因此结束筛选过程，即保存通话数据。

当置信度小于0.85时（步骤S33，否），说明该通话数据的可识别性低，判断该通话数据不宜作为生成文本/语音映射表的元素，因此抛弃该通话数据（步骤S34），结束筛选过程。

因此，通过上述通话数据的筛选过程，可以实现：仅在在满足下述至少一个条件时，保存该通话数据，作为生成文本/语音映射表的元素的规定联系人的通话数据的集合：

（1）信号噪音比大于第一阈值并且噪声水平小于第二阈值；

（2）所述通话数据的置信度大于第三阈值。

需要指出，本领域技术人员知道，也可以是同时满足上述两个条件时，保存该通话数据。

以上说明了在终端设备保存规定联系人的通话数据之前进行筛选的示例，但事实上不限于此，也可以在保存通话数据之后且生成文本/语音映射表之前进行筛选。

通过上述筛选过程，能够保证作为生成文本/语音映射表的元素的通话数据的通话质量以及置信度，从而以保证了生成文本/语音映射表的准确性。

下面，结合图4来详细说明对通话数据的集合覆盖发音音素的程度进行检测的一个优选实施方式。图4是用于说明本发明的将文本数据转换为语音数据的方法中，覆盖预定范围的发音音素的检测过程的流程图。首先，获取规定联系人的通话数据（步骤S41）。

接下来，判断所存储的通话数据的集合是否覆盖预定范围的发音音素（步骤S42）。这里的覆盖音素的范围可以根据实际需要进行设定。很显然，覆盖的发音音素范围越大，生成的文本/语音映射表越完整，转换出来的语音数据的声音就越接近于规定联系人的真实声音。

当所存储的通话数据的集合没有覆盖预定范围的发音音素时（步骤S42，否），说明该文本/语音映射表中的发音音素还不足以达到所要求的完整程度，因此暂不生成文本/语音映射表而再次返回到步骤S41而获取该规定联系人的通话数据。

当所存储的通话数据的集合覆盖预定范围的发音音素时（步骤S42，是），说明该文本/语音映射表中的发音音素已达到所要求的完整程度，因此生成文本/语音映射表（步骤S43）。

需要说明的是，本领域技术人员知道，当智能手机将规定联系人的通话数据发送给服务器，并在服务器存储通话数据集合并生成文本/语音映射表时，在服务器进行上述检测。此外，当在智能手机中存储通话数据的集合并生成文本/语音映射表时，还可以在该智能手机中进行上述检测。

通过上述检测，能够保证构成文本/语音映射表中的发音音素的完整性，使得使用该文本/语音映射表转换出来的语音数据的声音更接近于规定联系人的真实声音。

然而，一般情况下需要积累大量且多样的通话数据，才能够根据与规定联系人之间的通话数据的集合来覆盖比较完整的发音音素。因此，为了生成一个能够模拟规定联系人的声音的文本/语音映射表往往需要很长时间。为了克服上述缺陷，可以采用以某个基本文本/语音映射表为基础来调整个别发音因素的方法生成该规定联系人的文本/语音映射表。下面，结合图5说明本发明的另一个优选实施方式。

图5是用于说明本发明的将文本数据转换为语音数据的方法中，一个优选实施例的流程图。在本实施例中，在服务器中预先存储有多个已经覆盖了一定程度的发音音素的基本文本/语音映射表。但事实上例如在终端设备生成文本/语音映射表时，也可以在终端设备中存储上述多个基本文本/语音映射表。在本实施例的说明中，以服务器上存储有分别具有1.较粗的男声、2.较细的男声、3.较粗的女声、4.较细的女声的四种发音音素的四个基本文本/语音映射表为例进行说明。但事实上不限于此，可以根据不同的声音特征进行更详细的分类和分级，从而存储更多的基本文本/语音映射表。

首先，选择与规定联系人的通话数据中的语音最接近的基本文本/语音映射表（步骤S51）。例如，当规定联系人为用户的母亲，并且通过分析母亲的通话数据发现她的声音较细时，选择较细的女声的基本文本/语音映射表。当规定联系人为用户的父亲，并且通过分析父亲的通话数据发现他的声音较粗时，选择较粗的男声的基本文本/语音映射表。

其次，获取规定联系人的通话数据（步骤S52）。

最后，根据上述所获取的通话数据来调整所选择的基本文本/语音映射表（步骤S53）。具体而言，对所获取的通话数据进行解析、并且分解为多个发音音素，以该分解出来的发音音素来替换或者调整所选择的基本文本/语音映射表中的发音音素，不断优化该基本文本/语音映射表，从而生成规定联系人的文本/语音映射表。

根据上述方法，由于是通过在已经具有了相似的发音音素的基本文本/语音映射表的基础上进行调整来生成规定联系人的文本/语音映射表，与传统方法相比只需少量的通话数据即可生成与规定联系人的声音相似度较高的文本/语音映射表，大大提高了生成的效率和开销。

然而，就终端设备的短信或者电子邮件的朗读功能而言，在朗读短信或者电子邮件的内容之前，需要告知发信人的姓名或者电话号码，否则用户如果不看屏幕内容则无法知道该短信或者电子邮件来自哪一个联系人。当用户因某种原因没有听到联系人的告知时，还需要查看手机的显示屏以确认发信人的信息，给用户带来极大的不便。

为此，可以在终端设备中存储多个分别对应于不同规定联系人的文本/语音映射表。图6是用于说明本发明的将文本数据转换为语音数据的方法中，使用多个文本/语音映射表时的一优选实施例的示意图。如图6所示，例如当由父亲的通话数据生成文本/语音映射表1、由母亲的通话数据生成文本/语音映射表2、由爱人的通话数据生成文本/语音映射表3时，文本数据使用文本/语音映射表1转换可以得到父亲的声音的语音数据，文本数据使用文本/语音映射表2转换可以得到母亲的声音的语音数据，文本数据使用文本/语音映射表3转换可以得到爱人的声音的语音数据。因此，联系人与文本/语音映射表之间可以建立对应关系，且终端设备当中可以记录该对应关系。

下面，结合图7说明本发明的将文本数据转换为语音数据的方法的另一个优选实施方式。图7是用于说明本发明的将文本数据转换为语音数据的方法中，使用多个文本/语音映射表时的一优选实施例的流程图。

首先，获取文本数据（步骤S71）。此处的文本数据可以是但不限于短信、电子邮件等来自特定联系人的信件。

其次，识别该文本数据的联系人（步骤S72）。具体而言，智能手机可以根据短信的发信人的电话号码或者电子邮件的发件人的邮箱地址，对电话簿、通信录等进行检索，从而识别联系人。

接下来，根据联系人与文本/语音映射表之间的对应关系，选择与该联系人对应的文本/语音映射表（步骤S73）。

最后，使用该选择的文本/语音映射表将文本数据转换为语音数据（步骤S74），从而得到与短信的发信人或者电子邮件的发件人对应的声音的语音数据。

根据上述方法，关系密切的人的声音不仅给用户带来的亲近感，而且通过使用短信、电子邮件的来信人的声音来朗读短信、电子邮件，可以方便地让用户识别发信人。

然而，以上实施例说明了多个规定联系人与多个文本/语音映射表之间一一对应的例子，但事实上不限于此，也可以将联系人分组为男性与女性，分别与男声的文本/语音映射表以及女声的文本/语音映射表相对应。也可以是使用用户通过手动的方式来选择的特定文本/语音映射表，并使用该特定文本/语音映射表来实现文本数据与语音数据的转换等。

以上说明了本发明的将文本数据转换为语音数据的方法的多个实施例。显然，本领域技术人员在不脱离本发明的精神和范围内可以对上述实施例作出各种组合、修改或者变形。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

【终端设备】

下面，结合附图来说明本发明的终端设备的具体实施方式。在以下说明中，主要以将智能手机中的短信内容转换为语音数据为例进行说明，但事实上不限于此，终端设备还可以是PDA、平板电脑、电子阅读器、车载导航等其他任何终端设备，转换的文本数据也不限于短信内容，还可以是电子邮件，新闻等任何形式的文本数据。因此，基于本发明中的实施例，本领域普通技术人员在未经创造性劳动而能够获得的所有其他实施例都属于本发明保护的范围。

下面，结合图8说明本发明的终端设备的结构。图8是用于说明本发明的终端设备的结构的功能框图。如图8所示，本发明的终端设备100包括：

通话数据保存模块101，配置来保存通话数据；以及处理模块102，配置来获取文本数据，并获取使用文本/语音映射表从文本数据转换为语音数据，其中，所述文本/语音映射表根据第一通话数据生成，所述第一通话数据为与规定联系人的通话数据的集合。其中，通话数据保存模块101可以是随机访问存储器（RAM）、闪速存储器以及其他任何存储部件，处理模块102可以是微处理器等处理部件。

文本数据与语音数据之间的转换一般通过文本/语音映射表来实现。文本/语音映射表中存储了字符或者字符串与发音音素之间的对应关系。在终端设备获取文本数据后，使用文本/语音映射表将文本数据转换为语音数据。具体而言，首先识别该文本数据中的字符或者字符串。其次通过文本/语音映射表检索到与该字符以及字符串对应的发音音素。最后对该发音音素进行拼接、调整、优化，从而转换为与该文本数据对应的语音数据。可见，转换出来的语音数据中的声色、声调、强弱等声音取决于文本/语音映射表中存储的发音音素。同一个文本数据可以通过不同的文本/语音映射表分别转换为不同人的声音的语音数据。本发明的实施例通过通话数据保存模块101保存规定联系人的通话数据，并且处理模块102使用从该联系人的通话数据的集合生成规定联系人的声音的文本/语音映射表来实现文本数据到语音数据的转换，因此能够在通话过程中自动收集语音数据，而无需规定联系人为了生成文本/语音映射表而特意进行录制，就能方便地将文本数据转换为规定联系人的声音的语音数据。

接下来，生成文本/语音映射表的一个优选实施方式。在本实施例中，终端设备100还包括配置来与服务器进行通信的通信模块103。

首先，通话数据保存模块101保存与规定联系人的通话数据。在这里以电话的通话数据为例进行说明，但需要指出的是，通话数据不仅包括电话的通话数据，还可以包括通过微信（注册商标）、LINE（注册商标）等其他带有语音通信功能的第三方应用软件的通话数据。这里的规定联系人一般是关系亲近的人，例如可以是亲属、爱人、或者特定的朋友。规定联系人可以由用户手动设定，也可以根据智能手机的通话记录、短信记录等通信记录来确定，还可以根据智能手机的桌面图像等图片数据的来确定。根据通话记录来确定规定联系人，例如可以是通过识别在单位时间内的通话次数或者通话时间超过一定阈值的联系人来确定。根据短信记录确定规定联系人，例如可以是通过识别在单位时间内短信次数或者短信内容字数超过一定阈值的联系人来确定。根据智能手机的桌面图像来确定，例如可以是通过桌面图像的人脸识别，与电话簿中存储的人脸进行匹配，从而识别该联系人。优选地，智能手机还可以对通话数据进行筛选，当通话质量或者置信度达不到一定程度时，抛弃该通话数据，以保证通话数据的准确性。该筛选过程将在后面详细叙述。

接下来，通信模块103将所保存的通话数据发送至服务器。服务器可以是通过广域网连接的远程服务器，也可以是通过局域网或者其他方式连接的近程服务器。智能手机可以积攒多个通话数据，并且达到一定数量后一并发送至服务器，也可以是每当保存一个通话数据就立即向该服务器发送该通话数据，还可以是其他任何形式。服务器接收并存储来自智能手机的规定联系人的通话数据，形成通话数据的集合。

接下来，服务器根据所存储的规定联系人的通话数据的集合生成文本/语音映射表。具体而言，对通话数据进行解析、并且分解为各个发音音素，并与字符或者字符串建立对应关系，从而生成文本/语音映射表。优选地，为了保证转换出来的语音数据的准确性，还可以对通话数据的集合覆盖发音音素的程度进行检测，并且在覆盖预定范围的发音音素后生成文本/语音映射表。该检测过程将在后面详细叙述。

最后，服务器将生成的文本/语音映射表发送给通信模块103，以供处理模块102使用该生成的文本/语音映射表进行文本数据与语音数据的转换。

由于通常需要大量的通话数据来生成文本/语音映射表，因此在上述生成文本/语音映射表的优选实施方式中，由服务器端存储通话数据，并根据规定联系人的通话数据的集合生成文本/语音映射表，从而能够有效减少智能手机（终端设备100）的负载，提高转换效率。当然，本领域技术人员知道，上述生成文本/语音映射表的处理也可以在处理模块102中进行。

下面，详细说明通话数据的筛选过程的一个优选实施方式。

首先，处理模块102获取规定联系人的通话数据。

接下来，处理模块102判断该通话数据的信号噪音比是否大于第一阈值（此处例如为20dB），并且噪声水平小于第二阈值（此处例如为45dB）。

当信号噪音比大于20dB并且噪声水平小于45dB时，说明该通话数据的质量较好，判断为适宜作为生成文本/语音映射表的元素，因此处理模块102结束筛选处理，即保存通话数据至数据保存模块101。

当信号噪音比小于20dB或者噪声水平大于45dB时，说明该通话数据的质量较差，继续分析通话数据，判断其置信度是否大于第三阈值（第三阈值取值范围为0～1，此处例如为0.85）。

当置信度大于0.85时（步骤S33，是），说明该通话数据的可识别性高，判断为适宜作为生成文本/语音映射表的元素，因此处理模块102结束筛选过程，即保存通话数据至数据保存模块101。

当置信度小于0.85时（步骤S33，否），说明该通话数据的可识别性低，判断该通话数据不宜作为生成文本/语音映射表的元素，因此处理模块102抛弃该通话数据，结束筛选过程。

（1）信号噪音比大于第一阈值并且噪声水平小于第二阈值；

（2）所述通话数据的置信度大于第三阈值。

以上说明了在处理模块102保存规定联系人的通话数据之前进行筛选的示例，但事实上不限于此，也可以在保存通话数据之后且生成文本/语音映射表之前进行筛选。

通过上述筛选处理，能够保证作为生成文本/语音映射表的元素的通话数据的通话质量以及置信度，从而以保证了生成文本/语音映射表的准确性。

下面，详细说明对通话数据的集合覆盖发音音素的程度进行检测的一个优选实施方式。

首先，获取规定联系人的通话数据。

接下来，判断所存储的通话数据的集合是否覆盖预定范围的发音音素。这里的覆盖音素的范围可以根据实际需要进行设定。很显然，覆盖的发音音素范围越大，生成的文本/语音映射表越完整，转换出来的语音数据的声音就越接近于规定联系人的真实声音。

当所存储的通话数据的集合没有覆盖预定范围的发音音素时，说明该文本/语音映射表中的发音音素还不足以达到所要求的完整程度，因此暂不生成文本/语音映射表而再次获取该规定联系人的通话数据。

当所存储的通话数据的集合覆盖预定范围的发音音素时，说明该文本/语音映射表中的发音音素已达到所要求的完整程度，因此生成文本/语音映射表。

需要说明的是，本领域技术人员知道，当智能手机（终端设备100）通过通信模块103将规定联系人的通话数据发送给服务器，并在服务器存储通话数据集合并生成文本/语音映射表时，在服务器进行上述检测处理。当在处理模块102存储通话数据的集合并生成文本/语音映射表时，由处理模块102进行上述检测处理。

通过上述检测处理，能够保证构成文本/语音映射表中的发音音素的完整性，使得使用该文本/语音映射表转换出来的语音数据的声音更接近于规定联系人的真实声音。

然而，一般情况下需要积累大量且多样的通话数据，才能够根据与规定联系人之间的通话数据的集合来覆盖比较完整的发音音素。因此，为了生成一个能够模拟规定联系人的声音的文本/语音映射表往往需要很长时间。为了克服上述缺陷，可以采用以某个基本文本/语音映射表为基础来调整个别发音因素的方法生成该规定联系人的文本/语音映射表。

下面，说明本发明的另一个优选实施方式。在本实施例中，在服务器中预先存储有多个已经覆盖了一定程度的发音音素的基本文本/语音映射表。但事实上例如在终端设备生成文本/语音映射表时，也可以在终端设备中存储上述多个基本文本/语音映射表。在本实施例的说明中，以服务器上存储有分别具有1.较粗的男声、2.较细的男声、3.较粗的女声、4.较细的女声的四种发音音素的四个基本文本/语音映射表为例进行说明。但事实上不限于此，可以根据不同的声音特征进行更详细的分类和分级，从而存储更多的基本文本/语音映射表。

首先，选择与规定联系人的通话数据中的语音最接近的基本文本/语音映射表。例如，当规定联系人为用户的母亲，并且通过分析母亲的通话数据发现她的声音较细时，选择较细的女声的基本文本/语音映射表。当规定联系人为用户的父亲，并且通过分析父亲的通话数据发现他的声音较粗时，选择较粗的男声的基本文本/语音映射表。

其次，获取规定联系人的通话数据。

最后，根据上述所获取的通话数据来调整所选择的基本文本/语音映射表。具体而言，对所获取的通话数据进行解析、并且分解为多个发音音素，以该分解出来的发音音素来替换或者调整所选择的基本文本/语音映射表中的发音音素，不断优化该基本文本/语音映射表，从而生成规定联系人的文本/语音映射表。

由于是通过在已经具有了相似的发音音素的基本文本/语音映射表的基础上进行调整来生成规定联系人的文本/语音映射表，因此只需少量的通话数据即可生成与规定联系人的声音相似度较高的文本/语音映射表，大大提高了生成的效率和开销。

然而，就终端设备100的短信或者电子邮件的朗读功能而言，在朗读短信或者电子邮件的内容之前，需要告知发信人的姓名或者电话号码，否则用户如果不看屏幕内容则无法知道该短信或者电子邮件来自哪一个联系人。当用户因某种原因没有听到联系人的告知时，还需要查看手机的显示屏以确认发信人的信息，给用户带来极大的不便。

为此，在终端设备中还可以包括文本/语音映射表存储模块104，配置来存储多个分别对应于不同规定联系人的文本/语音映射表。例如当由父亲的通话数据生成文本/语音映射表1、由母亲的通话数据生成文本/语音映射表2、由爱人的通话数据生成文本/语音映射表3时，文本数据使用文本/语音映射表1转换可以得到父亲的声音的语音数据，文本数据使用文本/语音映射表2转换可以得到母亲的声音的语音数据，文本数据使用文本/语音映射表3转换可以得到爱人的声音的语音数据。因此，可以在联系人与文本/语音映射表之间建立对应关系，且终端设备当中可以记录该对应关系。

首先，获取文本数据。此处的文本数据可以是但不限于短信、电子邮件等来自特定联系人的信件。

其次，识别该文本数据的联系人。具体而言，处理模块102可以根据短信的发信人的电话号码或者电子邮件的发件人的邮箱地址，对电话簿、通信录等进行检索，从而识别联系人。

接下来，根据联系人与文本/语音映射表之间的对应关系，选择与该联系人对应的文本/语音映射表。

最后，处理模块102使用该选择的文本/语音映射表将文本数据转换为语音数据，从而得到与短信的发信人或者电子邮件的发件人对应的声音的语音数据。

根据上述终端设备100，关系密切的人的声音不仅给用户带来的亲近感，而且通过使用短信、电子邮件的来信人的声音来朗读短信、电子邮件，可以方便地让用户识别发信人。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

以上说明了本发明的终端设备的多个实施例。显然，本领域技术人员在不脱离本发明的精神和范围内可以对上述实施例作出各种组合、修改或者变形。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种将文本数据转换为语音数据的方法，应用于具有终端设备，包括：

获取文本数据；以及

使用文本/语音映射表从所述文本数据转换为语音数据，

其中，所述文本/语音映射表根据第一通话数据生成，所述第一通话数据为与规定联系人的通话数据的集合；

其中，根据第一通话数据生成所述文本/语音映射表包括：

与所述终端设备连接的服务器从一个或者多个基本文本/语音映射表中选择与所述规定联系人的通话数据中的语音最接近的第一基本文本/语音映射表；

所述服务器根据所述规定联系人的通话数据来调整所述第一基本文本/语音映射表中的发音元素，从而生成文本/语音映射表。

2.如权利要求1所述的将文本数据转换为语音数据的方法，其中，

所述根据第一通话数据生成文本/语音映射表包括：

所述终端设备保存与规定联系人的通话数据；

所述终端设备将所述与规定联系人的通话数据发送至所述服务器；

所述服务器根据所述与规定联系人的通话数据的集合生成文本/语音映射表。

3.如权利要求1所述的将文本数据转换为语音数据的方法，其中，

根据所述终端设备中的通信记录或者图片数据来确定所述规定联系人。

4.如权利要求1所述的将文本数据转换为语音数据的方法，其中，

所述第一通话数据为满足以下条件中的至少一个条件的与规定联系人的通话数据的集合：

信号噪音比大于第一阈值并且噪声水平小于第二阈值；

所述通话数据的置信度大于第三阈值。

5.如权利要求2所述的将文本数据转换为语音数据的方法，其中，

所述服务器中存储有一个或者多个基本文本/语音映射表。

6.如权利要求1至5中的任何一项所述的将文本数据转换为语音数据的方法，其中，

当所述第一通话数据覆盖预定范围的发音音素时，根据所述第一通话数据生成文本/语音映射表。

7.如权利要求1所述的将文本数据转换为语音数据的方法，其中，

所述使用文本/语音映射表从所述文本数据转换为语音数据包括：

使用从多个文本/语音映射表中选择的特定文本/语音映射表将所述文本数据转换为语音数据，

所述多个文本/语音映射表分别根据不同的联系人的通话数据而生成。

8.一种终端设备，包括：

通话数据保存模块，配置来保存通话数据；以及

处理模块，配置来获取文本数据，并获取使用文本/语音映射表从文本数据转换为语音数据，

其中，根据第一通话数据生成所述文本/语音映射表包括：

9.如权利要求8所述的终端设备，其中，

还包括通信模块，配置来与服务器进行通信，

所述通信模块将所述通话数据保存模块中保存的与规定联系人的通话数据发送至服务器，并从所述服务器接收根据与规定联系人的通话数据的集合生成的文本/语音映射表，

所述处理模块使用所述文本/语音映射表从所述文本数据转换为语音数据。

10.如权利要求8所述的终端设备，其中，

11.如权利要求8所述的终端设备，其中，

信号噪音比大于第一阈值并且噪声水平小于第二阈值；

所述通话数据的置信度大于第三阈值。

12.如权利要求8所述的终端设备，其中，

所述服务器中存储有一个或者多个基本文本/语音映射表。

13.如权利要求8至12中的任何一项所述的终端设备，其中，

14.如权利要求8所述的终端设备，其中，还包括：

文本/语音映射表存储模块，配置来存储多个文本/语音映射表，所述多个文本/语音映射表分别根据不同的联系人的通话数据而生成，

所述处理模块根据从所述多个文本/语音映射表选择的特定文本/语音映射表将所述文本数据转换为语音数据。