CN105556999A

CN105556999A - 将文本数据的内容输出成发送方语音的方法

Info

Publication number: CN105556999A
Application number: CN201580001904.9A
Authority: CN
Inventors: 金东明; 权暎寿
Original assignee: LG Chemical Co Ltd
Current assignee: LG Corp
Priority date: 2014-08-06
Filing date: 2015-08-05
Publication date: 2016-05-04
Also published as: EP3035718A1; JP6459080B2; KR101703214B1; EP3035718A4; WO2016021937A1; TWI613641B; KR20160017625A; EP3035718B1; TW201633289A; JP2017531197A; US20160210960A1; US9812121B2

Abstract

本公开涉及将发送到终端的文本数据的文本内容输出成发送方语音的方法，并且包括：发送终端将文本数据发送到接收终端；以及所述接收终端将所述发送终端发送的所述文本数据的文本内容输出成所述文本数据的发送方的语音。

Description

将文本数据的内容输出成发送方语音的方法

技术领域

本公开涉及文本数据输出技术，更特别地讲，涉及将终端上接收的文本数据的文本内容输出成发送方语音的方法。

本申请要求2014年8月6日提交的大韩民国专利申请No.10-2014-0101232和2015年8月4日提交的大韩民国专利申请No.10-2015-0110072的优先权，这两个申请的公开的全部内容以引用方式明确地并入本文中。

背景技术

近来，随着移动通信技术的发展，不仅语音通话而且文本消息正在广泛使用中。通过诸如包括移动电话和智能电话的移动通信终端进行语音通话和文本消息的发送和接收。

一般是以视觉可识别的文本输出文本消息。也就是说，接收到文本消息的终端仅仅以文本格式输出文本消息。当仅仅以文本格式输出文本消息时，视觉受损的人无法读取文本消息的内容，并且即使视觉没有受损的人，在他们正在进行例如，工作、锻炼和驾驶的活动时常常也无法读取本文消息的内容。另外，文本格式的消息由于它们的能力不够，具有在传达情感或友善方面的限制。近来，随着移动通信终端的应用的普及使用和增长幅度，存在使用移动通信终端激发终端用户情感的技术的需求。

发明内容

技术问题

本公开被设计成解决相关技术的问题，并且因此，本公开旨在将文本数据的文本内容输出成发送方语音。

本公开进一步旨在使用在与文本消息发送方进行语音通话期间发送和接收的语音信号来连续更新文本消息发送方的语音信息，以允许随着通话数量的增加输出更近似于发送方的真实语音的语音。

可从下面的具体描述中来理解本公开的这些和其它目的和优点，并且本公开的这些和其它目的和优点从本公开的示例性实施例中将变得更加完全地显而易见。另外，应该容易理解，可通过随附权利要求书及其组合物中示出的装置来实现本公开的目的和优点。

技术解决方案

为了达到该目的，根据本公开的一方面的将文本输出成语音借此通过通信终端输出语音的方法包括：通过发送终端将文本数据发送到接收终端；以及通过所述接收终端将从所述发送终端发送的所述文本数据的文本内容输出成所述文本数据的发送方的语音。

在接收所述文本数据之前，所述方法可进一步包括：对于所述文本数据的发送方的语音数据，构造语音数据库。

所述构造语音数据库可包括将所述文本数据的发送方的语音数据和与所述语音数据对应的文本数据以相匹配的形式进行存储。

所述构造语音数据库可包括对于每个句子、每个词语和每个音节，将所述文本数据的发送方的语音数据和与所述语音数据对应的文本数据进行存储。

所述构造语音数据库可包括使用在使用所述发送终端和所述接收终端进行语音通话期间发送和接收的语音数据，构造用于所述文本数据的发送方的语音数据的语音数据库。

所述构造语音数据库可包括随着所述发送终端和所述接收终端之间反复进行语音通话来构造语音数据库。

所述构造语音数据库可进一步包括对于每个句子、每个词语和每个音节，将与构成所述发送终端和所述接收终端之间的语音通话的语音数据对应的文本数据之中、在已经构造的语音数据库中不存在的文本数据，和与所述语音数据库中不存在的所述文本数据对应的语音数据，以相匹配的形式进行存储。

所述构造语音数据库可包括对于每个句子、每个词语和每个音节，将与构成所述发送终端和所述接收终端之间的语音通话的语音数据对应的文本数据之中、在已经构造的语音数据库中存在的文本数据，和在所述语音数据库中不存在的、与文本数据对应的语音数据，以相匹配的形式进行更新和存储。

在所述构造语音数据库之后，所述将文本输出成语音的方法可进一步包括将通过所述发送终端和所述接收终端之间的所述语音通话构造的所述语音数据库的构造程度进行定量。

在所述定量之后，所述方法可进一步包括：基于在所述定量中定量的值，按预定等级将所述语音数据库的构造程度进行评级。

在所述评级之后，所述方法可进一步包括：通过所述接收终端通过显示器输出在所述评级中所评得的等级。

输出所评得的等级可包括基于所述预定等级来输出不同的可视信息。

所述定量可包括通过将对于每个句子、每个词语和每个音节在所述语音数据库中存储的所述语音数据和所述文本数据中的句子的数量、词语的数量和音节的数量进行求和，来对于每个文本数据发送方将所述语音数据库的构造程度进行定量。

所述定量可包括通过为对于每个句子、每个词语和每个音节在所述语音数据库中存储的所述语音数据和所述文本数据中的句子的数量、词语的数量和音节的数量赋予各自的权重，并且将加权的句子的数量、加权的词语的数量和加权的音节的数量进行求和，来对于每个文本数据发送方将所述语音数据库的构造程度进行定量。

赋予给所述句子的数量的所述权重可高于或等于赋予给所述词语的数量的所述权重，并且赋予给所述词语的数量的所述权重可高于或等于赋予给所述音节的数量的所述权重。

在所述输出成语音之前，所述方法可进一步包括：进行搜索，以确定在所述语音数据库中是否存在与和所述文本数据的发送方关联的信息相匹配的信息；基于所述进行搜索的搜索结果，从所述语音数据库中提取与从所述发送终端发送的所述文本数据对应的语音数据；以及将在所述提取中所提取的语音数据发送到所述接收终端。

作为所述进行搜索的搜索结果，当在所述语音数据库中存在与和所述文本数据的发送方关联的信息相匹配的信息时，提取语音数据可包括提取所述语音数据库中存储的所述文本数据的发送方的语音数据。

作为所述进行搜索中的搜索结果，当在所述语音数据库中不存在与和所述文本数据的发送方关联的信息相匹配的信息时，所述提取语音数据可包括提取所述语音数据库中存储的机器人语音。

在所述输出成语音之前，所述方法可进一步包括进行搜索，以确定在所述语音数据库中是否存在与和所述文本数据的发送方关联的信息相匹配的信息；基于所述进行搜索中的搜索结果，从所述语音数据库中提取与从所述发送终端发送的所述文本数据对应的语音数据；以及将在所述提取中所提取的所述语音数据发送到所述接收终端，其中，所述提取语音数据包括：从所述语音数据库中提取与和所述发送终端发送的所述文本数据中包括的句子对应的句子相匹配的语音数据，从所述语音数据库中提取与和所述发送终端发送的所述文本数据中包括的词语对应的词语相匹配的语音数据；从所述语音数据库中提取与和所述发送终端发送的所述文本数据中包括的音节对应的音节相匹配的语音数据。

可在提取句子之后执行提取词语，并且当在所述提取句子时连续执行对于预定句子的提取语音数据时，可不执行对于所述预定句子的提取词语，以及可在提取词语之后执行提取音节，并且当在所述提取词语时连续执行对于预定词语的提取语音数据时，可不执行对于所述预定词语的提取音节。

可对所述发送终端发送的所述文本数据中包括的至少两个句子重复地执行所述提取句子，所述提取词语和所述提取音节。

为了达到该目的，一种根据本公开的另一方面的用于将文本输出成语音的系统包括：通信网络；发送终端，所述发送终端经由所述通信网络将文本数据发送到接收终端；以及接收终端，所述接收终端输出发送所述文本数据的所述文本数据的发送方的语音数据，所述语音数据对应于经由所述通信网络从所述发送终端发送的所述文本数据。

所述通信网络可被提供有语音服务器，所述语音服务器构造用于所述文本数据的发送方的语音数据的语音数据库。

所述语音服务器可将所述文本数据的发送方的语音数据与和所述语音数据对应的文本数据相匹配，并且将其存储在所述语音数据库中。

所述语音服务器可对于每个句子、每个词语和每个音节存储所述文本数据的发送方的语音数据和与所述语音数据对应的文本数据。

所述语音服务器可使用在使用所述发送终端和所述接收终端进行语音通话期间发送和接收的语音数据，构造用于所述文本数据的发送方的语音数据的语音数据库。

所述语音服务器可随着所述发送终端和所述接收终端之间反复进行语音通话来构造所述语音数据库。

所述语音服务器可进一步对于每个句子、每个词语和每个音节，将与构成所述发送终端和所述接收终端之间的语音通话的语音数据对应的文本数据之中、在已经构造的语音数据库中不存在的文本数据，和与所述语音数据库中不存在的所述文本数据对应的语音数据，以相匹配的形式进行存储。

所述语音服务器可对于每个句子、每个词语和每个音节，将与构成所述发送终端和所述接收终端之间的语音通话的语音数据对应的文本数据之中、在已经构造的语音数据库中存在的文本数据，和在所述语音数据库中不存在的、与文本数据对应的语音数据，以相匹配的形式进行更新和存储。

所述语音服务器可将通过所述发送终端和所述接收终端之间的所述语音通话构造的所述语音数据库的构造程度进行定量。

所述语音服务器可基于定量的值，将所述语音数据库的构造程度评级成预定等级。

所述接收终端可通过显示器输出被评级成所述预定等级的等级。

所述接收终端可基于所述预定等级来输出不同的可视信息。

所述语音服务器可通过将对于每个句子、每个词语和每个音节在所述语音数据库中存储的所述语音数据和所述文本数据的句子的数量、词语的数量和音节的数量进行求和，来对于每个文本数据发送方将所述语音数据库的构造程度进行定量。

所述语音服务器可通过为对于每个句子、每个词语和每个音节在语音数据库中存储的所述语音数据和所述文本数据中的句子的数量、词语的数量和音节的数量赋予各自的权重并且将加权的句子的数量、加权的词语的数量和加权的音节的数量进行求和，来对于每个文本数据发送方将所述语音数据库的构造程度进行定量。

所述语音服务器可接收从所述发送终端发送的所述文本数据；可进行搜索，以确定在所述语音数据库中是否存在与和所述文本数据的发送方关联的信息相匹配的信息；可基于所述进行搜索的结果，从所述语音数据库中提取与从所述发送终端发送的所述文本数据对应的语音数据；以及可将所提取的语音数据发送到所述接收终端。

作为所述进行搜索的结果，当在所述语音数据库中存在与和所述文本数据的发送方关联的信息相匹配的信息时，所述语音服务器可提取所述语音数据库中存储的所述文本数据的发送方的语音数据。

作为所述进行搜索的结果，当在所述语音数据库中不存在与和所述文本数据的发送方关联的信息相匹配的信息时，所述语音服务器可提取所述语音数据库中存储的机器人语音。

所述语音服务器可接收从所述发送终端发送的所述文本数据；可进行搜索，以确定在所述语音数据库中是否存在与和所述文本数据的发送方关联的信息相匹配的信息；可基于所述进行搜索的结果，从所述语音数据库中提取与从所述发送终端发送的所述文本数据对应的语音数据；以及可将所提取的语音数据发送到所述接收终端；以及在基于所述进行搜索的结果从所述语音数据库中提取与所述发送终端发送的所述文本数据对应的语音数据中，所述语音服务器可在所述语音数据库中对于所述发送终端发送的所述文本数据中包括的文本内容进行搜索，以及可提取与和所述发送终端发送的所述文本数据中包括的句子对应的句子相匹配的语音数据、与和所述发送终端发送的所述文本数据中包括的词语对应的词语相匹配的语音数据、与和所述发送终端发送的所述文本数据中包括的音节对应的音节相匹配的语音数据中的至少一个。

当在所述语音数据库中存在与和所述发送终端发送的所述文本数据中包括的预定句子对应的句子相匹配的语音数据时，所述语音服务器可只提取与和所述预定句子对应的句子相匹配的语音数据，以及当在所述语音数据库中存在与和所述发送终端发送的所述文本数据中包括的预定词语对应的词语相匹配的语音数据时，所述语音服务器可只提取与和所述预定词语对应的词语相匹配的语音数据。

所述语音服务器可对所述发送终端发送的所述文本数据中包括的至少两个句子执行语音数据提取。

有益效果

根据本公开，当发送终端发送文本数据时，接收终端能够将发送终端发送的文本数据的内容不仅以文本输出而且输出成语音。特别地讲，根据本公开，能够将文本数据的内容输出成发送方的语音。

根据本公开的一方面，基于使用通信终端在语音通话期间发送和接收的语音数据，以有条理的形式存储呼叫方的语音，所以随着通话数量的增加，输出更近似文本消息发送方真实语音的语音。

根据本公开的另一方面，不仅发送方发送的文本消息，而且能够使用终端输出的文本信号，被输出成发送方的语音。

附图说明

附图示出了本公开的优选实施例，并且与以上的公开一起，用于提供对本公开的技术方面的进一步理解，因此，本公开不被理解为限于附图。

图1是示出根据本公开的实施例的用于将文本输出成语音的系统的示图。

图2是示意性示出根据本公开的实施例的语音数据库的示图。

图3是示出根据本公开的实施例的提取语音数据的过程的流程图。

图4是示出根据本公开的实施例的借此接收终端20通过使用用于将文本输出成语音的系统将发送终端发送的文本消息中的句子输出成语音的过程的示例的示图。

图5是示意性示出根据本公开的实施例的将文本输出成语音的方法的流程图。

具体实施方式

下文中，将参照附图详细地描述本公开的优选实施例。在描述之前，应该理解，说明书和随附权利要求书中使用的术语不应该被理解为限于一般的及字典上的含义，而是以允许发明人为进行最佳说明适宜地定义术语的原理为基础，基于与本公开的技术方面对应的含义和构思来理解。

因此，本文所提出的描述只是仅仅出于说明目的的优选示例，不旨在限制本公开的范围，所以应该理解，能够在不脱离本公开的范围的情况下，形成其它等同形式和修改形式。

另外，在本公开的描述中，当认为相关熟知的特征或功能的特定详细描述可能模糊了本公开的本质时，在本文中省去对其的详细描述。

参照图1，根据本公开的实施例的用于将文本输出成语音的系统包括发送终端10、接收终端20和移动通信网络30。

发送终端10和接收终端20是能够发送和接收文本数据并且进行语音通话的通信终端。例如，通信终端可以是智能电话或平板PC。尽管发送终端10和接收终端20被示出为智能电话，但只是以说明方式提供智能电话，本公开的发送终端10和接收终端20不限于智能电话。

从发送终端10发送的文本数据是能够通过接收终端20的显示器以文本显示的数据。更具体地讲，从发送终端10发送的文本数据是在发送终端10中被调制并且被发送到接收终端20的数据，并且在数据被发送到接收终端20之后，该数据在接收终端20中被解调并且在显示器上以文本显示。例如，文本数据可以是比特的集合。

根据实施例，当发送终端10的用户，即，发送方，将文本输入发送终端10并且发送相同文本时，该文本被调制成文本数据并且经由移动通信网络30被发送到接收终端20。

接收终端20可将接收到的文本数据解调成视觉可识别的文本并且显示文本。除了接收到的文本数据之外，接收终端20可通过显示器输出各种可视信息。

根据本公开的实施例的接收终端20可将发送终端10发送的文本数据的内容不仅以文本输出而且输出成语音。

更具体地讲，接收终端20可将文本数据的文本内容输出成发送方的语音。也就是说，接收终端20可将文本数据的文本内容输出成发送终端10的用户的语音。

接收终端20可具有产生语音输出的扬声器。为了将发送终端10发送的文本数据的文本内容输出成语音，接收终端20可从外部设备接收与文本数据对应的语音数据。接收终端20可通过扬声器输出从外部设备接收的语音数据。语音数据是在接收终端20中被解调并且通过扬声器输出的数据，以及可以是比特的集合。

接收终端20可解调从移动通信网络30发送的文本数据并且通过显示器输出文本内容，以及可解调从移动通信网络30发送的语音数据并且通过扬声器输出语音信号。

移动通信网络30可被提供文本服务器200和语音服务器100。移动通信网络30可使用文本服务器200和语音服务器100发送和接收文本数据和语音数据。

文本服务器200可从发送终端10接收文本数据，并且将文本数据发送到接收终端20。文本服务器200可被提供文本数据库210，以存储从发送终端10接收的文本数据。

语音服务器100包括语音数据库110，文本数据和与文本数据对应的语音数据以相匹配形式存储在语音数据库110中。语音数据库110是对于每位讲话者将文本数据和语音数据以相匹配的形式存储在其中的地方。

根据实施例，语音数据库110可进一步对于每个句子、每个词和/或每个音节将文本数据和语音数据以相匹配的形式进行存储。例如，语音数据库110可将文本数据“您好么最近过得好不好呢 ”和与其对应的语音数据以相匹配的形式进行存储。在这种情形下，语音数据库110可对于两个句子“您好么”和“最近过得好不好呢”中的每个，将文本数据和与其对应的语音数据以相匹配的形式进行存储，可对于每个词语“您好么”、“最近”、“过得”、“好不好呢”，将文本数据和与其对应的语音数据以相匹配的形式进行存储，以及可对于每个音节“您”、“好”、“么”、“最”、“近”、“过”、“得”、“好”、“不”、“好”和“呢”将文本数据和与其对应的语音数据以相匹配的形式进行存储。可对于每位讲话者，将这样的信息存储在语音数据库110中。

图2是示意性示出根据本公开的实施例的语音数据库110的示图。

参照图2，根据本公开的实施例的语音数据库110对于每位讲话者将文本数据和语音数据以相匹配的形式进行存储。也就是说，根据本公开的实施例的语音数据库110将文本数据和语音数据以按讲话者将文本数据和语音数据归类的相匹配的形式进行存储。

也就是说，根据本公开的实施例的语音数据库110不仅按讲话者，而且对于每位讲话者按句子、按词语、按音节来将文本数据和与其对应的语音数据进行存储。

根据实施例，语音数据库110可由在发送终端10和接收终端20之间进行的通话来构成。也就是说，使用从发送终端10和接收终端20之间进行的通话中提取的语音数据来构成语音数据库110。

根据实施例，语音服务器100可提取构成发送终端10和接收终端20之间进行的通话的语音数据。在这种情形下，语音服务器100可实时地或者在通话结束之后提取构成通话的语音数据。语音服务器100可对于每位讲话者按句子、按词语、按音节来存储构成通话的语音数据。另外，语音服务器100可从语音数据中提取与语音数据对应的文本数据。例如，如在以上示例中，语音服务器100可对于每个句子、每个词语、每个音节，在A和B之间的通话期间从A表达的语音数据“您好么最近过得好不好呢”中提取文本数据。在这种情形下，可通过已知的语音识别技术来执行从语音数据中提取文本。根据实施例，可通过基于音节的语音识别对语音数据的所有音节执行从语音数据中提取文本。当对所有音节执行文本数据提取时，跟着进行每音节的语音数据-文本数据匹配、每词语的语音数据-文本数据匹配、每句子的语音数据-文本数据匹配，并且通过这样做，可构造语音数据库110，在其中，对于每个音节、每个词语和每个句子，将文本数据和语音数据以相匹配的形式进行存储。

进一步，在每次发送终端10和接收终端20之间反复进行语音通话时，语音服务器100可构造语音数据库110。也就是说，在每次发送终端10和接收终端20之间反复进行语音通话时，语音服务器100可更新语音数据库110。语音服务器100进行搜索，以确定在已经构造的语音数据库110中是否存在构成通话的语音数据，并且当在已经构造的语音数据库110中不存在构成通话的语音数据时，语音服务器100可将语音数据与对应于语音数据的文本数据相匹配并且存储它们。在这种情形下，可对于每个音节、每个词语和每个句子，将语音数据与文本数据以相匹配的形式进行存储。当在已经构造的语音数据库110中存在构成通话的语音数据时，语音服务器100可维护已经构造的语音数据库110中存在的语音数据，并且可通过使用最新数据来更新已经构造的语音数据库110中存在的语音数据。优选地，语音服务器100可通过更新已经构造的语音数据库110来更新语音数据库110。

随着发送终端10和接收终端20之间的通话数量增加，更新语音数据库110并且逐渐弥补发送终端10的讲话者的语音信息。也就是说，随着发送终端10和接收终端20之间的通话数量增加，语音数据可变得更近似发文本者的真实语音。随着与音节关联的语音数据的量增加，可用语音表现更多的各种文本，并且随着与词语或句子关联的语音数据的量增加，可输出更近似真实语音的语音。

根据实施例，语音服务器100可将通过发送终端10和接收终端20之间的语音通话构成的语音数据库110的构造程度进行定量。也就是说，可基于预定标准来定量地评价语音数据库110的构造程度。这里，定量评价值可被分类为预定等级。也就是说，语音服务器100可基于语音数据库110的构造程度的定量值，将语音数据库110的构造程度评级成预定等级。

语音服务器100定量的值和/或定量值的等级可被存储在语音数据库110或单独的存储介质中，并且可被发送到接收终端20。接收终端20可从语音服务器100接收定量值和/或定量值的等级，并且按预定等级来输出不同的可视信息。例如，假设语音数据库110的构造程度被分类为五个等级，接收终端20可通过显示器对第一等级输出五颗星(☆)，对第二等级输出四颗星，对第三等级输出三颗星，对第四等级输出两颗星，以及对第五等级输出一颗星。这里，以星(☆)标记的可视信息只是出于说明目的，并且可通过各种可视信息在显示器上呈现语音数据库110的构造程度。

可各种各样地设置定量评价语音数据库110的构造程度的方法。根据实施例，语音服务器100可通过将在语音数据库110中存储的句子的数量、词语的数量和音节的数量进行求和，对于每位讲话者将语音数据库110的构造程度进行定量。例如，假设对于每个句子、每个词语和每音节在语音数据库110中存储的语音数据和文本数据中存在1,000个句子、10,000个词语和100,000音节，则语音数据库的构造程度可被定量为111,000(＝1,000+10,000+100,000)。根据另一个实施例，语音服务器100可通过为在语音数据库110中存储的句子的数量、词语的数量和音节的数量赋予各自的权重并且将加权的句子的数量、加权的词语的数量和加权的音节的数量进行求和，将语音数据库110的构造程度进行定量。如在以上示例中，假设对于每个句子、每个词语和每个音节在语音数据库110中存储的语音数据和文本数据中存在1,000个句子、10,000个词语和100,000音节，则为句子的数量赋予权重a，为词语的数量赋予权重b，以及为音节的数量赋予权重c。因此，语音数据库110的构造程度被定量为1,000*a+10,000*b+100,000*c。优选地，可鉴于句子的完成度，如下地提供赋予给句子的数量、词语的数量和音节的数量中的每个的权重。也就是说，赋予给句子的数量的权重被优选地设置成高于或等于赋予给词语的数量的权重，赋予给词语的数量的权重被优选地设置成高于或等于赋予给音节的数量的权重(也就是说，在这个示例中，a≥b≥c)。

另外，语音服务器100可在语音数据库110中搜索与从外部设备接收的文本数据对应的语音数据。在这种情形下，语音服务器100可对于每位讲话者搜索与从外部设备接收的文本数据对应的语音数据。另外，语音服务器100可从语音数据库110中提取与文本数据对应的语音数据，并且将提取的语音数据发送到接收终端20。例如，当人员A通过使用发送终端10将文本数据发送到接收终端20时，语音服务器100可搜索语音数据库110中的与讲话者A关联的信息，提取讲话者A的语音数据，并且将提取的A的语音数据发送到接收终端20。

进一步，语音服务器100可对于每个句子、每个词语和每个音节搜索与从外部设备接收的文本数据对应的语音数据。优选地，语音服务器100可按句子、词语和音节的顺序来搜索文本数据。

参照图3，根据本公开的实施例的语音服务器100通过以下过程从语音数据库110提取语音数据。

首先，语音服务器100从外部设备接收文本数据(S301)。例如，如图1中所示，语音服务器100可从文本服务器200接收文本数据。随后，语音服务器100进行搜索，以确定在语音数据库110中是否存在与发送接收到的文本数据的发送方关联的信息(S303)。作为在语音服务器100中进行搜索的结果，当在语音数据库110中存储了与发文本者关联的信息时，执行提取与文本数据对应的发送方的语音数据的过程，如果不是这样，执行将文本数据转换成机器人语音的过程(S315)。

更具体地讲，作为在语音服务器100中进行搜索的结果，当在语音数据库110中存储了与发文本者关联的信息时，语音服务器100进行搜索，以确定在语音数据库110中存在与文本数据的句子对应的句子(S305)。当在语音数据库110中存在与文本数据的句子对应的句子时，语音服务器100从语音数据库110中提取与文本数据的句子相匹配的语音数据(句子)(S307)。相比之下，当在语音数据库110中不存在与文本数据的句子对应的句子时，语音服务器100进行搜索，以确定在语音数据库110中是否存在与文本数据的词语对应的词语(S309)。当在语音数据库110中存在与文本数据的词语对应的词语时，语音服务器100从语音数据库110中提取与文本数据的词语相匹配的语音数据(词语)(S311)。相比之下，当在语音数据库110中不存在与文本数据的词语对应的词语时，语音服务器100提取与文本数据的音节相匹配的语音数据(音节)(S313)。

当在语音数据库110中存在与发送方关联的信息时，语音服务器100对于文本数据的每个句子重复地执行以上步骤(S305至S313)，以为所有的文本数据提取语音数据。语音服务器100将提取的语音数据发送到接收终端20，以允许接收终端20将文本输出成发送方的语音。

当在语音数据库110中不存在与文本数据的音节相匹配的语音数据时，语音服务器100可向接收终端20发送消息，该消息告知由于语音信息不足，导致语音转换失败，或者可将文本数据转换成预存储的机器人语音并且将其发送到接收终端20。在将文本数据转换成机器人语音中，语音服务器100可只将缺乏语音信息的音节转换成机器人语音以及可将所有句子都转换成机器人语音，并且对于不足的音节，可不执行语音转换。以与每个发送方的语音数据相同的方式，机器人语音可被存储在语音数据库110中，并且与各种已知的音节、词语、句子关联的语音数据可与文本数据以相匹配的形式存储在语音数据库110中。

作为确定语音数据库110中是否存在与发送方关联的信息的结果，当在语音数据库110中不存在与发送方关联的信息时，可将文本数据转换成预存储的机器人语音。机器人语音可被预存储在语音数据库110中。

图4是示出根据本公开的实施例的借此接收终端20通过使用用于将文本输出成语音的系统将发送终端10发送的文本消息中的句子输出成语音的过程的示例的示图。

参照图4，根据本公开的实施例的用于将文本输出成语音的系统包括发送终端10、接收终端20和移动通信网络30。移动通信网络30包括文本服务器100和语音服务器100，以及语音服务器100被提供语音数据库110。在图4的示例中，提供在语音服务器100中的语音数据库110被构造成对于每位讲话者以及对于每个句子、每个词语和每个音节将文本数据和语音数据以相匹配的形式进行存储。另外，在图4的示例中，与讲话者A相关的语音数据库110将和句子“您好么”相匹配的语音数据，以及和词语“最近”和“过得”中的每个相匹配的语音数据，以及和音节“您”、“好”、“么”、“最”、“近”、“过”、“得”、“好”、“不”和“好”中的每个相匹配的语音数据，与每个句子、每个词语和每个音节以相匹配的形式进行存储。

首先，当发送终端10将文本消息“您好么最近过得好不好呢”发送到接收终端20时，文本数据被发送到文本服务器200并且文本服务器200将接收到的文本数据发送到接收终端20和语音服务器100。语音服务器100进行搜索，以确定在数据库中是否存在与发送接收到的文本数据的发送方A关联的信息。如之前提到的，因为在数据库中存在与A关联的信息，所以语音服务器100执行句子匹配。也就是说，语音服务器100进行搜索，以确定在语音数据库110中是否存在接收到的文本数据中包括的句子。如之前提到的，因为在语音数据库110中存在第一句子“您好么”，所以语音服务器100提取与“您好么”相匹配的语音数据(A语音_句子1)。随后，语音服务器100进行搜索，以确定在语音数据库110中是否存在第二句子“最近过得好不好呢”。如之前提到的，因为在语音数据库110中不存在与句子“最近过得好不好呢”对应的信息，所以语音服务器100执行词语匹配。也就是说，语音服务器100进行搜索，以确定在语音数据库110中是否存在接收到的文本数据中包括的词语。如之前提到的，在语音数据库110中存在第二句子“最近过得好不好呢”中的第一词语“最近”和第二词语“过得”，语音服务器100提取与“最近”相匹配的语音数据(A语音_词语1)和与“过得”相匹配的语音数据(A语音_词语2)。然而，因为在语音数据库110中不存在与“好不好呢”相匹配的语音数据，所以语音服务器100对与第二句子中的第三词语执音节匹配。也就是说，语音服务器100提取与组成第三词语“好不好呢”的音节“好”、“不”、“好”和“呢”中的每个相匹配的语音数据A语音_音节8、A语音_音节9、A语音_音节10和A语音_音节11。

下文中，描述了根据本公开的实施例的将文本输出成语音的方法。根据本公开的实施例的将文本输出成语音的方法可以是使用如上所述的用于将文本输出成语音的系统的方法。也就是说，根据本公开的实施例的将文本输出成语音的方法的主题可以是以上系统的组件中的至少一个。

参照图5，根据本公开的实施例的将文本输出成语音的方法可按照图示的每个步骤来执行。

首先，该方法先开始构造语音数据库110，在其中，对于每位讲话者，将文本数据和语音数据以相匹配的形式进行存储(S510)。这里，可对应每位讲话者，按句子、按词语和按音节将语音数据与文本数据以相匹配的形式进行存储。可通过各种方法构造语音数据库110。优选地，可使用通过接收终端20和发送终端10进行语音通话期间发送的语音数据来构造语音数据库110。

随后，发送终端10将文本数据发送到接收终端20(S520)。在这种情形下，从发送终端10发送的文本数据可通过文本服务器200被发送到接收终端20并且可通过文本服务器200被发送到语音服务器100。随后，语音服务器100进行搜索，以确定在语音数据库110中是否存在与发送从发送终端10发送的文本数据的发送方或发送终端10关联的信息。当在语音数据库110中存在与发文本方关联的信息时，语音服务器100从语音数据库110中提取与文本数据相匹配的语音数据(S530)。优选地，语音服务器100以按句子、词语和音节的次序的顺序搜索与文本数据相匹配的语音数据，以提取近似真实讲话者语音的语音数据。随后，语音服务器100将与文本数据相匹配的语音数据发送到接收终端20。随后，接收终端20通过扬声器输出与文本数据相匹配的语音数据(S540)。通过这样，接收终端20可将与文本数据对应的语音作为发送方的语音来输出。选择性地，接收终端20可不仅通过显示器输出文本，而且通过扬声器输出语音。在这种情形下，接收终端20具有选择是否输出语音的按钮或图标，并且当按下按钮或者选择图标时，接收终端20可被配置成输出语音。另外，接收终端20可通过显示器输出与代表语音数据库110的构造程度的等级对应的可视信息，以允许接收终端20的用户看到语音数据库110的构造程度。接收终端20的用户可通过代表语音数据库110的构造程度的可视信息，直观地得知语音数据库110的构造程度。另外，接收终端20的用户可通过语音数据库110的构造程度，经由与发送终端10的用户的语音通话，间接得知通信的程度。因此，可引起接收终端20的用户和发送终端10的用户之间的语音通话。

通过以上方法以有条理的方式存储的发送终端10的讲话者的语音信息可用于不仅转换发送终端10发送的文本数据，而且转换任何其它的文本数据。例如，接收终端20可将接收终端20中存储的书和文档输出成以有条理的方式存储的发送终端10的讲话者的语音。又如，接收终端20可用以有条理的方式存储的发送终端10的讲话者的语音输出音乐。再如，在被设计回答问题的应用中，正输出的语音可变成以有条理的方式存储的发送终端10的讲话者的语音。例如，iOS应用Siri的响应可被转换成发送终端10的讲话者的语音。

通过这样，接收终端20的用户感觉到好像他/她真地与发送终端10的讲话者进行对话，从而使通信终端变成诸如宠物的同伴。

另一方面，以上方法可被编程并且存储在计算机可读的存储介质中。

尽管在以上示例中描述了在移动通信网络30上执行用于转换语音和有条理的方式的存储数据的操作，但本公开不限于此。也就是说，可在发送终端10或接收终端20中执行操作，以及一些操作可在移动通信网络30的服务器上执行而其它操作可在发送终端10或接收终端20中执行。

虽然上文已经通过有限数量的实施例和附图描述了本公开，但本公开不限于此并且应该理解可由本领域的普通技术人员在本公开和随附权利要求及其等同物的范围内进行各种变化和修改。

Claims

1.一种通过通信终端将文本输出成语音的方法，将文本输出成语音的所述方法包括：

通过发送终端将文本数据发送到接收终端；以及

通过所述接收终端将从所述发送终端发送的所述文本数据的文本内容输出成所述文本数据的发送方的语音。

2.根据权利要求1所述的将文本输出成语音的方法，所述方法在接收所述文本数据之前进一步包括：对于所述文本数据的发送方的语音数据，构造语音数据库。

3.根据权利要求2所述的将文本输出成语音的方法，其中，所述构造语音数据库包括：将所述文本数据的发送方的语音数据和与所述语音数据对应的文本数据以相匹配的形式进行存储。

4.根据权利要求3所述的将文本输出成语音的方法，其中，所述构造语音数据库包括：对于每个句子、每个词语和每个音节，将所述文本数据的发送方的语音数据和与所述语音数据对应的文本数据进行存储。

5.根据权利要求4所述的将文本输出成语音的方法，其中，所述构造语音数据库包括：使用在使用所述发送终端和所述接收终端进行语音通话期间发送和接收的语音数据，构造用于所述文本数据的发送方的语音数据的语音数据库。

6.根据权利要求5所述的将文本输出成语音的方法，其中，所述构造语音数据库包括：随着所述发送终端和所述接收终端之间反复进行语音通话来构造语音数据库。

7.根据权利要求6所述的将文本输出成语音的方法，其中，所述构造语音数据库进一步包括：对于每个句子、每个词语和每个音节，将与构成所述发送终端和所述接收终端之间的语音通话的语音数据对应的文本数据之中、在已经构造的语音数据库中不存在的文本数据，和与所述语音数据库中不存在的所述文本数据对应的语音数据，以相匹配的形式进行存储。

8.根据权利要求7所述的将文本输出成语音的方法，其中，所述构造语音数据库包括：对于每个句子、每个词语和每个音节，将与构成所述发送终端和所述接收终端之间的语音通话的语音数据对应的文本数据之中、在已经构造的语音数据库中存在的文本数据，和在所述语音数据库中不存在的、与文本数据对应的语音数据，以相匹配的形式进行更新和存储。

9.根据权利要求8所述的将文本输出成语音的方法，所述方法在所述构造语音数据库之后进一步包括：

将通过所述发送终端和所述接收终端之间的所述语音通话构造的所述语音数据库的构造程度进行定量。

10.根据权利要求9所述的将文本输出成语音的方法，所述方法在所述定量之后进一步包括：

基于在所述定量中定量的值，按预定等级将所述语音数据库的构造程度进行评级。

11.根据权利要求9所述的将文本输出成语音的方法，所述方法在所述评级之后进一步包括：

通过所述接收终端通过显示器输出在所述评级中所评得的等级。

12.根据权利要求11所述的将文本输出成语音的方法，其中，输出所评得的等级包括基于所述预定等级来输出不同的可视信息。

13.根据权利要求9所述的将文本输出成语音的方法，其中，所述定量包括通过将对于每个句子、每个词语和每个音节在所述语音数据库中存储的所述语音数据和所述文本数据中的句子的数量、词语的数量和音节的数量进行求和，来对于每个文本数据发送方将所述语音数据库的构造程度进行定量。

14.根据权利要求9所述的将文本输出成语音的方法，其中，所述定量包括通过为对于每个句子、每个词语和每个音节在所述语音数据库中存储的所述语音数据和所述文本数据中的句子的数量、词语的数量和音节的数量赋予各自的权重，并且将加权的句子的数量、加权的词语的数量和加权的音节的数量进行求和，来对于每个文本数据发送方将所述语音数据库的构造程度进行定量。

15.根据权利要求14所述的将文本输出成语音的方法，其中，赋予给所述句子的数量的所述权重高于或等于赋予给所述词语的数量的所述权重，并且赋予给所述词语的数量的所述权重高于或等于赋予给所述音节的数量的所述权重。

16.根据权利要求2至4中的任一项所述的将文本输出成语音的方法，所述方法在所述输出成语音之前进一步包括：

进行搜索，以确定在所述语音数据库中是否存在与和所述文本数据的发送方关联的信息相匹配的信息；

基于所述进行搜索的搜索结果，从所述语音数据库中提取与从所述发送终端发送的所述文本数据对应的语音数据；以及

将在所述提取中所提取的所述语音数据发送到所述接收终端。

17.根据权利要求16所述的将文本输出成语音的方法，其中，所述提取语音数据包括：当作为所述进行搜索的搜索结果，在所述语音数据库中存在与和所述文本数据的发送方关联的信息相匹配的信息时，提取所述语音数据库中存储的所述文本数据的发送方的语音数据。

18.根据权利要求16所述的将文本输出成语音的方法，其中，所述提取语音数据包括：当作为所述进行搜索中的搜索结果，在所述语音数据库中不存在与和所述文本数据的发送方关联的信息相匹配的信息时，提取所述语音数据库中存储的机器人语音。

19.根据权利要求4所述的将文本输出成语音的方法，所述方法在所述输出成语音之前进一步包括：

将在所述提取中所提取的所述语音数据发送到所述接收终端，其中，所述提取语音数据包括：

从所述语音数据库中提取与和所述发送终端发送的所述文本数据中包括的句子对应的句子相匹配的语音数据；

从所述语音数据库中提取与和所述发送终端发送的所述文本数据中包括的词语对应的词语相匹配的语音数据；

从所述语音数据库中提取与和所述发送终端发送的所述文本数据中包括的音节对应的音节相匹配的语音数据。

20.根据权利要求19所述的将文本输出成语音的方法，其中，在提取句子之后执行提取词语，并且当在所述提取句子中连续执行对于预定句子的提取语音数据时，不执行对于所述预定句子的提取词语，以及

在提取词语之后执行提取音节，并且当在所述提取词语中连续执行对于预定词语的提取语音数据时，不执行对于所述预定词语的提取音节。

21.根据权利要求20所述的将文本输出成语音的方法，其中，对所述发送终端发送的所述文本数据中包括的至少两个句子，重复地执行所述提取句子，所述提取词语和所述提取音节。

22.一种用于将文本输出成语音的系统，所述系统包括：

通信网络；

发送终端，所述发送终端经由所述通信网络将文本数据发送到接收终端；以及

接收终端，所述接收终端输出发送所述文本数据的所述文本数据的发送方的语音数据，所述语音数据对应于经由所述通信网络从所述发送终端发送的所述文本数据。

23.根据权利要求22所述的用于将文本输出成语音的系统，其中，所述通信网络被提供有语音服务器，所述语音服务器构造用于所述文本数据的发送方的语音数据的语音数据库。

24.根据权利要求23所述的用于将文本输出成语音的系统，其中，所述语音服务器将所述文本数据的发送方的语音数据与和所述语音数据对应的文本数据相匹配，并且将其存储在所述语音数据库中。

25.根据权利要求24所述的用于将文本输出成语音的系统，其中，所述语音服务器对于每个句子、每个词语和每个音节存储所述文本数据的发送方的语音数据和与所述语音数据对应的文本数据。

26.根据权利要求25所述的用于将文本输出成语音的系统，其中，所述语音服务器使用在使用所述发送终端和所述接收终端进行语音通话期间发送和接收的语音数据，构造用于所述文本数据的发送方的语音数据的语音数据库。

27.根据权利要求26所述的用于将文本输出成语音的系统，其中，所述语音服务器随着所述发送终端和所述接收终端之间反复进行语音通话来构造所述语音数据库。

28.根据权利要求27所述的用于将文本输出成语音的系统，其中，所述语音服务器进一步对于每个句子、每个词语和每个音节，将与构成所述发送终端和所述接收终端之间的语音通话的语音数据对应的文本数据之中、在已经构造的语音数据库中不存在的文本数据，和与所述语音数据库中不存在的所述文本数据对应的语音数据，以相匹配的形式进行存储。

29.根据权利要求28所述的用于将文本输出成语音的系统，其中，所述语音服务器对于每个句子、每个词语和每个音节，将与构成所述发送终端和所述接收终端之间的语音通话的语音数据对应的文本数据之中、在已经构造的语音数据库中存在的文本数据，和在所述语音数据库中不存在的、与文本数据对应的语音数据，以相匹配的形式进行更新和存储。

30.根据权利要求29所述的用于将文本输出成语音的系统，其中，所述语音服务器对通过所述发送终端和所述接收终端之间的所述语音通话构造的所述语音数据库的构造程度进行定量。

31.根据权利要求30所述的用于将文本输出成语音的系统，其中，所述语音服务器基于定量的值，将所述语音数据库的构造程度评级成预定等级。

32.根据权利要求30所述的用于将文本输出成语音的系统，其中，所述接收终端通过显示器输出被评级成所述预定等级的等级。

33.根据权利要求32所述的用于将文本输出成语音的系统，其中，所述接收终端基于所述预定等级来输出不同的可视信息。

34.根据权利要求30所述的用于将文本输出成语音的系统，其中，所述语音服务器通过将对于每个句子、每个词语和每个音节在所述语音数据库中存储的所述语音数据和所述文本数据的句子的数量、词语的数量和音节的数量进行求和，来对于每个文本数据发送方将所述语音数据库的构造程度进行定量。

35.根据权利要求30所述的用于将文本输出成语音的系统，其中，所述语音服务器通过为对于每个句子、每个词语和每个音节在语音数据库中存储的所述语音数据和所述文本数据中的句子的数量、词语的数量和音节的数量赋予各自的权重，并且将加权的句子的数量、加权的词语的数量和加权的音节的数量进行求和，来对于每个文本数据发送方将语音数据库的构造程度进行定量。

36.根据权利要求35所述的用于将文本输出成语音的系统，其中，赋予给所述句子的数量的所述权重高于或等于赋予给所述词语的数量的所述权重，并且赋予给所述词语的数量的所述权重高于或等于赋予给所述音节的数量的所述权重。

37.根据权利要求23至25中的任一项所述的用于将文本输出成语音的系统，其中，所述语音服务器接收从所述发送终端发送的所述文本数据；进行搜索，以确定在所述语音数据库中是否存在与和所述文本数据的发送方关联的信息相匹配的信息；基于所述进行搜索的结果，从所述语音数据库中提取与从所述发送终端发送的所述文本数据对应的语音数据；以及将所提取的语音数据发送到所述接收终端。

38.根据权利要求37所述的用于将文本输出成语音的系统，其中，当作为所述进行搜索的结果，在所述语音数据库中存在与和所述文本数据的发送方关联的信息相匹配的信息时，所述语音服务器提取所述语音数据库中存储的所述文本数据的发送方的语音数据。

39.根据权利要求37所述的用于将文本输出成语音的系统，其中，当作为所述进行搜索的结果，在所述语音数据库中不存在与和所述文本数据的发送方关联的信息相匹配的信息时，所述语音服务器提取所述语音数据库中存储的机器人语音。

40.根据权利要求36所述的用于将文本输出成语音的系统，其中，所述语音服务器接收从所述发送终端发送的所述文本数据；进行搜索，以确定在所述语音数据库中是否存在与和所述文本数据的发送方关联的信息相匹配的信息；基于所述进行搜索的结果，从所述语音数据库中提取与从所述发送终端发送的所述文本数据对应的语音数据，以及将所提取的语音数据发送到所述接收终端；以及

在基于所述进行搜索的结果从所述语音数据库中提取与所述发送终端发送的所述文本数据对应的语音数据中，所述语音服务器在所述语音数据库中对于所述发送终端发送的所述文本数据中包括的文本内容进行搜索，以及提取与和所述发送终端发送的所述文本数据中包括的句子对应的句子相匹配的语音数据、与和所述发送终端发送的所述文本数据中包括的词语对应的词语相匹配的语音数据、与和所述发送终端发送的所述文本数据中包括的音节对应的音节相匹配的语音数据中的至少一个。

41.根据权利要求40所述的用于将文本输出成语音的系统，其中，当在所述语音数据库中存在与和所述发送终端发送的所述文本数据中包括的预定句子对应的句子相匹配的语音数据时，所述语音服务器只提取与和所述预定句子对应的句子相匹配的语音数据，以及当在所述语音数据库中存在与和所述发送终端发送的所述文本数据中包括的预定词语对应的词语相匹配的语音数据时，所述语音服务器只提取与和所述预定词语对应的词语相匹配的语音数据。

42.根据权利要求41所述的用于将文本输出成语音的系统，其中，所述语音服务器对所述发送终端发送的所述文本数据中包括的至少两个句子执行语音数据提取。