CN108877804B

CN108877804B - 语音服务方法、系统、电子设备及存储介质

Info

Publication number: CN108877804B
Application number: CN201810667901.4A
Authority: CN
Inventors: 吴旺; 张顺; 龚建明
Original assignee: AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2020-08-07
Anticipated expiration: 2038-06-26
Also published as: CN111755009A; CN108877804A

Abstract

本发明公开一种语音服务方法、系统、电子设备及存储介质，其中，所述方法包括：接收终端设备所发起的语音请求；确定用于响应所述语音请求的文本内容；至少发送所述文本内容至所述终端设备；将基于所述文本内容所合成的音频数据发送至所述终端设备。本发明实施例的方法中，因为基于语音请求确定相应的文本内容所消耗的时间，相对于基于文本内容合成相应的音频数据所消耗的时间要短很多，所以，本发明实施例的方法采用先后以文本内容形式和音频形式响应用户请求的能够保证对用户请求的及时应答，避免用户等待时间过长，提升用户体验。

Description

语音服务方法、系统、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及语音服务方法、系统、电子设备及存储介质。

背景技术

随着语音识别技术的不断发展，越来越多的成熟的语音服务产品为用户提供者便捷的语音服务，例如，各种语音助手的出现，使得用户查询获取信息的形式不再仅仅限于手动输入进行查询，可以直接进行语音输入来查询获取所需内容，相应的所获得的内容也不再仅仅限于传统的图文形式，还能够同时获得音频形式的信息。

然而，由于受合成音频数据的合成算法的效率的影响，在为用户提供同步的图文和音频信息时，往往会造成较长的延时。例如，亚马逊的AVS(Alexa Voice Service亚马逊智能对话服务)云端对话采用文本回复和语音回复结合的方式，云端先计算得到文本回复，但是文本回复要等合成计算返回语音回复后再一起向用户终端设备返回。这样做，从用户视角看，会造成从发送完语音请求到收到回复消息这之间的延时偏大。

为解决音频数据的合成算法所带来的延时问题，相关技术专家进行了越来越多的关于音频数据合成算法的优化方法的研究，但最终效果始终不够理想。

发明内容

本发明实施例提供一种语音服务方法、系统、电子设备及存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音服务方法，包括：

接收终端设备所发起的语音请求；

确定用于响应所述语音请求的文本内容；

至少发送所述文本内容至所述终端设备；

将基于所述文本内容所合成的音频数据发送至所述终端设备。

第二方面，本发明实施例提供另一种语音服务方法，包括：

发送语音请求至云端服务器；

至少接收所述云端服务器所发送的用于响应所述语音请求的文本内容；

接收所述云端服务器基于所述文本内容所合成的音频数据。

第三方面，本发明实施例提供一种语音服务系统，包括：

中控节点，用于接收终端设备所发起的语音请求；

文本内容确定节点，用于接收所述中控节点所分配的语音请求，并确定用于响应所述语音请求的文本内容，以用于所述中控节点至少发送所述文本内容至所述终端设备；

音频数据合成节点，用于基于所述文本内容合成相应的音频数据，所述中控节点还用于将基于所述文本内容所合成的音频数据发送至所述终端设备。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音服务方法。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音服务方法。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音服务方法。

本发明实施例的有益效果在于：相对于现有技术，本发明实施例的方法在提供语音服务时可以首先以文本内容的形式响应用户通过终端设备所发起的语音请求，进而在基于文本内容确定相应的音频数据之后进一步提供给用户。因为基于语音请求确定相应的文本内容所消耗的时间，相对于基于文本内容合成相应的音频数据所消耗的时间要短很多，所以，本发明实施例的方法采用先后以文本内容形式和音频形式响应用户请求的能够保证对用户请求的及时应答，避免用户等待时间过长，提升用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音服务方法的一种实施例的流程图；

图2为本发明的语音服务方法的一种实施例的流程图；

图3为本发明的语音服务方法的一种实施例的流程图；

图4为本发明的语音服务方法的一种实施例的流程图；

图5为本发明的语音服务方法的一种实施例的流程图；

图6为本发明的语音服务方法的一种实施例的流程图；

图7为本发明的语音服务方法的一种实施例的流程图；

图8为本发明的语音服务系统的一种实施例的原理框图；

图9为本发明的电子设备的一种实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的实施例提供一种语音服务方法，本发明实施例的方法应用于服务器或者服务器集群(例如，云端服务器)，该方法包括：

S11、接收终端设备所发起的语音请求；

其中，终端设备可以是智能手机、平板电脑、PC机等任何智能终端或者电子设备。用户可以通过安装在智能手机上的语音助手发起语音请求，例如，用户可以通过语音助手询问“北京明天的天气怎么样？”，智能手机通过麦克收音后将用户询问发送给云端服务器，即，云端服务器接收用户通过智能手机所发起的语音请求。

S12、确定用于响应所述语音请求的文本内容；

其中，在云端服务器接收到语音请求的音频数据后，对该音频数据进行语音识别得到对应的识别文本内容，然后对该识别文本内容进行语义理解，提取用户意图以及其他语义槽值，之后进行对话状态追踪，对话决策和自然语言生成以确定用于响应语音请求的内容，该内容包括用于与用户进行语音交互的文本内容和用于通过GUI向客户展示的其他控件如卡片，图片等，与GUI内容一同返回到终端设备的还包括用于播放合成音频的http链接。例如，所确定的文本内容包括：“北京明天的天气为晴天”、一张拍摄于北京某景点照片以及北京明天的温度变化曲线等。

S13、至少发送所述文本内容至所述终端设备；云端服务器获取上述文本内容后将该文本内容发送至用户的智能终端以展示给用户。

S14、将基于所述文本内容所合成的音频数据发送至所述终端设备。本发明实施例中所采用的基于文本内容合成音频数据的方法为现有技术中任意一种的TTS(text tospeech)的合成算法，本发明对具体所采用的算法不作限定。

相对于现有技术，本发明实施例的方法在提供语音服务时可以首先以文本内容的形式响应用户通过终端设备所发起的语音请求，进而在基于文本内容确定相应的音频数据之后进一步提供给用户。因为用户接受的响应包括用于显示的部分，如文本，卡片，图片等，也包括用于收听的合成之后的音频，而合成音频的生成在文本生成后需要一段计算时间，所以，本发明实施例的方法采用先后以文本内容形式和音频形式响应用户请求的能够保证对用户请求的及时应答，避免用户等待时间过长，提升用户体验。

如图2所示，为本发明的另一实施例的流程图，在发送所述文本内容至所述终端设备之后还包括：

S21、接收所述终端设备所发送的音频数据获取请求，所述音频数据获取请求中包括所述文本内容。

其中，智能终端在接收到来自云端服务器所确定的文本内容之后将其展示给用户，随后基于该文本内容生成音频数据获取请求并发送至云端服务器。

S22、解析所述音频数据获取请求以确定所述文本内容；

其中，云端服务器在接收到音频数据获取请求之后对其进行解析以获得文本内容，以用于合成相应的音频数据。

S23、基于所述文本内容合成相应的音频数据。

如图3所示，为本发明语音服务方法的另一实施例的流程图，具体包括以下步骤：

1).从终端设备向云端发起对话的语音请求；

2).云端的中控节点将语音请求向其他节点(文本内容确定节点)做分发，文本内容确定节点根据语音请求进行语音转文本，进一步对文本进行分析确定语义槽值和用户意图，进而基于确定的语义槽值和用户意图确定相应的文本内容，即，文本结果；

3).中控节点接收文本内容确定节点所发送的对应于对话的语音请求的文本结果；

4).中控节点向终端设备返回对话的文本结果；

5).终端设备访问云端合成节点(音频数据合成节点)的合成计算接口音频获取接口；

6).云端合成节点向本地回复对话的语音结果。

本实施了的方案是对话文本回复和语音回复分离，在本地获得对话的文本回复后，再请求云端合成节点的计算接口获得语音回复。实现了对话的文本回复和语音回复解耦，终端设备可以在获得文本结果后，在有屏设备上先做展示，随后进一步播放所获得的音频回复内容。

在一些实施例中，在确定用于响应所述语音请求的文本内容之后还包括：

启动基于所述文本内容合成音频数据的合成步骤并生成用于获取所述音频数据的音频数据下载地址；

所述至少发送所述文本内容至所述终端设备包括：

将所述文本内容和所述音频数据下载地址发送至所述终端设备。

本发明实施例中所采用的基于文本内容合成音频数据的合成步骤为现有技术中任意一种的TTS(text to speech)的合成算法，本发明对具体所采用的算法不作限定。

本实施例云端服务器在获取文本内容之后并不是直接将其发送至用户终端设备，而是首先根据文本内容启动云端服务器进行音频数据合成的合成步骤，同时生成了用于下载音频数据的音频数据下载地址，进而将文本内容和音频数据下载地址一并发送至用户的终端设备(这期间，音频数据的合成已经在进行中了)，相比于前述实施例中云端服务器根据终端设备所发送的包含了文本内容的音频数据获取请求开始进行音频数据的合成，本实施例中在云端服务器确定文本内容之后就已然启动了音频数据合成的合成步骤。本实施例将用户等待回复的等待时间进行了离散化，具体地：接收文本回复的等待时间t₂，从接收到文本回复至接收到音频回复的等待时间T₂(前述实施例中，例如，图2和图3所示的实施例，接收文本回复的等待时间t₁，从接收到文本回复到接收音频回复的等待时间T₁)，由于本实施例中在发送文本回复至终端设备之前相较于前述实施例至少多了“启动基于文本内容合成音频数据的合成步骤并生成用于获取所述音频数据的音频数据下载地址”，因此t₂大于t₁，即用户等待文本回复的时间更长了；进一步的，当终端设备向云端服务器发送包含了音频数据下载地址的音频数据请求时，其实音频数据实际可能已经部分生成甚至完全生成并缓存了下来，从而也就缩短了T₂(小于T₁)；所以本发明实施例将用户等待回复的时间进行了均匀化，使得用户在每个阶段(文本回复阶段和音频回复节点)的等待时间都适中；同时因为T₂是从接收到文本回复到结束音频回复的等待时间，所以T2减小，意味着先后呈现给用户文本内容和音频内容之间的时间间隔缩短了，这在一定程度上减轻了该时间间隔过长可能给用户造成的滞后感或者卡顿感，提升了用户体验。

也就是说，本发明实施例中异步合成相比于同步合成，可以有效降低用户能感受的对话延时，特别是对于百科知识这种技能来说，它的返回文本通常比较多，在使用同步合成的方案中，用户会觉得对话系统有比较明显的卡顿感；站在用户的角度看，异步合成方案可以消除这种卡顿感。

对话的文本结果和语音结果解耦，使得对话系统更更加鲁棒。用户能感受到的对话语音回复延时比较短，体验比较好。

如图4所示，为本发明的另一实施例的流程图，所述将基于所述文本内容所合成的音频数据发送至所述终端设备包括：

S41、接收所述终端设备所发送的音频数据获取请求，所述音频数据获取请求中包括所述音频数据下载地址；

S42、根据所述音频数据下载地址获取从启动所述合成步骤起至当前时刻所缓存的相应的音频数据；

S43、将所述音频数据发送至所述终端设备。

如图5所示，为本发明语音服务方法的另一实施例的流程图，具体包括以下步骤：

1.从终端设备向云端(云端服务器)发起对话的语音请求；

2.云端的中控节点将请求向其他节点(文本内容确定节点)做分发，文本内容确定节点根据语音请求进行语音转文本，进一步对文本进行分析确定语义槽值和用户意图，进而基于确定的语义槽值和用户意图确定相应的文本内容，即，文本结果；

3.中控节点接收文本内容确定节点所发送的对应于对话的语音请求的文本结果；

4.中控节点拿对话请求的文本结果请求合成节点的异步计算接口；

5.合成节点返回文本转语音的音频下载地址给中控节点；

6.云端中控节点向终端设备回复对话的文本结果，文本结果是一个json字符串串，在json中包含了文本转语音的音频下载地址；

7.终端设备访问云端合成节点的音频获取接口；

8.云端合成节点向终端设备回复对话的语音结果。

上述第5步合成节点返回音频下载地址和后台的文本转语音的计算是同时进行的，合成节点会将计算得到的音频数据缓存起来，为了配合对话对合成音使用的这种场景和数据安全的要求，对于缓存数据做了生命周期的限制，一段合成音频数据的有效期是五分钟。

如图6所示，为本发明语音服务方法的另一实施例的流程图，所述将基于所述文本内容所合成的音频数据发送至所述终端设备包括：

S61、接收所述终端设备所发送的音频数据获取请求，所述音频数据获取请求中包括所述音频数据下载地址；

S62、判断是否为第一次接收到所述音频数据下载地址所对应的音频数据获取请求；

S63、如果是，则根据所述音频数据下载地址获取从启动所述合成步骤起至当前时刻所缓存的相应的音频数据；

S64、将所述音频数据发送至所述终端设备。

本实施了中为了防盗链，从合成节点返回的音频下载地址只能在第一次请求时有效，避免了因盗链对音频数据的滥用以及造成的资源浪费。

在一些实施例中，本发明的语音服务方法还包括：

当启动所述合成步骤并完成所述音频数据的合成之后开始计时；

当计时时长超过预设阈值时删除所述音频数据，其中预设阈值可以为5分钟。

本实施了能够及时的释放缓存合成的音频数据所占据的存储空间，避免云端的存储空间的浪费。

中控节点负责接收用户请求，分发请求到各后端节点，生成请求状态并且实现各状态间的流转；合成节点负责文本到语音的转换。合成节点增加异步计算接口和音频获取接口，异步计算接口在收到请求后，先验证请求，对合法请求生成一个GUID(GloballyUnique Identifier全局唯一标识符)，然后使用该GUID生成一个音频下载地址，该地址在异步计算接口返回给调用者。同时，合成节点在后台做文本到语音的计算，并且将计算得到的音频缓存起来，缓存的键使用上文中的GUID，确保从音频获取接口可以取到该缓存音频。当中控节点获得对话的文本回复后，请求合成节点的异步计算接口，获得音频下载地址后，将该地址和文本返回给本地。本地在收到对话的文本回复后，再提取回复中的音频下载地址，请求合成节点的音频获取接口，获取对话的语音回复。

如图7所示，为本发明的另一实施例的语音服务方法，用于终端设备，终端设备可以是智能手机、平板电脑、PC机等任何智能终端或者电子设备等，该方法包括：

S71、发送语音请求至云端服务器；用户可以通过安装在智能手机上的语音助手发起语音请求，例如，用户可以通过语音助手询问“北京明天的天气怎么样？”，智能手机通过麦克收音后将用户询问发送给云端服务器。

S72、至少接收所述云端服务器所发送的用于响应所述语音请求的文本内容；其中，在云端服务器接收到语音请求的音频数据后，对该音频数据进行语音识别得到对应的识别文本内容，然后对该识别文本内容进行分析提取相关语义槽值以获取用户意图，之后对所提取的语义槽值和用户意图进行语义理解以确定用于响应语音请求的文本内容并发送至终端设备。其中，该文本内容可以包括文字内容和/或图片内容等，例如，所确定的文本内容包括：“北京明天的天气为晴天”、一张拍摄于北京某景点照片以及北京明天的温度变化曲线等。

S73、接收所述云端服务器基于所述文本内容所合成的音频数据。

相对于现有技术，本发明实施例的方法在提供语音服务时可以首先以文本内容的形式响应用户通过终端设备所发起的语音请求，进而在基于文本内容确定相应的音频数据之后进一步提供给用户。因为基于语音请求确定相应的文本内容所消耗的时间，相对于基于文本内容合成相应的音频数据所消耗的时间要短很多，所以，本发明实施例的方法采用先后以文本内容形式和音频形式响应用户请求的能够保证对用户请求的及时应答，避免用户等待时间过长，提升用户体验。

在一些实施例中，在接收所述云端服务器所发送的用于响应所述语音请求的文本内容之后还包括：

发送音频数据获取请求至所述云端服务器，用于所述云端服务器解析所述音频数据获取请求以确定所述文本内容，并基于所述文本内容合成相应的音频数据；其中，所述音频数据获取请求中包括所述文本内容。

在一些实施例中，所述至少接收所述云端服务器所发送的用于响应所述语音请求的文本内容包括：

接收所述云端服务器所发送的用于响应所述语音请求的文本内容和音频数据下载地址；

所述方法还包括：

发送音频数据获取请求至所述云端服务器，所述音频数据获取请求包括所述音频数据下载地址，用于所述云端服务器获取所述音频数据。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图8所示，本发明的实施例还提供一种语音服务系统800，包括：

中控节点810，用于接收终端设备所发起的语音请求；

文本内容确定节点820，用于接收所述中控节点810所分配的语音请求，并确定用于响应所述语音请求的文本内容，以用于所述中控节点810至少发送所述文本内容至所述终端设备；

音频数据合成节点830，用于基于所述文本内容合成相应的音频数据，所述中控节点810还用于将基于所述文本内容所合成的音频数据发送至所述终端设备。

在一些实施例中，所述中控节点还用于在发送所述文本内容至所述终端设备之后，接收所述终端设备所发送的音频数据获取请求，所述音频数据获取请求中包括所述文本内容；

所述中控节点还用于解析所述音频数据获取请求以确定所述文本内容，并发送至所述音频数据合成节点，以用于所述音频数据合成节点基于所述文本内容合成的相应的音频数据。

在一些实施例中，在所述文本内容确定节点确定用于响应所述语音请求的文本内容之后，所述音频数据合成节点启动基于所述文本内容合成音频数据的合成步骤并生成用于获取所述音频数据的音频数据下载地址；

所述中控节点用于将所述文本内容和所述音频数据下载地址发送至所述终端设备。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音服务方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音服务方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音服务方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时能够执行语音服务方法。

上述本发明实施例的语音服务系统可用于执行本发明实施例的语音服务方法，并相应的达到上述本发明实施例的实现语音服务方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图9是本申请另一实施例提供的执行语音服务方法的电子设备的硬件结构示意图，如图9所示，该设备包括：

一个或多个处理器910以及存储器920，图9中以一个处理器910为例。

执行语音服务方法的设备还可以包括：输入装置930和输出装置940。

处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。

存储器920作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音服务方法对应的程序指令/模块。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音服务方法。

存储器920可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音服务装置的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器920可选包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至语音服务装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置930可接收输入的数字或字符信息，以及产生与语音服务装置的用户设置以及功能控制有关的信号。输出装置940可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器920中，当被所述一个或者多个处理器910执行时，执行上述任意方法实施例中的语音服务方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音服务方法，包括：

接收终端设备所发起的语音请求；

确定用于响应所述语音请求的文本内容；

将所述文本内容和所述音频数据下载地址发送至所述终端设备；

2.根据权利要求1所述的方法，其中，所述将基于所述文本内容所合成的音频数据发送至所述终端设备包括：

接收所述终端设备所发送的音频数据获取请求，所述音频数据获取请求中包括所述音频数据下载地址；

根据所述音频数据下载地址获取从启动所述合成步骤起至当前时刻所缓存的相应的音频数据；

将所述音频数据发送至所述终端设备。

3.根据权利要求1所述的方法，其中，所述将基于所述文本内容所合成的音频数据发送至所述终端设备包括：

判断是否为第一次接收到所述音频数据下载地址所对应的音频数据获取请求；

如果是，则根据所述音频数据下载地址获取从启动所述合成步骤起至当前时刻所缓存的相应的音频数据；

将所述音频数据发送至所述终端设备。

4.根据权利要求2所述的方法，其中，还包括：

当计时时长超过预设阈值时删除所述音频数据。

5.一种语音服务方法，包括：

发送语音请求至云端服务器；

发送音频数据获取请求至所述云端服务器，所述音频数据获取请求包括所述音频数据下载地址，用于所述云端服务器获取所述音频数据；

接收所述云端服务器基于所述文本内容所合成的音频数据。

6.一种语音服务系统，包括：

中控节点，用于接收终端设备所发起的语音请求；

音频数据合成节点，用于启动基于所述文本内容合成音频数据的合成步骤并生成用于获取所述音频数据的音频数据下载地址；

7.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任意一项所述方法的步骤。

8.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任意一项所述方法的步骤。