CN112509551B

CN112509551B - 语音交互方法和装置、电子设备及可读存储介质

Info

Publication number: CN112509551B
Application number: CN202011355785.6A
Authority: CN
Inventors: 黄家天
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2024-08-20
Anticipated expiration: 2040-11-27
Also published as: CN112509551A

Abstract

公开了一种语音交互方法和装置、电子设备及可读存储介质，涉及语音交互技术领域。语音交互方法，包括：获取待转换为语音数据的文字数据；分割所述文字数据以生成第一文字数据部分和第二文字数据部分；将所述第一文字数据部分转换为第一语音数据部分并传输所述第一语音数据部分；响应于所述第二文字数据部分的生成，将所述第二文字数据部分转换为第二语音数据部分，其中，所述第二文字数据部分至所述第二语音数据部分的转换过程和所述第一语音数据部分的传输过程在时间上至少部分地重叠；以及传输所述第二语音数据部分。

Description

语音交互方法和装置、电子设备及可读存储介质

技术领域

本公开涉及语音交互技术领域，尤其涉及语音交互的方法、装置、电子设备和可读存储介质。

背景技术

随着语音交互技术的发展，长语音交互的应用场景越来越受到关注。在该应用场景下，如果用于进行语音交互的设备存在内存容量上的限制，例如小于8M，则可能会出现在语音交互过程中设备内存被占满的情况，由此造成设备宕机。为了缓解上述问题，近来还提出了将用于语音交互的音频文件存储于云端并由设备从云端设备下载的方法。然而，该方法必须在完整地生成整个音频文件的情况下才可进行，导致用户可感知到明显的交互延迟，极大降低了语音交互体验。

发明内容

根据本公开的一个方面，提供一种语音交互方法，包括：获取待转换为语音数据的文字数据；分割所述文字数据以生成第一文字数据部分和第二文字数据部分；将所述第一文字数据部分转换为第一语音数据部分并传输所述第一语音数据部分；响应于所述第二文字数据部分的生成，将所述第二文字数据部分转换为第二语音数据部分，其中，所述第二文字数据部分至所述第二语音数据部分的转换过程和所述第一语音数据部分的传输过程在时间上至少部分地重叠；以及传输所述第二语音数据部分。

根据本公开的另一个方面，提供一种语音交互装置，包括：文字数据获取单元，被配置为获取待转换为语音数据的文字数据；文字数据分割单元，被配置为分割所述文字数据以生成第一文字数据部分和第二文字数据部分；第一语音交互单元，被配置为将所述第一文字数据部分转换为第一语音数据部分并传输所述第一语音数据部分；第二语音交互单元，被配置为：响应于所述第二文字数据部分的生成，将所述第二文字数据部分转换为第二语音数据部分，其中，所述第二文字数据部分至所述第二语音数据部分的转换过程和所述第一语音数据部分的传输过程在时间上至少部分地重叠；以及传输所述第二语音数据部分。

根据本公开的另一个方面，提供一种电子设备，包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述的语音交互方法。

根据本公开的另一个方面，提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，使所述电子设备执行上述的语音交互方法。

根据本公开的另一方面，提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现上述的语音交互方法。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出根据示例性实施例的语音交互方法的流程图；

图2是用于说明根据示例性实施例的语音交互方法的过程的示意图；

图3是示出根据示例性实施例的语音交互装置的框图；以及

图4是示出能够应用于示例性实施例的计算设备的结构框图。

具体实施方式

下面结合附图和实施例对本公开进行进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外，还需要说明的是，为了便于描述，附图中仅示出了与相关发明相关的部分。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

以下将结合附图对根据本公开实施例的语音交互方法进行具体描述。

图1是示出根据本公开示例性实施例的语音交互方法的流程图。如图1所示，所述语音交互方法可以包括：步骤S101，获取待转换为语音数据的文字数据；步骤S102，分割文字数据以生成第一文字数据部分和第二文字数据部分；步骤S103，将第一文字数据部分转换为第一语音数据部分并传输第一语音数据部分；步骤S104，响应于第二文字数据部分的生成，将第二文字数据部分转换为第二语音数据部分，其中，第二文字数据部分至第二语音数据部分的转换过程和第一语音数据部分的传输过程在时间上至少部分地重叠；以及步骤S105，传输第二语音数据部分。

根据本公开实施例的语音交互方法，通过对待转换为语音数据的文字数据进行分割以生成第一文字数据部分和第二文字数据部分，并且将第一文字数据部分转换为第一语音数据部分并传输所述第一语音数据部分，一方面，避免了因为传输较长的一段长语音而使设备的内存被占满的情况，另一方面，还能够针对一部分语音数据即刻进行传输，而不是等待完整地转换完一段长语音之后才进行传输，由此将语音播放时间提前，确保在语音交互过程中用户不会感知到明显的语音交互延迟。

另外，根据本公开实施例的语音交互方法，通过响应于第二文字数据部分的生成，将第二文字数据部分转换为第二语音数据部分，其中，第二文字数据部分至第二语音数据部分的转换过程和第一语音数据部分的传输过程在时间上至少部分地重叠，能够确保在第一语音数据部分的传输过程中并行地进行第二文字数据部分至第二语音数据部分的转换，以便于后续的第二语音数据部分接续到第一语音数据部分以构成完整的一段语音，从而实现一段长语音的语音交互。

根据本公开的实施例，在步骤S101中，可以获取待转换为语音数据的文字数据。

通常，用于语音交互或提供语音交互服务的终端设备(在下文中统称为“终端设备”)，例如智能音箱、智能机器人等，可以接收例如用户发出的用于语音交互的语音并将其发送到云端设备进行处理。云端设备例如可以包括云服务器、远程服务器等远程计算中心，其与终端设备可以通过有线或无线的通信方式连接。

所述语音可以包括用户向终端设备发出的询问语音。例如，当用户需要了解其住所附近的餐厅信息时，其可以向诸如智能音箱的终端设备发出例如“请推荐住所附近的餐厅”的询问语音。该智能音箱可以接收该询问语音并将其发送到云端设备以获取相应的应答语音。此外，所述语音也可以包括用户向终端设备发出的指令语音，例如，用于指示智能机器人进行某项操作的指令语音。此外，所述语音也可以包括用户与终端设备进行聊天交互的聊天语音。根据本公开的实施例，所述语音的内容不局限于上述示例。

以所述语音为询问语音的情况为例，云端设备在接收到询问语音的情况下对其进行相应的处理，以获取用于对该询问语音进行应答的应答语音。为此，云端设备可以对所接收到的语音至少执行语音识别、语义解析和答案检索处理。

云端设备可以包括用于执行语音识别处理的设备，诸如ASR(Automatic SpeechRecognition，自动语音识别)设备，其可以被配置用于实现对自然语言的识别。即，由于用户向终端设备发出的询问语音呈自然语言的形式，需要首先将其转换成机器可识别的文字形式，以便于后续处理。另外，云端设备还可以包括用于执行语义解析处理和答案检索处理的设备，诸如由百度公司开发的智能对话定制与服务平台UNIT(Understanding andInteraction Technology)，其可以被配置用于对语音识别过程中所生成的文字进行语义理解并检索出相应的用于应答的答案。这里，检索出的答案呈文字的形式，其需要被转换为语音发送给用户作为应答语音。例如，针对用户向终端设备发出的询问语音“请推荐住所附近的餐厅”，云端设备在至少执行了语音识别、语义解析和答案检索处理之后，获得了相应的用于应答的答案，例如“附近的餐厅有中餐厅和西餐厅。中餐厅有……，西餐厅有……。”(这里为进行说明仅提供一个示例，省略了语句中的具体内容)。此时，该用于应答的答案呈文字的形式，即文字数据。该文字数据将由云端设备转换为相应的语音数据，从而与终端设备进行语音交互。由此，云端设备获取了待转换为语音数据的文字数据。

根据本公开的实施例，在步骤S102，可以分割所述文字数据以生成第一文字数据部分和第二文字数据部分。

根据一个实施例，可以基于预先设置的基本分割长度来分割所述文字数据。假设上述文字数据的示例“附近的餐厅有中餐厅和西餐厅。中餐厅有……，西餐厅有……。”包含155个文字，预先设置的基本分割长度可以是100个文字。在此情况下，第一文字数据部分可以包括该文字数据中的第1至第100个文字，而第二文字数据部分可以包括该文字数据中的第101至第155个文字。预先设置基本分割长度对于内存容量较小(例如小于8M)的终端设备是尤其有利的：在终端设备接收从云端设备传输的第一语音数据部分时，基本分割长度能够确保与所分割出的第一文字数据部分相对应的语音数据是终端设备的内存量所能够承受的，由此避免出现内存被占满的情况。

根据另一个实施例，可以基于预先设置的基本分割长度以及邻近所述基本分割长度出现的语句分割符来分割所述文字数据。语句分割符可以包括用于在文字语句中表明停顿和语气等的标点符号，例如顿号、逗号、分号、句号、问号或感叹号。以上述文字数据的示例“附近的餐厅有中餐厅和西餐厅。中餐厅有……，西餐厅有……。”为例，假设预先设置的基本分割长度是100个文字，且在第98个文字之后出现了用于停顿的逗号的情况，则可以基于该逗号来进行分割。这种以预先设置的基本分割长度为基准而利用邻近其出现的语句分割符来灵活分割文字数据的方式，能够确保将文字语句自然地分割成若干部分，从而在后续各部分被转换成相应语音数据之后能够自然地接续，不会使用户感知到明显的断点。

如上所述的100个文字的基本分割长度仅是一个经验性的示例。由于100个文字所对应的语音播放时长可达到约23秒，就通常的长语音交互场景而言，23秒的时长足以确保被分割出的第二文字数据部分能够完全被转换为第二语音数据部分，从而避免出现第一语音数据部分已传输并播放完成，但第二语音数据部分尚未被转换完的情况。因此，基于同样的原理，可以将基本分割长度设置为，使得与所述基本分割长度相对应的语音播放时长大于或等于用于将第二文字数据部分转换为所述第二语音数据部分的时长。

根据本公开的实施例，在步骤S103，可以将第一文字数据部分转换为第一语音数据部分并传输所述第一语音数据部分。

仍然以上述文字数据“附近的餐厅有中餐厅和西餐厅。中餐厅有……，西餐厅有……。”为例，假设分割出的第一文字数据部分包括其中的“附近的餐厅有中餐厅和西餐厅。中餐厅有……，”这部分，云端设备可以将该文字数据部分转换为相应的语音数据部分，并将其传输给终端设备，以在终端设备进行播放。为此，云端设备所包括的ASR设备和/或UNIT设备还可以包括用于将文字数据部分转换为语音数据部分的语音合成功能，其可以将分割出的第一文字数据部分转换为第一语音数据部分。

具体地，第一文字数据部分可以是在一边被转换为第一语音数据部分的同时一边被传输给终端设备，从而使得终端设备在接收到第一语音数据部分之后对其进行播放。直观地讲，这样的方式也可称为云端设备将第一语音数据部分“推流下发”到终端设备，即云端设备一边将文字转换为语音，一边向终端设备推送相应的语音。对于内存容量较小(例如为8M)的终端设备而言，针对第一语音数据部分采用“推流下发”的方式是尤其有利的。这是因为“推流下发”过程中的速度通常不可控，如果是较长的一段长语音被“推流下发”，可能会造成将终端设备的内存占满的情况。然而，根据本公开的实施例，可以将第一文字数据部分转换为第一语音数据部分并传输所述第一语音数据部分，也就是仅针对一部分语音数据采用这种方式，避免了终端设备的内存被占满的情况。另外，由于针对一部分语音数据即刻进行传输，而不是等待完整地转换完一段长语音之后才进行传输，使得能够将语音播放时间提前，确保在语音交互过程中用户不会感知到明显的语音交互延迟。

根据本公开的实施例，在步骤S104，可以响应于第二文字数据部分的生成，将第二文字数据部分转换为第二语音数据部分，其中，第二文字数据部分至第二语音数据部分的转换过程和第一语音数据部分的传输过程在时间上至少部分地重叠。

继续以上述文字数据的示例进行具体描述。在文字数据“附近的餐厅有中餐厅和西餐厅。中餐厅有……，西餐厅有……。”被分割成第一文字数据部分“附近的餐厅有中餐厅和西餐厅。中餐厅有……，”和第二文字数据部分“西餐厅有……。”的情况下，响应于该第二文字数据部分的生成，云端设备可以将该第二文字数据部分转换为第二语音数据部分。为此，云端设备可以包括单独的TTS(Text To Speech，语音合成)设备，其可以被配置用于将第二文字数据部分转换为第二语音数据部分。此外，云端设备还可以包括用于存储第二语音数据部分的存储设备，例如由百度公司开发的对象存储服务平台BOS。转换出的第二语音数据部分可以被存储在该存储设备上。

第二文字数据部分至第二语音数据部分的转换过程和第一语音数据部分的传输过程可以在时间上至少部分地重叠意味着，第二文字数据部分至第二语音数据部分的转换过程与第一语音数据部分的传输过程是异步的，二者在时间上不必相互等待或依赖。由此，能够确保在第一语音数据部分的传输过程中并行地进行第二文字数据部分至第二语音数据部分的转换，以便于后续的第二语音数据部分接续到第一语音数据部分以构成完整的一段语音。

根据本公开的实施例，在步骤S105，可以传输第二语音数据部分。

继续上述的文字数据示例。在将第二文字数据部分“西餐厅有……。”转换为相应的第二语音数据部分之后，可以传输该第二语音数据部分，从而使得终端设备在接收到第二语音数据部分之后对其进行播放。

根据一个实施例，可以在第一语音数据部分传输完后，传输第二语音数据部分。由此，第二语音数据部分能够接续到第一语音数据部分，从而构成完整的一段语音。

根据一个实施例，可以利用URL(Uniform Resource Locator，统一资源定位符)来实现第二语音数据部分的传输。具体地，可以在第二文字数据部分被转换为第二语音数据部分之前，构造用于第二语音数据部分的下载的URL并发送所述URL。提前构造URL可以确保第二语音数据部分在需要被下载时能够基于该URL而被下载。相应地，传输第二语音数据部分可以包括响应于基于所述URL的访问请求，传输第二语音数据部分。例如，终端设备可以向云端设备发送基于URL的访问请求，云端设备可以响应于该访问请求使第二语音数据部分被下载，从而使得终端设备在接收到第二语音数据部分之后对其进行播放。直观地讲，终端设备利用URL从云端设备下载第二语音数据部分也可以称为终端设备从云端设备“主动拉取”第二语音数据部分。由于“主动拉取”过程中的下载速度可由终端设备控制，避免了对终端设备的内存造成额外的负担。

如上所述，根据本公开实施例的语音交互方法，通过对待转换为语音数据的文字数据进行分割以生成第一文字数据部分和第二文字数据部分，并且将第一文字数据部分转换为第一语音数据部分并传输所述第一语音数据部分，一方面，避免了因为传输较长的一段长语音而使终端设备的内存被占满的情况，另一方面，还能够针对一部分语音数据即刻进行传输，而不是等待完整地转换完一段长语音之后才进行传输，由此将语音播放时间提前，确保在语音交互过程中用户不会感知到明显的语音交互延迟。而且，根据本公开实施例的语音交互方法，通过响应于第二文字数据部分的生成，将第二文字数据部分转换为第二语音数据部分，其中，第二文字数据部分至第二语音数据部分的转换过程和第一语音数据部分的传输过程在时间上至少部分地重叠，能够确保在第一语音数据部分的传输过程中并行地进行第二文字数据部分至第二语音数据部分的转换，以便于后续的第二语音数据部分接续到第一语音数据部分以构成完整的一段语音，从而实现一段长语音的语音交互。

图2是用于说明根据示例性实施例的语音交互方法的过程的示意图。图2以终端设备和云端设备之间的语音交互为例，详细说明根据本公开实施例的语音交互方法的过程。如上所述，终端设备例如可以是智能音箱、智能机器人等。云端设备例如可以包括云服务器、远程服务器等远程计算中心，其与终端设备可以通过有线或无线的通信方式连接。另外，云端设备可以包括如上所述的ASR设备、UNIT平台、TTS设备和BOS平台，以分别实现如上所述的相应功能。

如图2所示，用户可以通过终端设备将语音发送给云端设备。语音可以包括用户向终端设备发出的询问语音。如上所述，根据本公开的实施例，语音的内容不局限于询问语音，其也可以是用户向终端设备发出的指令语音，或者用户与终端设备进行聊天交互的聊天语音。

在步骤S201中，通过云端设备的ASR设备和UNIT平台所执行的语音识别、语义解析和/或答案检索处理，可以获取用于应答该询问语音的应答数据。如上所述，此时应答数据呈文字形式，即文字数据。该文字数据将由云端设备转换为相应的语音数据，从而发送给终端设备以进行语音交互。由此，云端设备获取待转换为语音数据的文字数据。

在步骤S202中，云端设备可以将文字数据分割成第一文字数据部分和第二文字数据部分。根据一个实施例，云端设备可以基于预先设置的基本分割长度来分割所述文字数据。基本分割长度能够确保与所分割出的第一文字数据部分相对应的语音数据是终端设备的内存量所能够承受的，由此避免出现内存被占满的情况。根据另一个实施例，可以基于预先设置的基本分割长度以及邻近所述基本分割长度出现的语句分割符来分割所述文字数据。语句分割符可以包括用于在文字语句中表明停顿和语气等的标点符号，例如顿号、逗号、分号、句号、问号或感叹号。由此，能够确保将文字语句自然地分割成若干部分，从而在后续各部分被转换成相应语音数据之后能够自然地接续，不会使用户感知到明显的断点。云端设备可以将基本分割长度设置为，使得与所述基本分割长度相对应的语音播放时长大于或等于用于将第二文字数据部分转换为第二语音数据部分的时长。由此，能够避免出现第一语音数据部分已传输并播放完成，但第二语音数据部分尚未被转换完的情况。

在步骤S203中，云端设备可以通过ASR设备和/或UNIT平台所提供的语音合成功能，将第一文字数据部分转换为第一语音数据部分，并且将所述第一语音数据部分传输给终端设备。如上所述，这也可以称为云端设备将第一语音数据部分“推流下发”给终端设备，即云端设备一边将文字转换为语音，一边向终端设备推送相应的语音。这样做的好处在于，一方面，由于“推流下发”过程中的速度通常不可控，对于内存容量较小(例如为8M)的终端设备而言，仅针对一部分语音数据采用“推流下发”的方式，可以避免终端设备的内存被占满。另一方面，由于针对一部分语音数据即刻进行传输，而不是等待完整地转换完一段长语音之后才进行传输，使得能够将语音播放时间提前，确保在语音交互过程中用户不会感知到明显的语音交互延迟。终端设备在接收到从云端设备传输的第一语音数据部分之后，可以对其进行播放。

当在步骤S202中云端设备从文字数据分割出第二文字数据部分之后，云端设备可以在步骤S204中通过TTS设备将第二文字数据部分转换为第二语音数据部分。云端设备还可以通过BOS平台来存储该第二语音数据部分。

如图2中所示，步骤S204被示出为与步骤S203“异步”执行。即，第二文字数据部分至第二语音数据部分的转换过程和第一语音数据部分的传输过程可以在时间上至少部分地重叠，也就是，二者在时间上不必相互等待或依赖。由此，可以在第一语音数据部分的传输过程中并行地进行第二文字数据部分至第二语音数据部分的转换，以便于后续的第二语音数据部分接续到第一语音数据部分以构成完整的一段语音。

在步骤S205中，终端设备可以“主动拉取”在云端设备中所存储的第二语音数据部分，从而第二语音数据部分被传输到终端设备以进行播放。根据一个实施例，可以在第一语音数据部分传输完后，传输第二语音数据部分。由此，第二语音数据部分能够接续到第一语音数据部分，从而构成完整的一段语音。根据一个实施例，终端设备可以利用URL从云端设备下载第二语音数据部分。例如，终端设备可以向云端设备发送基于URL的访问请求，云端设备可以响应于该访问请求使终端设备基于该URL来下载音频文件，以使终端设备对其进行播放。如图2所示，该URL可以是在第二文字数据部分被转换为第二语音数据部分之前构造的，如图2中所示出的“预构并发送URL”。提前构造URL可以确保第二语音数据部分在需要被下载时能够基于该URL而被下载。

根据本公开的另一方面，还提供了一种语音交互装置。图3是示出根据示例性实施例的语音交互装置的框图。如图3所示，语音交互装置300可以包括：文字数据获取单元301，被配置为获取待转换为语音数据的文字数据；文字数据分割单元302，被配置为分割所述文字数据以生成第一文字数据部分和第二文字数据部分；第一语音交互单元303，被配置为将所述第一文字数据部分转换为第一语音数据部分并传输所述第一语音数据部分；以及第二语音交互单元304，被配置为：响应于所述第二文字数据部分的生成，将所述第二文字数据部分转换为第二语音数据部分，其中，所述第二文字数据部分至所述第二语音数据部分的转换过程和所述第一语音数据部分的传输过程在时间上至少部分地重叠；以及传输所述第二语音数据部分。

语音交互装置300的上述单元301、302和303的操作可以分别与前面描述的步骤S101、S102、S103以及S201、S202、S203的操作对应，且单元304的操作可以与步骤S104-S105以及S204-S205的操作对应，在此不再赘述。

根据本公开的另一方面，还提供了一种电子设备，可以包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述的语音交互方法。

根据本公开的另一方面，还提供了一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，使所述电子设备执行上述的语音交互方法。

根据本公开的另一方面，还提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现上述的语音交互方法。

参见图4所示，现将描述计算设备4000，其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备4000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述语音交互方法可以全部或至少部分地由计算设备4000或类似设备或系统实现。

计算设备4000可以包括(可能经由一个或多个接口)与总线4002连接或与总线4002通信的元件。例如，计算设备4000可以包括总线4002、一个或多个处理器4004、一个或多个输入设备4006以及一个或多个输出设备4008。一个或多个处理器4004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备4006可以是能向计算设备4000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备4008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备4000还可以包括非暂时性存储设备4010或者与非暂时性存储设备4010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备4010可以从接口拆卸。非暂时性存储设备4010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备4000还可以包括通信设备4012。通信设备4012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙^TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备4000还可以包括工作存储器4014，其可以是可以存储对处理器4004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器4014中，包括但不限于操作系统4016、一个或多个应用程序4018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序4018中，并且上述语音交互方法可以通过由处理器4004读取和执行一个或多个应用程序4018的指令来实现。更具体地，上述语音交互方法中，步骤S101～步骤S105或步骤S201～步骤S205可以例如通过处理器4004执行具有步骤S101～步骤S105或步骤S201～步骤S205的指令的应用程序4018而实现。此外，上述语音交互方法中的其它步骤可以例如通过处理器4004执行具有执行相应步骤中的指令的应用程序4018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备4010)中，并且在执行时可以被存入工作存储器4014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。

还应该理解，计算设备4000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统4000的其他组件也可以类似地分布。这样，计算设备4000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种语音交互方法，应用于云端设备和具有预定内存容量的终端设备，包括：

所述云端设备获取待转换为语音数据的文字数据；

所述云端设备分割所述文字数据以生成第一文字数据部分和第二文字数据部分，其中，基于预先设置的基本分割长度来分割所述文字数据，所述基本分割长度使得与所分割出的所述第一文字数据部分相对应的第一语音数据部分是所述终端设备的所述预定内存容量在推流下发过程中能够承受的；

所述云端设备将所述第一语音数据部分从所述云端设备推流下发到所述终端设备，其中，所述推流下发包括所述云端设备一边将所述第一文字数据部分转换为第一语音数据部分，一边向所述终端设备传输所述第一语音数据部分；

所述云端设备构造用于所述第二文字数据部分所要转换成的第二语音数据部分的下载的URL并发送所述URL；

响应于所述第二文字数据部分的生成，所述云端设备将所述第二文字数据部分转换为所述第二语音数据部分，其中，所述第二文字数据部分至所述第二语音数据部分的转换过程和所述第一语音数据部分的推流下发过程异步执行，以使得所述转换过程和所述推流下发过程在时间上不相互依赖；以及

所述终端设备基于所述URL从所述云端设备主动拉取所述第二语音数据部分。

2.如权利要求1所述的语音交互方法，其中，基于预先设置的基本分割长度来分割所述文字数据。

3.如权利要求1或2所述的语音交互方法，其中，与所述基本分割长度相对应的语音播放时长大于或等于用于将所述第二文字数据部分转换为所述第二语音数据部分的时长。

4.如权利要求3所述的语音交互方法，其中，语句分割符是下列中的一者：顿号、逗号、分号、句号、问号或感叹号。

5.如权利要求1所述的语音交互方法，其中，所述传输所述第二语音数据部分包括：

所述云端设备在所述第一语音数据部分传输完后，传输所述第二语音数据部分。

6.如权利要求1所述的语音交互方法，其中，所述文字数据是将用于语音交互的语音经过语音识别处理、语义解析处理和答案检索处理之中的至少一者而生成的。

7.一种语音交互装置，应用于云端设备和具有预定内存容量的终端设备，包括：

文字数据获取单元，被配置为使所述云端设备获取待转换为语音数据的文字数据；

文字数据分割单元，被配置为使所述云端设备分割所述文字数据以生成第一文字数据部分和第二文字数据部分，其中，基于预先设置的基本分割长度来分割所述文字数据，所述基本分割长度使得与所分割出的所述第一文字数据部分相对应的第一语音数据部分是所述终端设备的所述预定内存容量在推流下发过程中能够承受的；

第一语音交互单元，被配置为使所述云端设备将所述第一语音数据部分从所述云端设备推流下发到所述终端设备，其中，所述推流下发包括所述云端设备一边将所述第一文字数据部分转换为第一语音数据部分，一边向所述终端设备传输所述第一语音数据部分；

构造单元，被配置为使所述云端设备构造用于所述第二文字数据部分所要转换成的第二语音数据部分的下载的URL并发送所述URL；

第二语音交互单元，被配置为：响应于所述第二文字数据部分的生成，使所述云端设备将所述第二文字数据部分转换为所述第二语音数据部分，其中，所述第二文字数据部分至所述第二语音数据部分的转换过程和所述第一语音数据部分的推流下发过程异步执行，以使得所述转换过程和所述推流下发过程在时间上不相互依赖；以及

下载单元，被配置为使所述终端设备基于所述URL从所述云端设备主动拉取所述第二语音数据部分。

8.一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1～6中任一项所述的语音交互方法。

9.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，使所述电子设备执行根据权利要求1～6中任一项所述的语音交互方法。

10.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～6中任一项所述的方法。