CN113889104A

CN113889104A - 一种语音交互方法、装置、计算机可读存储介质及服务器

Info

Publication number: CN113889104A
Application number: CN202111152917.XA
Authority: CN
Inventors: 李�杰; 汪滔; 恽承悦
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04

Abstract

本发明属于人工智能技术领域，尤其涉及一种语音交互方法、装置、计算机可读存储介质及服务器。所述方法包括：建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据；当所述电话平台处于预设的人工智能播报状态时，通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据；通过预设的自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；若所述意图识别结果为无效意图，则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤；若所述意图识别结果为有效意图，则将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态。

Description

一种语音交互方法、装置、计算机可读存储介质及服务器

技术领域

本发明属于人工智能技术领域，尤其涉及一种语音交互方法、装置、计算机可读存储介质及服务器。

背景技术

近年来，自动语音识别(Automatic Speech Recognition，ASR)技术已经取得了长足发展，系统响应时效和语音识别准确率都有很大的提升，人们能够直接和机器人进行语音交互，人机交互的模式一般是轮流讲话，如果人在机器播报的同时讲话，或者有环境背景声音，目前常用的处理方式是系统持续完成设定的语音内容播报，再收集处理语音输入，这种方式不够灵活，不能及时理解人话。为了解决这一问题，现有技术中还有一种处理方式是系统检测到有语音输入，立即停止语音播报，继续等待语音输入，但这种方式容易因环境噪音或者人的一些无明确意图话语而造成系统误打断语音播报，导致人机交互流畅性大大降低。

发明内容

有鉴于此，本发明实施例提供了一种语音交互方法、装置、计算机可读存储介质及服务器，以解决在现有的语音交互方法中人机交互流畅性较低的问题。

本发明实施例的第一方面提供了一种语音交互方法，可以包括：

建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据；

当所述电话平台处于预设的人工智能播报状态时，通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据；

通过预设的自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；

若所述意图识别结果为无效意图，则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤；

若所述意图识别结果为有效意图，则将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态。

在第一方面的一种具体实现方式中，所述建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据，可以包括：

接收所述电话平台发送的会话初始协议请求，并向所述电话平台发送会话初始协议响应信息；所述会话初始协议响应信息中包括媒体资源控制协议端口的端口信息和语音交互端口的端口信息；

接收所述电话平台根据所述媒体资源控制协议端口的端口信息发送的自动语音识别请求，并向所述电话平台发送自动语音识别响应信息；

接收所述电话平台根据所述语音交互端口的端口信息发送的用户实时语音数据。

在第一方面的一种具体实现方式中，所述通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据，可以包括：

根据预设的第一超时阈值判断所述用户实时语音数据是否已经传输完成；所述第一超时阈值表示每一段语音之间停顿时长的阈值；

若所述用户实时语音数据已经传输完成，则将所述用户实时语音数据转发至所述自动语音识别引擎，以使所述自动语音识别引擎将所述用户实时语音数据识别为所述文本数据；

接收所述自动语音识别引擎发送的所述文本数据。

在第一方面的一种具体实现方式中，所述通过预设的自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果，可以包括：

统计所述文本数据中的文字数量；

若所述文字数量小于预设的数量阈值时，将所述文本数据和所述第一超时阈值发送至所述自然语言处理系统，以使所述自然语言处理系统根据所述文本数据和所述第一超时阈值进行意图识别，得到所述意图识别结果；

接收所述自然语言处理系统发送的所述意图识别结果。

在第一方面的一种具体实现方式中，所述将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态，可以包括：

向所述自动语音识别引擎发送结束识别请求，以使所述自动语音识别引擎停止进行自动语音识别；

接收所述自动语音识别引擎发送的结束识别响应信息，并向所述自动语音识别引擎发送识别结果获取请求；

接收所述自动语音识别引擎的识别结果，并将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态。

在第一方面的一种具体实现方式中，所述语音交互方法还可以包括：

当所述电话平台处于预设的人工智能播报结束状态时，通过所述自动语音识别引擎将所述用户实时语音数据识别为文本数据；

通过所述自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；

若所述意图识别结果为不完整意图，则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤；

若所述意图识别结果为完整意图，则将所述自动语音识别引擎的识别结果发送至所述电话平台。

当检测不到所述用户实时语音数据时，对检测不到所述用户实时语音数据的时长进行计时；

若检测不到所述用户实时语音数据的时长大于预设的第二超时阈值，则向所述自动语音识别引擎发送结束识别请求，以使所述自动语音识别引擎停止进行自动语音识别。

本发明实施例的第二方面提供了一种语音交互装置，可以包括：

语音数据接收模块，用于建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据；

自动语音识别模块，用于当所述电话平台处于预设的人工智能播报状态时，通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据；

自然语言处理模块，用于通过预设的自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；

识别结果发送模块，用于若所述意图识别结果为有效意图，则将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态。

在第二方面的一种具体实现方式中，所述语音数据接收模块可以包括：

会话初始协议响应单元，用于接收所述电话平台发送的会话初始协议请求，并向所述电话平台发送会话初始协议响应信息；所述会话初始协议响应信息中包括媒体资源控制协议端口的端口信息和语音交互端口的端口信息；

自动语音识别响应单元，用于接收所述电话平台根据所述媒体资源控制协议端口的端口信息发送的自动语音识别请求，并向所述电话平台发送自动语音识别响应信息；

语音数据接收单元，用于接收所述电话平台根据所述语音交互端口的端口信息发送的用户实时语音数据。

在第二方面的一种具体实现方式中，所述自动语音识别模块可以包括：

传输完成判断单元，用于根据预设的第一超时阈值判断所述用户实时语音数据是否已经传输完成；所述第一超时阈值表示每一段语音之间停顿时长的阈值；

语音数据转发单元，用于若所述用户实时语音数据已经传输完成，则将所述用户实时语音数据转发至所述自动语音识别引擎，以使所述自动语音识别引擎将所述用户实时语音数据识别为所述文本数据；

文本数据接收单元，用于接收所述自动语音识别引擎发送的所述文本数据。

在第二方面的一种具体实现方式中，所述自然语言处理模块可以包括：

文字数量统计单元，用于统计所述文本数据中的文字数量；

数据发送单元，用于若所述文字数量小于预设的数量阈值时，将所述文本数据和所述第一超时阈值发送至所述自然语言处理系统，以使所述自然语言处理系统根据所述文本数据和所述第一超时阈值进行意图识别，得到所述意图识别结果；

意图识别结果接收单元，用于接收所述自然语言处理系统发送的所述意图识别结果。

在第二方面的一种具体实现方式中，所述识别结果发送模块可以包括：

结束识别请求发送单元，用于向所述自动语音识别引擎发送结束识别请求，以使所述自动语音识别引擎停止进行自动语音识别；

识别结果获取单元，用于接收所述自动语音识别引擎发送的结束识别响应信息，并向所述自动语音识别引擎发送识别结果获取请求；

识别结果发送单元，用于接收所述自动语音识别引擎的识别结果，并将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态。

在第二方面的一种具体实现方式中，所述语音交互装置还可以包括：

播报结束处理模块，用于当所述电话平台处于预设的人工智能播报结束状态时，通过所述自动语音识别引擎将所述用户实时语音数据识别为文本数据；通过所述自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；若所述意图识别结果为完整意图，则将所述自动语音识别引擎的识别结果发送至所述电话平台。

无语音处理模块，用于当检测不到所述用户实时语音数据时，对检测不到所述用户实时语音数据的时长进行计时；若检测不到所述用户实时语音数据的时长大于预设的第二超时阈值，则向所述自动语音识别引擎发送结束识别请求，以使所述自动语音识别引擎停止进行自动语音识别。

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种语音交互方法的步骤。

本发明实施例的第四方面提供了一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种语音交互方法的步骤。

本发明实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在服务器上运行时，使得服务器执行上述任一种语音交互方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据；当所述电话平台处于预设的人工智能播报状态时，通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据；通过预设的自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；若所述意图识别结果为无效意图，则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤；若所述意图识别结果为有效意图，则将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态。通过本发明实施例，在进行自动语音识别的同时还可以进行意图识别，只有当意图识别结果为有效意图时，才会停止人工智能播报状态，从而避免了因环境噪音或者人的一些无明确意图话语而造成的系统误打断语音播报，大大提高了人机交互的流畅性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种语音交互方法的一个实施例流程图；

图2为建立与预设的电话平台之间的交互连接，并接收电话平台发送的用户实时语音数据的示意流程图；

图3为本发明实施例中一种语音交互装置的一个实施例结构图；

图4为本发明实施例中一种服务器的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例的执行主体可以为基于人工智能的服务器，用于执行本发明实施例中的语音交互方法。所述服务器可以为提供媒体资源控制协议(Media Resource ControlProtocol,MRCP)服务的服务器。

请参阅图1，本发明实施例中一种语音交互方法的一个实施例可以包括：

步骤S101、建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据。

如图2所示，步骤S101具体可以包括如下过程：

步骤S1011、接收所述电话平台发送的会话初始协议(Session InitiationProtocol，SIP)请求，并向所述电话平台发送会话初始协议响应信息。

所述电话平台用于与用户进行基于人工智能的语音交互，在语音交互过程中向用户播报预设的对话内容，即进行AI播报。

所述电话平台可以向所述服务器发送SIP请求。SIP是一个基于文本的应用层信令控制协议，用于创建、修改和释放一个或多个参与者的会话。这些会话可以是互联网多媒体会议、IP电话或多媒体分发。SIP消息主要分为两大类:一类是由客户端(即所述电话平台)发往服务器的请求消息(Request)；一类是由服务器发往客户端的响应消息(Response)。一个基本的SIP消息＝起始行(包括请求行或状态行)+一个或多个头字段+说明头字段结束的空行+一个可选的消息体。所述起始行包括请求行或状态行，对于请求消息而言，请求行＝方法+空格+请求地址+SIP版本号+空行；对于响应消息而言，状态行＝SIP版本+空格+状态码+空格+相关文本短语+空行；其中，所述请求行规定了请求的类别，状态行指出了每个请求的状态，比如是成功还是失败。在失败的情况下，给出失败的原因或者类型。所述消息头部(头字段)给出了关于请求或应答的更多信息，例如，消息的来源、规定的消息接收方，以及一些其他方面的重要信息。在一种可能的实现方式中，SIP会话请求消息＝请求行+头字段+说明头字段结束的空行+一个可选的消息体。所述头字段中包括通知所述服务器发起SIP会话请求的客户端地址和传递语音包使用的端口信息。

所述服务器在接收到所述SIP请求后，可以向所述电话平台发送SIP响应信息，所述SIP响应信息中包括媒体资源控制协议端口的端口信息和语音交互端口的端口信息。

应理解，MRCP协议为一个通信的协议族，包括SIP协议、RTP协议和MRCP协议。其中，SIP协议是会话控制协议，通过发送SIP消息建立所述服务器与所述电话平台的会话通路。在建立会话通路之后，所述服务器与所述电话平台可以通过MRCP协议发送控制消息，所述控制消息用于控制是否播放语音，或者，是否进行语音识别，例如，ASR请求，或者ASR结束识别请求，或者ASR识别结果。RTP协议是资源传输协议，用于传输语音数据。

应理解，所述语音交互端口的端口信息用于通过RTP资源传输协议进行语音数据的传输。

在一种可能的实现方式中，SIP响应＝状态行+头字段+说明头字段结束的空行+一个可选的消息体。所述头字段中包括MRCP协议相关的媒体资源控制协议端口和语音交互端口信息。

步骤S1012、接收所述电话平台根据所述媒体资源控制协议端口的端口信息发送的自动语音识别请求，并向所述电话平台发送自动语音识别响应信息。

所述电话平台在接收到所述服务器发送的SIP响应信息之后，可以根据所述媒体资源控制协议端口的端口信息向所述服务器发送ASR请求；所述ASR请求中至少包括状态参数，所述状态参数用于表征所述电话平台的AI播报的状态；所述状态参数至少包括两个标识：标识1和标识2；标识1用于表征所述电话平台处于AI播报状态；所述标识2用于表征所述电话平台处于AI播报结束状态。

应理解，在所述电话平台接收到SIP会话响应信息之后，所述电话平台与所述服务器建立了SIP会话通路。在建立了SIP会话通路之后，所述服务器与电所述话平台可以通过MRCP协议发送控制消息，例如，ASR请求，进行语音识别。

应理解，所述AI播报的内容为预设的问题，所述预设问题通过所述电话平台中的机器人自动播报。

所述服务器在接收到所述ASR请求之后，可以向所述电话平台发送ASR响应信息。可选的，所述响应信息可以为200OK的状态码，表示请求成功。在发送ASR响应信息之后，所述服务器可以创建后台服务线程，调用ASR引擎用于进行语音识别的应用程序接口(Application Programming Interface，API)与ASR引擎建立连接。

步骤S1013、接收所述电话平台根据所述语音交互端口的端口信息发送的用户实时语音数据。

可选的，所述服务器与所述电话平台通过RTP协议进行语音数据的交互。

在一种可能的实现方式中，在发送语音数据的同时，所述电话平台调用监听线程监听MRCP的协议端口，等待所述服务器返回控制消息和识别结果。其中，所述识别结果是根据用户语音转换后的文本；所述控制消息是通过MRCP协议发送的控制信息，例如，要识别的语音数据的状态信息。示例性的，用户没说话，所述服务器收到空白语音，空白语音数据到达所述服务器之后，所述服务器会做一个初步判断，通过所述服务器提供的算法，或者，ASR引擎提供的算法判断，判断出语音有实际的用户声音时，或者，有实际的语音数据时，所述服务器发送一个Start of Input控制消息，通知所述电话平台当前已经检测到用户的声音。

所述电话平台收到控制消息之后，有两种情况，一种情况是，当AI播报的过程中，收到用户语音，电话平台主动停止AI播报，只保留用户声音，提高人机交互的友好度；另一种情况，电话平台会做超时判断，检测用户超过多久不说话，电话平台准备挂机，当接收到控制消息之后，判断用户还要说话时，不会进行挂机操作。

步骤S102、当所述电话平台处于预设的AI播报状态(即所述状态参数为标识1)时，通过预设的ASR引擎将所述用户实时语音数据识别为文本数据。

具体地，所述服务器首先可以根据预设的第一超时阈值判断所述用户实时语音数据是否已经传输完成。

在一种可能的实现方式中，所述第一超时阈值是一个整数值，表示每一段语音之间停顿时长的阈值。示例性的，将所述第一超时阈值设置为1秒时，当用户完成第一段语音之后，中间的暂停时间小于1秒，认为第一段语音与第二段语音是同一段语音内容，所述服务器判断用户未完成语音输入；当用户完成第一段语音之后，中间的暂停时间大于1秒时，所述服务器判断用户完成语音输入，所述用户语音对应的语音数据传输完成，本次识别过程不再识别第二段语音的内容。

可选的，在不同场景中，所述预先设定的第一超时阈值不同。示例性的，在询问用户住址信息的场景1和询问用户性别场景2中，用户需要充分的考虑时间不同，所述场景1中第一超时阈值的数值大于所述场景2中第一超时阈值的数值。

若所述用户实时语音数据已经传输完成，则所述服务器可以将所述用户实时语音数据转发至所述ASR引擎。在一种可能的实现方式中，所述ASR引擎与所述服务器通过TCP协议进行交互。

所述ASR引擎在接收到所述用户实时语音数据之后，可以通过预设的语音识别算法将所述用户实时语音数据识别为所述文本数据，并将所述文本数据发送至所述服务器。所述服务器接收所述ASR引擎发送的所述文本数据。

步骤S103、通过预设的自然语言处理(Natural Language Processing，NLP)系统对所述文本数据进行意图识别，得到意图识别结果。

具体地，所述服务器首先可以统计所述文本数据中的文字数量。若所述文字数量小于预设的数量阈值时，则所述服务器将所述文本数据和所述第一超时阈值发送至所述NLP系统。所述数量阈值可以根据实际情况进行设置，例如，可以将其设置为3，当然，也可以将其设置为其它取值，本发明实施例对此不作具体限定。

在一种可能的实现方式中，所述服务器与所述NLP系统通过HTTP协议进行文本数据的传输。

在另一种可能的实现方式中，所述服务器与所述NLP系统通过HTTPs协议进行文本数据的传输。

所述NLP系统可以根据所述文本数据和所述第一超时阈值进行意图识别，得到所述意图识别结果，并将所述意图识别结果发送至所述服务器。

应理解，本发明实施例中所提及的意图用于表征所述文本数据对应的语音是否能够回答AI播报的问题。在一种可能的实现方式中，所述意图包括有效意图和无效意图。示例性的，第一个问题为用户的姓名，第二个问题为用户的地址，姓名和地址为两个场景信息。姓名对应场景信息1，地址对应场景信息2，当场景信息为1但检测到用户回答对应的文本数据不包括姓名关键字时，判断用户回答为无效意图。本发明实施例能够根据不同场景对应设置不同的第一超时阈值，在不同场景下判断文本数据是否包括有效意图，从而提升进一步提高意图识别的准确性。

所述服务器可以接收所述NLP系统发送的所述意图识别结果。若所述意图识别结果为无效意图，则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤，所述电话平台继续保持AI播报状态。若所述意图识别结果为有效意图，则执行步骤S104。

步骤S104、将所述ASR引擎的识别结果发送至所述电话平台，停止所述电话平台的AI播报状态。

具体地，所述服务器首先可以向所述ASR引擎发送结束识别请求。

所述ASR引擎在接收到所述结束识别请求之后，停止进行自动语音识别，并向所述服务器发送结束识别响应信息。

所述服务器在接收所述结束识别响应信息之后，可以向所述ASR引擎发送识别结果获取请求。

所述ASR引擎在接收到所述识别结果获取请求之后，可以将所述ASR引擎的识别结果发送至所述服务器。所述ASR引擎的识别结果包括当前的自动语音识别过程中识别得到的所有文本数据。

所述服务器接收所述ASR引擎的识别结果，并将所述ASR引擎的识别结果发送至所述电话平台。

所述电话平台在接收到所述ASR引擎的识别结果之后，停止AI播报状态，并停止向所述服务器发送语音数据，以结束ASR识别过程。

在本发明实施例的另一种具体实现方式中，当所述电话平台处于预设的AI播报结束状态(即所述状态参数为标识2)时，所述服务器可以通过所述ASR引擎将所述用户实时语音数据识别为文本数据，并通过所述自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；若所述意图识别结果为不完整意图，即用户的意图尚未表达完整，则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤；若所述意图识别结果为完整意图，即用户的意图已经表达完整，则将所述ASR引擎的识别结果发送至所述电话平台，并结束ASR识别过程。

在本发明实施例的另一种具体实现方式中，当检测不到所述用户实时语音数据时，所述服务器可以对检测不到所述用户实时语音数据的时长进行计时。若检测不到所述用户实时语音数据的时长大于预设的第二超时阈值，则向所述ASR引擎发送结束识别请求，以使所述ASR引擎停止进行自动语音识别。所述第二超时阈值为一个整数值，表示用户多久没有进行语音输入。示例性的，所述第二超时阈值可以为7秒，当用户认为自己已经回答过AI播报的问题时，停止回复，在7秒后检测不到用户语音的情况下，所述服务器确定当前用户不再输入语音，因此，可以结束ASR识别过程。

综上所述，本发明实施例建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据；当所述电话平台处于预设的人工智能播报状态时，通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据；通过预设的自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；若所述意图识别结果为无效意图，则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤；若所述意图识别结果为有效意图，则将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态。通过本发明实施例，在进行自动语音识别的同时还可以进行意图识别，只有当意图识别结果为有效意图时，才会停止人工智能播报状态，从而避免了因环境噪音或者人的一些无明确意图话语而造成的系统误打断语音播报，大大提高了人机交互的流畅性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种语音交互方法，图3示出了本发明实施例提供的一种语音交互装置的一个实施例结构图。

本实施例中，一种语音交互装置可以包括：

语音数据接收模块301，用于建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据；

自动语音识别模块302，用于当所述电话平台处于预设的人工智能播报状态时，通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据；

自然语言处理模块303，用于通过预设的自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果；

识别结果发送模块304，用于若所述意图识别结果为有效意图，则将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态。

在本发明实施例的一种具体实现方式中，所述语音数据接收模块可以包括：

在本发明实施例的一种具体实现方式中，所述自动语音识别模块可以包括：

在本发明实施例的一种具体实现方式中，所述自然语言处理模块可以包括：

文字数量统计单元，用于统计所述文本数据中的文字数量；

在本发明实施例的一种具体实现方式中，所述识别结果发送模块可以包括：

在本发明实施例的一种具体实现方式中，所述语音交互装置还可以包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图4示出了本发明实施例提供的一种服务器的示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本实施例中，所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。该服务器4可包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42，例如执行上述的语音交互方法的计算机可读指令。所述处理器40执行所述计算机可读指令42时实现上述各个语音交互方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，所述处理器40执行所述计算机可读指令42时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块301至304的功能。

示例性的，所述计算机可读指令42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令42在所述服务器4中的执行过程。

所述处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述服务器4的内部存储单元，例如服务器4的硬盘或内存。所述存储器41也可以是所述服务器4的外部存储设备，例如所述服务器4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述服务器4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机可读指令以及所述服务器4所需的其它指令和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述建立与预设的电话平台之间的交互连接，并接收所述电话平台发送的用户实时语音数据，包括：

3.根据权利要求1所述的语音交互方法，其特征在于，所述通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据，包括：

接收所述自动语音识别引擎发送的所述文本数据。

4.根据权利要求3所述的语音交互方法，其特征在于，所述通过预设的自然语言处理系统对所述文本数据进行意图识别，得到意图识别结果，包括：

统计所述文本数据中的文字数量；

接收所述自然语言处理系统发送的所述意图识别结果。

5.根据权利要求1所述的语音交互方法，其特征在于，所述将所述自动语音识别引擎的识别结果发送至所述电话平台，停止所述电话平台的人工智能播报状态，包括：

6.根据权利要求1所述的语音交互方法，其特征在于，还包括：

7.根据权利要求1至6中任一项所述的语音交互方法，其特征在于，还包括：

8.一种语音交互装置，其特征在于，包括：

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音交互方法的步骤。

10.一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音交互方法的步骤。