CN110136712A

CN110136712A - 实现智能语音ai功能的方法及装置

Info

Publication number: CN110136712A
Application number: CN201910376683.3A
Authority: CN
Inventors: 曾景文
Original assignee: Zhen Ten Information Technology (shanghai) Co Ltd
Current assignee: Zhen Ten Information Technology (shanghai) Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-08-16

Abstract

本发明的目的是提供一种实现智能语音AI功能的方法及装置，本发明通过从设备端获取语音流数据，并将所述语音流数据发送至第三方语音AI服务器；接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据；对所述AI服务回复数据进行解析，得到AI服务文本数据和AI服务语音数据并发送给所述设备，能够实现非智能设备或老旧平台的设备，能够通过中转服务器迅速接入第三方语音AI服务器的语音AI服务功能，流畅使用智能语音服务，使智能语音服务能够在非智能设备上成功商用。中转服务器可根据需求切换第三方AI服务厂商，对设备无影响，无须设备重发固件版本。

Description

实现智能语音AI功能的方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种实现智能语音AI功能的方法及系统。

背景技术

语音AI(人工智能，Artificial Intelligence)技术，近几年突飞猛进的发展，各大智能设备均以搭载智能语音AI技术为卖点，然而智能设备上只是语音输入的入口，后端接入了大量云端AI服务。目前国内的语音AI服务提供商有很多，主流的有小米、百度、科大讯飞等厂商。这些厂商在提供接入服务时对设备的类型、平台、操作系统均有要求。大部分只提供了安卓、IOS、Linux等主流操作系统的SDK接入，其他非使用该操作系统的设备无机会接入，如何解决这些老旧平台的设备接入语音AI，成为急需解决一个实际问题。

发明内容

本发明的一个目的是提供一种实现智能语音AI功能的方法及装置。

根据本发明的一个方面，提供了一种实现智能语音AI功能的方法，该方法包括：

从设备端获取语音流数据，并将所述语音流数据发送至第三方语音AI 服务器；

接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据；

对所述AI服务回复数据进行解析，得到AI服务文本数据和AI服务语音数据并发送给所述设备。

进一步的，上述方法中，所述中转服务器为Linux操作系统的云端服务器，从设备端获取语音流数据，并将所述语音流数据发送至第三方语音 AI服务器，包括：

与设备建立长连接链路；

通过所述长连接链路，从设备端获取各段压缩后的语音流数据，并将各段压缩后的语音流数据解压后，使用第三方语音AI服务器提供的Linux 的SDK接入语音AI服务将解压后的语音流数据透传至第三方语音AI服务器，并维持所述长连接链路。

进一步的，上述方法中，对所述AI服务回复数据进行解析，得到AI 服务文本数据和AI服务语音数据并发送给所述设备，包括：

对所述AI服务回复数据进行解析，从中抽取出ASR语音识别结果、 NLP语义理解结果和TTS语音合成结果；

将所述ASR语音识别结果、NLP语义理解结果和TTS语音合成结果分别组包，并分段下发至所述设备。

根据本发明的另一方面，还提供一种在设备端实现智能语音AI功能的方法，其中，该方法包括：

录制用户输入的指令语音，将所述指令语音转换为语音流数据，并将所述语音流数据发送至中转服务器；

接收所述中转服务器返回的AI服务文本数据和AI服务语音数据，其中，所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到，所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器，所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据；

基于所述AI服务文本数据进行对应的文本显示，AI服务语音数据进行对应的语音播报。

进一步的，上述方法中，当所述中转服务器为Linux操作系统的云端服务器时，录制用户输入段指令语音，将所述指令语音转换为语音流数据，并将所述语音流数据发送至中转服务器，包括：

录制用户输入的指令语音，将所述指令语音转换为各段语音流数据；

与所述中转服务器建立长连接链路；

将各段语音流数据压缩后通过所述长连接链路发送至中转服务器，并维持长连接链路。

进一步的，上述方法中，接收所述中转服务器返回的AI服务文本数据和AI服务语音数据，包括：

从所述中转服务器接收分别组包并分段下发的ASR语音识别结果、NLP 语义理解结果和TTS语音合成结果，其中，所述中转服务器对所述AI服务回复数据进行解析，从中抽取出ASR语音识别结果、NLP语义理解结果和TTS语音合成结果；

将所述ASR语音识别结果、NLP语义理解结果作为AI服务文本数据；将TTS语音合成结果作为AI服务语音数据。

根据本发明的另一方面，还提供一种基于计算的装置，其中，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的 AI服务回复数据；

根据本发明的另一方面，还提供一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

处理器；以及

与现有技术相比，本发明通过从设备端获取语音流数据，并将所述语音流数据发送至第三方语音AI服务器；接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据；对所述AI服务回复数据进行解析，得到AI服务文本数据和AI服务语音数据并发送给所述设备，能够实现非智能设备或老旧平台的设备，能够通过中转服务器迅速接入第三方语音AI服务器的语音AI服务功能，流畅使用智能语音服务，使智能语音服务能够在非智能设备上成功商用。中转服务器可根据需求切换第三方AI服务厂商，对设备无影响，无须设备重发固件版本。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一实施例的实现智能语音AI功能的方法及装置的原理图；

图2示出本发明一实施例的语音流数据的组包发送格式示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本发明提供一种在中转服务器端(server)实现智能语音AI功能的方法，所述方法包括：

步骤S11，从设备端(device)获取语音流数据，并将所述语音流数据发送至第三方语音AI服务器；

例如，设备可以采集用户输入的指令语音，如：某人是谁？

在此，所述语音流数据可以是自然人发出的任意语音数据，包括指令、查询、获取信息甚至是闲聊均可；

步骤S12，接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据；

步骤S13，对所述AI服务回复数据进行解析，得到AI服务文本数据和AI服务语音数据并发送给所述设备。

在此，AI服务文本数据，例如可以是回答某人是谁的文本数据，AI 服务语音数据，如可以是回答某人是谁的语音数据。

第三方语音AI服务器可以有AI服务厂家提供，例如可以是百度、小米、科大讯飞等企业。

本发明能够实现非智能设备或老旧平台的设备，能够通过中转服务器迅速接入第三方语音AI服务器的语音AI服务功能，流畅使用智能语音服务，使智能语音服务能够在非智能设备上成功商用。中转服务器可根据需求切换第三方AI服务厂商，对设备无影响，无须设备重发固件版本。

本发明的在中转服务器端实现智能语音AI功能的方法一实施例中，所述中转服务器为Linux操作系统的云端服务器，步骤S11，从设备端获取语音流数据，并将所述语音流数据发送至第三方语音AI服务器，包括：

与设备建立长连接链路；

在此，Linux操作系统的云端服务器可以使用第三方语音AI服务器提供的Linux的SDK接入语音AI服务，并把设备传过来的语音流数据解压，再透传至第三方语音AI服务器，维持长连接链路等待第三方语音AI服务器返回对语音流数据识别处理结果。

设备与使用Linux操作系统的云端服务器建立长连接，录音并生成自定义二进制语音流数据进行精简并压缩，如图2所示，发送每段语音流数据时，可以依次发送开始符、语音流数据和结束符至Linux操作系统的云端服务器。

通过Linux操作系统的云端服务器、建立长连接链路、将语音流数据切分为多段传输、压缩和解压语音流数据的各种手段，保证语音流数据的高效、可靠传输。

如图1所示，本发明的在中转服务器端实现智能语音AI功能的方法一实施例中，步骤S13，对所述AI服务回复数据进行解析，得到AI服务文本数据和AI服务语音数据并发送给所述设备，包括：

在此，所述中转服务器解析第三方语音AI服务器的回复结果，从中抽取出ASR语音识别结果，NLP语义理解结果，TTS语音合成结果三段主要数据，如果未取到可自定义数据，亦可根据要求自行替换处理，ASR、 NLP、TTS分别组包，分段下发至设备。

通过中转服务器自行解析第三方语音AI服务器的回复结果，得到ASR、NLP、TTS数据并透传至设备，可以让非智能设备能后流畅的使用智能语音AI服务。

设备接收到述中转服务器下发的ASR、NLP数据后，可以解压显示到设备屏幕；另外，设备接收到述中转服务器下发的TTS数据，可以边收边播，降低响应延时，提高用户体验。

如图1所示，本发明提供一种在设备端(device)实现智能语音AI 功能的方法，所述方法包括：

步骤S21，录制用户输入的指令语音，将所述指令语音转换为语音流数据，并将所述语音流数据发送至中转服务器；

例如，设备可以采集用户输入的指令语音，如：某人是谁？

步骤S22，接收所述中转服务器返回的AI服务文本数据和AI服务语音数据，其中，所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到，所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器，所述第三方语音 AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据；

步骤S23，基于所述AI服务文本数据进行对应的文本显示，AI服务语音数据进行对应的语音播报。

本发明的在设备端实现智能语音AI功能的方法一实施例中，当所述中转服务器为Linux操作系统的云端服务器时，步骤S21，录制用户输入段指令语音，将所述指令语音转换为语音流数据，并将所述语音流数据发送至中转服务器，包括：

与所述中转服务器建立长连接链路；

设备与使用Linux操作系统的云端服务器建立长连接，录音并生成自定义二进制语音流数据进行精简并压缩，如图2所示，发送每段语音流数据时，可以依次发送开始符(start index)、语音流数据(voice pay load) 和结束符(end index)至Linux操作系统的云端服务器。

如图1所示，本发明的在设备端实现智能语音AI功能的方法一实施例中，步骤S22，接收所述中转服务器返回的AI服务文本数据和AI服务语音数据，包括：

通过中转服务器自行解析第三方语音AI服务器的回复结果，得到 ASR、NLP、TTS数据并透传至设备，可以让非智能设备能后流畅的使用智能语音AI服务。

处理器；以及

本发明的各装置和存储介质实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种在中转服务器端实现智能语音AI功能的方法，其中，该方法包括：

从设备端获取语音流数据，并将所述语音流数据发送至第三方语音AI服务器；

2.根据权利要求1所述的方法，其中，所述中转服务器为Linux操作系统的云端服务器，从设备端获取语音流数据，并将所述语音流数据发送至第三方语音AI服务器，包括：

与设备建立长连接链路；

通过所述长连接链路，从设备端获取各段压缩后的语音流数据，并将各段压缩后的语音流数据解压后，使用第三方语音AI服务器提供的Linux的SDK接入语音AI服务将解压后的语音流数据透传至第三方语音AI服务器，并维持所述长连接链路。

3.根据权利要求2所述的方法，其中，对所述AI服务回复数据进行解析，得到AI服务文本数据和AI服务语音数据并发送给所述设备，包括：

对所述AI服务回复数据进行解析，从中抽取出ASR语音识别结果、NLP语义理解结果和TTS语音合成结果；

4.一种在设备端实现智能语音AI功能的方法，其中，该方法包括：

5.根据权利要求4所述的方法，其中，当所述中转服务器为Linux操作系统的云端服务器时，录制用户输入段指令语音，将所述指令语音转换为语音流数据，并将所述语音流数据发送至中转服务器，包括：

与所述中转服务器建立长连接链路；

6.根据权利要求5所述的方法，其中，接收所述中转服务器返回的AI服务文本数据和AI服务语音数据，包括：

从所述中转服务器接收分别组包并分段下发的ASR语音识别结果、NLP语义理解结果和TTS语音合成结果，其中，所述中转服务器对所述AI服务回复数据进行解析，从中抽取出ASR语音识别结果、NLP语义理解结果和TTS语音合成结果；

7.一种基于计算的装置，其中，包括：

处理器；以及

8.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

9.一种基于计算的装置，其中，包括：

处理器；以及

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：