CN113506569B

CN113506569B - 一种语音交互的方法、系统及设备

Info

Publication number: CN113506569B
Application number: CN202110633160.XA
Authority: CN
Inventors: 张宇; 汤肖迅; 唐亚杰
Original assignee: Shanghai Shimai Digital Technology Co ltd
Current assignee: Shanghai Shimai Digital Technology Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2023-02-03
Anticipated expiration: 2041-06-07
Also published as: CN113506569A

Abstract

本申请的目的是提供一种语音交互的方法、系统及设备，本申请通过语音客户端获取用户指令，将所述用户指令发送至云端服务端，以使所述云端服务端根据所述用户指令确定反馈的基本信息；基于所述云端服务端反馈的基本信息生成对应的参数，通过广播机制发送参数至相关应用程序，其中，所述相关应用程序由所述语音客户端根据内置的多页面进行解耦确定；根据所述参数确定在所述相关应用程序中展示的基础数据信息。从而使得各应用模块使用语音交互更加灵活和方便，并且便于开发人员各自维护自己的应用模块，彼此的改动会不会影响对方的功能。

Description

一种语音交互的方法、系统及设备

技术领域

本申请涉及计算机领域，尤其涉及一种语音交互的方法、系统及设备。

背景技术

语音应用程序(语音APP)作为一个运行在android平台上的独立应用，负责管理所有跟语音相关的事务，包括对用户语音输入的录音保存、上传，接受服务器的反馈、决策用本地指令还是云端指令并分发这些指令、处理各种异常反馈等。

现有的语音APP在安卓客户端中通过安卓的binder机制双向通道与多种语音相关APP进行连接，语音APP自身与语音云端服务进行网络长连接，这样的架构不够灵活，页面展示层、业务处理层都集中在一起，且所有领域(音乐、导航、电台、记录仪等)的页面展示都集中在一个应用中，每个应用不能根据自己需求来定制。

同时，由于功能开发耦合、代码臃肿，不同模块开发往往是不同人员完成，都集中在一起的代码会使彼此提交的代码冲突，这么多模块一个错误会引起连锁反应导致整个系统出现问题。

发明内容

本申请的一个目的是提供一种语音交互的方法、系统及设备，解决现有技术中功能开发耦合、代码臃肿导致的开发人员提交的代码冲突以及单一错误即可引起系统连锁错误的问题。

根据本申请的一个方面，提供了一种语音交互的系统，其特征在于，所述系统包括：语音客户端、应用程序客户端、语音服务端和云端服务端，其中，

所述语音客户端用于获取用户指令信息，并将所述用户指令信息发送至所述语音服务端；

所述语音服务端与所述云端服务端建立网络长连接，用于将所述用户指令信息通过所述网络长连接上传至所述云端服务端；

所述云端服务端用于根据所述用户指令信息确定反馈的基本信息，并将所述基本信息反馈至所述语音服务端；

所述语音客户端用于根据与所述语音服务端通信得到的基本信息生成对应的参数，通过广播机制将所述参数发送至对应的应用程序客户端；

所述对应的应用程序客户端基于所述参数展示对应的基础数据信息。

可选地，所述应用程序客户端包括多个内置页面，其中，所述内置页面由所述语音客户端按照页面功能解耦确定。

可选地，所述应用程序客户端根据所述参数在多个内置页面中展示基础数据信息。

可选地，所述应用程序客户端包括多个不同的应用程序，所述语音客户端根据所述基本信息从多个应用程序中确定目标应用程序，并将由所述基本信息生成的参数发送至所述目标应用程序上的展示页面中。

可选地，所述语音客户端与所述语音服务端通过进程间通信建立连接。

根据本申请的另一个方面，还提供了一种语音交互的方法，其中，所述方法包括：

通过语音客户端获取用户指令，将所述用户指令发送至云端服务端，以使所述云端服务端根据所述用户指令确定反馈的基本信息；

基于所述云端服务端反馈的基本信息生成对应的参数，通过广播机制发送参数至相关应用程序，其中，所述相关应用程序由所述语音客户端根据内置的多页面进行解耦确定；

根据所述参数确定在所述相关应用程序中展示的基础数据信息。

可选地，将所述用户指令发送至云端服务端，包括：

判断与所述语音客户端通过进程通信方式进行通信的语音服务端与所述云端服务端是否已建立连接，若是，则将所述用户指令发送至所述云端服务端，若否，则将语音播报连接异常信息进行语音提示。

可选地，将所述用户指令发送至所述云端服务端后，若在预设时间内未收到所述云端服务端发送的反馈信息，则进行重试的语音播报。

根据本申请的再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述任一项所述的方法。

根据本申请的又一个方面，还提供了一种用于语音交互的设备，其中，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述任一项所述方法的操作。

与现有技术相比，本申请通过语音客户端获取用户指令，将所述用户指令发送至云端服务端，以使所述云端服务端根据所述用户指令确定反馈的基本信息；基于所述云端服务端反馈的基本信息生成对应的参数，通过广播机制发送参数至相关应用程序，其中，所述相关应用程序由所述语音客户端根据内置的多页面进行解耦确定；根据所述参数确定在所述相关应用程序中展示的基础数据信息。从而使得各应用模块使用语音交互更加灵活和方便，并且便于开发人员各自维护自己的应用模块，彼此的改动会不会影响对方的功能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个方面提供的一种语音交互的系统结构示意图；

图2示出了本申请一可选实施例中的一种语音交互的系统框架结构示意图；

图3示出了根据本申请另一方面提出的一种语音交互的方法流程示意图；

图4示出了根据本申请一可选实施例中的一种语音交互的方法流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种语音交互的系统结构示意图，该系统包括：语音客户端100、应用程序客户端200、语音服务端300和云端服务端400，其中，所述语音客户端100用于获取用户指令信息，并将所述用户指令信息发送至所述语音服务端300；所述语音服务端300与所述云端服务端400建立网络长连接，用于将所述用户指令信息通过所述网络长连接上传至所述云端服务端400；所述云端服务端400用于根据所述用户指令信息确定反馈的基本信息，并将所述基本信息反馈至所述语音服务端300；所述语音客户端100用于根据与所述语音服务端300通信得到的基本信息生成对应的参数，通过广播机制将所述参数发送至对应的应用程序客户端200；所述对应的应用程序客户端200基于所述参数展示对应的基础数据信息。从而使得各应用模块使用语音交互更加灵活和方便，并且便于开发人员各自维护自己的应用模块，彼此的改动会不会影响对方的功能。

具体地，语音应用程序作为一个运行在安卓(android)平台上的独立应用，负责管理所有跟语音相关的事务，包括对用户语音输入的录音保存、上传，接受服务器的反馈、决策用本地指令还是云端指令并分发这些指令、处理各种异常反馈等。在本申请中，将所述语音应用程序中的功能进行解耦，得到语音客户端和语音服务端，并且将语音应用程序中的功能进行解耦，分发至不同领域功能对应的不同应用程序中。在此，所述语音客户端100用于获取用户指令信息，例如用户的搜索指令等，发送至所述语音服务端300以获取对应的反馈数据。语音服务端300则负责音频输入、上传、接受云端反馈和命令决策等。接着，所述语音服务端300与所述云端服务端400建立网络长连接，将所述用户指令信息通过所述网络长连接上传至所述云端服务端400，所述云端服务端400根据所述用户指令信息确定反馈的基本信息，并将所述基本信息反馈至所述语音服务端300，其中，所述基本信息包括天气、股票、风景区等数据信息。接着，所述语音客户端100用于根据与所述语音服务端300通信得到的基本信息生成对应的参数，通过广播机制将所述参数发送至对应的应用程序客户端200，在此，所述广播机制是android进程间通信的一种方式，把基本信息当参数通过广播传递给对应的应用程序客户端200，所述对应的应用程序客户端200基于所述参数展示对应的基础数据信息。

在本申请一可选实施例中，所述应用程序客户端200包括多个内置页面，其中，所述内置页面由所述语音客户端100按照页面功能解耦确定。在此，现有技术中所有展示页面是全部集中在语音客户端App中统一展示的。而不同的应用程序客户端就是不同的APP，不同的APP具有对应的内置页面，将负责不同领域基本信息的页面展示解耦至不同的APP中的对应内置页面中，例如天气在天气APP中进行内置页面展示。把各领域的展示页面也分开，例如音乐的展示页面就放到音乐App中，导航相关的放到导航APP中，以使得各应用模块使用语音交互更加灵活和方便。

在本申请一可选实施例中，所述应用程序客户端200根据所述参数在多个内置页面中展示基础数据信息。在此，应用程序客户端200根据获取到的参数确定对应的内置页面中可以展示的基础数据信息，以便于精确地完成功能解耦。

在本申请一可选实施例中，所述应用程序客户端200包括多个不同的应用程序，所述语音客户端100根据所述基本信息从多个应用程序中确定目标应用程序，并将由所述基本信息生成的参数发送至所述目标应用程序上的展示页面中。在此，所述应用程序客户端200可以根据基本信息从多个应用程序中确定目标程序，或者所述应用程序客户端200向不同的应用程序发送所有参数，由应用程序根据对应参数进行解码后在展示页面中进行展示。

在本申请一可选实施例中，所述语音客户端100与所述语音服务端300通过进程间通信建立连接。在此，所述进程间通信可以为安卓系统的binder机制，所述语音客户端100与所述语音服务端300可以通过安卓系统的binder机制进行双向通信。

图2示出了本申请一可选实施例中的一种语音交互的系统框架结构示意图，按照客户端与服务段交互模式进行设计，把原本耦合在一起的功能分开，其中，广播机制是android进程间通信的一种方式，便于语音客户端APP把基本信息当参数通过广播传递给其他应用；语音客户端，专门负责基本信息的页面展示，例如天气、股票、风景区等等，并且把各领域的展示页面也分开，例如音乐的展示页面就放到音乐App中，导航相关的展示页面放到导航APP中，电台相关的展示页面放到电台APP中；语音服务端APP，负责音频输入与上传、接受云端反馈以及命令决策等。语音客户端与语音服务端通过binder机制进行双向数据交互，语音服务端与语音云端服务通过建立网络长连接完成数据交互。从而使得各应用模块使用语音交互更加灵活和方便，并且便于开发人员各自维护自己的应用模块，彼此的改动会不会影响对方的功能。

图3示出了根据本申请另一方面提出的一种语音交互的方法流程示意图，该方法包括：S100～S300，其中，在S100中，通过语音客户端获取用户指令，将所述用户指令发送至云端服务端，以使所述云端服务端根据所述用户指令确定反馈的基本信息；在S200中，基于所述云端服务端反馈的基本信息生成对应的参数，通过广播机制发送参数至相关应用程序，其中，所述相关应用程序由所述语音客户端根据内置的多页面进行解耦确定；在S300中，根据所述参数确定在所述相关应用程序中展示的基础数据信息。从而使得各应用模块使用语音交互更加灵活和方便，并且便于开发人员各自维护自己的应用模块，彼此的改动会不会影响对方的功能。

具体地，在S100中，通过语音客户端获取用户指令，将所述用户指令发送至云端服务端，以使所述云端服务端根据所述用户指令确定反馈的基本信息。在此，通过语音客户端获取用户指令，例如用户搜索指令、用户确认指令等，将用户指令发送到云端服务端，使得云端服务端根据用户指令进行对应的反馈处理，得到反馈的基本信息，例如当获取到的是用户搜索指令，则根据用户搜索指令进行搜索处理以得到对应的反馈的基本信息。

在S200中，基于所述云端服务端反馈的基本信息生成对应的参数，通过广播机制发送参数至相关应用程序，其中，所述相关应用程序由所述语音客户端根据内置的多页面进行解耦确定。在此，广播是android进程间通信的一种方式，把基本信息当参数通过广播传递给相关应用程序。语音客户端内置的多个页面进行功能解耦后，得到多个不同功能的内置页面，基于所述不同功能确定多个对应的相关应用程序。

在S300中，根据所述参数确定在所述相关应用程序中展示的基础数据信息。在此，相关应用程序获取到参数后，根据预设映射关系，确定对应的在本应用程序中进行展示的基础数据信息。

在本申请一可选实施例中，在S100中，判断与所述语音客户端通过进程通信方式进行通信的语音服务端与所述云端服务端是否已建立连接，若是，则将所述用户指令发送至所述云端服务端，若否，则将语音播报连接异常信息进行语音提示。在此，可以使用心跳包方式来判断与语音客户端通过进行通信方式进行通信的语音服务端是否与云端服务端已建立连接，当超出预设时长依旧没有反馈信息，则可以视作未建立连接，语音播报连接异常信息对用户进行语音提示。若在预设时长内获取到了心跳包的反馈信息，则将用户指令发送至云端服务端。

在本申请一可选实施例中，将所述用户指令发送至所述云端服务端后，若在预设时间内未收到所述云端服务端发送的反馈信息，则进行重试的语音播报。在此，将所述用户指令发送至云端服务端后，若在预设时间内未收到云端服务端发送的反馈消息，则进行重试，重新发送该用户指令，并对此进行语音播报。

图4示出了根据本申请一可选实施例中的一种语音交互的方法流程示意图，当用户在语音客户端搜索指定歌曲时，语音服务端获取到搜索指令，判断语音服务端与云端长连接是否建立，若是，则将用户的搜索指令对应的录音音频上传云端服务端等待反馈，在限定的5秒时间内判断是否获取到反馈信息，若否，则发出语音提醒超时网络不佳，重新进入用户指令输入模式；若是，则将指令分发给对应的音乐应用，当音乐应用准备就绪后就基于指令播放指定歌曲。当语音服务端与云端服务端长连接未能建立时，则发出语音提醒连接异常，请稍后再试，提醒用户稍后再试。通过上述将语音客户端的功能解耦至各个对应的应用程序中，使得各应用模块使用语音交互更加灵活和方便，并且在研发时也便于开发人员各自维护自己的应用模块，彼此的改动会不会影响对方的功能。进一步地，可以定义自己模块的语音应用场景，语音客户端提供了更简便的交互接口，应用只需获取该交互接口，不需要知道具体语音的细节，语音客户端屏蔽了各模块使用语音的复杂性，想要调用语音不再需要知道语音的底层细节而仅仅是调用几个简单的语音交互接口就能完成。通过Java语言中的函数调用，例如通过调用Data exchange(Param1)这个函数就可以得到数据了。对于开发人员来说，各自维护自己的应用模块，而不是互相耦合，彼此的改动会不会影响对方的功能。在电动车应用场景下使用该语音交互方法，可以解放用户的双手，声控带给消费者更方便、快捷的体验。

本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种语音交互的方法。

与上文所述的方法相对应的，本申请还提供一种终端，其包括能够执行上述图3或图4或各个实施例所述的方法步骤的模块或单元，这些模块或单元可以通过硬件、软件或软硬结合的方式来实现，本申请并不限定。例如，在本申请一实施例中，还提供了一种用于语音交互的设备，其中，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行前述所述语音交互的方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：

通过语音客户端获取用户指令，将所述用户指令发送至云端服务端，以使所述云端服务端根据所述用户指令确定反馈的基本信息；基于所述云端服务端反馈的基本信息生成对应的参数，通过广播机制发送参数至相关应用程序，其中，所述相关应用程序由所述语音客户端根据内置的多页面进行解耦确定；根据所述参数确定在所述相关应用程序中展示的基础数据信息。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种语音交互的系统，其特征在于，所述系统包括：语音客户端、应用程序客户端、语音服务端和云端服务端，其中，

所述语音客户端与所述语音服务端由语音应用程序根据功能解耦得到；

2.根据权利要求1所述的系统，其特征在于，所述应用程序客户端包括多个内置页面，其中，所述内置页面由所述语音客户端按照页面功能解耦确定。

3.根据权利要求2所述的系统，其特征在于，所述应用程序客户端根据所述参数在多个内置页面中展示基础数据信息。

4.根据权利要求1所述的系统，其特征在于，所述应用程序客户端包括多个不同的应用程序，所述语音客户端根据所述基本信息从多个应用程序中确定目标应用程序，并将由所述基本信息生成的参数发送至所述目标应用程序上的展示页面中。

5.根据权利要求1所述的系统，其特征在于，所述语音客户端与所述语音服务端通过进程间通信建立连接。

6.一种语音交互的方法，其中，所述方法包括：

通过语音客户端获取用户指令，将所述用户指令发送至云端服务端，以使所述云端服务端根据所述用户指令确定反馈的基本信息，所述语音客户端与所述语音服务端由语音应用程序根据功能解耦得到；

7.根据权利要求6所述的方法，其中，将所述用户指令发送至云端服务端，包括：

8.根据权利要求7所述的方法，其中，将所述用户指令发送至所述云端服务端后，若在预设时间内未收到所述云端服务端发送的反馈信息，则进行重试的语音播报。

9.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求6至8中任一项所述的方法。

10.一种用于语音交互的设备，其中，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求6至8中任一项所述方法的操作。