CN107731231A

CN107731231A - 一种支持多云端语音服务的方法及一种存储设备

Info

Publication number: CN107731231A
Application number: CN201710841078.XA
Authority: CN
Inventors: 陈长海
Original assignee: Fuzhou Rockchip Electronics Co Ltd
Current assignee: Fuzhou Rockchip Electronics Co Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2018-02-23
Anticipated expiration: 2037-09-15
Also published as: CN107731231B

Abstract

本发明涉及智能语音交互领域，特别涉及一种支持多云端语音服务的方法及一种存储设备。所述一种支持多云端语音服务的方法，包括如下步骤：获取语音数据；对语音数据进行处理，并对处理后的语音数据进行唤醒词模板匹配；若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端，并传输所述语音数据至对应云端；根据云端返回的结果执行相应操作，以响应语音数据。整个过程中，用户可以根据自己想要唤醒的任意一个云端，在同一个设备上进行对应的语音数据输入，对应云端将被唤醒，并且对所述语音数据进行处理，执行对应操作。使得用户无需拥有多个设备，就可以享受不同云端语音交互的服务，大大节约成本，也提升用户体验。

Description

一种支持多云端语音服务的方法及一种存储设备

技术领域

本发明涉及智能语音交互领域，特别涉及一种支持多云端语音服务的方法及一种存储设备。

背景技术

随着人工智能兴起，智能语音交互成了新的交互入口，该项新技术被越来越广泛地使用于各种电子智能产品。其中国际及国内诸多的互联网公司都拥有属于自己的语音云端服务，如亚马逊的Alexa Voice Service(AVS)，Google的Voice Assistant，微软的Cortana，苹果的Siri，百度的度秘，阿里的阿里云，腾讯的叮当等。且不同公司云端的服务内容都与自身主营内容绑定，互相的侧重点也不一样，如亚马逊侧重家居购物，谷歌侧重交互语境及商务等。

于是不同的云端给使用者有不一样的服务体验，目前市面上的设备都是只支持一种云端，因此用户若想使用不同云端的服务，首先就必须在这些不同云端的服务上面都注册有自己的账号，其次如果想同时享受这种服务，只能购买不同的设备。这种方式不仅成本高，而且用户体验也差。

发明内容

为此，需要提供一种支持多云端语音服务的方法及一种存储设备，用以解决同一设备无法支持多云端语音服务的问题。

为实现上述目的，发明人提供了一种支持多云端语音服务的方法，具体技术方案如下：

一种支持多云端语音服务的方法，包括如下步骤：获取语音数据；对所述语音数据进行处理，并对处理后的语音数据进行唤醒词模板匹配；若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端，并传输所述语音数据至对应云端；根据云端返回的结果执行相应操作，以响应语音数据。

进一步的，所述“对所述语音数据进行处理”，还包括步骤：对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理，并将处理后的语音数据存放至缓冲池。

进一步的，所述“并对处理后的语音数据进行唤醒词模板匹配”，还包括步骤：对同一唤醒引擎预设不同的唤醒词模板，或对不同的唤醒引擎预设不同的唤醒词模板；从缓冲池中获取处理后的语音数据，并通过唤醒引擎对语音数据进行唤醒词模板匹配。进一步的，所述“若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端”，还包括步骤：判断是否有正在进行的语音服务，若无正在进行的语音服务，则根据匹配的唤醒词唤醒对应云端；若有正在进行的语音服务，判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同，若不同，则中断语音服务正在执行的相应操作，并切换当前云端至匹配的唤醒词对应的云端。

进一步的，所述“根据云端返回的结果执行相应操作，以响应语音数据”，还包括步骤：为不同云端预设不同事件队列；解析不同云端返回的指令信息，得到不同指令信息对应的事件；并将不同云端的事件存储至不同云端的事件队列；根据预设的事件优先级对不同事件执行相应操作，以响应语音数据。

为实现上述目的，发明人还提供了一种存储设备，具体技术方案如下：

一种存储设备，其中存储有指令集，所述指令集用于执行：获取语音数据；对所述语音数据进行处理，并对处理后的语音数据进行唤醒词模板匹配；

若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端，并传输所述语音数据至对应云端；根据云端返回的结果执行相应操作，以响应语音数据。

进一步的，所述指令集还用于执行：所述“对所述语音数据进行处理”，还包括步骤：对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理，并将处理后的语音数据存放至缓冲池。

进一步的，所述指令集还用于执行：所述“并对处理后的语音数据进行唤醒词模板匹配”，还包括步骤：对同一唤醒引擎预设不同的唤醒词模板，或对不同的唤醒引擎预设不同的唤醒词模板；从缓冲池中获取处理后的语音数据，并通过唤醒引擎对语音数据进行唤醒词模板匹配。

进一步的，所述指令集还用于执行：所述“若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端”，还包括步骤：判断是否有正在进行的语音服务，若无正在进行的语音服务，则根据匹配的唤醒词唤醒对应云端；若有正在进行的语音服务，判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同，若不同，则中断语音服务正在执行的相应操作，并切换当前云端至匹配的唤醒词对应的云端。

进一步的，所述指令集还用于执行：所述“根据云端返回的结果执行相应操作，以响应语音数据”，还包括步骤：为不同云端预设不同事件队列；解析不同云端返回的指令信息，得到不同指令信息对应的事件；并将不同云端的事件存储至不同云端的事件队列；根据预设的事件优先级对不同事件执行相应操作，以响应语音数据。

本发明的有益效果是：通过获取语音数据，并对语音数据处理，并对处理后的语音数据进行唤醒词模板匹配；若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端，并将对应语音数据传输至对应云端，根据云端返回的结果执行相应操作，响应语音数据，整个过程中，用户可以根据自己想要唤醒的任意一个云端，在同一个设备上进行对应的语音数据输入，对应云端将被唤醒，并且对所述语音数据进行处理，执行对应操作。使得用户无需拥有多个设备，就可以享受不同云端语音交互的服务，大大节约成本，也提升用户体验。

附图说明

图1为具体实施方式所述一种支持多云端语音服务的方法的流程图；

图2为具体实施方式所述步骤“并对处理后的语音数据进行唤醒词模板匹配”的流程图；

图3为具体实施方式所述步骤“若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端”的流程图；

图4为具体实施方式所述步骤“根据云端返回的结果执行相应操作，以响应语音数据”的流程图；

图5为具体实施方式所述一种存储设备的模块图。

附图标记说明：

500、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

首先，对涉及的技术术语进行说明：

云端：系统对接的不同语音识别及应答和内容的云服务。

在本实施方式中，不同的云端有不同的数据输入要求和不同的返回数据类型。有些云端还需要控制输入数据流的时间点。同时云端的开发受限于云端的公司提供的接口，有些是应用有些是API接口，在本实施方式中尽量对不同云端做一个适配接口，方便与设备段信息对接。

请参阅图1至图4，在本实施方式中，一种支持多云端语音服务的方法可应用在所有支持智能语音交互的终端设备上，如：智能手机、平板电脑、台式PC、笔记本电脑、PDA、智能手表或其它可穿戴式设备等。其具体实现如下：

步骤S101：获取语音数据。可采用如下方式：通过语音输入模块获取语音数据，如通过麦克风或其他前端硬件获取输入的语音数据。获取好语音数据后。执行步骤S102：对所述语音数据进行处理。可采用如下方式：因为初步获取到的语音数据，可能因为各种因素(如环境影响或者是麦克风质量不好等)存在杂音，需对语音数据进行处理，在本实施方式中，主要对语音数据做降噪、去混淆、回声消除和自动增益控制等阵列算法处理，在其它实施方式中，还可以对语音数据做一些额外的其它算法处理，通过这些处理，保证了后续传输至云端或传输至唤醒引擎的语音数据有高的识别率。在本实施方式中，默认无论用户唤醒哪个云端，均使用同一算法对语音数据进行处理，在其它实施方式中，也可以在唤醒阶段使用算法A进行默认处理，唤醒后，根据具体唤醒的云端做不同的算法切换，这样做的好处是不同云端对不同算法有不同的识别率，使用不同算法，可确保云端的最优识别率。

对语音数据处理完毕后，将处理后的语音数据存放至缓冲池，在本实施方式中，缓冲池的主要作用在于提供语音数据给不同的模块使用，若没有缓冲池，可能会造成语音数据流向单一，及不同模块处理语音数据的时间节点上需要一致性，否则容易造成某个模块使用了不完整的语音数据，从而造成识别错误等问题。

如：处理后的语音数据需要发送至唤醒引擎进行唤醒词模板匹配，也需要发送至云端，语音数据流向两个模块的速度可能不一样，流向唤醒引擎的速度也许偏快，唤醒引擎对其进行了唤醒词模板匹配，并唤醒对应云端，在这处理的过程中，可能只有部分的语音数据发送到了云端，则会造成部分语音数据未被处理的结果；

或者是流向云端的速度快于流向唤醒引擎的，语音数据可能涉及到的是对两个不同云端的唤醒，结果唤醒引擎才唤醒一个云端，所有语音数据都同时流入这一个云端，造成识别错误，如：使用者连续说了：阿里云，请问今天阿里哪些东西在做活动；度秘，帮我拨打电话给xxx，结果唤醒引擎才识别“阿里云，请问今天阿里哪些东西在做活动”中的唤醒词“阿里云”，整个的语音数据却已经流向了阿里云的云端，就变成了本该由两个云端来完成的事情，却因为不同模块处理语音数据的时间节点不一样造成了错误的识别。而通过使用缓冲池存放处理后的语音数据，就可以成功解决上面的问题。

请参阅图2，对语音数据处理后，执行步骤S103：并对处理后的语音数据进行唤醒词模板匹配。可采用如下方式：

步骤S201：对同一唤醒引擎预设不同的唤醒词模板，或对不同的唤醒引擎预设不同的唤醒词模板。如：设备对接阿里和度秘两个平台，需要两个中文唤醒词来做区别，那么我们可以选择用同一唤醒引擎加两个唤醒词匹配模板来做唤醒区别，也可以用两个不同的唤醒引擎加各自的唤醒词匹配模板来做唤醒区别。

步骤S202：从缓冲池中获取处理后的语音数据，步骤S203：并通过唤醒引擎对语音数据进行唤醒词模板匹配。如：Alexa唤醒词则通过亚马逊的AVS云端完成，OK Google则通过Google云端完成等，若同时有这两个唤醒词，则语音数据并行流向不同唤醒引擎，适配不同唤醒引擎的不同唤醒词模板。

请参阅图3，步骤S103后，执行步骤S104：若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端，并传输所述语音数据至对应云端。可采用如下方式：若有匹配的唤醒词，则执行步骤S301：是否有正在进行的语音服务？若无正在进行的语音服务，则执行步骤S302：根据匹配的唤醒词唤醒对应云端。若有正在进行的语音服务，则执行步骤S303：判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同？若不同，则执行步骤S304：中断语音服务正在执行的相应操作，并切换当前云端至匹配的唤醒词对应的云端。

如：当前有正在进行的语音服务，对应的云端是百度的度秘，进行的语音服务是打开某个音乐软件，播放某首歌曲，而使用者又再一次进行语音输入，唤醒的云端是亚马逊的AVS，进行的语音服务内容是打电话给xxx，则中断当前正在进行的歌曲播放，切换到亚马逊的AVS。

在本实施方式中，若无匹配的唤醒词，判断当前是否有正在进行的云端交互的语音服务，若有，直接把语音数据传输至该云端进行交互，若无正在进行的云端交互，则不向任何云端传输该语音数据。

请参阅图4，步骤S105：根据云端返回的结果执行相应操作，以响应语音数据。可采用如下方式：

步骤S401：为不同云端预设不同事件队列。如：为A、B、C三个不同云端预设三个不同事件队列，用于对应存放和管理这三个云端的事件。各个队列之间有具体通信，相比单云端的队列管理，多云端还根据场景的需要与实际产品的需要对不同事件预设不同的事件优先级，当发生事件冲突时根据预设的事件优先级进行处理。预设好后，执行步骤S402：解析不同云端返回的指令信息，得到不同指令信息对应的事件。步骤S403：并将不同云端的事件存储至不同云端的事件队列。步骤S404：根据预设的事件优先级对不同事件执行相应操作，以响应语音数据。如：执行当前事件、暂停当前事件、停止当前事件或恢复当前事件等。其实现根据各个事件类型的不同，需要有完善的功能支持能力，如需要建立网络连接进行视频通话，播放本地音视频、闹铃等，同时间输出语音传输给音频输出模块，视频等其他UI渲染根据实际需求制定是否绘制。

具体如：不同云端返回不同的指令信息，如：两个云端同时返回的指令信息是要打电话给不同的人，则根据预设的事件优先级，如同样事件，B云端的优先级高于A云端，则先执行B云端返回的指令信息对应的事件；

或同一云端返回不同的指令信息，如同一云端返回的指令信息对应的事件有：打开某浏览器点播某歌曲，或打开某个音乐app播放某歌曲，则根据事先制定的事件优先级，如浏览器的优先级高于音乐app的优先级，则优先处理打开浏览器播放某歌曲。还有其他各种各样的情况均根据事先预设好的事件优先级进行相应处理。

通过获取语音数据，并对语音数据处理，并对处理后的语音数据进行唤醒词模板匹配；若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端，并将对应语音数据传输至对应云端，根据云端返回的结果执行相应操作，响应语音数据，整个过程中，用户可以根据自己想要唤醒的任意一个云端，在同一个设备上进行对应的语音数据输入，对应云端将被唤醒，并且对所述语音数据进行处理，执行对应操作。使得用户无需拥有多个设备，就可以享受远场交互多个云端的内容，大大节约成本，也提升用户体验。

同时在一个云端事件实施时呼叫其它云端也能智能打断当前正在实施的事件，进行与其它云端的交互。达到即使使用多个设备也无法解决或者简单集成多个云端近场APK也无法达到的效果。

请参阅图5，在本实施方式中，一种存储设备500的具体实施方案如下：

一种存储设备500，其中存储有指令集，所述指令集用于执行：获取语音数据；对所述语音数据进行处理，并对处理后的语音数据进行唤醒词模板匹配；若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端，并传输所述语音数据至对应云端；根据云端返回的结果执行相应操作，以响应语音数据。其中获取语音数据可采用如下方式：通过语音输入模块获取语音数据，如通过麦克风或其他前端硬件获取输入的语音数据。

因为初步获取到的语音数据，可能因为各种因素(如环境影响或者是麦克风质量不好等)存在杂音，需对语音数据进行处理，在本实施方式中，进一步的，所述指令集还用于执行：所述“对所述语音数据进行处理”，还包括步骤：对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理，并将处理后的语音数据存放至缓冲池。在其它实施方式中，还可以对语音数据做一些额外的其它算法处理，通过这些处理，保证了后续传输至云端或传输至唤醒引擎的语音数据有高的识别率。在本实施方式中，默认无论用户唤醒哪个云端，均使用同一算法对语音数据进行处理，在其它实施方式中，也可以在唤醒阶段使用算法A进行默认处理，唤醒后，根据具体唤醒的云端做不同的算法切换，这样做的好处是不同云端对不同算法有不同的识别率，使用不同算法，可确保云端的最优识别率。

进一步的，所述指令集还用于执行：所述“并对处理后的语音数据进行唤醒词模板匹配”，还包括步骤：对同一唤醒引擎预设不同的唤醒词模板，或对不同的唤醒引擎预设不同的唤醒词模板；从缓冲池中获取处理后的语音数据，并通过唤醒引擎对语音数据进行唤醒词模板匹配。如：设备对接阿里和度秘两个平台，需要两个中文唤醒词来做区别，那么我们可以选择用同一唤醒引擎加两个唤醒词匹配模板来做唤醒区别，也可以用两个不同的唤醒引擎加各自的唤醒词匹配模板来做唤醒区别。

步骤“从缓冲池中获取处理后的语音数据，并通过唤醒引擎对语音数据进行唤醒词模板匹配”，如：Alexa唤醒词则通过亚马逊的AVS云端完成，OK Google则通过Google云端完成等，若同时有这两个唤醒词，则语音数据并行流向不同唤醒引擎，适配不同唤醒引擎的不同唤醒词模板。

需要说明的是，以上所述仅为本发明的实施例，本领域内的技术人员一旦知悉本发明的基本创造性概念，则可对这些实施例做出另外的变更和修改，所以尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种支持多云端语音服务的方法，其特征在于，包括如下步骤：

获取语音数据；

对所述语音数据进行处理，并对处理后的语音数据进行唤醒词模板匹配；

若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端，并传输所述语音数据至对应云端；

根据云端返回的结果执行相应操作，以响应语音数据。

2.根据权利要求1所述的一种支持多云端语音服务的方法，其特征在于，

所述“对所述语音数据进行处理”，还包括步骤：

对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理，并将处理后的语音数据存放至缓冲池。

3.根据权利要求2所述的一种支持多云端语音服务的方法，其特征在于，

所述“并对处理后的语音数据进行唤醒词模板匹配”，还包括步骤：

对同一唤醒引擎预设不同的唤醒词模板，或对不同的唤醒引擎预设不同的唤醒词模板；

从缓冲池中获取处理后的语音数据，并通过唤醒引擎对语音数据进行唤醒词模板匹配。

4.根据权利要求1所述的一种支持多云端语音服务的方法，其特征在于，

所述“若有匹配的唤醒词，则根据匹配的唤醒词唤醒对应云端”，还包括步骤：

判断是否有正在进行的语音服务，若无正在进行的语音服务，则根据匹配的唤醒词唤醒对应云端；

若有正在进行的语音服务，判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同，若不同，则中断语音服务正在执行的相应操作，并切换当前云端至匹配的唤醒词对应的云端。

5.根据权利要求1所述的一种支持多云端语音服务的方法，其特征在于，

所述“根据云端返回的结果执行相应操作，以响应语音数据”，还包括步骤：

为不同云端预设不同事件队列；

解析不同云端返回的指令信息，得到不同指令信息对应的事件；

并将不同云端的事件存储至不同云端的事件队列；

根据预设的事件优先级对不同事件执行相应操作，以响应语音数据。

6.一种存储设备，其中存储有指令集，其特征在于，所述指令集用于执行：

获取语音数据；

根据云端返回的结果执行相应操作，以响应语音数据。

7.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：

所述“对所述语音数据进行处理”，还包括步骤：

8.根据权利要求7所述的一种存储设备，其特征在于，所述指令集还用于执行：

9.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：

10.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：

为不同云端预设不同事件队列；

并将不同云端的事件存储至不同云端的事件队列；