CN115346523A

CN115346523A - 语音设备的语音交互方法及装置

Info

Publication number: CN115346523A
Application number: CN202110529498.0A
Authority: CN
Inventors: 黄伟
Original assignee: MediaTek Singapore Pte Ltd
Current assignee: MediaTek Singapore Pte Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-11-15
Also published as: US20220369033A1; TWI832078B; TW202244907A

Abstract

本申请公开了一种语音设备的语音交互方法及装置。其中，语音设备包括至少两个语音模块，语音设备的语音交互方法包括：确定至少两个语音模块的工作状态；基于预设原则和至少两个语音模块的工作状态，从至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互。本申请可以解决同一个语音设备中的多套语音服务存在冲突的问题。

Description

语音设备的语音交互方法及装置

技术领域

本申请涉及语音设备技术领域，特别是涉及一种语音设备的语音交互方法及装置。

背景技术

目前语音设备大多只支持一套语音服务，例如小米音箱只支持小米语音服务，谷歌闹钟只支持谷歌语音服务，一些现代智能汽车只支持Alex语音服务……，这样用户在一个语音设备上只能使用一套语音服务，如果用户想要使用两种或两种以上的语音服务需要买两台以上的设备。

为了使用户可以在一个语音设备上使用两种及两种以上的语音服务，可以将至少两种语音服务装载在同一个语音设备中，但是这样可能会出现语音服务冲突的问题。

发明内容

本申请提供一种语音设备的语音交互方法及装置，以解决同一个语音设备中的多套语音服务存在冲突的问题。

为解决上述问题，本申请提供一种语音设备的语音交互方法，语音设备包括切换模块和至少两个语音模块，语音交互方法包括：

确定至少两个语音模块的工作状态；

基于预设原则和至少两个语音模块的工作状态，从所述至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互。

为解决上述问题，本申请还提供一种语音设备，该语音设备包括：

录音器件；

播放器件；

至少两个语音模块，每个语音模块均与录音器件和播放器件通信连接；

切换模块，与至少两个语音模块、录音器件和播放器件通信连接，用于执行上述方法。

为解决上述问题，本申请还提供一种语音设备，该语音设备包括录音器件、播放器件和处理器；处理器与录音器件和播放器件通信连接，处理器用于执行指令以实现上述的方法。

为解决上述问题，本申请还提供一种计算机可读存储介质，其用于存储指令/程序数据，指令/程序数据能够被执行以实现上述方法。

本申请的语音设备可基于多套语音服务对应的语音模块各自的工作状态，从多套语音模块中选定一个作为进行语音交互，并暂停其余语音模块的语音交互，即语音设备可以基于多套语音模块的工作状态自行确定进行语音交互的语音模块，由此本发明可以解决语音设备内多套语音服务存在冲突的问题，且无需人为确定。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是传统的语音设备一实施方式的结构示意图；

图2是本申请语音设备一实施方式的结构示意图；

图3是本申请语音设备一实施方式的结构示意图；

图4是本申请语音设备的语音交互方法一实施方式的流程示意图；

图5是本申请语音设备的语音交互方法一实施方式的流程示意图；

图6是本申请语音设备的语音交互方法一实施例的原理示意图；

图7是本申请语音设备的语音交互方法一实施方式的流程示意图；

图8是本申请语音设备的语音交互方法一实施例的原理示意图；

图9是本申请语音设备的语音交互方法一实施例的原理示意图；

图10是本申请语音设备的语音交互方法一实施例的原理示意图；

图11是本申请语音设备的语音交互方法一实施方式的流程示意图；

图12是本申请语音设备的语音交互方法一实施例的原理示意图；

图13是本申请语音设备的语音交互方法一实施方式的流程示意图；

图14是本申请语音设备的语音交互方法一实施例的原理示意图；

图15是本申请语音设备一实施方式的结构示意图；

图16是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

描述和附图说明本申请的原理。因此将了解，本领域的技术人员将能够设计各种布置，尽管本文中未明确地描述或示出所述布置，但其体现了本申请的原理且包括在本申请的范围内。此外，本文中所述的所有例子主要明确地意在用于教学目的，以辅助读者理解本申请的原理及由发明人所提供的概念，从而深化所属领域，且所有例子不应解释为限于此类特定阐述的例子及条件。另外，除非另外指明(例如，“或另外”或“或在替代方案中”)，否则如本文所使用的术语“或”指代非排他性的“或”(即，“和/或”)。并且，本文所描述的各种实施例不一定相互排斥，因为一些实施例可以与一个或多个其它实施例组合以形成新的实施例。

为了解决同一个语音设备中的多套语音服务存在冲突的问题，当前可以通过按键重启系统控制同一个语音设备中每一个语音服务的开关状态，以通过按键重启系统来切换同一个语音设备中的多套语音服务。具体地，如图1所示，通过按键重启系统控制一个语音服务处于开启状态时，使其余的语音服务处于关闭状态。这种具有按键重启系统的语音设备中的多套语音系统不能同时处于开启状态(alive)，并且还需要人为切换以选择使用的语音服务。

基于此，本申请提出一种无需人为切换语音服务的语音设备。

具体地，如图2所示，语音设备10内具有一切换模块12，该切换模块12可在语音设备10内的多套语音服务存在冲突时，基于多套语音服务对应的语音模块11各自的工作状态，从多个语音模块11中选定一个作为主语音模块，将其余语音模块作为备用语音服务，限制备用语音模块的活动，从而使语音设备10通过主语音模块进行语音交互，即语音设备10可以基于多套语音模块11的运行情况自行确定与用户进行语音交互的语音模块11，无需人为确定。

语音设备10的具体结构可如图3所示，语音设备10包括录音器件14、播放器件13、切换模块12和至少两个语音模块11。

其中，录音器件14可包括录音硬件141(麦克风或耳机等)和录音软件142(输入驱动器)。播放器件13可包括播放硬件131(喇叭或耳机等)和播放软件132(输出驱动器)。

其中，每个语音模块11集成有一套语音服务，不同的语音模块11集成的语音服务不相同。每个语音模块11均与录音器件14和播放器件13通信连接，这样每一语音模块11可从录音器件14获取到录音器件14采集到的语音，并且可以将自身播放内容(例如，响应于用户的请求的回复内容)发送给播放器件13，以让播放器件13播放。

每个语音模块11均可集成有关键词识别子模块111、语音分析子模块112和播放控制子模块113。每个语音模块11从录音器件14获取到采集语音时，关键词识别子模块111对采集语音进行关键词识别；若关键词识别子模块111从采集语音中识别到关键词(例如，从“OK,Google！what’s the time”中识别出关键词“Google”)，会将采集语音发送给语音分析子模块112，当关键词识别子模块111识别到关键词，语音模块11的工作状态可从待机状态(IDEL)变为唤醒状态(Hotword)；语音分析子模块112对采集语音进行语音分析，在语音分析子模块112对采集语音进行语音分析时，语音模块11的工作状态可从唤醒状态(Hotword)变为解析状态(Detecting)；若语音分析子模块112对采集语音解析完毕，会让播放控制子模块113将播放内容(例如，响应于用户的请求的回复内容)发送给播放器件13，以让播放器件13播放，此时语音模块11的工作状态从解析状态(Detecting)变为反馈状态(Responding)。当播放器件13将语音模块11的播放内容播放完毕，语音模块11的状态再次变为待机状态。

切换模块12用于在语音设备10内的多套语音服务存在冲突时，或者在至少一个语音模块11的工作状态改变时，基于预设原则和多套语音服务对应的语音模块11各自的工作状态，从多套语音模块11中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互，从而避免同一语音设备10中的多套语音服务之间的冲突。

其中，暂停语音模块的语音交互可以指：在用户对语音设备下达语音指令时，语音设备不会通过被暂停的语音模块回复用户。而暂停其余语音模块的语音交互的方法不受限制，只要达到目的即可。例如，暂停/中断/停止其余语音模块的工作(示例性地，让其余语音模块暂停对录音器件14的采集语音进行关键字识别，或者让其余语音模块暂停将自身的播放内容发送给播放器件13)；不播放其余语音模块的播放内容(例如，暂停/停止播放相关的语音模块的播放内容，或静音相关的语音模块的播放内容)；将其余语音模块恢复为待机状态；保持其余语音模块的当前状态；缓存其余语音模块的播放内容；不向其余语音模块提供采集语音；或断开其余语音模块等，这些暂停方法的选择在不同场景中可能略有差异。

可选地，切换模块12与每个语音模块11均通信连接，这样切换模块12可从每个语音模块11获取到工作状态信息，以便切换模块12基于多个语音模块11的工作状态选定一个语音模块11进行语音交互，并暂停其余语音模块11的语音交互。另外，切换模块12也可向语音模块11发送指令，以使语音模块11执行所述指令对应的操作。例如，切换模块12可向语音模块11发送恢复待机状态的指令，以使相应语音模块11停止当前工作而重新回到待机状态。例如，切换模块12可向语音模块11发送暂停指令，以使相应语音模块11暂停执行当前工作(例如，保持相应的工作状态)。例如，切换模块12可向语音模块11发送工作继续指令，以使相应语音模块11恢复执行先前工作(例如，从当前工作状态开始，继续执行后续工作状态)。

切换模块12可与播放器件13通信连接。切换模块12可向播放器件13发送各种控制指令，例如播放至少一个语音模块11的播放内容的指令，又例如不播放至少一个语音模块11的播放内容的指令(例如，暂停/停止播放至少一个语音模块11的播放内容的指令，静音至少一个语音模块11的播放内容的指令)，又例如恢复播放至少一个语音模块11的播放内容的指令(例如，继续播放至少一个语音模块11的播放内容的指令，或取消静音至少一个语音模块11的播放内容的指令)。在播放器件13从切换模块12获取到不播放某一语音模块11播放内容的指令(例如，不播放AVS语音模块的播放内容)的情况下，即使播放器件13获取到所述语音模块的播放内容，播放器件13也不会播出。对于播放器件13而言，切换模块12发出的指令的优先级高于语音模块11发出的指令的优先级。

切换模块12可与录音器件14通信连接。切换模块12可向录音器件14发送各种控制指令，例如，不向特定语音模块发送采集语音的指令，例如，不将采集语音发送给AVS语音模块的指令。这样录音器件14响应于不向特定语音模块发送采集语音的指令，只会将采集语音发送给语音设备10内除去所述特定语音模块之外的其他语音模块11，这样所述特定语音模块就不会接收到采集语音。另外，切换模块12也可向录音器件14发送仅向特定语音模块发送采集语音的指令，例如，“将采集语音发送给AVS语音模块的指令”，这样录音器件14就可仅将当前采集到的语音发送给AVS语音模块。

另外，本申请的语音设备10还可包括回声消除模块，回声消除模块用于对播放器件13的采集语音进行回声消除。

在一实施方式中，回声消除模块可集成于语音模块11内(例如，关键词识别子模块111内)，且每一语音模块11均可集成有一回声消除模块，从而语音模块11获取到采集语音后，会对采集语音进行回音消除，以保证语音模块11能够准确地确认出采集语音中是否有关键词和进行语音分析，以保证语音交互质量。

在另一实施方式中，回声消除模块可集成于录音器件14内，录音器件14每采集到一段语音，录音器件14内的回声消除模块均可对采集到的语音进行回声消除，录音器件14将回声消除后的采集语音发送给语音模块11。为保证回声消除质量，播放器件13可将播放内容发送给回声消除模块，以让回声消除模块基于播放内容对采集语音进行回声消除。

下面将详细介绍上述语音设备10的语音交互方法，其中语音交互方法一实施方式的流程示意图具体如图4所示，本实施方式的语音设备的语音交互方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S101：确定至少两个语音模块的工作状态。

可先确定语音设备内至少两个语音模块的工作状态，以便基于预设原则和至少两个语音模块的工作状态，从至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互。

可选地，在语音模块的工作状态发生变化的情况下，语音模块可向切换模块告知其变化后的工作状态，以使切换模块知晓每个语音模块的实时工作状态。

在另一实施方式中，切换模块可每隔一时间段向每一语音模块询问每一语音模块的工作状态。

因此，本实施例所述步骤S101可发生在任何语音模块的工作状态发生变化时，或可发生在切换模块周期性询问每一个语音模块工作状态的时间点。

其中，语音模块的工作状态可包括待机状态(IDEL)、唤醒状态(Hotword)、解析状态(Detecting)和反馈状态(Responding)等。

S102：基于预设原则和至少两个语音模块的工作状态，从至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互。

确定至少两个语音模块的工作状态后，切换模块可基于预设原则和至少两个语音模块的工作状态从至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互。

可选地，暂停其余语音模块的语音交互的方法包括但不限于如下方式中至少一种：暂停/中断/停止其余语音模块的工作(例如，暂停对录音器件的采集语音进行关键字识别)；控制播放器件不播放其余语音模块的播放内容(例如，暂停/停止播放相关的语音模块的播放内容，或静音相关的语音模块的播放内容)；将其余语音模块恢复为待机状态；保持其余语音模块的当前状态；缓存其余语音模块的播放内容；控制录音器件不向其余语音模块提供采集语音；断开其余语音模块等。这些暂停动作的选择在不同场景中可能略有差异。

可以理解的是，在所有语音模块均在正常工作状态下时，所有语音模块都能从录音器件获取到采集音频，并能够对采集音频进行关键词识别，以便用户使用一语音服务时，该语音服务对应的语音模块能够及时响应。

此外，在某些实施例中，当选定进行语音交互的语音模块的工作状态变为反馈状态或待机状态的情况下，可重新使其余被暂停的语音模块的语音交互恢复正常运行。所述恢复正常运行包括但不限于：恢复语音模块的工作(例如，恢复对录音器件的采集语音进行关键字识别，恢复正常的状态转变过程)；控制播放器件播放语音模块的播放内容；控制录音器件向语音模块提供采集语音等。这样恢复正常运行的其余语音模块便能够重新响应本发明提供的各种预设原则的约束。当选定进行语音交互的语音模块的工作状态变为反馈状态的情况下重新使其余被暂停的语音模块的语音交互恢复正常运行，可使语音模块的多个语音服务实现短暂的同时运行的状态(例如，选定的语音模块进行语音播报的同时，恢复的语音模块能正常监测用于的语音指令；或者选择的语音模块进行语音播报的同时，恢复的语音模块能正常进行关键词解析等)，可以提高语音设备的运行效率。

在本实施方式中，基于多套语音服务对应的语音模块各自的工作状态，从多套语音模块中选定一个语音模块，并使语音设备通过选定的语音模块进行语音交互，并暂停其余语音模块的语音交互，即语音设备可以基于多套语音模块的运行情况自行确定与用户进行语音交互的语音模块，由此可解决语音设备内多套语音服务存在冲突的问题，且无需人为确定。

可选地，对应于不同场景，可以设定不同的预设原则，也即，具体实现中，语音设备可以实施本发明的预设原则中的一种或者多种。下述内容将对其中四种预设原则进行详细描述。作为举例，语音设备同一时期仅实施预设原则中的一种。此外，语音设备可在不同的预设原则之间进行切换，通常切换的时间点较佳为所有语音模块均处于IDEL状态。例如，在第一时段语音设备可实施先呼叫先响应原则，在第二时段语音设备可切换为实施呼叫打断原则，在第三时段语音设备可切换为实施解析不可打断原则，而在第四时段语音设备可切换为分步响应原则。何时实施何种预设原则可由用户自由设定。

下面将详细介绍第一种预设原则——先呼叫先响应原则，具体如图5-图6所示，本实施方式的语音设备的语音交互方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S201：确定至少两个语音模块的工作状态。

S202：若基于至少两个语音模块的工作状态，确认一个语音模块处于唤醒状态，且其他语音模块处于待机状态，将处于唤醒状态的语音模块选定为进行语音交互的语音模块，并暂停其余语音模块的语音交互。

如前所述，可选地，在语音模块的工作状态发生变化的情况下，语音模块可向切换模块告知其变化后的工作状态，以使切换模块知晓每个语音模块的实时工作状态。此外，在另一实施方式中，切换模块可每隔一时间段向每一语音模块询问每一语音模块的工作状态。因此，本实施例所述步骤S201可发生在任何语音模块的工作状态发生变化时，或可发生在切换模块周期性询问每一个语音模块工作状态的时间点。

在本实施例中，暂停语音模块的语音交互的方法可包括如下方式中至少一种：控制播放器件不播放语音模块的播放内容(例如，暂停/停止播放语音模块提供的播放内容，或静音语音模块提供的播放内容)；将语音模块保持为待机状态；控制录音器件不向语音模块提供采集语音；断开语音模块等。

如图6所示，用户先使用GVA语音服务，那么GVA语音服务会被先响应，用户先使用AVS服务则AVS服务会被响应，即以谁先进入唤醒(hotword)状态为判断依据，将优先进入hotword状态的语音模块作为进行语音交互的语音模块，并暂停其他语音模块的语音服务。在图6的实施例中，作为举例，GVA先进入唤醒(hotword)状态，因此在本实施例中，切换模块(在图中标记为MiraVoice)将GVA作为进行语音交互的语音模块，并暂停AVS的语音交互，且作为举例，图6中暂停AVS的方式为将AVS语音模块保持为待机状态。

可选地，在本实施例中，当选定的语音模块(例如，图6中的GVA语音模块)的工作状态变为反馈状态或待机状态的情况下，可重新使其余语音模块的语音交互恢复正常运行。在本实施中，所述恢复正常运行包括但不限于：恢复语音模块的工作(例如使语音模块能正常进行状态转变过程)；控制播放器件能播放语音模块的播放内容；控制录音器件能向语音模块提供采集语音等。这样恢复正常运行状态的其余语音模块便能够重新响应本发明提供的各种预设原则的约束。

下面将详细介绍第二种预设原则——呼叫打断原则，具体如图7、图8、图9和图10所示。如图7所示，本实施方式的语音设备的语音交互方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S301：确定至少两个语音模块的工作状态。

S302：若基于至少两个语音模块的工作状态，确认至少一个语音模块处于唤醒状态，且其余语音模块处于解析状态、反馈状态或待机状态中任一种，则将最后进入唤醒状态的语音模块选定为进行语音交互的语音模块，并暂停其余语音模块的语音交互。

如前所述，可选地，在语音模块的工作状态发生变化的情况下，语音模块可向切换模块告知其变化后的工作状态，以使切换模块知晓每个语音模块的实时工作状态。此外，在另一实施方式中，切换模块可每隔一时间段向每一语音模块询问每一语音模块的工作状态。因此，本实施例所述步骤S301可发生在任何语音模块的工作状态发生变化时，或可发生在切换模块周期性询问每一个语音模块工作状态的时间点。

在本实施例中，所述暂停可包括如下方式中至少一种：暂停/中断/停止语音模块的工作(例如，暂停对录音器件的采集语音进行关键字识别)，控制播放器件不播放语音模块的播放内容(例如，暂停/停止播放语音模块提供的播放内容，或静音语音模块提供的播放内容)，将语音模块恢复为待机状态，保持语音模块的当前状态，控制录音器件不向语音模块提供采集语音，断开语音模块等。在具体实现中，可根据实际应用场景选择合适的暂停动作。具体实现中，当其余语音模块均处于待机状态的情况下，本实施例就变成前述的第一种预设原则。

如图8所示，用户先使用AVS语音服务，那么AVS语音服务会被先响应，本实施例中，当AVS正处于反馈(Responding)状态时，GVA语音服务进入唤醒(hotword)状态，则响应于GVA语音服务进入唤醒状态切换模块(在图中标记为MiraVoice)将GVA语音模块作为进行语音交互的语音模块，并暂停(打断)AVS的播放。在图8的实施例中，作为举例，暂停AVS的方式为将AVS语音模块恢复为待机状态且控制播放器件不播放AVS语音模块的播放内容(例如，暂停/停止播放语音模块提供的播放内容，或静音语音模块提供的播放内容)。

如图9，用户先使用GVA语音服务，那么GVA语音服务会被先响应，本实施例中，当GVA正处于唤醒(hotword)状态时，AVS语音服务进入唤醒(hotword)状态，则响应于AVS语音服务为最新进入唤醒状态的语音模块切换模块(在图中标记为MiraVoice)将AVS语音模块作为进行语音交互的语音模块，并暂停(打断)GVA的语音服务。在图9的实施例中，作为举例，暂停GVA的方式为将GVA语音模块恢复为待机状态且控制播放器件不播放GVA语音模块的播放内容(例如，暂停/停止播放语音模块提供的播放内容，或静音语音模块提供的播放内容)，以及控制录音器件不向语音模块GVA提供采集语音。

如图10，用户先使用GVA语音服务，那么GVA语音服务会被先响应，本实施例中，当GVA正处于解析(Detecting)状态时，AVS语音服务进入唤醒(hotword)状态，则响应于AVS语音服务进入唤醒状态切换模块(在图中标记为MiraVoice)将AVS语音模块作为进行语音交互的语音模块，并暂停(打断)原来GVA的语音服务。在图10的实施例中，作为举例，暂停GVA的方式为断开GVA语音模块且控制播放器件不播放GVA语音模块的播放内容(例如，暂停/停止播放语音模块提供的播放内容，或静音语音模块提供的播放内容)，以及控制录音器件不向语音模块GVA提供采集语音。

可选地，在呼叫打断原则中，当选定的语音模块(例如，图8中的GVA语音模块，图9和图10中的AVS语音模块)的工作状态变为反馈状态或待机状态的情况下，可重新使其余语音模块(例如，图8中的AVS语音模块，图9和图10中的GVA语音模块)的语音交互恢复正常运行。在图8的实施例中，作为举例，恢复AVS正常运行的方式为使AVS能正常进行各种状态切换且控制播放器件能播放AVS语音模块的播放内容。在图9的实施例中，作为举例，恢复GVA的正常运行的方式为使GVA能正常进行各种状态切换且控制播放器件能播放AVS语音模块的播放内容以及控制录音器件向语音模块GVA提供采集语音。在图10的实施例中，作为举例，恢复GVA的正常运行的方式为重新连接GVA语音模块且控制播放器件能播放GVA放语音模块的播放内容，以及控制录音器件向语音模块GVA提供采集语音。这样进行正常运行状态的其余语音模块便能够重新响应本发明提供的各种预设原则的约束。

下面将详细介绍第三种预设原则——解析不可打断原则，具体如图11-图12所示，本实施方式的语音设备的语音交互方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S401：确定至少两个语音模块的工作状态。

S402：若基于至少两个语音模块的工作状态，确认一个语音模块处于解析状态，且其他语音模块处于唤醒状态或待机状态，将处于解析状态的语音模块选定为进行语音交互的语音模块，并暂停其余语音模块的语音交互。

在本实施例中，所述暂停可包括：暂停/中断/停止语音模块的工作(例如，暂停对录音器件的采集语音进行关键字识别)，控制播放器件不播放语音模块的播放内容(例如，暂停/停止播放语音模块提供的播放内容，或静音语音模块提供的播放内容)，将语音模块保持为当前状态，将语音模块恢复为待机状态，控制录音器件不向语音模块提供采集语音，断开语音模块等。在具体实现中，可根据实际应用场景选择合适的暂停动作。

作为举例，如图12所示，在用户同时请求两个语音服务的情况下，以谁先进入解析(Detecting)状态为判断，则切换模块(在图中标记为MiraVoice)将优先进入Detecting状态的语音模块选定为进行语音交互的语音模块，并暂停其余语音模块的语音交互。在图12中，GVA语音服务优先进入Detecting状态，故其被选定为进行语音交互的语音模块，并暂停AVS的语音交互。在图12的实施例中，作为举例，暂停AVS的方式为将AVS的状态恢复为待机状态，控制播放器件不播放AVS语音模块的播放内容(例如，暂停/停止播放语音模块提供的播放内容，或静音语音模块提供的播放内容)，以及控制录音器件不向语音模块AVS提供采集语音。可选地，在本实施例中，当选定的语音模块(例如，图12中的GVA语音模块)的工作状态变为反馈状态或待机状态的情况下，可重新使其余语音模块的语音交互恢复正常运行。在图12的实施例中，作为举例，恢复AVS的正常运行的方式使AVS能进行正常的状态转变，控制播放器件能播放AVS语音模块的播放内容，以及控制录音器件向语音模块AVS提供采集语音。这样恢复正常运行状态的其余语音模块便能够重新响应本发明提供的各种预设原则的约束。

下面将详细介绍第四种预设原则——分步响应原则，其具体如图13-图14所示，本实施方式的语音设备的语音交互方法包括以下步骤可以理解的是，需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S501：确定至少两个语音模块的工作状态。

S502：若基于至少两个语音模块的工作状态，确认至少两个语音模块的工作状态已切换为唤醒状态，且最后切换到唤醒状态的语音模块的状态切换时间与至少一个其他切换到唤醒状态的语音模块的状态切换时间的间隔小于预设时长，按照预设顺序从状态切换时间间隔小于所述预设时长的所有语音模块中选定一个为进行语音交互的语音模块，并暂停其余语音模块的语音交互。

如图14所示，在用户同时请求两个语音服务(GVA和AVS)的情况下，即两个语音服务对应的语音模块到达唤醒状态的时间间隔短于预设时长，切换模块(在图中标记为MiraVoice)会先将其中一个语音服务对应的语音模块(例如，GVA)选定为进行语音交互的语音模块，并暂停其余语音模块(例如，AVS)的语音交互。在本实施例中，所述暂停包括将语音模块保持为当前状态并缓冲语音模块的运行数据，以便当相应语音模块后续被按预设顺序选定为进行语音交互的语音模块时，能从保持的状态开始执行后续语音交互。

其中，预设顺序可以是语音模块切换到唤醒状态的先后顺序(图14所示的实施例即是按照该顺序)。或者预设顺序可以是语音模块的优先级的高低顺序。预设顺序还可以是切换模块对语音模块进行随意排列组合而成的顺序。

若当前选定的语音模块已切换至反馈状态或待机状态，且当前选定的语音模块不是预设顺序的最后一个语音模块，则继续执行按照预设顺序从状态切换时间间隔小于所述预设时长的所有语音模块中选定一个为进行语音交互的语音模块，并暂停其余语音模块的语音交互的步骤，直至选定的语音模块为所述预设顺序的最后一个语音模块。作为举例，在图14所示的实施例中，当GVA已切换至反馈状态或待机状态，且由于GVA语音模块不是预设顺序的最后一个语音模块，则继续选定AVS作为进行语音交互的语音模块，在本实施例中，选定AVS作为进行语音交互的语音模块后使AVS从保持的唤醒状态继续向下执行后续状态，也即继续执行解析，响应等状态。

请参阅图15，图15是本申请语音设备20一实施方式的结构示意图。本申请语音设备20包括处理器22、录音器件和播放器件，处理器22耦接于录音器件和播放器件，处理器22用于执行指令以实现上述本申请语音交互方法任一实施方式及任意不冲突的组合所提供的方法。

语音设备20可为手机、笔记本电脑等终端，或者还可以为服务器，或者还可为冰箱、空调等与脚部穿戴设备构建成局域网的一物联网设备。

处理器22还可以称为CPU(Central Processing Unit，中央处理单元)。处理器22可能是一种集成电路芯片，具有信号的处理能力。处理器22还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器，或者该处理器22也可以是任何常规的处理器等。

语音设备20还可进一步包括存储器21，用于存储处理器22运行所需的指令和数据。

请参阅图16，图16为本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质30存储有指令/程序数据31，该指令/程序数据31被执行时实现本申请上述方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令/程序数据31可以形成程序文件以软件产品的形式存储在上述存储介质30中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质30包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音设备的语音交互方法，其特征在于，所述语音设备包括至少两个语音模块，所述语音交互方法包括：

确定所述至少两个语音模块的工作状态；

基于预设原则和所述至少两个语音模块的工作状态，从所述至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互。

2.根据权利要求1所述的语音交互方法，其特征在于，所述基于预设原则和所述至少两个语音模块的工作状态，从所述至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互的步骤包括：

响应于第一语音模块为最新进入唤醒状态的语音模块，选定所述第一语音模块进行语音交互，并暂停其余语音模块的语音交互。

3.根据权利要求2所述的语音交互方法，其特征在于，所述响应于第一语音模块为最新进入唤醒状态的语音模块，选定所述第一语音模块进行语音交互，并暂停其余语音模块的语音交互的步骤包括：

若基于所述至少两个语音模块的工作状态，确认至少一个语音模块处于唤醒状态，且其余语音模块处于解析状态、反馈状态或待机状态中任一种，则将最新进入唤醒状态的语音模块选定为进行语音交互的语音模块，并暂停其余语音模块的语音交互。

4.根据权利要求1所述的语音交互方法，其特征在于，所述基于预设原则和所述至少两个语音模块的工作状态，从至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互的步骤包括：

响应于第一语音模块处于解析状态，其余语音模块尚未进入解析状态，选定所述第一语音模块进行语音交互，并暂停其余语音模块的语音交互。

5.根据权利要求4所述的语音交互方法，其特征在于，所述响应于第一语音模块处于解析状态，其余语音模块尚未进入解析状态，选定所述第一语音模块进行语音交互，并暂停其余语音模块的语音交互的步骤包括：

若基于所述至少两个语音模块的工作状态，确认一个语音模块处于解析状态，且其他语音模块处于唤醒状态或待机状态，将处于解析状态的语音模块选定为进行语音交互的语音模块，并暂停其余语音模块的语音交互。

6.根据权利要求1-5中任一项所述的语音交互方法，其特征在于，所述暂停其余语音模块的语音交互的步骤包括如下方式中至少一种：

控制播放器件不播放所述其余语音模块的播放内容；

控制录音器件不向所述其余语音模块提供采集语音；

暂停/中断/停止所述其余语音模块的工作；

将所述其余语音模块恢复为待机状态；

保持所述其余语音模块的当前状态；

断开所述其余语音模块。

7.根据权利要求1-5中任一项所述的语音交互方法，其特征在于，还包括：

响应于当前选定的语音模块的工作状态变为反馈状态或待机状态，重新使所述其余语音模块的语音交互恢复正常运行。

8.根据权利要求7所述的语音交互方法，其特征在于，所述重新使所述其余语音模块的语音交互恢复正常运行的步骤包括如下方式中至少一种：

控制播放器件能播放所述其余语音模块的播放内容；

控制录音器件向所述其余语音模块提供采集语音；

使所述其余语音模块能正常进行工作状态切换；

重新连接所述其余语音模块。

9.根据权利要求1所述的语音交互方法，其特征在于，所述基于预设原则和所述至少两个语音模块的工作状态，从至少两个语音模块中选定一个语音模块进行语音交互，并暂停其余语音模块的语音交互的步骤包括：

若基于所述至少两个语音模块的工作状态，确定至少两个语音模块的工作状态已切换为唤醒状态，且最后切换到唤醒状态的语音模块的状态切换时间与至少一个其他切换到唤醒状态的语音模块的状态切换时间的间隔小于预设时长，按照预设顺序从状态切换时间间隔小于所述预设时长的所有语音模块中选定一个为进行语音交互的语音模块，并暂停其余语音模块的语音交互。

10.根据权利要求9所述的语音交互方法，其特征在于，所述暂停其余语音模块的语音交互包括：将所述其余语音模块保持为当前状态并缓冲所述其余语音模块的运行数据。

11.根据权利要求9或10所述的语音交互方法，其特征在于，还包括：

若当前选定的语音模块已切换至反馈状态或待机状态，且当前选定的语音模块不是所述预设顺序的最后一个语音模块，重复执行所述按照预设顺序从状态切换时间间隔小于所述预设时长的所有语音模块中选定一个为进行语音交互的语音模块，并暂停其余语音模块的语音交互的步骤，直至选定的语音模块为所述预设顺序的最后一个语音模块。

12.根据权利要求11所述的语音交互方法，其特征在于，所述按照预设顺序从状态切换时间间隔小于所述预设时长的所有语音模块中选定一个为进行语音交互的语音模块时，使选定的语音模块从保持的状态开始执行后续语音交互。

13.一种语音设备，其特征在于，所述语音设备包括：

录音器件；

播放器件；

至少两个语音模块，每个所述语音模块均与所述录音器件和所述播放器件通信连接；

切换模块，与至少两个所述语音模块、所述录音器件和所述播放器件通信连接，用于执行权利要求1-12中任一项所述的方法。

14.一种语音设备，其特征在于，所述语音设备包括录音器件、播放器件和处理器；所述处理器与所述录音器件和所述播放器件通信连接，所述处理器用于执行指令以实现如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机存储介质中存储有能够实现权利要求1-12中任一项方法的程序文件。