CN111865728A

CN111865728A - 语音控制系统和方法、以及语音套件和语音装置

Info

Publication number: CN111865728A
Application number: CN201910339913.9A
Authority: CN
Inventors: 孙大鹏; 贾伟; 赵敏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-10-30
Also published as: WO2020216089A1

Abstract

公开了一种语音控制系统和方法、以及语音套件和语音装置。该系统包括多个语音套件以及与所述语音套件通信的服务端，其中，所述语音套件包括：语音装置，用于采集语音输入并将采集到的语音输入发送给处理装置；处理装置，用于接收所述语音装置采集到的语音输入，并将所述语音输入发送至服务端，并且所述服务端，用于对所述处理装置发送的所述语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。由此，通过分立的语音装置作为语音采集入口，经处理装置和服务端实现语义解析和命令下发，由此方便对各类设备，尤其是各类智能家居设备甚至是传统设备的灵活语音控制。

Description

语音控制系统和方法、以及语音套件和语音装置

技术领域

本发明涉及信息技术领域，尤其涉及一种语音控制系统和方法、以及语音套件和语音装置。

背景技术

随着智能家居技术的普及与发展，用语音实现对各类家用电器的控制业已成为标配。在现有的技术中，语音控制可以通过作为家中控制节点的智能音箱或是自身带有语音交互功能的电器本身来实现。

然而，现有的智能音箱的体积和功耗较大，通常难以实现电池供电。因此，电源线的存在、较大的体积以及对外界环境的要求(例如，不适于放置在湿度较大的卫生间等)都限制了智能音箱的灵活布置和使用。

带有语音交互功能的设备则通常配备有专门的语音处理模组。这些语音处理模组只能布置在设备内部，一方面需要开模和单独调试成本高，另一方面受设备装配的制约，不能做到灵活放置，适应性不强。

为此，需要一种更为灵活且易于实现的语音方案。

发明内容

为了解决上述至少一个问题，本发明提出了一种分立的语音装置作为智能语音的入口。语音装置采集语音输入，并将其发送至处理装置，后者在经由本地或云端实现语义解析和对应命令下发，由此方便对各类设备，尤其是各类智能家居设备甚至是传统设备的灵活控制。

根据本发明的一个方面，提出了一种语音控制系统，包括多个语音套件以及与所述语音套件通信的服务端，其中，所述语音套件包括：语音装置，用于采集语音输入并将采集到的语音输入发送给处理装置；处理装置，用于接收所述语音装置采集到的语音输入，并将所述语音输入发送至服务端，并且所述服务端，用于对所述处理装置发送的所述语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。其中，语音套件可以包括布置在不同区域内的多个所述语音装置，并且每个处理装置与通信范围内的一个或多个所述语音装置通信连接。由此，通过对语音采集入口的方便布置，提升语音控制的灵活度和覆盖范围。

优选地，所述语音装置和所述处理装置之间进行短距离通信，例如各自包括彼此进行本地短距离通信的低功耗短距离通信模组，所述通信模组包括如下至少一种：基于蓝牙技术与所述处理装置通信的蓝牙通信模组。基于红外技术与所述处理装置通信的红外通信模组；以及基于Zigbee技术与所述处理装置通信的Zigbee通信模组。

服务端可以实现为远程服务端，于是处理装置可以包括与所述服务端进行远程通信的WiFi模组。

优选地，所述语音装置从采集到的语音输入中识别出唤醒词，在所述唤醒模组识别出唤醒词之后将采集到的语音输入发送给所述处理装置。

优选地，语音装置经由自身扬声器或有线/无线连接的外接音箱，对从所述处理装置和/或目标设备接收到的内容进行语音输出。进行语音输出的内容可以包括如下至少一项：对执行命令的陈述内容；以及与用户的交互内容，例如，进一步获取缺失的语义要素。

优选地，所述语音装置还用于对所述处理装置接收到的命令进行红外输出，以实现对与所述命令相对应的目标设备的操作。

优选地，所述语音装置还包括用于附着于墙面、处理装置、目标设备、或其他设施表面的附着机构。

优选地，所述处理装置用于针对至少部分所述语音输入进行语义识别，并生成识别语义所对应的目标设备操作的操作命令。

在本发明的语音控制系统中，目标设备可以直接从所述服务端接收下发的操作命令并执行与所述操作命令相对应的操作；和/或所述处理装置可以接收所述服务端下发的操作命令，自行或经由所述语音装置向所述目标设备下发所述操作命令。相应地，直接从所述服务端接收下发的操作命令并执行的所述目标设备可以包括联网的智能家电设备；并且经由所述处理装置或所述语音装置获取操作命令的所述目标设备包括传统家电设备。

优选地，所述服务端可以包括：用于对上传的语音输入进行语义识别的语义处理服务端；基于所述识别的语义生成针对目标识别操作的操作命令的命令生成服务端；以及下发所述操作命令的命令下发服务端。

作为替换或者补充，针对部分目标设备的命令生成和下发可由外部服务端完成。于是，所述服务端可以包括：用于对上传的语音输入进行语义识别的语义处理服务端，并且所述服务端将所述识别出的语义发送给外部服务端，其中所述外部服务端基于所述识别的语义生成针对目标识别操作的操作命令的命令生成服务端，以及下发所述操作命令的命令下发服务端。

优选地，所述服务端可以预先获取如下至少一项本地设备配置信息：所述语音装置、所述处理装置和/或至少部分目标设备自身的分布和设备信息；所述语音装置、所述处理装置和目标设备中至少两者之间的对应关系。

优选地，所述服务端基于所述本地设备配置信息自动补齐识别语义中执行针对目标设备的操作所缺失的语义要素。

优选地，服务端可以包括：与所述语音套件近距离通信的本地服务端，所述本地服务端可用于针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。

根据本发明的另一个方面，提出了一种语音套件，包括：语音装置，用于采集语音输入并将采集到的语音输入经由本地通信发送给处理装置；以及处理装置，包括与所述语音装置通信连接的通信单元，所述处理装置经由所述通信单元接收所述语音装置采集到的语音数据，以实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

优选地，所述语音装置和所述处理装置可以各自包括彼此进行近距离通信的低功耗短距离通信模组，所述通信模组包括如下至少一种：基于蓝牙技术与所述处理装置通信的蓝牙通信模组；基于红外技术与所述处理装置通信的红外通信模组；以及基于Zigbee技术与所述处理装置通信的Zigbee通信模组。

所述处理装置可以包括：联网单元，用于将从所述语音装置接收到的来自用户的语音数据上传至服务端，其中，所述服务端进行针对所述语音输入的语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。由此，通过将联网装置改为布置在处理装置内，在确保语音贴小型化的同时利用云端实现智能AI语音处理。

优选地，目标设备可以直接从所述服务端接收下发的操作命令并执行与所述操作命令相对应的操作；和/或所述处理装置经由所述联网单元接收所述服务端下发的操作命令，自行或经由所述语音装置向所述目标设备下发所述操作命令。由此，可以根据不同的应用场景实现云端下发命令的不同执行方式：直接控制家电、AI模组控制、语音贴控制等。具体地，直接从所述服务端接收下发的操作命令并执行的目标设备可以包括自身联网的智能家电设备；并且经由所述处理装置或所述语音装置获取操作命令的目标设备包括传统家电设备。

进一步地，联网单元可以还用于：接收所述服务端下发的与用户的交互内容，以及所述通信单元还用于：将所述与用户的交互内容发送给所述语音装置，以供语音输出。由此，进一步完善语音贴的语音入口功能。

根据不同的应用场景，套件中的语音装置和处理装置可以自由组合，例如套件可以包括布置在不同区域内的多个所述语音装置，并且每个处理装置与通信范围内的一个或多个所述小型化设备通信连接。

作为替换或者补充，处理装置还可以包括：语音识别单元，用于针对所述语音输入进行语义识别；以及操作命令生成单元，用于生成识别语义所对应的目标设备操作的操作命令。由此可以针对简单命令实现快速的本地处理。

根据本发明的一个方面，提出了一种语音装置，包括：麦克风，用于采集语音输入；通信模组，用于将采集到的语音输入发送给处理装置，以实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。由此，通过仅保留最为简单的语义采集和通信功能的语音贴作为语音输入的入口，实现对语音功能模块的灵活布置以及对语音的方便采集。进一步地，该装置可以包括用于附着于墙面、处理装置、目标设备、或其他设施表面的附着机构，例如，具有智能语音贴的形式。

优选地，该装置还可以包括：唤醒模组，用于从来自用户的语音输入中识别出唤醒词，并且所述通信模组用于在所述唤醒模组识别出唤醒词之后将采集到的语音输入发送给所述处理装置。该唤醒模组可由现有的低功耗小型化DSP实现，由此在确保低功耗和小型化特性的同时提供远场唤醒功能。

优选地，该装置还可以包括：扬声器，用于对所述通信模组从所述处理装置接收到的内容进行语音输出。所述扬声器进行语音输出的内容包括如下至少一项：对执行命令的陈述内容；以及与用户的交互内容，例如，进一步获取缺失的语义要素。由此，进一步完成上述装置的语音入口功能。

优选地，该装置还可以包括：外部音箱连接模组，以使得连接的外部音箱对所述通信模组从所述处理装置接收到的内容进行语音输出。所述外部音箱连接模组是如下至少一项：包括蓝牙连接功能以连接外部蓝牙音箱的所述通信模组；以及包括音频插孔的外部音箱有线连接模组。由此，该装置可以与现有的蓝牙或传统音箱结合，使得上述音箱通过接入语音贴后变为智能设备，可以实现语音控制及云端资源接入。

优选地，该装置还可以包括：红外模组，用于对所述通信模组从所述处理装置接收到的命令进行红外输出，以实现对与所述命令相对应的目标设备的操作。由此，该装置可以被复用为针对传统家电的万能红外遥控器。

优选地，通信模组是低功耗短距离通信模组，例如基于蓝牙技术与所述处理装置通信的蓝牙通信模组，或是基于红外技术与所述处理装置通信的红外通信模组，或是基于Zigbee技术与所述处理装置通信的Zigbee通信模组。由此为小型化和低功耗通信提供可能。

优选地，该装置还可以包括：供电模组，所述供电模组包括如下至少一项：无线充电组件；电池组件；USB插口。本装置的低功耗特性可以去除对电源线的需要，由此进一步提升其便携性。

根据本发明的再一个方面，提出了一种语音控制方法，该方法可由如上的语音装置、套件和系统实施，并且包括：语音装置采集语音输入；语音装置将语音输入发送给处理装置；所述处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成。

优选地，所述语音装置将所述语音输入发送给处理装置包括：所述语音装置经由近距离通信将所述语音输入发送给处理装置。

优选地，所述处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成包括：所述处理装置将所述语音输入上传至服务端；所述服务端对所述语音输入的语义识别，以获取识别语义所对应的目标设备操作的操作命令。

优选地，所述处理装置将所述语音输入上传至服务端包括：所述处理装置将所述语音输入经近距离通信上传至本地服务端。

优选地，所述服务端对所述语音输入的语义识别，以获取识别语义所对应的目标设备操作的操作命令包括：所述本地服务端针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。

优选地，所述处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成包括：所述处理装置针对至少部分所述语音输入进行语义识别，并生成识别语义所对应的目标设备操作的操作命令。

优选地，该方法还可以包括：使用所述语音装置和/或所述处理装置获取识别语义所对应的目标设备操作的操作命令；以及所述语音装置和/或所述处理装置向所述目标设备下发所述操作命令。

优选地，该方法还可以包括：所述处理装置获取下发语音输出内容；所述处理装置向所述语音装置下发所述语音输出内容；以及所述语音装置语音输出所述语音输出内容。

本发明的外置和分立的模组化方案可以方便的集成至任何需要的设备。另外，本发明的套件使用方便，通过语音模组的小型化、便携化设计，使之可以方便地安放在各类表面上使用，适合多场景使用。进一步地，本发明的智能语音贴还可以通过附加红外模组实现万能红外遥控器功能，从而实现对传统红外设备的智能控制。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明一个实施例的语音装置的组成示意图。

图2示出了实现为智能语音贴的一个例子。

图3示出了本发明一个智能语音贴的组成例。

图4示出了本发明一个语音装置的电路处理流程例。

图5示出了根据本发明一个实施例的语音套件的组成示意图。

图6示出了根据本发明一个实施例的语音控制系统的组成示意图。

图7示出了根据本发明一个实施例的语音控制方法的示意性流程图。

图8示出了本发明一个语音控制的例子。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

如上所述，现有的智能家居语音交互方案(例如，智能音箱以及带有语音交互功能的设备)都存在灵活度不高、使用场景受限等问题。为此，提出了一种分立的语音装置作为智能语音的入口。语音装置采集语音输入，并经由本地通信将其发送至处理装置，后者在经由本地或云端实现语义解析和对应命令下发，由此方便对各类设备，尤其是各类智能家居设备甚至是传统设备的灵活控制。

图1示出了根据本发明一个实施例的语音装置的组成示意图。如图1所示，语音装置100可以包括麦克风(MIC)110和通信模组120。MIC110用于采集语音输入。通信模组120则用于将采集到的语音输入发送给处理装置，以基于该处理装置实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。如下所述，目标设备可以是智能设备，也可以是传统家电设备。

语音装置可以结合处理装置构成一种语音套件(如下图5所示)。在此，“套件”指代协助作用以实现特定功能的一组装置。在本发明中，语音装置以其灵活易布置的特性用作例如在不同区域采集来自用户的语音信号的入口，处理装置则汇总语音装置采集的上述语音信息，经由本地和/或云端的语义处理功能，实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

在涉及云端语义识别和命令下发的情况下，上述语音套件还可以与服务端相结合构成一种语音控制系统(如下图6所示)。服务端可以是与语音套件经由短距离通信的本地服务端，或者是可以与多个语音套件中的处理装置远程通信，以分别为其提供云端的语义识别、命令生成和下发功能的远程服务端(例如，服务器群)。

返回图1，MIC是一种将声音转换成电信号的换能器。如图所示，MIC110可以收集用户发出的声音信号，将其转换为包含用户声音信息的电信号，并发送给通信模组120。通信模组120则可以将包含用户信息的电信号，作为用户的语音输入数据发送给处理装置，用于后续的语音输入的语义识别以及识别语义所对应的目标设备操作。在其他实施例中，MIC也可采集非用户发出的声音信号，例如，其他智能设备所发出的声音信号。

由此，语音装置100可以通过仅保留最为简单的语义采集和通信功能，实现低功耗和小型化，以方便其本身的灵活安装。

为了实现小型化和低功耗，通信模组110可以是低功耗的近距离通信模组。在此“近距离通信”指代通信距离通常在几百米范围之内的短距离无线通信。在一个实施例中，通信模组110可以是基于蓝牙技术与处理装置通信的蓝牙(Bluetooth，BT)通信模组，例如，基于蓝牙Mesh方案的通信模组。在另一个实施例中，通信模组110可以是基于红外技术与所述处理装置通信的红外(Infrared，IR)通信模组，例如，高速红外传输模组。再一个实施例中，通信模组110可以基于Zigbee技术与所述处理装置通信的Zigbee通信模组。在其他实施例中，通信模组110也可以使用BT和IR的组合。应该理解的是，本发明的通信模组110还可以由例如将来开发出的新的低功耗短距离通信技术实现，以通过装置100本身的小型化和低功耗，为其灵活布置创造条件。

在其他实施例中，语音装置100也可以包括功耗相对较低大且通常需要更强处理功能的WiFi通信模块，以便利用局域网与处理装置通信。当然，上述WiFi通信模块在某些实施例中也可用于进行短距离通信。

在语音装置100中，可以如上包括红外模组用于与处理装置进行短距离低功耗通信。在其他实施例中，还可以包括用于对目标设备施加操作的红外模组，或是将上述红外通信模组复用为命令施加模组。为此，红外模组可以用于对通信模组120从处理装置接收到的命令进行红外输出，以实现对与所述命令相对应的目标设备的操作。上述经由红外输出进行的操作尤其适用于针对传统目标设备，例如，采用红外遥控器控制的电视、空调等。用作红外遥控的红外模组可以基于操作所针对的具体设备，生成对应该设备接收频段的红外信号并加以发送。由此，该语音装置100还可用作万能红外遥控器。在其他实施例中，该语音装置还可以基于其他技术(例如，复用蓝牙通信装置)实现对目标设备的控制。

在一个实施例中，装置100还包括供电模组，包括但不限于：无线充电组件；电池组件；USB插口。由于装置100的语音采集和传输功能所需的能耗极小，因此装置100的耗电量也相对较小，适于采用无需电源线的供电结构。由此大幅提升了装置100本身的便携性与灵活性。

由于本发明的语音装置100适于实现为无需直连电源线的形式，因此装置100还可以包括：用于附着于墙面、处理装置、目标设备、或其他设施表面的附着机构。图2示出了实现为智能语音贴的一个例子。如图2所示，本发明的语音装置100例如可以包括磁铁或是静电吸附表面作为附着机构，以方便地吸附在其他设施的表面，例如图中的家用电器(例如，微波炉或烤箱)的侧壁。

为了进一步降低功耗，并避免误操作，本发明的语音装置100还优选地包括远程唤醒功能。在此，“远程唤醒”指可以通过特定的语音唤醒词把语音设备唤醒的方式。例如，市售的天猫精灵可以用唤醒词“天猫精灵”唤醒。具体地，装置100还可以包括唤醒模组，用于从来自用户的语音输入中识别出唤醒词。通信模组120则可以相应地在唤醒模组识别出唤醒词之后将采集到的语音输入发送给所述处理装置。例如，在唤醒词仅仅用来唤醒而不包括其他指令的情况下，通信模组120可以接收用户在说出唤醒词之后的语音输入并加以传输。而在唤醒词也包括指令的情况下，通信模组120可以接收用户的唤醒词本身及之后的语音输入并加以传输。由于唤醒模组可由限于的小型化低功耗DSP(数字信号处理)电路实现，因此远场唤醒功能的添加不会对装置100的小型化和低功耗特性造成实质性的影响。

在一个优选实施例中，本发明的语音装置100还可以包括扬声器，用于对所述通信模组从所述处理装置接收到的内容进行语音输出。由此，通过扬声器的引入，为与用户进行进一步的语音交互提供了可能。扬声器进行语音输出的内容包括如下至少一项：对执行命令的陈述内容；以及交互内容，例如，与用户的交互内容，以进一步获取缺失的语义要素。将在如下参考语音控制系统的说明中对语音交互进行详细描述。

为了控制装置100的体积，该扬声器可以采用小型化集成组件实现。进一步地，该装置100还可以包括外部音箱连接模组，以使得连接的外部音箱对所述通信模组从所述处理装置接收到的内容进行语音输出，从而提供比自带扬声器更为优质的音频输出。在一个实施例中，外部音箱连接模组可以经由有线或无线连接来与外部音箱相连。外部音箱连接模组可以是蓝牙通信模组，换句话说，用于与处理装置通信的蓝牙通信模组还可以复用为外部音箱连接模组。作为替换或者补充，外部音箱连接模组可以是包括音频接口的有线连接模组，例如，用于与传统音箱相连的3.5mm插孔。

图3示出了本发明一个智能语音贴的组成例。如图3所示，实现为智能语音贴300的语音装置可以包括MIC 310、实现为蓝牙和/或红外近距离通信模组320的通信模组、电池330和扬声器(SPK)340。该智能语音贴300例如还可以具有适于附加在任意合适附着表面的附着结构(如图3所示)。在其他实施例中，通信模组320也可以包括Zigbee通信模组。

具体地，MIC 310将接收到的用户语音转换成电信号，并将携带用户语音信息的上述电信号发送给BT/IR模组320。BT/IR模组320向处理装置发送上述用户的语音输入数据，以利用处理装置以及云端实现语义识别和相应操作命令生成。随后，BT/IR模组320还可以经由处理装置获取云端期望语音贴300输出给用户的内容数据，例如，与用户进行进一步交互或是报告操作结果的数据。BT/IR模组320可以将包括云端内容信息的上述电信号发送给SPK 340，并由后者进行电声转换语音报告给用户。

在不同的实施例中，TTS(语音合成)可由不同的主体实施。例如，云端可以直接下发经TTS的数据，或是可由处理装置或是智能语音贴300包括上述TTS模组。在一个实施例中，出于传输效率以及智能语音贴低功耗和小型化的考虑，优选由处理装置基于云端下发的内容进行语音合成，再将含有上述语音合成的信号传输给语音贴300，BT/IR模组320以电信号的信号传输上述信息，以供SPK直接进行电声转换。

图4示出了本发明一个语音装置的电路处理流程例。如图4所示，麦克风阵列接收外部的语音输入(例如，用户的语音)，并由带AEC(回声消除)功能的DSP(数字信号处理器)进行唤醒词识别。在识别出唤醒词后，经由带WiFi功能的系统级芯片或其上集成的红外或蓝牙(或蓝牙mesh)进行采集语音的发送，以及后续语音输出数据(例如，命令执行陈述或交互问题)。接收到的语音数据随后经编解码器(codec)进行TTS处理，再通过扬声器输出。期间，电源为语音装置的各个功能模块供能。

如前所述，本发明的语音装置可以与处理装置相结合，得到一种语音套件，用以实现本地操作所需的语音采集以及联网功能。图5示出了根据本发明一个实施例的语音套件的组成示意图。如图5所示，该语音套件500可以包括如上结合图1-4描述的语音装置510以及处理装置520。

该处理装置520包括与语音装置510通信连接的通信单元521，处理装置520经由其通信单元521接收所述语音装置采集到的语音数据，以实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。通信单元521可以适于与小型语音装置510的通信模组511相对应的通信模式进行通信，例如低功耗短距离通信。在一个实施例中，上述通信单元521适于蓝牙、Zigbee和/或红外技术与对应的通信模组511进行通信。

具体地，上述语义识别和操作命令的生成和下发可以在云端实现。为此，处理装置520可以包括联网单元522，用于将从语音装置510接收到的来自用户的语音数据上传至云端的服务端。联网单元522例如是利用WiFi和/或诸如4G和5G的移动通信技术接入互联网的模块。服务端可以进行针对所述语音输入的语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

在一些实施例中，上述语义识别和操作命令的生成和下发可以在本地实现。于是，服务端可以包括：与所述语音套件近距离通信的本地服务端，所述本地服务端用于针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。例如，本地服务端可以是用作家庭智能处理终端的智能音箱。由此，通过本地服务端提升语音命令的处理速度。在一个实施例中，上述本地服务端可以与云端服务器相连，整体组成本发明中的“服务端”。

基于不同的应用场景，套件可以包括布置在不同区域内的多个语音装置，并且每个处理装置与通信范围内的一个或多个所述小型化设备通信连接。例如，在家庭场景中，可以在不同的房间(例如，客厅、卧室、洗手间和厨房)中布置不同的语音贴，上述多个语音贴510可以在蓝牙通信范围内与一个处理装置520相连接，并由该套件中唯一的处理装置520实现与云端的联网。在其他实施例中，例如在公司场景中，则套件中可以包括多个处理装置，以负责数量更多的语音贴。在其他实施例中，处理装置520也可以作为目标设备(例如，智能家电)的外部模组，以执行针对该目标设备本身的联网操作。

根据不同的控制场景，可以基于不同的途径实现用户语音输入对目标设备的控制。例如，在不同的实施例中，目标设备可以直接从服务端接收下发的操作命令并执行与操作命令相对应的操作；和/或处理装置520经由其联网单元522接收服务端下发的操作命令，自行或经由语音装置510向目标设备下发操作命令。直接从服务端接收下发的操作命令并执行的目标设备可以包括自身联网的智能家电设备。经由所述处理装置520或语音装置510获取操作命令的目标设备则可包括传统家电设备。

例如，家中的运行的智能家电都已与控制服务端相连接。此时，针对智能家电的操作命令(例如，调低冰箱冷藏室温度)可由控制服务端直接下发。而对于需要使用对应红外编码控制的传统家电，服务端可以基于语义识别生成相应的操作命令(例如，关闭空调)，查找空调的红外操作编码，并发上述命令直接下发给上述用作万能红外遥控器的语音装置。在其他实施例中，上述红外操作的编码也可以在本地实施，例如在处理装置或语音装置处实施。

在语音装置510包括扬声器以进行语音输出的情况下，处理装置520还可以使用其联网单元522接收服务端下发的与用户的交互内容，并且通信单元521还用于将与用户的交互内容发送给所述语音装置，以供语音输出。上述交互的内容可以是对设备操作的确认(例如，“灯已打开”)、对必须语义要素的获取(例如，在识别出用户的“开灯”语音输入且范围内有不止一盏灯的情况下，进一步询问“开哪一盏灯”)、或是上述两者的结合(例如，“电视已打开，需要观看哪个频道)等。

在一个实施例中，处理装置520本身可以具备简单的语音识别和命令生成和下发功能。为此，处理装置520可以包括：语音识别单元，用于针对所述语音输入进行语义识别；以及操作命令生成单元，用于生成识别语义所对应的目标设备操作的操作命令。由此，使得本发明的套件不仅能够通过连接云端的服务端实现对复杂语义的理解，也能够针对简单输入迅速做出反映。

在一个实施例中，处理装置520本身可以是与云端服务端相连的智能音箱，或是其他本身也具有语音采集功能的装置。在此，语音装置510可以用作帮助该智能音箱在不同区域(例如，不方便直接对布置在客厅的智能音箱进行语音操作的厨房或是浴室区域)采集语音的入口。

进一步地，上述套件可以与服务端相结合，以实现一种语音控制系统。图6示出了根据本发明一个实施例的语音控制系统的组成示意图。如图6所示，系统600可以包括多个如上所述的语音套件610以及服务端620。在此，服务端620可以指代提供特定功能的服务端群。

每个语音套件610都可以包括至少一个语音装置和至少一个处理装置，例如，图示的三个语音装置和一个处理装置，并且语音装置和处理装置之间经由短距离低功耗通信手段(例如，图示的BT)进行通信。每个语音装置例如可以用于在不同区域内进行语音的收集和传送。

每个语音套件610通过处理装置的联网功能(例如，WiFi模块)与服务端620相连。服务端620可以对处理装置上传的语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

在一个实施例中，可由该服务端本身可以实现语义识别、操作命令生成和下发等的全部操作。于是，服务端620可以包括：用于对上传的语音输入进行语义识别的语义处理服务端；基于所述识别的语义生成针对目标识别操作的操作命令的命令生成服务端；以及下发操作命令的命令下发服务端。

在另一个实施例中，服务端620可以仅用于语义识别，或是针对部分目标设备的操作命令生成和下发。至少本发明目标设备的控制，可由外部服务端实现。这尤其适用于某一品牌的服务商对自己的智能设备提供远程操控功能的情况。由此，服务端620可以包括：用于对上传的语音输入进行语义识别的语义处理服务端，并且所述服务端将所述识别出的语义发送给外部服务端，其中所述外部服务端基于所述识别的语义生成针对目标识别操作的操作命令的命令生成服务端，以及下发所述操作命令的命令下发服务端。

在一个实施例中，服务端620可以预先获取如下至少一项本地设备配置信息。本地设备配置信息可以包括：语音装置、处理装置和/或至少部分目标设备自身的分布和设备信息；以及语音装置、处理装置和目标设备中至少两者之间的对应关系。由此，服务端620还可以基于本地设备配置信息自动补齐识别语义中执行针对目标设备的操作所缺失的语义要素。例如，基于语音贴所处位置浴室，自行明确“开灯”是开浴室中唯一的顶灯。

另外，本发明还可以实现为一种语音控制方法。图7示出了根据本发明一个实施例的语音控制方法的示意性流程图。该方法可由如上的语音装置、套件和系统实施。

在步骤S710，语音装置(例如，小型化语音贴)采集语音输入。在步骤S720，语音装置将语音输入发送给处理装置。在一个实施例中，上述发送可以是例如基于红外、蓝牙和/或Zigbee的短距离通信。

在步骤S730，所述处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成。在不同的实施例中，上述用于语义识别和命令生成的操作可以由不同的对象完成，例如，可由处理装置自身、本地服务端、远程服务端或其任意结合完成。

于是，在一个实施例中，在步骤S730，处理装置可以将所述语音输入发送至服务端，并使用服务端对语音输入的语义识别，以获取识别语义所对应的目标设备操作的操作命令。

在又一个实施例中，在步骤S730，服务端可以包括本地服务端，本地服务端可以针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。

在另一个实施例中，在步骤S730，所述处理装置针对至少部分所述语音输入进行语义识别，并生成识别语义所对应的目标设备操作的操作命令。

在一个实施例中，本发明的语音控制方法还可以包括：使用所述语音装置和/或所述处理装置获取识别语义所对应的目标设备操作的操作命令；以及所述语音装置和/或所述处理装置向所述目标设备下发所述操作命令。

在一个实施例中，本发明的语音控制方法还可以包括：所述处理装置获取下发语音输出内容；所述处理装置向所述语音装置下发所述语音输出内容；以及所述语音装置语音输出所述语音输出内容。

在一个实施例中，本发明的语音控制方法还可以包括：语音装置从来自用户的语音输入中识别出唤醒词。于是步骤S720可以包括：在识别出唤醒词之后将采集到的语音输入发送给所述处理装置。

在一个实施例中，本发明的语音控制方法还可以包括：服务端和/或获取了所述语义识别的外部服务端基于所述语义识别生成并下发识别语义所对应的目标设备操作的操作命令。

在一个实施例中，本发明的语音控制方法还可以包括：目标设备接收所述服务端和/或所述外部服务端下发的操作命令并执行与所述操作命令相对应的操作。相应地，目标设备接收所述服务端和/或所述外部服务端下发的操作命令并执行与所述操作命令相对应的操作可以包括如下的至少一项：所述目标设备从所述服务端或所述外部服务端直接接收下发的操作命令；所述处理装置经由所述联网单元接收所述服务端下发的操作命令，自行或经由所述语音装置向所述目标设备下发所述操作命令。

在一个实施例中，本发明的语音控制方法还可以包括：所述服务端获取所述操作命令的执行结果；所述服务端基于所述执行结果生成执行命令的陈述内容并将其下发至所述处理装置；所述处理装置向所述语音装置下发所述执行命令的陈述内容；以及所述语音装置语音输出所述执行命令的陈述内容。

在一个实施例中，本发明的语音控制方法还可以包括：所述服务端基于所述语义识别生成与用户交互的内容并将其下发至所述处理装置；所述处理装置向所述语音装置下发所述与用户交互的内容；以及所述语音装置语音输出所述与用户交互的内容。

在一个实施例中，本发明的语音控制方法还可以包括：所述服务端基于预先获取的本地设备配置信息自动补齐识别语义中执行针对目标设备的操作所缺失的语义要素。

在一个实施例中，本发明的语音控制方法中涉及的服务端可以是本地服务端，于是所述本地服务端可以针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。

图8示出了本发明一个语音控制的例子。如图所示，在本地采集和上传阶段，语音套件中的语音装置(以及，在某些实施例中，处理装置中的语音采集模块)监测来自用户或智能设备的语音命令输入，处理装置可以对采集的语音进行初步的处理，例如，进行ASR(语音识别)拾取，并将拾取的语音命令传输至云端。在云端处理阶段，服务端可以对拾取的语音命令进行后续处理，例如NIP(自然语音处理)和NIU(自然语音理解)，并根据处理结果，进行命令解析和TTS输出。在本地处理阶段，解析出的命令可以直接传输至目标设备出以供执行(例如，智能设备直接执行云端解析出的命令)，也可以例如在经由处理装置或语音装置的转换后由目标设备执行命令(例如，由语音装置针对传统家电设备发出的红外指令)。另外，在存在音频输出时，语音装置可以通过自带扬声器或是外连的蓝牙或传统音箱进行语音输出。

上文中已经参考附图详细描述了根据本发明的语音装置、语音套件和语音控制系统。在设备内部并入语音模组的现有技术开发周期长，成本高，需要每一个设备都要进行声学设计和调试。相比之下，本发明的模组化方案可以方便的集成至任何需要的设备。另外，本发明的套件使用方便，通过语音模组的小型化、便携化设计，使之可以方便地安放在各类表面上使用，适合多场景使用。进一步地，本发明的智能语音贴还可以通过附加红外模组实现万能红外遥控器功能，从而实现对传统红外设备的智能控制。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务端等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音控制系统，包括多个语音套件以及与所述语音套件通信的服务端，其中，所述语音套件包括：

语音装置，用于采集语音输入并将采集到的语音输入发送给处理装置；

处理装置，用于接收所述语音装置采集到的语音输入，并将所述语音输入上传至服务端，并且

所述服务端，用于对所述处理装置发送的所述语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

2.如权利要求1所述的系统，其中，所述语音装置将采集到的语音输入经由近距离通信发送给所述处理装置。

3.如权利要求2所述的系统，其中，所述语音套件包括布置在不同区域内的多个所述语音装置，并且每个处理装置与其近距离通信范围内的一个或多个所述语音装置通信连接。

4.如权利要求2所述的系统，其中，所述语音装置和所述处理装置各自包括彼此进行近距离通信的低功耗短距离通信模组，所述通信模组包括如下至少一种：

基于蓝牙技术与所述处理装置通信的蓝牙通信模组；

基于红外技术与所述处理装置通信的红外通信模组；

基于Zigbee技术与所述处理装置通信的Zigbee通信模组。

5.如权利要求1所述的系统，其中，所述处理装置经由远程通信将所述语音输入上传至所述服务端。

6.如权利要求5所述的系统，其中，所述处理装置还包括与所述服务端进行远程通信的WiFi模组。

7.如权利要求1所述的系统，其中，所述语音装置从采集到的语音输入中识别出唤醒词，在所述唤醒模组识别出唤醒词之后将采集到的语音输入发送给所述处理装置。

8.如权利要求1所述的系统，其中，所述语音装置经由自身扬声器或有线/无线连接的外接音箱，对从所述处理装置和/或目标设备接收到的内容进行语音输出。

9.如权利要求8所述的系统，其中，进行语音输出的内容包括如下至少一项：

对执行命令的陈述内容；以及

与用户的交互内容。

10.如权利要求1所述的系统，其中，所述语音装置还用于对所述处理装置接收到的命令进行红外输出，以实现对与所述命令相对应的目标设备的操作。

11.如权利要求1所述的系统，所述语音装置还包括用于附着于墙面、处理装置、目标设备、或其他设施表面的附着机构。

12.如权利要求1所述的系统，其中，所述处理装置用于针对至少部分所述语音输入进行语义识别，并生成识别语义所对应的目标设备操作的操作命令。

13.如权利要求1所述的系统，其中，

所述目标设备直接从所述服务端接收下发的操作命令并执行与所述操作命令相对应的操作；和/或

所述处理装置接收所述服务端下发的操作命令，自行或经由所述语音装置向所述目标设备下发所述操作命令。

14.如权利要求13所述的系统，其中，

直接从所述服务端接收下发的操作命令并执行的所述目标设备包括联网的智能家电设备；并且

经由所述处理装置或所述语音装置获取操作命令的所述目标设备包括传统家电设备。

15.如权利要求1所述的系统，其中，所述服务端包括：

用于对上传的语音输入进行语义识别的语义处理服务端；

基于所述识别的语义生成针对目标识别操作的操作命令的命令生成服务端；以及

下发所述操作命令的命令下发服务端。

16.如权利要求1所述的系统，其中，所述服务端包括：

与所述语音套件近距离通信的本地服务端，所述本地服务端用于针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。

17.如权利要求1所述的系统，其中，所述服务端包括：

用于对上传的语音输入进行语义识别的语义处理服务端，并且

所述服务端将所述识别出的语义发送给外部服务端，其中

所述外部服务端基于所述识别的语义生成针对目标识别操作的操作命令的命令生成服务端，以及下发所述操作命令的命令下发服务端。

18.如权利要求1所述的系统，其中，所述服务端预先获取如下至少一项本地设备配置信息：

所述语音装置、所述处理装置和/或至少部分目标设备自身的分布和设备信息；

所述语音装置、所述处理装置和目标设备中至少两者之间的对应关系。

19.如权利要求18所述的系统，其中，所述服务端基于所述本地设备配置信息自动补齐识别语义中执行针对目标设备的操作所缺失的语义要素。

20.一种语音套件，包括：

处理装置，包括与所述语音装置通信连接的通信单元，所述处理装置经由所述通信单元接收所述语音装置采集到的语音数据，以实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

21.如权利要求20所述的套件，其中，所述语音装置和所述处理装置各自包括彼此进行近距离通信的低功耗短距离通信模组，所述通信模组包括如下至少一种：

基于蓝牙技术与所述处理装置通信的蓝牙通信模组；

基于红外技术与所述处理装置通信的红外通信模组；以及

基于Zigbee技术与所述处理装置通信的Zigbee通信模组。

22.如权利要求20所述的套件，其中，所述处理装置还包括：

联网单元，用于将从所述语音装置接收到的来自用户的语音数据上传至服务端，其中，所述服务端进行针对所述语音输入的语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

23.如权利要求20所述的套件，其中，所述处理装置包括：

语音识别单元，用于针对所述语音输入进行语义识别；以及

操作命令生成单元，用于生成识别语义所对应的目标设备操作的操作命令。

24.如权利要求20所述的套件，其中，所述处理装置经由所述联网单元接收所述服务端下发的操作命令，自行或经由所述语音装置向所述目标设备下发所述操作命令。

25.如权利要求20所述的套件，其中，所述联网单元还用于：

接收所述服务端下发的交互内容，以及

所述通信单元还用于：

将所述交互内容发送给所述语音装置，以供语音输出。

26.如权利要求20所述的套件，其中，所述语音套件包括布置在不同区域内的多个所述语音装置，并且每个处理装置与通信范围内的一个或多个所述语音装置通信连接。

27.一种语音装置，包括：

麦克风，用于采集语音输入；

通信模组，用于将采集到的语音输入发送给处理装置，以通过所述处理装置实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

28.如权利要求27所述的语音装置，还包括：

唤醒模组，用于从语音输入中识别出唤醒词，并且

所述通信模组用于在所述唤醒模组识别出唤醒词之后将采集到的语音输入发送给所述处理装置。

29.如权利要求27所述的语音装置，还包括：

扬声器，用于对所述通信模组从所述处理装置和/或所述目标设备接收到的内容进行语音输出。

30.如权利要求29所述的语音装置，其中，所述语音输出的内容包括如下至少一项：

对执行命令的陈述内容；以及

与用户的交互内容。

31.如权利要求27所述的语音装置，还包括：

经由近距离无线连接和/或有线连接与外部音箱相连的外部音箱连接模组，以使得所述外部音箱对所述通信模组从所述处理装置和/或所述目标设备接收到的内容进行语音输出。

32.如权利要求27所述的语音装置，还包括：

红外模组，用于对所述通信模组从所述处理装置接收到的命令进行红外输出，以实现对与所述命令相对应的目标设备的操作。

33.如权利要求27所述的语音装置，其中，所述通信模组是低功耗短距离通信模组，并且包括如下至少一种：

基于蓝牙技术与所述处理装置通信的蓝牙通信模组；

基于红外技术与所述处理装置通信的红外通信模组；以及

基于Zigbee技术与所述处理装置通信的Zigbee通信模组。

34.如权利要求27所述的语音装置，还包括：

供电模组，所述供电模组包括如下至少一项：

无线充电组件；

电池组件；

USB插口。

35.如权利要求27所述的语音装置，还包括：

用于附着于墙面、处理装置、目标设备、或其他设施表面的附着机构。

36.一种语音控制方法，包括：

语音装置采集语音输入；

所述语音装置将所述语音输入发送给处理装置；

所述处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成。

37.如权利要求36所述的方法，其中，所述语音装置将所述语音输入发送给处理装置包括：

所述语音装置经由近距离通信将所述语音输入发送给处理装置。

38.如权利要求36所述的方法，其中，所述处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成包括：

所述处理装置将所述语音输入上传至服务端；

所述服务端对所述语音输入的语义识别，以获取识别语义所对应的目标设备操作的操作命令。

39.如权利要求38所述的方法，其中，所述处理装置将所述语音输入上传至服务端包括：

所述处理装置将所述语音输入经近距离通信上传至本地服务端。

40.如权利要求39所述的方法，其中，所述服务端对所述语音输入的语义识别，以获取识别语义所对应的目标设备操作的操作命令包括：

所述本地服务端针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。

41.如权利要求36所述的方法，其中，所述处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成包括：

所述处理装置针对至少部分所述语音输入进行语义识别，并生成识别语义所对应的目标设备操作的操作命令。

42.如权利要求36所述的方法，还包括：

使用所述语音装置和/或所述处理装置获取识别语义所对应的目标设备操作的操作命令；以及

所述语音装置和/或所述处理装置向所述目标设备下发所述操作命令。

43.如权利要求36所述的方法，还包括：

所述处理装置获取下发语音输出内容；

所述处理装置向所述语音装置下发所述语音输出内容；以及

所述语音装置语音输出所述语音输出内容。