CN113053371A

CN113053371A - 语音控制系统和方法、语音套件、骨传导及语音处理装置

Info

Publication number: CN113053371A
Application number: CN201911378410.9A
Authority: CN
Inventors: 李滨海
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-06-29

Abstract

公开了一种语音控制系统和方法、以及相应地语音套件、骨传导及语音处理装置。所述语音控制系统，包括语音套件以及与语音套件通信的服务端，语音套件包括：骨传导装置，基于骨传导采集用户的语音输入并将采集到的语音输入发送给语音处理装置；语音处理装置，用于接收所述骨传导装置采集到的语音输入，并将所述语音输入上传至服务端，所述服务端，用于对所述语音处理装置发送的所述语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。本发明通过骨传导传感器有效解决麦克风通过空气传播接收信号易受干扰的问题，确保设备只能被使用者唤醒，同时增强语音指令识别准确度，提高设备使用者的智能语音操作体验。

Description

语音控制系统和方法、语音套件、骨传导及语音处理装置

技术领域

本发明涉及信息技术领域，尤其涉及一种语音控制系统和方法、以及相应地语音套件、骨传导及语音处理装置。

背景技术

随着智能技术的普及与发展，用语音实现对各类设备的控制业已成为标配。例如，在现有技术中，语音控制可以通过作为家中控制节点的智能音箱或是自身带有语音交互功能的电器本身来实现。

现有的智能语音设备通常使用麦克风接收语音指令。然而利用麦克风接收语音指令无法屏蔽非设备使用者的语音指令，并且在环境噪声较大时难以准确识别语音指令。

为此，需要一种稳妥准确的语音控制方案。

发明内容

为了解决上述至少一个问题，本发明提出了一种利用骨传导装置作为语音采集入口，将其发送至语音处理装置，后者在经由本地或云端实现语义解析和对应命令下发，由此方便对各类设备进行准确控制的方案。

根据本发明的第一方面，提出了一种语音控制系统，包括语音套件以及与所述语音套件通信的服务端，其中，所述语音套件包括：骨传导装置，基于骨传导采集用户的语音输入并将采集到的语音输入发送给语音处理装置；语音处理装置，用于接收所述骨传导装置采集到的语音输入，并将所述语音输入上传至服务端，所述服务端，用于对所述语音处理装置发送的所述语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

根据本发明的第二方面，提出了一种语音套件，包括：骨传导装置，基于骨传导采集语音输入并将采集到的语音输入发送给语音处理装置；语音处理装置，包括与所述骨传导装置通信连接的通信单元，所述语音处理装置经由所述通信单元接收所述骨传导装置采集到的语音数据，以实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

根据本发明的第三方面，提出了一种骨传导装置，包括：骨传导传感器，用于经由骨传导采集用户的语音输入；骨传导扬声器，用于将从语音处理装置和/或目标设备接收到的内容经由骨传导送入用户耳道；通信模组，用于将采集到的语音输入发送给所述语音处理装置，以通过所述语音处理装置实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

根据本发明的第四方面，提出了一种语音处理装置，包括：通信单元，用于接收所述骨传导装置采集到的语音数据；以及联网单元，用于将从所述骨传导装置接收到的来自用户的语音数据上传至服务端，其中，所述服务端和/或所述语音处理装置进行针对所述语音输入的语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

根据本发明的第五方面，提出了一种语音控制方法，包括：骨传导装置采集语音输入；所述骨传导装置将所述语音输入发送给语音处理装置；所述语音处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令的生成。

本发明利用声波骨传导原理，通过骨传导传感器有效解决麦克风通过空气传播接收信号易受干扰的问题，确保设备只能被使用者唤醒，同时增强语音指令识别准确度，从而提高设备使用者智能语音操作体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明一个实施例的骨传导装置的组成示意图。

图2示出了佩戴骨传导装置的一个例子。

图3示出了本发明一个骨传导装置的组成例。

图4示出了根据本发明一个实施例的语音套件的组成示意图。

图5示出了本发明语音套件采集语音输入的例子。

图6示出了根据本发明一个实施例的语音控制系统的组成示意图。

图7示出了根据本发明一个实施例的语音控制方法的示意性流程图。

图8示出了本发明一个语音控制的处理流程例。

图9示出了本发明的智能语音可穿戴设备的工作示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

如上所述，现有的智能语音设备利用麦克风接收语音指令，通常无法屏蔽非设备使用者的语音指令，并且在环境噪声较大时难以准确识别语音指令。为此，提出了一种利用骨传导装置作为语音采集入口，并经由本地通信将其发送至语音处理装置，后者在经由本地或云端实现语义解析和对应命令下发，由此方便对各类设备进行准确控制的方案。

骨传导是一种声音传导方式，即通过将声音转化为不同频率的机械振动，通过人的颅骨、骨迷路、内耳淋巴液传递、螺旋器、听神经、听觉中枢来传递声波。相对于通过振膜产生声波的经典声音传导方式，骨传导省去了许多声波传递的步骤，能在嘈杂的环境中实现清晰的声音还原，而且声波也不会因为在空气中扩散而影响到他人。

骨传导技术分为骨传导扬声器技术和骨传导麦克风技术。骨传导扬声器技术用于听取声音。气导扬声器是把电信号转化为的声波(振动信号)传至听神经。而骨传导扬声器则是电信号转化的声波(振动信号)直接通过骨头传至听神经。骨传导麦克风技术用于收集声音。气导送话是声波通过空气传至麦克风，骨传导送话则直接通过骨头传递。骨传导麦克风是一种非声传感器，下文中也可称为骨传导传感器。人说话时声带振动会传递到喉头和头骨，为骨传导传感器通过采集这种振动信号并转换为电信号来获得语音。背景噪声很难对这类非声传感器产生影响，所以骨导语音从声源处就屏蔽了噪声，因此尤其适用于强噪声环境下的语音通信。

图1示出了根据本发明一个实施例的骨传导装置的组成示意图。如图1所示，骨传导装置100可以包括骨传导传感器110和通信模组120。骨传导传感器110用于经由骨传导采集用户的语音输入。通信模组120则用于将采集到的语音输入发送给语音处理装置，以基于该语音处理装置实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。如下所述，目标设备可以是语音处理装置本身，也可以是语音处理装置之外的其他智能设备或是传统家电设备。

骨传导装置可以结合语音处理装置构成一种语音套件(如下图4所示)。在此，“套件”指代协助作用以实现特定功能的一组装置。在本发明中，骨传导装置由于需要直接从喉头和头骨采集振动信号，因此需要用户直接佩戴。在一个实施例中，骨传导装置可以实现为一个独立的骨传导耳机。图2示出了佩戴骨传导装置的一个例子。如图所示，用户喉部声带振动发声。声音沿着实线标示经空气向外传播，同时沿着虚线标示经骨头体内传播。此时，骨传导装置就可以利用骨传导传感器110对振动信号进行采集，将其转换成电信号，并送至通信模组120。语音处理装置则汇总骨传导装置采集的上述语音信息，经由本地和/或云端的语义处理功能，实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

在不同的实现中，套件中的骨传导装置和语音处理装置可以有不同程度的交互。在一个实施例中，骨传导装置和语音处理装置可以被布置在同一物理设备内。例如，语音套件可以实现为一种可穿戴智能设备，例如，智能蓝牙耳机、智能VR/AR头盔、智能眼镜等。此时，骨传导装置和语音处理装置可以实现为该智能设备的不同功能单元，并通过设备内的通信总线(可以看作是特殊情况下的通信模组120)等进行信号传递。在一个实施例中，骨传导装置和语音处理装置也可以是经由有线或无线连接的套件。例如，经由蓝牙或其他短距离通信连接的骨传导耳机和实现为智能音箱或是智能手机的语音处理装置，或是有线连接的骨传导耳机和身上佩戴的处理盒等。在另一个实施例中，骨传导装置和语音处理装置还可以是可拆卸的套件。根据不同的使用场景，两装置可以组合为一个设备，也可以在需要时拆分成两个独立设备使用。

在涉及云端语义识别和命令下发的情况下，上述语音套件还可以与服务端相结合构成一种语音控制系统(如下图5所示)。服务端可以是与语音套件经由短距离通信的本地服务端，或者是可以与多个语音套件中的语音处理装置远程通信，以分别为其提供云端的语义识别、命令生成和下发功能的远程服务端(例如，服务器群)。

返回图1，骨传导传感器是一种将声音转换成电信号的换能器。如图所示，骨传导传感器110可以采集用户喉部发出并经骨头传导的振动信号，将其转换为包含用户声音信息的电信号，并发送给通信模组120。通信模组120则可以将包含用户信息的电信号，作为用户的语音输入数据发送给语音处理装置，用于后续的语音输入的语义识别以及识别语义所对应的目标设备操作。由此，骨传导装置100可以通过仅保留最为简单的语义采集和通信功能，实现低功耗和小型化，以方便用户对其的佩戴。

为了实现小型化和低功耗，通信模组110可以是低功耗的近距离通信模组。在此“近距离通信”指代通信距离通常在几百米范围之内的短距离无线通信。在一个实施例中，通信模组110可以是基于蓝牙技术与语音处理装置通信的蓝牙(Bluetooth，BT)通信模组，例如，基于蓝牙Mesh方案的通信模组。在另一个实施例中，通信模组110可以是基于红外技术与所述语音处理装置通信的红外(Infrared，IR)通信模组，例如，高速红外传输模组。在一个实施例中，通信模组110可以基于Zigbee技术与所述语音处理装置通信的Zigbee通信模组。在其他实施例中，通信模组110也可以使用BT和IR的组合。应该理解的是，本发明的通信模组110还可以由例如将来开发出的新的低功耗短距离通信技术实现，以通过装置100本身的小型化和低功耗，为其方便佩戴创造条件。

在其他实施例中，骨传导装置100也可以包括功耗相对较大且通常需要更强处理功能的WiFi通信模块，以便利用局域网与语音处理装置通信。当然，上述WiFi通信模块在某些实施例中也可用于进行短距离通信。

通常情况下，本发明的骨传导装置100还包括骨传导扬声器，用于对所述通信模组从所述语音处理装置接收到的内容进行语音输出。通过扬声器的引入，为与用户进行进一步的语音交互提供了可能。扬声器进行语音输出的内容包括如下至少一项：对执行命令的陈述内容；以及交互内容，例如，与用户的交互内容，以进一步获取缺失的语义要素。将在如下参考语音控制系统的说明中对语音交互进行详细描述。在一个更为广泛的应用中，骨传导装置100可以实现为骨传导耳机，至少是带有骨传导声音播放功能的设备，此时，骨传导扬声器还可以用于输出执行命令的结果内容，例如，当用户使用骨传导耳机听歌时，可以通过语音进行播放控制，并进行相应的播放，例如，在接收到“跳过这首歌”的语音命令时，将下一首歌作为执行命令的结果内容仅播放。

在一个实施例中，装置100还包括供电模组，包括但不限于：无线充电组件；电池组件；USB插口。由于装置100的语音采集和传输功能所需的能耗极小，日常如用于音乐播放等所需的能耗也较低，因此装置100的耗电量也相对较小，适于采用无需电源线的供电结构。由此大幅提升了装置100本身的便携性与灵活性。

为了降低功耗，并避免误操作，本发明的骨传导装置100还优选地包括远程唤醒功能。在此，“远程唤醒”指可以通过特定的语音唤醒词把语音设备唤醒的方式。例如，市售的天猫精灵可以用唤醒词“天猫精灵”唤醒。具体地，装置100还可以包括唤醒模组，用于从来自用户的语音输入中识别出唤醒词。通信模组120则可以相应地在唤醒模组识别出唤醒词之后将采集到的语音输入发送给所述语音处理装置。例如，在唤醒词仅仅用来唤醒而不包括其他指令的情况下，通信模组120可以接收用户在说出唤醒词之后的语音输入并加以传输。换句话说，骨传导装置100的智能语音交互功能由唤醒词唤醒，并在随后才开启向语音处理装置的语音输入传输。而在唤醒词也包括指令的情况下，通信模组120可以接收用户的唤醒词本身及之后的语音输入并加以传输。由于唤醒模组可由限于的小型化低功耗DSP(数字信号处理)电路实现，因此远场唤醒功能的添加不会对装置100的小型化和低功耗特性造成实质性的影响。如果骨传导装置100不包括唤醒模组，则可以一直开启从骨传导装置向语音处理装置的语音输入传输功能，并由语音处理装置使用其配备的唤醒模组进行相应唤醒词的识别和语音交互功能的开启。

图3示出了本发明一个骨传导装置的组成例。如图3所示，实现为图2所示骨传导耳机300的骨传导装置可以包括骨传导传感器310、实现为蓝牙和/或红外近距离通信模组320的通信模组、电池330和骨传导扬声器340。该智能语音贴300例如还可以具有适于附加在任意合适附着表面的附着结构(如图3所示)。在其他实施例中，通信模组320也可以包括Zigbee通信模组。

具体地，骨传导传感器310将接收到的用户语音导致的振动转换成电信号，并将携带用户语音信息的上述电信号发送给BT/IR模组320。BT/IR模组320向语音处理装置发送上述用户的语音输入数据，以利用语音处理装置以及云端实现语义识别和相应操作命令生成。随后，BT/IR模组320还可以经由语音处理装置获取云端期望骨传导耳机300输出给用户的内容数据，例如，与用户进行进一步交互或是报告操作结果的数据，或是在通话或音乐播放场景下的通话或音乐数据。BT/IR模组320可以将包括云端内容信息的上述电信号发送给骨传导扬声器340，并由后者进行电信号转换成可理解语音的骨振动，以使得用户听到上述内容。

在不同的实施例中，TTS(语音合成)可由不同的主体实施。例如，云端可以直接下发经TTS的数据，或是可由语音处理装置或是骨传导耳机300包括上述TTS模组。在一个实施例中，出于传输效率以及低功耗和小型化的考虑，优选由语音处理装置基于云端下发的内容进行语音合成，再将含有上述语音合成的信号传输给骨传导耳机300，BT/IR模组320以电信号的信号传输上述信息，以供扬声器直接进行电振转换。应该了解的是，在其他实施例中，图3所示的骨传导装置也可以实现为其他包括骨传导和信息收发功能的设备，例如，智能头盔等。

另外，该骨传导装置还可以包括其他的传感器装置(如下将详述)，用于采集场景或动作信息，并且所述骨传导装置基于采集的所述场景或动作信息开启或关闭语音输入采集功能。

如前所述，本发明的骨传导装置可以与语音处理装置相结合，得到一种语音套件，用以实现本地操作所需的语音采集以及联网功能。图4示出了根据本发明一个实施例的语音套件的组成示意图。如图4所示，该语音套件400可以包括如上结合图1-3描述的骨传导装置410以及语音处理装置420。

该语音处理装置420包括与骨传导装置410通信连接的通信单元421，语音处理装置420经由其通信单元421接收所述骨传导装置采集到的语音数据，以实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。通信单元421可以适于与小型骨传导装置410的通信模组411相对应的通信模式进行通信，例如低功耗短距离通信。在一个实施例中，上述通信单元421适于蓝牙、Zigbee和/或红外技术与对应的通信模组411进行通信。

具体地，上述语义识别和操作命令的生成和下发可以在云端实现。为此，语音处理装置420可以包括联网单元422，用于将从骨传导装置410接收到的来自用户的语音数据上传至云端的服务端。联网单元422例如是利用WiFi和/或诸如4G和5G的移动通信技术接入互联网的模块。服务端可以进行针对所述语音输入的语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

在一些实施例中，上述语义识别和操作命令的生成和下发可以在本地实现。于是，服务端可以包括：与所述语音套件近距离通信的本地服务端，所述本地服务端用于针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。例如，本地服务端可以是用作家庭智能处理终端的智能音箱。由此，通过本地服务端提升语音命令的处理速度。在一个实施例中，上述本地服务端可以与云端服务器相连，整体组成本发明中的“服务端”。

基于不同的应用场景，套件除了骨传导装置410以及语音处理装置420之外，还可以包括其他装置，例如布置在不同区域内的多个智能语音贴，并且每个智能语音贴与通信范围内的一个或多个所述小型化设备通信连接。例如，在家庭场景中，可以在不同的房间(例如，客厅、卧室、洗手间和厨房)中布置不同的语音贴，上述多个语音贴410可以在蓝牙通信范围内与一个语音处理装置420相连接，并由该套件中唯一的语音处理装置420实现与云端的联网，由此实现更为全面的套件控制。

根据不同的控制场景，可以基于不同的途径实现用户语音输入对目标设备的控制。例如，在不同的实施例中，目标设备可以直接从服务端接收下发的操作命令并执行与操作命令相对应的操作；和/或语音处理装置420经由其联网单元422接收服务端下发的操作命令，并向目标设备下发操作命令。直接从服务端接收下发的操作命令并执行的目标设备可以包括自身联网的智能家电设备。经由所述语音处理装置520获取操作命令的目标设备可以包括智能家电设备，也可包括传统家电设备，例如，经由套件内具有控制传统家电的红外控制功能的装置。

例如，家中的运行的智能家电都已与控制服务端相连接。此时，针对智能家电的操作命令(例如，调低冰箱冷藏室温度)可由控制服务端直接下发。而对于需要使用对应红外编码控制的传统家电，服务端可以基于语义识别生成相应的操作命令(例如，关闭空调)，查找空调的红外操作编码，并发上述命令直接下发给用作万能红外遥控器的例如语音贴装置。在其他实施例中，上述红外操作的编码也可以在本地实施，例如在语音处理装置处实施。

在骨传导装置410包括扬声器以进行语音输出的情况下，语音处理装置420还可以使用其联网单元422接收服务端下发的与用户的交互内容，并且通信单元421还用于将与用户的交互内容发送给所述骨传导装置，以供语音输出。上述交互的内容可以是对设备操作的确认(例如，“灯已打开”)、对必须语义要素的获取(例如，在识别出用户的“开灯”语音输入且范围内有不止一盏灯的情况下，进一步询问“开哪一盏灯”)、或是上述两者的结合(例如，“电视已打开，需要观看哪个频道)等。

在一个实施例中，语音处理装置400本身可以具备简单的语音识别和命令生成和下发功能。为此，语音处理装置420可以包括：语音识别单元，用于针对所述语音输入进行语义识别；以及操作命令生成单元，用于生成识别语义所对应的目标设备操作的操作命令。由此，使得本发明的套件不仅能够通过连接云端的服务端实现对复杂语义的理解，也能够针对简单输入迅速做出反映。

在一个实施例中，语音处理装置420本身可以是与云端服务端相连的智能音箱，或是其他本身也具有语音采集功能的装置。在此，骨传导装置410可以用作帮助该智能音箱在例如嘈杂环境下采集语音的智能助手。

在某些实施例中，语音套件400的语音交互功能可以基于唤醒模组对唤醒词的识别而开启。在一个实施例中，骨传导装置410包括唤醒模组，在唤醒模组从所述语音输入识别出唤醒词之后将采集到的语音输入发送给语音处理装置420。换句话说，骨传导装置410可以仅在语音交互功能被开启之后，才开始向语音处理装置420发送经由骨传导采集的语音，而非一直进行用户语音的采集和传导，由此避免骨传导装置不必要的功耗。作为替换或者补充，语音处理装置420包括唤醒模组，在所述唤醒模从所述语音输入识别出唤醒词之后将接收到的语音输入上传至所述服务端。换句话说，语音处理装置420可以仅在语音交互功能被开启之后，才开始向服务器发送经由骨传导采集的语音，而非一直进行用户语音的采集和传导，由此避免不必要的功耗。

在通常情况下，语音处理装置420自身也可以包括语音采集装置，例如内置的麦克风或无线连接的语音贴等。图5示出了本发明语音套件采集语音输入的例子。

与图4类似，图5所示的语音套件500可以包括骨传导装置510以及语音处理装置520。框510内示出了用户佩戴的骨传导装置510对于虚线标示下振动传导的采集和发送。通信模组511与语音处理装置520的通信单元521通信连接，语音处理装置520经由其通信单元521接收所述骨传导装置采集到的语音数据，以实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。同样地，语音处理装置520可以包括联网单元522，用于将从骨传导装置510接收到的来自用户的语音数据上传至云端的服务端，以进行语义识别和操作命令的生成和下发。

不同于图4，图5所示的语音处理装置520还包括麦克风(MIC)523。MIC 523可以用于采集用户语音经空气传播的信号作为第二语音输入。语音处理装置520可以经由其联网单元522将所述第二语音输入上传至服务端。服务端则可用于对第二语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的第二操作命令。

换句话说，在语音处理装置也具有语音采集装置(例如，图5所示的MIC 523)的情况下，可以同时经由骨传导装置510的骨传导采集和麦克风的空气传导采集。于是，通过将骨传导采集的语音输入与空气传导采集的第二语音输入进行比对，可以从更多个层面获取信息，以方便更为准确的识别用户意图并进行更为恰当的反馈。在某些实施例中，服务端可以基于所述语音输入和所述第二语音输入的比对，生成并下发所述操作命令和/或第二操作命令。

可以基于所述语音输入和所述第二语音输入的比对，生成当前环境信息，判断多人交互场景，和/或对所述第二语音输入进行滤除无关信息的处理。上述这些处理可由语音处理装置520在本地进行，或者上传云端执行，并且服务器可以在上述处理的基础上生成所述第二操作命令。

由于骨传导采集的语音输入更加准确，并且可以避免对特定用户之外的其他语音的误采集，因此语音处理装置520可以仅基于从骨传导采集语音输入识别出的唤醒词，开启语音控制操作。换句话说，MIC 523采集到的唤醒词要跟通信单元521接收到的唤醒词一致，才能唤醒语音控制操作。

作为替换和补充，在后续的语音交互过程中，如果经比对发现空气传导采集的第二语音输入包括骨传导采集的语音输入波形以及其他波形，可以判断当前环境信息嘈杂，并由此例如降低第二语音输入的置信度。

另外，如果经比对发现空气传导采集的第二语音输入包括骨传导采集的语音输入波形以及来自其他用户的输入波形，则可以判断多人参与语音交互的场景，并例如在后台启动应对多人交互的脚本，从而方便给出更为确切的反馈。

进一步地，还可以通过比对发现例如第二语音输入中的无关信息，例如，背景音乐、电视或是闲聊声，则能够对所述第二语音输入进行滤除无关信息的处理，以方便基于经处理所述第二语音输入生成所述第二操作命令。

进一步地，上述套件可以与服务端相结合，以实现一种语音控制系统。图6示出了根据本发明一个实施例的语音控制系统的组成示意图。如图6所示，系统600可以包括多个如上所述的语音套件610以及服务端620。在此，服务端620可以指代提供特定功能的服务器群，例如，提供云端语音交互服务的服务器群。

至少部分的语音套件610可以包括骨传导装置和语音处理装置。其他语音套件可以包括语音处理装置和其他语音交互装置，例如语音贴。用作语音采集入口的骨传导装置和语音贴可以经由短距离低功耗通信手段(例如，图示的BT)与语音处理装置进行通信。

语音套件610可以通过语音处理装置的联网功能(例如，WiFi模块)与服务端620相连。服务端620可以对语音处理装置上传的语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

在一个实施例中，可由该服务端本身可以实现语义识别、操作命令生成和下发等的全部操作。于是，服务端620可以包括：用于对上传的语音输入进行语义识别的语义处理服务端；基于所述识别的语义生成针对目标识别操作的操作命令的命令生成服务端；以及下发操作命令的命令下发服务端。

在另一个实施例中，服务端620可以仅用于语义识别，或是针对部分目标设备的操作命令生成和下发。至少本发明目标设备的控制，可由外部服务端实现。这尤其适用于某一品牌的服务商对自己的智能设备提供远程操控功能的情况。由此，服务端620可以包括：用于对上传的语音输入进行语义识别的语义处理服务端，并且所述服务端将所述识别出的语义发送给外部服务端，其中所述外部服务端基于所述识别的语义生成针对目标识别操作的操作命令的命令生成服务端，以及下发所述操作命令的命令下发服务端。

在一个实施例中，服务端620可以预先获取如下至少一项本地设备配置信息。本地设备配置信息可以包括：骨传导装置、语音处理装置和/或至少部分目标设备自身的分布和设备信息；以及骨传导装置、语音处理装置和目标设备中至少两者之间的对应关系。由此，服务端620还可以基于本地设备配置信息自动补齐识别语义中执行针对目标设备的操作所缺失的语义要素。

由于语音输入的采集需要设备监听声音信息，例如保持声音采集装置(例如，骨传导传感器)和远程唤醒模块，以及用于本地解析或是远程上传的模块激活，因此上述功能相当耗电。为此，出于合理控制电力消耗的考虑，可以仅在特定场景或动作下开启骨传导装置，甚至语音处理装置的语音输入采集功能。

在一个实施例中，骨传导装置可以基于场景信息，开启或关闭语音输入采集功能。作为替换或者补充，所述语音处理装置可以基于场景信息，开启或关闭第二语音输入采集功能。在不同的实现场景中，骨传导装置和语音处理装置各自语音采集功能的开关可以相对独立或彼此相关，本发明对此不作限制。在此，场景信息包括如下至少一项：基于所述骨传导装置上传感器采集的信号所确定的场景信息；基于所述语音处理装置传感器采集的信号所确定的场景信息；基于所述语音处理装置上关联功能所确定的场景信息；以及基于所述语音输入和所述第二语音输入的比对所确定的场景信息。

具体而言，骨传导装置上配置的骨传导传感器可以在初次接收到语音震动时，判定用户开始佩戴骨传导传感器并说话(即，获取佩戴场景信息)，并据此开启自身的语音输入采集功能。在其他实施例中，骨传导装置还可以设置有其他传感器，比如运动传感器(例如，加速度传感器)、温度传感器或红外传感器，并根据上述传感器所采集的信号判定场景(例如，佩戴场景)，并据此开启语音输入采集功能。例如，加速度传感器可以通过对佩戴动作的识别、温度传感器可以通对人体温度的识别、红外传感器能够通过对贴耳的识别来判定佩戴场景并开启语音输入采集功能。

另外，语音处理装置也可以用来获取场景信息。语音处理装置例如也可以根据自身设置的麦克风或其他传感器来确定场景信息，并相应地确定自身或是骨传导装置的语音采集功能的开启或关闭。更进一步地，由于语音处理装置(例如，智能手机或智能音箱)具有更强的处理能力和更多的功能，因此优选地能够从传感之外的其他途径获取场景信息，例如，基于联功能所确定的场景信息。举例而言，用户正使用智能手机上安装的地图APP的公交查询和到站提醒功能，由此用作语音处理装置的智能手机可以判定用户出于公共交通出现的嘈杂环境场景，此时可以单独激活更容易在嘈杂环境下准确采集语音的骨传导装置的语音采集功能。另外，在用户开启了智能手机的跑步GPS记录功能时，同样可以单独激活更容易在跑步状态下准确采集语音的骨传导装置的语音采集功能。

跟进一步地，在骨传导装置和语音处理装置的语音输入采集功能都被开启的情况下，还可以基于采集到的语音输入和第二语音输入的比对，确定的场景信息，并相应地关闭其一或两者的语音输入采集功能。例如，当语音输入和第二语音输入相差无几时，可以判定语音处理装置的麦克风就能够很好的采集语音输入，此时可以关闭骨传导装置的采集功能以避免不必要的电力消耗。

另外，骨传导装置的语音输入采集功能还可以基于对其自身的操作开启，例如，针对骨传导装置被佩戴的操作，以及针对所述骨传导装置的特定动作。举例而言，可以基于佩戴骨传导装置的用户的头部动作(例如，左右晃动)或是手部动作(例如，敲击骨传导装置的特定位置)来激活或是关闭其语音采集功能。

上述基于场景或动作的功能开启可以与针对目标设备的远程控制相结合。例如，在嘈杂或是运动场景中开启骨传导装置的语音输入采集功能，并由此经由语音处理装置的中转上传和服务端的处理，实现对目标设备的远程控制。

本发明还可以实现为一种语音处理装置，包括：通信单元，用于接收所述骨传导装置采集到的语音数据；以及联网单元，用于将从所述骨传导装置接收到的来自用户的语音数据上传至服务端，其中，所述服务端和/或所述语音处理装置进行针对所述语音输入的语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

进一步地，语音处理装置可以包括：语音采集装置，用于采集第二语音输入，以实现针对所述第二语音输入的语义识别以及识别语义所对应的目标设备第二操作。所述语音处理装置可以基于从骨传导采集的语音输入识别出的唤醒词，开启语音控制操作。

另外，本发明还可以实现为一种语音控制方法。图7示出了根据本发明一个实施例的语音控制方法的示意性流程图。该方法可由如上的骨传导装置、套件和系统实施。

在步骤S710，骨传导装置(例如，骨传导耳机)采集语音输入。在步骤S720，骨传导装置将语音输入发送给语音处理装置。在一个实施例中，上述发送可以是例如基于红外、蓝牙和/或Zigbee的短距离通信。

在步骤S730，所述语音处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成。在不同的实施例中，上述用于语义识别和命令生成的操作可以由不同的对象完成，例如，可由语音处理装置自身、本地服务端、远程服务端或其任意结合完成。

于是，在一个实施例中，在步骤S730，语音处理装置可以将所述语音输入发送至服务端，并使用服务端对语音输入的语义识别，以获取识别语义所对应的目标设备操作的操作命令。在又一个实施例中，在步骤S730，服务端可以包括本地服务端，本地服务端可以针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。

在语音处理装置包括语音采集装置的情况下，该方法还可以包括语音处理装置采集第二语音输入；所述语音处理装置实现针对所述第二语音输入的语义识别以及对应目标设备第二操作命令的生成。进一步地，可以综合考虑空气传导采集的第二语音输入和骨传导采集的语音输入来生成更为恰当的操作命令。

图8示出了本发明一个语音控制的处理流程例。如图所示，在本地采集和上传阶段，语音套件中的骨传导装置(以及，在某些实施例中，还包括语音处理装置中的语音采集模块)监测来自用户或智能设备的语音命令输入，语音处理装置可以对采集的语音进行初步的处理，例如，进行ASR(语音识别)拾取，并将拾取的语音命令传输至云端。在云端处理阶段，服务端可以对拾取的语音命令进行后续处理，例如NIP(自然语音处理)和NIU(自然语音理解)，并根据处理结果，进行命令解析和TTS输出。在本地处理阶段，解析出的命令可以直接传输至目标设备出以供执行(例如，智能设备直接执行云端解析出的命令)，也可以例如在经由语音处理装置或骨传导装置的转换后由目标设备执行命令(例如，由骨传导装置针对传统家电设备发出的红外指令)。另外，在存在音频输出时，骨传导装置可以通过自带的骨传导扬声器进行语音输出。

在一个具体应用场景中，本发明的语音套件可以实现为一种智能语音可穿戴设备。此时，该智能语音可穿戴设备结合了骨传导装置和语音处理装置两者的功能，并且可以自行作为执行指令的目标设备。图9示出了本发明的智能语音可穿戴设备的工作示意图。如图所示，佩戴有骨传导传感器的用户可以发出语音指令。在此，语音指令可以包括唤醒词，以及操作指令。语音信号通过骨传导传感器传到设备端唤醒设备。设备接收骨传导传感器和麦克风接收到的语音信号并上传云端引擎识别。云端引擎将语音识别结果转换成设备控制指令返回设备端，随后该设备端执行指令。

骨传导不受背景噪音和风噪干扰，对非设备操控者语音无任何接收。空气传导易受背景噪音和风噪干扰，对非设备操控者和设备操作者的语音无差别接收。由于当骨传导传感器有唤醒词信号(即设备使用者说出唤醒词时)传到设备端时设备才会被唤醒，仅有麦克风信号传到设备端无法唤醒设备，因此避免非设备使用者唤醒设备。在操作指令获取阶段，同时进行骨传导和空气传导采集，能够确保在麦克风受到环境噪声影响导致语音质量下降明显时通过骨传导传感器增强语音信号质量，从而确保语音指令识别准确度。骨传导功能还可以应用于其它类似的需要增强语音质量场景，比如用耳机通电话时的上行语音通话质量。

上文中已经参考附图详细描述了根据本发明的骨传导装置、语音套件和语音控制系统和方法。本方案利用声波骨传导原理，通过骨传导传感器有效解决麦克风通过空气传播接收信号易受干扰的问题，确保设备只能被使用者唤醒，同时增强语音指令识别准确度，从而提高设备使用者智能语音操作体验。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务端等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音控制系统，包括语音套件以及与所述语音套件通信的服务端，其中，所述语音套件包括：

骨传导装置，基于骨传导采集用户的语音输入并将采集到的语音输入发送给语音处理装置；

语音处理装置，用于接收所述骨传导装置采集到的语音输入，并将所述语音输入上传至服务端，

所述服务端，用于对所述语音处理装置发送的所述语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

2.如权利要求1所述的系统，其中，

所述骨传导装置包括唤醒模组，在所述唤醒模组从所述语音输入识别出唤醒词之后将采集到的语音输入发送给所述语音处理装置；和/或

所述语音处理装置包括唤醒模组，在所述唤醒模从所述语音输入识别出唤醒词之后将接收到的语音输入上传至所述服务端。

3.如权利要求1所述的系统，其中，

所述语音处理装置包括语音采集装置，用于采集第二语音输入；

所述语音处理装置将所述第二语音输入上传至服务端，

所述服务端，用于对所述语音处理装置发送的所述第二语音输入进行语义识别，以生成并下发识别语义所对应的目标设备操作的第二操作命令。

4.如权利要求3所述的系统，其中，所述服务端用于：

基于所述语音输入和所述第二语音输入的比对，生成并下发所述操作命令和/或第二操作命令。

5.如权利要求4所述的系统，其中，基于所述语音输入和所述第二语音输入的比对，生成并下发所述操作命令和/或第二操作命令包括：

基于所述语音输入和所述第二语音输入的比对，生成当前环境信息，并基于所述当前环境信息生成所述操作命令和/或第二操作命令；

基于所述语音输入和所述第二语音输入的比对，判断多人交互场景，并基于所述多人交互场景生成所述操作命令和/或第二操作命令；以及

基于所述语音输入和所述第二语音输入的比对，对所述第二语音输入进行滤除无关信息的处理，并基于经处理所述第二语音输入生成所述第二操作命令。

6.如权利要求3所述的系统，其中，所述语音处理装置用于：

基于从所述语音输入识别出的唤醒词，开启语音控制操作。

7.如权利要求3所述的系统，其中，所述骨传导装置用于：

基于场景信息，开启或关闭语音输入采集功能，和/或

所述语音处理装置用于：

基于场景信息，开启或关闭第二语音输入采集功能。

8.如权利要求7所述的系统，其中，所述场景信息包括如下至少一项：

基于所述骨传导装置上传感器采集的信号所确定的场景信息；

基于所述语音处理装置传感器采集的信号所确定的场景信息；

基于所述语音处理装置上关联功能所确定的场景信息；以及

基于所述语音输入和所述第二语音输入的比对所确定的场景信息。

9.如权利要求1所述的系统，其中，所述骨传导装置的语音输入采集功能基于如下至少一项开启：

所述骨传导装置被佩戴的操作；以及

针对所述骨传导装置的特定动作。

10.如权利要求1所述的系统，其中，所述语音处理装置用于针对至少部分所述语音输入进行语义识别，并生成识别语义所对应的目标设备操作的操作命令。

11.如权利要求1所述的系统，其中，所述骨传导装置包括：

骨传导传感器，用于经由骨传导获取用户的语音输入；

骨传导扬声器，用于将从所述语音处理装置和/或目标设备接收到的内容经由骨传导送入用户耳道。

12.如权利要求11所述的系统，其中，进行输出的内容包括如下至少一项：

对执行命令的陈述内容；

执行命令的结果内容；以及

与用户的交互内容。

13.如权利要求1所述的系统，其中，

所述目标设备直接从所述服务端接收下发的操作命令并执行与所述操作命令相对应的操作；和/或

所述语音处理装置接收所述服务端下发的操作命令，自行或经由所述骨传导装置向所述目标设备下发所述操作命令。

14.如权利要求1所述的系统，其中，所述目标设备包括如下至少一项：

所述语音处理装置本身；

从所述服务端接收下发的操作命令并执行的联网的智能家电设备；以及

经由所述语音处理装置获取操作命令的传统家电设备。

15.如权利要求1所述的系统，其中，所述服务端包括：

与所述语音套件近距离通信的本地服务端，所述本地服务端用于针对至少部分所述语音输入进行语义识别，生成识别语义所对应的目标设备操作的操作命令并下发所述操作命令。

16.一种语音套件，包括：

骨传导装置，基于骨传导采集语音输入并将采集到的语音输入发送给语音处理装置；

语音处理装置，包括与所述骨传导装置通信连接的通信单元，所述语音处理装置经由所述通信单元接收所述骨传导装置采集到的语音数据，以实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

17.如权利要求16所述的套件，其中，

所述语音处理装置包括语音采集装置，用于采集第二语音输入，以实现针对所述第二语音输入的语义识别以及识别语义所对应的目标设备第二操作。

18.如权利要求17所述的套件，其中，

19.如权利要求17所述的套件，其中，所述骨传导装置和所述语音处理装置各自包括彼此进行近距离通信的低功耗短距离通信模组，所述通信模组包括如下至少一种：

基于蓝牙技术与所述语音处理装置通信的蓝牙通信模组；

基于红外技术与所述语音处理装置通信的红外通信模组；以及

基于Zigbee技术与所述语音处理装置通信的Zigbee通信模组。

20.如权利要求17所述的套件，其中，所述语音处理装置还包括：

联网单元，用于将从所述骨传导装置接收到的来自用户的语音数据上传至服务端，其中，所述服务端进行针对所述语音输入的语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

21.如权利要求20所述的套件，其中，所述联网单元还用于：

接收所述服务端下发的交互内容，以及

所述通信单元还用于：

将所述交互内容发送给所述骨传导装置，以供语音输出。

22.如权利要求21所述的套件，其中，所述骨传导装置包括：

骨传导传感器，用于经由骨传导获取用户的语音输入；

23.如权利要求17所述的套件，其中，基于场景信息，确定所述骨传导装置和所述语音处理装置的语音输入采集功能的开启和关闭。

24.如权利要求17所述的套件，其中，

所述骨传导装置和所述语音处理装置是经由有线或无线连接的套件；

所述骨传导装置和所述语音处理装置是被布置在同一物理设备内的套件；或者

所述骨传导装置和所述语音处理装置是可拆卸的套件。

25.一种骨传导装置，包括：

骨传导传感器，用于经由骨传导采集用户的语音输入；

骨传导扬声器，用于将从语音处理装置和/或目标设备接收到的内容经由骨传导送入用户耳道；以及

通信模组，用于将采集到的语音输入发送给所述语音处理装置，以通过所述语音处理装置实现针对所述语音输入的语义识别以及识别语义所对应的目标设备操作。

26.如权利要求25所述的骨传导装置，还包括：

唤醒模组，用于从语音输入中识别出唤醒词，并且

所述通信模组用于在所述唤醒模组识别出唤醒词之后将采集到的语音输入发送给所述语音处理装置。

27.如权利要求25所述的骨传导装置，其中，所述语音输出的内容包括如下至少一项：

对执行命令的陈述内容；

执行命令的结果内容；以及

与用户的交互内容。

28.如权利要求25所述的骨传导装置，还包括：

供电模组，所述供电模组包括如下至少一项：

无线充电组件；

电池组件；

USB插口。

29.如权利要求25所述的骨传导装置，还包括：

传感器装置，用于采集场景或动作信息，并且

所述骨传导装置基于采集的所述场景或动作信息开启或关闭语音输入采集功能。

30.一种语音处理装置，包括：

通信单元，用于接收所述骨传导装置采集到的语音数据；以及

联网单元，用于将从所述骨传导装置接收到的来自用户的语音数据上传至服务端，其中，所述服务端和/或所述语音处理装置进行针对所述语音输入的语义识别，以生成并下发识别语义所对应的目标设备操作的操作命令。

31.如权利要求30所述的语音处理装置，包括：

语音采集装置，用于采集第二语音输入，以实现针对所述第二语音输入的语义识别以及识别语义所对应的目标设备第二操作。

32.如权利要求31所述的语音处理装置，其中，所述语音处理装置基于从所述语音输入识别出的唤醒词，开启语音控制操作。

33.一种语音控制方法，包括：

骨传导装置采集语音输入；

所述骨传导装置将所述语音输入发送给语音处理装置；

所述语音处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令的生成。

34.如权利要求33所述的方法，其中，所述语音处理装置实现针对所述语音输入的语义识别以及对应目标设备操作命令生成包括：

所述语音处理装置将所述语音输入上传至服务端；

所述服务端对所述语音输入的语义识别，以获取识别语义所对应的目标设备操作的操作命令。

35.如权利要求33所述的方法，还包括：

所述语音处理装置采集第二语音输入；

所述语音处理装置实现针对所述第二语音输入的语义识别以及对应目标设备第二操作命令的生成。