CN108538297B

CN108538297B - 一种基于无线麦克风阵列的智能语音交互方法及交互系统

Info

Publication number: CN108538297B
Application number: CN201810198828.0A
Authority: CN
Inventors: 李琳; 童伟峰; 张亮; 王玉龙; 王凤云
Original assignee: Bestechnic Shanghai Co Ltd
Current assignee: Bestechnic Shanghai Co Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2020-12-04
Anticipated expiration: 2038-03-12
Also published as: CN108538297A

Abstract

本发明提供一种基于无线麦克风阵列的智能语音交互方法，所述方法包括：在无线麦克风阵列装置一端至少进行第三级语音检测，当所述第三级语音检测识别到特定的关键字，则将所述语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测确定特定的关键字；当所述远程计算设备和/或云端服务器确定所述特定的关键字，则对语音信号进行多麦克降噪和语音增强。本发明通过四级语音唤醒，极大地减少了待机功耗，并减少了关键字检测的遗漏。

Description

一种基于无线麦克风阵列的智能语音交互方法及交互系统

技术领域

本发明涉及通信技术领域，特别涉及一种基于无线麦克风阵列的智能语音交互方法及交互系统。

背景技术

随着技术进步，智能音箱开始进入家庭。智能音箱可以作为家庭的语音入口，和家庭成员或者访客通过语音进行交互。智能音箱可以接受天气查询，可以点播歌曲，可以旅行预订，也可以根据之前的设置主动播放通知、提醒等。为了支持语音入口功能，智能音箱包括麦克风阵列、本地应用处理器和无线连接。智能音箱通过麦克风阵列采集语音，利用本地应用处理器处理多路语音，基于处理后的语音在本地应用处理器上或者云端服务器上进行语音识别，根据识别结果和用户展开交互或者提供查询结果。

语音识别技术的发展逐渐进入到家庭设备中，语音识别设备让家电、灯光和窗帘等家庭设备使用更方便。因为有麦克风阵列、本地应用处理器和无线连接功能，现在的智能音箱功耗较大，一般都是通过电源插座供电。这限制了智能音箱的摆放位置和设备大小，不能做到像现在蓝牙便携音箱一样随便摆在任何位置。同时现有的智能音箱成本较高、体积较大，也对家庭设备的设计、价格和销售带来要求。

因此，为了解决上述问题，需要一种基于无线麦克风阵列的智能语音交互方法及交互系统。

发明内容

本发明的一个方面在于提供一种基于无线麦克风阵列的智能语音交互方法，所述方法包括：

在无线麦克风阵列装置一端至少进行如下第三级语音检测，当所述第三级语音检测识别到特定的关键字，则将所述语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测确定特定的关键字；

当所述远程计算设备和/或云端服务器确定所述特定的关键字，则对语音信号进行多麦克降噪和语音增强。

优选地，所述第三级语音检测前还包括如下第一语音检测和第二语音检测的方法：

语音采集模块采集声音信号，模拟接口将声音信号传递至模拟语音检测模块对声音信号进行第一级语音检测；

当第一级语音检测判断声音信号中具有语音信号，开启数字语音检测模块对声音信号进行第二级语音检测；

当第二级语音检测判断声音信号中具有语音信号，开启微处理器对语音信号进行第三级语音检测。

优选地，所述第三级语音检测前还包括第一级语音检测的方法：

当第一级语音检测判断声音信号中具有语音信号，开启微处理器对语音信号进行第三级语音检测。

优选地，所述第三级语音检测前还包括第二级语音检测的方法：

语音采集模块采集声音信号，数字接口将声音信号传递至数字语音检测模块对声音信号进行第二级语音检测；

优选地，所述数字语音检测模块对声音信号进行第二级语音检测后，将语音信号存储在存储器中；

所述微处理器从所述存储器中获取语音信号历史信息，进行第三语音检测。

优选地，所述第一级语音检测为模拟语音检测，判断模拟电路中声音信号中的语音信号；所述第二级语音检测为数字语音检测，判断数字语音检测模块中声音信号的语音信号。

优选地，所述方法还包括如下步骤：

当第一级语音检测判断声音信号中具有语音信号，开启模数转换器，和语音滤波器，将模拟信号转换为数字信号进行第二级语音检测。

优选地，所述第二级语音检测包括：

数字语音检测模块输入声音信号到的信号幅度、幅度跳变，以及信号过零检测，判断数字语音检测模块中声音信号的语音信号。

本发明的另一个方面在于提供一种基于无线麦克风阵列的智能语音交互系统，所述系统包括无线麦克风阵列装置，以及与所述无线麦克风阵列装置无线通信的远程计算设备和/或云端服务器，其中

所述无线麦克风阵列装置包括微处理器和第一无线组件；所述远程计算设备和/或云端服务器包括远程处理器和第二无线组件；

所述微处理器用于第第三级语音检测，所述远程处理器用于第四级语音检测；当第三级语音检测识别到特定的关键字，则将所述语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测确定特定的关键字。

优选地，所述系统还包括：模拟语音检测模块，

所述语音采集模块采集声音信号，模拟接口将声音信号传递至模拟语音检测模块对声音信号进行第一级语音检测；

优选地，所述系统还包括：数字语音检测模块；

优选地，所述系统还包括：模拟语音检测模块和数字语音检测模块；

优选地，所述第一无线组件包括射频发射器，所述第二无线组件包括射频接收器；

所述远程计算设备和/或云端服务器确定接收的语音信号中具有特定的关键字，则对语音信号进行多麦克降噪和语音增强。

本发明中所述语音采集模块包括多个阵列的麦克风，用于采集多路声音信号；

所述模拟语音检测模块，用于将采集的声音信号进行第一级语音检测；

所述数字语音检测模块，用于对声音信号进行第二级语音检测；

所述存储器，用于存储所述数字语音检测模块第二级语音检测后的语音信号；

所述微处理器，用于获取所述存储器中的语音信号，并对语音信号进行第三级语音检测；

所述第一无线组件，用于将微处理器第三语音检测后带有特定的关键字的语音信号发送至第二无线组件；

所述远程处理器，用于将所述第二无线组件接收的带有特定的关键字的语音信号进行特定关键字确定。

优选地，所述无线通信为BT/BLE无线通路。

优选地，所述第一无线组件包括射频发射器，所述第二无线组件包括射频接收器。

针对现在语音识别设备功耗过大的问题，本发明提出了单独分出麦克风阵列，并且给麦克风阵列加上一定控制能力和低功耗无线传输能力，构成无线麦克风阵列装置。

无线麦克风阵列装置通过无线信道传输多路语音到远程计算设备或云端服务器(手机、路由器和家居控制中心等)，与无线麦克风阵列装置协同对信号处理。使智能语音交互整体功耗低、成本低、体积小，容易布置在需要的地方和家庭设备中，能够增加语音识别设备的应用场景，方便生活。

本发明提供的一种四级语音唤醒，极大地减少了待机功耗，并减少了关键字检测的遗漏，提高了语音识别的准确度。

应当理解，前述大体的描述和后续详尽的描述均为示例性说明和解释，并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性示出了本发明基于无线麦克风阵列的智能语音交互系统的结构框图；

图2示出了本发明基于无线麦克风阵列的智能语音交互方法的流程框图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例，相关技术术语应当是本领域技术人员所熟知的。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤，除非另有说明。根据本发明的实施例，无线麦克风阵列装置(例如音箱)，采集到声音信号(这里的声音信号包括发出指令的语音信号，以及非指令的噪声信号)，无线麦克风阵列装置与远程计算设备和/或云端服务器协同对声音信号进行处理，在降低无线麦克风阵列装置功耗的同时，保证语音识别的准确度。远程计算设备和/或云端服务器例如手机、路由器和家居控制中心等，本发明对此不做具体限定。

如图1所示本发明基于无线麦克风阵列的智能语音交互系统的结构框图，本实施例基于无线麦克风阵列的智能语音交互系统包括无线麦克风阵列装置10，以及与无线麦克风阵列装置10无线通信的远程计算设备和/或云端服务器20，其中，无线通信采用低功耗无线标准，本实施例优选地，无线通信采用BT/BLE无线通路。

无线麦克风阵列装置10包括语音采集模块101、模拟语音检测模块102、数字语音检测103、存储器104、微处理器105和第一无线组件106。

语音采集模块101内置多个阵列的麦克风(麦克风1，麦克风2，…，麦克风n)，多个阵列的麦克风获取周围的声音信号，采集多路声音信号。

模拟语音检测模块102，用于将采集的声音信号进行第一级语音检测。模拟语音检测模块102具有模拟接口，用于将采集的声音信号送至模拟语音检测模块102进行第一级语音检测。模拟接口为前端模拟电路，例如实施例中为麦克风差分放大器、麦克风偏置电路和模拟数字转换器(ADC)。

数字语音检测模块103，用于对声音信号进行第二级语音检测。数字语音检测模块103具有数字接口，用于将声音信号送至数字语音检测模块103进行第二级语音检测。数据接口为前端数字电路，例如本实施例中为脉冲密度调制器(PDM)或集成电路间音频总线(I2S)。

存储器104，用于存储数字语音检测模块103第二级语音检测后的语音信号。根据本发明，实施例中第二级语音检测后若在声音信号中存在语音信号，则将语音信号存储在数字语音检测模块。应当理解，上述模拟语音检测模块102中进行第一语音检测的声音信号为模拟信号；数字语音检测模块103中进行第二语音检测的声音信号为数字信号。在存储器104中语音信号以数字信号的形式存储。

微处理器105，用于获取存储器104中的语音信号，并对语音信号进行第三级语音检测。

第一无线组件106，用于将微处理器第三语音检测后带有特定的关键字的语音信号发送至第二无线组件202

远程计算设备和/或云端服务器20包括远程处理器201和第二无线组件202。第一无线组件106包括射频发射器，第二无线组件202包括射频接收器，第二无线组件202与第一无线组件之间进行无线通信。

远程处理器，用于将第二无线组件接收的带有特定的关键字的语音信号进行特定关键字确定。远程计算设备和/或云端服务器201确定接收的语音信号中具有特定的关键字，则对语音信号进行多麦克降噪和语音增强，具体地对语音信号进行波束成形处理。

根据本发明，在一些实施例中无线麦克风阵列装置仅设置位处理器进行第三级语音检测，即基于无线麦克风阵列的智能语音交互系统包括无线麦克风阵列装置10，以及与无线麦克风阵列装置无线通信的远程计算设备和/或云端服务器20，其中，

无线麦克风阵列装置10包括微处理器105和第一无线组件106；远程计算设备和/或云端服务器包括远程处理器和第二无线组件；

微处理器用于第第三级语音检测，远程处理器用于第四级语音检测；当第三级语音检测识别到特定的关键字，则将语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测确定特定的关键字。

根据本发明，在另一些实施例中无线麦克风阵列装置不设置数字语音检测模块103，即基于无线麦克风阵列的智能语音交互系统包括模拟语音检测模块、微处理器105和第一无线组件106，

当第三级语音检测识别到特定的关键字，则将语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测确定特定的关键字。

根据本发明，在再一些实施例中无线麦克风阵列装置不设置模拟语音检测模块101，即基于无线麦克风阵列的智能语音交互系统包括：数字语音检测模块；

本发明通过模拟语音检测模块、数字语音检测模块和微处理器在无线麦克风阵列装置一端进行第一级语音检测、第二级语音检测和第三级语音检测，进而对语音唤醒。在远程计算设备和/或云端服务器一端进行第四级语音检测，对特定关键字进行确定，进而对语音信号进行波束成形处理。通过本发明提供的种基于无线麦克风阵列的智能语音交互系统进行语音交互，在某一级语音检测完成后，开启下一级语音检测，能够极大程度降低待机功耗，并减少了关键字检测的遗漏，提高了语音检测的准确度。下面对本发明一种基于无线麦克风阵列的智能语音交互方法给出详细的说明，如图2所示本发明基于无线麦克风阵列的智能语音交互方法的流程框图。本发明基于无线麦克风阵列的智能语音交互方法包括以下步骤：

S101、麦克风输入，实施例中麦克风用于采集发出指令的语言信号(例如“叮铃叮铃”)，同时麦克风会采集到周围的非指令信号。本发明中麦克风阵列具有多个麦克风，当无线麦克风阵列装置处于待机状态，只开启一路麦克风来检测周围是否与声音信号。当有声音信号时，其他路麦克风开启采集声音信号。

S102、采集声音信号，语音采集模块采集声音信号，开启阵列的多个麦克风中的某一个麦克风检测到周围有声音信号，将周围的声音信号送至语音采集模块。

S103、第一级语音检测，模拟接口接通语音采集模块，并将声音信号传递至模拟语音检测模块对声音信号进行第一级语音检测。模拟接口为前端模拟电路对声音信号进行前端处理，第一级语音检测为模拟语音检测，判断模拟电路中声音信号是否具有的语音信号，即在模拟语音检测模块的模拟电路中检测到的声音信号中具有语音信号，则开启步骤S104的模数转换。

S104、开启模数转换，通过模数转换器(ADC)对声音信号进行模数转换，即将模拟信号转换为数字信号。

S105、语音滤波，对步骤S104中的声音信号(数字信号)进行滤波。

S106、第二级语音检测，当第一级语音检测判断声音信号中具有语音信号，开启数字语音检测模块对声音信号进行第二级语音检测。第二级语音检测为数字语音检测，判断数字语音检测模块中声音信号的语音信号。

数字接口接通滤波器，滤波器将语音滤波后的声音信号送至数字语音检测模块，判断数字电路中的声音信号是否具有语音信号，即在数字语音检测模块中检测到的声音信号中具有语音信号，则开启步骤S107的第三级语音检测。具体地，第二级语音检测包括：第二级语音检测包括：数字语音检测模块输入声音信号到的信号幅度、幅度跳变，以及信号过零检测，判断数字语音检测模块中声音信号的语音信号。

S107、第三级语音检测，当第二级语音检测判断声音信号中具有语音信号，开启微处理器对语音信号进行第三级语音检测。

在数字语音检测模块对声音信号进行第二级语音检测后，将语音信号存储在存储器中，第三级语音检测开启，微处理器从存储器中获取语音信号历史信息，进行第三语音检测。

第三级语音检测为关键字识别，微处理器判断语音信号中是否具有特定的关键字(例如“叮铃叮铃”)。当第三级语音检测检测到具有特定的关键字，则阵列的多个麦克风全部开启，采集周围的声音信号。

S108、无线连接，第一无线组件与第二无线组件建立网络连接，实施例中优选地，采用低功耗BT/BLE无线通路连接第一无线组件和第二无线组件。

S109、第四级语音检测，若第三级语音检测中，微处理器检测到语音信号中具有特定的关键字，将语音信号送至第一无线组件通过无线网络发送给第二无线组件。第二无线组件语音信号传递至线网路发送至远程计算设备和/或云端服务器进行第四级语音检测，确定特定的关键字。

当远程计算设备和/或云端服务器确定所述特定的关键字，则对语音信号进行多麦克降噪和语音增强，具体为对语音信号进行波束成形处理。经过波速成形处理后，通过语音信号控制节点(例如空调、电视等)，实现与用户的交互。

上述实施例只是示例性的说明，并不对本发明的内容具体限定，权利要求书中所限定的为真正的保护范围，在一些实施例中，对上述实施例中无线麦克风阵列装置一端的第一级语音检测、第二级语音检测可以是选择性的。

例如，在一些实施例中无需第一级语音检测和第二级语音检测，对语音采集模块采集的声音信号直接进入第三级语音检测，本发明基于无线麦克风阵列的智能语音交互方法包括如下步骤：

在无线麦克风阵列装置一端至少进行如下第三级语音检测，当第三级语音检测识别到特定的关键字，则将语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测确定特定的关键字；

当远程计算设备和/或云端服务器确定所述特定的关键字，则对语音信号进行多麦克降噪和语音增强，具体为对语音信号进行波束成形处理。

再例如，在另一些实施例中无需第二级语音检测，基于无线麦克风阵列的智能语音交互方法包括如下步骤：

当第一级语音检测判断声音信号中具有语音信号，开启微处理器对语音信号进行第三级语音检测；

当第三级语音检测识别到特定的关键字，则将语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测确定特定的关键字；

再例如，在再一些实施例中无需第一级语音检测，基于无线麦克风阵列的智能语音交互方法包括如下步骤：

当第二级语音检测判断声音信号中具有语音信号，开启微处理器对语音信号进行第三级语音检测；

本发明针对现在语音识别设备功耗过大的问题，本发明提出了单独分出麦克风阵列，并且给麦克风阵列加上一定控制能力和低功耗无线传输能力，构成无线麦克风阵列装置。

无线麦克风阵列装置通过无线信道传输多路语音到远程计算设备或云端服务器(手机、路由器和家居控制中心等)，与无线麦克风阵列装置协同对信号处理。使得无线麦克风阵列装置功耗低、成本低、体积小，容易布置在需要的地方和家庭设备中，能够增加语音识别设备的应用场景，方便生活。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种基于无线麦克风阵列的智能语音交互方法，其特征在于，所述方法包括：

采集声音信号，通过模拟语音检测模块对所述声音信号进行第一级语音检测，判断所述声音信号中是否具有语音信号；

当所述第一级语音检测判断所述声音信号中具有语音信号时，开启数字语音检测模块对所述声音信号进行第二级语音检测，再次判断所述声音信号中是否具有语音信号；

当所述第二级语音检测判断所述声音信号中具有语音信号时，开启微处理器对所述语音信号进行第三级语音检测；

其中，所述第三级语音检测用于对所述语音信号进行关键字识别，当所述第三级语音检测识别到特定的关键字时，将所述语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测来确定特定的关键字；

当所述远程计算设备和/或云端服务器确定所述特定的关键字后，则对所述语音信号进行多麦克降噪和语音增强。

2.根据权利要求1所述的方法，其特征在于，所述数字语音检测模块对声音信号进行所述第二级语音检测后，将语音信号存储在存储器中；

所述微处理器从所述存储器中获取语音信号历史信息，进行所述第三级语音检测。

3.根据权利要求1所述的方法，其特征在于，所述第一级语音检测为模拟语音检测，判断模拟电路中声音信号中的语音信号；所述第二级语音检测为数字语音检测，判断数字语音检测模块中声音信号的语音信号。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括如下步骤：

当所述第一级语音检测判断声音信号中具有语音信号时，开启模数转换器和语音滤波器，将模拟信号转换为数字信号进行所述第二级语音检测。

5.根据权利要求1所述的方法，其特征在于，所述第二级语音检测包括：

所述数字语音检测模块输入声音信号到的信号幅度、幅度跳变，以及信号过零检测，判断数字语音检测模块中声音信号的语音信号。

6.一种基于无线麦克风阵列的智能语音交互系统，其特征在于，所述系统包括无线麦克风阵列装置，以及与所述无线麦克风阵列装置无线通信的远程计算设备和/或云端服务器，其中

所述微处理器用于第第三级语音检测，所述远程处理器用于第四级语音检测；当第三级语音检测识别到特定的关键字，则将所述语音信号通过无线网路发送至远程计算设备和/或云端服务器进行第四级语音检测确定特定的关键字；

所述无线麦克风阵列装置还包括：模拟语音检测模块和数字语音检测模块；

7.根据权利要求6所述的系统，其特征在于，所述第一无线组件包括射频发射器，所述第二无线组件包括射频接收器；