CN108307268A

CN108307268A - 一种基于多麦克风的直播方法及直播设备

Info

Publication number: CN108307268A
Application number: CN201711317958.3A
Authority: CN
Inventors: 蒋国珠; 关学进
Original assignee: Shenzhen Nestle Holdings Ltd
Current assignee: Shenzhen Nestle Holdings Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-07-20

Abstract

本发明公开了一种基于多麦克风的直播方法及直播设备，该方法包括多个麦克风以及多个超声换能器：接收预定频段范围内的语音信号，通过多个麦克风组成的麦克风阵列中的唤醒麦克风确定所述语音信号的分贝值；当所述语音信号的分贝值大于预定分贝阈值时，设置直播设备为唤醒状态，并通过所述麦克风阵列中的拾音麦克风拾取语音信号；将拾取到的所述语音信号发送至直播服务器；接收直播服务器针对所述语音信号返回的音频信号，对所述音频信号进行调制处理，并将调制处理后的调制信号通过各个超声换能器以第一预定频率发出。通过本发明，保证了用户在户外等复杂环境直播时，主播能够与粉丝进行畅通的交流，且避免外来干扰和直播时对外界环境的影响。

Description

一种基于多麦克风的直播方法及直播设备

技术领域

本发明涉及计算机视频技术领域，尤其涉及一种基于多麦克风的直播方法及直播设备。

背景技术

随着网络直播的兴起，众多直播设备产品开始在市面上不断涌现，除去录像功能外，语音交互能力差已然成为制约直播的一大瓶颈，使得网络直播至今没形成便捷、有通用性的音频交互方式。现有的网络直播，在室内进行直播时，主播往往需要购买专业的摄像头、声卡、电容式麦克风等多个设备来搭建一套直播交互系统；而在户外进行直播时，户外录音往往要求直播设备便携、使用简单，因此，主播往往需要用自拍杆来实现对场景的拍摄，但是，户外直播面对的直播环境往往较为复杂，同时将面临较强的噪音和较多的语音干扰源，但是，主播离话筒的距离往往较远，因此，需要放弃主播和粉丝之间的语音交互的代价来实现远程录音，现有技术中往往通过佩戴耳机来解决抗环境干扰的问题；另一方面，户外直播设备拾音的另一大难题是由户外直播时工作形式的多样性造成的录音困难，例如值班时主播不但可能将摄像头对准自己，而且可能会将摄像头对准主播前方的景物，这时麦克风无论放在前部/后部都容易因直播设备的方向调整而导致录音环境的变化，为了获取较高的灵敏度，现有直播设备上的麦克风通常尺寸较大，即便是全指向麦克风，也会因尺寸因素带来较大的指向性，当麦克风反向时中高频段的录音音质必然下降，另外直播设备拾音系统的音频参数已经固定好，不会因产品的方位变化而自动调整，从而导致录音效果不佳。在与粉丝交互时，无论是室内直播还是室外直播，现有直播设备往往通过内置喇叭来实现对粉丝声音的重放。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

1、室内直播外接独立声卡、指向性话筒来实现对声音的录制，需要较大的成本，占据了较大的空间，移动性太差，且需要经过技术人员调试才可使用，同时主播需要对着电容式麦克风并佩戴耳机方可以实现与粉丝的交互，该交互方式，导致主播只能被限制在距麦克风和耳机较近的范围内与粉丝进行交互，严重影响了主播对直播内容的发挥；

2、室外直播使用直播杆往往会占用直播设备的耳机孔，使得主播无法通过佩戴耳机来实现与粉丝的交互；市面上常规的蓝牙耳机只能满足语音通讯的基本需求，无法满足对聊天、交互、语音录制等对音质有较高要求的场景的语音通讯需求；

3、直播时需要主播固定直播设备的方位进行直播，影响了直播设备被主播使用的灵活性；

4、直播设备往往通过内置喇叭来实现对粉丝声音的重放，但户外嘈杂的环境使得直播时喇叭信噪比过低，而重放时将声音放大容易造成扰民且缺乏私密性。

因此，亟待一种直播方法，以解决上述直播过程中遇到的一系列问题。

发明内容

本发明实施例提供一种基于多麦克风的直播方法及直播设备，可远程实现的无干扰的语音交互。

一方面，本发明实施例提供了一种基于多麦克风的直播方法，包括多个麦克风以及多个超声换能器：

接收预定频段范围内的语音信号，通过多个麦克风组成的麦克风阵列中的唤醒麦克风确定所述语音信号的分贝值；

当所述语音信号的分贝值大于预定分贝阈值时，设置直播设备为唤醒状态，并通过所述麦克风阵列中的拾音麦克风拾取语音信号；

将拾取到的所述语音信号发送至直播服务器；

接收直播服务器针对所述语音信号返回的音频信号，对所述音频信号进行调制处理，并将调制处理后的调制信号通过各个超声换能器以第一预定频率发出。

另一方面，本发明实施例提供了一种基于多麦克风的直播设备，包括多个麦克风以及多个超声换能器：

接收及确定单元，用于接收预定频段范围内的语音信号，通过多个麦克风组成的麦克风阵列中的唤醒麦克风确定所述语音信号的分贝值；

设置及拾取单元，用于当所述语音信号的分贝值大于预定分贝阈值时，设置直播设备为唤醒状态，并通过所述麦克风阵列中的拾音麦克风拾取语音信号；

发送单元，用于将拾取到的所述语音信号发送至直播服务器；

接收及调制处理单元，用于接收直播服务器针对所述语音信号返回的音频信号，对所述音频信号进行调制处理，并将调制处理后的调制信号通过各个超声换能器以第一预定频率发出。

上述技术方案具有如下有益效果：保证了用户在户外等复杂环境直播时，主播能够与粉丝进行畅通的交流，并且可避免外来干扰和直播时对外界环境的影响；通过对不同频段信号的拾取，实现了兼顾主播端的声音拾取和发声，避免各个超声换能器发出的声音干扰麦克风对可听频段声音的拾取的情况发生，同时避免了造成声学回声的情况发生，进一步地，节约了直播设备的耗能，极大地提高了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中基于多麦克风的直播方法流程图；

图2为本发明另一实施例中基于多麦克风的直播设备结构示意图；

图3为本发明一优选实施例中直播设备的整体结构布局示意图；

图4为本发明一优选实施例中直播设备硬件框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例中基于多麦克风的直播方法流程图，包括多个麦克风以及多个超声换能器：

101、接收预定频段范围内的语音信号，通过多个麦克风组成的麦克风阵列中的唤醒麦克风确定所述语音信号的分贝值；

102、当所述语音信号的分贝值大于预定分贝阈值时，设置直播设备为唤醒状态，并通过所述麦克风阵列中的拾音麦克风拾取语音信号；

103、将拾取到的所述语音信号发送至直播服务器；

104、接收直播服务器针对所述语音信号返回的音频信号，对所述音频信号进行调制处理，并将调制处理后的调制信号通过各个超声换能器以第一预定频率发出。

可选地，所述当所述语音信号的分贝值大于预定分贝阈值时，设置直播设备为唤醒状态之后，还包括：

通过所述各个超声换能器播放第二预定频率的定频声波，并检测是否存在用户手势反射回的所述定频声波；

若存在，通过所述唤醒麦克风接收用户手势反射回的所述定频声波；

根据接收到的用户手势反射回的所述定频声波，通过手势识别算法识别用户手势，根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作；

根据与所述手势指令相匹配的操作动作，远程操控所述直播设备。

优选地，所述通过所述各个超声换能器播放第二预定频率的定频声波，并检测是否存在用户手势反射回的所述定频声波，包括：

通过所述各个超声换能器播放第二预定频率的定频声波，并判断在预定时间段内是否检测到用户手势反射回的所述定频声波；

若未检测到，将所述直播设备的唤醒状态切换为休眠状态；

其中，所述将所述直播设备的唤醒状态切换为休眠状态，包括：将所述麦克风阵列中的唤醒麦克风保持为唤醒状态。

优选地，所述根据接收到的用户手势反射回的所述定频声波，通过手势识别算法识别用户手势，根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作，包括：

获取用户手势的移动方向和/或运动速度；

根据接收到的用户手势反射回的所述定频声波，以及获取到的所述用户手势的移动方向和/或运动速度，通过手势识别算法识别用户手势；

根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作。

优选地，所述与所述手势指令相匹配的操作动作，包括启动直播，关闭直播，启动前置和/或后置摄像头和关闭前置和/或后置摄像头，启动美颜效果进行拍摄和开启背景音乐。

如图2所示，为本发明另一实施例中基于多麦克风的直播设备结构示意图，包括多个麦克风以及多个超声换能器：

接收及确定单元21，用于接收预定频段范围内的语音信号，通过多个麦克风组成的麦克风阵列中的唤醒麦克风确定所述语音信号的分贝值；

设置及拾取单元22，用于当所述语音信号的分贝值大于预定分贝阈值时，设置直播设备为唤醒状态，并通过所述麦克风阵列中的拾音麦克风拾取语音信号；

发送单元23，用于将拾取到的所述语音信号发送至直播服务器；

接收及调制处理单元24，用于接收直播服务器针对所述语音信号返回的音频信号，对所述音频信号进行调制处理，并将调制处理后的调制信号通过各个超声换能器以第一预定频率发出。

可选地，还包括：

播放及检测单元，用于通过所述各个超声换能器播放第二预定频率的定频声波，并检测是否存在用户手势反射回的所述定频声波；

接收单元，用于若存在，通过所述唤醒麦克风接收用户手势反射回的所述定频声波；

确定单元，用于根据接收到的用户手势反射回的所述定频声波，通过手势识别算法识别用户手势，根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作；

远程操控单元，用于根据与所述手势指令相匹配的操作动作，远程操控所述直播设备。

优选地，所述播放及检测单元，包括：

播放及判断模块，用于通过所述各个超声换能器播放第二预定频率的定频声波，并判断在预定时间段内是否检测到用户手势反射回的所述定频声波；

切换模块，用于若未检测到，将所述直播设备的唤醒状态切换为休眠状态；

其中，所述切换模块还用于将所述麦克风阵列中的唤醒麦克风保持为唤醒状态。

优选地，所述确定单元，包括：

获取模块，用于获取用户手势的移动方向和/或运动速度；

识别模块，用于根据接收到的用户手势反射回的所述定频声波，以及获取到的所述用户手势的移动方向和/或运动速度，通过手势识别算法识别用户手势；

确定模块，用于根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作。

本发明实施例上述技术方案具有如下有益效果：保证了用户在户外等复杂环境直播时，主播能够与粉丝进行畅通的交流，并且可避免外来干扰和直播时对外界环境的影响；通过对不同频段信号的拾取，实现了兼顾主播端的声音拾取和发声，避免各个超声换能器发出的声音干扰麦克风对可听频段声音的拾取的情况发生，同时避免了造成声学回声的情况发生，进一步地，节约了直播设备的耗能，极大地提高了用户的使用体验。

以下结合应用实例对本发明实施例上述技术方案进行详细说明：

本发明应用实例旨在可远程实现的无干扰的语音交互。

如图1所示，例如，在直播设备A中，包括多个麦克风以及多个超声换能器，其中超声换能器为压电陶瓷超声换能器，如直播设备A中包括拾音麦克风a，拾音麦克风b，拾音麦克风c，拾音麦克风d，唤醒麦克风，压电陶瓷超声换能器a，压电陶瓷超声换能器b，压电陶瓷超声换能器c，压电陶瓷超声换能器d；通过直播设备A中多个麦克风组成的麦克风阵列中的唤醒麦克风接收预定频段范围内，如15Hz～20Hz内，的语音信号，并通过唤醒麦克风确定语音信号的分贝值；当所述语音信号的分贝值大于预定分贝阈值，如75dB，时，设置直播设备的工作状态为唤醒状态，并通过麦克风阵列中的拾音麦克风拾取语音信号；并通过直播设备A的网络通道，如移动网络或WIFI(WIreless-Fidelity，无线保真)网络等网络通道，将拾取到的语音信号发送至直播服务器；直播设备A通过网络通道接收直播服务器针对语音信号返回的音频信号，通过直播设备A的CPU(Central Processing Unit，中央处理器)对音频信号进行调制处理，并将调制处理后的调制信号通过各个压电陶瓷超声换能器以第一预定频率，如40kHz，发出。

在一优选实施例中，步骤102中所述当所述语音信号的分贝值大于预定分贝阈值时，设置直播设备为唤醒状态之后，还包括：通过所述各个超声换能器播放第二预定频率的定频声波，并检测是否存在用户手势反射回的所述定频声波；若存在，通过所述唤醒麦克风接收用户手势反射回的所述定频声波；根据接收到的用户手势反射回的所述定频声波，通过手势识别算法识别用户手势，根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作；根据与所述手势指令相匹配的操作动作，远程操控所述直播设备。

例如，在直播设备A中，通过各个压电陶瓷超声换能器播放第二预定频率，如25kHz，的定频声波，并通过直播设备A检测是否存在用户手势反射回的25kHz定频声波；若存在，通过唤醒麦克风接收用户手势反射回的25kHz定频声波；根据接收到的25kHz定频声波，通过手势识别算法识别用户手势，如通过多普勒效应和声强的变化来计算用户手势的动作，根据识别出的用户手势确定手势指令a以及与手势指令a相匹配的操作动作；根据与手势指令a相匹配的操作动作，远程操控直播设备A。

通过本实施例，通过使用定频声波的定频信号实现了简单便捷地计算识别用户手势的动作；同时，由于直播设备不停地发出该定频信号，能够及时准确地检测到用户手势动作的出现，同时，实现了通过识别手势控制直播设备，并提供可远程实现的无干扰的语音交互。

在一优选实施例中，所述通过所述各个超声换能器播放第二预定频率的定频声波，并检测是否存在用户手势反射回的所述定频声波，包括：通过所述各个超声换能器播放第二预定频率的定频声波，并判断在预定时间段内是否检测到用户手势反射回的所述定频声波；若未检测到，将所述直播设备的唤醒状态切换为休眠状态；其中，所述将所述直播设备的唤醒状态切换为休眠状态，包括：将所述麦克风阵列中的唤醒麦克风保持为唤醒状态。

例如，在直播设备A中，通过各个压电陶瓷超声换能器播放第二预定频率25kHz的定频声波，并判断在预定时间段内，如30秒内，是否检测到用户手势反射回的25kHz定频声波；若未检测到，将直播设备A的唤醒状态切换为休眠状态，并将麦克风阵列中的唤醒麦克风保持为唤醒状态，以使得唤醒麦克风一直在工作。

在一优选实施例中，所述根据接收到的用户手势反射回的所述定频声波，通过手势识别算法识别用户手势，根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作，包括：获取用户手势的移动方向和/或运动速度；根据接收到的用户手势反射回的所述定频声波，以及获取到的所述用户手势的移动方向和/或运动速度，通过手势识别算法识别用户手势；根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作。

例如，在直播设备A中，通过各个压电陶瓷超声换能器播放第二预定频率25kHz的定频声波，当接收到用户手势反射回的25kHz定频声波，获取用户手势的移动方向，如用户手势的上下左右的移动方向，和/或运动速度，根据接收到的用户手势反射回的所述定频声波，以及获取到的所述用户手势的移动方向和/或运动速度，通过手势识别算法识别用户手势，并根据识别出的用户手势确定手势指令，如手势指令a以及与手势指令a相匹配的操作动作，如启动直播，随后，远程启动直播设备A进行直播。

在一优选实施例中，如在直播设备B中，如图3所示，包括四个拾音麦克风2，一个唤醒麦克风3，四个压电陶瓷超声换能器4，摄像头模组5和金属网6；四个压电陶瓷换能器4和五个麦克风构成的麦克风复合阵列，各个压电陶瓷换能器4和各个麦克风均可集成在一个专用PCB(Printed Circuit Board，印制电路板)上，该PCB固定于直播设备B的前面板上，直播设备B的前面板上对应每个压电陶瓷换能器和每个麦克风的位置都设计有网孔结构，以便出声和进音；PCB上的五个麦克风按“十字形”摆列，“十字形”的各个角为拾音麦克风，中间的为唤醒麦克风，组成五麦克风子阵列。其中，四个拾音麦克风可结合DOE算法和BF(Beam-Forming，波束形成)算法实现声源定位和指向性拾音。为避免户外嘈杂的环境应用时喇叭信噪比过低，或声音重放时私密信息泄露的问题，本发明在专用PCB上增加四个压电陶瓷换能器，其分别设置在五个麦克风组成的“十字形”的四个角上，组成一个方形的压电陶瓷换能器子阵列，通过调制波的激励，此子阵列能输出超指向性的超声波束。方形的阵列能减少旁瓣的声成，只在直播设备的正前方形成波束，并在直播设备正前方0.5m-2m范围内形成可听波束。四个压电陶瓷换能器组成的方形子阵列能兼顾性能和成本。这样，无论在室内或室外环境，主播均可以远程地听到粉丝端发过来的语音交互信号，而不致于影响周围环境。同时，该PCB的复合阵列中的“十字形”麦克风子阵列能确保主播在任何角度时说话的声音都能被拾取并发送出去。主播在户外使用自拍杆进行直播活动时，对直播设备的操作很难进行，此时也需要设计更为便捷的方式，本发明在此直播设备，如直播设备B，上利用压电陶瓷换能器组成的复合阵列子阵列产生的非调制的超声波束和来实现远程手势识别。具体地，直播设备B未唤醒时，只有唤醒麦克风一直工作，同时，此时出于节能考虑，压电陶瓷超声换能器阵列中的各个压电陶瓷超声换能器不发出特定声音。当唤醒麦克风接收到高于75dB的语音段信号时，直播设备B即被唤醒。当直播设备B唤醒后，各个压电陶瓷超声换能器播放25kHz的定频声波，并由唤醒麦克风接收经用户手势反射回来的25kHz的定频声波，通过集成于CPU中的手势识别算法，来识别用户的手势，从而实现对设备的远程操作。但如果在一段时间内，如30秒内，直播设备B未检测到相应的用户手势动作，则直播设备B自动关闭唤醒模式，直至下一次接收到高于75dB分贝的声音时才再次唤醒直播设备B。压电陶瓷超声换能器子阵列需同时满足播放云端传输过来的语音信号调制而成的载波信号和播放手势识别时需要的定频信号的要求，因此在工作时需合理控制EQ(均衡器)，使调制波信号远离25kHz的定频手势识别信号，从而避免两者信号的干扰。而唤醒麦克风在录音时通过合理调整EQ，使其只识别25kHz附近频段的声音，避免对可听声和调制声波的拾取而造成不必要的干扰。

通过本实施例，本发明所设计直播设备可改善用户在户外等复杂环境直播时，在直播设备利用其复合阵列中的四个麦克风组成的子阵列实现DOA(Direction of arrival，波达方向)和BF，使得用户在用自拍杆固定直播设备直播时，使用该直播设备的主播还可以与粉丝进行畅通的交流，并且可避免干扰和对外界环境的影响。

在另一优选实施例中，本发明的直播设备应合理设计直播设备的硬件系统，以确保远程交互方案能在直播设备上实现功能。如图4所示，在直播设备C中包含带DSP(DigitalSignal Processing，数字信号处理)的CPU、硬盘、内存芯片来存储和运行相关算法，在唤醒麦克风的录音通道放置一个一通道以上的语音编码器，来实现对唤醒麦克风声音的ADC(Analog-to-digital converter，模拟数字转换器)处理；并在拾音麦克风的录音通道上放置一个四通道以上的带麦克风信号放大功能的语音编码器，用来处理四个拾音麦克风接收到的声音。而在声音重放通道上，本发明需要佩戴2个超声功率放大器，各支持两个压电陶瓷换能器输出的放大，来实现对即将进入各个重放通道上的压电陶瓷换能器的调制信号进行放大。从云端服务器获取音频信号后，CPU先对音频信号进行调制处理，调制后以40kHz发出调制信号，调制信号通过各个压电陶瓷换能器发出后，四个压电陶瓷换能器组成的阵列会产生指向性较强的波束。当传输距离超过0.2m时，该超声波束在空气中产生自解调特性，来实现在0.5m-2m范围内的超指向性声音重放。各输入输出通道均有EQ来合理调控工作频段，以避免相互干扰。实现了直播设备兼顾主播端的声音拾取和发声，避免各个超声换能器组成的复合子阵列发出的声音干扰麦克风对可听频段声音的拾取的情况。因此，四个拾音麦克风对唤醒工作模式和休眠工作模式的分别作针对性的信号处理。四个拾音麦克风的录音通道通过调整EQ，使之只能接收到语音频段的声音，如20Hz-15kHz的声音，而各个压电陶瓷超声换能器子阵列所发出的调制信号和手势识别定频信号均为超声频段信号，拾音麦克风不会拾取超声频段信号，从而避免了造成声学回声的情况发生。

本发明实施例提供了一种基于多麦克风的直播设备，可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多麦克风的直播方法，其特征在于，包括多个麦克风以及多个超声换能器：

将拾取到的所述语音信号发送至直播服务器；

2.根据权利要求1所述的直播方法，其特征在于，所述当所述语音信号的分贝值大于预定分贝阈值时，设置直播设备为唤醒状态之后，还包括：

3.根据权利要求2所述的直播方法，其特征在于，所述通过所述各个超声换能器播放第二预定频率的定频声波，并检测是否存在用户手势反射回的所述定频声波，包括：

若未检测到，将所述直播设备的唤醒状态切换为休眠状态；

4.根据权利要求2所述的直播方法，其特征在于，所述根据接收到的用户手势反射回的所述定频声波，通过手势识别算法识别用户手势，根据识别出的用户手势确定手势指令以及与所述手势指令相匹配的操作动作，包括：

获取用户手势的移动方向和/或运动速度；

5.根据权利要求2-4任一项所述的直播方法，其特征在于，所述与所述手势指令相匹配的操作动作，包括启动直播，关闭直播，启动前置和/或后置摄像头和关闭前置和/或后置摄像头，启动美颜效果进行拍摄和开启背景音乐。

6.一种基于多麦克风的直播设备，其特征在于，包括多个麦克风以及多个超声换能器：

7.根据权利要求6所述的直播设备，其特征在于，还包括：

8.根据权利要求7所述的直播设备，其特征在于，所述播放及检测单元，包括：

9.根据权利要求2所述的直播设备，其特征在于，所述确定单元，包括：

获取模块，用于获取用户手势的移动方向和/或运动速度；

10.根据权利要求7-9任一项所述的直播设备，其特征在于，所述与所述手势指令相匹配的操作动作，包括启动直播，关闭直播，启动前置和/或后置摄像头和关闭前置和/或后置摄像头，启动美颜效果进行拍摄和开启背景音乐。