CN110691016B

CN110691016B - 一种基于音频设备实现的交互方法及音频设备

Info

Publication number: CN110691016B
Application number: CN201910932809.0A
Authority: CN
Inventors: 李小龙; 赵吉福
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2021-08-31
Anticipated expiration: 2039-09-29
Also published as: CN110691016A

Abstract

本发明公开了一种基于音频设备实现的交互方法及音频设备。该方法包括：检测用户对麦克风的操作动作；检测用户对麦克风的操作动作包括：获取第一信号，第一信号为麦克风输出的信号；检测第一信号的幅值以判断是否出现操作动作；根据操作动作生成相应的指令，根据指令对控制对象进行控制；所述控制对象包括音频设备和/或与音频设备建立数据通信连接的其它物联网设备。

Description

一种基于音频设备实现的交互方法及音频设备

技术领域

本发明涉及音频设备控制技术，尤其涉及一种基于音频设备实现的交互方法及音频设备。

背景技术

音频设备包括智能音箱。智能音箱是音箱升级的产物，是用户可以使用语音进行上网的一个工具，近年来，随着智能音箱的不断发展，智能音箱所囊括的内容资源越来越丰富。例如，用户可以使用语音点播歌曲、获得天气预报等。

现有技术中音频设备设置有物理按键，用户可以通过物理按键对音频设备进行控制，以实现网络连接、音量调节、重启等多种功能。物理按键一般采用两种方式，一种是按键开关式，使用时，用户通过机械按压方式实现对音频设备的控制；另一种是电容触摸式，使用时，其用户通过触摸方式实现对音频设备的控制。

但是，物理按键存在结构设计复杂、制造成本高的问题。

发明内容

本发明的一个目的是提供一种基于音频设备的新技术方案。

根据本发明的第一方面，提供了一种基于音频设备实现的交互方法，所述音频设备设置有至少一个麦克风，所述方法包括：

检测用户对所述麦克风的操作动作；所述检测用户对所述麦克风的操作动作包括：获取第一信号，所述第一信号为所述麦克风输出的信号；检测所述第一信号的幅值以判断是否出现所述操作动作；

根据所述操作动作生成相应的指令，根据所述指令对控制对象进行控制；所述控制对象包括所述音频设备和/或与所述音频设备建立数据通信连接的其它物联网设备。

优选地，所述检测所述第一信号的幅值以判断是否出现所述操作动作，包括：

检测所述第一信号的幅值的变量以判断是否出现所述操作动作。

优选地，所述检测所述第一信号的幅值的变量以判断是否出现所述操作动作，包括：

如果所述第一信号的幅值的变量超出预设的第一幅值阈值，判断出现所述操作动作。

优选地，其中，所述检测所述第一信号的幅值的变量以判断是否出现所述操作动作，包括：

如果所述第一信号的幅值的变量超出预设的第一幅值阈值并且维持超出所述第一幅值阈值的状态的时间超过预设的第一时间阈值，判断出现所述操作动作。

如果所述第一信号的幅值的变量超出预设的第一幅值阈值，将所述第一信号对应的所述麦克风作为第一麦克风；

如果所述第一麦克风输出第一信号的幅值与至少一个其它麦克风在同一时刻输出的第一信号的幅值的比值大于预设的比值阈值，则判断出现对于所述第一麦克风的所述操作动作。

如果所述第一麦克风为一个，判断出现了对于所述第一麦克风的所述操作动作；

如果所述第一麦克风为多个，选择其中所述第一信号的幅值的变量最大的所述第一麦克风作为第二麦克风，判断出现了对于所述第二麦克风的操作动作。

计算所述第一麦克风的所述第一信号的幅值的变量与至少一个其它麦克风在同一时刻输出的所述第一信号的幅值的变量的差值；

如果所述差值大于预设的差值阈值，判断出现了对于所述第一麦克风的操作动作。

优选地，其中，所述检测所述第一信号的幅值以判断是否出现所述操作动作，包括：

如果所述第一信号的幅值超出预设的第三幅值阈值，判断出现所述操作动作；所述第三幅值阈值为对应于所述麦克风满量程状态的输出信号的幅值。

优选地，其中，所述音频设备还包括设置在所述麦克风周围的红外传感器；

所述检测用户对所述麦克风的操作动作，包括：

根据所述红外传感器输出的信号，判断人体是否靠近所述麦克风；

只有在人体靠近所述麦克风的状态下，检测所述第一信号的幅值。

优选地，其中，所述根据所述操作动作生成相应的指令，包括：从所述第一信号中截取出超出第二幅值阈值的部分，得到第二信号；提取所述第二信号的参数，根据所述第二信号的参数按照预设的规则生成相应的指令；

其中，所述第二信号的参数包括下列任一或者组合：

所述第二信号持续的时间长度；

在预设的时间长度内出现所述第二信号的次数；

所述第二信号的幅值。

优选地，其中，所述麦克风为多个，每个所述麦克风具有唯一的麦克风标识；

所述根据所述操作动作生成相应的指令，包括：从所述第一信号中截取出超出第二幅值阈值的部分，得到第二信号；提取所述第二信号的参数，根据所述第二信号的参数按照预设的规则生成相应的指令；

其中，所述第二信号的参数包括下列任一或者组合：

所述第二信号持续的时间长度；

在预设的时间长度内出现所述第二信号的次数；

所述第二信号的幅值；

所述第二信号对应的麦克风标识；

所述第二信号出现的时间。

优选地，其中，所述根据所述第二信号的参数按照预设的规则生成相应的指令，包括下列方式任一或组合：

根据所述第二信号对应的麦克风标识，生成相应的指令；

根据同一时间出现的多个所述第二信号的数量，生成相应的指令；

根据同一时间出现的多个所述第二信号对应的麦克风标识的组合，生成相应的指令；

将所述第二信号对应的麦克风标识按照所述第二信号出现的时间进行排序，得到所述麦克风被操作的顺序，根据所述麦克风被操作的顺序生成相应的指令。

优选地，所述指令包括：

重启所述音频设备的指令；

暂停所述音频设备播放功能的指令；

增大、降低所述音频设备的音量的指令；

启动所述音频设备连接网络的指令；

关闭所述音频设备的指令；

接听与所述音频设备建立数据通信连接的手机电话的指令。

根据本发明的第二方面，提供了一种音频设备，所述音频设备设置有至少一个麦克风，所述音频设备包括处理器和存储器；

所述存储器存储有程序指令，所述程序指令被所述处理器运行时执行实现如本发明第一方面任一项所述的方法。

根据本发明的一个实施例，用户通过对麦克风进行操作动作，基于麦克风的操作动作生成相应的指令，以实现对音频设备和/或与音频设备建立数据通信连接的其它物联网设备的控制，可以避免在音频设备上设置结构复杂的物理按键或者电容触摸键，控制方式简单，方便用户使用。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1示出了本发明实施例提供的交互系统的硬件配置示意图；

图2示出了本发明第一实施例的基于音频设备实现的交互方法的流程示意图；

图3示出了本发明第一实施例的音频设备设置麦克风的例子的示意图一；

图4示出了本发明第一实施例的音频设备设置麦克风的例子的示意图二；

图5示出了本发明第一实施例的音频设备设置麦克风的例子的示意图三；

图6示出了本发明第二实施例的音频设备的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例涉及音频设备，或者涉及音频设备和与音频设备建立数据通信连接的其它物联网设备。

本发明实施例涉及的音频设备是能够播放声音的设备，可以具有和用户进行语音交互的能力。音频设备可以是用户通过语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报等。音频设备可以例如是智能音箱、智能播放器、智能手机等。

物联网设备可以例如是移动终端、智能家居、智能电视、智能耳机、投影仪等。移动终端例如是手机、便携式电脑、平板电脑、掌上电脑、可穿戴设备等。

音频设备可以通过无线方式与其它物联网设备连接，能够对其它物联网设备进行控制，以执行用户期望的各种命令。

音频设备包括麦克风，其中至少一个麦克风被设置成可以用于检测用户的操作动作。音频设备可以包括一个或者多个被设置成专用于检测用户的操作动作的麦克风。音频设备可以包括一个或者多个被设置成专用于拾取声音信号的麦克风。音频设备可以包括一个或者多个被设置成可以用于拾取声音信号也可以用于检测用户的操作动作的麦克风。

麦克风可被用于检测用户的操作动作具体是指麦克风的输出信号被用来判断是否出现操作动作。音频设备可以通过无线方式与移动终端连接，能够与移动终端的应用程序(Application，APP)进行通信，从而通过应用程序对用户对麦克风的操作动作对应的指令进行设置，基于对麦克风的操作动作，可以实现对音频设备本身或其它物联网设备进行控制，以执行用户期望的各种命令。

音频设备的麦克风还可以用于拾取声音信号，基于麦克风的语音识别功能，可以实现对音频设备本身或对其它物联网设备进行控制，以执行用户期望的各种命令。

在本实施例中，麦克风的数量可以根据实际场景确定，在此不作任何限定。

<硬件配置>

图1示出基于音频设备实现的交互系统100的硬件配置的框图。

本实施例的控制系统100包括音频设备1000、物联网设备、网络2000，如图1所示，音频设备1000可以例如是智能音箱，物联网设备可以包括移动终端3000、和一些智能家电、家居等设备，例如智能电视4000、智能投影仪5000等。在其它实施例中，物联网设备还可以包括其它电子设备。

音频设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400可以包括短距离通信装置，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意装置，通信装置1400也可以包括远程通信装置，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意装置。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输出/输入语音信息。

本实施例中，音频设备1000的存储器1200用于存储指令，该指令用于控制处理器1100进行操作以至少执行根据本发明任意实施例的基于音频设备实现的交互方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

尽管在图1中示出了音频设备1000的多个装置，但是，本发明可以仅涉及其中的部分装置。

网络2000可以是无线通信网络也可以是有线通信网络，可以是局域网也可以是广域网。在图1所示的基于音频设备实现的交互系统100中，音频设备1000与移动终端3000、音频设备1000与智能电视4000、音频设备1000与智能投影仪5000，可以通过网络2000进行通信。此外，音频设备1000与移动终端3000、音频设备1000与智能电视4000、音频设备1000与智能投影仪5000通信所基于的网络2000可以是同一个，也可以是不同的。

移动终端3000例如是手机、便携式电脑、平板电脑、掌上电脑、可穿戴设备等。移动终端3000上搭载有与音频设备1000对应的APP，通过APP可以控制音频设备1000，设置音频设备1000的功能，与音频设备1000进行交互，接收音频设备1000的信息、执行音频设备1000发出的指令等等。

如图1所示，移动终端3000可以包括处理器3100、存储器3200、接口装置3300、通信装置3400、显示装置3500、输入装置3600、扬声器3700、麦克风3800等等。

处理器3100可以是移动版处理器。存储器3200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置3300例如包括USB接口、耳机接口等。通信装置3400例如能够进行有线或无线通信，通信装置3400可以包括短距离通信装置，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意装置，通信装置3400也可以包括远程通信装置，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意装置。显示装置3500例如是液晶显示屏、触摸显示屏等。输入装置3600例如可以包括触摸屏、键盘等。用户可以通过扬声器3700和麦克风3800输出/输入语音信息。

尽管在图1中示出了移动终端3000的多个装置，但是，本发明可以仅涉及其中的部分装置，例如，移动终端3000只涉及存储器3200和处理器3100、通信装置3400和显示装置3500。

在本实施例中，如图1所示，智能电视4000可以包括处理器4100、存储器4200、接口装置4300、通信装置4400、显示装置4500、输入装置4600、扬声器4700、麦克风4800等等。

处理器4100可以是中央处理器CPU、微处理器MCU。存储器4200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置4300例如包括USB接口、耳机接口等。通信装置4400例如能够进行有线或无线通信，通信装置4400可以包括短距离通信装置，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意装置，通信装置4400也可以包括远程通信装置，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意装置。显示装置4500例如是液晶显示屏、触摸显示屏等。输入装置4600例如可以包括触摸屏、键盘等。用户可以通过扬声器4700和麦克风4800输出/输入语音信息。

尽管在图1中示出了智能电视4000的多个装置，但是，本发明可以仅涉及其中的部分装置，例如，智能电视4000只涉及存储器4200和处理器4100、通信装置4400和显示装置4500。

在本实施例中，如图1所示，智能投影仪5000可以包括处理器4100、存储器4200、接口装置4300、通信装置4400、显示装置4500、输入装置4600、扬声器4700、麦克风4800等等。

尽管在图1中示出了智能投影仪5000的多个装置，但是，本发明可以仅涉及其中的部分装置，例如，智能投影仪5000只涉及存储器4200和处理器4100、通信装置4400和显示装置4500。

在上述描述中，技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

<第一实施例>

图2是根据本发明实施例的基于音频设备实现的交互方法的流程示意图，该方法由音频设备1000实施。

音频设备包括麦克风，麦克风可被用于检测用户的操作动作，具体是指麦克风的输出信号被用来判断用户是否出现操作动作。音频设备可以通过无线方式与移动终端连接，能够与移动终端的应用程序进行通信，从而通过应用程序对用户对麦克风的操作动作对应的指令进行设置，基于对麦克风的操作动作，可以实现对音频设备本身或其它物联网设备进行控制，以执行用户期望的各种命令。

在本实施例中，麦克风可以设置多个，例如，麦克风阵列，麦克风阵列里的麦克风的数量可以根据实际场景确定，在此不作任何限定。

根据图2所示，本实施例的方法可以包括如下步骤：

步骤S2100，检测用户对麦克风的操作动作。

麦克风用于检测操作动作，具体是指麦克风的输出信号被用来判断用户是否出现操作动作。

操作动作包括用户靠近麦克风和用户按压麦克风，按压麦克风具体可以是指用户触摸或者敲击麦克风。当用户靠近麦克风对麦克风的声孔造成一定的遮挡时，或者当用户触摸麦克风的声孔时，或者当用户敲击麦克风的声孔时，麦克风输出的信号都会发生剧烈变化，可以通过检测麦克风输出的信号的变化来判断用户是否对麦克风进行了操作。

在一个例子中，检测用户对麦克风的操作动作的步骤S2100，可以进一步包括如下步骤S3100-S3200。

步骤S3100，获取第一信号。

第一信号为麦克风输出的信号。

步骤S3200，检测第一信号的幅值以判断是否出现操作动作。

第一信号的幅值可以反映麦克风采集到的声音信号的强度的大小。

该例子中，在一个例子中，检测第一信号的幅值以判断是否出现操作动作的步骤S3200，可以进一步包括步骤S3210a。

步骤S3210a，检测第一信号的幅值的变量以判断是否出现所述操作动作。

第一信号的变量可以反映麦克风采集到的声音信号的强度的变化。

在第一个更具体的例子中，检测第一信号的幅值的变量以判断是否出现操作动作的步骤S3210a，可以进一步包括步骤S3211a。

步骤S3211a，如果第一信号的幅值的变量超出预设的第一幅值阈值，判断出现操作动作。

通过和第一幅值阈值进行比较，可以反映麦克风输出的声音信号的强度的变化是否过大。预设的第一幅值阈值可以根据工程经验或者试验仿真结果来设定。

在该例子中，当用户未对麦克风进行操作动作时，麦克风采集到的声音信号为音频设备的扬声器外放的声音信号或者外部的其他声音信号，在这种情况下，第一信号的幅值的变量不会超出预设的第一幅值阈值；当用户对麦克风进行操作动作时，第一信号的幅值明显增大，第一信号的幅值的变量超出预设的第一幅值阈值。

本实施例根据第一信号的幅值的变量与预设的第一幅值阈值的比较关系，可以判断是否出现操作动作，从而结合后续步骤，根据操作动作生成相应的指令，根据指令对控制对象进行控制。

在第二个更具体的例子中，检测第一信号的幅值的变量以判断是否出现操作动作的步骤S3210a，可以进一步包括步骤S3211b。

步骤S3211b，如果第一信号的幅值的变量超出预设的第一幅值阈值并且维持超出第一幅值阈值的状态的时间超过预设的第一时间阈值，判断出现操作动作。

第一时间阈值可以用于区分操作动作和误操作，第一时间阈值可以根据工程经验或者试验仿真结果来设定。误操作可以例如是外部物品掉落并与音频设备触碰时，麦克风产生的振动信号；或者外部物品与音频设备发生摩擦时，麦克风产生的振动信号。

在该例子中，当用户未对麦克风进行操作动作时，麦克风采集到的声音信号为音频设备的扬声器外放的声音信号或者外部的其他声音信号，在这种情况下，第一信号的幅值的变量不会超出预设的第一幅值阈值。

当发生误操作时，麦克风输出的第一信号的幅值明显增大，第一信号的幅值的变量超出预设的第一幅值阈值，但是第一信号的幅值的变量维持超出第一幅值阈值的状态的时间不会超过预设的第一时间阈值；当用户对麦克风进行操作动作时，第一信号的幅值明显增大，第一信号的幅值的变量超出预设的第一幅值阈值，并且维持超出第一幅值阈值的状态的时间超过预设的第一时间阈值。

根据本例子的方案，在判断第一信号的幅值的变量超过预设的第一幅值阈值时，并判断第一信号的幅值的变量维持超出第一幅值阈值的状态的时间是否超过预设的第一时间阈值，可以避免将外界物品与音频设备发生触碰的情况误认为是用户进行的操作动作，提高检测用户对麦克风的操作动作的准确性。

在第三个更具体的例子中，检测第一信号的幅值的变量以判断是否出现操作动作的步骤S3210a，可以进一步包括步骤S3211c-S3212c。

步骤S3211c，如果第一信号的幅值的变量超出预设的第一幅值阈值，将第一信号对应的麦克风作为第一麦克风。

步骤S3212c，如果第一麦克风输出第一信号的幅值与至少一个其它麦克风在同一时刻输出的第一信号的幅值的比值大于预设的比值阈值，则判断出现对于该第一麦克风的操作动作。

预设的比值阈值可以用于进一步判断是否出现对于第一麦克风的操作动作。预设的比值阈值可以根据工程经验或者试验仿真结果来设定。

在本例中，步骤S3212c可以具体为，采集同一时刻的第一麦克风输出第一信号的幅值和其它麦克风输出第一信号的幅值，计算同一时刻的第一麦克风输出第一信号的幅值和至少一个其它麦克风输出第一信号的幅值的比值，如果该比值大于预设的比值阈值，则判断出现对于该第一麦克风的操作动作。

<例子一>以音频设备设置2个麦克风为例，这2个麦克风分别麦克风A和麦克风B。假设预设的比值阈值为1.5。如果麦克风A的第一信号的幅值的变量超出预设的第一幅值阈值，将麦克风A作为第一麦克风。采集到同一时刻的麦克风A和麦克风B输出第一信号的幅值分别1.8V和1.0V，计算麦克风A输出第一信号的幅值与麦克风B输出第一信号的幅值的比值为1.8，最后计算得到的比值1.8大于1.5，则确定用户出现对于麦克风A的操作动作。

<例子二>以音频设备设置6个麦克风为例，这6个麦克风分别麦克风A、麦克风B、麦克风C、麦克风D、麦克风E、麦克风F。假设预设的比值阈值为1.5。如果麦克风A的第一信号的幅值的变量超出预设的第一幅值阈值，将麦克风A作为第一麦克风。采集到同一时刻的麦克风A、麦克风B、麦克风C、麦克风D、麦克风E、麦克风F输出第一信号的幅值分别1.8V、1.0V、1.1V、1.0V、0.9V、1.1V、0.9V，计算麦克风B、麦克风C、麦克风D、麦克风E、麦克风F输出第一信号的幅值的平均值为1.0V，计算麦克风A输出第一信号的幅值与该平均值的比值为1.8，最后计算得到的比值1.8大于1.5，则确定用户出现对于麦克风A的操作动作。

在本例中，步骤S3212c还可以具体为，采集同一时刻的第一麦克风输出第一信号的幅值和其它麦克风输出第一信号的幅值，计算同一时刻的第一麦克风输出第一信号的幅值和至少一个其它麦克风输出第一信号的幅值的差值，如果该差值与至少一个其它麦克风输出第一信号的幅值的比值大于预设的比值阈值，则判断出现对于该第一麦克风的操作动作。

<例子一>以音频设备设置2个麦克风为例，这2个麦克风分别麦克风A和麦克风B。假设预设的比值阈值为50％。如果麦克风A的第一信号的幅值的变量超出预设的第一幅值阈值，将麦克风A作为第一麦克风。采集到同一时刻的麦克风A和麦克风B输出第一信号的幅值分别1.8V和1.0V，计算麦克风A输出第一信号的幅值与麦克风B输出第一信号的幅值的差值为0.8V，再计算该差值与麦克风B输出第一信号的幅值的比值为0.8，即百分比为80％，最后计算得到的比值80％大于50％，则确定用户出现对于麦克风A的操作动作。

<例子二>以音频设备设置6个麦克风为例，这6个麦克风分别麦克风A、麦克风B、麦克风C、麦克风D、麦克风E、麦克风F。假设预设的比值阈值为50％。如果麦克风A的第一信号的幅值的变量超出预设的第一幅值阈值，将麦克风A作为第一麦克风。采集到同一时刻的麦克风A、麦克风B、麦克风C、麦克风D、麦克风E、麦克风F输出第一信号的幅值分别1.8V、1.0V、1.1V、1.0V、0.9V、1.1V、0.9V，计算麦克风B、麦克风C、麦克风D、麦克风E、麦克风F输出第一信号的幅值的平均值为1.0V，计算麦克风A输出第一信号的幅值与该平均值的差值为0.8V，再计算该差值与麦克风B输出第一信号的幅值的比值为0.8，即百分比为80％，最后计算得到的比值80％大于50％，则确定用户出现对于麦克风A的操作动作。

根据本例子的方案，在判断第一信号的幅值的变量超过预设的第一幅值阈值时，将第一信号对应的所述麦克风作为第一麦克风，并判断第一麦克风输出第一信号的幅值与至少一个其它麦克风在同一时刻输出的第一信号的幅值的比值是否大于预设的比值阈值，可以提高检测用户对麦克风的操作动作的准确性。

在第四个更具体的例子中，检测第一信号的幅值的变量以判断是否出现操作动作的步骤S3210a，可以进一步包括步骤S3211d-S3213d。

步骤S3211d，如果第一信号的幅值的变量超出预设的第一幅值阈值，将第一信号对应的所述麦克风作为第一麦克风。

步骤S3212d，如果第一麦克风为一个，判断出现了对于第一麦克风的操作动作。

步骤S3213d，如果第一麦克风为多个，选择其中第一信号的幅值的变量最大的第一麦克风作为第二麦克风，判断出现了对于第二麦克风的操作动作。

<例子一>以音频设备设置6个麦克风为例，这6个麦克风分别麦克风A、麦克风B、麦克风C、麦克风D、麦克风E、麦克风F。假设麦克风A、麦克风D和麦克风E的第一信号的幅值的变量超出预设的第一幅值阈值，将麦克风A、麦克风D和麦克风E作为第一麦克风。采集到同一时刻的麦克风A、麦克风D和麦克风E输出第一信号的幅值的变量分别1.2V、0.6V和0.7V，麦克风A输出第一信号的幅值的变量最大，则确定用户出现对于麦克风A的操作动作。

根据本例子的方案，在判断第一信号的幅值的变量超过预设的第一幅值阈值时，将第一信号对应的所述麦克风作为第一麦克风，并将多个第一麦克风输出的第一信号的幅值的变量进行比较，选择其中第一信号的幅值的变量最大的第一麦克风作为第二麦克风，判断出现了对于第二麦克风的操作动作，可以提高检测用户对麦克风的操作动作的准确性。

在第五个更具体的例子中，检测第一信号的幅值的变量以判断是否出现操作动作的步骤S3210a，可以进一步包括步骤S3211e-S3213e。

步骤S3211e，如果第一信号的幅值的变量超出预设的第一幅值阈值，将第一信号对应的麦克风作为第一麦克风。

步骤S3212e，计算第一麦克风的所述第一信号的幅值的变量与至少一个其它麦克风在同一时刻输出的第一信号的幅值的变量的差值。

步骤S3213e，如果差值大于预设的差值阈值，判断出现了对于第一麦克风的操作动作。

预设的差值阈值可以用于进一步判断是否出现对于第一麦克风的操作动作。预设的差值阈值可以根据工程经验或者试验仿真结果来设定。

<例子一>以音频设备设置2个麦克风为例，这2个麦克风分别麦克风A和麦克风B。假设预设的差值阈值为0.5。如果麦克风A的第一信号的幅值的变量超出预设的第一幅值阈值，将麦克风A作为第一麦克风。采集到同一时刻的麦克风A和麦克风B输出第一信号的幅值的变量分别0.8V和0.1V，计算麦克风A输出第一信号的幅值的变量与麦克风B输出第一信号的幅值的变量的差值为0.7，最后计算得到的差值0.7大于0.5，则确定用户出现对于麦克风A的操作动作。

<例子二>以音频设备设置6个麦克风为例，这6个麦克风分别麦克风A、麦克风B、麦克风C、麦克风D、麦克风E、麦克风F。假设预设的差值阈值为0.5。如果麦克风A的第一信号的幅值的变量超出预设的第一幅值阈值，将麦克风A作为第一麦克风。采集到同一时刻的麦克风A、麦克风B、麦克风C、麦克风D、麦克风E、麦克风F输出第一信号的幅值的变量分别0.8V、0.1V、0.1V、0.2V、0.1V、0.2V、0.2V，计算麦克风B、麦克风C、麦克风D、麦克风E、麦克风F输出第一信号的幅值的变量的平均值为0.18V，计算麦克风A输出第一信号的幅值的变量与该平均值的差值为0.62，最后计算得到的差值0.62大于0.5，则确定用户出现对于麦克风A的操作动作。

根据本例子的方案，在判断第一信号的幅值的变量超过预设的第一幅值阈值时，将第一信号对应的所述麦克风作为第一麦克风，并判断第一麦克风输出第一信号的幅值的变量与至少一个其它麦克风在同一时刻输出的第一信号的幅值的变量的差值是否大于预设的差值阈值，可以提高检测用户对麦克风的操作动作的准确性。

在另一个例子中，检测第一信号的幅值以判断是否出现操作动作的步骤S3200，可以进一步包括步骤S3210b。

步骤S3210b，如果第一信号的幅值超出预设的第三幅值阈值，判断出现操作动作。

第三幅值阈值为对应于麦克风满量程状态的输出信号的幅值。

麦克风满量程状态是指该麦克风只受到外界环境声音的作用时，麦克风可能输出的最大信号的状态。

通过将第一信号的幅值与第三幅值阈值进行比较，如果第一信号的幅值超出了第三幅值阈值，说明该麦克风受到了除外界环境声音以外的影响，也就是受到了用户操作的影响，判断出现了操作动作。

在又一个例子中，音频设备还包括设置在麦克风周围的红外传感器，红外传感器可以用于检测麦克风周围的温度。

在该例子中，检测用户对麦克风的操作动作的步骤S2100，可以进一步包括如下步骤S4100-S4200。

步骤S4100，根据红外传感器输出的信号，判断人体是否靠近麦克风；

在该例子中，当人体未靠近麦克风时，麦克风周围的温度保持不变，红外传感器输出的信号保持不变；当人体靠近麦克风时，麦克风周围的温度升高，红外传感器输出的信号发生变化。

步骤S4200，只有在人体靠近麦克风的状态下，检测第一信号的幅值以判断是否出现操作动作。

根据本例子的方案，根据红外传感器输出的信号，判断人体是否靠近麦克风，在确定人体靠近麦克风时，再对第一信号的幅值进行检测，以根据第一信号的幅值判断是否出现操作动作，可以避免将误操作判断为用户进行的操作动作，提高检测用户对麦克风的操作动作准确性。

本领域技术人员也可以采用多种方式判断用户是否靠近麦克风，例如可以采用温度传感器实现，这里不做具体限定。

在检测用户对麦克风的操作动作之后，进入：

步骤S2200，根据操作动作生成相应的指令，根据指令对控制对象进行控制。

控制对象包括音频设备和/或与音频设备建立数据通信连接的其它物联网设备。

音频设备可以例如是智能音箱。

指令可以用于对控制对象进行控制以实现相应的功能。例如，指令可以包括重启音频设备的指令、暂停音频设备播放功能的指令、控制音频设备播放下一首的指令、控制音频设备播放上一首的指令、增大或降低音频设备的音量的指令、启动音频设备连接网络的指令、关闭音频设备的指令、接听与音频设备建立数据通信连接的手机电话的指令等。

在一个例子中，音频设备包括多个麦克风，其中一个麦克风可以用于检测操作动作，具体是指麦克风的输出信号，被用来判断是否出现操作动作。

在该例子中，参考图3所示，音频设备设置麦克风a、麦克风b、麦克风c、麦克风d、麦克风e、麦克风f、麦克风g。麦克风a、麦克风b、麦克风c、麦克风d、麦克风e、麦克风f组成麦克风阵列，麦克风g可以用于检测操作动作，麦克风g位于麦克风阵列的中心，可以避免麦克风g检测操作动作时对麦克风阵列的拾音效果造成影响。该麦克风阵列例如是三麦克风阵列、四麦克风阵列、六麦克风阵列等。

在该例子中，步骤S2200中根据操作动作生成相应的指令，可以进一步包括如下步骤S2210a-S2220a。

步骤S2210a，从第一信号中截取出超出第二幅值阈值的部分，得到第二信号。

第二幅值阈值可以根据工程经验或者试验仿真结果来设定。

在一个更具体的例子中，第二幅值阈值为对应于麦克风满量程状态的输出信号的幅值。麦克风满量程状态是指该麦克风只受到外界环境声音的作用时，麦克风可能输出的最大信号的状态。

步骤S2220a，提取第二信号的参数，根据第二信号的参数按照预设的规则生成相应的指令。

其中，第二信号的参数包括第二信号持续的时间长度、在预设的时间长度内出现第二信号的次数、第二信号的幅值中的任意一项或者组合。

第二信号持续的时间长度可以表征用户对麦克风的操作动作持续的时间的长短。例如用户按压麦克风的时间的长短、用户触摸麦克风的时间的长短、用户靠近麦克风的时间的长短等。

在预设的时间长度内出现第二信号的次数可以表征用户连续对麦克风进行操作动作的次数。例如用户连续按压麦克风的次数、用户连续敲击麦克风的次数、用户连续触摸麦克风的次数、用户连续靠近麦克风的次数等。

第二信号的幅值可以表征用户对麦克风的操作动作的力度的大小。例如，用户按压麦克风的力度的大小、用户敲击麦克风的力度的大小等。

预设的规则是指第二信号的参数与指令存在的映射关系，该规则可以在音频设备出厂时被设定，也可以根据用户需求预先设定。

用户可以通过移动终端的APP进行指令规则设置，也可以基于音频设备和用户的人机交互功能进行指令规则设置。

例如，移动终端的APP提供设置命令界面，用于让用户输入参数和命令的对应关系。

例如，用户发出语音“设置操作动作指令”，音频设备发出提示“请以较大的力度按压麦克风”，等用户以较大的力度按压麦克风以后，音频设备发出再次提示“请选择设置哪种指令，指令1暂停音频设备播放功能，指令2增大音频设备的音量，指令3启动音频设备连接网络，指令4接听与音频设备建立数据通信连接的手机电话等等”，用户发出语音“选择指令1”，音频设备记录用户之前对麦克风进行操作动作时麦克风输出的信号的幅值，将该幅值与指令1建立关联关系，当用户下次使用同样的力度按压麦克风时，音频设备执行指令1。

<例子一>根据第二信号持续的时间长度按照预设的规则生成相应的指令，当按压时间在第一时间区间内时，在音频设备处于未连接网络的状态，生成启动音频设备连接网络的指令，在音频设备处于已连接网络的状态，生成暂停音频设备播放功能的指令，第一时间区间例如是小于300ms；当按压时间在第二时间区间内时，生成控制音频设备播放下一首的指令，第二时间区间例如是小于300ms-600ms；当按压时间在第三时间区间内时，生成增大音频设备的音量的指令，第三时间区间例如是小于600ms-1s；当按压时间在第四时间区间内时，生成降低音频设备的音量的指令，第四时间区间例如是1s-1.3s；当按压时间在第五时间区间内时，生成使麦克风全静音的指令，第五时间区间例如是1.5s-2s。

<例子二>根据在预设的时间长度内出现第二信号的次数按照预设的规则生成相应的指令，当按压次数或者敲击次数为1次时，在音频设备处于播放的状态，生成暂停音频设备播放功能的指令，在音频设备处于暂停播放的状态，生成继续播放音频设备播放功能的指令；当按压次数或者敲击次数为2次时，生成控制音频设备播放下一首的指令；当按压次数或者敲击次数为3次时，生成关闭音频设备的指令。

<例子三>根据第二信号的幅值按照预设的规则生成相应的指令，在音频设备处于播放的状态，当以第一力度按压麦克风时，生成暂停音频设备播放功能的指令；在音频设备处于暂停播放的状态，当以第一力度按压麦克风时，生成继续播放音频设备播放功能的指令；当以第二力度按压麦克风时，生成增大音频设备的音量的指令；当以第三力度按压麦克风时，生成重启音频设备的指令。

<例子四>根据第二信号持续的时间长度与在预设的时间长度内出现第二信号的次数的组合按照预设的规则生成相应的指令，当以第一时间长度按压麦克风一次时，在音频设备处于播放的状态，生成暂停音频设备播放功能的指令，在音频设备处于暂停播放的状态，生成继续播放音频设备播放功能的指令；当以第一时间长度按压麦克风两次时，生成控制音频设备播放下一首的指令；当以第二时间长度按压麦克风一次时，生成接听与音频设备建立数据通信连接的手机电话的指令；当以第二时间长度按压麦克风两次时，生成增大音频设备的音量的指令；当以第三时间长度按压麦克风一次时，生成重启音频设备的指令；当以第四时间长度按压麦克风一次时，生成关闭音频设备的指令。

<例子五>根据在预设的时间长度内出现第二信号的次数与第二信号的幅值的组合按照预设的规则生成相应的指令，当以第一力度按压麦克风一次时，生成控制音频设备播放下一首的指令；当以第一力度按压麦克风两次时，生成增大音频设备的音量的指令；当以第一力度按压麦克风三次时，生成降低音频设备的音量的指令；当以第二力度按压麦克风一次时，在音频设备处于未连接网络的状态，生成启动音频设备连接网络的指令，在音频设备处于已连接网络的状态，生成暂停音频设备播放功能的指令；当以第二力度按压麦克风两次时，生成使麦克风全静音的指令。

根据上述例子的方案，通过识别麦克风的操作动作，根据操作动作生成相应的指令，以实现对音频设备和/或与音频设备建立数据通信连接的其它物联网设备的控制，可以避免在音频设备上设置结构复杂的物理按键或者电容触摸键，控制方式简单，方便用户使用。

在另一个例子中，音频设备设置多个麦克风，每个麦克风具有唯一的麦克风标识。

以每个麦克风具有唯一标识为例，参考图4所示，该音频设备设置六个麦克风，具体包括具有标识为A的麦克风A、具有标识为B的麦克风B、具有标识为C的麦克风C、具有标识为D的麦克风D、具有标识为E的麦克风E、具有标识为F的麦克风F。

又例如，参考图5所示，该音频设备设置三个麦克风，具体包括具有标识为G的麦克风G、具有标识为H的麦克风H、具有标识为I的麦克风I。

在该例子中，麦克风可以用于检测操作动作，还可以用于拾取声音信号。

在该例子中，步骤S2200中根据操作动作生成相应的指令，可以进一步包括如下步骤S2210b-S2220b。

步骤S2210b，从第一信号中截取出超出第二幅值阈值的部分，得到第二信号。

步骤S2220b，提取第二信号的参数，根据第二信号的参数按照预设的规则生成相应的指令。

其中，第二信号的参数包括第二信号持续的时间长度、在预设的时间长度内出现第二信号的次数、第二信号的幅值、第二信号对应的麦克风标识、第二信号出现的时间中的任意一项或者组合。

第二信号对应的麦克风标识可以表征被用户进行操作动作的麦克风的身份。

第二信号出现的时间可以表征用户对多个麦克风进行操作动作的先后顺序。例如用户按压多个麦克风的先后顺序、用户敲击多个麦克风的先后顺序、用户触摸多个麦克风的先后顺序。

在一个更具体的例子中，提取第二信号的参数，根据第二信号的参数按照预设的规则生成相应的指令的步骤S2220b，可以进一步包括：根据第二信号对应的麦克风标识，生成相应的指令。

<例子一>参考图4所示，根据预设的规则，当按压标识为A的麦克风时，生成启动音频设备连接网络的指令；当按压标识为B的麦克风时，生成使麦克风全静音的指令；当按压标识为C的麦克风时，生成暂停音频设备播放功能的指令；当按压标识为D的麦克风时，生成增大音频设备的音量的指令；当按压标识为E的麦克风时，生成降低音频设备的音量的指令；当按压标识为F的麦克风时，生成控制音频设备播放下一首的指令。

<例子二>参考图5所示，根据另一预设的规则，当按压标识为G的麦克风一次时，生成启动音频设备连接网络的指令，当按压标识为G的麦克风两次时，生成暂停音频设备播放功能的指令；当按压标识为H的麦克风一次时，生成增大音频设备的音量的指令，当按压标识为H的麦克风两次时，生成降低音频设备的音量的指令；当按压标识为I的麦克风一次时，生成控制音频设备播放下一首的指令，当按压标识为I的麦克风两次时，生成使麦克风全静音的指令。

在另一个更具体的例子中，提取第二信号的参数，根据第二信号的参数按照预设的规则生成相应的指令的步骤S2220b，可以进一步包括：根据同一时间出现的多个第二信号的数量，生成相应的指令。

在该例子中，同一时间出现的第二信号的数量对应同时进行操作动作的麦克风的数量。

例如，参考图4所示，根据预设的规则，当同时按压任意两个麦克风时，生成接听与音频设备建立数据通信连接的手机电话的指令；当同时按压任意三个麦克风时，生成重启音频设备的指令；当同时按压任意四个麦克风时，生成关闭音频设备的指令。

在另一个更具体的例子中，提取第二信号的参数，根据第二信号的参数按照预设的规则生成相应的指令的步骤S2220b，可以进一步包括：根据同一时间出现的多个第二信号对应的麦克风标识的组合，生成相应的指令。

例如，参考图4所示，根据预设的规则，当同时按压标识为A的麦克风和标识为C的麦克风时，生成接听与音频设备建立数据通信连接的手机电话的指令；当同时按压标识为E的麦克风和标识为F的麦克风时，生成控制音频设备播放上一首的指令；当同时按压标识为A的麦克风、标识为C的麦克风和标识为E的麦克风时，生成关闭音频设备的指令。

在另一个更具体的例子中，提取第二信号的参数，根据第二信号的参数按照预设的规则生成相应的指令的步骤S2220b，可以进一步包括：将第二信号对应的麦克风标识按照第二信号出现的时间进行排序，得到麦克风被操作的顺序，根据麦克风被操作的顺序生成相应的指令。

例如，参考图5所示，根据预设的规则，当先按压标识为G的麦克风、再按压标识为H的麦克风时，生成重启音频设备的指令；当先按压标识为H的麦克风、再按压标识为G的麦克风时，生成接听与音频设备建立数据通信连接的手机电话的指令；当先按压标识为H的麦克风、再按压标识为I的麦克风时，生成降低音频设备的音量的指令；当先标识为I的麦克风、再按压标识为G的麦克风时，生成控制音频设备播放下一首的指令。

在又一个例子中，根据操作动作生成相应的指令，根据指令对控制对象进行控制的步骤S2200，可以进一步包括：根据操作动作生成相应的指令，根据指令对与音频设备建立数据通信连接的其它物联网设备进行控制。

音频设备可以例如是智能音箱。

<例子一>以手机为例，参考图5所示，根据预设的规则，当同时按压标识为G的麦克风和标识为H的麦克风时，生成接听与音频设备建立数据通信连接的手机电话的指令；当按压标识为I的麦克风时，生成增大与音频设备建立数据通信连接的手机的通话声音的指令；当连续按压标识为I的麦克风两次时，生成降低与音频设备建立数据通信连接的手机的通话声音的指令。

<例子二>以智能电视为例，参考图5所示，根据预设的规则，当按压标识为H的麦克风时，生成暂停与音频设备建立数据通信连接的智能电视播放功能的指令；当连续按压标识为H的麦克风两次时，生成继续播放与音频设备建立数据通信连接的智能电视播放功能的指令；当同时按压标识为G的麦克风和标识为I的麦克风时，生成切换与音频设备建立数据通信连接的智能电视的播放内容的指令；当按压标识为I的麦克风时，生成增大与音频设备建立数据通信连接的智能电视的播放声音的指令；当连续按压标识为I的麦克风两次时，生成降低与音频设备建立数据通信连接的智能电视的播放声音的指令。

根据本例子的方案，通过对多个麦克风的操作动作进行复合定义，可以基于少量的麦克风，根据操作动作生成多种不同的指令，以实现对音频设备和/或与音频设备建立数据通信连接的其它物联网设备的控制，可以避免在音频设备上设置结构复杂的物理按键或者电容触摸键，控制方式简单，方便用户使用。

以上已经结合附图和例子说明本实施例中提供的基于音频设备实现的交互方法，用户通过对麦克风进行操作动作，基于麦克风的操作动作生成相应的指令，以实现对音频设备和/或与音频设备建立数据通信连接的其它物联网设备的控制，可以避免在音频设备上设置结构复杂的物理按键或者电容触摸键，控制方式简单，方便用户使用。

<第二实施例>

在本实施例中，还提供一种音频设备6000，如图6所示，音频设备6000设置至少一个麦克风6100。

音频设备6000是能够播放声音的设备，可以具有和用户进行语音交互的能力。音频设备6000可以是用户通过语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报等。音频设备6000可以例如是智能音箱、智能播放器、智能手机等。

音频设备6000可以与物联网设备建立数据通信连接。物联网设备可以例如是移动终端、智能家居、智能电视、智能耳机、投影仪等。移动终端例如是手机、便携式电脑、平板电脑、掌上电脑、可穿戴设备等。

音频设备6000包括处理器6200和存储器6300。

存储器6300，可以用于存储可执行的指令；

处理器6200，可以用于根据可执行的指令的控制，运行音频设备，执行如本实施例中提供的基于音频设备实现的交互方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分相互参见即可，每个实施例重点说明的都是与其他实施例的不同之处，但本领域技术人员应当清楚的是，上述各实施例可以根据需要单独使用或者相互结合使用。另外，对于装置实施例而言，由于其是与方法实施例相对应，所以描述得比较简单，相关之处参见方法实施例的对应部分的说明即可。以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于音频设备实现的交互方法，应用于交互系统，所述交互系统包括音频设备和物联网设备，所述音频设备设置有至少一个麦克风，所述方法包括：

检测用户对所述麦克风的操作动作；所述检测用户对所述麦克风的操作动作包括：获取第一信号，所述第一信号为所述麦克风输出的信号；检测所述第一信号的幅值以判断是否出现所述操作动作，其中，所述操作动作包括用户靠近麦克风和用户按压麦克风；

2.根据权利要求1所述的方法，其中，所述检测所述第一信号的幅值以判断是否出现所述操作动作，包括：

3.根据权利要求2所述的方法，其中，所述检测所述第一信号的幅值的变量以判断是否出现所述操作动作，包括：

4.根据权利要求2所述的方法，其中，所述检测所述第一信号的幅值的变量以判断是否出现所述操作动作，包括：

5.根据权利要求2所述的方法，其中，所述检测所述第一信号的幅值的变量以判断是否出现所述操作动作，包括：

如果所述第一麦克风输出第一信号的幅值与至少一个其它麦克风在同一时刻输出的第一信号的幅值的比值大于预设的比值阈值，则判断出现了对于所述第一麦克风的所述操作动作。

6.根据权利要求2所述的方法，其中，所述检测所述第一信号的幅值的变量以判断是否出现所述操作动作，包括：

7.根据权利要求2所述的方法，其中，所述检测所述第一信号的幅值的变量以判断是否出现所述操作动作，包括：

8.根据权利要求1所述的方法，其中，所述检测所述第一信号的幅值以判断是否出现所述操作动作，包括：

9.根据权利要求1所述的方法，其中，所述音频设备还包括设置在所述麦克风周围的红外传感器；

所述检测用户对所述麦克风的操作动作，包括：

10.根据权利要求1所述的方法，其中，所述根据所述操作动作生成相应的指令，包括：从所述第一信号中截取出超出第二幅值阈值的部分，得到第二信号；提取所述第二信号的参数，根据所述第二信号的参数按照预设的规则生成相应的指令；

其中，所述第二信号的参数包括下列任一或者组合：

所述第二信号持续的时间长度；

在预设的时间长度内出现所述第二信号的次数；

所述第二信号的幅值。

11.根据权利要求1所述的方法，其中，所述麦克风为多个，每个所述麦克风具有唯一的麦克风标识；

其中，所述第二信号的参数包括下列任一或者组合：

所述第二信号持续的时间长度；

在预设的时间长度内出现所述第二信号的次数；

所述第二信号的幅值；

所述第二信号对应的麦克风标识；

所述第二信号出现的时间。

12.根据权利要求11所述的方法，其中，所述根据所述第二信号的参数按照预设的规则生成相应的指令，包括下列方式任一或组合：

根据所述第二信号对应的麦克风标识，生成相应的指令；

13.根据权利要求1所述的方法，所述指令包括：

重启所述音频设备的指令；

暂停所述音频设备播放功能的指令；

增大、降低所述音频设备的音量的指令；

启动所述音频设备连接网络的指令；

关闭所述音频设备的指令；

接听与所述音频设备建立数据通信连接的手机电话的指令。

14.一种音频设备，所述音频设备设置有至少一个麦克风，所述音频设备包括处理器和存储器；

所述存储器存储有程序指令，所述程序指令被所述处理器运行时执行实现权利要求1-13任一项所述的方法。