CN115762516B

CN115762516B - 一种人机交互控制方法、设备及存储介质

Info

Publication number: CN115762516B
Application number: CN202211396200.4A
Authority: CN
Inventors: 于宝乾
Original assignee: Shuoshang Culture Media Co ltd
Current assignee: Shuoshang Culture Media Co ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2024-02-09
Anticipated expiration: 2042-11-09
Also published as: CN115762516A

Abstract

本发明属于人机交互控制技术领域，公开一种人机交互控制方法、设备及存储介质，本发明在进行智能音箱唤醒控制时通过对采集的声音信息进行语义处理，大大提高了唤醒的准确率，有利于提高用户的使用体验感，并在播放音频过程中实时感应目标空间内是否存在人体，进而根据感应结果进行关闭判断，为智能音箱的关闭提供了更加实用科学的控制方式，有效避免了播放资源的浪费，具有一定的实用性价值，与此同时在智能音箱播放音频过程中通过对控制用户的位置特征和待播放音频的频率属性进行抓取分析，由此对智能音箱的发声孔和播放音量进行针对性的调控，使得调控结果与控制人的倾听需求适配度更高，提高了智能音箱的播放品质。

Description

一种人机交互控制方法、设备及存储介质

技术领域

本发明属于人机交互控制技术领域，特别涉及智能音箱语音交互计算，具体而言是一种人机交互控制方法、设备及存储介质。

背景技术

人机交互是指用户与机器之间相互沟通，使得机器理解用户意图的一种技术。随着人工智能的发展，目前人机交互涉及的交互载体已从原先的计算机扩展到电子产品、家居产品、机器人等，由于不同交互载体的交互需要不一样，由此衍生出不同的交互形式，例如语音交互、触控交互、视觉交互。上述中语音交互凭借性能优异、准确度高、感官占用更少的优势成为应用最为广泛的交互形式，其中语音交互体现最明显的交互载体为智能音箱。

在实现本申请的过程中，发明人发现目前智能音箱的人机交互控制方式过于单一、局限，且不够深入，具体体现在以下几点：1.目前智能音箱在进行唤醒控制时由于缺乏对采集音频的语义处理，使其容易受到周围环境声和同音唤醒词的误触发，导致误唤醒率过高，大大影响了用户的使用体验感。

2.目前智能音箱的关闭只能单纯依据控制人的语音反馈进行控制，这种控制方式在播放音频过程中容易因控制人在离开时忘记反馈出现智能音箱在没有人的情况下还继续播放的情况，在一定程度上造成了播放资源的浪费。

3.目前智能音箱在进行音频播放时对发声孔和播放音量的调控采用的方式为固定调控，忽略了控制人所在位置、待播放音频的频率属性对发声孔和播放音量的调控影响，导致发声孔和播放音量的调控缺乏针对性，灵活性差，使得调控结果与控制人的倾听需求适配度不高，无形之中降低了智能音箱的播放品质。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种人机交互控制方法、设备及存储介质，能够有效弥补目前智能音箱的人机交互控制方式存在的缺陷。

本发明的目的可以通过以下技术方案来实现：第一方面，本发明提供一种人机交互控制方法，包括以下步骤：A、将智能音箱所处空间记为目标空间，进而在智能音箱开启之后由其表面安装的拾音器实时采集指定空间内存在的声音信息。

B、将采集的声音信息进行语义处理，判断是否属于唤醒指令，若属于唤醒指令，则对智能音箱启动唤醒操作，反之则不启动唤醒操作。

C、当智能音箱唤醒之后由拾音器从唤醒指令中识别出待播放音频名称，记为指定音频，并调取指定音频。

D、由智能音箱表面设置的红外摄像头向目标空间进行扫描，记录控制用户所在位置，并据此确定智能音箱对应的适配发声孔和适配播放音量，进而打开智能音箱对应的适配发声孔，并按照适配播放音量进行指定音频播放。

E、在指定音频播放过程中由红外摄像头实时感应控制用户是否处于目标空间内，若不处于目标空间内，则调取预先设定的关闭提示语音进行播放，并在播放之后记录接收反馈指令时间，若在设定的时间间隔内未接收到反馈指令，则关闭智能音箱。

在本发明第一方面的一种能够实现的方式中，所述将采集的声音信息进行语义处理，判断是否属于唤醒指令具体操作如下：B-1、将采集的声音信息进行频率扰动分析，进而根据分析结果判断采集的声音信息是否为语音信息，若为语音信息则执行B-2～B-5，反之则停止操作。

B-2、将采集的声音信息进行文本转化，得到语音文本内容，并将转化得到的语音文本内容进行分词处理，划分为若干词组。

B-3、将划分的各词组与智能音箱对应的指定唤醒词进行匹配，若某词组匹配成功，则将该词组记为重点词组，并执行B-4，反之则停止操作。

B-4、将语音文本内容聚焦在重点词组所在位置，提取重点词组对应的前文词组和后文词组，并将重点词组结合前文词组和后文词组进行词组搭配，形成重点词组对应的搭配词组。

B-5、将重点词组对应的搭配词组与语义信息库中各词组对应的逻辑搭配集合进行比对，若比对成功，则判断采集的声音信息不属于唤醒指令，若比对失败，则判断采集的声音信息属于唤醒指令。

在本发明第一方面的一种能够实现的方式中，所述B-1对应的具体实施过程如下：B-1-1、将采集的声音信息进行频谱转换，得到声音信息对应的频谱图，并从中提取平均频率和相邻时间点对应的频率变化量。

B-1-2、将相邻时间点对应的频率变化量进行对比，从中选择最大频率变化量和最小频率变化量，并将其导入频率变化扰动度计算公式计算出声音信息对应的频率变化扰动度η，其中Δfmax、Δfmin分别表示为最大频率变化量、最小频率变化量，/>表示为平均频率。

B-1-3、将声音信息对应的频率变化扰动度与控制数据库中存储的语音对应的频率变化扰动度范围进行对比，若声音信息对应的频率变化扰动度处于语音对应的频率变化扰动度范围内，则判断采集的声音信息为语音信息。

在本发明第一方面的一种能够实现的方式中，所述确定智能音箱对应的适配发声孔具体包括以下步骤：D-1、以控制用户从头部到脚部的距离为旋转轴，以设定的距离为半径进行旋转，得到圆柱体，圆柱体内区域为控制用户对应的倾听空间范围，并将圆柱体的上端底面圆记为头部表征圆，将下端底面圆记为脚部表征圆。

D-2、在圆柱体的头部表征圆上定位出第一头部关联点和第二头部关联点，在圆柱体的脚部表征圆上定位出第一脚部关联点和第二脚部关联点。

D-3、分别将第一头部关联点和第二头部关联点向智能音箱上端面作切线，得到智能音箱上端面的两个切点，分别记为上端第一切点、上端第二切点，将第一脚部关联点和第二脚部关联点向智能音箱下端面作切线，得到智能音箱下端面的两个切点，分别记为下端第一切点、下端第二切点。

D-4、将智能音箱面向控制用户的一侧表面区域上端第一切点、上端第二切点、下端第一切点和下端第二切点围绕而成的区域记为智能音箱的特定发声区域；

D-5、将智能音箱的特定发声区域上存在的发声孔作为智能音箱对应的适配发声孔。

在本发明第一方面的一种能够实现的方式中，所述适配播放音量对应的确定过程如下：(1)在目标空间内进行三维坐标系建立，并根据控制用户所在位置定位控制用户在目标空间的位置坐标，同时定位智能音箱在目标空间的位置坐标，进而结合控制用户在目标空间的位置坐标和智能音箱在目标空间的位置坐标获取控制用户与智能音箱之间的距离，将其作为播放距离，记为l。

(2)将指定音频生成对应的波形图，并从中提取相邻声波之间的间隔时长。

(3)将相邻声波之间的间隔时长进行均值计算，得到声波平均间隔时长，此时将相邻声波之间的间隔时长和声波平均间隔时长导入声波间隔时长波动度计算公式计算出指定音频对应的声波间隔时长波动度σ，Δt_i+1→i表示为指定音频波形图中第i+1个声波与第i个声波之间的间隔时长，i表示为声波的编号，i＝1,2,…,n，n表示为波形图中存在的声波数量，/>表示为声波平均间隔时长，e表示为自然常数。

(4)将指定音频对应的声波间隔时长波动度与预设阈值进行对比，若指定音频对应的声波间隔时长波动度小于或等于预设阈值，则将声波平均间隔时长作为指定音频对应的倾向声波平均间隔时长，反之则将相邻声波之间间隔时长中最短间隔时长作为指定音频对应的倾向声波平均间隔时长。

(5)将指定音频对应的倾向声波平均间隔时长与控制数据库中存储的各声波平均间隔时长表征的频率进行匹配，进而将匹配成功的频率作为指定音频对应的声源频率，记为g。

(6)将l和g通过声源传播衰减度分析公式分析出指定音频对应的声源传播衰减度/>l₀、g₀表示为设定的参考传播距离、参考声源频率，α、β分别表示为预置的传播距离、声源频率对应的影响因子。

(7)从控制数据库中提取人耳标准倾听音量，记为V₀，进而将指定音频对应的声源传播衰减度和人耳标准倾听音量通过适配播放音量反推公式计算出智能音箱对应的适配播放音量V。

在本发明第一方面的一种能够实现的方式中，还包括F、在设定的交互周期内调取智能音箱的播放记录，并提取各条播放记录对应的播放参数,其中播放参数包括播放音频名称、播放时间点及控制用户面部轮廓，进而据此解析出各控制用户对应的偏好倾听时间点及偏好音频。

G：在智能音箱工作过程中实时监测当前时间点，并将其与各控制用户对应的偏好倾听时间点进行对比，若当前时间点与某控制用户对应的偏好倾听时间点一致，则在该时间点由摄像头向目标空间进行扫描，识别目标空间是否存在该控制用户，若存在，则提取设定的主动交互提示语音进行播放，并在播放之后识别是否接收到积极反馈指令，若在设定的时间间隔内接收到积极反馈指令，则调取该控制用户对应的偏好音频进行播放。

在本发明第一方面的一种能够实现的方式中，所述解析出各控制用户对应的偏好倾听时间点参见下述步骤：F-1、从播放参数中提取控制用户面部轮廓，进而将各条播放记录对应的控制用户面部轮廓进行对比，以此将相同面部轮廓对应的播放记录进行归类，得到各控制用户对应的播放记录集合。

F-2、从播放参数中提取播放时间点，并将各控制用户对应的播放记录集合中各条播放记录对应的播放时间点进行对比，判断是否存在相同播放时间点，若存在，则将相同播放时间点作为备选播放时间点，并统计各控制用户在设定交互周期内存在的备选播放时间点数量及各备选播放时间点的出现频次，进而将各控制用户中出现频次最多的备选播放时间点作为各控制用户对应的偏好倾听时间点。

在本发明第一方面的一种能够实现的方式中，所述偏好音频对应的具体解析方法如下：第一步、根据各控制用户对应的偏好倾听时间点从各控制用户对应的播放记录集合中提取各控制用户中属于偏好倾听时间点的播放记录，将其作为关键播放记录。

第二步、从各控制用户对应的各条关键播放记录中提取播放音频名称，并进行对比，判断是否存在相同音频，若存在，则将相同音频作为备选音频，并统计各控制用户在偏好倾听时间点存在的备选音频数量及各备选音频的播放次数，进而将各控制用户在偏好倾听时间点播放次数最多的备选音频作为各控制用户对应的偏好音频。

第二方面，本发明提供一种人机交互控制设备，所述设备包括处理器，以及与处理器连接的内存和网络接口；所述网络接口与服务器中的非易失性存储器连接；所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序，并通过所述内存运行所述计算机程序，以执行本发明所述的一种人机交互控制方法。

第三方面，本发明提供一种人机交互控制存储介质，所述存储介质烧录有计算机程序，所述计算机程序在服务器的内存中运行时实现本发明所述的一种人机交互控制方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

(1)本发明在进行智能音箱唤醒控制时通过对采集的声音信息进行语义处理，由此根据语义处理结果判断是否启动唤醒操作，能最大限度减少智能音箱因周围环境声和同音唤醒词造成的误触发，大大提高了唤醒的准确率，有利于提高用户的使用体验感。

(2)本发明通过在智能音箱上设置红外摄像头，由其在播放音频过程中实时感应目标空间内是否存在人体，并在识别不存在人体时进行关闭提示语音播放，进而根据反馈结果自动关闭，为智能音箱的关闭提供了更加实用科学的控制方式，有效弥补了现有关闭方式存在的适用场景局限的不足，大幅度降低了智能音箱在没有人的情况下还继续播放的发生率，从而避免了播放资源的浪费，具有一定的实用性价值。

(3)本发明在智能音箱播放音频过程中通过对控制用户的位置特征和待播放音频的频率属性进行抓取分析，由此对智能音箱的发声孔和播放音量进行针对性的调控，相对于统一调控，该调控方式更加贴近实际倾听需求，使得调控结果与控制人的倾听需求适配度更高，提高了智能音箱的播放品质，进一步提升了用户的听觉享受。

(4)本发明通过深化智能音箱的记忆功能，以此分析出用户的倾听偏好，进而在对应的偏好倾听时间点进行主动交互提示语音播放，实现了智能音箱的主动交互服务，丰富了目前智能音箱的交互功能，凸显了智能音箱的人性化交互特点，能够为用户提供有深度的交互体验保障，具有广阔的应用前景。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明的方法实施步骤流程图。

图2为本发明的智能音箱特定发声区域的构成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参照图1所示，本发明提出一种人机交互控制方法，包括以下步骤：A、将智能音箱所处空间记为目标空间，进而在智能音箱开启之后由其表面安装的拾音器实时采集指定空间内存在的声音信息。

上述中将采集的声音信息进行语义处理，判断是否属于唤醒指令具体操作如下：B-1、将采集的声音信息进行频率扰动分析，进而根据分析结果判断采集的声音信息是否为语音信息，若为语音信息则执行B-2～B-5，反之则停止操作，其中频率扰动分析的具体实施过程如下：B-1-1、将采集的声音信息进行频谱转换，得到声音信息对应的频谱图，并从中提取平均频率和相邻时间点对应的频率变化量。

B-1-2、将相邻时间点对应的频率变化量进行对比，从中选择最大频率变化量和最小频率变化量，并将其导入频率变化扰动度计算公计算出声音信息对应的频率变化扰动度η，其中Δfmax、Δfmin分别表示为最大频率变化量、最小频率变化量，/>表示为平均频率。

作为本发明的具体实施例，上述基于声音信息的频率扰动分析结果判断采集的声音信息是否为语音信息的判断依据为自然环境声音和语音的频率变化不同，通过进行频率扰动分析可以直观确定所采集声音对应的频率变化扰动度，从而较为方便地判断出采集的声音信息是否为语音信息。

B-5、将重点词组对应的搭配词组与语义信息库中各词组对应的逻辑搭配集合进行比对，若比对成功，表明重点词组在语音文本中存在固定逻辑搭配，此时判断采集的声音信息不属于唤醒指令，若比对失败，表明重点词组在语音文本中不存在固定逻辑搭配，属于独立个体，此时判断采集的声音信息属于唤醒指令。

需要说明的是，本发明对唤醒指令的识别是基于用户在唤醒智能音箱过程中要凸显出唤醒词，因此唤醒词基本与其他词组之间不存在逻辑关联，在有的情况下，采集的声音信息只具有重点词组。

本发明在进行智能音箱唤醒控制时通过对采集的声音信息进行语义处理，由此根据语义处理结果判断是否启动唤醒操作，能最大限度减少智能音箱因周围环境声和同音唤醒词造成的误触发，大大提高了唤醒的准确率，有利于提高用户的使用体验感。

参照图2所示，上述中确定智能音箱对应的适配发声孔具体包括以下步骤：D-1、以控制用户从头部到脚部的距离为旋转轴，以设定的距离为半径进行旋转，得到圆柱体，圆柱体内区域为控制用户对应的倾听空间范围，并将圆柱体的上端底面圆记为头部表征圆，将下端底面圆记为脚部表征圆。

需要说明的是上述第一头部关联点和第二头部关联点的定位是在头部表征圆上以水平方向穿越圆心作一条线段，该线段与头部表征圆的两个交点分别作为第一头部关联点和第二头部关联点，第一脚部关联点和第二脚部关联点的定位是在脚部表征圆上以水平方向穿越圆心作一条线段，该线段与脚部表征圆的两个交点分别作为第一脚部关联点和第二脚部关联点。

D-4、将智能音箱面向控制用户的一侧表面区域上端第一切点、上端第二切点、下端第一切点和下端第二切点围绕而成的区域记为智能音箱的特定发声区域。

本发明进行智能音箱适配发声孔确定的目的在于目前的智能音箱为了提高声音传播的覆盖面，在其表面上都均匀设置了若干发声孔，但由于控制用户位于目标空间的位置不同，其所需求的发声孔也是存在差异的，如果不考虑控制用户所处位置，将智能音箱表面存在的发声孔都调控为开启状态，对于那些没有落入控制用户倾听空间范围内的发声孔发出的声音不仅不会对控制用户的倾听效果产生促进作用，还有可能因声音的反射造成回声来干扰控制用户的倾听效果，因此根据控制用户所在位置来针对性的控制需要开启的发声孔是非常有必要的。

适配播放音量对应的确定过程如下：(1)在目标空间内进行三维坐标系建立，并根据控制用户所在位置定位控制用户在目标空间的位置坐标，同时定位智能音箱在目标空间的位置坐标，进而结合控制用户在目标空间的位置坐标和智能音箱在目标空间的位置坐标获取控制用户与智能音箱之间的距离，将其作为播放距离，记为l。

需要解释的是，上述提到的控制用户所在位置是指控制用户头部所在位置。

优选的，上述声波间隔时长波动度计算公式中相邻声波之间的间隔时长与声波平均间隔时长相差越小，指定音频对应的声波间隔时长波动度越小，表明指定音频中相邻声波之间的间隔时长越接近声波平均间隔时长。

需要解释的是，上述对指定音频对应倾向声波平均间隔时长的分析，其目的在于指定音频对应的倾向声波平均间隔时长直接反映了指定音频对应波形图中声波的疏密程度，而疏密程度代表了音频频率，且倾向声波平均间隔时长越短，表明声波越密集，代表音频的频率越高。

(6)将l和g通过声源传播衰减度分析公式分析出指定音频对应的声源传播衰减度/>l₀、g₀表示为设定的参考传播距离、参考声源频率，α、β分别表示为预置的传播距离、声源频率对应的影响因子，其中指定音频对应的传播距离、声源频率对声源传播衰减度的影响均为正影响。

在本发明的具体实施例中，对适配播放音量的确定是基于声源传输不仅会受传播距离的影响导致衰减，同时也受声源本身的频率影响导致衰减，且传播距离越远、声源本身频率越高，声源受到的衰减越大，因此为了保障智能音箱发出的声音传播到控制用户所在位置能够达到标准倾听音量就需要使智能音箱发出的声音音量调控到高于人耳标准倾听音量，而具体调控的音量值可以依据声源的传播衰减程度反推出智能音箱的适配播放音量。

本发明在智能音箱播放音频过程中通过对控制用户的位置特征和待播放音频的频率属性进行抓取分析，由此对智能音箱的发声孔和播放音量进行针对性的调控，相对于统一调控，该调控方式更加贴近实际倾听需求，使得调控结果与控制人的倾听需求适配度更高，提高了智能音箱的播放品质，进一步提升了用户的听觉享受。

E、在指定音频播放过程中由红外摄像头实时感应控制用户是否处于目标空间内，若不处于目标空间内，则调取预先设定的关闭提示语音进行播放，示例性的，关闭提示语音可以为“是否需要关闭播放”，并在播放之后记录接收反馈指令时间，若在设定的时间间隔内未接收到反馈指令，则关闭智能音箱。

本发明通过在智能音箱上设置红外摄像头，由其在播放音频过程中实时感应目标空间内是否存在人体，并在识别不存在人体时进行关闭提示语音播放，进而根据反馈结果自动关闭，为智能音箱的关闭提供了更加实用科学的控制方式，有效弥补了现有关闭方式存在的适用场景局限的不足，大幅度降低了智能音箱在没有人的情况下还继续播放的发生率，从而避免了播放资源的浪费，具有一定的实用性价值。

F、在设定的交互周期内调取智能音箱的播放记录，并提取各条播放记录对应的播放参数,其中播放参数包括播放音频名称、播放时间点及控制用户面部轮廓，进而据此解析出各控制用户对应的偏好倾听时间点及偏好音频。

示例性的，主动交互提示语音为“是否需要播放音频”。

需要说明的是，上述提到的积极反馈指令指的是正面的反馈信息，例如“需要播放”。

本发明通过深化智能音箱的记忆功能，以此分析出用户的倾听偏好，进而在对应的偏好倾听时间点进行主动交互提示语音播放，实现了智能音箱的主动交互服务，丰富了目前智能音箱的交互功能，凸显了智能音箱的人性化交互特点，能够为用户提供有深度的交互体验保障，具有广阔的应用前景。

本发明在具体实施过程中用到了语义信息库和控制数据库，其中语义信息库用于存储各词组对应的逻辑搭配集合，控制数据库用于存储语音对应的频率变化扰动度范围、各声波平均间隔时长表征的频率和人耳标准倾听音量。

实施例2

本发明提供一种人机交互控制设备，所述设备包括处理器，以及与处理器连接的内存和网络接口；所述网络接口与服务器中的非易失性存储器连接；所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序，并通过所述内存运行所述计算机程序，以执行本发明所述的一种人机交互控制方法。

实施例3

本发明提供一种人机交互控制存储介质，所述存储介质烧录有计算机程序，所述计算机程序在服务器的内存中运行时实现本发明所述的一种人机交互控制方法。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种人机交互控制方法，其特征在于，包括以下步骤：

A、将智能音箱所处空间记为目标空间，进而在智能音箱开启之后由其表面安装的拾音器实时采集指定空间内存在的声音信息；

B、将采集的声音信息进行语义处理，判断是否属于唤醒指令，若属于唤醒指令，则对智能音箱启动唤醒操作，反之则不启动唤醒操作；

C、当智能音箱唤醒之后由拾音器从唤醒指令中识别出待播放音频名称，记为指定音频，并调取指定音频;

D、由智能音箱表面设置的红外摄像头向目标空间进行扫描，记录控制用户所在位置，并据此确定智能音箱对应的适配发声孔和适配播放音量，进而打开智能音箱对应的适配发声孔，并按照适配播放音量进行指定音频播放；

E、在指定音频播放过程中由红外摄像头实时感应控制用户是否处于目标空间内，若不处于目标空间内，则调取预先设定的关闭提示语音进行播放，并在播放之后记录接收反馈指令时间，若在设定的时间间隔内未接收到反馈指令，则关闭智能音箱；

所述将采集的声音信息进行语义处理，判断是否属于唤醒指令具体操作如下：

B-1、将采集的声音信息进行频率扰动分析，进而根据分析结果判断采集的声音信息是否为语音信息，若为语音信息则执行B-2～B-5，反之则停止操作；

上述基于声音信息的频率扰动分析结果判断采集的声音信息是否为语音信息的判断依据为自然环境声音和语音的频率变化不同，通过进行频率扰动分析可以直观确定所采集声音对应的频率变化扰动度，从而较为方便地判断出采集的声音信息是否为语音信息；

所述B-1对应的具体实施过程如下：

B-1-1、将采集的声音信息进行频谱转换，得到声音信息对应的频谱图，并从中提取平均频率和相邻时间点对应的频率变化量；

B-1-2、将相邻时间点对应的频率变化量进行对比，从中选择最大频率变化量和最小频率变化量，并将其导入频率变化扰动度计算公式，计算出声音信息对应的频率变化扰动度/>，其中/>、/>分别表示为最大频率变化量、最小频率变化量，/>表示为平均频率；

B-1-3、将声音信息对应的频率变化扰动度与控制数据库中存储的语音对应的频率变化扰动度范围进行对比，若声音信息对应的频率变化扰动度处于语音对应的频率变化扰动度范围内，则判断采集的声音信息为语音信息；

B-2、将采集的声音信息进行文本转化，得到语音文本内容，并将转化得到的语音文本内容进行分词处理，划分为若干词组；

B-3、将划分的各词组与智能音箱对应的指定唤醒词进行匹配，若某词组匹配成功，则将该词组记为重点词组，并执行B-4，反之则停止操作；

B-4、将语音文本内容聚焦在重点词组所在位置，提取重点词组对应的前文词组和后文词组，并将重点词组结合前文词组和后文词组进行词组搭配，形成重点词组对应的搭配词组；

2.根据权利要求1所述的一种人机交互控制方法，其特征在于：所述确定智能音箱对应的适配发声孔具体包括以下步骤：

D-1、以控制用户从头部到脚部的距离为旋转轴，以设定的距离为半径进行旋转，得到圆柱体，圆柱体内区域为控制用户对应的倾听空间范围，并将圆柱体的上端底面圆记为头部表征圆，将下端底面圆记为脚部表征圆；

D-2、在圆柱体的头部表征圆上定位出第一头部关联点和第二头部关联点，在圆柱体的脚部表征圆上定位出第一脚部关联点和第二脚部关联点；

D-3、分别将第一头部关联点和第二头部关联点向智能音箱上端面作切线，得到智能音箱上端面的两个切点，分别记为上端第一切点、上端第二切点，将第一脚部关联点和第二脚部关联点向智能音箱下端面作切线，得到智能音箱下端面的两个切点，分别记为下端第一切点、下端第二切点；

3.根据权利要求1所述的一种人机交互控制方法，其特征在于：还包括F、在设定的交互周期内调取智能音箱的播放记录，并提取各条播放记录对应的播放参数,其中播放参数包括播放音频名称、播放时间点及控制用户面部轮廓，进而据此解析出各控制用户对应的偏好倾听时间点及偏好音频；

4.根据权利要求3所述的一种人机交互控制方法，其特征在于：所述解析出各控制用户对应的偏好倾听时间点参见下述步骤：

F-1、从播放参数中提取控制用户面部轮廓，进而将各条播放记录对应的控制用户面部轮廓进行对比，以此将相同面部轮廓对应的播放记录进行归类，得到各控制用户对应的播放记录集合；

5.根据权利要求4所述的一种人机交互控制方法，其特征在于：所述偏好音频对应的具体解析方法如下：

第一步、根据各控制用户对应的偏好倾听时间点从各控制用户对应的播放记录集合中提取各控制用户中属于偏好倾听时间点的播放记录，将其作为关键播放记录；

6.一种人机交互控制设备，其特征在于：所述设备包括处理器，以及与处理器连接的内存和网络接口；所述网络接口与服务器中的非易失性存储器连接；所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序，并通过所述内存运行所述计算机程序，以执行上述权利要求1-5任一项所述的方法。

7.一种人机交互控制存储介质，其特征在于：所述存储介质烧录有计算机程序，所述计算机程序在服务器的内存中运行时实现上述权利要求1-5任一项所述的方法。