CN117672228A

CN117672228A - 基于机器学习的智能语音交互误唤醒系统及方法

Info

Publication number: CN117672228A
Application number: CN202311663112.0A
Authority: CN
Inventors: 平继秒
Original assignee: Shandong Lingxiao Communication Technology Co ltd
Current assignee: Shandong Lingxiao Communication Technology Co ltd
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-03-08

Abstract

本发明公开了基于机器学习的智能语音交互误唤醒系统及方法，涉及智能语音交互技术领域，该系统包括特征采集模块、验证比对模块以及执行输出模块，验证比对模块用于对唤醒词准确度评估值Pgz及口型动态数据做综合评估；其技术要点为：在唤醒词准确度评估值Pgz可用的前提下，对口型动态数据与数据库一致语音数据进行执行，利用语音和视频图像结合判断，避免误唤醒的情况发生，若是遇到无法检测到用户口型的场景下，则可通过智能设备之间的联动，利用至少两组语音采集单元获取同一环境下，可用的唤醒词准确度评估值Pgz，分析两组唤醒词准确度评估值Pgz的误差绝对值，在误差范围内即可判断出唤醒口令是否准确，可准确的完成唤醒操作。

Description

基于机器学习的智能语音交互误唤醒系统及方法

技术领域

本发明涉及智能语音交互技术领域，具体为基于机器学习的智能语音交互误唤醒系统及方法。

背景技术

智能语音交互是一种通过语音与计算机或其他设备进行交互的技术，它使用语音识别将用户的语音转换为文本，然后使用自然语言处理技术将文本进行理解和分析，最后通过语音合成将计算机的回应转换为语音输出，智能语音交互的目标是使人与计算机之间的交互更加自然和便捷，通过语音指令，用户可以向设备提出问题、发送命令、获取信息或执行各种任务，而无需通过键盘、鼠标或触摸屏进行操作，这使得智能语音交互在各种场景中广泛应用，如智能音箱、语音助手、智能家居以及车载系统。

现有申请公布号为CN115798473A的中国发明申请中，公开了一种语音交互的智能语音设备防误唤醒方法、系统及设备，应用于至少两台智能语音设备对应用户的视频语音交互上，每台智能语音设备上设置有用于识别的识别特征，该方法通过智能语音设备自身的识别特征与接收到唤醒指令中提取的唤醒识别特征进行对比，只有唤醒识别特征与智能语音设备的识别特征一致时，该智能语音设备才能根据唤醒指令执行相应的操作。

在以上发明申请中，使用到至少两台智能语音设备，需要对获取到的识别特征进行对比才能进行后续唤醒相关操作，然而在实际运用时持续使用两台智能语音设备的耗能量较多，对于获取到的识别特征相关参数较少，造成两台智能语音设备提取到的特征会存在一些不可避免的误差，该部分误差则会影响对于识别特征一致性的判断，使得用户即是正确说出唤醒口令的前提下，由于外界因素或是自身原因，会导致设备无法成功唤醒的情况出现。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于机器学习的智能语音交互误唤醒系统及方法，在唤醒词准确度评估值Pgz可用的前提下，对口型动态数据与数据库一致语音数据进行执行，利用语音和视频图像结合判断，避免误唤醒的情况发生，若是遇到无法检测到用户口型的场景下，则可通过智能设备之间的联动，利用至少两组语音采集单元获取同一环境下，可用的唤醒词准确度评估值Pgz，分析两组唤醒词准确度评估值Pgz的误差绝对值，在误差范围内即可判断出唤醒口令是否准确，可准确的完成唤醒操作，解决了背景技术中提出的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

基于机器学习的智能语音交互误唤醒系统，该系统应用到至少两个智能语音设备和一个智能监控设备，本申请中具体使用到结构、功能相同的第一智能语音设备和第二智能语音设备，且两个智能语音设备处于同一工作环境下，该系统包括特征采集模块、验证比对模块以及执行输出模块；

其中，所述特征采集模块包括第一语音采集单元、第二语音采集单元以及口型采集单元，第一语音采集单元和第二语音采集单元均用于采集语音数据，并获取唤醒词准确度评估值Pgz，所述口型采集单元用于对人体脸部进行动态图像捕捉，并提取口型动态数据；

所述验证比对模块用于对唤醒词准确度评估值Pgz及口型动态数据做综合评估；

所述执行输出模块根据综合评估的结果来选择是否唤醒智能语音设备。

进一步的，所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备，且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元。

其中，所述预处理子单元用于对采集到的语音数据进行标记，标记出唤醒词在每个语音片段中的位置，记录其他噪音数据，并完成噪音抑制，在对噪音抑制时利用到了频域滤波法，尽量减小杂音对语音信号的影响，提高语音信号清晰度；

所述分析子单元用于提取语音特征，建立模型训练并完成评估；

其中，分析子单元的具体步骤为：

S1、特征提取：针对语音片段中的标记位置，提取语音特征，该语音特征包括：频率P、频域能量N以及频域过零率L；

需要说明的是，频率P：声音的频率是指声波振动的频率，通常以赫兹为单位，不同频率的声波会产生不同的音调，频率可以通过音频信号的频谱分析来获取；快速傅里叶变换(FFT)：将时域信号转换为频域信号，得到频谱，通过FFT算法，可以将连续时间的信号转换为离散频谱；频域能量N：将音频信号通过FFT算法变换到频域，计算每个频率分量的幅值的平方作为频域能量；频域过零率L：将音频信号通过FFT算法变换到频域，计算相邻频率分量之间过零点的个数作为频域过零率；

在实际应用中，也可以使用音频处理库或软件工具，如Librosa、MATLAB、Python的SciPy，来计算声音的频率P、频域能量N以及频域过零率L。

S2、模型训练：使用深度学习的神经网络，对提取到的语音特征进行训练，建立语音识别模型，训练过程在此不多做赘述；

S3、在语音识别模型中对获取到的频率P、频域能量N以及频域过零率L进行无量纲处理后，关联获取唤醒词准确度评估值Pgz；

方式如下：

式中，K₁、K₂、K₃分别为频率P、频域能量N以及频域过零率L的预设比例系数，且K₁、K₂、K₃均大于0，G为常数修正系数；

若是唤醒词准确度评估值Pgz<设置的标准阈值，则判定采集到的语音数据可用；

若是唤醒词准确度评估值Pgz≥设置的标准阈值，则判定采集到的语音数据不可用，需要重新进行语音数据采集处理。

具体的，将训练好的语音识别模型应用到实际场景中，通过输入语音数据，利用模型进行语音识别并输出相应的文本结果，该结果即获取唤醒词准确度评估值Pgz，并判定集到的语音数据可不可用。

进一步的，所述口型采集单元的使用步骤如下：

S101、设备设置：选取深度摄像头作为智能监控设备，并将其固定安装于适当位置，以确保深度摄像头能够清晰地捕捉到人体脸部动态图像；

S102、脸部检测和跟踪：使用人脸识别算法，从深度摄像头拍摄的视频中检测和识别出人脸区域，使用人脸跟踪算法跟踪人脸区域的位置和姿态；其中人脸跟踪算法使用的是MeanShift算法，该算法的原理为：根据上一帧目标的直方图及当前帧所得的图像来更新当前帧人脸位置，适用于本申请中进行单目标跟踪，能够确保跟踪结果的稳定性和准确性。

S103、口型提取：在脸部图像中，通过关键点检测法定位嘴唇区域的关键点，根据关键点的位置和运动，提取口型动态数据；需要说明的是：这些关键点可以用于描述嘴唇的形状和位置，在提取口型动态数据时使用到的常见方法至少包括：计算嘴唇区域的形状变化、距离变化以及角度变化。

进一步的，所述口型采集单元还包括判定子单元，若是能够提取到口型动态数据时，则进入验证比对模块完成下一步操作，若是无法提取到口型动态数据时，则触发提醒指令，并将该指令通过智能监控设备内置的蓝牙模块发送至另一智能语音设备，该设备则开启第二语音采集单元。

进一步的，所述验证比对模块包括数据库对比单元和评估值比对单元；

需要说明的是，数据库中提前录入了准确的口型动态数据，用于与实际获取到的口型动态数据完成对比工作。

其中，所述数据库对比单元用于将检测到的口型动态数据与数据库进行比对，并作为第一语音采集单元的验证节点；

若是口型动态数据与数据库中录入的数据一致，则表示通过，若是口型动态数据与数据库中录入的数据不一致，则表示不通过；

所述评估值比对单元用于对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz；

将第一语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz1，

将第二语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz2；

误差绝对值的获取方式如下：

误差绝对值＝∣Pgz1-Pgz2∣；

若是误差绝对值<1，则表示通过，若是误差绝对值≥1，则表示不通过。

进一步的，所述执行输出模块用于获取验证比对模块的结果，若是通过，则执行第一策略，若是不通过，则执行第二策略；

其中，第一策略为对应的智能语音设备做出响应，被成功唤醒，并根据语音提示，执行后续操作，第二策略为对应的智能语音设备不做出响应，无法被唤醒，可重行执行数据采集的操作。

一种基于机器学习的智能语音交互误唤醒方法，包括如下步骤：

步骤一、通过第一语音采集单元采集语音数据，根据获取的唤醒词准确度评估值Pgz来选取可用的语音数据，同步使用口型采集单元，完成对人体脸部进行动态图像捕捉，并提取口型动态数据；

步骤二、在提取口型动态数据时使用到智能监控设备，在智能监控设备能够拍摄到用户的场景下，则将口型动态数据发送至数据库中进行对比，若口型一致，则完成验证，智能语音设备被成功唤醒，并根据语音提示，执行后续操作；

若口型不一致，则智能语音设备不做出响应，无法被唤醒；

步骤三、在智能监控设备无法拍摄到用户的场景下，则触发提醒指令，并将该指令发送给第二语音采集单元，使用第二智能语音设备再次执行步骤一中关于第一语音采集单元的操作；

步骤四、对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz，并判断两个唤醒词准确度评估值Pgz之间的误差绝对值是否小于1，若是，则智能语音设备做出响应，被成功唤醒，若不是，则智能语音设备内的语音采集单元重复执行数据采集的操作，直至智能语音设备被唤醒。

(三)有益效果

本发明提供了基于机器学习的智能语音交互误唤醒系统及方法，具备以下有益效果：

将口型动态和语音数据相结合，通过语音采集单元对唤醒词准确度进行初步评估后，获取可用的唤醒词准确度评估值Pgz，结合口型采集单元完成对用户发出唤醒口令的口型动态进行捕捉，在唤醒词准确度评估值Pgz可用的前提下，对口型动态数据与数据库一致语音数据进行执行，利用语音和视频图像结合判断，可精准实现对智能语音设备的唤醒工作；

若是遇到无法检测到用户口型的场景下，则可通过智能设备之间的联动，利用至少两组语音采集单元获取同一环境下，可用的唤醒词准确度评估值Pgz，分析两组唤醒词准确度评估值Pgz的误差绝对值，在误差范围内即可判断出唤醒口令是否准确，可准确的完成唤醒操作，在能够检测到用户口型的场景下，则只是使用单个智能语音设备和智能监控设备进行配合工作，达到节省电能的目的，也能够避免误唤醒的情况发生。

附图说明

图1为本发明基于机器学习的智能语音交互误唤醒系统的整体模块图；

图2为本发明基于机器学习的智能语音交互误唤醒系统的模块运行状态结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1-图2，本发明提供基于机器学习的智能语音交互误唤醒系统，该系统应用到至少两个智能语音设备和一个智能监控设备，智能监控设备在完成监控的同时，还能对用户口型动态数据进行获取，并不是专门用于本系统的结构，故不存在损耗多余电能的情况，该系统包括特征采集模块、验证比对模块以及执行输出模块；

其中，特征采集模块包括第一语音采集单元、第二语音采集单元以及口型采集单元，第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备，且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元；

预处理子单元用于对采集到的语音数据进行标记，标记出唤醒词在每个语音片段中的位置，记录其他噪音数据，并完成噪音抑制，在对噪音抑制时利用到了频域滤波法，尽量减小杂音对语音信号的影响，提高语音信号清晰度；

分析子单元用于提取语音特征，建立模型训练并完成评估；

其中，分析子单元的具体步骤为：

需要说明的是，频率P：声音的频率是指声波振动的频率，通常以赫兹为单位，不同频率的声波会产生不同的音调，频率可以通过音频信号的频谱分析来获取；快速傅里叶变换(FFT)：将时域信号转换为频域信号，得到频谱，通过FFT算法，可以将连续时间的信号转换为离散频谱；

频域能量N：将音频信号通过FFT算法变换到频域，计算每个频率分量的幅值的平方作为频域能量；

频域过零率L：将音频信号通过FFT算法变换到频域，计算相邻频率分量之间过零点的个数作为频域过零率；

在实际应用中，也可以使用音频处理库或软件工具，如Librosa、MATLAB、Python的SciPy，来计算声音的频率P、频域能量N以及频域过零率L；

S2、模型训练：使用深度学习的神经网络，对提取到的语音特征进行训练，建立语音识别模型；其中，训练过程中需要使用大量的标记数据(具有标记位置的语音片段)进行监督学习，以提高语音识别模型的准确性和鲁棒性；

S3、评估处理：在语音识别模型中对获取到的频率P、频域能量N以及频域过零率L进行无量纲处理后，关联获取唤醒词准确度评估值Pgz，方式如下：

若是唤醒词准确度评估值Pgz≥设置的标准阈值，则判定采集到的语音数据不可用，需要重新进行语音数据采集处理；

口型采集单元用于对人体脸部进行动态图像捕捉，并提取口型动态数据；

该口型采集单元的使用步骤如下：

S101、设备设置：选取深度摄像头作为智能监控设备，并将其固定安装于适当位置，以确保深度摄像头能够清晰地捕捉到人体脸部动态图像，同时该深度摄像头也起到本身的监控作用；

S102、脸部检测和跟踪：使用人脸识别算法，从深度摄像头拍摄的视频中检测和识别出人脸区域，使用人脸跟踪算法跟踪人脸区域的位置和姿态；

其中人脸跟踪算法使用的是MeanShift算法，该算法的原理为：根据上一帧目标的直方图及当前帧所得的图像来更新当前帧人脸位置，适用于本申请中进行单目标跟踪，能够确保跟踪结果的稳定性和准确性；

S103、口型提取：在脸部图像中，通过关键点检测法定位嘴唇区域的关键点，根据关键点的位置和运动，提取口型动态数据；

需要说明的是：这些关键点可以用于描述嘴唇的形状和位置，在提取口型动态数据时使用到的常见方法至少包括：计算嘴唇区域的形状变化、距离变化以及角度变化；

口型采集单元还包括判定子单元，若是能够提取到口型动态数据时，则进入验证比对模块完成下一步操作，若是无法提取到口型动态数据时，则触发提醒指令，并将该指令通过智能监控设备内置蓝牙模块发送至另一智能语音设备，该设备则开启第二语音采集单元；

验证比对模块包括数据库对比单元和评估值比对单元；

其中，数据库对比单元用于将检测到的口型动态数据与数据库进行比对，并作为第一语音采集单元的验证节点；

具体的，将口型动态和语音数据相结合，通过语音采集单元对唤醒词准确度进行初步评估后，获取可用的唤醒词准确度评估值Pgz，结合口型采集单元完成对用户发出唤醒口令的口型动态进行捕捉，在唤醒词准确度评估值Pgz可用的前提下，对口型动态数据与数据库一致语音数据进行执行，利用语音和视频图像结合判断，可精准实现对智能语音设备的唤醒工作。

评估值比对单元用于对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz；

误差绝对值的获取方式如下：

误差绝对值＝∣Pgz1-Pgz2∣；

若是误差绝对值<1，则表示通过；

若是误差绝对值≥1，则表示不通过。

执行输出模块用于获取验证比对模块的结果，若是通过，则执行第一策略，若是不通过，则执行第二策略；

其中，第一策略为对应的智能语音设备做出响应，被成功唤醒，并根据语音提示，执行后续操作；第二策略为对应的智能语音设备不做出响应，无法被唤醒，可重行执行数据采集的操作。

具体的，若是遇到无法检测到用户口型的场景下，则可通过智能设备之间的联动，利用至少两组语音采集单元获取同一环境下，可用的唤醒词准确度评估值Pgz，分析两组唤醒词准确度评估值Pgz的误差绝对值，在误差范围内即可判断出唤醒口令是否准确，可准确的完成唤醒操作，在能够检测到用户口型的场景下，则只是使用单个智能语音设备和智能监控设备进行配合工作，达到节省电能的目的，也能够避免误唤醒的情况发生。

实施例2：本发明提供基于机器学习的智能语音交互误唤醒方法，包括如下步骤：

若口型不一致，则智能语音设备不做出响应，无法被唤醒；

具体的，若是遇到无法检测到用户口型的场景下，则可通过智能设备之间的联动，利用至少两组语音采集单元获取同一环境下，可用的唤醒词准确度评估值Pgz，分析两组唤醒词准确度评估值Pgz的误差绝对值，在误差范围内即可判断出唤醒口令是否准确，可准确的完成唤醒操作；若是遇到能够检测到用户口型的场景下，在唤醒词准确度评估值Pgz可用的前提下，对口型动态数据与数据库一致语音数据进行执行，利用语音和视频图像结合判断，避免同时使用两个智能语音设备，在一定程度上能够达到节省电能的目的，也能够避免误唤醒的情况发生。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.基于机器学习的智能语音交互误唤醒系统，该系统应用到至少两个智能语音设备和一个智能监控设备，其特征在于：该系统包括特征采集模块、验证比对模块以及执行输出模块；

2.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备，且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元。

3.根据权利要求2所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述预处理子单元用于对采集到的语音数据进行标记，标记出唤醒词在每个语音片段中的位置，记录其他噪音数据，并完成噪音抑制。

4.根据权利要求2所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述分析子单元用于提取语音特征，建立模型训练并完成评估；

其中，分析子单元的具体步骤为：

S2、模型训练：使用深度学习的神经网络，对提取到的语音特征进行训练，建立语音识别模型；

方式如下：

5.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述口型采集单元的使用步骤如下：

S103、口型提取：在脸部图像中，通过关键点检测法定位嘴唇区域的关键点，根据关键点的位置和运动，提取口型动态数据。

6.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述口型采集单元还包括判定子单元，若是能够提取到口型动态数据时，则进入验证比对模块完成下一步操作，若是无法提取到口型动态数据时，则触发提醒指令，并将该指令通过智能监控设备内置的蓝牙模块发送至另一智能语音设备，该设备则开启第二语音采集单元。

7.根据权利要求4所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述验证比对模块包括数据库对比单元和评估值比对单元。

8.根据权利要求7所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述数据库对比单元用于将检测到的口型动态数据与数据库进行比对，并作为第一语音采集单元的验证节点；

误差绝对值的获取方式如下：

误差绝对值＝∣Pgz1-Pgz2∣；

9.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述执行输出模块用于获取验证比对模块的结果，若是通过，则执行第一策略，若是不通过，则执行第二策略；

10.一种基于机器学习的智能语音交互误唤醒方法，使用权利要求1至9中的任一种系统，其特征在于：包括如下步骤：

若口型不一致，则智能语音设备不做出响应，无法被唤醒；