CN117672228A - 基于机器学习的智能语音交互误唤醒系统及方法 - Google Patents
基于机器学习的智能语音交互误唤醒系统及方法 Download PDFInfo
- Publication number
- CN117672228A CN117672228A CN202311663112.0A CN202311663112A CN117672228A CN 117672228 A CN117672228 A CN 117672228A CN 202311663112 A CN202311663112 A CN 202311663112A CN 117672228 A CN117672228 A CN 117672228A
- Authority
- CN
- China
- Prior art keywords
- voice
- wake
- intelligent
- pgz
- mouth shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000010801 machine learning Methods 0.000 title claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 57
- 238000012795 verification Methods 0.000 claims abstract description 26
- 238000012544 monitoring process Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 11
- 238000012806 monitoring device Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002618 waking effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 108010001267 Protein Subunits Proteins 0.000 claims 1
- 230000008859 change Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于机器学习的智能语音交互误唤醒系统及方法,涉及智能语音交互技术领域,该系统包括特征采集模块、验证比对模块以及执行输出模块,验证比对模块用于对唤醒词准确度评估值Pgz及口型动态数据做综合评估;其技术要点为:在唤醒词准确度评估值Pgz可用的前提下,对口型动态数据与数据库一致语音数据进行执行,利用语音和视频图像结合判断,避免误唤醒的情况发生,若是遇到无法检测到用户口型的场景下,则可通过智能设备之间的联动,利用至少两组语音采集单元获取同一环境下,可用的唤醒词准确度评估值Pgz,分析两组唤醒词准确度评估值Pgz的误差绝对值,在误差范围内即可判断出唤醒口令是否准确,可准确的完成唤醒操作。
Description
技术领域
本发明涉及智能语音交互技术领域,具体为基于机器学习的智能语音交互误唤醒系统及方法。
背景技术
智能语音交互是一种通过语音与计算机或其他设备进行交互的技术,它使用语音识别将用户的语音转换为文本,然后使用自然语言处理技术将文本进行理解和分析,最后通过语音合成将计算机的回应转换为语音输出,智能语音交互的目标是使人与计算机之间的交互更加自然和便捷,通过语音指令,用户可以向设备提出问题、发送命令、获取信息或执行各种任务,而无需通过键盘、鼠标或触摸屏进行操作,这使得智能语音交互在各种场景中广泛应用,如智能音箱、语音助手、智能家居以及车载系统。
现有申请公布号为CN115798473A的中国发明申请中,公开了一种语音交互的智能语音设备防误唤醒方法、系统及设备,应用于至少两台智能语音设备对应用户的视频语音交互上,每台智能语音设备上设置有用于识别的识别特征,该方法通过智能语音设备自身的识别特征与接收到唤醒指令中提取的唤醒识别特征进行对比,只有唤醒识别特征与智能语音设备的识别特征一致时,该智能语音设备才能根据唤醒指令执行相应的操作。
在以上发明申请中,使用到至少两台智能语音设备,需要对获取到的识别特征进行对比才能进行后续唤醒相关操作,然而在实际运用时持续使用两台智能语音设备的耗能量较多,对于获取到的识别特征相关参数较少,造成两台智能语音设备提取到的特征会存在一些不可避免的误差,该部分误差则会影响对于识别特征一致性的判断,使得用户即是正确说出唤醒口令的前提下,由于外界因素或是自身原因,会导致设备无法成功唤醒的情况出现。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于机器学习的智能语音交互误唤醒系统及方法,在唤醒词准确度评估值Pgz可用的前提下,对口型动态数据与数据库一致语音数据进行执行,利用语音和视频图像结合判断,避免误唤醒的情况发生,若是遇到无法检测到用户口型的场景下,则可通过智能设备之间的联动,利用至少两组语音采集单元获取同一环境下,可用的唤醒词准确度评估值Pgz,分析两组唤醒词准确度评估值Pgz的误差绝对值,在误差范围内即可判断出唤醒口令是否准确,可准确的完成唤醒操作,解决了背景技术中提出的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
基于机器学习的智能语音交互误唤醒系统,该系统应用到至少两个智能语音设备和一个智能监控设备,本申请中具体使用到结构、功能相同的第一智能语音设备和第二智能语音设备,且两个智能语音设备处于同一工作环境下,该系统包括特征采集模块、验证比对模块以及执行输出模块;
其中,所述特征采集模块包括第一语音采集单元、第二语音采集单元以及口型采集单元,第一语音采集单元和第二语音采集单元均用于采集语音数据,并获取唤醒词准确度评估值Pgz,所述口型采集单元用于对人体脸部进行动态图像捕捉,并提取口型动态数据;
所述验证比对模块用于对唤醒词准确度评估值Pgz及口型动态数据做综合评估;
所述执行输出模块根据综合评估的结果来选择是否唤醒智能语音设备。
进一步的,所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备,且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元。
其中,所述预处理子单元用于对采集到的语音数据进行标记,标记出唤醒词在每个语音片段中的位置,记录其他噪音数据,并完成噪音抑制,在对噪音抑制时利用到了频域滤波法,尽量减小杂音对语音信号的影响,提高语音信号清晰度;
所述分析子单元用于提取语音特征,建立模型训练并完成评估;
其中,分析子单元的具体步骤为:
S1、特征提取:针对语音片段中的标记位置,提取语音特征,该语音特征包括:频率P、频域能量N以及频域过零率L;
需要说明的是,频率P:声音的频率是指声波振动的频率,通常以赫兹为单位,不同频率的声波会产生不同的音调,频率可以通过音频信号的频谱分析来获取;快速傅里叶变换(FFT):将时域信号转换为频域信号,得到频谱,通过FFT算法,可以将连续时间的信号转换为离散频谱;频域能量N:将音频信号通过FFT算法变换到频域,计算每个频率分量的幅值的平方作为频域能量;频域过零率L:将音频信号通过FFT算法变换到频域,计算相邻频率分量之间过零点的个数作为频域过零率;
在实际应用中,也可以使用音频处理库或软件工具,如Librosa、MATLAB、Python的SciPy,来计算声音的频率P、频域能量N以及频域过零率L。
S2、模型训练:使用深度学习的神经网络,对提取到的语音特征进行训练,建立语音识别模型,训练过程在此不多做赘述;
S3、在语音识别模型中对获取到的频率P、频域能量N以及频域过零率L进行无量纲处理后,关联获取唤醒词准确度评估值Pgz;
方式如下:
式中,K1、K2、K3分别为频率P、频域能量N以及频域过零率L的预设比例系数,且K1、K2、K3均大于0,G为常数修正系数;
若是唤醒词准确度评估值Pgz<设置的标准阈值,则判定采集到的语音数据可用;
若是唤醒词准确度评估值Pgz≥设置的标准阈值,则判定采集到的语音数据不可用,需要重新进行语音数据采集处理。
具体的,将训练好的语音识别模型应用到实际场景中,通过输入语音数据,利用模型进行语音识别并输出相应的文本结果,该结果即获取唤醒词准确度评估值Pgz,并判定集到的语音数据可不可用。
进一步的,所述口型采集单元的使用步骤如下:
S101、设备设置:选取深度摄像头作为智能监控设备,并将其固定安装于适当位置,以确保深度摄像头能够清晰地捕捉到人体脸部动态图像;
S102、脸部检测和跟踪:使用人脸识别算法,从深度摄像头拍摄的视频中检测和识别出人脸区域,使用人脸跟踪算法跟踪人脸区域的位置和姿态;其中人脸跟踪算法使用的是MeanShift算法,该算法的原理为:根据上一帧目标的直方图及当前帧所得的图像来更新当前帧人脸位置,适用于本申请中进行单目标跟踪,能够确保跟踪结果的稳定性和准确性。
S103、口型提取:在脸部图像中,通过关键点检测法定位嘴唇区域的关键点,根据关键点的位置和运动,提取口型动态数据;需要说明的是:这些关键点可以用于描述嘴唇的形状和位置,在提取口型动态数据时使用到的常见方法至少包括:计算嘴唇区域的形状变化、距离变化以及角度变化。
进一步的,所述口型采集单元还包括判定子单元,若是能够提取到口型动态数据时,则进入验证比对模块完成下一步操作,若是无法提取到口型动态数据时,则触发提醒指令,并将该指令通过智能监控设备内置的蓝牙模块发送至另一智能语音设备,该设备则开启第二语音采集单元。
进一步的,所述验证比对模块包括数据库对比单元和评估值比对单元;
需要说明的是,数据库中提前录入了准确的口型动态数据,用于与实际获取到的口型动态数据完成对比工作。
其中,所述数据库对比单元用于将检测到的口型动态数据与数据库进行比对,并作为第一语音采集单元的验证节点;
若是口型动态数据与数据库中录入的数据一致,则表示通过,若是口型动态数据与数据库中录入的数据不一致,则表示不通过;
所述评估值比对单元用于对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz;
将第一语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz1,
将第二语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz2;
误差绝对值的获取方式如下:
误差绝对值=∣Pgz1-Pgz2∣;
若是误差绝对值<1,则表示通过,若是误差绝对值≥1,则表示不通过。
进一步的,所述执行输出模块用于获取验证比对模块的结果,若是通过,则执行第一策略,若是不通过,则执行第二策略;
其中,第一策略为对应的智能语音设备做出响应,被成功唤醒,并根据语音提示,执行后续操作,第二策略为对应的智能语音设备不做出响应,无法被唤醒,可重行执行数据采集的操作。
一种基于机器学习的智能语音交互误唤醒方法,包括如下步骤:
步骤一、通过第一语音采集单元采集语音数据,根据获取的唤醒词准确度评估值Pgz来选取可用的语音数据,同步使用口型采集单元,完成对人体脸部进行动态图像捕捉,并提取口型动态数据;
步骤二、在提取口型动态数据时使用到智能监控设备,在智能监控设备能够拍摄到用户的场景下,则将口型动态数据发送至数据库中进行对比,若口型一致,则完成验证,智能语音设备被成功唤醒,并根据语音提示,执行后续操作;
若口型不一致,则智能语音设备不做出响应,无法被唤醒;
步骤三、在智能监控设备无法拍摄到用户的场景下,则触发提醒指令,并将该指令发送给第二语音采集单元,使用第二智能语音设备再次执行步骤一中关于第一语音采集单元的操作;
步骤四、对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz,并判断两个唤醒词准确度评估值Pgz之间的误差绝对值是否小于1,若是,则智能语音设备做出响应,被成功唤醒,若不是,则智能语音设备内的语音采集单元重复执行数据采集的操作,直至智能语音设备被唤醒。
(三)有益效果
本发明提供了基于机器学习的智能语音交互误唤醒系统及方法,具备以下有益效果:
将口型动态和语音数据相结合,通过语音采集单元对唤醒词准确度进行初步评估后,获取可用的唤醒词准确度评估值Pgz,结合口型采集单元完成对用户发出唤醒口令的口型动态进行捕捉,在唤醒词准确度评估值Pgz可用的前提下,对口型动态数据与数据库一致语音数据进行执行,利用语音和视频图像结合判断,可精准实现对智能语音设备的唤醒工作;
若是遇到无法检测到用户口型的场景下,则可通过智能设备之间的联动,利用至少两组语音采集单元获取同一环境下,可用的唤醒词准确度评估值Pgz,分析两组唤醒词准确度评估值Pgz的误差绝对值,在误差范围内即可判断出唤醒口令是否准确,可准确的完成唤醒操作,在能够检测到用户口型的场景下,则只是使用单个智能语音设备和智能监控设备进行配合工作,达到节省电能的目的,也能够避免误唤醒的情况发生。
附图说明
图1为本发明基于机器学习的智能语音交互误唤醒系统的整体模块图;
图2为本发明基于机器学习的智能语音交互误唤醒系统的模块运行状态结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:请参阅图1-图2,本发明提供基于机器学习的智能语音交互误唤醒系统,该系统应用到至少两个智能语音设备和一个智能监控设备,智能监控设备在完成监控的同时,还能对用户口型动态数据进行获取,并不是专门用于本系统的结构,故不存在损耗多余电能的情况,该系统包括特征采集模块、验证比对模块以及执行输出模块;
其中,特征采集模块包括第一语音采集单元、第二语音采集单元以及口型采集单元,第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备,且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元;
预处理子单元用于对采集到的语音数据进行标记,标记出唤醒词在每个语音片段中的位置,记录其他噪音数据,并完成噪音抑制,在对噪音抑制时利用到了频域滤波法,尽量减小杂音对语音信号的影响,提高语音信号清晰度;
分析子单元用于提取语音特征,建立模型训练并完成评估;
其中,分析子单元的具体步骤为:
S1、特征提取:针对语音片段中的标记位置,提取语音特征,该语音特征包括:频率P、频域能量N以及频域过零率L;
需要说明的是,频率P:声音的频率是指声波振动的频率,通常以赫兹为单位,不同频率的声波会产生不同的音调,频率可以通过音频信号的频谱分析来获取;快速傅里叶变换(FFT):将时域信号转换为频域信号,得到频谱,通过FFT算法,可以将连续时间的信号转换为离散频谱;
频域能量N:将音频信号通过FFT算法变换到频域,计算每个频率分量的幅值的平方作为频域能量;
频域过零率L:将音频信号通过FFT算法变换到频域,计算相邻频率分量之间过零点的个数作为频域过零率;
在实际应用中,也可以使用音频处理库或软件工具,如Librosa、MATLAB、Python的SciPy,来计算声音的频率P、频域能量N以及频域过零率L;
S2、模型训练:使用深度学习的神经网络,对提取到的语音特征进行训练,建立语音识别模型;其中,训练过程中需要使用大量的标记数据(具有标记位置的语音片段)进行监督学习,以提高语音识别模型的准确性和鲁棒性;
S3、评估处理:在语音识别模型中对获取到的频率P、频域能量N以及频域过零率L进行无量纲处理后,关联获取唤醒词准确度评估值Pgz,方式如下:
式中,K1、K2、K3分别为频率P、频域能量N以及频域过零率L的预设比例系数,且K1、K2、K3均大于0,G为常数修正系数;
若是唤醒词准确度评估值Pgz<设置的标准阈值,则判定采集到的语音数据可用;
若是唤醒词准确度评估值Pgz≥设置的标准阈值,则判定采集到的语音数据不可用,需要重新进行语音数据采集处理;
口型采集单元用于对人体脸部进行动态图像捕捉,并提取口型动态数据;
该口型采集单元的使用步骤如下:
S101、设备设置:选取深度摄像头作为智能监控设备,并将其固定安装于适当位置,以确保深度摄像头能够清晰地捕捉到人体脸部动态图像,同时该深度摄像头也起到本身的监控作用;
S102、脸部检测和跟踪:使用人脸识别算法,从深度摄像头拍摄的视频中检测和识别出人脸区域,使用人脸跟踪算法跟踪人脸区域的位置和姿态;
其中人脸跟踪算法使用的是MeanShift算法,该算法的原理为:根据上一帧目标的直方图及当前帧所得的图像来更新当前帧人脸位置,适用于本申请中进行单目标跟踪,能够确保跟踪结果的稳定性和准确性;
S103、口型提取:在脸部图像中,通过关键点检测法定位嘴唇区域的关键点,根据关键点的位置和运动,提取口型动态数据;
需要说明的是:这些关键点可以用于描述嘴唇的形状和位置,在提取口型动态数据时使用到的常见方法至少包括:计算嘴唇区域的形状变化、距离变化以及角度变化;
口型采集单元还包括判定子单元,若是能够提取到口型动态数据时,则进入验证比对模块完成下一步操作,若是无法提取到口型动态数据时,则触发提醒指令,并将该指令通过智能监控设备内置蓝牙模块发送至另一智能语音设备,该设备则开启第二语音采集单元;
验证比对模块包括数据库对比单元和评估值比对单元;
其中,数据库对比单元用于将检测到的口型动态数据与数据库进行比对,并作为第一语音采集单元的验证节点;
若是口型动态数据与数据库中录入的数据一致,则表示通过,若是口型动态数据与数据库中录入的数据不一致,则表示不通过;
具体的,将口型动态和语音数据相结合,通过语音采集单元对唤醒词准确度进行初步评估后,获取可用的唤醒词准确度评估值Pgz,结合口型采集单元完成对用户发出唤醒口令的口型动态进行捕捉,在唤醒词准确度评估值Pgz可用的前提下,对口型动态数据与数据库一致语音数据进行执行,利用语音和视频图像结合判断,可精准实现对智能语音设备的唤醒工作。
评估值比对单元用于对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz;
将第一语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz1,
将第二语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz2;
误差绝对值的获取方式如下:
误差绝对值=∣Pgz1-Pgz2∣;
若是误差绝对值<1,则表示通过;
若是误差绝对值≥1,则表示不通过。
执行输出模块用于获取验证比对模块的结果,若是通过,则执行第一策略,若是不通过,则执行第二策略;
其中,第一策略为对应的智能语音设备做出响应,被成功唤醒,并根据语音提示,执行后续操作;第二策略为对应的智能语音设备不做出响应,无法被唤醒,可重行执行数据采集的操作。
具体的,若是遇到无法检测到用户口型的场景下,则可通过智能设备之间的联动,利用至少两组语音采集单元获取同一环境下,可用的唤醒词准确度评估值Pgz,分析两组唤醒词准确度评估值Pgz的误差绝对值,在误差范围内即可判断出唤醒口令是否准确,可准确的完成唤醒操作,在能够检测到用户口型的场景下,则只是使用单个智能语音设备和智能监控设备进行配合工作,达到节省电能的目的,也能够避免误唤醒的情况发生。
实施例2:本发明提供基于机器学习的智能语音交互误唤醒方法,包括如下步骤:
步骤一、通过第一语音采集单元采集语音数据,根据获取的唤醒词准确度评估值Pgz来选取可用的语音数据,同步使用口型采集单元,完成对人体脸部进行动态图像捕捉,并提取口型动态数据;
步骤二、在提取口型动态数据时使用到智能监控设备,在智能监控设备能够拍摄到用户的场景下,则将口型动态数据发送至数据库中进行对比,若口型一致,则完成验证,智能语音设备被成功唤醒,并根据语音提示,执行后续操作;
若口型不一致,则智能语音设备不做出响应,无法被唤醒;
步骤三、在智能监控设备无法拍摄到用户的场景下,则触发提醒指令,并将该指令发送给第二语音采集单元,使用第二智能语音设备再次执行步骤一中关于第一语音采集单元的操作;
步骤四、对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz,并判断两个唤醒词准确度评估值Pgz之间的误差绝对值是否小于1,若是,则智能语音设备做出响应,被成功唤醒,若不是,则智能语音设备内的语音采集单元重复执行数据采集的操作,直至智能语音设备被唤醒。
具体的,若是遇到无法检测到用户口型的场景下,则可通过智能设备之间的联动,利用至少两组语音采集单元获取同一环境下,可用的唤醒词准确度评估值Pgz,分析两组唤醒词准确度评估值Pgz的误差绝对值,在误差范围内即可判断出唤醒口令是否准确,可准确的完成唤醒操作;若是遇到能够检测到用户口型的场景下,在唤醒词准确度评估值Pgz可用的前提下,对口型动态数据与数据库一致语音数据进行执行,利用语音和视频图像结合判断,避免同时使用两个智能语音设备,在一定程度上能够达到节省电能的目的,也能够避免误唤醒的情况发生。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.基于机器学习的智能语音交互误唤醒系统,该系统应用到至少两个智能语音设备和一个智能监控设备,其特征在于:该系统包括特征采集模块、验证比对模块以及执行输出模块;
其中,所述特征采集模块包括第一语音采集单元、第二语音采集单元以及口型采集单元,第一语音采集单元和第二语音采集单元均用于采集语音数据,并获取唤醒词准确度评估值Pgz,所述口型采集单元用于对人体脸部进行动态图像捕捉,并提取口型动态数据;
所述验证比对模块用于对唤醒词准确度评估值Pgz及口型动态数据做综合评估;
所述执行输出模块根据综合评估的结果来选择是否唤醒智能语音设备。
2.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备,且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元。
3.根据权利要求2所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述预处理子单元用于对采集到的语音数据进行标记,标记出唤醒词在每个语音片段中的位置,记录其他噪音数据,并完成噪音抑制。
4.根据权利要求2所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述分析子单元用于提取语音特征,建立模型训练并完成评估;
其中,分析子单元的具体步骤为:
S1、特征提取:针对语音片段中的标记位置,提取语音特征,该语音特征包括:频率P、频域能量N以及频域过零率L;
S2、模型训练:使用深度学习的神经网络,对提取到的语音特征进行训练,建立语音识别模型;
S3、在语音识别模型中对获取到的频率P、频域能量N以及频域过零率L进行无量纲处理后,关联获取唤醒词准确度评估值Pgz;
方式如下:
式中,K1、K2、K3分别为频率P、频域能量N以及频域过零率L的预设比例系数,且K1、K2、K3均大于0,G为常数修正系数;
若是唤醒词准确度评估值Pgz<设置的标准阈值,则判定采集到的语音数据可用;
若是唤醒词准确度评估值Pgz≥设置的标准阈值,则判定采集到的语音数据不可用,需要重新进行语音数据采集处理。
5.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述口型采集单元的使用步骤如下:
S101、设备设置:选取深度摄像头作为智能监控设备,并将其固定安装于适当位置,以确保深度摄像头能够清晰地捕捉到人体脸部动态图像;
S102、脸部检测和跟踪:使用人脸识别算法,从深度摄像头拍摄的视频中检测和识别出人脸区域,使用人脸跟踪算法跟踪人脸区域的位置和姿态;
S103、口型提取:在脸部图像中,通过关键点检测法定位嘴唇区域的关键点,根据关键点的位置和运动,提取口型动态数据。
6.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述口型采集单元还包括判定子单元,若是能够提取到口型动态数据时,则进入验证比对模块完成下一步操作,若是无法提取到口型动态数据时,则触发提醒指令,并将该指令通过智能监控设备内置的蓝牙模块发送至另一智能语音设备,该设备则开启第二语音采集单元。
7.根据权利要求4所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述验证比对模块包括数据库对比单元和评估值比对单元。
8.根据权利要求7所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述数据库对比单元用于将检测到的口型动态数据与数据库进行比对,并作为第一语音采集单元的验证节点;
若是口型动态数据与数据库中录入的数据一致,则表示通过,若是口型动态数据与数据库中录入的数据不一致,则表示不通过;
所述评估值比对单元用于对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz;
将第一语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz1,
将第二语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz2;
误差绝对值的获取方式如下:
误差绝对值=∣Pgz1-Pgz2∣;
若是误差绝对值<1,则表示通过,若是误差绝对值≥1,则表示不通过。
9.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述执行输出模块用于获取验证比对模块的结果,若是通过,则执行第一策略,若是不通过,则执行第二策略;
其中,第一策略为对应的智能语音设备做出响应,被成功唤醒,并根据语音提示,执行后续操作,第二策略为对应的智能语音设备不做出响应,无法被唤醒,可重行执行数据采集的操作。
10.一种基于机器学习的智能语音交互误唤醒方法,使用权利要求1至9中的任一种系统,其特征在于:包括如下步骤:
步骤一、通过第一语音采集单元采集语音数据,根据获取的唤醒词准确度评估值Pgz来选取可用的语音数据,同步使用口型采集单元,完成对人体脸部进行动态图像捕捉,并提取口型动态数据;
步骤二、在提取口型动态数据时使用到智能监控设备,在智能监控设备能够拍摄到用户的场景下,则将口型动态数据发送至数据库中进行对比,若口型一致,则完成验证,智能语音设备被成功唤醒,并根据语音提示,执行后续操作;
若口型不一致,则智能语音设备不做出响应,无法被唤醒;
步骤三、在智能监控设备无法拍摄到用户的场景下,则触发提醒指令,并将该指令发送给第二语音采集单元,使用第二智能语音设备再次执行步骤一中关于第一语音采集单元的操作;
步骤四、对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz,并判断两个唤醒词准确度评估值Pgz之间的误差绝对值是否小于1,若是,则智能语音设备做出响应,被成功唤醒,若不是,则智能语音设备内的语音采集单元重复执行数据采集的操作,直至智能语音设备被唤醒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311663112.0A CN117672228A (zh) | 2023-12-06 | 2023-12-06 | 基于机器学习的智能语音交互误唤醒系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311663112.0A CN117672228A (zh) | 2023-12-06 | 2023-12-06 | 基于机器学习的智能语音交互误唤醒系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117672228A true CN117672228A (zh) | 2024-03-08 |
Family
ID=90080335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311663112.0A Pending CN117672228A (zh) | 2023-12-06 | 2023-12-06 | 基于机器学习的智能语音交互误唤醒系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117672228A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063354A (zh) * | 2019-10-30 | 2020-04-24 | 云知声智能科技股份有限公司 | 人机交互方法及装置 |
CN111326152A (zh) * | 2018-12-17 | 2020-06-23 | 南京人工智能高等研究院有限公司 | 语音控制方法及装置 |
CN112382277A (zh) * | 2021-01-07 | 2021-02-19 | 博智安全科技股份有限公司 | 智能设备唤醒方法、智能设备和计算机可读存储介质 |
US20210280186A1 (en) * | 2020-03-05 | 2021-09-09 | Samsung Electronics Co., Ltd. | Method and voice assistant device for managing confidential data as a non-voice input |
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
CN116631380A (zh) * | 2023-07-24 | 2023-08-22 | 之江实验室 | 一种音视频多模态的关键词唤醒方法及装置 |
-
2023
- 2023-12-06 CN CN202311663112.0A patent/CN117672228A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111326152A (zh) * | 2018-12-17 | 2020-06-23 | 南京人工智能高等研究院有限公司 | 语音控制方法及装置 |
CN111063354A (zh) * | 2019-10-30 | 2020-04-24 | 云知声智能科技股份有限公司 | 人机交互方法及装置 |
US20210280186A1 (en) * | 2020-03-05 | 2021-09-09 | Samsung Electronics Co., Ltd. | Method and voice assistant device for managing confidential data as a non-voice input |
CN112382277A (zh) * | 2021-01-07 | 2021-02-19 | 博智安全科技股份有限公司 | 智能设备唤醒方法、智能设备和计算机可读存储介质 |
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
CN116631380A (zh) * | 2023-07-24 | 2023-08-22 | 之江实验室 | 一种音视频多模态的关键词唤醒方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN107928673B (zh) | 音频信号处理方法、装置、存储介质和计算机设备 | |
CN107393555B (zh) | 一种低信噪比异常声音信号的检测系统及检测方法 | |
CN109767769B (zh) | 一种语音识别方法、装置、存储介质及空调 | |
CN109473123A (zh) | 语音活动检测方法及装置 | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
US8793134B2 (en) | System and method for integrating gesture and sound for controlling device | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN110047512B (zh) | 一种环境声音分类方法、系统及相关装置 | |
CN106251874A (zh) | 一种语音门禁和安静环境监控方法及系统 | |
CN108182418B (zh) | 一种基于多维声波特征的键击识别方法 | |
WO2008069519A1 (en) | Gesture/speech integrated recognition system and method | |
CN110545396A (zh) | 一种基于定位去噪的语音识别方法及装置 | |
CN104795064A (zh) | 低信噪比声场景下声音事件的识别方法 | |
CN101894551A (zh) | 一种咳嗽自动识别方法及装置 | |
CN109036437A (zh) | 口音识别方法、装置、计算机装置及计算机可读存储介质 | |
CN105448291A (zh) | 基于语音的帕金森症检测方法及检测系统 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN111128178A (zh) | 一种基于面部表情分析的语音识别方法 | |
CN114974229A (zh) | 基于电力现场作业音频数据提取异常行为的方法和系统 | |
CN117116290B (zh) | 基于多维特征的数控机床部件缺陷定位方法和相关设备 | |
CN113378691A (zh) | 基于实时用户行为分析的智能家居管理系统及方法 | |
CN112786054A (zh) | 基于语音的智能面试评估方法、装置、设备及存储介质 | |
CN110163142B (zh) | 实时手势识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |