CN110136714A - 自然交互语音控制方法及装置 - Google Patents
自然交互语音控制方法及装置 Download PDFInfo
- Publication number
- CN110136714A CN110136714A CN201910404081.4A CN201910404081A CN110136714A CN 110136714 A CN110136714 A CN 110136714A CN 201910404081 A CN201910404081 A CN 201910404081A CN 110136714 A CN110136714 A CN 110136714A
- Authority
- CN
- China
- Prior art keywords
- word
- default
- training
- household appliance
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000003993 interaction Effects 0.000 title claims abstract description 33
- 230000004044 response Effects 0.000 claims abstract description 29
- 230000004438 eyesight Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 7
- 230000001052 transient effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000002618 waking effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例公开了一种自然交互语音控制方法及装置,包括:获取语音信号,若语音信号与预设语音控制指令一致,获取图像信号;若图像信号满足预设条件,则预设语音控制指令对应的家电设备响应。本发明实施例提供的方法,通过获取语音信号,若语音信号与预设语音唤醒指令一致,则获取图像信号。若图像信号满足预设条件,则预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种自然交互语音控制方法及装置。
背景技术
随着信息技术的不断发展,人们生活水平的提高,智能家电设备进入到千家万户。语音识别技术日渐成熟,越来越多的智能家电设备都引入语音识别技术。在相关技术中,需要通过语音的方式来对智能家电进行控制,如对智能家电进行语音唤醒等。而在实际使用中,各种噪声、聊天等干扰都可能导致智能家电被误控制,从而控制准确率较低。
发明内容
为此,本发明实施例提供一种自然交互语音控制方法及装置,以解决现有技术中在语音控制中误控制的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提供一种自然交互语音控制方法,包括:
获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;
若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。
进一步地,所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。
进一步地,所述所述预设语音控制指令对应的家电设备响应之前,还包括:
提取所述图像信号对应图像中的感兴趣区域,将所述感兴趣区域输入至训练后的预设模型中,根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件。
进一步地,所述将所述感兴趣区域输入至训练后的预设模型中之前,还包括:
获取训练样本集,所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域;
基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。
进一步地,所述预设模型包括基础网络层、全连接网络层及损失函数层。
进一步地,所述根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件,包括:
若训练后的预设模型输出的数值大于预设阈值,则确定所述图像信号满足所述预设条件,若训练后的预设模型输出的数值不大于所述预设阈值,则确定所述图像信号不满足所述预设条件。
进一步地,获取图像信号之前,还包括:
对所述语音信号作预处理,以去除所述语音信号中的噪声信号;
提取预处理后的语音信号中的声学特征,并基于预设语音算法对所述声学特征进行识别,以确定所述语音信号与预设语音控制指令是否一致。
根据本发明实施例的第二方面,提供一种自然交互语音控制装置,包括:
第一获取模块,用于获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;
语音控制模块,用于当所述图像信号满足预设条件时,则所述预设语音控制指令对应的家电设备响应。
根据本发明实施例的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自然交互语音控制方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自然交互语音控制方法。
本发明实施例具有如下优点:通过获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号。若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种自然交互语音控制方法的整体流程示意图;
图2为本发明实施例提供的一种预设模型的结构示意图;
图3为本发明实施例提供的一种自然交互语音控制装置的整体结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着信息技术的不断发展,人们生活水平的提高,智能家电设备进入到千家万户。语音识别技术日渐成熟,越来越多的智能家电设备都引入语音识别技术。在相关技术中,需要通过唤醒词或命令词来控制智能家电。而在实际使用中,各种噪声、聊天等干扰都可能导致智能家电被误唤醒或者误命令,从而唤醒或者命令的准确率较低。
针对上述情形,如图1所述,示出了本发明具体实施例一种自然交互语音控制方法的整体流程图,包括:S1、获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;S2、若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。
其中,语音信号可以通过语音采集卡获取,图像信号可以通过图像传感器获取,本发明实施例对此不作具体限定。预设语音控制指令可以为具体的某一唤醒词,也可以为具体的某一命令词。语音信号与预设语音控制指令一致可以指的是语音信号中用户说的唤醒词或命令词与预设的唤醒词或命令词一致。需要说明的是,获取到的图像信号对应图像中的用户与获取到的语音信号对应的用户可以不是同一用户,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号。若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制方法,所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。
具体地,以语音控制具体为唤醒为例,由于用户在通过语音方式有意识地唤醒家电设备时,其视线通常也是聚焦在家电设备上的。而若用户无意识地讲话触发了唤醒词时,其实现通常是不会聚焦在家电设备上的。因此,基于该原理,预设条件可以为图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。需要说明的是,预设语音控制指令对应的家电设备即为用户期望的待唤醒的家电设备。
本发明实施例提供的方法,通过将预设条件设置为图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制方法,所述所述预设语音控制指令对应的家电设备响应之前,还包括:提取所述图像信号对应图像中的感兴趣区域,将所述感兴趣区域输入至训练后的预设模型中,根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件。
其中,图像信号对应图像中的感兴趣区域可以为眼部区域,也可以人脸区域,本发明实施例对此不作具体限定。预设模型可以为深度神经网络模型,也可以为卷积神经网络模型,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过提取图像信号对应图像中的感兴趣区域,将所述感兴趣区域输入至训练后的预设模型中,根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制方法,所述将所述感兴趣区域输入至训练后的预设模型中之前,还包括:获取训练样本集,所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域;基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。
具体地,在得到训练样本集后,对于训练样本集中的两类样本感兴趣区域,可以对其进行数据预处理,具体可以进行均值处理及归一化处理等。其中,归一化处理是为了保证所有的维度上数据都在一个变化幅度上。预设模型中的训练参数可以包括学习率,另外,根据训练轮数可以设置动态变化的学习率。需要说明的是,若训练预设模型的过程中对训练样本集中的数据作了数据预处理,则实际在使用训练后的预设模型的过程中,也需要对感兴趣区域作数据预处理。
本发明实施例提供的方法,通过获取训练样本集,基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制方法,所述预设模型包括基础网络层、全连接网络层及损失函数层。
其中,基础网络层可以为VGG、inception或resnet等,本发明实施例对此不作具体限定。全连接网络层的数量可以为多个,如2个,本发明实施例对此不作具体限定。损失函数层可以具体为分类损失函数,如softmaxloss,本发明实施例对此不作具体限定。其中,分类损失函数softmaxloss具体可参考如下公式:
以基础网络层由4部分组成,两个全连接网络层及一个损失函数层为例,上述各层所组成的预设模型的结构可以参考图2。还需要说明的是,在对预设模型进行训练的过程中,可以使用反向运算,如使用批量梯度下降以更新模型参数。另外,训练过程中还可以loss曲线收敛作为训练的判断依据,当loss曲线收敛时,即可确定训练后的预设模型能够满足需求。
本发明实施例提供的方法,通过获取训练样本集,基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制方法,所述根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件,包括:若训练后的预设模型输出的数值大于预设阈值,则确定所述图像信号满足所述预设条件,若训练后的预设模型输出的数值不大于所述预设阈值,则确定所述图像信号不满足所述预设条件。
本发明实施例提供的方法,通过若训练后的预设模型输出的数值大于预设阈值,则确定图像信号满足所述预设条件,若训练后的预设模型输出的数值不大于所述预设阈值,则确定图像信号不满足所述预设条件。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制方法,所述获取图像信号之前,还包括:对所述语音信号作预处理,以去除所述语音信号中的噪声信号;提取预处理后的语音信号中的声学特征,并基于预设语音算法对所述声学特征进行识别,以确定所述语音信号与预设语音控制指令是否一致。
本发明实施例提供的方法,通过对所述语音信号作预处理,以去除所述语音信号中的噪声信号;提取预处理后的语音信号中的声学特征,并基于预设语音算法对所述声学特征进行识别,以确定所述语音信号与预设语音控制指令是否一致。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
如图3,示出本发明具体实施例一种自然交互语音控制装置的整体结构示意图,包括:
第一获取模块A01,用于获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;
语音控制模块A02,用于当所述图像信号满足预设条件时,则所述预设语音控制指令对应的家电设备响应。
其中,语音信号可以通过语音采集卡获取,图像信号可以通过图像传感器获取,本发明实施例对此不作具体限定。预设语音控制指令可以为具体的某一唤醒词,也可以为具体的某一命令词。语音信号与预设语音控制指令一致可以指的是语音信号中用户说的唤醒词或命令词与预设的唤醒词或命令词一致。需要说明的是,获取到的图像信号对应图像中的用户与获取到的语音信号对应的用户可以不是同一用户,本发明实施例对此不作具体限定。
本发明实施例提供的装置,通过获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号。若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制装置,所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。
具体地,以语音控制具体为唤醒为例,由于用户在通过语音方式有意识地唤醒家电设备时,其视线通常也是聚焦在家电设备上的。而若用户无意识地讲话触发了唤醒词时,其实现通常是不会聚焦在家电设备上的。因此,基于该原理,预设条件可以为图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。需要说明的是,预设语音控制指令对应的家电设备即为用户期望的待唤醒的家电设备。
本发明实施例提供的装置,通过将预设条件设置为图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制装置,该装置还包括:
提取模块,用于提取所述图像信号对应图像中的感兴趣区域;
输入模块,用于将所述感兴趣区域输入至训练后的预设模型中;
确定模块,用于根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件。
其中,图像信号对应图像中的感兴趣区域可以为眼部区域,也可以人脸区域,本发明实施例对此不作具体限定。预设模型可以为深度神经网络模型,也可以为卷积神经网络模型,本发明实施例对此不作具体限定。
本发明实施例提供的装置,通过提取图像信号对应图像中的感兴趣区域,将所述感兴趣区域输入至训练后的预设模型中,根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制装置,该装置还包括:
第二获取模块,用于获取训练样本集,所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域;
训练模块,用于基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。
具体地,在得到训练样本集后,对于训练样本集中的两类样本感兴趣区域,可以对其进行数据预处理,具体可以进行均值处理及归一化处理等。其中,归一化处理是为了保证所有的维度上数据都在一个变化幅度上。预设模型中的训练参数可以包括学习率,另外,根据训练轮数可以设置动态变化的学习率。需要说明的是,若训练预设模型的过程中对训练样本集中的数据作了数据预处理,则实际在使用训练后的预设模型的过程中,也需要对感兴趣区域作数据预处理。
本发明实施例提供的装置,通过获取训练样本集,基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制装置,所述预设模型包括基础网络层、全连接网络层及损失函数层。
其中,基础网络层可以为VGG、inception或resnet等,本发明实施例对此不作具体限定。全连接网络层的数量可以为多个,如2个,本发明实施例对此不作具体限定。损失函数层可以具体为分类损失函数,如softmaxloss,本发明实施例对此不作具体限定。其中,分类损失函数softmaxloss具体可参考如下公式:
以基础网络层由4部分组成,两个全连接网络层及一个损失函数层为例,上述各层所组成的预设模型的结构可以参考图2。还需要说明的是,在对预设模型进行训练的过程中,可以使用反向运算,如使用批量梯度下降以更新模型参数。另外,训练过程中还可以loss曲线收敛作为训练的判断依据,当loss曲线收敛时,即可确定训练后的预设模型能够满足需求。
本发明实施例提供的装置,通过获取训练样本集,基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制装置,确定模块,用于当训练后的预设模型输出的数值大于预设阈值时,则确定所述图像信号满足所述预设条件,当训练后的预设模型输出的数值不大于所述预设阈值时,则确定所述图像信号不满足所述预设条件。
本发明实施例提供的装置,通过若训练后的预设模型输出的数值大于预设阈值,则确定图像信号满足所述预设条件,若训练后的预设模型输出的数值不大于所述预设阈值,则确定图像信号不满足所述预设条件。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
在本发明任一上述具体实施例的基础上,提供一种自然交互语音控制装置,该装置还包括:
预处理模块,用于对所述语音信号作预处理,以去除所述语音信号中的噪声信号;
识别模块,用于提取预处理后的语音信号中的声学特征,并基于预设语音算法对所述声学特征进行识别,以确定所述语音信号与预设语音唤醒指令是否一致。
本发明实施例提供的装置,通过对所述语音信号作预处理,以去除所述语音信号中的噪声信号;提取预处理后的语音信号中的声学特征,并基于预设语音算法对所述声学特征进行识别,以确定所述语音信号与预设语音控制指令是否一致。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。
举个例子如下:
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种自然交互语音控制方法,其特征在于,包括:
获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;
若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。
2.根据权利要求1所述的自然交互语音控制方法,其特征在于,所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。
3.根据权利要求2所述的自然交互语音控制方法,其特征在于,所述所述预设语音控制指令对应的家电设备响应之前,还包括:
提取所述图像信号对应图像中的感兴趣区域,将所述感兴趣区域输入至训练后的预设模型中,根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件。
4.根据权利要求3所述的自然交互语音控制方法,其特征在于,所述将所述感兴趣区域输入至训练后的预设模型中之前,还包括:
获取训练样本集,所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域;
基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。
5.根据权利要求3或4所述的自然交互语音控制方法,其特征在于,所述预设模型包括基础网络层、全连接网络层及损失函数层。
6.根据权利要求3所述的自然交互语音控制方法,其特征在于,所述根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件,包括:
若训练后的预设模型输出的数值大于预设阈值,则确定所述图像信号满足所述预设条件,若训练后的预设模型输出的数值不大于所述预设阈值,则确定所述图像信号不满足所述预设条件。
7.根据权利要求1所述的自然交互语音控制方法,其特征在于,所述获取图像信号之前,还包括:
对所述语音信号作预处理,以去除所述语音信号中的噪声信号;
提取预处理后的语音信号中的声学特征,并基于预设语音算法对所述声学特征进行识别,以确定所述语音信号与所述预设语音控制指令是否一致。
8.一种自然交互语音控制装置,其特征在于,包括:
第一获取模块,用于获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;
语音控制模块,用于当所述图像信号满足预设条件时,则所述预设语音控制指令对应的家电设备响应。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被执行以实现如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910404081.4A CN110136714A (zh) | 2019-05-14 | 2019-05-14 | 自然交互语音控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910404081.4A CN110136714A (zh) | 2019-05-14 | 2019-05-14 | 自然交互语音控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110136714A true CN110136714A (zh) | 2019-08-16 |
Family
ID=67574148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910404081.4A Pending CN110136714A (zh) | 2019-05-14 | 2019-05-14 | 自然交互语音控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110136714A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718227A (zh) * | 2019-10-17 | 2020-01-21 | 深圳市华创技术有限公司 | 一种基于多模态交互的分布式物联网设备协同方法及其系统 |
CN110718217A (zh) * | 2019-09-04 | 2020-01-21 | 上海博泰悦臻电子设备制造有限公司 | 一种控制方法、终端及计算机可读存储介质 |
CN110910878A (zh) * | 2019-11-27 | 2020-03-24 | 珠海格力电器股份有限公司 | 语音唤醒控制方法、装置、存储介质及家电设备 |
CN111007732A (zh) * | 2019-11-12 | 2020-04-14 | 珠海格力电器股份有限公司 | 基于尺度变化空调视觉免唤醒识别方法、系统、智能家居 |
CN111128157A (zh) * | 2019-12-12 | 2020-05-08 | 珠海格力电器股份有限公司 | 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调 |
CN111145739A (zh) * | 2019-12-12 | 2020-05-12 | 珠海格力电器股份有限公司 | 一种基于视觉的免唤醒语音识别方法、计算机可读存储介质及空调 |
CN111243583A (zh) * | 2019-12-31 | 2020-06-05 | 深圳市瑞讯云技术有限公司 | 一种系统唤醒方法及装置 |
CN111276140A (zh) * | 2020-01-19 | 2020-06-12 | 珠海格力电器股份有限公司 | 语音命令识别方法、装置、系统及存储介质 |
CN112420043A (zh) * | 2020-12-03 | 2021-02-26 | 深圳市欧瑞博科技股份有限公司 | 基于语音的智能唤醒方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000347692A (ja) * | 1999-06-07 | 2000-12-15 | Sanyo Electric Co Ltd | 人物検出方法、人物検出装置及びそれを用いた制御システム |
EP1215658A2 (en) * | 2000-12-05 | 2002-06-19 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
EP2806335A1 (en) * | 2013-05-23 | 2014-11-26 | Delphi Technologies, Inc. | Vehicle human machine interface with gaze direction and voice recognition |
CN105204628A (zh) * | 2015-09-01 | 2015-12-30 | 涂悦 | 一种基于视觉唤醒的语音控制方法 |
WO2017035768A1 (zh) * | 2015-09-01 | 2017-03-09 | 涂悦 | 一种基于视觉唤醒的语音控制方法 |
US20170345425A1 (en) * | 2016-05-27 | 2017-11-30 | Toyota Jidosha Kabushiki Kaisha | Voice dialog device and voice dialog method |
CN108491823A (zh) * | 2018-03-30 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 用于生成人眼识别模型的方法和装置 |
CN109032039A (zh) * | 2018-09-05 | 2018-12-18 | 北京羽扇智信息科技有限公司 | 一种语音控制的方法及装置 |
CN109087631A (zh) * | 2018-08-08 | 2018-12-25 | 北京航空航天大学 | 一种适于复杂环境的车辆智能语音控制系统及其构建方法 |
CN109288649A (zh) * | 2018-10-19 | 2019-02-01 | 广州源贸易有限公司 | 一种智能语音控制按摩椅 |
CN109685829A (zh) * | 2018-12-17 | 2019-04-26 | 成都旷视金智科技有限公司 | 基于图像的视线追踪方法、装置和电子设备 |
-
2019
- 2019-05-14 CN CN201910404081.4A patent/CN110136714A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000347692A (ja) * | 1999-06-07 | 2000-12-15 | Sanyo Electric Co Ltd | 人物検出方法、人物検出装置及びそれを用いた制御システム |
EP1215658A2 (en) * | 2000-12-05 | 2002-06-19 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
EP2806335A1 (en) * | 2013-05-23 | 2014-11-26 | Delphi Technologies, Inc. | Vehicle human machine interface with gaze direction and voice recognition |
CN105204628A (zh) * | 2015-09-01 | 2015-12-30 | 涂悦 | 一种基于视觉唤醒的语音控制方法 |
WO2017035768A1 (zh) * | 2015-09-01 | 2017-03-09 | 涂悦 | 一种基于视觉唤醒的语音控制方法 |
US20170345425A1 (en) * | 2016-05-27 | 2017-11-30 | Toyota Jidosha Kabushiki Kaisha | Voice dialog device and voice dialog method |
CN108491823A (zh) * | 2018-03-30 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 用于生成人眼识别模型的方法和装置 |
CN109087631A (zh) * | 2018-08-08 | 2018-12-25 | 北京航空航天大学 | 一种适于复杂环境的车辆智能语音控制系统及其构建方法 |
CN109032039A (zh) * | 2018-09-05 | 2018-12-18 | 北京羽扇智信息科技有限公司 | 一种语音控制的方法及装置 |
CN109288649A (zh) * | 2018-10-19 | 2019-02-01 | 广州源贸易有限公司 | 一种智能语音控制按摩椅 |
CN109685829A (zh) * | 2018-12-17 | 2019-04-26 | 成都旷视金智科技有限公司 | 基于图像的视线追踪方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
YONEZAWA,TOMOKO等: "Evaluating Crossmodal Awareness of Daily-partner Robot to User"s Behaviors with Gaze and Utterance Detection", 《PROCEEDINGS OF THE ACM INTERNATIONAL WORKSHOP ON CONTEXT-AWARENESS FPR SELF-MANAGING SYSTEMS》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718217A (zh) * | 2019-09-04 | 2020-01-21 | 上海博泰悦臻电子设备制造有限公司 | 一种控制方法、终端及计算机可读存储介质 |
CN110718227A (zh) * | 2019-10-17 | 2020-01-21 | 深圳市华创技术有限公司 | 一种基于多模态交互的分布式物联网设备协同方法及其系统 |
CN111007732A (zh) * | 2019-11-12 | 2020-04-14 | 珠海格力电器股份有限公司 | 基于尺度变化空调视觉免唤醒识别方法、系统、智能家居 |
CN110910878B (zh) * | 2019-11-27 | 2022-02-11 | 珠海格力电器股份有限公司 | 语音唤醒控制方法、装置、存储介质及家电设备 |
CN110910878A (zh) * | 2019-11-27 | 2020-03-24 | 珠海格力电器股份有限公司 | 语音唤醒控制方法、装置、存储介质及家电设备 |
CN111128157A (zh) * | 2019-12-12 | 2020-05-08 | 珠海格力电器股份有限公司 | 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调 |
CN111145739A (zh) * | 2019-12-12 | 2020-05-12 | 珠海格力电器股份有限公司 | 一种基于视觉的免唤醒语音识别方法、计算机可读存储介质及空调 |
CN111128157B (zh) * | 2019-12-12 | 2022-05-27 | 珠海格力电器股份有限公司 | 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调 |
CN111243583A (zh) * | 2019-12-31 | 2020-06-05 | 深圳市瑞讯云技术有限公司 | 一种系统唤醒方法及装置 |
CN111243583B (zh) * | 2019-12-31 | 2023-03-10 | 深圳市瑞讯云技术有限公司 | 一种系统唤醒方法及装置 |
CN111276140A (zh) * | 2020-01-19 | 2020-06-12 | 珠海格力电器股份有限公司 | 语音命令识别方法、装置、系统及存储介质 |
CN111276140B (zh) * | 2020-01-19 | 2023-05-12 | 珠海格力电器股份有限公司 | 语音命令识别方法、装置、系统及存储介质 |
CN112420043A (zh) * | 2020-12-03 | 2021-02-26 | 深圳市欧瑞博科技股份有限公司 | 基于语音的智能唤醒方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136714A (zh) | 自然交互语音控制方法及装置 | |
KR102317958B1 (ko) | 화상처리장치 및 방법 | |
CN108986835B (zh) | 基于改进gan网络的语音去噪方法、装置、设备及介质 | |
CN105654952B (zh) | 用于输出语音的电子设备、服务器和方法 | |
CN109817236A (zh) | 基于场景的音频降噪方法、装置、电子设备和存储介质 | |
CN109889920A (zh) | 网络课程视频剪辑方法、系统、设备及存储介质 | |
CN109358922A (zh) | 一种个性化菜单展示方法、装置、智能终端及存储介质 | |
CN106504768A (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN109955257A (zh) | 一种机器人的唤醒方法、装置、终端设备和存储介质 | |
CN108076290A (zh) | 一种图像处理方法及移动终端 | |
CN107766785A (zh) | 一种面部识别方法 | |
CN109278051A (zh) | 基于智能机器人的交互方法及系统 | |
CN110287925A (zh) | 阅读翻页控制方法及相关产品 | |
CN113077798B (zh) | 一种居家老人呼救设备 | |
CN110245621A (zh) | 人脸识别装置及图像处理方法、特征提取模型、存储介质 | |
CN110364178A (zh) | 一种语音处理方法、装置、存储介质和电子设备 | |
CN106875955A (zh) | 一种声音动画的制作方法及电子设备 | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
CN110491372A (zh) | 一种反馈信息生成方法、装置、存储介质和智能设备 | |
CN118135999A (zh) | 基于边缘设备的离线语音关键词识别方法及装置 | |
CN103984415B (zh) | 一种信息处理方法及电子设备 | |
CN117576767A (zh) | 一种基于视线识别的数字人交互拟真方法、装置及终端 | |
CN109471520A (zh) | 智能升降桌的调整方法、装置及存储介质和智能升降桌 | |
CN107657221A (zh) | 一种面部信息采集方法及相关设备 | |
CN111027358B (zh) | 一种基于书写进度的听写报读方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190816 |
|
RJ01 | Rejection of invention patent application after publication |