CN107679506A - 智能产品的唤醒方法、智能产品及计算机可读存储介质 - Google Patents
智能产品的唤醒方法、智能产品及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107679506A CN107679506A CN201710957838.3A CN201710957838A CN107679506A CN 107679506 A CN107679506 A CN 107679506A CN 201710957838 A CN201710957838 A CN 201710957838A CN 107679506 A CN107679506 A CN 107679506A
- Authority
- CN
- China
- Prior art keywords
- facial image
- image
- intelligent artifact
- lip
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 230000001815 facial effect Effects 0.000 claims abstract description 183
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 46
- 238000000605 extraction Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 4
- 230000008569 process Effects 0.000 abstract description 23
- 238000012549 training Methods 0.000 description 50
- 238000004422 calculation algorithm Methods 0.000 description 26
- 230000007935 neutral effect Effects 0.000 description 11
- 238000001914 filtration Methods 0.000 description 10
- 238000005286 illumination Methods 0.000 description 10
- 230000001965 increasing effect Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000012706 support-vector machine Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000009499 grossing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 206010048232 Yawning Diseases 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000010224 classification analysis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 210000005036 nerve Anatomy 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 238000000611 regression analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 241000272525 Anas platyrhynchos Species 0.000 description 2
- 241001282135 Poromitra oscitans Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种智能产品的唤醒方法、智能产品及计算机可读存储介质,智能产品的唤醒方法包括:获取智能产品采集的视频图像,检测所述视频图像中是否存在人脸图像;若所述视频图像中存在人脸图像,则检测所述人脸图像是否为正视人脸图像;若所述人脸图像为正视人脸图像,则检测所述正视人脸图像中的唇部状态是否符合说话状态;若所述正视人脸图像中的唇部状态符合说话状态,则对智能产品中预置语音采集装置采集的音频信息进行响应。通过本发明简化了智能产品的语音识别过程,且提高语音控制的准确性。
Description
技术领域
本发明涉及智能控制技术领域,尤其涉及智能产品的唤醒方法、智能产品及计算机可读存储介质。
背景技术
随着智能终端的普及,越来越多的智能设备和智能家居出现,并被广泛使用,在这些设备上,人机交互是非常核心的功能。随着语音识别技术的发展,越来越多的智能设备采用语音控制来实现人机交互,现有的语音终端在侦测到语音控制指令时,可基于预存的语音控制指令与控制代码之间的映射关系,响应侦测到的语音控制指令所对应的控制代码。
一般的,若用户需要通过语音控制智能设备,在进行控制之前,需要先用语音唤醒词将智能设备的语音识别功能触发,但唤醒词需要购买,且在由多台智能产品同时存在的情况下,语音唤醒词可能会导致非目标智能设备误触发。
发明内容
本发明的主要目的在于提供一种智能产品的唤醒方法、智能产品及计算机可读存储介质,旨在解决现有技术中唤醒智能设备语音识别功能过程繁琐且不准确的技术问题。
为实现上述目的,本发明提供一种智能产品的唤醒方法,其特征在于,所述智能产品的唤醒方法包括:
获取智能产品采集的视频图像,检测所述视频图像中是否存在人脸图像;
若所述视频图像中存在人脸图像,则检测所述人脸图像是否为正视人脸图像;
若所述人脸图像为正视人脸图像,则检测所述正视人脸图像中的唇部状态是否符合说话状态;
若所述正视人脸图像中的唇部状态符合说话状态,则对智能产品中预置语音采集装置采集的音频信息进行响应。
优选地,所述获取智能产品采集的视频图像,检测所述视频图像中是否存在人脸图像包括:
获取智能产品采集的视频图像,对视频图像进行预处理,得到处理后的视频图像;
检测所述处理后的视频图像中是否存在人脸图像。
优选地,所述检测所述处理后的视频图像中是否存在人脸图像包括:
将所述处理后的视频图像输入预置人脸分类器,获取预置人脸分类器输出的第一结果;
根据所述第一结果,判断所述处理后的视频图像中是否存在人脸图像。
优选地,所述若所述视频图像中存在人脸图像,则检测所述人脸图像是否为正视人脸图像包括:
若所述视频图像中存在人脸图像,则从所述视频图像中提取所述人脸图像;
将所述人脸图像输入预置头部姿态分类器,获取预置头部姿态分类器输出的第二结果;
根据所述第二结果,判断所述人脸图像是否为正视人脸图像。
优选地,所述检测所述正视人脸图像中的唇部状态是否符合说话状态包括:
若所述人脸图像为正视人脸图像,则提取所述正视人脸图像中的唇部图像;
将所述唇部图像输入预置唇部状态分类器,获取预置唇部状态分类器输出的第三结果;
根据所述第三结果,判断所述正视人脸图像中的唇部状态是否符合说话状态。
优选地,所述检测所述正视人脸图像中的唇部状态是否符合说话状态还包括:
若所述人脸图像为正视人脸图像,则提取所述正视人脸图像中的唇部图像;
根据所述唇部图像,得到唇部的开合度,检测所述开合度是否大于预设阈值;
若所述开合度大于预设阈值,则所述正视人脸图像中的唇部符合说话状态,若所述开合度不大于预设阈值,则所述正视人脸图像中的唇部不符合说话状态。
此外,为实现上述目的,本发明还提供一种智能产品,所述智能产品包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的智能产品的唤醒程序,所述智能产品的唤醒程序被所述处理器执行时实现如上所述的智能产品的唤醒方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有智能产品的唤醒程序,所述智能产品的唤醒程序被处理器执行时实现如上所述的智能产品的唤醒方法的步骤。
本发明中,在获取到视频图像后,检测视频图像中是否存在人脸图像,在存在人脸图像时,进一步检测人脸图像是否为正视人脸图像,当人脸图像为正视人脸图像时,进一步获取正视人脸图像中嘴唇部分的状态,若唇部状态符合说话状态,则对预置语音采集装置采集的音频信息进行语音响应。通过本发明,通过用户的面部姿态和唇部状态决定是否触发语音识别,无需通过语音唤醒词唤醒智能产品的语音识别功能,触发方式简单,简化了智能产品的语音识别过程,且通过本发明可避免多台智能设备存在时非目标智能设备的误触发,提高语音控制的准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的智能产品结构示意图;
图2为本发明智能产品的唤醒方法第一实施例的流程示意图;
图3为本发明智能产品的唤醒方法一实施例的场景示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的产品结构示意图。
本发明实施例智能产品可以是音箱、电视、PC,也可以是智能手机、平板电脑、便携计算机等智能终端设备。
如图1所示,该智能产品可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,智能产品还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在智能产品移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能产品姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,智能产品还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的智能产品结构并不构成对智能产品的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及智能产品的唤醒程序。
在图1所示的智能产品中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的智能产品的唤醒程序,并执行以下操作:
获取智能产品采集的视频图像,检测所述视频图像中是否存在人脸图像;
若所述视频图像中存在人脸图像,则检测所述人脸图像是否为正视人脸图像;
若所述人脸图像为正视人脸图像,则检测所述正视人脸图像中的唇部状态是否符合说话状态;
若所述正视人脸图像中的唇部状态符合说话状态,则对智能产品中预置语音采集装置采集的音频信息进行响应。
进一步地,处理器1001可以调用存储器1005中存储的智能产品的唤醒程序,还执行以下操作:
获取智能产品采集的视频图像,对视频图像进行预处理,得到处理后的视频图像;
检测所述处理后的视频图像中是否存在人脸图像。
进一步地,处理器1001可以调用存储器1005中存储的智能产品的唤醒程序,还执行以下操作:
将所述处理后的视频图像输入预置人脸分类器,获取预置人脸分类器输出的第一结果;
根据所述第一结果,判断所述处理后的视频图像中是否存在人脸图像。
进一步地,处理器1001可以调用存储器1005中存储的智能产品的唤醒程序,还执行以下操作:
若所述视频图像中存在人脸图像,则从所述视频图像中提取所述人脸图像;
将所述人脸图像输入预置头部姿态分类器,获取预置头部姿态分类器输出的第二结果;
根据所述第二结果,判断所述人脸图像是否为正视人脸图像。
进一步地,处理器1001可以调用存储器1005中存储的智能产品的唤醒程序,还执行以下操作:
若所述人脸图像为正视人脸图像,则提取所述正视人脸图像中的唇部图像;
将所述唇部图像输入预置唇部状态分类器,获取预置唇部状态分类器输出的第三结果;
根据所述第三结果,判断所述正视人脸图像中的唇部状态是否符合说话状态。
进一步地,处理器1001可以调用存储器1005中存储的智能产品的唤醒程序,还执行以下操作:
若所述人脸图像为正视人脸图像,则提取所述正视人脸图像中的唇部图像;
根据所述唇部图像,得到唇部的开合度,检测所述开合度是否大于预设阈值;
若所述开合度大于预设阈值,则所述正视人脸图像中的唇部符合说话状态,若所述开合度不大于预设阈值,则所述正视人脸图像中的唇部不符合说话状态。
参照图2,图2为本发明智能产品的唤醒方法第一实施例的流程示意图。
在一实施例中,智能产品的唤醒方法包括:
步骤S10,获取智能产品采集的视频图像,检测所述视频图像中是否存在人脸图像;
本实施例中,智能产品上设置有摄像装置,例如摄像头,用于获取摄像方向的视频图像。在获取到视频图像后,由于光照等环境因素的影响,需要对获取的视频图像进行平滑(平滑,也可叫滤波,或者合在一起叫平滑滤波,平滑滤波是低频增强的空间域滤波技术。它的目的有两类:一类是模糊;另一类是消除噪音。空间域的平滑滤波一般采用简单平均法进行,就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关,邻域越大平滑的效果越好,但邻域过大,平滑会使边缘信息损失的越大,从而使输出的图像变得模糊,因此需合理选择邻域的大小。“平滑处理”也称“模糊处理”(blurring),是一项简单且使用频率很高的图像处理方法。平滑处理的用途很多,但最常见的是用来减少图像上的噪声或者失真。降低图像分辨率时,平滑处理是很重要的)、直方图均衡(直方图均衡化是图像处理领域中利用图像直方图对对比度进行调整的方法。通过这种方法,亮度可以更好地在直方图上分布。这样就可以用于增强局部的对比度而不影响整体的对比度,直方图均衡化通过有效地扩展常用的亮度来实现这种功能)、灰度化等预处理,以提高人脸检测的准确性。
在对原始视频图像进行预处理后,得到处理后的视频图像,然后将处理后的视频图像作为预置人脸分类器的输入,然后接收人脸分类器针对此次输入而输出的第一结果,根据该第一结果判定视频图像中是否存在人脸图像。本实施例中,人脸分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出,来调整参数的过程,使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到,也可以直接使用开源的人脸分类器。本发明一可选实施例中训练人脸分类器的过程如下:
步骤1、建立样本库
通过正样本(预处理后的人脸图像)和负样本(非人脸图像)对预置人脸分类器进行训练。如果选用单一的人脸样本,得到的人脸分类器的性能会比较弱,为了进一步提高人脸分类器的性能,在进行人脸图像的选取时,尽量选用多种光照条件、多种姿态的人脸,同时需要对选取的人脸图像进行平滑、直方图均衡、灰度化等预处理,得到处理后的人脸图像,将经过预处理后的人脸图像作为正样本。
步骤2、选择训练算法
本实施例中,可以采用Adaboost(是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器))、神经网络(Artificial Neural Networks,简写为ANNs也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的)、SVM(Support Vector Machine指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析)等训练算法对正样本和负样本进行训练。
通过上述步骤便能得到人脸分类器。将处理后的视频图像作为预置人脸分类器的输入,人脸分类器针对此次输入,输出第一结果,第一结果有两种可能,一是第一结果为“正样本”,则说明处理后的视频图像中存在人脸图像;另一种是第一结果为“负样本”,则说明处理后的视频图像中不存在人脸图像。
步骤S20,若所述视频图像中存在人脸图像,则检测所述人脸图像是否为正视人脸图像;
本实施例中,当人脸分类器针对输入的处理后的视频图像,输出的第一结果为“正样本”,则对视频图像中的人脸区域进行识别并提取,得到人脸图像,然后进一步判断人脸图像是否为正视人脸图像。本实施例中,将人脸图像作为预置头部姿态分类器的输入,然后接收头部姿态分类器针对此次输入而输出的第二结果,根据该第二结果判定人脸图像中是否存在正视人脸图像。本实施例中,头部姿态分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出,来调整参数的过程,使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到,也可以直接使用开源的头部姿态分类器。本发明一可选实施例中训练头部姿态分类分类器的过程如下:
步骤1、输入处于不同头部姿态的人脸图像样本(头部姿态样本尽量多样化,这样可以提高分类器的性能),从样本中提取人脸的特征点。目前有较多的方法,比如:主动外观模型(AAM模型),局部二值化模式(LBP),Gabor特征,几何特征,基于流行空间的特征等。
步骤2、建立头部姿态模型
头部姿态模型的学习方法有模板匹配法和监督学习法,模板匹配法就是将需要测试的图像与已有的模板进行匹配,根据匹配结果得到头部姿态;
监督学习法就是对样本库进行学习得到模型的方法,常用的分类器有:支持向量机,贝叶斯分类器,多类线性判别分析、神经网络、偏最小二乘等,将分类器作用于头部姿态样本库,经过不断地训练并调整参数,得到一个准确率与实时性较好的头部姿态模型。
通过上述步骤便能得到头部姿态分类器。将人脸图像作为预置头部姿态分类器的输入,头部姿态分类器针对此次输入,输出第二结果,若第二结果为“正视”,则说明人脸图像为正视人脸图像;若第二结果为其他结果(例如“低头”、“仰头”、“左旋转”、“右旋转”),则说明人脸图像不为正视人脸图像。
步骤S30,若所述人脸图像为正视人脸图像,则检测所述正视人脸图像中的唇部状态是否符合说话状态;
本实施例中,当人脸图像为正视人脸图像时,根据人脸的几何规则,获取的人脸图像的下三分之一区域的图像,即唇部图像。
本发明一可选实施例中,将唇部图像作为预置唇部状态分类器的输入,然后接收唇部状态分类器针对此次输入而输出的第三结果,根据该第三结果判定唇部状态是否符合说话状态。本实施例中,唇部状态分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出,来调整参数的过程,使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到,也可以直接使用开源的唇部状态分类器。本发明一可选实施例中训练唇部状态分类器的过程如下:
步骤1、建立不同光照、不同状态的唇部样本库(比如张嘴说话,打哈欠,闭合等);
步骤2、采用分类算法(比如SVM,Gentle-Adaboost,神经网络)等进行训练;
步骤3、验证唇部状态分类器的性能,如果不满足需求,重新调整训练参数和样本库;直至得到满足需求的唇部状态分类器。
通过上述步骤便能得到唇部状态分类器。将唇部图像作为预置唇部状态分类器的输入,唇部状态分类器针对此次输入,输出第三结果,若第三结果为“张嘴说话”,则说明唇部符合说话状态;若第三结果为其他结果(例如“闭合”、“打哈欠”等),则说明唇部状态不为说话状态。
本发明另一可选实施例中,将唇部图像作为预置唇部分类器的输入,然后接收唇部分类器针对此次输入而输出的结果,根据该结果判定唇部状态是否符合说话状态。本实施例中,唇部分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出,来调整参数的过程,使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到,也可以直接使用开源的唇部分类器。本发明一可选实施例中训练唇部分类器的过程如下:
步骤1、建立样本库
通过正样本(唇部图像)和负样本(非唇部图像)对预置人脸分类器进行训练。如果选用单一的唇部样本,得到的唇部分类器的性能会比较弱,为了进一步提高唇部分类器的性能,在进行唇部图像的选取时,尽量选用多种光照条件、多种姿态的唇部。
步骤2、选择训练算法
本实施例中,可以采用Adaboost(Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器))、神经网络(Artificial Neural Networks,简写为ANNs也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的)、SVM(Support VectorMachine指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析)等训练算法对正样本和负样本进行训练。
通过上述步骤便能得到唇部分类器。将唇部分类器应用到人脸区域的下三分之一区域,检测出唇部区域;根据唇部的色度特性将其分割出来。光照不均匀可能会导致分割出的唇部区域明暗不均,使检测出的唇部区域出现小洞,此问题可通过形态学的膨胀、腐蚀、开运算等操作解决,中值滤波可以去除嘴唇外部的孤立的噪声点,从而得到的唇部的开合度,若开合度大于预设阈值(根据实际情况进行设置),则判定唇部符合说话状态。
步骤S40,若所述正视人脸图像中的唇部状态符合说话状态,则对智能产品中预置语音采集装置采集的音频信息进行响应。
参照图3,图3为本发明智能产品的唤醒方法一实施例的场景示意图。
本实施例中,预置语音采集装置例如麦克风等。预置语音采集装置可以是在检测到人脸图像或正视人脸图像时开启,用以采集音频信息,在正视人脸图像中的唇部状态符合说话状态时,智能产品对采集到的音频信息进行响应。
本实施例中,在获取到视频图像后,检测视频图像中是否存在人脸图像,在存在人脸图像时,进一步检测人脸图像是否为正视人脸图像,当人脸图像为正视人脸图像时,进一步获取正视人脸图像中嘴唇部分的状态,若唇部状态符合说话状态,则对预置语音采集装置采集的音频信息进行语音响应。通过本实施例,通过用户的面部姿态和唇部状态决定是否触发语音识别,无需通过语音唤醒词唤醒智能产品的语音识别功能,触发方式简单,简化了智能产品的语音识别过程,且通过本发明可避免多台智能设备存在时非目标智能设备的误触发,提高语音控制的准确性。
进一步的,本发明智能产品的唤醒方法一实施例中,步骤S10包括:
获取智能产品采集的视频图像,对视频图像进行预处理,得到处理后的视频图像;
检测所述处理后的视频图像中是否存在人脸图像。
本实施例中,智能产品上设置有摄像装置,例如摄像头,用于获取摄像方向的视频图像。在获取到视频图像后,由于光照等环境因素的影响,需要对获取的视频图像进行平滑(平滑,也可叫滤波,或者合在一起叫平滑滤波,平滑滤波是低频增强的空间域滤波技术。它的目的有两类:一类是模糊;另一类是消除噪音。空间域的平滑滤波一般采用简单平均法进行,就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关,邻域越大平滑的效果越好,但邻域过大,平滑会使边缘信息损失的越大,从而使输出的图像变得模糊,因此需合理选择邻域的大小。“平滑处理”也称“模糊处理”(blurring),是一项简单且使用频率很高的图像处理方法。平滑处理的用途很多,但最常见的是用来减少图像上的噪声或者失真。降低图像分辨率时,平滑处理是很重要的)、直方图均衡(直方图均衡化是图像处理领域中利用图像直方图对对比度进行调整的方法。通过这种方法,亮度可以更好地在直方图上分布。这样就可以用于增强局部的对比度而不影响整体的对比度,直方图均衡化通过有效地扩展常用的亮度来实现这种功能)、灰度化等预处理,以提高人脸检测的准确性。
进一步的,本发明智能产品的唤醒方法一实施例中,检测所述处理后的视频图像中是否存在人脸图像包括:
将所述处理后的视频图像输入预置人脸分类器,获取预置人脸分类器输出的第一结果;
根据所述第一结果,判断所述处理后的视频图像中是否存在人脸图像。
在对原始视频图像进行预处理后,得到处理后的视频图像,然后将处理后的视频图像作为预置人脸分类器的输入,然后接收人脸分类器针对此次输入而输出的第一结果,根据该第一结果判定视频图像中是否存在人脸图像。本实施例中,人脸分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出,来调整参数的过程,使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到,也可以直接使用开源的人脸分类器。本发明一可选实施例中训练人脸分类器的过程如下:
步骤1、建立样本库
通过正样本(预处理后的人脸图像)和负样本(非人脸图像)对预置人脸分类器进行训练。如果选用单一的人脸样本,得到的人脸分类器的性能会比较弱,为了进一步提高人脸分类器的性能,在进行人脸图像的选取时,尽量选用多种光照条件、多种姿态的人脸,同时需要对选取的人脸图像进行平滑、直方图均衡、灰度化等预处理,得到处理后的人脸图像,将经过预处理后的人脸图像作为正样本。
步骤2、选择训练算法
本实施例中,可以采用Adaboost(Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器))、神经网络(Artificial Neural Networks,简写为ANNs也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的)、SVM(Support VectorMachine指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析)等训练算法对正样本和负样本进行训练。
通过上述步骤便能得到人脸分类器。将处理后的视频图像作为预置人脸分类器的输入,人脸分类器针对此次输入,输出第一结果,第一结果有两种可能,一是第一结果为“正样本”,则说明处理后的视频图像中存在人脸图像;另一种是第一结果为“负样本”,则说明处理后的视频图像中不存在人脸图像。
进一步的,本发明智能产品的唤醒方法一实施例中,步骤S20包括:
若所述视频图像中存在人脸图像,则从所述视频图像中提取所述人脸图像;
将所述人脸图像输入预置头部姿态分类器,获取预置头部姿态分类器输出的第二结果;
根据所述第二结果,判断所述人脸图像是否为正视人脸图像。
本实施例中,当人脸分类器针对输入的处理后的视频图像,输出的第一结果为“正样本”,则对视频图像中的人脸区域进行识别并提取,得到人脸图像,然后进一步判断人脸图像是否为正视人脸图像。本实施例中,将人脸图像作为预置头部姿态分类器的输入,然后接收头部姿态分类器针对此次输入而输出的第二结果,根据该第二结果判定人脸图像中是否存在正视人脸图像。本实施例中,头部姿态分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出,来调整参数的过程,使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到,也可以直接使用开源的头部姿态分类器。本发明一可选实施例中训练头部姿态分类分类器的过程如下:
步骤1、输入处于不同头部姿态的人脸图像样本(头部姿态样本尽量多样化,这样可以提高分类器的性能),从样本中提取人脸的特征点。目前有较多的方法,比如:主动外观模型(AAM模型),局部二值化模式(LBP),Gabor特征,几何特征,基于流行空间的特征等。
步骤2、建立头部姿态模型
头部姿态模型的学习方法有模板匹配法和监督学习法,模板匹配法就是将需要测试的图像与已有的模板进行匹配,根据匹配结果得到头部姿态;
监督学习法就是对样本库进行学习得到模型的方法,常用的分类器有:支持向量机,贝叶斯分类器,多类线性判别分析、神经网络、偏最小二乘等,将分类器作用于头部姿态样本库,经过不断地训练并调整参数,得到一个准确率与实时性较好的头部姿态模型。
通过上述步骤便能得到头部姿态分类器。将人脸图像作为预置头部姿态分类器的输入,头部姿态分类器针对此次输入,输出第二结果,若第二结果为“正视”,则说明人脸图像为正视人脸图像;若第二结果为其他结果(例如“低头”、“仰头”、“左旋转”、“右旋转”),则说明人脸图像不为正视人脸图像。
进一步的,本发明智能产品的唤醒方法一实施例中,步骤S30包括:
若所述人脸图像为正视人脸图像,则提取所述正视人脸图像中的唇部图像;
将所述唇部图像输入预置唇部状态分类器,获取预置唇部状态分类器输出的第三结果;
根据所述第三结果,判断所述正视人脸图像中的唇部状态是否符合说话状态。
本实施例中,当人脸图像为正视人脸图像时,根据人脸的几何规则,获取的人脸图像的下三分之一区域的图像,即唇部图像。
本发明一可选实施例中,将唇部图像作为预置唇部状态分类器的输入,然后接收唇部状态分类器针对此次输入而输出的第三结果,根据该第三结果判定唇部状态是否符合说话状态。本实施例中,唇部状态分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出,来调整参数的过程,使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到,也可以直接使用开源的唇部状态分类器。本发明一可选实施例中训练唇部状态分类器的过程如下:
步骤1、建立不同光照、不同状态的唇部样本库(比如张嘴说话,打哈欠,闭合等);
步骤2、采用分类算法(比如SVM,Gentle-Adaboost,神经网络)等进行训练;
步骤3、验证唇部状态分类器的性能,如果不满足需求,重新调整训练参数和样本库;直至得到满足需求的唇部状态分类器。
通过上述步骤便能得到唇部状态分类器。将唇部图像作为预置唇部状态分类器的输入,唇部状态分类器针对此次输入,输出第三结果,若第三结果为“张嘴说话”,则说明唇部符合说话状态;若第三结果为其他结果(例如“闭合”、“打哈欠”等),则说明唇部状态不为说话状态。
进一步的,本发明智能产品的唤醒方法一实施例中,步骤S30还包括:
若所述人脸图像为正视人脸图像,则提取所述正视人脸图像中的唇部图像;
根据所述唇部图像,得到唇部的开合度,检测所述开合度是否大于预设阈值;
若所述开合度大于预设阈值,则所述正视人脸图像中的唇部符合说话状态,若所述开合度不大于预设阈值,则所述正视人脸图像中的唇部不符合说话状态。
本实施例中,当人脸图像为正视人脸图像时,根据人脸的几何规则,获取的人脸图像的下三分之一区域的图像,即唇部图像。
本发明一可选实施例中,将唇部图像作为预置唇部分类器的输入,然后接收唇部分类器针对此次输入而输出的结果,根据该结果判定唇部状态是否符合说话状态。本实施例中,唇部分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出,来调整参数的过程,使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到,也可以直接使用开源的唇部分类器。本发明一可选实施例中训练唇部分类器的过程如下:
步骤1、建立样本库
通过正样本(唇部图像)和负样本(非唇部图像)对预置人脸分类器进行训练。如果选用单一的唇部样本,得到的唇部分类器的性能会比较弱,为了进一步提高唇部分类器的性能,在进行唇部图像的选取时,尽量选用多种光照条件、多种姿态的唇部。
步骤2、选择训练算法
本实施例中,可以采用Adaboost(Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器))、神经网络(Artificial Neural Networks,简写为ANNs也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的)、SVM(Support VectorMachine指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析)等训练算法对正样本和负样本进行训练。
通过上述步骤便能得到唇部分类器。将唇部分类器应用到人脸区域的下三分之一区域,检测出唇部区域;根据唇部的色度特性将其分割出来。光照不均匀可能会导致分割出的唇部区域明暗不均,使检测出的唇部区域出现小洞,此问题可通过形态学的膨胀、腐蚀、开运算等操作解决,中值滤波可以去除嘴唇外部的孤立的噪声点,从而得到的唇部的开合度,若开合度大于预设阈值(根据实际情况进行设置),则判定唇部符合说话状态。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有智能产品的唤醒程序,所述智能产品的唤醒程序被处理器执行时实现如上所述的智能产品的唤醒方法的步骤。
本发明计算机可读存储介质的具体实施例与上述智能产品的唤醒方法的各个实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种智能产品的唤醒方法,其特征在于,所述智能产品的唤醒方法包括:
获取智能产品采集的视频图像,检测所述视频图像中是否存在人脸图像;
若所述视频图像中存在人脸图像,则检测所述人脸图像是否为正视人脸图像;
若所述人脸图像为正视人脸图像,则检测所述正视人脸图像中的唇部状态是否符合说话状态;
若所述正视人脸图像中的唇部状态符合说话状态,则对智能产品中预置语音采集装置采集的音频信息进行响应。
2.如权利要求1所述的智能产品的唤醒方法,其特征在于,所述获取智能产品采集的视频图像,检测所述视频图像中是否存在人脸图像包括:
获取智能产品采集的视频图像,对视频图像进行预处理,得到处理后的视频图像;
检测所述处理后的视频图像中是否存在人脸图像。
3.如权利要求2所述的智能产品的唤醒方法,其特征在于,所述检测所述处理后的视频图像中是否存在人脸图像包括:
将所述处理后的视频图像输入预置人脸分类器,获取预置人脸分类器输出的第一结果;
根据所述第一结果,判断所述处理后的视频图像中是否存在人脸图像。
4.如权利要求1所述的智能产品的唤醒方法,其特征在于,所述若所述视频图像中存在人脸图像,则检测所述人脸图像是否为正视人脸图像包括:
若所述视频图像中存在人脸图像,则从所述视频图像中提取所述人脸图像;
将所述人脸图像输入预置头部姿态分类器,获取预置头部姿态分类器输出的第二结果;
根据所述第二结果,判断所述人脸图像是否为正视人脸图像。
5.如权利要求1所述的智能产品的唤醒方法,其特征在于,所述检测所述正视人脸图像中的唇部状态是否符合说话状态包括:
若所述人脸图像为正视人脸图像,则提取所述正视人脸图像中的唇部图像;
将所述唇部图像输入预置唇部状态分类器,获取预置唇部状态分类器输出的第三结果;
根据所述第三结果,判断所述正视人脸图像中的唇部状态是否符合说话状态。
6.如权利要求1所述的智能产品的唤醒方法,其特征在于,所述检测所述正视人脸图像中的唇部状态是否符合说话状态还包括:
若所述人脸图像为正视人脸图像,则提取所述正视人脸图像中的唇部图像;
根据所述唇部图像,得到唇部的开合度,检测所述开合度是否大于预设阈值;
若所述开合度大于预设阈值,则所述正视人脸图像中的唇部符合说话状态,若所述开合度不大于预设阈值,则所述正视人脸图像中的唇部不符合说话状态。
7.一种智能产品,其特征在于,所述智能产品包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的智能产品的唤醒程序,所述智能产品的唤醒程序被所述处理器执行时实现如下步骤:
获取智能产品采集的视频图像,检测所述视频图像中是否存在人脸图像;
若所述视频图像中存在人脸图像,则检测所述人脸图像是否为正视人脸图像;
若所述人脸图像为正视人脸图像,则检测所述正视人脸图像中的唇部状态是否符合说话状态;
若所述正视人脸图像中的唇部状态符合说话状态,则对智能产品中预置语音采集装置采集的音频信息进行响应。
8.如权利要求7所述的智能产品,其特征在于,所述智能产品的唤醒程序被所述处理器执行时还实现如下步骤:
获取智能产品采集的视频图像,对视频图像进行预处理,得到处理后的视频图像;
检测所述处理后的视频图像中是否存在人脸图像。
9.如权利要求7所述的智能产品,其特征在于,所述智能产品的唤醒程序被所述处理器执行时还实现如下步骤:
将所述处理后的视频图像输入预置人脸分类器,获取预置人脸分类器输出的第一结果;
根据所述第一结果,判断所述处理后的视频图像中是否存在人脸图像。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有智能产品的唤醒程序,所述智能产品的唤醒程序被处理器执行时实现如权利要求1至6中任一项所述的智能产品的唤醒方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710957838.3A CN107679506A (zh) | 2017-10-12 | 2017-10-12 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710957838.3A CN107679506A (zh) | 2017-10-12 | 2017-10-12 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107679506A true CN107679506A (zh) | 2018-02-09 |
Family
ID=61139982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710957838.3A Pending CN107679506A (zh) | 2017-10-12 | 2017-10-12 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679506A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733420A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的唤醒方法、装置、智能设备和存储介质 |
CN108733419A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的持续唤醒方法、装置、智能设备和存储介质 |
CN109145853A (zh) * | 2018-08-31 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 用于识别噪音的方法和装置 |
CN109410957A (zh) * | 2018-11-30 | 2019-03-01 | 福建实达电脑设备有限公司 | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 |
CN109582139A (zh) * | 2018-11-21 | 2019-04-05 | 广东智媒云图科技股份有限公司 | 一种机器交互启动触发方法及系统 |
CN109817211A (zh) * | 2019-02-14 | 2019-05-28 | 珠海格力电器股份有限公司 | 一种电器控制方法、装置、存储介质及电器 |
CN110164444A (zh) * | 2018-02-12 | 2019-08-23 | 优视科技有限公司 | 语音输入启动方法、装置及计算机设备 |
CN110188179A (zh) * | 2019-05-30 | 2019-08-30 | 浙江远传信息技术股份有限公司 | 语音定向识别交互方法、装置、设备及介质 |
CN110300001A (zh) * | 2019-05-21 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN110309799A (zh) * | 2019-07-05 | 2019-10-08 | 四川长虹电器股份有限公司 | 基于摄像头的说话判断方法 |
CN110335603A (zh) * | 2019-07-12 | 2019-10-15 | 四川长虹电器股份有限公司 | 应用于电视场景的多模态交互方法 |
CN110517685A (zh) * | 2019-09-25 | 2019-11-29 | 深圳追一科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN110689889A (zh) * | 2019-10-11 | 2020-01-14 | 深圳追一科技有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN110908718A (zh) * | 2018-09-14 | 2020-03-24 | 上海擎感智能科技有限公司 | 人脸识别激活语音导航方法、系统、存储介质及设备 |
CN110910887A (zh) * | 2019-12-30 | 2020-03-24 | 苏州思必驰信息科技有限公司 | 语音唤醒方法和装置 |
CN111241922A (zh) * | 2019-12-28 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 一种机器人及其控制方法、计算机可读存储介质 |
CN111341350A (zh) * | 2020-01-18 | 2020-06-26 | 南京奥拓电子科技有限公司 | 人机交互控制方法、系统、智能机器人及存储介质 |
CN111383635A (zh) * | 2018-12-28 | 2020-07-07 | 百度(美国)有限责任公司 | 根据基于视觉的机制启用智能显示设备的语音命令的方法及系统 |
CN111583937A (zh) * | 2020-04-30 | 2020-08-25 | 珠海格力电器股份有限公司 | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN113393833A (zh) * | 2021-06-16 | 2021-09-14 | 中国科学技术大学 | 音视频唤醒方法、系统、设备及存储介质 |
CN113948076A (zh) * | 2020-07-17 | 2022-01-18 | 阿里巴巴集团控股有限公司 | 语音交互方法、设备和系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1215658A2 (en) * | 2000-12-05 | 2002-06-19 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
US20090244082A1 (en) * | 2008-04-01 | 2009-10-01 | Livingston Mark A | Methods and systems of comparing face models for recognition |
CN102799893A (zh) * | 2012-06-15 | 2012-11-28 | 北京理工大学 | 考场监控视频处理方法 |
CN102842291A (zh) * | 2012-09-04 | 2012-12-26 | 济南微晶电子技术有限公司 | 一种基于正面人脸检测的背光调整系统及方法 |
US20130342672A1 (en) * | 2012-06-25 | 2013-12-26 | Amazon Technologies, Inc. | Using gaze determination with device input |
CN103870811A (zh) * | 2014-03-06 | 2014-06-18 | 中国人民解放军国防科学技术大学 | 一种用于视频监控的正面人脸快速判别方法 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN104951730A (zh) * | 2014-03-26 | 2015-09-30 | 联想(北京)有限公司 | 一种唇动检测方法、装置及电子设备 |
CN105528584A (zh) * | 2015-12-23 | 2016-04-27 | 浙江宇视科技有限公司 | 一种正脸图像的检测方法和装置 |
CN105700363A (zh) * | 2016-01-19 | 2016-06-22 | 深圳创维-Rgb电子有限公司 | 一种智能家居设备语音控制装置的唤醒方法及系统 |
CN106782524A (zh) * | 2016-11-30 | 2017-05-31 | 深圳讯飞互动电子有限公司 | 一种混合唤醒方法及系统 |
CN107103271A (zh) * | 2016-02-23 | 2017-08-29 | 芋头科技(杭州)有限公司 | 一种人脸检测方法 |
-
2017
- 2017-10-12 CN CN201710957838.3A patent/CN107679506A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1215658A2 (en) * | 2000-12-05 | 2002-06-19 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
US20090244082A1 (en) * | 2008-04-01 | 2009-10-01 | Livingston Mark A | Methods and systems of comparing face models for recognition |
CN102799893A (zh) * | 2012-06-15 | 2012-11-28 | 北京理工大学 | 考场监控视频处理方法 |
US20130342672A1 (en) * | 2012-06-25 | 2013-12-26 | Amazon Technologies, Inc. | Using gaze determination with device input |
CN102842291A (zh) * | 2012-09-04 | 2012-12-26 | 济南微晶电子技术有限公司 | 一种基于正面人脸检测的背光调整系统及方法 |
CN103870811A (zh) * | 2014-03-06 | 2014-06-18 | 中国人民解放军国防科学技术大学 | 一种用于视频监控的正面人脸快速判别方法 |
CN104951730A (zh) * | 2014-03-26 | 2015-09-30 | 联想(北京)有限公司 | 一种唇动检测方法、装置及电子设备 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN105528584A (zh) * | 2015-12-23 | 2016-04-27 | 浙江宇视科技有限公司 | 一种正脸图像的检测方法和装置 |
CN105700363A (zh) * | 2016-01-19 | 2016-06-22 | 深圳创维-Rgb电子有限公司 | 一种智能家居设备语音控制装置的唤醒方法及系统 |
CN107103271A (zh) * | 2016-02-23 | 2017-08-29 | 芋头科技(杭州)有限公司 | 一种人脸检测方法 |
CN106782524A (zh) * | 2016-11-30 | 2017-05-31 | 深圳讯飞互动电子有限公司 | 一种混合唤醒方法及系统 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110164444A (zh) * | 2018-02-12 | 2019-08-23 | 优视科技有限公司 | 语音输入启动方法、装置及计算机设备 |
CN108733419B (zh) * | 2018-03-21 | 2021-04-27 | 北京猎户星空科技有限公司 | 智能设备的持续唤醒方法、装置、智能设备和存储介质 |
CN108733419A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的持续唤醒方法、装置、智能设备和存储介质 |
CN108733420A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的唤醒方法、装置、智能设备和存储介质 |
CN108733420B (zh) * | 2018-03-21 | 2022-04-29 | 北京猎户星空科技有限公司 | 智能设备的唤醒方法、装置、智能设备和存储介质 |
CN109145853A (zh) * | 2018-08-31 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 用于识别噪音的方法和装置 |
CN110908718A (zh) * | 2018-09-14 | 2020-03-24 | 上海擎感智能科技有限公司 | 人脸识别激活语音导航方法、系统、存储介质及设备 |
CN109582139A (zh) * | 2018-11-21 | 2019-04-05 | 广东智媒云图科技股份有限公司 | 一种机器交互启动触发方法及系统 |
CN109410957A (zh) * | 2018-11-30 | 2019-03-01 | 福建实达电脑设备有限公司 | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 |
CN111383635A (zh) * | 2018-12-28 | 2020-07-07 | 百度(美国)有限责任公司 | 根据基于视觉的机制启用智能显示设备的语音命令的方法及系统 |
CN109817211A (zh) * | 2019-02-14 | 2019-05-28 | 珠海格力电器股份有限公司 | 一种电器控制方法、装置、存储介质及电器 |
CN109817211B (zh) * | 2019-02-14 | 2021-04-02 | 珠海格力电器股份有限公司 | 一种电器控制方法、装置、存储介质及电器 |
CN110300001A (zh) * | 2019-05-21 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN110300001B (zh) * | 2019-05-21 | 2022-03-15 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN110188179A (zh) * | 2019-05-30 | 2019-08-30 | 浙江远传信息技术股份有限公司 | 语音定向识别交互方法、装置、设备及介质 |
CN110188179B (zh) * | 2019-05-30 | 2020-06-19 | 浙江远传信息技术股份有限公司 | 语音定向识别交互方法、装置、设备及介质 |
CN110309799B (zh) * | 2019-07-05 | 2022-02-08 | 四川长虹电器股份有限公司 | 基于摄像头的说话判断方法 |
CN110309799A (zh) * | 2019-07-05 | 2019-10-08 | 四川长虹电器股份有限公司 | 基于摄像头的说话判断方法 |
CN110335603A (zh) * | 2019-07-12 | 2019-10-15 | 四川长虹电器股份有限公司 | 应用于电视场景的多模态交互方法 |
CN110517685A (zh) * | 2019-09-25 | 2019-11-29 | 深圳追一科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN110689889B (zh) * | 2019-10-11 | 2021-08-17 | 深圳追一科技有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110689889A (zh) * | 2019-10-11 | 2020-01-14 | 深圳追一科技有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN112567457B (zh) * | 2019-12-13 | 2021-12-10 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
US12094468B2 (en) | 2019-12-13 | 2024-09-17 | Huawei Technologies Co., Ltd. | Speech detection method, prediction model training method, apparatus, device, and medium |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN111241922A (zh) * | 2019-12-28 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 一种机器人及其控制方法、计算机可读存储介质 |
CN111241922B (zh) * | 2019-12-28 | 2024-04-26 | 深圳市优必选科技股份有限公司 | 一种机器人及其控制方法、计算机可读存储介质 |
CN110910887A (zh) * | 2019-12-30 | 2020-03-24 | 苏州思必驰信息科技有限公司 | 语音唤醒方法和装置 |
CN111341350A (zh) * | 2020-01-18 | 2020-06-26 | 南京奥拓电子科技有限公司 | 人机交互控制方法、系统、智能机器人及存储介质 |
CN111583937A (zh) * | 2020-04-30 | 2020-08-25 | 珠海格力电器股份有限公司 | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 |
CN113948076A (zh) * | 2020-07-17 | 2022-01-18 | 阿里巴巴集团控股有限公司 | 语音交互方法、设备和系统 |
CN113393833A (zh) * | 2021-06-16 | 2021-09-14 | 中国科学技术大学 | 音视频唤醒方法、系统、设备及存储介质 |
CN113393833B (zh) * | 2021-06-16 | 2024-04-02 | 中国科学技术大学 | 音视频唤醒方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679506A (zh) | 智能产品的唤醒方法、智能产品及计算机可读存储介质 | |
CN111260665B (zh) | 图像分割模型训练方法和装置 | |
CN107633207B (zh) | Au特征识别方法、装置及存储介质 | |
CN109346061B (zh) | 音频检测方法、装置及存储介质 | |
CN104077579B (zh) | 基于专家系统的人脸表情图像识别方法 | |
CN109359548A (zh) | 多人脸识别监控方法及装置、电子设备及存储介质 | |
CN109815881A (zh) | 行为识别模型的训练方法、行为识别方法、装置及设备 | |
US20170140210A1 (en) | Image processing apparatus and image processing method | |
CN112784763A (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN104933827A (zh) | 一种基于旋转摄像头的报警方法及终端 | |
CN104346503A (zh) | 一种基于人脸图像的情感健康监控方法及手机 | |
CN104008364B (zh) | 人脸识别方法 | |
CN111291863B (zh) | 换脸鉴别模型的训练方法、换脸鉴别方法、装置和设备 | |
CN107169427B (zh) | 一种适用于心理学的面部识别方法及装置 | |
CN109522775A (zh) | 人脸属性检测方法、装置及电子设备 | |
CN111967770A (zh) | 基于大数据的问卷调查数据处理方法、装置及存储介质 | |
CN112560649A (zh) | 一种行为动作检测方法、系统、设备及介质 | |
CN110765924A (zh) | 一种活体检测方法、装置以及计算机可读存储介质 | |
CN112069916B (zh) | 人脸美丽预测方法、装置、系统及可读存储介质 | |
CN113255617A (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN107704514A (zh) | 一种照片管理方法、装置及计算机可读存储介质 | |
CN111723762B (zh) | 人脸属性识别方法、装置、电子设备及存储介质 | |
CN106778574A (zh) | 用于人脸图像的检测方法和装置 | |
CN111582654B (zh) | 基于深度循环神经网络的服务质量评价方法及其装置 | |
CN114119948A (zh) | 一种茶叶识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180209 |
|
RJ01 | Rejection of invention patent application after publication |