CN111933136B - 一种辅助语音识别控制方法和装置 - Google Patents
一种辅助语音识别控制方法和装置 Download PDFInfo
- Publication number
- CN111933136B CN111933136B CN202010831279.3A CN202010831279A CN111933136B CN 111933136 B CN111933136 B CN 111933136B CN 202010831279 A CN202010831279 A CN 202010831279A CN 111933136 B CN111933136 B CN 111933136B
- Authority
- CN
- China
- Prior art keywords
- detection module
- angle
- voice
- module
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 85
- 230000003993 interaction Effects 0.000 claims abstract description 55
- 230000001960 triggered effect Effects 0.000 claims abstract description 4
- 238000004891 communication Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 description 5
- 230000004807 localization Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004540 process dynamic Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 241000287181 Sturnus vulgaris Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种辅助语音识别控制方法及装置。辅助语音识别控制方法包括如下步骤:当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块;当人脸检测模块上限定的交互热区中未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关;当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话:若客户未张嘴说话,则关闭语音识别开关;若判断客户正在说话,则进行语言检测和识别。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种辅助语音识别控制方法和装置。
背景技术
在语音识别系统中,正确有效的进行语音端点检测(Voice Activity Detection,VAD)不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰,提高语音识别的正确率。由于语音信号中不仅包含所需要的有用的语音端,同时也包含了无用的背景噪声段,语音端点检测可以从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段(背景噪声段)两类。现有技术中,通常使用语音能量的检测器进行语音端点检测,但是这种语音段在检测方法在嘈杂的环境下经常失效,从而造成干扰语音也作为目标语音送往语音识别引擎,造成语音识别系统抗干扰能力差,影响语音识别效果,最终影响客户交互体验。
中国专利CN110875060A公开了一种语音信号处理方法、装置、系统、设备和存储介质。该方法包括:使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段(根据判断人嘴巴的张合来判断说话时机);对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。根据本发明实施例提供的语音信号处理方法,可以在多干扰源的嘈杂环境下对语音信号进行语音端点检测,提高系统的抗干扰能力。
中国专利CN111048066A提出了一种儿童机器人上利用图像辅助的语音端点检测系统,所述语音端点检测系统包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,所述机器人唤醒模块,用于启动机器人准备进入拾音状态;所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。
上述专利均存在以下缺点:
1、因为摄像头是有一定获取图像的角度,而面对不同身高(例如:小孩和成年人,男人或女人)的客户,该方案里的图像采集设备将会无法获取高质量的人脸图像,即可能摄像头采集不到或者不全的人脸图像,所以就无法实施检测目标人员发出语音的时间段的目的。
2、一般普通摄像头(非广角)所采集区域也可能存在多人脸的情况(注:广角摄像头采集区域会更广),将会导致,无法判断目标客户(正在人机交互的客户)是谁,就更无法获取目标客户的有效辅助信息(例如:客户是否说话,客户是否盯着屏幕看等信息)或存在误导。
3、仅仅通过摄像头来判断是否客户到达,可能存在误判或失效情况。例如:客户站立的交互位置不佳或身高过高或过低,导致的不在摄像头采集范围等情况。
发明内容
针对上述技术问题,本发明公开一种辅助语音识别控制方法和装置,提升语音识别系统抗干扰能力,增强语音识别效果。
为达到上述目的,本发明采用的技术方案如下。
本发明公开了一种辅助语音识别控制方法,主要流程如下:
当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作。
当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关。此时打开,能够防止客户不在人脸检测范围时,造成的交互体验差,若后续检测没人会再关闭。
当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度。
当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块,防止噪音输入。
当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话,若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块。若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。
进一步的,人脸检测模块中预设一图像交互热区,图像交互热区通过在视频帧里限定热区对角的坐标值来设定,若人脸识别模块识别到的人脸中心位置在交互区域内,则判断为客户在交互区域。优选的,热区的划定,只需要在视频帧里限定x1y1点(热区左下角)和x2y2(热区右上角)的值,然后就可以判断。例如鼻子中心点是x0y0,如果x1<x0<x2,y1<y0<y2即可判断鼻子中心在图像交互热区里。
进一步的,关于交互热区的限定判断,还结合线性阵列麦克风声源定位模块来判断。在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态。
作为优选的,立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180)。声源方向第三和第四角度设定为可交互的声源热区。上述判断,可防止声源非中心交互区域的误收音,例如客户在图像交互热区内且判定为说话状态,可能是说话状态模块的误判或者说话着声音小无法进行有效拾音,且其他方向有人在说话,即此时声源方向判定为非声源交互区域,则关闭拾音模块和VAD端点检测模块。
进一步的,人脸检测模块1秒钟获取8-16帧图片,客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;若每秒钟超过4-8帧的嘴巴为张开状态,则判断此时客户为说话状态,反之,此时未说话状态。
进一步的,VAD端点检测模块使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类。
本发明还公开了一种辅助语音识别控制装置,包括:上位机辅助控制系统,上位机辅助控制系统连接红外数据采集模块、VAD端点检测模块、人脸检测模块、客户说话检测模块、摄像头角度调整微动模块等;
红外数据采集模块的红外传感器覆盖上位机的交互区域;上位机通过串口连接红外数据采集模块,实时获取红外触发数据。当有人交互时,可以第一时间通知上位机辅助控制系统。
VAD端点检测模块:使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类。
由于摄像头有一定的广角,所以我们对摄像头范围进行预处理,在人脸检测模块中设定一个图像交互热区,图像交互热区有效减小多人交互时对系统进行的干扰。
客户说话检测模块:根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话。
摄像头角度调整微动模块:上位机辅助控制系统对摄像头角度调整微动模块进行串口通信。
进一步的,图像交互热区的划定方法为:在视频帧里限定热区对角的坐标值。
进一步的,还包括线性阵列麦克风声源定位模块,声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态。
作为优选的,立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180);声源方向第三和第四角度设定为可交互的声源热区。
进一步的,上位机辅助控制系统通过串口通信,控制摄像头角度调整微动模块的微动结构件来调整摄像头上下仰角。
本发明具有以下有益效果:复杂环境下,多干扰源的嘈杂环境下对语音信号进行语音端点检测时,能够提高系统的抗干扰能力,辅助系统锁定人机交互中目标客户,提高系统的语音识别效果。
摄像头角度微动方案,是一种可调整摄像头传感器的上下仰角,增加摄像头广角范围,可满足于个子高或个子矮的人的场景,能够在面对不同身高的客户时,解决因图像采集设备将会无法获取高质量的人脸图像,即解决可能摄像头采集不到或采集不全人脸图像的问题。
通过对人脸检测原始范围内设置一个小的热区,只在人脸检测热区区域出现人脸才判断为有人交互,当所采集区域存在多人脸的情况下,也只判断热区内的交互者信息。
目标客户判断准确。
仅仅通过摄像头来判断客户是否到达方案下出现的特殊情况的问题。本发明的技术方案加入了红外数据采集模块,可以弥补这种误差,通过双重认证来增加交互准确率,增加交互体验效果。
附图说明
图1为本发明实施例的辅助语音识别控制装置示意图。
图2为本发明实施例的辅助语音识别控制方法流程图。
图3为本发明实施例的辅助语音识别控制方法交互热区示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明。
如图1所示,本实施例的辅助语音识别控制装置,包括:上位机辅助控制系统,上位机辅助控制系统连接红外数据采集模块、VAD端点检测模块、人脸检测模块、客户说话检测模块、摄像头角度调整微动模块等。
红外数据采集模块:上位机通过串口连接红外传感器,实时获取红外触发数据。红外传感器需要覆盖整个交互区域。当有人交互时,可以第一时间通知上位机辅助控制系统。
VAD端点检测模块:使用语音能量的检测器进行语音端点检测,语音端点检测模块,可以从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段(背景噪声段)两类。
人脸检测模块:由于摄像头有一定的广角,所以我们对摄像头范围进行预处理,画了一定图像交互热区,如图3所示,该热区可以有效减小多人交互时对系统进行的干扰。如下图所示,外框为摄像头采集区域,内色为我们画出的客户图像交互热区。若人脸的中心位置在图像交互热区的区域内,则判断为客户在交互区域。
客户说话检测模块:人脸检测之后会在人脸图像上产生68个特征位置。我们取点63上嘴唇和点67下嘴唇的张合距离来判断客户是否说话。我们人脸检测模块1秒钟获取10帧图片,若每秒钟超过4帧的嘴巴为张开状态,我们则判断此时客户为说话状态,反之,此时未说话状态(经过测试算法在人移动时会出现不稳定状态)。
摄像头角度调整微动模块:上位机辅助控制系统对摄像头角度调整微动模块进行串口通信。
关于交互热区的限定判断,不仅视频图像上的判断,还结合线性6麦或8麦阵列的声源定位方向来判断。线性麦克风阵列进行声源定位的方法主要有以下三种,基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于声音时间差的声源定位技术,我们通过实验选择最优的解决方案进行声源定位,并且可在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出人的立体(0°~180°)方位,包含以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180)。我们通过声源方向第三和第四角度设定为可交互的声源热区,结合上述图像热区的联合判断,故当图像中心热区和声源中心方向热区同时满足时,才判定交互者处于可交互状态。上述判断,可防止声源非中心交互区域的误收音,例如客户在视频热区内且判定为说话状态,可能是说话状态模块的误判或者说话着声音小无法进行有效拾音,且其他方向有人在说话,即此时声源方向判定为非声源交互区域,则关闭拾音模块和VAD端点检测模块。
如图2,本实施例的辅助语音识别控制方法主要流程如下:
步骤一:当客户与设备进行人机交互活动时,红外传感器模块判断客户到达动作。
步骤二:当红外传感器检测到被触发后,启动人脸检测(限定热区)模块,热区的划定,只需要在视频帧里限定x1y1点(热区左下角)和x2y2(热区右上角)的值,然后就可以判断。例如鼻子中心点是x0y0,如果x1<x0<x2,y1<y0<y2即可判断鼻子中心在热区里。并开启VAD端点检测模块和语音识别开关(此时打开,防止客户不在人脸检测范围时,造成的交互体验差,若后续检测没人会再关闭)。VAD端点检测模块和语音识别开关是串行关系,VAD端点检测模块是控制语音音频拾音的,即是检测人声的,如果有人声就送到语音识别模块去识别文字。
步骤三:当限定交互区域热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度。上位机辅助控制系统通过串口通信,控制摄像头角度调整微动模块的微动结构件来调整摄像头上下仰角。
步骤四:当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块,防止噪音输入。
步骤五:当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话,若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块。若判断客户正在说话,则VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。
以上的实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (4)
1.一种辅助语音识别控制方法,其特征在于,包括如下步骤:
当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;
当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关;
人脸检测模块中预设一图像交互热区,图像交互热区通过在视频帧里限定热区对角的坐标值来设定,若人脸识别模块识别到的人脸中心位置在图像交互热区内,则判断为客户在交互区域;
当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;上位机辅助控制系统通过串口通信,控制摄像头角度调整微动模块的微动结构件来调整摄像头上下仰角;
当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块;
还结合线性阵列麦克风声源定位模块来判断交互热区;
在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态;否则关闭拾音模块和VAD端点检测模块;
立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180);声源方向第三和第四角度设定为可交互的声源热区;
人脸检测模块1秒钟获取8-16帧图片,客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;
若每秒钟超过4-8帧的嘴巴为张开状态,则判断此时客户为说话状态,反之,此时未说话状态;若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块;若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。
2.根据权利要求1所述的辅助语音识别控制方法,其特征在于:
VAD端点检测模块使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类。
3.一种辅助语音识别控制装置,其特征在于,用于实现权利要求1或2所述的辅助语音识别控制方法,包括:
上位机辅助控制系统,所述上位机辅助控制系统连接红外数据采集模块、VAD端点检测模块、人脸检测模块、客户说话检测模块、摄像头角度调整微动模块;
所述红外数据采集模块的红外传感器覆盖上位机的交互区域;上位机通过串口连接红外数据采集模块,实时获取红外触发数据;
所述人脸检测模块中设定一个图像互热区,若人脸的中心位置在图像交互热区内,则判断为客户在交互区域;
所述VAD端点检测模块使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类;
所述客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;
所述摄像头角度调整微动模块:所述上位机辅助控制系统对所述摄像头角度调整微动模块进行串口通信;
所述图像交互热区的划定方法为:在视频帧里限定热区对角的坐标值;
还包括线性阵列麦克风声源定位模块,声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态;
立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180);声源方向第三和第四角度设定为可交互的声源热区。
4.根据权利要求3所述的辅助语音识别控制装置,其特征在于:
所述上位机辅助控制系统通过串口通信,控制所述摄像头角度调整微动模块的微动结构件来调整摄像头上下仰角。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010831279.3A CN111933136B (zh) | 2020-08-18 | 2020-08-18 | 一种辅助语音识别控制方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010831279.3A CN111933136B (zh) | 2020-08-18 | 2020-08-18 | 一种辅助语音识别控制方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111933136A CN111933136A (zh) | 2020-11-13 |
CN111933136B true CN111933136B (zh) | 2024-05-10 |
Family
ID=73305298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010831279.3A Active CN111933136B (zh) | 2020-08-18 | 2020-08-18 | 一种辅助语音识别控制方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111933136B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112565600B (zh) * | 2020-11-28 | 2023-11-03 | 浪潮金融信息技术有限公司 | 一种智能ai摄像头系统及其定位识别方法 |
CN112382306B (zh) * | 2020-12-02 | 2022-05-10 | 思必驰科技股份有限公司 | 分离说话人音频的方法及装置 |
CN113139491A (zh) * | 2021-04-30 | 2021-07-20 | 厦门盈趣科技股份有限公司 | 视频会议控制方法、系统、移动终端及存储介质 |
CN113380243A (zh) * | 2021-05-27 | 2021-09-10 | 广州广电运通智能科技有限公司 | 一种辅助语音交互的方法及系统、存储介质 |
CN114676282B (zh) * | 2022-04-11 | 2023-02-03 | 北京女娲补天科技信息技术有限公司 | 一种基于音视频数据的事件录入方法、装置及计算机设备 |
CN116233589B (zh) * | 2022-12-28 | 2024-10-18 | 国网冀北电力有限公司计量中心 | 一种自动触发的音视频采集装置及自动触发方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159111A (zh) * | 2015-08-24 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能交互设备控制方法及系统 |
CN107123423A (zh) * | 2017-06-07 | 2017-09-01 | 微鲸科技有限公司 | 语音拾取装置及多媒体设备 |
CN107230476A (zh) * | 2017-05-05 | 2017-10-03 | 众安信息技术服务有限公司 | 一种自然的人机语音交互方法和系统 |
CN109410957A (zh) * | 2018-11-30 | 2019-03-01 | 福建实达电脑设备有限公司 | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 |
CN109492506A (zh) * | 2017-09-13 | 2019-03-19 | 华为技术有限公司 | 图像处理方法、装置和系统 |
CN110460772A (zh) * | 2019-08-14 | 2019-11-15 | 广州织点智能科技有限公司 | 摄像头自动调节方法、装置、设备和存储介质 |
CN110808048A (zh) * | 2019-11-13 | 2020-02-18 | 联想(北京)有限公司 | 语音处理方法、装置、系统及存储介质 |
CN111048113A (zh) * | 2019-12-18 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 声音方向定位处理方法、装置、系统、计算机设备及存储介质 |
CN111048066A (zh) * | 2019-11-18 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种儿童机器人上利用图像辅助的语音端点检测系统 |
CN111179927A (zh) * | 2019-12-20 | 2020-05-19 | 恒银金融科技股份有限公司 | 一种金融设备语音交互方法以及系统 |
CN111241922A (zh) * | 2019-12-28 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 一种机器人及其控制方法、计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6711044B2 (ja) * | 2016-03-16 | 2020-06-17 | カシオ計算機株式会社 | 画像処理装置、表示装置、アニメーション生成方法及びプログラム |
-
2020
- 2020-08-18 CN CN202010831279.3A patent/CN111933136B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159111A (zh) * | 2015-08-24 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能交互设备控制方法及系统 |
CN107230476A (zh) * | 2017-05-05 | 2017-10-03 | 众安信息技术服务有限公司 | 一种自然的人机语音交互方法和系统 |
CN107123423A (zh) * | 2017-06-07 | 2017-09-01 | 微鲸科技有限公司 | 语音拾取装置及多媒体设备 |
CN109492506A (zh) * | 2017-09-13 | 2019-03-19 | 华为技术有限公司 | 图像处理方法、装置和系统 |
CN109410957A (zh) * | 2018-11-30 | 2019-03-01 | 福建实达电脑设备有限公司 | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 |
CN110460772A (zh) * | 2019-08-14 | 2019-11-15 | 广州织点智能科技有限公司 | 摄像头自动调节方法、装置、设备和存储介质 |
CN110808048A (zh) * | 2019-11-13 | 2020-02-18 | 联想(北京)有限公司 | 语音处理方法、装置、系统及存储介质 |
CN111048066A (zh) * | 2019-11-18 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种儿童机器人上利用图像辅助的语音端点检测系统 |
CN111048113A (zh) * | 2019-12-18 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 声音方向定位处理方法、装置、系统、计算机设备及存储介质 |
CN111179927A (zh) * | 2019-12-20 | 2020-05-19 | 恒银金融科技股份有限公司 | 一种金融设备语音交互方法以及系统 |
CN111241922A (zh) * | 2019-12-28 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 一种机器人及其控制方法、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111933136A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933136B (zh) | 一种辅助语音识别控制方法和装置 | |
US11163356B2 (en) | Device-facing human-computer interaction method and system | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US6931596B2 (en) | Automatic positioning of display depending upon the viewer's location | |
US4961177A (en) | Method and apparatus for inputting a voice through a microphone | |
US6754373B1 (en) | System and method for microphone activation using visual speech cues | |
US20150331490A1 (en) | Voice recognition device, voice recognition method, and program | |
CN107346661B (zh) | 一种基于麦克风阵列的远距离虹膜跟踪与采集方法 | |
CN110750152B (zh) | 一种基于唇部动作的人机交互方法和系统 | |
US20160140964A1 (en) | Speech recognition system adaptation based on non-acoustic attributes | |
CN111833899B (zh) | 一种基于多音区的语音检测方法、相关装置及存储介质 | |
US20030048930A1 (en) | Image recognition apparatus and method | |
JP4715738B2 (ja) | 発話検出装置及び発話検出方法 | |
JP5797009B2 (ja) | 音声認識装置、ロボット、及び音声認識方法 | |
JPS58102300A (ja) | 個人同定方法および装置 | |
CN109101949A (zh) | 一种基于彩色视频信号频域分析的人脸活体检测方法 | |
JP2009222969A (ja) | 音声認識ロボットおよび音声認識ロボットの制御方法 | |
WO2023193803A1 (zh) | 音量控制方法、装置、存储介质和电子设备 | |
KR20150066883A (ko) | 이미지 처리 방법 및 장치 | |
JP6147198B2 (ja) | ロボット | |
CN114282621A (zh) | 一种多模态融合的话者角色区分方法与系统 | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
WO2021166811A1 (ja) | 情報処理装置および行動モード設定方法 | |
JP2737682B2 (ja) | テレビ会議システム | |
Göcke et al. | Automatic extraction of lip feature points |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |