CN111933136A - 一种辅助语音识别控制方法和装置 - Google Patents

一种辅助语音识别控制方法和装置 Download PDF

Info

Publication number
CN111933136A
CN111933136A CN202010831279.3A CN202010831279A CN111933136A CN 111933136 A CN111933136 A CN 111933136A CN 202010831279 A CN202010831279 A CN 202010831279A CN 111933136 A CN111933136 A CN 111933136A
Authority
CN
China
Prior art keywords
client
detection module
angle
voice
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010831279.3A
Other languages
English (en)
Inventor
孙非凡
周院平
孙信中
矫人全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aoto Electronics Co ltd
Original Assignee
Nanjing Aoto Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aoto Electronics Co ltd filed Critical Nanjing Aoto Electronics Co ltd
Priority to CN202010831279.3A priority Critical patent/CN111933136A/zh
Publication of CN111933136A publication Critical patent/CN111933136A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种辅助语音识别控制方法及装置。辅助语音识别控制方法包括如下步骤:当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块;当人脸检测模块上限定的交互热区中未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关;当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话:若客户未张嘴说话,则关闭语音识别开关;若判断客户正在说话,则进行语言检测和识别。

Description

一种辅助语音识别控制方法和装置
技术领域
本发明属于语音识别技术领域,尤其涉及一种辅助语音识别控制方法和装置。
背景技术
在语音识别系统中,正确有效的进行语音端点检测(Voice Activity Detection,VAD)不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰,提高语音识别的正确率。由于语音信号中不仅包含所需要的有用的语音端,同时也包含了无用的背景噪声段,语音端点检测可以从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段(背景噪声段)两类。现有技术中,通常使用语音能量的检测器进行语音端点检测,但是这种语音段在检测方法在嘈杂的环境下经常失效,从而造成干扰语音也作为目标语音送往语音识别引擎,造成语音识别系统抗干扰能力差,影响语音识别效果,最终影响客户交互体验。
中国专利CN110875060A公开了一种语音信号处理方法、装置、系统、设备和存储介质。该方法包括:使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段(根据判断人嘴巴的张合来判断说话时机);对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。根据本发明实施例提供的语音信号处理方法,可以在多干扰源的嘈杂环境下对语音信号进行语音端点检测,提高系统的抗干扰能力。
中国专利CN111048066A提出了一种儿童机器人上利用图像辅助的语音端点检测系统,所述语音端点检测系统包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,所述机器人唤醒模块,用于启动机器人准备进入拾音状态;所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。
上述专利均存在以下缺点:
1、因为摄像头是有一定获取图像的角度,而面对不同身高(例如:小孩和成年人,男人或女人)的客户,该方案里的图像采集设备将会无法获取高质量的人脸图像,即可能摄像头采集不到或者不全的人脸图像,所以就无法实施检测目标人员发出语音的时间段的目的。
2、一般普通摄像头(非广角)所采集区域也可能存在多人脸的情况(注:广角摄像头采集区域会更广),将会导致,无法判断目标客户(正在人机交互的客户)是谁,就更无法获取目标客户的有效辅助信息(例如:客户是否说话,客户是否盯着屏幕看等信息)或存在误导。
3、仅仅通过摄像头来判断是否客户到达,可能存在误判或失效情况。例如:客户站立的交互位置不佳或身高过高或过低,导致的不在摄像头采集范围等情况。
发明内容
针对上述技术问题,本发明公开一种辅助语音识别控制方法和装置,提升语音识别系统抗干扰能力,增强语音识别效果。
为达到上述目的,本发明采用的技术方案如下。
本发明公开了一种辅助语音识别控制方法,主要流程如下:
当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作。
当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关。此时打开,能够防止客户不在人脸检测范围时,造成的交互体验差,若后续检测没人会再关闭。
当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度。
当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块,防止噪音输入。
当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话,若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块。若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。
进一步的,人脸检测模块中预设一图像交互热区,图像交互热区通过在视频帧里限定热区对角的坐标值来设定,若人脸识别模块识别到的人脸中心位置在交互区域内,则判断为客户在交互区域。优选的,热区的划定,只需要在视频帧里限定x1y1点(热区左下角)和x2y2(热区右上角)的值,然后就可以判断。例如鼻子中心点是x0y0,如果x1<x0<x2,y1<y0<y2即可判断鼻子中心在图像交互热区里。
进一步的,关于交互热区的限定判断,还结合线性阵列麦克风声源定位模块来判断。在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态。
作为优选的,立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180)。声源方向第三和第四角度设定为可交互的声源热区。上述判断,可防止声源非中心交互区域的误收音,例如客户在图像交互热区内且判定为说话状态,可能是说话状态模块的误判或者说话着声音小无法进行有效拾音,且其他方向有人在说话,即此时声源方向判定为非声源交互区域,则关闭拾音模块和VAD端点检测模块。
进一步的,人脸检测模块1秒钟获取8-16帧图片,客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;若每秒钟超过4-8帧的嘴巴为张开状态,则判断此时客户为说话状态,反之,此时未说话状态。
进一步的,VAD端点检测模块使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类。
本发明还公开了一种辅助语音识别控制装置,包括:上位机辅助控制系统,上位机辅助控制系统连接红外数据采集模块、VAD端点检测模块、人脸检测模块、客户说话检测模块、摄像头角度调整微动模块等;
红外数据采集模块的红外传感器覆盖上位机的交互区域;上位机通过串口连接红外数据采集模块,实时获取红外触发数据。当有人交互时,可以第一时间通知上位机辅助控制系统。
VAD端点检测模块:使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类。
由于摄像头有一定的广角,所以我们对摄像头范围进行预处理,在人脸检测模块中设定一个图像交互热区,图像交互热区有效减小多人交互时对系统进行的干扰。
客户说话检测模块:根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话。
摄像头角度调整微动模块:上位机辅助控制系统对摄像头角度调整微动模块进行串口通信。
进一步的,图像交互热区的划定方法为:在视频帧里限定热区对角的坐标值。
进一步的,还包括线性阵列麦克风声源定位模块,声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态。
作为优选的,立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180);声源方向第三和第四角度设定为可交互的声源热区。
进一步的,上位机辅助控制系统通过串口通信,控制摄像头角度调整微动模块的微动结构件来调整摄像头上下仰角。
本发明具有以下有益效果:复杂环境下,多干扰源的嘈杂环境下对语音信号进行语音端点检测时,能够提高系统的抗干扰能力,辅助系统锁定人机交互中目标客户,提高系统的语音识别效果。
摄像头角度微动方案,是一种可调整摄像头传感器的上下仰角,增加摄像头广角范围,可满足于个子高或个子矮的人的场景,能够在面对不同身高的客户时,解决因图像采集设备将会无法获取高质量的人脸图像,即解决可能摄像头采集不到或采集不全人脸图像的问题。
通过对人脸检测原始范围内设置一个小的热区,只在人脸检测热区区域出现人脸才判断为有人交互,当所采集区域存在多人脸的情况下,也只判断热区内的交互者信息。
目标客户判断准确。
仅仅通过摄像头来判断客户是否到达方案下出现的特殊情况的问题。本发明的技术方案加入了红外数据采集模块,可以弥补这种误差,通过双重认证来增加交互准确率,增加交互体验效果。
附图说明
图1为本发明实施例的辅助语音识别控制装置示意图。
图2为本发明实施例的辅助语音识别控制方法流程图。
图3为本发明实施例的辅助语音识别控制方法交互热区示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明。
如图1所示,本实施例的辅助语音识别控制装置,包括:上位机辅助控制系统,上位机辅助控制系统连接红外数据采集模块、VAD端点检测模块、人脸检测模块、客户说话检测模块、摄像头角度调整微动模块等。
红外数据采集模块:上位机通过串口连接红外传感器,实时获取红外触发数据。红外传感器需要覆盖整个交互区域。当有人交互时,可以第一时间通知上位机辅助控制系统。
VAD端点检测模块:使用语音能量的检测器进行语音端点检测,语音端点检测模块,可以从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段(背景噪声段)两类。
人脸检测模块:由于摄像头有一定的广角,所以我们对摄像头范围进行预处理,画了一定图像交互热区,如图3所示,该热区可以有效减小多人交互时对系统进行的干扰。如下图所示,外框为摄像头采集区域,内色为我们画出的客户图像交互热区。若人脸的中心位置在图像交互热区的区域内,则判断为客户在交互区域。
客户说话检测模块:人脸检测之后会在人脸图像上产生68个特征位置。我们取点63上嘴唇和点67下嘴唇的张合距离来判断客户是否说话。我们人脸检测模块1秒钟获取10帧图片,若每秒钟超过4帧的嘴巴为张开状态,我们则判断此时客户为说话状态,反之,此时未说话状态(经过测试算法在人移动时会出现不稳定状态)。
摄像头角度调整微动模块:上位机辅助控制系统对摄像头角度调整微动模块进行串口通信。
关于交互热区的限定判断,不仅视频图像上的判断,还结合线性6麦或8麦阵列的声源定位方向来判断。线性麦克风阵列进行声源定位的方法主要有以下三种,基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于声音时间差的声源定位技术,我们通过实验选择最优的解决方案进行声源定位,并且可在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出人的立体(0°~180°)方位,包含以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180)。我们通过声源方向第三和第四角度设定为可交互的声源热区,结合上述图像热区的联合判断,故当图像中心热区和声源中心方向热区同时满足时,才判定交互者处于可交互状态。上述判断,可防止声源非中心交互区域的误收音,例如客户在视频热区内且判定为说话状态,可能是说话状态模块的误判或者说话着声音小无法进行有效拾音,且其他方向有人在说话,即此时声源方向判定为非声源交互区域,则关闭拾音模块和VAD端点检测模块。
如图2,本实施例的辅助语音识别控制方法主要流程如下:
步骤一:当客户与设备进行人机交互活动时,红外传感器模块判断客户到达动作。
步骤二:当红外传感器检测到被触发后,启动人脸检测(限定热区)模块,热区的划定,只需要在视频帧里限定x1y1点(热区左下角)和x2y2(热区右上角)的值,然后就可以判断。例如鼻子中心点是x0y0,如果x1<x0<x2,y1<y0<y2即可判断鼻子中心在热区里。并开启VAD端点检测模块和语音识别开关(此时打开,防止客户不在人脸检测范围时,造成的交互体验差,若后续检测没人会再关闭)。VAD端点检测模块和语音识别开关是串行关系,VAD端点检测模块是控制语音音频拾音的,即是检测人声的,如果有人声就送到语音识别模块去识别文字。
步骤三:当限定交互区域热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度。上位机辅助控制系统通过串口通信,控制摄像头角度调整微动模块的微动结构件来调整摄像头上下仰角。
步骤四:当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块,防止噪音输入。
步骤五:当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话,若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块。若判断客户正在说话,则VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。
以上的实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.一种辅助语音识别控制方法,其特征在于,包括如下步骤:
当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;
当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关;
当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;
当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块;
当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话:若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块;若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。
2.根据权利要求1所述的辅助语音识别控制方法,其特征在于:
人脸检测模块中预设一图像交互热区,图像交互热区通过在视频帧里限定热区对角的坐标值来设定,若人脸识别模块识别到的人脸中心位置在图像交互热区内,则判断为客户在交互区域。
3.根据权利要求2所述的辅助语音识别控制方法,其特征在于:还结合线性阵列麦克风声源定位模块来判断交互热区;
在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态;否则关闭拾音模块和VAD端点检测模块。
4.根据权利要求3所述的辅助语音识别控制方法,其特征在于:
立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180);声源方向第三和第四角度设定为可交互的声源热区。
5.根据权利要求1所述的辅助语音识别控制方法,其特征在于:
人脸检测模块1秒钟获取8-16帧图片,客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;
若每秒钟超过4-8帧的嘴巴为张开状态,则判断此时客户为说话状态,反之,此时未说话状态。
6.根据权利要求1至5中任一所述的辅助语音识别控制方法,其特征在于:
VAD端点检测模块使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类。
7.一种辅助语音识别控制装置,其特征在于,包括:
上位机辅助控制系统,所述上位机辅助控制系统连接红外数据采集模块、VAD端点检测模块、人脸检测模块、客户说话检测模块、摄像头角度调整微动模块;
所述红外数据采集模块的红外传感器覆盖上位机的交互区域;上位机通过串口连接红外数据采集模块,实时获取红外触发数据;
所述人脸检测模块中设定一个图像互热区,若人脸的中心位置在图像交互热区内,则判断为客户在交互区域;
所述VAD端点检测模块使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类;
所述客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;
所述摄像头角度调整微动模块:所述上位机辅助控制系统对所述摄像头角度调整微动模块进行串口通信。
8.根据权利要求7所述的辅助语音识别控制装置,其特征在于:
所述图像交互热区的划定方法为:在视频帧里限定热区对角的坐标值;
还包括线性阵列麦克风声源定位模块,声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态。
9.根据权利要求7所述的辅助语音识别控制装置,其特征在于:
立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180);声源方向第三和第四角度设定为可交互的声源热区。
10.根据权利要求7所述的辅助语音识别控制装置,其特征在于:
所述上位机辅助控制系统通过串口通信,控制所述摄像头角度调整微动模块的微动结构件来调整摄像头上下仰角。
CN202010831279.3A 2020-08-18 2020-08-18 一种辅助语音识别控制方法和装置 Pending CN111933136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010831279.3A CN111933136A (zh) 2020-08-18 2020-08-18 一种辅助语音识别控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010831279.3A CN111933136A (zh) 2020-08-18 2020-08-18 一种辅助语音识别控制方法和装置

Publications (1)

Publication Number Publication Date
CN111933136A true CN111933136A (zh) 2020-11-13

Family

ID=73305298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010831279.3A Pending CN111933136A (zh) 2020-08-18 2020-08-18 一种辅助语音识别控制方法和装置

Country Status (1)

Country Link
CN (1) CN111933136A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382306A (zh) * 2020-12-02 2021-02-19 苏州思必驰信息科技有限公司 分离说话人音频的方法及装置
CN112565600A (zh) * 2020-11-28 2021-03-26 浪潮金融信息技术有限公司 一种智能ai摄像头系统及其定位识别方法
CN113139491A (zh) * 2021-04-30 2021-07-20 厦门盈趣科技股份有限公司 视频会议控制方法、系统、移动终端及存储介质
CN113380243A (zh) * 2021-05-27 2021-09-10 广州广电运通智能科技有限公司 一种辅助语音交互的方法及系统、存储介质
CN114676282A (zh) * 2022-04-11 2022-06-28 北京女娲补天科技信息技术有限公司 一种基于音视频数据的事件录入方法、装置及计算机设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159111A (zh) * 2015-08-24 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
CN107123423A (zh) * 2017-06-07 2017-09-01 微鲸科技有限公司 语音拾取装置及多媒体设备
US20170270701A1 (en) * 2016-03-16 2017-09-21 Casio Computer Co., Ltd. Image processing device, animation display method and computer readable medium
CN107230476A (zh) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 一种自然的人机语音交互方法和系统
CN109410957A (zh) * 2018-11-30 2019-03-01 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
CN109492506A (zh) * 2017-09-13 2019-03-19 华为技术有限公司 图像处理方法、装置和系统
CN110460772A (zh) * 2019-08-14 2019-11-15 广州织点智能科技有限公司 摄像头自动调节方法、装置、设备和存储介质
CN110808048A (zh) * 2019-11-13 2020-02-18 联想(北京)有限公司 语音处理方法、装置、系统及存储介质
CN111048113A (zh) * 2019-12-18 2020-04-21 腾讯科技(深圳)有限公司 声音方向定位处理方法、装置、系统、计算机设备及存储介质
CN111048066A (zh) * 2019-11-18 2020-04-21 云知声智能科技股份有限公司 一种儿童机器人上利用图像辅助的语音端点检测系统
CN111179927A (zh) * 2019-12-20 2020-05-19 恒银金融科技股份有限公司 一种金融设备语音交互方法以及系统
CN111241922A (zh) * 2019-12-28 2020-06-05 深圳市优必选科技股份有限公司 一种机器人及其控制方法、计算机可读存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159111A (zh) * 2015-08-24 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
US20170270701A1 (en) * 2016-03-16 2017-09-21 Casio Computer Co., Ltd. Image processing device, animation display method and computer readable medium
CN107230476A (zh) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 一种自然的人机语音交互方法和系统
CN107123423A (zh) * 2017-06-07 2017-09-01 微鲸科技有限公司 语音拾取装置及多媒体设备
CN109492506A (zh) * 2017-09-13 2019-03-19 华为技术有限公司 图像处理方法、装置和系统
CN109410957A (zh) * 2018-11-30 2019-03-01 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
CN110460772A (zh) * 2019-08-14 2019-11-15 广州织点智能科技有限公司 摄像头自动调节方法、装置、设备和存储介质
CN110808048A (zh) * 2019-11-13 2020-02-18 联想(北京)有限公司 语音处理方法、装置、系统及存储介质
CN111048066A (zh) * 2019-11-18 2020-04-21 云知声智能科技股份有限公司 一种儿童机器人上利用图像辅助的语音端点检测系统
CN111048113A (zh) * 2019-12-18 2020-04-21 腾讯科技(深圳)有限公司 声音方向定位处理方法、装置、系统、计算机设备及存储介质
CN111179927A (zh) * 2019-12-20 2020-05-19 恒银金融科技股份有限公司 一种金融设备语音交互方法以及系统
CN111241922A (zh) * 2019-12-28 2020-06-05 深圳市优必选科技股份有限公司 一种机器人及其控制方法、计算机可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565600A (zh) * 2020-11-28 2021-03-26 浪潮金融信息技术有限公司 一种智能ai摄像头系统及其定位识别方法
CN112565600B (zh) * 2020-11-28 2023-11-03 浪潮金融信息技术有限公司 一种智能ai摄像头系统及其定位识别方法
CN112382306A (zh) * 2020-12-02 2021-02-19 苏州思必驰信息科技有限公司 分离说话人音频的方法及装置
CN112382306B (zh) * 2020-12-02 2022-05-10 思必驰科技股份有限公司 分离说话人音频的方法及装置
CN113139491A (zh) * 2021-04-30 2021-07-20 厦门盈趣科技股份有限公司 视频会议控制方法、系统、移动终端及存储介质
CN113380243A (zh) * 2021-05-27 2021-09-10 广州广电运通智能科技有限公司 一种辅助语音交互的方法及系统、存储介质
CN114676282A (zh) * 2022-04-11 2022-06-28 北京女娲补天科技信息技术有限公司 一种基于音视频数据的事件录入方法、装置及计算机设备
CN114676282B (zh) * 2022-04-11 2023-02-03 北京女娲补天科技信息技术有限公司 一种基于音视频数据的事件录入方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN111933136A (zh) 一种辅助语音识别控制方法和装置
US4961177A (en) Method and apparatus for inputting a voice through a microphone
CN107346661B (zh) 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
US5884257A (en) Voice recognition and voice response apparatus using speech period start point and termination point
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US8248448B2 (en) Automatic camera framing for videoconferencing
JP4204541B2 (ja) 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
US9881610B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9723260B2 (en) Voice tracking camera with speaker identification
US20150331490A1 (en) Voice recognition device, voice recognition method, and program
US11423896B2 (en) Gaze-initiated voice control
US9520131B2 (en) Apparatus and method for voice processing
WO2015154419A1 (zh) 一种人机交互装置及方法
JP4715738B2 (ja) 発話検出装置及び発話検出方法
CN110750152B (zh) 一种基于唇部动作的人机交互方法和系统
JP5797009B2 (ja) 音声認識装置、ロボット、及び音声認識方法
JP2009222969A (ja) 音声認識ロボットおよび音声認識ロボットの制御方法
JP2000338987A (ja) 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
US20230073265A1 (en) Information processing device and action mode setting method
JP2737682B2 (ja) テレビ会議システム
CN110188179A (zh) 语音定向识别交互方法、装置、设备及介质
WO2023193803A1 (zh) 音量控制方法、装置、存储介质和电子设备
JP3838159B2 (ja) 音声認識対話装置およびプログラム
CN114268337A (zh) 智能安防控制方法、智能安防设备及控制器
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination