CN105957521B - 一种用于机器人的语音和图像复合交互执行方法及系统 - Google Patents

一种用于机器人的语音和图像复合交互执行方法及系统 Download PDF

Info

Publication number
CN105957521B
CN105957521B CN201610107985.7A CN201610107985A CN105957521B CN 105957521 B CN105957521 B CN 105957521B CN 201610107985 A CN201610107985 A CN 201610107985A CN 105957521 B CN105957521 B CN 105957521B
Authority
CN
China
Prior art keywords
sound source
voice
command
robot
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610107985.7A
Other languages
English (en)
Other versions
CN105957521A (zh
Inventor
王运志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Luteng Intelligent Equipment Technology Co ltd
Original Assignee
Qingdao Krund Robot Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Krund Robot Co ltd filed Critical Qingdao Krund Robot Co ltd
Priority to CN201610107985.7A priority Critical patent/CN105957521B/zh
Publication of CN105957521A publication Critical patent/CN105957521A/zh
Application granted granted Critical
Publication of CN105957521B publication Critical patent/CN105957521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明涉及一种用于机器人的语音和图像复合交互执行方法及系统,所述方法包括:步骤一:机器人探测周围的声音,并对声源进行定位;步骤二:机器人探测周围的人脸,对人脸进行定位,并将人脸的定位与声源的定位进行比较和匹配,过滤掉干扰声源,初步确定语音声源,初步确定语音命令;步骤三:机器人检测周围人体目标,并对人体目标进行跟踪,识别肢体命令,并与初步确定的语音命令进行比较和匹配,过滤干扰语音命令,确定有效的用户命令,步骤四:机器人根据用户命令执行相应的操作。使机器人在复杂背景下更加准确地理解用户命令,仍可精确识别出向机器人发出的用户命令,鲁棒性更强,更智能、更有效地同人类用户进行交互。

Description

一种用于机器人的语音和图像复合交互执行方法及系统
技术领域
本发明涉及机器人领域,特别涉及一种用于机器人的语音和图像复合交互执行方法及系统。
背景技术
为实现机器人和人类用户交互,现有技术有的通过语音识别用户命令的技术,由于所处的真实环境较为复杂,同时存在其他用户的语音干扰和环境中的非语音干扰(如电视、音箱的声源等),多个用户都发出语音信号,只是有的向机器人发出语音命令,有的则在做交谈等与机器人无关的行为.所以声定位结果可能既包含发出语音命令的用户,又包含干扰声源。从包含干扰声源的复杂环境中准确定位用户声源是语音命令识别的一个难点,给语音命令识别增加了困难,基于人体运动分析来识别用户命令技术也有不足。运动目标检测是人体运动分析的基础步骤,但目前仍没有快速鲁棒的运动目标检测方法。一个主要原因是由于动态环境中采集的图像序列很容易受到各种干扰,这些干扰包括光照变化、背景干扰、目标影子干扰、目标被遮挡、摄像机运动、目标与环境颜色类似等。目前处理遮挡等干扰问题的算法往往也存在计算复杂度高,运算量较大的问题。
发明内容
本发明的目的在于提供一种用于机器人的语音和图像复合交互执行方法及系统,提高对用户命令识别的精度和鲁棒性。
本发明提供了一种用于机器人的语音和图像复合交互执行方法,包括:
步骤一:机器人探测周围的声音,并对声源进行定位;
步骤二:机器人探测周围的人脸,对人脸进行定位,并将人脸的定位与声源的定位进行比较和匹配,过滤掉干扰声源,初步确定语音声源,初步确定语音命令;
步骤三:机器人检测周围人体目标,并对人体目标进行跟踪,识别肢体命令,并与初步确定的语音命令进行比较和匹配,过滤干扰语音命令,确定有效的用户命令,
步骤四:机器人根据用户命令执行相应的操作.
步骤二中,对声源的周围进行人脸识别,若声源的位置周围检测到人脸信号,则该声源为语音声源,机器人对该语音声源分析识别语音命令;若声源的位置周围未检测到人脸信号,则该声源为干扰声源,将该声源过滤。
步骤二中,对机器人周围的所有人脸进行识别,若声源的位置与人脸的位置有重合,则该声源为语音声源,机器人对该语音声源分析识别语音命令;若声源的位置与人脸的位置没有重合,则该声源为干扰声源,将该声源过滤.
步骤三中,若语音声源处检测到的肢体命令与该语音声源确定的语音命令一致,则该语音声源的命令为有效的用户命令,若有效声源处检测到的肢体命令与该有效声源确定的语音命令不一致,则为干扰语音命令,将该命令过滤。
机器人采用基于视觉的人体运动分析来进行运动目标检测、运动目标分类、人体运动跟踪以及行为识别与描述。
步骤三中,利用摄像头提取人体目标,并对人体目标进行跟踪,然后提取人体骨架,确定人体的主干和肢体,分析人体的肢体动作,识别肢体命令。
一种具有上述方法的系统,所述系统包括:
声音探测识别单元,进行声音探测,对声源进行定位;
图像探测识别单元,探测机器人视场的图像信息,在图像中进行人脸检测识别,并识别和跟踪人体目标,对人体的肢体动作进行分析,识别出肢体命令;
控制单元,比较声源和人脸的位置识别语音声源,比较语音声源的语音命令和肢体命令确定用户命令;
执行单元,执行用户命令。
所述图像探测识别单元包括人脸识别单元和肢体命令识别单元。所述人脸识别单元和声音探测识别单元组成用户命令识别单元.
本发明将不同识别技术进行复合,发挥各自优点,弥补各自的不足,提高对用户命令识别的精度和鲁棒性,将语音识别技术和人脸检测识别技术复合实现用户语音命令识别,进一步复合肢体命令的识别提高机器人对用户命令的准确识别,在更准确识别用户命令的基础上,采用机器人机电动作执行系统完成机器人相应的动作,更好地完成用户交与的任务。可使机器人在复杂背景下更加准确地理解用户命令,克服了语音识别和图像识别各自的不足。当同时存在多个人类用户的复杂环境下,该系统仍可精确识别出向机器人发出的用户命令,鲁棒性更强,更智能、更有效地同人类用户进行交互。
附图说明
图1是语音命令识别流程
图2是肢体命令识别流程
图3是语音命令和肢体命令结合的控制流程
具体实施方式
将结合附图描述根据本发明的恒压涨紧装置和履带式机器人的具体实施方式。下面的详细描述和附图用于示例性地说明本发明的原理,本发明不限于所描述的优选实施例,本发明的范围由权利要求书限定。
如图1-3所示,本发明所述一种用于机器人的语音和图像复合交互执行方法,包括如下步骤:
步骤一:机器人探测周围的声音,并对声源进行定位;即检测机器人周围的所有声音;
步骤二:机器人探测周围的人脸,对人脸进行定位,并将人脸的定位与声源的定位进行比较和匹配,过滤掉干扰声源,初步确定语音声源,初步确定语音命令;可以过滤掉环境中的那些没有检测到人脸的、非人类用户干扰声源(如电视、音箱的声源等);
步骤三:机器人检测周围人体目标,并对人体目标进行跟踪,识别肢体命令,并与初步确定的语音命令进行比较和匹配,过滤干扰语音命令,确定有效的用户命令,可以过滤掉环境中的检测到人脸但是不是向机器人发出命令的人类用户干扰声源;
步骤四:机器人根据用户命令执行相应的操作.完成机器人所需的相应动作,如头部的抬头、低头和转动动作,如手臂的抬起、放下动作,如机器人身体前进、后退和转动动作等。
即将人脸检测识别结果和声音定位结果进行复合,消除那些没有检测到人脸的非人类用户的干扰声源.由于存在人类用户干扰声源,虽然在声探测中见到声源存在,且声源位置还处于某个人脸区域,但该用户没有向机器人发出需要执行的命令,也是需要剔除的干扰声源.对于人类用户干扰声源,常用的方法是识别所有用户声源的语音信号逐一辨别。如果用户声源语音识别结果是命令,则是需要交互的用户声源;如果语音识别结果不是命令,则为人类用户干扰声源,予以剔除。本发明复合了基于视觉的人体运动分析命令识别系统,所以在识别所有用户语音信号时,还复合人体肢体命令识别结果对用户干扰声源进行筛除。当所识别的用户声源识别结果是命令,同时该人脸所在的人体检测到对应语音命令的肢体命令,则语音命令和肢体命令形成了匹配对应关系,则此时可断定该用户声源所发命令是用户命令,需要执行。反之,如果语音命令识别结果和肢体命令识别结果不能匹配对应,则认为该用户声源是干扰声源,予以剔除。
步骤二中,对机器人周围的所有人脸进行识别,若声源的位置与人脸的位置有重合,则该声源为语音声源,机器人对该语音声源分析识别语音命令;若声源的位置与人脸的位置没有重合,则该声源为干扰声源,将该声源过滤.
或者步骤二中,只对声源的周围进行人脸识别,若声源的位置周围检测到人脸信号,则该声源为语音声源,机器人对该语音声源分析识别语音命令;若声源的位置周围未检测到人脸信号,则该声源为干扰声源,将该声源过滤。
步骤三中,若语音声源处检测到的肢体命令与该语音声源确定的语音命令一致,则该语音声源的命令为有效的用户命令,若有效声源处检测到的肢体命令与该有效声源确定的语音命令不一致,则为干扰语音命令,将该命令过滤。
机器人采用基于视觉的人体运动分析来进行运动目标检测、运动目标分类、人体运动跟踪以及行为识别与描述。利用摄像头优选红外摄像头提取人体目标,并对人体目标进行跟踪,然后提取人体骨架,确定人体的主干和肢体,分析人体的肢体动作,识别肢体命令。
图像探测识别单元主要由摄像头、识别分析处理软件等组成。图像探测识别单元主要功能是探测机器人前方视场的图像信息,在图像中进行人脸检测识别,并识别和跟踪人体目标,对人体的肢体动作进行分析,识别出肢体命令。
在图像探测识别系统识别肢体命令的过程中,首先利用红外摄像头提取人体目标,并对人体目标进行跟踪。然后提取人体骨架,确定人体的主干和肢体。在对人体进行跟踪的同时,分析人体的肢体动作,识别肢体命令。当语音探测识别系统识别到语音命令时,将同时间该人体识别的肢体命令和对应人体用户的语音识别命令结果进行比较,看所识别的肢体命令是否和语音识别命令相对应。如果二者相对应,则采用肢体命令识别印证了语音命令识别,说明当前的人体用户确实发出了所识别的语音命令。反之,如果二者不相对应,则不能采用肢体命令识别印证了语音命令识别,说明当前的人体用户没有发出了所识别的语音命令,当前的人体用户是干扰用户语音声源。
本发明将语音识别技术和人体行为分析技术进行复合,提供一个采用语音命令识别和图像肢体命令识别的复合人机交互执行系统,该系统在复杂环境下识别用户命令的精度更高,鲁棒性更强,能更有效地同用户进行交互,完成用户交与的任务。
本发明采用声音探测识别单元检测多个声源,采用人脸识别系统对检测到的多声源进行筛选,将可能的非用户干扰声源进行去除。再采用图像探测识别系统,探测和跟踪人体目标,对人体运动进行分析,识别所跟踪人体的肢体命令。将对用户肢体命令的识别结果和采用人脸识别修正后的语音命令识别结果进行复合,进一步剔除干扰用户声源,准确确定发出命令的用户声源,并对用户所发命令采用机器人机电动作执行系统予以完成,实现有效的人机交互。
本发明所述一种具有上述方法的系统,所述系统包括:
声音探测识别单元,进行声音探测,对声源进行定位;
图像探测识别单元,探测机器人视场的图像信息,在图像中进行人脸检测识别,并识别和跟踪人体目标,对人体的肢体动作进行分析,识别出肢体命令;所述图像探测识别单元包括人脸识别单元和肢体命令识别单元,
控制单元,比较声源和人脸的位置识别语音声源,比较语音声源的语音命令和肢体命令确定用户命令;
执行单元,执行用户命令。
或者本发明所述一种具有上述方法的系统,所述系统包括:语音命令识别单元和肢体命令识别单元,所述语音命令识别单元包括声音探测识别单元和人脸识别单元,其功能是在复杂背景中,识别语音信号中的命令,所述肢体命令识别单元和人脸识别单元是通过图像探测识别单元实现的。
如图1所示,本发明通过复合了人脸检测识别和声音识别来在复杂环境中识别语音命令。在语音识别过程中,声音探测识别单元进行声音探测,对声源进行定位,在真实的复杂环境中同时存在其他用户的语音干扰和非语音干扰(如电视、音箱的声源等),所以声音定位结果既包含发出语音命令的用户声源,又包含干扰声源。在声音定位的同时,图像探测识别单元的人脸识别单元对机器人前方进行图像探测,从图像中检测识别人脸目标,由于人类用户发命令的声源是口的位置,口的位置和人脸区域重合,所以人类用户声源所在区域往往和某个检测到的人脸区域重合,根据这个条件对人类用户的语音声源和非语音干扰声源进行鉴别。如果所探测到的声源区域和某个检测到的人脸区域重合,则说明该声源是人类用户语音声源.如果所探测到的声源区域不和某个检测到的人脸区域重合,则说明该声源是非用户干扰声源,需要剔除。在筛选出语音声源后,还需确定那个用户语音声源给机器人发出了命令。所以要对每个语音声源进行语音识别,对每个语音声源进行理解,并将语音识别结果和肢体命令识别结果进行复合。当同时存在多个人类用户的复杂环境下,该系统仍可精确识别出向机器人发出的用户命令,鲁棒性更强,更智能、更有效地同人类用户进行交互。
如图2所示,本发明的图像探测识别单元中的肢体命令识别单元对人体的运动进行分析,理解人体目标的肢体动作,识别出用户所发出的肢体命令。在肢体命令识别过程中,先用红外摄像头检测人体目标,并对人体目标进行跟踪。再对检测到的人体目标提取人体骨架,确定人体的主干和肢体。在对人体进行跟踪的同时,分析理解人体的肢体动作,识别肢体的命令。例如用户向机器人发出“向前走”的语音命令时,用户会向机器人做招手的肢体动作。机器人通过语音识别用户所发的“向前走”的语音命令,通过人体运动分析识别出用户人体的手部做出了招手的肢体命令。将两个识别结果进行复合,当语音命令和肢体命令对应上了,则准确识别了用户的命令。
如图3所示,本发明将语音命令识别和图像理解的肢体命令识别进行复合,以更好地进行人机交互。采用声音探测识别检测多个声源,采用人脸检测识别对检测到的多声源进行筛选,将非语音干扰声源进行去除,得到多个人类语音声源需进一步筛选,以找到发出语音命令的用户声源。采用图像探测识别单元探测和跟踪多个人体目标。对每个人体目标进行运动分析,识别所跟踪每个人体目标的肢体动作。由于语音声源也来自人体,所以每个检测到的用户语音声源都会和某个检测到的人体相对应。将相对应声源的语音命令识别结果和对应人体的肢体命令识别结果进行复合比较,如果语音识别到的命令和肢体动作识别到的命令是一致的,例如用户语音发出“向前走”的命令,对该用户身体的肢体命令识别中也出现招手的肢体命令,则语音命令识别结果和肢体命令识别结果匹配对应上了,这时就可断定该人类用户向机器人发出了相应的语音命令,机器人将调用机电动作执行系统完成用户命令规定的内容。如果相对应声源的语音识别结果和对应人体的肢体识别结果进行复合比较后,或者是语音信号中没有识别出语音命令,或者是肢体识别中没有识别出肢体命令,或者语音识别的命令和肢体动作识别到的命令不匹配对应,以上三种情况出现一种都说明该用户语音声源没有向机器人发出需要执行的命令,则该语音声源是人类用户干扰声源,将被剔除。至此,在采用语音命令识别和肢体命令识别复合后,在复杂环境中机器人可更准确地识别用户命令,使人机交互的鲁棒性得以提高.
如前所述,尽管说明中已经参考附图对本发明的示例性实施例进行了说明,但是本发明不限于上述各具体实施方式,还可以有许多其他实施例方式,本发明的范围应当由权利要求书及其等同含义来限定。

Claims (7)

1.一种用于机器人的语音和图像复合交互执行方法,其特征在于,包括:
步骤一:机器人探测周围的声音,并对声源进行定位;
步骤二:机器人探测周围的人脸,对人脸进行定位,并将人脸的定位与声源的定位进行比较和匹配,过滤掉干扰声源,初步确定语音声源,初步确定语音命令;
步骤三:机器人检测周围人体目标,并对人体目标进行跟踪,识别肢体命令,并与初步确定的语音命令进行比较和匹配,过滤干扰语音命令,确定有效的用户命令,
步骤四:机器人根据用户命令执行相应的操作;
其中步骤二中,对声源的周围进行人脸识别,若声源的位置周围检测到人脸信号,则该声源为语音声源,机器人对该语音声源分析识别语音命令;若声源的位置周围未检测到人脸信号,则该声源为干扰声源,将该声源过滤;或者对机器人周围的所有人脸进行识别,若声源的位置与人脸的位置有重合,则该声源为语音声源,机器人对该语音声源分析识别语音命令;若声源的位置与人脸的位置没有重合,则该声源为干扰声源,将该声源过滤。
2.根据权利要求1所述的一种用于机器人的语音和图像复合交互执行方法,其特征在于:步骤三中,若语音声源处检测到的肢体命令与该语音声源确定的语音命令一致,则该语音声源的命令为有效的用户命令,若有效声源处检测到的肢体命令与该有效声源确定的语音命令不一致,则为干扰语音命令,将该命令过滤。
3.根据权利要求2所述的一种用于机器人的语音和图像复合交互执行方法,其特征在于:机器人采用基于视觉的人体运动分析来进行运动目标检测、运动目标分类、人体运动跟踪以及行为识别与描述。
4.根据权利要求3所述的一种用于机器人的语音和图像复合交互执行方法,其特征在于:步骤三中,利用摄像头提取人体目标,并对人体目标进行跟踪,然后提取人体骨架,确定人体的主干和肢体,分析人体的肢体动作,识别肢体命令。
5.一种用于执行权利要求1-4任一所述方法的系统,其特征在于,所述系统包括:
声音探测识别单元,进行声音探测,对声源进行定位;
图像探测识别单元,探测机器人视场的图像信息,在图像中进行人脸检测识别,并识别和跟踪人体目标,对人体的肢体动作进行分析,识别出肢体命令;
控制单元,比较声源和人脸的位置识别语音声源,比较语音声源的语音命令和肢体命令确定用户命令;
执行单元,执行用户命令。
6.根据权利要求5所述的系统,其特征在于:所述图像探测识别单元包括人脸识别单元和肢体命令识别单元。
7.根据权利要求6所述的系统,其特征在于:所述人脸识别单元和声音探测识别单元组成用户命令识别单元。
CN201610107985.7A 2016-02-29 2016-02-29 一种用于机器人的语音和图像复合交互执行方法及系统 Active CN105957521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610107985.7A CN105957521B (zh) 2016-02-29 2016-02-29 一种用于机器人的语音和图像复合交互执行方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610107985.7A CN105957521B (zh) 2016-02-29 2016-02-29 一种用于机器人的语音和图像复合交互执行方法及系统

Publications (2)

Publication Number Publication Date
CN105957521A CN105957521A (zh) 2016-09-21
CN105957521B true CN105957521B (zh) 2020-07-10

Family

ID=56917242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610107985.7A Active CN105957521B (zh) 2016-02-29 2016-02-29 一种用于机器人的语音和图像复合交互执行方法及系统

Country Status (1)

Country Link
CN (1) CN105957521B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599866B (zh) * 2016-12-22 2020-06-02 上海百芝龙网络科技有限公司 一种多维度用户身份识别方法
CN106653041B (zh) * 2017-01-17 2020-02-14 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
US11178280B2 (en) * 2017-06-20 2021-11-16 Lenovo (Singapore) Pte. Ltd. Input during conversational session
CN107297745B (zh) * 2017-06-28 2019-08-13 上海木木机器人技术有限公司 语音交互方法、语音交互装置及机器人
CN109493871A (zh) * 2017-09-11 2019-03-19 上海博泰悦臻网络技术服务有限公司 车载系统的多屏语音交互方法及装置、存储介质和车机
WO2019118089A1 (en) 2017-12-11 2019-06-20 Analog Devices, Inc. Multi-modal far field user interfaces and vision-assisted audio processing
CN109981970B (zh) * 2017-12-28 2021-07-27 深圳市优必选科技有限公司 一种确定拍摄场景的方法、装置和机器人
CN108322855B (zh) * 2018-02-11 2020-11-17 北京百度网讯科技有限公司 用于获取音频信息的方法及装置
US11195525B2 (en) * 2018-06-13 2021-12-07 Panasonic Intellectual Property Corporation Of America Operation terminal, voice inputting method, and computer-readable recording medium
CN110889315B (zh) * 2018-09-10 2023-04-28 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及系统
CN109147813A (zh) * 2018-09-21 2019-01-04 神思电子技术股份有限公司 一种基于影音定位技术的服务机器人降噪方法
JP2020089947A (ja) * 2018-12-06 2020-06-11 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN110799913A (zh) * 2018-12-29 2020-02-14 深圳市大疆创新科技有限公司 一种地面遥控机器人的控制方法和装置
CN109506568B (zh) * 2018-12-29 2021-06-18 思必驰科技股份有限公司 一种基于图像识别和语音识别的声源定位方法及装置
EP3712787B1 (en) * 2019-03-18 2021-12-29 Siemens Aktiengesellschaft A method for generating a semantic description of a composite interaction
CN110051289B (zh) * 2019-04-03 2022-03-29 北京石头世纪科技股份有限公司 扫地机器人语音控制方法、装置、机器人和介质
CN110390300A (zh) * 2019-07-24 2019-10-29 北京洛必德科技有限公司 一种用于机器人的目标跟随方法和装置
CN110524559B (zh) * 2019-08-30 2022-06-10 成都未至科技有限公司 基于人员行为数据的智能人机交互系统及方法
CN111048113B (zh) * 2019-12-18 2023-07-28 腾讯科技(深圳)有限公司 声音方向定位处理方法、装置、系统、计算机设备及存储介质
WO2022000174A1 (zh) * 2020-06-29 2022-01-06 深圳市大疆创新科技有限公司 音频处理方法、音频处理装置、电子设备
CN115862668B (zh) * 2022-11-28 2023-10-24 之江实验室 机器人基于声源定位判断交互对象的方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100505837C (zh) * 2007-05-10 2009-06-24 华为技术有限公司 一种控制图像采集装置进行目标定位的系统及方法
US9092394B2 (en) * 2012-06-15 2015-07-28 Honda Motor Co., Ltd. Depth based context identification
CN104269172A (zh) * 2014-07-31 2015-01-07 广东美的制冷设备有限公司 基于视频定位的语音控制方法和系统
CN105234945A (zh) * 2015-09-29 2016-01-13 塔米智能科技(北京)有限公司 一种基于网络语音对话及体感互动的迎宾机器人

Also Published As

Publication number Publication date
CN105957521A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105957521B (zh) 一种用于机器人的语音和图像复合交互执行方法及系统
CN103353935B (zh) 一种用于智能家居系统的3d动态手势识别方法
US8837780B2 (en) Gesture based human interfaces
US10043064B2 (en) Method and apparatus of detecting object using event-based sensor
Barzelay et al. Harmony in motion
KR102133728B1 (ko) 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
US20060104454A1 (en) Method for selectively picking up a sound signal
CN110362210B (zh) 虚拟装配中融合眼动跟踪和手势识别的人机交互方法和装置
US20110158476A1 (en) Robot and method for recognizing human faces and gestures thereof
EP2584531A1 (en) Gesture recognition device, gesture recognition method, and program
US8965068B2 (en) Apparatus and method for discriminating disguised face
CN107894836B (zh) 基于手势和语音识别的遥感图像处理与展示的人机交互方法
US10013070B2 (en) System and method for recognizing hand gesture
CN111048113A (zh) 声音方向定位处理方法、装置、系统、计算机设备及存储介质
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
KR102290186B1 (ko) 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
KR20120072009A (ko) 다중 사용자의 인터렉션 인식 장치 및 방법
WO2007138503A1 (en) Method of driving a speech recognition system
US20140321750A1 (en) Dynamic gesture recognition process and authoring system
Joslin et al. Dynamic gesture recognition
KR101553484B1 (ko) 손동작 인식 장치 및 그 방법
Brueckmann et al. Adaptive noise reduction and voice activity detection for improved verbal human-robot interaction using binaural data
KR101158016B1 (ko) 상체자세 및 손모양 검출 장치 및 그 방법
US20190377938A1 (en) Device and method for recognizing gesture
Jacob et al. Real time static and dynamic hand gestures cognizance for human computer interaction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: No.6 Fenhe Road, Jiaozhou economic and Technological Development Zone, Qingdao, Shandong Province 266000

Patentee after: Qingdao Kelu Intelligent Technology Co.,Ltd.

Address before: 266300 east of Shangde Avenue and south of Fenhe Road, Jiaozhou Economic Development Zone, Qingdao, Shandong

Patentee before: QINGDAO KRUND ROBOT Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230918

Address after: No.6 Fenhe Road, Jiaozhou economic and Technological Development Zone, Qingdao, Shandong Province 266000

Patentee after: Qingdao Luteng Intelligent Equipment Technology Co.,Ltd.

Address before: No.6 Fenhe Road, Jiaozhou economic and Technological Development Zone, Qingdao, Shandong Province 266000

Patentee before: Qingdao Kelu Intelligent Technology Co.,Ltd.