CN106203259A - 机器人的交互方向调整方法及装置 - Google Patents

机器人的交互方向调整方法及装置 Download PDF

Info

Publication number
CN106203259A
CN106203259A CN201610481974.5A CN201610481974A CN106203259A CN 106203259 A CN106203259 A CN 106203259A CN 201610481974 A CN201610481974 A CN 201610481974A CN 106203259 A CN106203259 A CN 106203259A
Authority
CN
China
Prior art keywords
voice signal
face
angle
adjust
need
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610481974.5A
Other languages
English (en)
Inventor
林绿德
庄永军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sanbao Innovation Intelligence Co ltd
Original Assignee
QIHAN TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QIHAN TECHNOLOGY Co Ltd filed Critical QIHAN TECHNOLOGY Co Ltd
Priority to CN201610481974.5A priority Critical patent/CN106203259A/zh
Priority to US15/239,884 priority patent/US20170368688A1/en
Publication of CN106203259A publication Critical patent/CN106203259A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Manipulator (AREA)

Abstract

本发明适用于人机交互领域,提供了一种机器人的交互方向调整方法及装置。所述方法包括:接收到语音信号后,确定发出所述语音信号对应的初始方位;将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像;检测获取的图像是否存在人脸;在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度;根据所述需调整的角度进行相应的调整。通过上述方法,使得调整后得到的定位的位置方向更精确。

Description

机器人的交互方向调整方法及装置
技术领域
本发明实施例属于人机交互领域,尤其涉及一种机器人的交互方向调整方法及装置。
背景技术
机器人是自动执行工作的机器装置,它既可以接受人类指挥,又可以运行预先编排的程序,还可以根据以人工智能技术制定的原则纲领行动。
现有的机器人中,当检测到用户的声音信号时,根据声源定位技术估算出用户的位置方向,当接收到用户发出的前进指令后,控制自身往估算的位置方向转动。但由于声音信号是以波的形式向四周传播的,因此,仅根据声源定位机器人的主人的位置方向不够准确。
发明内容
本发明实施例提供了一种机器人的交互方向调整方法及装置,旨在解决现有机器人仅根据声源定位用户的位置方向,从而导致定位的位置方向不准确的问题。
本发明实施例是这样实现的,一种机器人的交互方向调整方法,所述方法包括:
接收到语音信号后,确定发出所述语音信号对应的初始方位;
将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像;
检测获取的图像是否存在人脸;
在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度;
根据所述需调整的角度进行相应的调整。
本发明实施例的另一目的在于提供一种机器人的交互方向调整装置,所述装置包括:
语音信号接收单元,用于接收到语音信号后,确定发出所述语音信号对应的初始方位;
图像获取单元,用于将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像;
人脸检测单元,用于检测获取的图像是否存在人脸;
需调整的角度确定单元,用于在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度;
角度调整单元,用于根据所述需调整的角度进行相应的调整。
在本发明实施例中,由于在将机器人从当前方位调整至确定的初始方位之后,还根据人脸在获取的图像的位置确定需调整的角度,因此,使得调整后得到的定位的位置方向更精确,并且,使得根据需调整的角度进行相应的调整后的机器人能够正面面对用户交流,从而增加了人机互动的智能性,并且,机器人与用户面对面的交互过程也更逼真、自然。
附图说明
图1是本发明第一实施例提供的一种机器人的交互方向调整方法的流程图;
图2是本发明第一实施例提供的确定发出语音信号对应的具体位置的示意图;
图3是本发明第一实施例提供的根据获取的人脸在获取的图像的位置确定需调整的角度的示意图;
图4是本发明第二实施例提供的一种机器人的交互方向调整装置。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,接收到语音信号后,确定发出所述语音信号对应的初始方位,将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像,检测获取的图像是否存在人脸,在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度,根据所述需调整的角度进行相应的调整。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的一种机器人与用户的交互方法的流程图,详述如下:
步骤S11,接收到语音信号后,确定发出所述语音信号对应的初始方位。
该步骤中,当接收到语音信号后,根据声源定位技术估算出所述语音信号对应的初始方位,例如,当接收的语音信号有多个时,根据定位技术估算出最强的语音信号对应的初始方位。
可选地,为了避免干扰,节省电量,所述步骤S11具体包括:
A1、接收到语音信号后,判断所述语音信号是否为唤醒指令。具体地,识别语音信号包含的词句含义,若语音信号包含的词句含义与预设的词句含义相同时,判定所述语音信号为唤醒指令,否则,判定所述语音信号不为唤醒指令。进一步地,语音信号包含的词句含义与预设的词句含义相同时,继续判断所述语音信号对应的音频和/或音色等与预存的音频和/或音色是否相同,若相同,判定所述语音信号为唤醒指令,否则,判定所述语音信号不为唤醒指令。
A2、在所述语音信号为唤醒指令时,确定发出所述语音信号对应的初始方位。
具体地,通过声源定位技术估算出语音信号对应的初始方位。当然,若需要确定发出语音信号对应的具体位置,则可利用接收到语音信号的时间差确定。例如,在机器人的身上设置4个麦克风,该4个麦克风的阵列采用四元十字阵列方式,且四个麦克风按照十字的方式摆布在一个平面之内,其中S代表声源的位置,M1,M2,M3,M4分别为四元十字阵列中四个阵元(即麦克风)的位置,如图2所示。其中,目标方位角为φ,声源仰角为θ(组成的夹角),r为目标声源(即点S)到坐标原点O的距离,两个麦克风Mi与Mj接收到声音的时间差用tij表示,则通过下式可以确定发出所述语音信号对应的初始方位以及位置:
t a n φ = t 41 + t 31 - t 21 t 21 + t 31 - t 41 c o s θ = C L t 31 2 + ( t 41 - t 21 ) 2 2 r = C [ t 31 2 + ( t 41 - t 21 ) 2 ] 4 ( t 41 - t 31 + t 21 )
步骤S12,将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像。
当确定了初始方位后,若机器人的当前方位与所述初始方位不同,则将机器人从当前方位调整至所述初始方位,并通过图像获取装置,如摄像头、高清彩色摄像机等获取所述方位对应的图像,获取的图像可为2D图像,也可为3D图像。
步骤S13,检测获取的图像是否存在人脸。
具体地,通过人脸检测算法检测获取的图像算法存在人脸。
步骤S14,在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度。
可选地,为了使得机器人与用户的交流更自然和更逼真,可通过调整一定的角度使得机器人正面面对用户交流,增加了人机交互的智能性,此时,所述步骤S14具体包括:
B1、在获取的图像存在人脸时,判断人脸的个数是否大于1。
B2、在人脸的个数大于1时,选择深度最小的人脸,并根据所述深度最小的人脸在获取的图像的位置确定需调整的角度。
B3、在人脸的个数等于1时,根据所述人脸在获取的图像的位置确定需调整的角度。
上述B1~B3中,主要确定根据哪个人脸在获取的图像的位置确定需调整的角度:当获取的图像存在多个人脸时,选择深度最小的人脸,并根据深度最小的人脸在获取的图像的位置确定需调整的角度。由于深度越小,其与机器人的距离越近,而与机器人的距离越近的用户为该机器人的主人的概率越大,因此,根据人脸的深度大小确定需调整的角度也越准确。由于在获取的图像只包括一个人脸时,该人脸通常为该机器人的主人,因此,只需根据该人脸在获取的图像的位置确定需调整的角度即可。
进一步地,所述根据所述人脸在获取的图像的位置确定需调整的角度具体包括:
确定人脸与获取的图像的中心点的距离c,以及,确定获取的图像的宽度a;
根据下式确定需调整的角度:
其中,α为获取的图像的最左边或最右边与机器人的夹角,b为机器人与获取的图像的中心点的距离,β为需调整的角度,γ为机器人的视角。
如图3所示,B是机器人脸部的位置,P是用户的脸部位置,γ为机器人的视角,OP代表人脸与画面中心点的距离,长度用c表示。当机器人获取图像后,其能够确定c和a的值,再根据上述公式,则能够得到机器人的脸部和人的脸部的夹角β,在图3中,机器人需要向右转β的角度才能确保机器人和用户的脸是面对面的。当然,如果P点在O和C之间,则机器人就需要向左转动β的角度。
步骤S15,根据所述需调整的角度进行相应的调整。
该步骤中,通过调整机器人面对用户的角度,使得机器人能够正面与用户交互,增加了人机互动的智能性,并且,机器人与用户面对面的交互过程也更逼真、自然。
本发明第一实施例中,接收到语音信号后,确定发出所述语音信号对应的初始方位,将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像,检测获取的图像是否存在人脸,在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度,根据所述需调整的角度进行相应的调整。由于在将机器人从当前方位调整至确定的初始方位之后,还根据人脸在获取的图像的位置确定需调整的角度,因此,使得调整后得到的定位的位置方向更精确,并且,使得根据需调整的角度进行相应的调整后的机器人能够正面面对用户交流,从而增加了人机互动的智能性,并且,机器人与用户面对面的交互过程也更逼真、自然。
应理解,在本发明实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二:
图4示出了本发明第二实施例提供的一种机器人的交互方向调整装置的结构图,该机器人的交互方向调整装置可用于各种机器人中。为了便于说明,仅示出了与本发明实施例相关的部分。
该机器人的交互方向调整装置包括:语音信号接收单元41、图像获取单元42、人脸检测单元43、需调整的角度确定单元44、角度调整单元45。其中:
语音信号接收单元41,用于接收到语音信号后,确定发出所述语音信号对应的初始方位。
具体地,当接收到语音信号后,根据声源定位技术估算出所述语音信号对应的初始方位,例如,当接收的语音信号有多个时,根据定位技术估算出最强的语音信号对应的初始方位。
可选地,为了避免干扰,节省电量,所述语音信号接收单元41包括:
唤醒指令判断模块,用于接收到语音信号后,判断所述语音信号是否为唤醒指令。
初始方位确定模块,用于在所述语音信号为唤醒指令时,确定发出所述语音信号对应的初始方位。具体地,通过声源定位技术估算出语音信号对应的初始方位。当然,若需要确定发出语音信号对应的具体位置,则可利用接收到语音信号的时间差确定。例如,在机器人的身上设置4个麦克风,该4个麦克风的阵列采用四元十字阵列方式,且四个麦克风按照十字的方式摆布在一个平面之内,其中S代表声源的位置,M1,M2,M3,M4分别为四元十字阵列中四个阵元(即麦克风)的位置,如图2所示。其中,目标方位角为φ,声源仰角为θ(组成的夹角),r为目标声源(即点S)到坐标原点O的距离,两个麦克风Mi与Mj接收到声音的时间差用tij表示,则通过下式可以确定发出所述语音信号对应的初始方位以及位置:
t a n φ = t 41 + t 31 - t 21 t 21 + t 31 - t 41 c o s θ = C L t 31 2 + ( t 41 - t 21 ) 2 2 r = C [ t 31 2 + ( t 41 - t 21 ) 2 ] 4 ( t 41 - t 31 + t 21 )
进一步地,所述唤醒指令判断模块包括:
词句含义识别模块,用于接收到语音信号后,识别语音信号包含的词句含义,并判断语音信号包含的词句含义与预设的词句含义是否相同。
语音信号为唤醒指令的判定模块,用于在语音信号包含的词句含义与预设的词句含义相同时,判断所述语音信号对应的音频和/或音色等与预存的音频和/或音色是否相同,并在所述语音信号对应的音频和/或音色等与预存的音频和/或音色相同时,判定所述语音信号为唤醒指令。
语音信号不为唤醒指令的判定模块,用于在语音信号包含的词句含义与预设的词句含义不同,或者,在所述语音信号对应的音频和/或音色等与预存的音频和/或音色不同时,判定所述语音信号不为唤醒指令。
图像获取单元42,用于将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像。
当确定了初始方位后,若机器人的当前方位与所述初始方位不同,则将机器人从当前方位调整至所述初始方位,并通过图像获取装置,如摄像头、高清彩色摄像机等获取所述方位对应的图像,获取的图像可为2D图像,也可为3D图像。
人脸检测单元43,用于检测获取的图像是否存在人脸。
需调整的角度确定单元44,用于在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度。
可选地,为了使得机器人与用户的交流更自然和更逼真,可通过调整一定的角度使得机器人正面面对用户交流,增加了人机交互的智能性,此时,所述需调整的角度确定单元44具体包括:
人脸个数判断模块,用于在获取的图像存在人脸时,判断人脸的个数是否大于1。
第一需调整的角度确定模块,用于在人脸的个数大于1时,选择深度最小的人脸,并根据所述深度最小的人脸在获取的图像的位置确定需调整的角度。
第二需调整的角度确定模块,用于在人脸的个数等于1时,根据所述人脸在获取的图像的位置确定需调整的角度。
上述人脸个数判断模块、第一需调整的角度确定模块、第二需调整的角度确定模块中,主要确定根据哪个人脸在获取的图像的位置确定需调整的角度:当获取的图像存在多个人脸时,选择深度最小的人脸,并根据深度最小的人脸在获取的图像的位置确定需调整的角度。由于深度越小,其与机器人的距离越近,而与机器人的距离越近的用户为该机器人的主人的概率越大,因此,根据人脸的深度大小确定需调整的角度也越准确。由于在获取的图像只包括一个人脸时,该人脸通常为该机器人的主人,因此,只需根据该人脸在获取的图像的位置确定需调整的角度即可。
可选地,所述需调整的角度确定单元44包括:
图像的信息确定模块,用于确定人脸与获取的图像的中心点的距离c,以及,确定获取的图像的宽度a。
角度计算模块,用于根据下式确定需调整的角度:
其中,α为获取的图像的最左边或最右边与机器人的夹角,b为机器人与获取的图像的中心点的距离,β为需调整的角度,γ为机器人的视角。当然,所述需调整的角度确定单元44可同时包括人脸个数判断模块、第一需调整的角度确定模块、第二需调整的角度确定模块、图像的信息确定模块以及角度计算模块,此处不作限定。
角度调整单元45,用于根据所述需调整的角度进行相应的调整。
本发明第二实施例中,由于在将机器人从当前方位调整至确定的初始方位之后,还根据人脸在获取的图像的位置确定需调整的角度,因此,使得调整后得到的定位的位置方向更精确,并且,使得根据需调整的角度进行相应的调整后的机器人能够正面面对用户交流,从而增加了人机互动的智能性,并且,机器人与用户面对面的交互过程也更逼真、自然。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种机器人的交互方向调整方法,其特征在于,所述方法包括:
接收到语音信号后,确定发出所述语音信号对应的初始方位;
将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像;
检测获取的图像是否存在人脸;
在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度;
根据所述需调整的角度进行相应的调整。
2.根据权利要求1所述的方法,其特征在于,所述在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度,具体包括:
在获取的图像存在人脸时,判断人脸的个数是否大于1;
在人脸的个数大于1时,选择深度最小的人脸,并根据所述深度最小的人脸在获取的图像的位置确定需调整的角度;
在人脸的个数等于1时,根据所述人脸在获取的图像的位置确定需调整的角度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述人脸在获取的图像的位置确定需调整的角度具体包括:
确定人脸与获取的图像的中心点的距离c,以及,确定获取的图像的宽度a;
根据下式确定需调整的角度:
其中,α为获取的图像的最左边或最右边与机器人的夹角,b为机器人与获取的图像的中心点的距离,β为需调整的角度,γ为机器人的视角。
4.根据权利要求1所述的方法,其特征在于,所述接收到语音信号后,确定发出所述语音信号对应的初始方位,具体包括:
接收到语音信号后,判断所述语音信号是否为唤醒指令;
在所述语音信号为唤醒指令时,确定发出所述语音信号对应的初始方位。
5.根据权利要求4所述的方法,其特征在于,所述接收到语音信号后,判断所述语音信号是否为唤醒指令,具体包括:
接收到语音信号后,识别语音信号包含的词句含义,并判断语音信号包含的词句含义与预设的词句含义是否相同;
在语音信号包含的词句含义与预设的词句含义相同时,判断所述语音信号对应的音频和/或音色等与预存的音频和/或音色是否相同,并在所述语音信号对应的音频和/或音色等与预存的音频和/或音色相同时,判定所述语音信号为唤醒指令;
在语音信号包含的词句含义与预设的词句含义不同,或者,在所述语音信号对应的音频和/或音色等与预存的音频和/或音色不同时,判定所述语音信号不为唤醒指令。
6.一种机器人的交互方向调整装置,其特征在于,所述装置包括:
语音信号接收单元,用于接收到语音信号后,确定发出所述语音信号对应的初始方位;
图像获取单元,用于将机器人从当前方位调整至所述初始方位,并获取所述初始方位对应的图像;
人脸检测单元,用于检测获取的图像是否存在人脸;
需调整的角度确定单元,用于在获取的图像存在人脸时,根据所述人脸在获取的图像的位置确定需调整的角度;
角度调整单元,用于根据所述需调整的角度进行相应的调整。
7.根据权利要求6所述的装置,其特征在于,所述需调整的角度确定单元具体包括:
人脸个数判断模块,用于在获取的图像存在人脸时,判断人脸的个数是否大于1;
第一需调整的角度确定模块,用于在人脸的个数大于1时,选择深度最小的人脸,并根据所述深度最小的人脸在获取的图像的位置确定需调整的角度;
第二需调整的角度确定模块,用于在人脸的个数等于1时,根据所述人脸在获取的图像的位置确定需调整的角度。
8.根据权利要求6所述的装置,其特征在于,所述需调整的角度确定单元包括:
图像的信息确定模块,用于确定人脸与获取的图像的中心点的距离c,以及,确定获取的图像的宽度a;
角度计算模块,用于根据下式确定需调整的角度:
其中,α为获取的图像的最左边或最右边与机器人的夹角,b为机器人与获取的图像的中心点的距离,β为需调整的角度,γ为机器人的视角。
9.根据权利要求6所述的装置,其特征在于,所述语音信号接收单元包括:
唤醒指令判断模块,用于接收到语音信号后,判断所述语音信号是否为唤醒指令;
初始方位确定模块,用于在所述语音信号为唤醒指令时,确定发出所述语音信号对应的初始方位。
10.根据权利要求9所述的装置,其特征在于,所述唤醒指令判断模块包括:
词句含义识别模块,用于接收到语音信号后,识别语音信号包含的词句含义,并判断语音信号包含的词句含义与预设的词句含义是否相同;
语音信号为唤醒指令的判定模块,用于在语音信号包含的词句含义与预设的词句含义相同时,判断所述语音信号对应的音频和/或音色等与预存的音频和/或音色是否相同,并在所述语音信号对应的音频和/或音色等与预存的音频和/或音色相同时,判定所述语音信号为唤醒指令;
语音信号不为唤醒指令的判定模块,用于在语音信号包含的词句含义与预设的词句含义不同,或者,在所述语音信号对应的音频和/或音色等与预存的音频和/或音色不同时,判定所述语音信号不为唤醒指令。
CN201610481974.5A 2016-06-27 2016-06-27 机器人的交互方向调整方法及装置 Pending CN106203259A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610481974.5A CN106203259A (zh) 2016-06-27 2016-06-27 机器人的交互方向调整方法及装置
US15/239,884 US20170368688A1 (en) 2016-06-27 2016-08-18 Method and apparatus for adjusting interactive directions of robots

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610481974.5A CN106203259A (zh) 2016-06-27 2016-06-27 机器人的交互方向调整方法及装置

Publications (1)

Publication Number Publication Date
CN106203259A true CN106203259A (zh) 2016-12-07

Family

ID=57462086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610481974.5A Pending CN106203259A (zh) 2016-06-27 2016-06-27 机器人的交互方向调整方法及装置

Country Status (2)

Country Link
US (1) US20170368688A1 (zh)
CN (1) CN106203259A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847298A (zh) * 2017-02-24 2017-06-13 海信集团有限公司 一种基于弥漫式语音交互的拾音方法和装置
CN107247923A (zh) * 2017-05-18 2017-10-13 珠海格力电器股份有限公司 一种指令识别方法、装置、存储设备、移动终端及电器
WO2018001198A1 (zh) * 2016-06-30 2018-01-04 纳恩博(北京)科技有限公司 一种定位用户的方法和装置、计算机存储介质
CN107680593A (zh) * 2017-10-13 2018-02-09 歌尔股份有限公司 一种智能设备的语音增强方法及装置
WO2018205083A1 (zh) * 2017-05-08 2018-11-15 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
CN109754814A (zh) * 2017-11-08 2019-05-14 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
CN109981964A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 基于机器人的拍摄方法、拍摄装置及机器人
WO2019136808A1 (zh) * 2018-01-15 2019-07-18 深圳市沃特沃德股份有限公司 机器人移动方法、机器人移动装置、扫地机器人
CN110253590A (zh) * 2019-04-30 2019-09-20 北京云迹科技有限公司 机器人转身处理方法及装置
CN110434853A (zh) * 2019-08-05 2019-11-12 北京云迹科技有限公司 一种机器人控制方法、装置及存储介质
CN112711331A (zh) * 2020-12-28 2021-04-27 京东数科海益信息科技有限公司 机器人交互方法、装置、存储设备和电子设备
US11127401B2 (en) 2019-09-27 2021-09-21 Tata Consultancy Services Limited Attention shifting of a robot in a group conversation using audio-visual perception based speaker localization
CN113510707A (zh) * 2021-07-23 2021-10-19 上海擎朗智能科技有限公司 一种机器人的控制方法、装置、电子设备及存储介质
CN114310909A (zh) * 2022-01-26 2022-04-12 美的集团(上海)有限公司 一种机器人及其控制方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102392113B1 (ko) * 2016-01-20 2022-04-29 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령 처리 방법
CN109508687A (zh) * 2018-11-26 2019-03-22 北京猎户星空科技有限公司 人机交互控制方法、装置、存储介质和智能设备
CN112959336A (zh) * 2021-03-01 2021-06-15 河南大学 一种基于声源定位路径跟踪功能的二轮机器人

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030055532A1 (en) * 2001-08-22 2003-03-20 Yoshiaki Sakagami Autonomous action robot
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
CN103422764A (zh) * 2013-08-20 2013-12-04 华南理工大学 一种门控制系统及其控制方法
US20130342652A1 (en) * 2012-06-22 2013-12-26 Microsoft Corporation Tracking and following people with a mobile robotic device
CN203721183U (zh) * 2013-12-25 2014-07-16 安徽科大讯飞信息科技股份有限公司 一种语音唤醒装置
CN105116994A (zh) * 2015-07-07 2015-12-02 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人追踪方法和追踪装置
CN105632493A (zh) * 2016-02-05 2016-06-01 深圳前海勇艺达机器人有限公司 一种通过语音控制和唤醒机器人的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030055532A1 (en) * 2001-08-22 2003-03-20 Yoshiaki Sakagami Autonomous action robot
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
US20130342652A1 (en) * 2012-06-22 2013-12-26 Microsoft Corporation Tracking and following people with a mobile robotic device
CN103422764A (zh) * 2013-08-20 2013-12-04 华南理工大学 一种门控制系统及其控制方法
CN203721183U (zh) * 2013-12-25 2014-07-16 安徽科大讯飞信息科技股份有限公司 一种语音唤醒装置
CN105116994A (zh) * 2015-07-07 2015-12-02 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人追踪方法和追踪装置
CN105632493A (zh) * 2016-02-05 2016-06-01 深圳前海勇艺达机器人有限公司 一种通过语音控制和唤醒机器人的方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018001198A1 (zh) * 2016-06-30 2018-01-04 纳恩博(北京)科技有限公司 一种定位用户的方法和装置、计算机存储介质
CN106847298A (zh) * 2017-02-24 2017-06-13 海信集团有限公司 一种基于弥漫式语音交互的拾音方法和装置
CN106847298B (zh) * 2017-02-24 2020-07-21 海信集团有限公司 一种基于弥漫式语音交互的拾音方法和装置
US11276402B2 (en) 2017-05-08 2022-03-15 Cloudminds Robotics Co., Ltd. Method for waking up robot and robot thereof
WO2018205083A1 (zh) * 2017-05-08 2018-11-15 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
CN107247923A (zh) * 2017-05-18 2017-10-13 珠海格力电器股份有限公司 一种指令识别方法、装置、存储设备、移动终端及电器
CN107680593A (zh) * 2017-10-13 2018-02-09 歌尔股份有限公司 一种智能设备的语音增强方法及装置
US10984816B2 (en) 2017-10-13 2021-04-20 Goertek Inc. Voice enhancement using depth image and beamforming
CN109754814A (zh) * 2017-11-08 2019-05-14 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
CN109754814B (zh) * 2017-11-08 2023-07-28 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
CN109981964A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 基于机器人的拍摄方法、拍摄装置及机器人
WO2019136808A1 (zh) * 2018-01-15 2019-07-18 深圳市沃特沃德股份有限公司 机器人移动方法、机器人移动装置、扫地机器人
CN110253590A (zh) * 2019-04-30 2019-09-20 北京云迹科技有限公司 机器人转身处理方法及装置
CN110434853B (zh) * 2019-08-05 2021-05-14 北京云迹科技有限公司 一种机器人控制方法、装置及存储介质
CN110434853A (zh) * 2019-08-05 2019-11-12 北京云迹科技有限公司 一种机器人控制方法、装置及存储介质
US11127401B2 (en) 2019-09-27 2021-09-21 Tata Consultancy Services Limited Attention shifting of a robot in a group conversation using audio-visual perception based speaker localization
CN112711331A (zh) * 2020-12-28 2021-04-27 京东数科海益信息科技有限公司 机器人交互方法、装置、存储设备和电子设备
CN113510707A (zh) * 2021-07-23 2021-10-19 上海擎朗智能科技有限公司 一种机器人的控制方法、装置、电子设备及存储介质
CN114310909A (zh) * 2022-01-26 2022-04-12 美的集团(上海)有限公司 一种机器人及其控制方法

Also Published As

Publication number Publication date
US20170368688A1 (en) 2017-12-28

Similar Documents

Publication Publication Date Title
CN106203259A (zh) 机器人的交互方向调整方法及装置
CN106096373A (zh) 机器人与用户的交互方法及装置
ES2953525T3 (es) Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire
CN107564513B (zh) 语音识别方法及装置
US20230244999A1 (en) Automated versioning and evaluation of machine learning workflows
CN101404086B (zh) 基于视频的目标跟踪方法及装置
CN109272989A (zh) 语音唤醒方法、装置和计算机可读存储介质
US20160034811A1 (en) Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
CN109450750A (zh) 设备的语音控制方法、装置、移动终端和家电设备
CN107924681A (zh) 具有语音功能的装置之间的仲裁
US20070198261A1 (en) Voice recognition with parallel gender and age normalization
US20160196257A1 (en) Grammar correcting method and apparatus
CN108682414A (zh) 语音控制方法、语音系统、设备和存储介质
CN103871420B (zh) 麦克风阵列的信号处理方法及装置
JP2019091408A (ja) マルチラウンド入力によるサーチ方法、システム及び端末機器
CN110222780A (zh) 物体检测方法、装置、设备和存储介质
Sivasankaran et al. Keyword-based speaker localization: Localizing a target speaker in a multi-speaker environment
CN108491875A (zh) 一种数据异常检测方法、装置、设备及介质
Tiwari et al. Virtual home assistant for voice based controlling and scheduling with short speech speaker identification
CN109917982A (zh) 一种语音输入方法、装置、设备及可读存储介质
Argentieri et al. Binaural systems in robotics
CN110231863A (zh) 语音交互方法和车载设备
CN105389161B (zh) 事务内存的冲突检测方法、事务内存系统及微处理器
CN114242066A (zh) 语音处理方法、语音处理模型的训练方法、设备及介质
CN104952446A (zh) 基于语音交互的数字楼盘展示系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518055 Guangdong 28, Shenzhen, Futian District, Huafu street, No. 5001 Huanggang Road, Shenzhen Industrial upper city (two phase of the Southern District)

Applicant after: QIHAN TECHNOLOGY Co.,Ltd.

Address before: 518000 20th Floor of Times Science and Technology Building on the Northeast Side of the Junction of Shennan Avenue and Nongyuan Road, Futian District, Shenzhen City, Guangdong Province

Applicant before: Qihan Technology Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20181204

Address after: 518055 Guangdong 28, Shenzhen, Futian District, Huafu street, No. 5001 Huanggang Road, Shenzhen Industrial upper city (two phase of the Southern District)

Applicant after: Shenzhen Sanbao Innovation Intelligence Co.,Ltd.

Address before: 518055 Guangdong 28, Shenzhen, Futian District, Huafu street, No. 5001 Huanggang Road, Shenzhen Industrial upper city (two phase of the Southern District)

Applicant before: QIHAN TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication