CN108235745A - 机器人唤醒方法、装置和机器人 - Google Patents

机器人唤醒方法、装置和机器人 Download PDF

Info

Publication number
CN108235745A
CN108235745A CN201780000608.6A CN201780000608A CN108235745A CN 108235745 A CN108235745 A CN 108235745A CN 201780000608 A CN201780000608 A CN 201780000608A CN 108235745 A CN108235745 A CN 108235745A
Authority
CN
China
Prior art keywords
voice command
information
range
publisher
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780000608.6A
Other languages
English (en)
Other versions
CN108235745B (zh
Inventor
骆磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shanghai Robotics Co Ltd
Original Assignee
Cloudminds Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Inc filed Critical Cloudminds Inc
Publication of CN108235745A publication Critical patent/CN108235745A/zh
Application granted granted Critical
Publication of CN108235745B publication Critical patent/CN108235745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/4155Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by programme execution, i.e. part programme or machine function execution, e.g. selection of a programme
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/36Nc in input of data, input key till input tape
    • G05B2219/36017Graphic assisted robot programming, display projection of surface
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39441Voice command, camera detects object, grasp, move
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40002Camera, robot follows direction movement of operator head, helmet, headstick
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/2821Avoiding conflicts related to the use of home appliances

Abstract

一种机器人唤醒方法,其包括:获取语音命令发布者发布语音命令时的视线范围信息,根据视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤。还涉及相应的机器人唤醒装置以及机器人。在用户忘记机器人的名字的场合,只要面向机器人发布语音命令,使用代词作为唤醒词就能唤醒机器人,无需用户记忆每个机器人的名字,提高了用户体验。

Description

机器人唤醒方法、装置和机器人
技术领域
本发明实施例涉及人工智能自动控制领域,例如涉及一种机器人唤醒方法、装置和机器人。
背景技术
随着人工智能技术的发展,机器人为人类的生产生活带来了很多便利。当前用户对机器人进行控制时,可对机器人预先设置唤醒词,当机器人听到一个特定的唤醒词(例如机器人的名字)时,就知道是用户在呼唤自己。例如用户可以为机器人设置唤醒词Alexa或者Mike,当用户呼唤Alexa或者Mike时,机器人就会知道用户是在呼唤自己。
在研究现有技术过程中,发明人发现相关技术中至少存在如下问题:当用户某一时刻想不起来机器人的名字,或者用户拥有多个机器人,他无法记住每一个机器人的名字,或者因为某些机器人长得比较相像,用户不能正确区分机器人。在上述这些场合,用户将无法唤醒机器人或者将唤醒错误的机器人,进而无法完成用户的实际需求。
发明内容
本发明实施例的一个目的是提供一种新的机器人唤醒方法、装置和机器人,使用代词即可唤醒机器人,用户无需记住每个机器人的名字,提高了客户体验。
第一方面,本发明实施例提供了一种机器人唤醒方法,所述唤醒方法应用于机器人,所述方法包括:
如果获取到语音命令发布者发布语音命令时的视线范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤。
第二方面,本发明实施例还提供了一种机器人唤醒装置,所述唤醒装置应用于机器人,所述装置包括:
呼唤确认模块,用于如果获取到语音命令发布者发布语音命令时的视线范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤。
第三方面,本发明实施例还提供了一种机器人,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
本发明实施例提供的唤醒方法和装置,机器人根据语音命令发布者发布语音命令时的视线范围信息判断语音命令发布者发布语音命令时是否注视自己,如果注视自己,则确认自己被呼唤。在用户忘记机器人的名字的场合,只要面向机器人发布语音命令,使用代词作为唤醒词就能唤醒机器人,无需用户记忆每个机器人的名字,提高了用户体验。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明方法和装置的应用场景示意图;
图2是本发明方法和装置的应用场景示意图;
图3是本发明唤醒方法的一个实施例的流程图;
图4是本发明唤醒方法的一个实施例的流程图;
图5是本发明唤醒方法的一个实施例中获取语音命令发布者发布语音命令时的视线范围信息步骤的流程图;
图6是本发明唤醒方法的一个实施例中询问所述语音命令发布者步骤的流程图;
图7是本发明唤醒方法的一个实施例的流程图;
图8是本发明唤醒装置的一个实施例的结构示意图;
图9是本发明唤醒装置的一个实施例的结构示意图;
图10是本发明唤醒装置的一个实施例的结构示意图;
图11是本发明唤醒装置的一个实施例中语音命令获取子模块的结构示意图;
图12是本发明唤醒装置的一个实施例中询问模块的结构示意图;
图13是本发明唤醒装置的一个实施例中视线范围获取子模块的结构示意图;
图14是本发明唤醒装置的一个实施例中呼唤确认模块的结构示意图;以及
图15是本发明实施例提供的唤醒方法的机器人的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的机器人唤醒方法和装置适用于如图1和2所示的应用场景,包括1或多个机器人20,多个机器人20之间可以通过网络30互相通信,其中,网络30可以是例如家庭或公司的局域网,或一个特定网络等。机器人20具有至少一个网络接口,与网络30建立通信连接,从网络30获取数据或者指令。用户10可以为任意数量的,具有相同或者相近操作行为的群体,例如家庭、工作组或者个人。用户10可以对多个机器人20进行设置或者发布命令。
每个机器人都具有与其对应的唤醒词用于将自身从休眠状态中唤醒或者响应用户的呼唤,所述唤醒词可以由用户预先设置。其中,所述唤醒词可以为机器人的名字,识别码或者其他任意词汇。这样为每一个机器人都设置特定唤醒词的场合,需要用户记住每个机器人的特定唤醒词,在用户无法记住特定唤醒词的场合将不能唤醒机器人。如果能用统一的代词来代替各个特定的唤醒词,用户将省去记忆每个特定唤醒词的麻烦。本发明提供的机器人唤醒方法和装置,可以采用统一的代词对机器人进行唤醒。需要说明的是,本发明提供的机器人唤醒方法和装置,适用于采用统一的代词作为唤醒词的场合,也同样适用于采用特定唤醒词的场合。所述统一的代词可以是表示呼唤的代词,例如你、你们、哎等,其中也可以是用户自定义的代词例如“亲爱的”或者“机器人”。还可以为所述代词定义单复数属性,例如“你”、“机器人”是表示单数的代词,“你们”、“机器人们”是表示复数的代词。
本发明实施例提供的机器人唤醒方法,可由图1或图2所示的任一机器人执行,如图3所示,为所述唤醒方法的一个实施例的流程图,所述唤醒方法包括:
步骤101:获取语音命令发布者发布语音命令时的视线范围信息;
步骤102:如果获取到语音命令发布者发布语音命令时的视线范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤。
因为人在说话时,习惯于注视对方,所以即使用户采用的不是特定唤醒词而是将统一的代词作为唤醒词,如果能确认用户发布语音命令时注视哪个或者哪几个机器人,就能确认用户是在对哪个或者哪几个机器人发布语音命令。例如用户注视某两个机器人发布语音命令“你,你,帮我把房间收拾一下”,这两个机器人如果能确认用户发布语音命令时在注视自己,则能确认自己被呼唤,从而响应客户。
一般机器人都具有摄像头或者360度全景摄像头,摄像头会将机器人周围的图像记录下来存到视觉信息缓存中,通过调取视觉信息缓存中的图像可以判定用户的位置,也可知用户是不是面向自己从而确认用户是否注视自己。
本发明实施例提供的唤醒方法和装置,机器人根据语音命令发布者发布语音命令时的视线范围信息判断语音命令发布者发布语音命令时是否注视自己,如果注视自己,则确认自己被呼唤。在用户忘记机器人的名字的场合,只要面向机器人发布语音命令,使用代词作为唤醒词就能唤醒机器人,无需用户记忆每个机器人的名字,提高了用户体验。
如图4所示,为所述方法的另一实施例的流程图,在该实施例中,所述方法包括:
步骤201:获取语音命令发布者发布语音命令时的视线范围信息;
步骤202:如果获取到语音命令发布者发布语音命令时的视线范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否面向自己,如果面向自己,则确认自己被呼唤。
步骤203:如果未获取到语音命令发布者发布语音命令时的视线范围信息,则询问所述语音命令发布者。
有时候用户需要机器人帮助时,可能机器人在较远的地方正在做其他事情,采用本实施例提供的方法,用户不必亲自跑到机器人身边面向机器人发布命令,而可以在原地发布语音命令,听到语音命令的机器人虽然判断出用户发布语音命令时没有注视自己,但会主动询问客户,以确认客户是否呼唤自己。本发明实施例在用户使用统一的代词呼唤较远处或正在忙碌的机器人时,可以在原地进行呼唤,进一步提升了用户体验。
其中,具体的,在所述方法的某些实施例中,所述获取语音命令发布者发布语音命令时的视线范围信息,包括:
获取语音命令的时间信息和语音命令发布者信息;
获取符合所述时间信息的自身的视觉信息和位置信息,根据自身的视觉信息和位置信息获取语音命令发布者的视线范围信息。
在该实施例中,步骤102或者步骤202中所述的获取到语音命令发布者发布语音命令时的视线范围信息,即指机器人自身获取到语音命令发布者的视线范围信息。
可选的,为了进一步提高用户呼唤的准确性,将所有听到同一语音命令的机器人都放到一个候选组中,候选组中的机器人会向其他机器人广播自身获取的用户发布语音命令时的视线范围信息,所有候选组中的机器人都可以共享其他候选组中的机器人获取的视线范围信息。这样即使有的机器人没有捕捉到用户的视线范围或者捕捉到的视线范围不完整,也可以从其他机器人那里获得用户的视线范围,从而确认自己是否被注视。在该实施例中,步骤102或者步骤202中所述的获取到语音命令发布者发布语音命令时的视线范围信息,即指机器人自身获取到语音命令发布者的视线范围信息或者机器人自身接收到其他机器人广播的视线范围信息。
在该实施例中,如图5所示,所述获取语音命令发布者发布语音命令时的视线范围信息,具体包括:
步骤301:获取语音命令信息,所述语音命令信息包括语音命令的时间信息和语音命令发布者信息;
在实际应用中,可以在机器人身上设置麦克风用于实时接收语音信号。所述语音命令可以是实时接收的语音信号。但是有时用户虽然发出语音,但不一定是针对机器人的语音命令,因此需要对语音信号进行进一步判断。只有语音信号是用户发布的语音命令时,才进行记录。在有些场合,用户离机器人的距离比较远,即使机器人能接收远距离的语音信号,但是如果语音信号的声压级过小可能也无法正确解析,因此对声压级小于一定值的语音命令,将不予记录。
具体的,所述获取语音命令信息,包括:
监听语音信号;
解析出所述语音信号中的唤醒词;
确认所述语音信号的声压级;
如果所述唤醒词的出现为呼唤,且所述语音信号的声压级超过预设阀值,则记录所述语音信号的起始时刻和终止时刻作为语音命令的时间信息,记录所述语音信号的声压级作为语音命令的声压级;
根据所述语音信号识别出语音信号发出者,记录所述语音信号发出者作为语音命令发布者信息。
其中,判断唤醒词的出现是否为呼唤,可以通过判断唤醒词与后面的语音内容之间停顿的时间间隔是否超过一预设时间,如果超过一预设时间,则该唤醒词的出现为呼唤。或者可以通过判断第一个唤醒词前面是否有其他语音内容,如果没有其他语音内容,则该唤醒词的出现为呼唤。
其中,在其他实施例中,所述语音命令的时间信息也可以是语音命令中的唤醒词的起始时刻和终止时刻,具体可以根据用户的说话习惯进行选择。
每个人的声纹特征都是独特的,识别语音信号发出者的身份可以通过识别声纹特征来识别。可以在机器人的存储中事先存储用户的声纹特征,在一个机器人有多个主人的场合,还应存储声纹特征与每个主人信息的对应关系。以便于机器人能根据声纹特征识别出主人的身份。
步骤302:广播所述语音命令信息;
步骤303:确认是否存在听到同一语音命令的机器人,如果存在,则使所述机器人加入相同的候选组;
具体的,在实际应用中,可以由各机器人将语音命令的时间信息和语音命令发布者信息广播到侯选组中,然后由某个机器人来判断哪些机器人听到的是同一语音命令,然后建立侯选组,通知这些机器人加入侯选组。
所述确认是否存在听到同一语音命令的机器人,如果存在时间信息和语音命令发布者信息均匹配的机器人,则确认所述机器人听到同一语音命令。即如果语音命令是同一时间和同一个人发出的则为同一语音命令。
步骤304:获取符合所述时间信息的自身的视觉信息和位置信息,根据自身的视觉信息和位置信息,获取语音命令发布者的视线范围信息;
在实际应用中,在语音命令的时间信息为语音命令的起始时刻和终止时刻的场合,机器人在自己的视觉信息缓存中(视觉信息缓存会缓存一定时长的历史视觉输入,如距现在之前5s内)调取从语音命令的起始时刻开始到终止时刻为止的视觉信息。在语音命令的时间信息为唤醒词的起始时刻和终止时刻的场合,机器人在自己的视觉信息缓存中调取从唤醒词的起始时刻开始到终止时刻为止的视觉信息。由上可见,选择唤醒词的起始时刻和开始时刻,数据处理量相对较小,运行速度更快。
在实际应用中,可以事先在机器人的存储中存储用户的面部特征、声纹特征以及面部特征和声纹特征与用户身份的对应关系。机器人可以结合用户的面部特征确定语音命令发布者。将所述语音命令的时间信息均分成多个时刻;在每一时刻,根据这一时刻的视觉信息确认语音命令发布者面部与机器人自身的角度,并根据这一时刻自身的位置信息和所述角度获得这一时刻的视线方向。该视线方向为用户视线面向目标方向的一次方程,在用户呼唤几个机器人时,可能产生几个视线方向,也就是几个一次方程。将获得的视线方向和与所述视线方向对应的时刻作为视线范围信息。所述视线范围信息有可能是一个视线方向和一个与之对应的时刻,也有可能是多个视线方向和多个与之对应的时刻。其中,将所述时间信息均分成多个时刻,即获得从起始时刻到终止时刻之间的多个均匀时刻,也可以直接利用系统自带的时间戳。
可选的,在所述方法的其他实施例中,也可以根据获得的视线方向以及与所述视线方向对应的时刻获取视线区间以及与所述视线区间对应的时间范围,将所述视线区间和所述时间范围作为视线范围信息。可按照视线开始方向和视线结束方向的两个方向确定视线区间,在只有一个视线方向的场合,视线区间即为此单个视线方向。
步骤305:如果存在语音命令发布者的视线范围信息,则在候选组内广播所述语音命令发布者的视线范围信息。
需要说明的是,上述步骤301-305并不必然被每个机器人都执行到,一般听到语音信息的机器人都会执行步骤301和302,候选组中的机器人都会执行步骤304和305。但是步骤303可能只被一个机器人或几个机器人执行,例如每个机器人可以向其他机器人广播自己的工作状态,由最空闲的机器人来执行,然后执行的机器人会将执行结果通过网络共享给其他机器人。
可选的,在某些视线范围信息为视线方向以及与所述视线方向对应的时刻的实施例中,所述根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,包括:
获取预设时段的自身位置信息;
在实际应用中,机器人的位置信息一般存储在位置信息缓存(缓存一定时长的历史位置信息,如距离现在之前5s内)中,机器人可以调取例如距现在之间5S内或者3S内的位置信息。
确认是否存在在所述视线范围信息的一个时刻,自身位置信息符合所述视线方向,如果存在,则确认语音命令发布者注视自己,否则,确认语音命令发布者没有注视自己。
即确定视觉范围信息中的每一个时刻,自身的位置是否在对应的一次方程上,其中,为了避免通过脸部识别判定视线方向的误差,在判断自身位置信息是否符合所述视线方向时,应留有一定的角度范围,例如判断自身位置位于视线一次方程为中轴线,左右各2°的范围内。
可选的,在某些视线范围信息为视线区间以及与所述视线区间对应的时间范围的实施例中,所述根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,包括:
获取预设时段的自身位置信息;
确认在所述视线范围信息的时间范围内,自身位置信息是否符合所述视线区间,如果符合,则确认语音命令发布者注视自己,否则,确认语音命令发布者没有注视自己。
即确定视觉范围信息中的时间范围内,自身的位置是否与所述视线区间存在重合,如果重合,则说明用户在发布语音命令的时候曾经注视自己,则可以确认自己被呼唤。
可选的,在所述方法的某些实施例中,确认用户呼唤自己后,可以响应用户,例如根据通过麦克风阵列判定的声音方向转向用户,并通过语音询问用户的下一步命令。如果确认用户没有呼唤自己,则自动退出候选组。如果退出候选组时,除了自己没有其他机器人,则在退出候选组的同时注销候选组。
具体的,在所述方法的某些实施例中,所述询问所述语音命令发布者,包括:
步骤401:确认所述唤醒词是否是表示单数的代词;
所述表示单数的代词例如“你”,不是表示单数的代词例如“你们”、“哎”等。
步骤402:如果是表示单数的代词,则确认候选组中语音命令的声压级最大的机器人,使声压级最大的机器人询问语音命令发布者是否在呼唤声压级最大的机器人;
声压级最大的机器人有可能是离用户最近的机器人,也最有可能是用户命令的对象。在询问用户的时候,可以按照自身麦克风阵列得到的声音方向,将自身转向用户。
步骤403:如果是在呼唤自己,则响应语音命令发布者;
如果是在呼唤自己,则进一步询问用户指令或者执行用户指令。还可以广播消息给候选组,使各成员退出,并注销候选组。
步骤404:如果不是在呼唤自己,则在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
如果不是在呼唤自己,则在与用户的对话中可以得到用户发布新的语音命令时的视线范围。例如,用户可能说:“没叫你,我叫他呢”,同时视线会注视另一个机器人。
步骤405:如果不是表示单数的代词,则确认候选组中语音命令声压级最大和第二大的机器人,使声压级最大和第二大的机器人询问语音命令发布者是否仅在呼唤声压级最大和第二大的机器人;
步骤406:如果是仅在呼唤声压级最大和第二大的机器人,则响应语音命令发布者;
所述响应语音命令发布者可以是进一步询问用户指令或者执行用户指令。还可以广播消息给候选组,使各成员退出,并注销候选组。
步骤407:否则,在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
步骤408:在候选组内广播所述语音命令发布者发布新的语音命令时的视觉范围信息。
在上述实施例中,所述方法还包括:
如果获取到所述语音命令发布者发布新的语音命令时的视觉范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤,响应语音命令发布者。
其中,获取所述语音命令发布者发布新的语音命令时的视觉范围信息,以及根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己的具体方法可以参照上文的解释,在此不再赘述。
需要说明的是,上述步骤401-408并不必然被每个机器人都执行到。步骤401中确认所述唤醒词是否是表示单数的代词、步骤402中确认候选组中语音命令的声压级最大的机器人、步骤405中确认候选组中语音命令声压级最大和第二大的机器人,可能只被一个机器人或几个机器人执行,例如每个机器人可以向其他机器人广播自己的工作状态,由最空闲的机器人来执行,然后执行的机器人会将执行结果通过网络共享给其他机器人。而步骤402中询问语音命令发布者以及步骤403和步骤404由声压级最大的机器人执行,步骤405中询问语音命令发布者以及步骤406和步骤407由声压级最大和第二大的机器人执行,步骤408由声压级最大和第二大或者声压级最大的机器人执行。
如图7所示,为所述方法的一个实施例的流程图,在该实施例中,所述方法包括:
步骤501:监听语音信号,解析出所述语音信号中的唤醒词,确认所述语音信号的声压级;
步骤502:如果所述唤醒词的出现为呼唤,且所述语音信号的声压级超过预设阀值,则记录所述唤醒词的起始时刻和终止时刻作为语音命令的时间信息,记录所述语音信号的声压级作为语音命令的声压级;
步骤503:根据所述语音信号识别出语音信号发出者,记录所述语音信号发出者作为语音命令发布者信息,广播所述声压级、时间信息、语音命令发布者信息;
步骤504:确认是否存在听到同一语音命令的机器人,如果存在,则使所述机器人加入相同的候选组;
步骤505:获取符合所述时间信息的自身的视觉信息和位置信息,根据自身的视觉信息和位置信息,获取语音命令发布者的视线范围信息;
步骤506:如果存在语音命令发布者的视线范围信息,则在候选组内广播所述语音命令发布者的视线范围信息;
步骤507:如果获取到语音命令发布者发布语音命令时的视线范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否面向自己,如果面向自己,则确认自己被呼唤;
其中,所述视线范围信息有可能是机器人本身获取的视线范围信息,也有可能是机器人接收的其他机器人广播的视线范围信息。
步骤508:如果未获取到语音命令发布者发布语音命令时的视线范围信息,则执行步骤509;
步骤509:确认所述唤醒词是否是表示单数的代词;
步骤510:如果是表示单数的代词,则确认候选组中语音命令的声压级最大的机器人,使声压级最大的机器人询问语音命令发布者是否在呼唤声压级最大的机器人;如果是在呼唤自己,则执行步骤512,否则执行步骤513;
步骤511:如果不是表示单数的代词,则确认候选组中语音命令声压级最大和第二大的机器人,使声压级最大和第二大的机器人询问语音命令发布者是否仅在呼唤声压级最大和第二大的机器人,如果是,则执行步骤512,否则执行步骤513;
步骤512:响应语音命令发布者;
步骤513:在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
步骤514:在候选组内广播所述语音命令发布者发布的新的语音命令时的视觉范围信息;
步骤515:如果获取到所述语音命令发布者发布新的语音命令时的视觉范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤,响应语音命令发布者。
相应的,本发明实施例还提供了一种机器人唤醒装置,所述唤醒装置设置于图1或者图2所示的任一机器人内,如图8所示,所述唤醒装置600包括:
视线范围获取模块601,用于获取语音命令发布者发布语音命令时的视线范围信息;
呼唤确认模块602,用于如果获取到语音命令发布者发布语音命令时的视线范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤。
本发明实施例提供的唤醒方法和装置,机器人根据语音命令发布者发布语音命令时的视线范围信息判断语音命令发布者发布语音命令时是否注视自己,如果注视自己,则确认自己被呼唤。在用户忘记机器人的名字的场合,只要面向机器人发布语音命令,使用代词作为唤醒词就能唤醒机器人,无需用户记忆每个机器人的名字,提高了用户体验。
如图9所示,为所述装置的另一实施例的结构示意图,在该实施例中,所述装置700包括:
视线范围获取模块701、呼唤确认模块702和询问模块703,所述询问模块703用于如果未获取到语音命令发布者发布语音命令时的视线范围信息,则询问所述语音命令发布者。
如图10所示,在所述装置的另一实施例中,所述视线范围获取模块801包括:
语音命令获取子模块8011,用于获取语音命令信息,所述语音命令信息包括语音命令的时间信息和语音命令发布者信息;
语音命令广播模块8012,用于广播所述语音命令信息;
候选组加入子模块8013,用于确认是否存在听到同一语音命令的机器人,如果存在,则使所述机器人加入相同的候选组
视线范围获取子模块8014,用于获取符合所述时间信息的自身的视觉信息和位置信息,根据自身的视觉信息和位置信息,获取语音命令发布者的视线范围信息;
广播子模块8015,用于在候选组内广播所述语音命令发布者的视线范围信息。
其中,在所述装置的某些实施例中,所述语音命令信息还包括语音命令的声压级,所述语音命令获取子模块900包括:
语音监听子单元901,用于监听语音信号;
唤醒词解析子单元902,用于解析出所述语音信号中的唤醒词;
声压级确认子单元903,用于确认所述语音信号的声压级;
第一语音命令记录子单元904,用于如果所述唤醒词为表示呼唤的代词且该唤醒词的出现为呼唤,而且所述语音信号的声压级超过预设阀值,则记录所述语音信号的起始时刻和终止时刻作为语音命令的时间信息,记录所述语音信号的声压级作为语音命令的声压级;
第二语音命令记录子单元905,用于根据所述语音信号识别出语音信号发出者,记录所述语音信号发出者作为语音命令发布者信息。
可选的,在所述装置的其他实施例中,所述语音命令信息还包括语音命令的声压级,所述语音命令获取子模块包括:
语音监听子单元,用于监听语音信号;
唤醒词解析子单元,用于解析出所述语音信号中的唤醒词;
声压级确认子单元,用于确认所述语音信号的声压级;
第三语音命令记录子单元,用于如果所述唤醒词为表示呼唤的代词且该唤醒词的出现为呼唤,而且所述语音信号的声压级超过预设阀值,则记录所述唤醒词的起始时刻和终止时刻作为语音命令的时间信息,记录所述语音信号的声压级作为语音命令的声压级;
第二语音命令记录子单元,用于根据所述语音信号识别出语音信号发出者,记录所述语音信号发出者作为语音命令发布者信息。
具体的,在所述装置的某些实施例中,所述询问模块1000包括:
唤醒词确认子模块1001,用于确认所述唤醒词是否是表示单数的代词;
第一询问子模块1002,用于如果是表示单数的代词,则确认候选组中语音命令的声压级最大的机器人,使声压级最大的机器人询问语音命令发布者是否在呼唤声压级最大的机器人;
第一响应子模块1003,用于如果是在呼唤自己,则响应语音命令发布者;
第一新视线范围获取子模块1004,用于如果不是在呼唤自己,则在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
第二询问子模块1005,用于如果不是表示单数的代词,则确认候选组中语音命令声压级最大和第二大的机器人,使声压级最大和第二大的机器人询问语音命令发布者是否仅在呼唤声压级最大和第二大的机器人;
第二响应子模块1006,用于如果是仅在呼唤声压级最大和第二大的机器人;
第二新视线范围获取子模块1007,用于如果不是仅在呼唤自己以及声压级最大或者第二大的另一个机器人,在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
新视觉范围广播子模块1008,用于在候选组内广播所述语音命令发布者发布新的语音命令时的视觉范围信息
所述装置还包括:
呼唤再次确认模块,用于如果获取到所述语音命令发布者发布新的语音命令时的视觉范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤,响应语音命令发布者。
其中,在所述装置的某些实施例中,,所述视线范围获取子模块1100包括:
时间分割子单元1101,用于将所述语音命令的时间信息均分成多个时刻;
视线方向确认子单元1102,用于在每一时刻,根据这一时刻的视觉信息确认语音命令发布者面部与自身的角度,并根据这一时刻自身的位置信息和所述角度获得这一时刻的视线方向;
视线范围获取子单元1103,用于将获得的视线方向和与所述视线方向对应的时刻作为视线范围信息。
可选的,在所述装置的其他实施例中,所述视线范围获取子模块包括:
时间分割子单元,用于将所述语音命令的时间信息均分成多个时刻;
视线方向确认子单元,用于在一个时刻,根据这一时刻的视觉信息确认语音命令发布者面部与自身的角度,并根据这一时刻自身的位置信息和所述角度获得这一时刻的视线方向;
第二视线范围获取子单元,用于根据获得的视线方向以及与所述视线方向对应的时刻获取视线区间以及与所述视线区间对应的时间范围,将所述视线区间和所述时间范围作为视线范围信息。
具体的,在所述装置的某些实施例中,所述呼唤确认模块1200包括:
自身位置获取子模块1201,用于获取预设时段的自身位置信息;
第一注视确认子模块1202,用于确认是否存在在所述视线范围信息的任一时刻,自身位置信息符合所述视线方向,如果符合,则确认语音命令发布者注视自己。
可选的,在所述装置的其他实施例中,所述呼唤确认模块包括:
自身位置获取子模块,用于获取预设时段的自身位置信息;
第二注视确认子模块,用于确认在所述视线范围信息的时间范围内,自身位置信息是否符合所述视线区间,如果存在,则确认语音命令发布者注视自己。
需要说明的是,上述唤醒装置可执行本发明实施例所提供的唤醒方法,具备执行方法相应的功能模块和有益效果。未在唤醒装置实施例中详尽描述的技术细节,可参见本发明实施例所提供的唤醒方法。
图15是本发明实施例提供的机器人唤醒方法的机器人20的硬件结构示意图,如图15所示,该机器人20包括:
一个或多个处理器21以及存储器22,图15中以一个处理器21为例。
处理器21和存储器22可以通过总线或者其他方式连接,图15中以通过总线连接为例。
存储器22作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的唤醒方法对应的程序指令/模块(例如,附图8所示的呼唤确认模块601)。处理器21通过运行存储在存储器22中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的唤醒方法。
存储器22可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据唤醒装置的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至唤醒装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述任意方法实施例中的唤醒方法,例如,执行以上描述的图3中的方法步骤101-102,图4中的方法步骤201至步骤203,图5中的方法步骤301至步骤305,图6中的方法步骤401至步骤408,图7中的方法步骤501至步骤515;实现图8中的模块601和602、图9中子模块701、702和703,图10中模块801-803、子模块8011-8015,图11中子单元901-905,图12中子模块1001-1008,图13中子单元1101-1103,图14中子模块1201-1202的功能。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例提供了一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如图15中的一个处理器21,可使得上述一个或多个处理器可执行上述任意方法实施例中的唤醒方法,例如,执行以上描述的图3中的方法步骤101-102,图4中的方法步骤201至步骤203,图5中的方法步骤301至步骤305,图6中的方法步骤401至步骤408,图7中的方法步骤501至步骤515;实现图8中的模块601和602、图9中子模块701、702和703,图10中模块801-803、子模块8011-8015,图11中子单元901-905,图12中子模块1001-1008,图13中子单元1101-1103,图14中子模块1201-1202的功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (23)

1.一种机器人唤醒方法,所述唤醒方法应用于机器人,其特征在于,所述方法包括:
获取语音命令发布者发布语音命令时的视线范围信息;
如果获取到语音命令发布者发布语音命令时的视线范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果未获取到语音命令发布者发布语音命令时的视线范围信息,则询问所述语音命令发布者。
3.根据权利要求1或2所述的方法,其特征在于,所述获取语音命令发布者发布语音命令时的视线范围信息,包括:
获取语音命令信息,所述语音命令信息包括语音命令的时间信息和语音命令发布者信息;
广播所述语音命令信息;
确认是否存在听到同一语音命令的机器人,如果存在,则使所述机器人加入相同的候选组;
获取符合所述时间信息的自身的视觉信息和位置信息,根据自身的视觉信息和位置信息,获取语音命令发布者发布语音命令时的视线范围信息;
如果存在语音命令发布者发布语音命令时的视线范围信息,则在候选组内广播所述语音命令发布者发布语音命令时的视线范围信息。
4.根据权利要求3所述的方法,其特征在于,所述语音命令信息还包括语音命令的声压级,所述获取语音命令信息,包括:
监听语音信号;
解析出所述语音信号中的唤醒词;
确认所述语音信号的声压级;
如果所述唤醒词的出现为呼唤,且所述语音信号的声压级超过预设阀值,则记录所述语音信号的起始时刻和终止时刻作为语音命令的时间信息,记录所述语音信号的声压级作为语音命令的声压级;
根据所述语音信号识别出语音信号发出者,记录所述语音信号发出者作为语音命令发布者信息。
5.根据权利要求3所述的方法,其特征在于,所述语音命令信息还包括语音命令的声压级,所述获取语音命令信息,包括:
监听语音信号;
解析出所述语音信号中的唤醒词;
确认所述语音信号的声压级;
如果所述唤醒词的出现为呼唤,且所述语音信号的声压级超过预设阀值,则记录所述唤醒词的起始时刻和终止时刻作为语音命令的时间信息,记录所述语音信号的声压级作为语音命令的声压级;
根据所述语音信号识别出语音信号发出者,记录所述语音信号发出者作为语音命令发布者信息。
6.根据权利要求4或5所述的方法,其特征在于,所述唤醒词为表示呼唤的代词;
所述询问所述语音命令发布者,包括:
确认所述唤醒词是否是表示单数的代词;
如果是表示单数的代词,则确认候选组中语音命令的声压级最大的机器人,使声压级最大的机器人询问语音命令发布者是否在呼唤声压级最大的机器人;
如果是在呼唤声压级最大的机器人,则响应语音命令发布者;
否则,则在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
如果不是表示单数的代词,则确认候选组中语音命令声压级最大和第二大的机器人,使声压级最大和第二大的机器人询问语音命令发布者是否仅在呼唤声压级最大和第二大的机器人;
如果是仅在呼唤声压级最大和第二大的机器人,则响应语音命令发布者;
否则,在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
在候选组内广播所述语音命令发布者发布新的语音命令时的视觉范围信息;
所述方法还包括:
如果获取到所述语音命令发布者发布新的语音命令时的视觉范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤,响应语音命令发布者。
7.根据权利要求3-6的任一项所述的方法,其特征在于,所述根据自身的视觉信息和位置信息,获取语音命令发布者的视线范围信息,包括:
将所述语音命令的时间信息均分成多个时刻;
在每一时刻,根据这一时刻的视觉信息确认语音命令发布者面部与自身的角度,并根据这一时刻自身的位置信息和所述角度获得这一时刻的视线方向;
将获得的视线方向和与所述视线方向对应的时刻作为视线范围信息。
8.根据权利要求3-6的任一项所述的方法,其特征在于,所述根据自身的视觉信息和位置信息获取语音命令发布者的视线范围信息,包括:
将所述语音命令的时间信息均分成多个时刻;
在每一时刻,根据这一时刻的视觉信息确认语音命令发布者面部与自身的角度,并根据这一时刻自身的位置信息和所述角度获得这一时刻的视线方向;
根据获得的视线方向以及与所述视线方向对应的时刻获取视线区间以及与所述视线区间对应的时间范围,将所述视线区间和所述时间范围作为视线范围信息。
9.根据权利要求7所述的方法,其特征在于,所述根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,包括:
获取预设时段的自身位置信息;
确认是否存在在所述视线范围信息的一个时刻,自身位置信息符合所述视线方向,如果存在,则确认语音命令发布者注视自己。
10.根据权利要求8所述的方法,其特征在于,所述根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,包括:
获取预设时段的自身位置信息;
确认在所述视线范围信息的时间范围内,自身位置信息是否符合所述视线区间,如果符合,则确认语音命令发布者注视自己。
11.一种机器人唤醒装置,所述唤醒装置应用于机器人,其特征在于,所述装置包括:
视线范围获取模块,用于获取语音命令发布者发布语音命令时的视线范围信息;
呼唤确认模块,用于如果获取到语音命令发布者发布语音命令时的视线范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
询问模块,用于如果未获取到语音命令发布者发布语音命令时的视线范围信息,则询问所述语音命令发布者。
13.根据权利要求11或12所述的装置,其特征在于,
所述视线范围获取模块包括:
语音命令获取子模块,用于获取语音命令信息,所述语音命令信息包括语音命令的时间信息和语音命令发布者信息;
语音命令广播模块,用于广播所述语音命令信息;
候选组加入子模块,用于确认是否存在听到同一语音命令的机器人,如果存在,则使所述机器人加入相同的候选组
视线范围获取子模块,用于获取符合所述时间信息的自身的视觉信息和位置信息,根据自身的视觉信息和位置信息,获取语音命令发布者发布语音命令时的视线范围信息;
广播子模块,用于如果存在语音命令发布者发布语音命令时的视线范围信息,则在候选组内广播所述语音命令发布者发布语音命令时的视线范围信息。
14.根据权利要求13所述的装置,其特征在于,所述语音命令信息还包括语音命令的声压级,所述语音命令获取子模块包括:
语音监听子单元,用于监听语音信号;
唤醒词解析子单元,用于解析出所述语音信号中的唤醒词;
声压级确认子单元,用于确认所述语音信号的声压级;
第一语音命令记录子单元,用于如果所述唤醒词为表示呼唤的代词且该唤醒词的出现为呼唤,而且所述语音信号的声压级超过预设阀值,则记录所述语音信号的起始时刻和终止时刻作为语音命令的时间信息,记录所述语音信号的声压级作为语音命令的声压级;
第二语音命令记录子单元,用于根据所述语音信号识别出语音信号发出者,记录所述语音信号发出者作为语音命令发布者信息。
15.根据权利要求13所述的装置,其特征在于,所述语音命令信息还包括语音命令的声压级,所述语音命令获取子模块包括:
语音监听子单元,用于监听语音信号;
唤醒词解析子单元,用于解析出所述语音信号中的唤醒词;
声压级确认子单元,用于确认所述语音信号的声压级;
第三语音命令记录子单元,用于如果所述唤醒词为表示呼唤的代词且该唤醒词的出现为呼唤,而且所述语音信号的声压级超过预设阀值,则记录所述唤醒词的起始时刻和终止时刻作为语音命令的时间信息,记录所述语音信号的声压级作为语音命令的声压级;
第二语音命令记录子单元,用于根据所述语音信号识别出语音信号发出者,记录所述语音信号发出者作为语音命令发布者信息。
16.根据权利要求14或15所述的装置,其特征在于,所述询问模块包括:
唤醒词确认子模块,用于确认所述唤醒词是否是表示单数的代词;
第一询问子模块,用于如果是表示单数的代词,则确认候选组中语音命令的声压级最大的机器人,使声压级最大的机器人询问语音命令发布者是否在呼唤声压级最大的机器人;
第一响应子模块,用于如果是在呼唤声压级最大的机器人,则响应语音命令发布者;
第一新视线范围获取子模块,用于如果不是在呼唤声压级最大的机器人,则在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
第二询问子模块,用于如果不是表示单数的代词,则确认候选组中语音命令声压级最大和第二大的机器人,使声压级最大和第二大的机器人询问语音命令发布者是否仅在呼唤声压级最大和第二大的机器人;
第二响应子模块,用于如果是仅在呼唤声压级最大和第二大的机器人,则响应语音命令发布者;
第二新视线范围获取子模块,用于如果不是仅在呼唤声压级最大和第二大的机器人,在语音命令发布者发布新的语音命令的场合,获取语音命令发布者发布新的语音命令时的视线范围信息;
新视觉范围广播子模块,用于在候选组内广播所述语音命令发布者发布新的语音命令时的视觉范围信息
所述装置还包括:
呼唤再次确认模块,用于如果获取到所述语音命令发布者发布新的语音命令时的视觉范围信息,则根据所述视线范围信息确认语音命令被发布时,语音命令发布者是否注视自己,如果注视自己,则确认自己被呼唤,响应语音命令发布者。
17.根据权利要求13-16的任一项所述的装置,其特征在于,所述视线范围获取子模块包括:
时间分割子单元,用于将所述语音命令的时间信息均分成多个时刻;
视线方向确认子单元,用于在每一时刻,根据这一时刻的视觉信息确认语音命令发布者面部与自身的角度,并根据这一时刻自身的位置信息和所述角度获得这一时刻的视线方向;
视线范围获取子单元,用于将获得的视线方向和与所述视线方向对应的时刻作为视线范围信息。
18.根据权利要求13-16的任一项所述的装置,其特征在于,所述视线范围获取子模块包括:
时间分割子单元,用于将所述语音命令的时间信息均分成多个时刻;
视线方向确认子单元,用于在每一时刻,根据这一时刻的视觉信息确认语音命令发布者面部与自身的角度,并根据这一时刻自身的位置信息和所述角度获得这一时刻的视线方向;
第二视线范围获取子单元,用于根据获得的视线方向以及与所述视线方向对应的时刻获取视线区间以及与所述视线区间对应的时间范围,将所述视线区间和所述时间范围作为视线范围信息。
19.根据权利要求17所述的装置,其特征在于,所述呼唤确认模块包括:
自身位置获取子模块,用于获取预设时段的自身位置信息;
第一注视确认子模块,用于确认是否存在在所述视线范围信息的一个时刻,自身位置信息符合所述视线方向,如果存在,则确认语音命令发布者注视自己。
20.根据权利要求18所述的装置,其特征在于,所述呼唤确认模块包括:
自身位置获取子模块,用于获取预设时段的自身位置信息;
第二注视确认子模块,用于确认在所述视线范围信息的时间范围内,自身位置信息是否符合所述视线区间,如果符合,则确认语音命令发布者注视自己。
21.一种机器人,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10任一项所述的方法。
22.一种非易失性计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被机器人执行时,使所述机器人执行执行权利要求1-10任一项所述的方法。
23.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被机器人执行时,使所述机器人执行权利要求1-10任一项所述的方法。
CN201780000608.6A 2017-05-08 2017-05-08 机器人唤醒方法、装置和机器人 Active CN108235745B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/083424 WO2018205083A1 (zh) 2017-05-08 2017-05-08 机器人唤醒方法、装置和机器人

Publications (2)

Publication Number Publication Date
CN108235745A true CN108235745A (zh) 2018-06-29
CN108235745B CN108235745B (zh) 2021-01-08

Family

ID=62643181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780000608.6A Active CN108235745B (zh) 2017-05-08 2017-05-08 机器人唤醒方法、装置和机器人

Country Status (4)

Country Link
US (1) US11276402B2 (zh)
JP (1) JP6994292B2 (zh)
CN (1) CN108235745B (zh)
WO (1) WO2018205083A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065060A (zh) * 2018-10-23 2018-12-21 维沃移动通信有限公司 一种语音唤醒方法及终端
CN109358751A (zh) * 2018-10-23 2019-02-19 北京猎户星空科技有限公司 一种机器人的唤醒控制方法、装置及设备
CN110164433A (zh) * 2019-04-03 2019-08-23 美国乐歌有限公司 一种用于升降立柱的语音控制系统及方法
CN110737335A (zh) * 2019-10-11 2020-01-31 深圳追一科技有限公司 机器人的交互方法、装置、电子设备及存储介质
CN111443801A (zh) * 2020-03-25 2020-07-24 北京百度网讯科技有限公司 人机交互方法、装置、设备及存储介质
CN112513984A (zh) * 2018-08-29 2021-03-16 三星电子株式会社 电子设备及其控制方法
CN113032017A (zh) * 2019-12-25 2021-06-25 大众问问(北京)信息科技有限公司 一种设备唤醒方法、装置及电子设备
CN113785354A (zh) * 2019-05-06 2021-12-10 谷歌有限责任公司 选择性地激活设备上语音识别并且在选择性地激活设备上的nlu和/或设备上履行中使用识别的文本
CN113814981A (zh) * 2021-10-18 2021-12-21 北京云迹科技有限公司 机器人运行方法、装置、存储介质和机器人
CN114227698A (zh) * 2022-01-27 2022-03-25 上海擎朗智能科技有限公司 一种机器人的控制方法、装置、设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
CN109945407A (zh) * 2019-03-13 2019-06-28 青岛海尔空调器有限总公司 空调器
CN110928583B (zh) * 2019-10-10 2020-12-29 珠海格力电器股份有限公司 一种终端唤醒方法、装置、设备和计算机可读存储介质
EP3970139A1 (en) 2019-10-15 2022-03-23 Google LLC Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
CN113359538A (zh) * 2020-03-05 2021-09-07 东元电机股份有限公司 语音控制机器人
CN112786044A (zh) * 2020-12-30 2021-05-11 乐聚(深圳)机器人技术有限公司 语音控制方法、装置、主控制器、机器人及存储介质
US11934203B2 (en) * 2021-05-06 2024-03-19 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
US20230081605A1 (en) * 2021-09-16 2023-03-16 Apple Inc. Digital assistant for moving and copying graphical elements

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020105575A1 (en) * 2000-12-05 2002-08-08 Hinde Stephen John Enabling voice control of voice-controlled apparatus
CN1423228A (zh) * 2002-10-17 2003-06-11 南开大学 识别人眼注视方向的装置和方法及其应用
CN1981257A (zh) * 2004-07-08 2007-06-13 皇家飞利浦电子股份有限公司 在用户和系统之间进行通信的方法和系统
CN103119644A (zh) * 2010-07-23 2013-05-22 奥尔德巴伦机器人公司 装备自然对话接口的类人机器人、用于控制机器人的方法和对应程序
CN105204628A (zh) * 2015-09-01 2015-12-30 涂悦 一种基于视觉唤醒的语音控制方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
JP4204541B2 (ja) * 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
KR20080019834A (ko) * 2006-08-29 2008-03-05 (주)제이투디자인 로봇을 이용한 음성 경보 시스템 및 방법
US20150109191A1 (en) * 2012-02-16 2015-04-23 Google Inc. Speech Recognition
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US9823742B2 (en) 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
US9143880B2 (en) * 2013-08-23 2015-09-22 Tobii Ab Systems and methods for providing audio to a user based on gaze input
ES2633016T3 (es) * 2013-08-23 2017-09-18 Tobii Ab Sistemas y métodos para proveer audio a un usuario según una entrada de mirada
US10317992B2 (en) * 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US9652035B2 (en) * 2015-02-23 2017-05-16 International Business Machines Corporation Interfacing via heads-up display using eye contact
US20170262051A1 (en) * 2015-03-20 2017-09-14 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
CN106292732A (zh) * 2015-06-10 2017-01-04 上海元趣信息技术有限公司 基于声源定位和人脸检测的智能机器人转动方法
JP6739907B2 (ja) 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
JP6447578B2 (ja) * 2016-05-27 2019-01-09 トヨタ自動車株式会社 音声対話装置および音声対話方法
CN106203259A (zh) * 2016-06-27 2016-12-07 旗瀚科技股份有限公司 机器人的交互方向调整方法及装置
CN106155326A (zh) * 2016-07-26 2016-11-23 北京小米移动软件有限公司 虚拟现实通讯中的对象识别方法和装置、虚拟现实设备
CN106448663B (zh) * 2016-10-17 2020-10-23 海信集团有限公司 语音唤醒方法及语音交互装置
US10534429B2 (en) * 2017-01-10 2020-01-14 International Business Machines Corporation Method of instant sharing invoked from wearable devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020105575A1 (en) * 2000-12-05 2002-08-08 Hinde Stephen John Enabling voice control of voice-controlled apparatus
CN1423228A (zh) * 2002-10-17 2003-06-11 南开大学 识别人眼注视方向的装置和方法及其应用
CN1981257A (zh) * 2004-07-08 2007-06-13 皇家飞利浦电子股份有限公司 在用户和系统之间进行通信的方法和系统
CN103119644A (zh) * 2010-07-23 2013-05-22 奥尔德巴伦机器人公司 装备自然对话接口的类人机器人、用于控制机器人的方法和对应程序
CN105204628A (zh) * 2015-09-01 2015-12-30 涂悦 一种基于视觉唤醒的语音控制方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112513984A (zh) * 2018-08-29 2021-03-16 三星电子株式会社 电子设备及其控制方法
CN109065060B (zh) * 2018-10-23 2021-05-07 维沃移动通信有限公司 一种语音唤醒方法及终端
CN109358751A (zh) * 2018-10-23 2019-02-19 北京猎户星空科技有限公司 一种机器人的唤醒控制方法、装置及设备
CN109065060A (zh) * 2018-10-23 2018-12-21 维沃移动通信有限公司 一种语音唤醒方法及终端
CN110164433A (zh) * 2019-04-03 2019-08-23 美国乐歌有限公司 一种用于升降立柱的语音控制系统及方法
CN113785354A (zh) * 2019-05-06 2021-12-10 谷歌有限责任公司 选择性地激活设备上语音识别并且在选择性地激活设备上的nlu和/或设备上履行中使用识别的文本
CN110737335A (zh) * 2019-10-11 2020-01-31 深圳追一科技有限公司 机器人的交互方法、装置、电子设备及存储介质
CN113032017A (zh) * 2019-12-25 2021-06-25 大众问问(北京)信息科技有限公司 一种设备唤醒方法、装置及电子设备
CN113032017B (zh) * 2019-12-25 2024-02-02 大众问问(北京)信息科技有限公司 一种设备唤醒方法、装置及电子设备
CN111443801A (zh) * 2020-03-25 2020-07-24 北京百度网讯科技有限公司 人机交互方法、装置、设备及存储介质
CN111443801B (zh) * 2020-03-25 2023-10-13 北京百度网讯科技有限公司 人机交互方法、装置、设备及存储介质
CN113814981A (zh) * 2021-10-18 2021-12-21 北京云迹科技有限公司 机器人运行方法、装置、存储介质和机器人
CN113814981B (zh) * 2021-10-18 2023-06-20 北京云迹科技股份有限公司 机器人运行方法、装置、存储介质和机器人
CN114227698A (zh) * 2022-01-27 2022-03-25 上海擎朗智能科技有限公司 一种机器人的控制方法、装置、设备及存储介质
CN114227698B (zh) * 2022-01-27 2024-04-26 上海擎朗智能科技有限公司 一种机器人的控制方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2020521997A (ja) 2020-07-27
JP6994292B2 (ja) 2022-01-14
US11276402B2 (en) 2022-03-15
US20200090653A1 (en) 2020-03-19
CN108235745B (zh) 2021-01-08
WO2018205083A1 (zh) 2018-11-15

Similar Documents

Publication Publication Date Title
CN108235745A (zh) 机器人唤醒方法、装置和机器人
EP3830716B1 (en) Storage edge controller with a metadata computational engine
CN107223280A (zh) 机器人唤醒方法、装置和机器人
US20190138795A1 (en) Automatic Object Detection and Recognition via a Camera System
US11120326B2 (en) Systems and methods for a context aware conversational agent for journaling based on machine learning
EP3611724A1 (en) Voice response method and device, and smart device
CN108604178A (zh) 个性化和场境化的音频简报
CN107564518A (zh) 智能设备控制方法、装置及计算机设备
CN110459221A (zh) 多设备协同语音交互的方法和装置
US10986573B2 (en) Bluetooth mesh network gateway and device data communication
US11087763B2 (en) Voice recognition method, apparatus, device and storage medium
CN109902195A (zh) 监控图像查询方法、装置、设备及介质
CN107390851A (zh) 支持准始终聆听的智能聆听模式
US20210243480A1 (en) Live video streaming based on an environment-related trigger
JP2021507315A (ja) 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用
US20220399020A1 (en) Man-machine dialogue mode switching method
CN109147780A (zh) 自由聊天场景下的语音识别方法及系统
CN103098449A (zh) 用户设备,服务器和操作条件设定系统
CN111370004A (zh) 人机交互方法、语音处理方法及设备
CN111703278B (zh) 香氛释放方法、装置、车端、云端、系统和存储介质
CN109255310A (zh) 动物情绪识别方法、装置、终端及可读存储介质
US11366688B2 (en) Do-not-disturb processing method and apparatus, and storage medium
CN111063356A (zh) 电子设备响应方法及系统、音箱和计算机可读存储介质
CN113138559A (zh) 设备交互方法、装置、电子设备及存储介质
CN109147783A (zh) 基于k歌系统的语音识别方法、介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210127

Address after: 200000 second floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee after: Dalu Robot Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: Shenzhen Qianhaida Yunyun Intelligent Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 201111 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Patentee after: Dayu robot Co.,Ltd.

Address before: 200000 second floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee before: Dalu Robot Co.,Ltd.