CN112739507A - 一种交互沟通实现方法、设备和存储介质 - Google Patents

一种交互沟通实现方法、设备和存储介质 Download PDF

Info

Publication number
CN112739507A
CN112739507A CN202080004243.6A CN202080004243A CN112739507A CN 112739507 A CN112739507 A CN 112739507A CN 202080004243 A CN202080004243 A CN 202080004243A CN 112739507 A CN112739507 A CN 112739507A
Authority
CN
China
Prior art keywords
interactive
interaction
current
robot
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080004243.6A
Other languages
English (en)
Other versions
CN112739507B (zh
Inventor
马海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Avatarmind Robot Technology Co ltd
Original Assignee
Nanjing Avatarmind Robot Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Avatarmind Robot Technology Co ltd filed Critical Nanjing Avatarmind Robot Technology Co ltd
Publication of CN112739507A publication Critical patent/CN112739507A/zh
Application granted granted Critical
Publication of CN112739507B publication Critical patent/CN112739507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种交互沟通实现方法、设备和存储介质,其方法包括:检测当前交互对象是否停止交互(S110);若所述当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象(S120)。本发明实现在多用户交互场景下自然、灵活、智能地切换交互对象,以便人性化地实现与多个对象进行及时、高效地交互沟通的目的。

Description

一种交互沟通实现方法、设备和存储介质
技术领域
本发明涉及人机交互技术领域,尤指一种交互沟通实现方法、设备和存储介质。
背景技术
近几年,“人工智能”已经成为互联网圈里面出现频次最高的一个词汇,与此同时,服务机器人发展迅速,个人虚拟助理、家庭作业机器人(如扫地机器人)等机器人或智能设备等实现了“人工智能”的应用。目前,在很多场景中需要机器人或智能设备具备交互的能力,良好的交互服务就成了极具竞争力的人工智能服务因素之一。
现有的交互方法多是基于唤醒词对语音内容进行识别,“唤醒词”或者触摸输入操作等触发操作,是触发当前机器人或智能设备进行人机交互时的主要触发方式。然而,使用上述方式进行多人场景下的交互问题在于,对于每个参与交互的主体人而言,在机器人或智能设备处于唤醒状态下必须通过上述操作才能中途切换新的交互对象,导致所有的用户必须了解掌握不同机器人或智能设备的触发操作。再者,每次切换新的用户与机器人或智能设备交互前执行上述触发操作,这样的交互流程不仅机械且影响多人切换交互的节奏,无法在多用户交互场景下实时、智能地与多个用户进行有效沟通。
发明内容
本发明的目的是提供一种交互沟通实现方法、设备和存储介质,实现在多用户交互场景下自然、灵活、智能地切换交互对象,以便人性化地实现与多个对象进行及时、高效地交互沟通的目的。
本发明提供的技术方案如下:
本发明提供一种交互沟通实现方法,包括步骤:
检测当前交互对象是否停止交互;
若所述当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象。
进一步的,还包括步骤:
若所述当前交互对象未停止交互且自身处于唤醒状态下时,继续检测的同时响应所述当前交互对象的需求服务类型。
进一步的,还包括步骤:
若自身处于唤醒状态下且不存在交互对象的持续时长达到第一预设时长时,控制自身进入休眠状态。
进一步的,还包括步骤:
在自身处于休眠状态时判断是否接收到唤醒信号;
若接收到唤醒信号,从休眠状态切换为唤醒状态,且确定触发唤醒自身的目标对象为当前交互对象。
进一步的,所述若所述当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象包括步骤:
在所述当前交互对象停止交互的持续时长达到第二预设时长时,通过图像识别和/或声源定位查找参与交互的候选对象;
若存在一个候选对象,确定该候选对象为所述新的交互对象;
若存在至少两个候选对象,根据图像识别结果和/或声源定位结果确定一个候选对象为所述新的交互对象。
本发明还提供一种交互沟通实现设备,包括:
图像采集模块,用于在采集人脸图像;
音频采集模块,用于采集语音信号;
检测模块,用于检测当前交互对象是否停止交互;
处理模块,用于若所述当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象。
进一步的,还包括:
执行模块,用于若所述当前交互对象未停止交互且自身处于唤醒状态下时,继续检测的同时响应所述当前交互对象的需求服务类型;
所述处理模块,还用于若自身处于唤醒状态下且不存在交互对象的持续时长达到第一预设时长时,控制自身进入休眠状态。
进一步的,所述检测模块,还用于在自身处于休眠状态时判断是否接收到唤醒信号;
所述处理模块,还用于若接收到唤醒信号,从休眠状态切换为唤醒状态,且确定触发唤醒自身的目标对象为当前交互对象。
进一步的,所述处理模块包括:
查找单元,在所述当前交互对象停止交互的持续时长达到第二预设时长时,通过图像识别和/或声源定位查找参与交互的候选对象;
对象切换单元,用于若存在一个候选对象,确定该候选对象为所述新的交互对象;若存在至少两个候选对象,根据图像识别结果和/或声源定位结果确定一个候选对象为所述新的交互对象。
本发明还提供一种存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现所述的交互沟通实现方法所执行的操作。
通过本发明提供的一种交互沟通实现方法、设备和存储介质,实现在多用户交互场景下自然、灵活、智能地切换交互对象,以便人性化地实现与多个对象进行及时、高效地交互沟通的目的。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种交互沟通实现方法、设备和存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种交互沟通实现方法的一个实施例的流程图;
图2是本发明一种交互沟通实现方法的另一个实施例的流程图;
图3是本发明一种交互沟通实现方法的另一个实施例的流程图;
图4是本发明一种交互沟通实现方法的另一个实施例的流程图;
图5是本发明一种交互沟通实现方法的另一个实施例的流程图;
图6是本发明情感陪伴机器人Robot在多用户交互场景下的交互示意图;
图7是本发明机器人面对多个人时进行人机交互过程示意图;
图8是本发明一种交互沟通实现设备的一个实施例的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
在本发明实施例中,对象切换实现终端包括但是不限于个人虚拟助理、家庭作业机器人(如扫地机器人)、儿童教育机器人、老人看护机器人和情感陪伴机器人、机场服务机器人、购物服务机器人等机器人,还包括智能手机、智能音箱设备、智能语音电梯等智能设备,通常应用于商场、地铁站、火车站等社交场所。
本发明的一个实施例,如图1所示,一种交互沟通实现方法,包括:
S110检测当前交互对象是否停止交互;
具体的,机器人或者智能设备可以通过摄像头或者相机阵列等图像采集模块进行采集获取视野范围内的图像数据(包括但是不限于人脸图像、手势图像),还可以通过麦克风或者麦克风阵列等音频采集模块获取有效采集范围内输入的语音信号。机器人或者智能设备与当前交互对象进行交互的类型包括但是不限于语音对话交互、手势对话交互。机器人或者智能设备可以根据图像数据和/或语音信号对当前交互对象进行判断是否输入输入语音信号。也可以根据图像数据对当前交互对象进行判断是否输入手势。此外,由于机器人或者智能设备的处理器会执行自身接收到的任务,因此也可以检测自身进程判断是否存在语音识别获取的语音交互任务或者图像识别获取的手势交互任务,从而根据上述判断结果检测判断当前交互对象是否停止交互。
本发明实施例中的麦克风阵列可以是一组位于空间不同位置的声学传感器按照一定的形状规则布置形成的阵列,是对空间传播的语音信号进行空间采样的一种装置。本发明实施例的语音信号处理方法对使用的麦克风阵列的具体形式不做具体限定。
本发明实施例中的相机阵列可以是一组位于空间不同位置的图像传感器按照一定的形状规则布置以采集多个视角下图像数据的阵列。作为一个示例,麦克风阵列或者相机可以是水平阵列、T型阵列、L型阵列、多面体阵列、球形阵列等等。
S120若当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象。
具体的,机器人或智能设备在唤醒状态下可以根据图像数据和/或语音信号,判断追踪的当前交互对象(当前交互对象包括人、其他智能设备或者其他机器人)是否停止与自身的交互行为。如果在唤醒状态下当前交互对象停止与机器人或智能设备的交互行为时,那么机器人或智能设备会通过采集到人脸图像和语音信号将参与交互的其中一个候选对象(候选对象包括其他的人、其他智能设备或者其他机器人)替换为新的当前交互对象。
示例性的,假设机器人A作为检测主体,用户甲作为当前交互对象,在用户甲停止与机器人A进行交互时,若机器人A通过采集到图像数据和/或语音信号检测到用户乙参与交互,则根据图像数据和语音信号将用户乙确定为新的交互对象。
本实施例中,在机器人或智能设备处于唤醒状态下,无需像现有技术那样频繁语音输入唤醒词实现中途切换新的交互对象,也无需频繁导致所有的用户必须了解掌握不同机器人或智能设备的触发操作,只需要根据采集的图像数据和语音信号就能实现在多用户交互场景下实时、智能地切换新的交互对象,完美、有效、人性化地实现与多个对象及时、自然地进行切换交互沟通的目的。
本发明的一个实施例,如图2所示,一种交互沟通实现方法,包括:
S210检测当前交互对象是否停止交互;
S220若当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象;
S230若当前交互对象未停止交互且自身处于唤醒状态下,继续检测的同时响应当前交互对象的需求服务类型。
具体的,本实施例中与上述实施例相同的部分参见上述实施例,在此不再一一赘述。在机器人或智能设备处于唤醒状态下,如果检测到当前交互对象未停止交互时,那么机器人或智能设备继续实时当前交互对象是否停止交互的同时,还根据检测过程中获取到当前交互对象的语音信号(或者手势信号)进行语音识别(或者手势识别)得到对应的需求服务类型,从而根据需求服务类型执行对应操作给予当前交互对象响应。其中,对语音信号(或者手势信号)进行语音识别(手势识别)得到需求服务类型是现有技术,在此不再一一赘述。
示例性的,机器人或智能设备作为检测主体,用户甲作为当前交互对象,在用户甲未停止与机器人或智能设备进行交互时,机器人或智能设备通过对用户甲输入的语音信号进行语音识别得到“播放儿歌”,那么机器人或智能设备会查询曲库播放儿歌。通过TTS(Text To Speech的缩写,即“从文本到语音”)输入语音信号,适用于聋哑人通过带有TTS功能的设备(下文都TTS设备来简称,而且TTS设备在这个场景下仅提供TTS功能,不提供其他服务)来手动输入“播放儿歌”,使得TTS设备语音播报“播放儿歌”的语音信号,机器人或智能设备语音识别并查询曲库播放儿歌。
本实施例中,在机器人或智能设备处于唤醒状态下,无需像现有技术那样频繁语音输入唤醒词实现中途切换新的交互对象,也无需频繁导致所有的用户必须了解掌握不同机器人或智能设备的触发操作,只需要根据采集的图像数据和语音信号就能实现在多用户交互场景下实时、智能地切换新的交互对象,完美、有效、人性化地实现与多个对象及时、自然地进行切换交互沟通的目的。
本发明的一个实施例,如图3所示,一种交互沟通实现方法,包括:
S310在自身处于休眠状态时判断是否接收到唤醒信号;
具体的,机器人或智能设备处于休眠状态下时,会持续监测是否接收到唤醒信号,唤醒机制包括但是不限于通过语音输入唤醒词触发产生唤醒信号,也可以在机器人或者智能设备上预先设置机械按钮或者触摸按钮,通过触摸按压产生唤醒信号,也可以接收到输入手势符合预设唤醒手势后产生唤醒信号。其他唤醒机制生成唤醒信号的方式亦在本发明保护范围内。
S320若接收到唤醒信号,从休眠状态切换为唤醒状态,且确定触发唤醒自身的目标对象为当前交互对象;
具体的,机器人或智能设备处于休眠状态下一旦接收到唤醒信号,则自动从休眠状态切换为唤醒状态,从而确定触发唤醒自身的目标对象作为当前唤醒状态下初始的当前交互对象,这里的目标对象可以是具有正常语言能力的人,也可以是借助TTS设备发出语音信号的人。
S330检测当前交互对象是否停止交互;
S340若当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象;
S350若当前交互对象未停止交互且自身处于唤醒状态下,继续检测的同时响应当前交互对象的需求服务类型。
具体的,本实施例中与上述实施例相同的部分参见上述实施例,在此不再一一赘述。本实施例中,机器人或者智能设备只有在从休眠状态切换为唤醒状态时,需要通过触发产生唤醒信号的目标对象中确定当前交互对象,只要机器人或智能设备从休眠状态切换为唤醒状态后,后续的整个唤醒状态过程中,无需像现有技术那样频繁语音输入唤醒词实现中途切换新的交互对象,也无需频繁导致所有的用户必须了解掌握不同机器人或智能设备的触发操作,只需要根据采集的图像数据和语音信号就能实现在多用户交互场景下实时、智能地切换新的交互对象,完美、有效、人性化地实现与多个对象及时、自然地进行切换交互沟通的目的。
本发明的一个实施例,如图4所示,一种交互沟通实现方法,包括:
S410检测当前交互对象是否停止交互;
S420若当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象;
S430若当前交互对象未停止交互且自身处于唤醒状态下,继续检测的同时响应当前交互对象的需求服务类型;
S440若自身处于唤醒状态下且不存在交互对象的持续时长达到第一预设时长时,控制自身进入休眠状态;
具体的,在机器人或者智能设备处于唤醒状态下时,如果当前交互对象停止与自身进行交互,并且未检测到新的交互对象与自身进行交互的持续时长达到第一预设时长时,表明机器人或者智能设备在持续第一预设时长的时间段内,不存在任何交互对象与机器人或者智能设备进行互动交互。此外,处于唤醒状态下时,机器人或者智能设备的音频采集模块和图像采集模块的有效采集范围内没有交互对象且持续时长达到第一预设时长时,亦表明机器人或者智能设备在持续第一预设时长的时间段内,不存在任何交互对象与机器人或者智能设备进行互动交互。一旦确定在唤醒状态下且不存在交互对象的持续时长达到第一预设时长,此时机器人或者智能设备自动进入休眠状态,避免机器人或者智能设备长时间处于唤醒状态下,节约机器人或者智能设备的电量消耗,提升机器人或者智能设备的待机时长。
S450在自身处于休眠状态时判断是否接收到唤醒信号;
S460若接收到唤醒信号,从休眠状态切换为唤醒状态,且确定触发唤醒自身的目标对象为当前交互对象。
具体的,本实施例中与上述实施例相同的部分参见上述实施例,在此不再一一赘述。本实施例与上述实施例表明,无论机器人或者智能设备在何时进入休眠状态,机器人或者智能设备均只在从休眠状态切换为唤醒状态时,才需要通过触发产生唤醒信号的目标对象中确定当前交互对象,只要机器人或智能设备从休眠状态切换为唤醒状态后,后续的整个唤醒状态过程中,无需像现有技术那样频繁语音输入唤醒词实现中途切换新的交互对象,也无需频繁导致所有的用户必须了解掌握不同机器人或智能设备的触发操作,只需要根据采集的图像数据和语音信号就能实现在多用户交互场景下实时、智能地切换新的交互对象,不仅更符合日常交流模式,更有助于达成有效沟通,增加人机沟通的拟人化效果,从而实现机器人或者智能设备与多个对象进行有效交互沟通的目的。
本发明的一个实施例,如图5所示,一种交互沟通实现方法,包括:
S510检测当前交互对象是否停止交互;
S520在当前交互对象停止交互的持续时长达到第二预设时长时,通过图像识别和/或声源定位查找参与交互的候选对象;
具体的,第二预设时长小于第一预设时长,机器人或者智能设备在满足查找切换新的交互对象的触发条件时,即机器人或者智能设备在与当前交互对象进行交互的过程中,每一次机器人或者智能设备在执行了当前交互对象的上一个需求服务类型之后,会等待第二预设时长,若在等待的第二预设时长之内未收到该当前交互对象的交互信息,则机器人或者智能设备默认当前交互对象已经不再参与交互,此时机器人或者智能设备通过图像识别和/或声源定位查找所有参与交互的候选对象,以便选择一个新的交互对象继续进行交互。
S530若存在一个候选对象,确定该候选对象为新的交互对象;
S540若存在至少两个候选对象,根据图像识别结果和/或声源定位结果确定一个候选对象为新的交互对象。
具体的,机器人或者智能设备在满足查找切换新的交互对象的触发条件时,每次查找后只确定一个候选对象作为此次查找到的新的交互对象。机器人或者智能设备可以通过音频采集模块负责声音的采集,实现机器人或者智能设备的听觉功能,采集到语音信号之后通过对语音信号进行分帧、加窗处理,采用语音信号的音频处理确定声源数目,进而根据声源数目确定候选对象的数量,声源定位识别为现有技术,在此不再一一赘述。通过上述方式如果确定候选对象的数量为一个时,直接将该候选对象确定为新的交互对象。如果确定候选对象的数量为至少两个时,根据获取到语音信号的时间先后顺序确定最早获取到的语音信号所对应候选用户为此次切换寻找到的新的交互对象。
示例性的,机器人或智能设备与多人交互的场景下,机器人或智能设备通过音频采集模块实时采集语音信号,并对获取到的语音信号根据声源定位识别技术获取声源数目,确定最早发出语音信号的候选用户为此次切换寻找到的新的交互对象。
当然,机器人或者智能设备还可以通过图像采集模块负责图像数据的采集,实现机器人或者智能设备的视觉功能,采集到图像数据之后通过图像识别技术的图像识别结果确定候选对象的数量,如果确定候选对象的数量为一个时,直接将该候选对象确定为新的交互对象。如果确定候选对象的数量为至少两个时,根据图像识别得到的各候选对象参与交互的时间先后顺序确定最早参与交互所对应候选用户为此次切换寻找到的新的交互对象。
示例性的,在多人与机器人交互的场景下,机器人通过图像采集模块实时捕捉图像数据,并对获取到的图像数据进行人脸识别,在识别确定为人脸时,再进行张嘴识别,在确定为识别结果为张嘴时,获取发出张嘴动作的人体数量,确定最早发出张嘴动作的候选用户甲为此次切换寻找到的新的交互对象。
当然,机器人或者智能设备还可以通过图像采集模块负责图像数据的采集,以及音频采集模块负责声音的采集,采集到图像数据和语音信号之后通过图像识别技术和声源定位技术结合分析确定候选对象的数量,如果确定候选对象的数量为一个时,直接将该候选对象确定为新的交互对象。如果确定候选对象的数量为至少两个时,根据图像识别结果和/或声源定位结果对候选对象的张嘴动作和语音信号进行综合分析,从各参与交互的候选对象中查找出最早参与交互所对应候选用户,从而确定该最早参与交互的候选用户为此次切换寻找到的新的交互对象。
S550若当前交互对象未停止交互且自身处于唤醒状态下,继续检测的同时响应当前交互对象的需求服务类型;
S560若自身处于唤醒状态下且不存在交互对象的持续时长达到第一预设时长时,控制自身进入休眠状态;
S570在自身处于休眠状态时判断是否接收到唤醒信号;
S580若接收到唤醒信号,从休眠状态切换为唤醒状态,且确定触发唤醒自身的目标对象为当前交互对象。
本实施例中与上述实施例相同的部分参见上述实施例,在此不再一一赘述。本发明优选采用图像数据和语音信号同时作为判断因素检测候选对象并确定其中一个候选对象作为新的交互对象,避免将在音频采集模块和图像采集模块的有效采集范围内发出无意义语音信号的候选对象(例如婴儿),或者在没有交互意图的用户错误确定为新的交互对象,结合图像识别技术和声源定位技术,实现了对候选对象所在方向位置的精确定位,提升查找确定新的交互对象的准确率。
本实施例中,机器人或者智能设备在唤醒状态下自动切换新的交互对象继续进行交互,提高了机器人或者智能设备与多个交互对象进行切换交互的效率,缩短机器人或者智能设备转向下一个交互对象的切换时间,从而大大减少切换交互的反应时间,提高机器人或者智能设备与多个交互对象进行切换沟通的效率,使得交互过程更加自然、灵活,大大提高了机器人或者智能设备的交互能力。
示例性的,如图6所示,在情感陪伴机器人Robot使用场景下,包括Robot、User1、User2和User3。而且图示提到的User1、User2和User3不是特定的,只是用于区分不同的User。User1来到Robot面前,通过唤醒词把Robot唤醒,随后Robot转向User1并与User1进行交互,在交互的过程中要实时的判断User1是否还在继续和它(Robot)交互,Robot通过声源定位和人脸特征识别判断User1已经停止和它(Robot)进行交互,Robot要自动转向正在说话的User2,当有两个User以上的时候也适应此策略。机器人面对多个人时进行人机交互过程如图7所示包括如下步骤:
步骤0、初始状态;一个Robot(处于休眠状态),两个或两个以上的可以和Robot进行交互的User。
步骤1、User1走近Robot并唤醒Robot,Robot从休眠状态被唤醒切换为唤醒状态,转到步骤2。
步骤2、Robot转向User1并与User1进行交互,转到步骤3。
步骤3、Robot与User1交互的过程中会通过声源定位和人脸特征识别来判断当前User1是否还在继续和自身(Robot)进行交互,判断结果分以下四种:
(1)判断结果为“结果1”,即Robot判断User1持续和Robot进行交互,那么Robot就一直盯着User1,转到步骤3。
(2)判断结果为“结果2”,即Robot判断User1已经停止和Robot交互,而且此时Robot听到User2在说话,转到步骤2,转到步骤2之后这里User2就会替换步骤2的User1。
(3)判断结果为“结果3”,即Robot判断User1已经停止和Robot交互,而且此时Robot没有听到User2说话,Robot会进入休眠倒计时状态,如果休眠倒计时结束前Robot听到User2在说话,则转到步骤2,转到步骤2之后这里User2就会替换步骤2的User1。
(4)判断结果为“结果4”,即Robot判断User1已经停止和Robot交互,而且此时Robot没有听到User2说话,Robot会进入休眠倒计时状态,如果休眠倒计时结束前Robot也没有听到User2在说话,则转到步骤0。
本发明的一个实施例,一种交互沟通实现设备,如图8所示,包括:
图像采集模块10,用于在采集人脸图像;
音频采集模块20,用于采集语音信号;
检测模块30,用于检测当前交互对象是否停止交互;
处理模块40,用于若当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述方法实施例,在此不再一一赘述。
基于前述实施例,还包括:
检测模块30,还用于在自身处于休眠状态时判断是否接收到唤醒信号;
处理模块40,还用于若接收到唤醒信号,从休眠状态切换为唤醒状态,且确定触发唤醒自身的目标对象为当前交互对象。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述方法实施例,在此不再一一赘述。
基于前述实施例,还包括:
执行模块,用于若当前交互对象未停止交互且自身处于唤醒状态下,继续检测的同时响应当前交互对象的需求服务类型;
处理模块40,还用于若自身处于唤醒状态下且不存在交互对象的持续时长达到第一预设时长时,控制自身进入休眠状态。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述方法实施例,在此不再一一赘述。
基于前述实施例,处理模块40包括:
查找单元,在当前交互对象停止交互的持续时长达到第二预设时长时,通过图像识别和/或声源定位查找参与交互的候选对象;
对象切换单元,用于若存在一个候选对象,确定该候选对象为新的交互对象;若存在至少两个候选对象,根据图像识别结果和/或声源定位结果确定一个候选对象为新的交互对象。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述方法实施例,在此不再一一赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将所述装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本发明的一个实施例,一种智能设备,包括处理器、存储器,其中,存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的计算机程序,实现上述方法实施例中的交互沟通实现方法。
所述智能设备可以为桌上型计算机、笔记本、掌上电脑、平板型计算机、手机、人机交互屏等设备。所述智能设备可包括,但不仅限于处理器、存储器。本领域技术人员可以理解,上述仅仅是智能设备的示例,并不构成对智能设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:智能设备还可以包括输入/输出接口、显示设备、网络接入设备、通信总线、通信接口等。通信接口和通信总线,还可以包括输入/输出接口,其中,处理器、存储器、输入/输出接口和通信接口通过通信总线完成相互间的通信。该存储器存储有计算机程序,该处理器用于执行存储器上所存放的计算机程序,实现上述方法实施例中的交互沟通实现方法。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可以是所述智能设备的内部存储单元,例如:智能设备的硬盘或内存。所述存储器也可以是所述智能设备的外部存储设备,例如:所述智能设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述智能设备的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及所述智能设备所需要的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
通信总线是连接所描述的元素的电路并且在这些元素之间实现传输。例如,处理器通过通信总线从其它元素接收到命令,解密接收到的命令,根据解密的命令执行计算或数据处理。存储器可以包括程序模块,例如内核(kernel),中间件(middleware),应用程序编程接口(Application Programming Interface,API)和应用。该程序模块可以是有软件、固件或硬件、或其中的至少两种组成。输入/输出接口转发用户通过输入/输出接口(例如感应器、键盘、触摸屏)输入的命令或数据。通信接口将该智能设备与其它网络设备、用户设备、网络进行连接。例如,通信接口可以通过有线或无线连接到网络以连接到外部其它的网络设备或用户设备。无线通信可以包括以下至少一种:无线保真(WiFi),蓝牙(BT),近距离无线通信技术(NFC),全球卫星定位系统(GPS)和蜂窝通信等等。有线通信可以包括以下至少一种:通用串行总线(USB),高清晰度多媒体接口(HDMI),异步传输标准接口(RS-232)等等。网络可以是电信网络和通信网络。通信网络可以为计算机网络、因特网、物联网、电话网络。智能设备可以通过通信接口连接网络,智能设备和其它网络设备通信所用的协议可以被应用、应用程序编程接口(API)、中间件、内核和通信接口至少一个支持。
本发明的一个实施例,一种存储介质,存储介质中存储有至少一条指令,指令由处理器加载并执行以实现上述交互沟通实现方法对应实施例所执行的操作。例如,计算机可读存储介质可以是只读内存(ROM)、随机存取存储器(RAM)、只读光盘(CD-ROM)、磁带、软盘和光数据存储设备等。
它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/智能设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/智能设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序发送指令给相关的硬件完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括:计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种交互沟通实现方法,其特征在于,包括步骤:
检测当前交互对象是否停止交互;
若所述当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象。
2.根据权利要求1所述的交互沟通实现方法,其特征在于,还包括步骤:
若所述当前交互对象未停止交互且自身处于唤醒状态下时,继续检测的同时响应所述当前交互对象的需求服务类型。
3.根据权利要求1所述的交互沟通实现方法,其特征在于,还包括步骤:
若自身处于唤醒状态下且不存在交互对象的持续时长达到第一预设时长时,控制自身进入休眠状态。
4.根据权利要求1所述的交互沟通实现方法,其特征在于,还包括步骤:
在自身处于休眠状态时判断是否接收到唤醒信号;
若接收到唤醒信号,从休眠状态切换为唤醒状态,且确定触发唤醒自身的目标对象为当前交互对象。
5.根据权利要求1-4任一项所述的交互沟通实现方法,其特征在于,所述若所述当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象包括步骤:
在所述当前交互对象停止交互的持续时长达到第二预设时长时,通过图像识别和/或声源定位查找参与交互的候选对象;
若存在一个候选对象,确定该候选对象为所述新的交互对象;
若存在至少两个候选对象,根据图像识别结果和/或声源定位结果确定一个候选对象为所述新的交互对象。
6.一种交互沟通实现设备,其特征在于,包括:
图像采集模块,用于在采集人脸图像;
音频采集模块,用于采集语音信号;
检测模块,用于检测当前交互对象是否停止交互;
处理模块,用于若所述当前交互对象停止交互且自身处于唤醒状态下时,通过采集到的图像数据和语音信号,将参与交互的一个候选对象确定为新的交互对象。
7.根据权利要求6所述的交互沟通实现设备,其特征在于,还包括:
执行模块,用于若所述当前交互对象未停止交互且自身处于唤醒状态下时,继续检测的同时响应所述当前交互对象的需求服务类型;
所述处理模块,还用于若自身处于唤醒状态下且不存在交互对象的持续时长达到第一预设时长时,控制自身进入休眠状态。
8.根据权利要求6所述的交互沟通实现设备,其特征在于:
所述检测模块,还用于在自身处于休眠状态时判断是否接收到唤醒信号;
所述处理模块,还用于若接收到唤醒信号,从休眠状态切换为唤醒状态,且确定触发唤醒自身的目标对象为当前交互对象。
9.根据权利要求6-8任一项所述的交互沟通实现设备,其特征在于,所述处理模块包括:
查找单元,在所述当前交互对象停止交互的持续时长达到第二预设时长时,通过图像识别和/或声源定位查找参与交互的候选对象;
对象切换单元,用于若存在一个候选对象,确定该候选对象为所述新的交互对象;若存在至少两个候选对象,根据图像识别结果和/或声源定位结果确定一个候选对象为所述新的交互对象。
10.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的交互沟通实现方法所执行的操作。
CN202080004243.6A 2020-04-22 2020-04-22 一种交互沟通实现方法、设备和存储介质 Active CN112739507B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/086222 WO2021212388A1 (zh) 2020-04-22 2020-04-22 一种交互沟通实现方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112739507A true CN112739507A (zh) 2021-04-30
CN112739507B CN112739507B (zh) 2023-05-09

Family

ID=75609496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080004243.6A Active CN112739507B (zh) 2020-04-22 2020-04-22 一种交互沟通实现方法、设备和存储介质

Country Status (2)

Country Link
CN (1) CN112739507B (zh)
WO (1) WO2021212388A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114715175A (zh) * 2022-05-06 2022-07-08 Oppo广东移动通信有限公司 目标对象的确定方法、装置、电子设备以及存储介质
WO2023202635A1 (zh) * 2022-04-22 2023-10-26 华为技术有限公司 语音交互方法、电子设备以及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114193477B (zh) * 2021-12-24 2024-06-21 上海擎朗智能科技有限公司 一种位置引领方法、装置、机器人及存储介质
CN116363566B (zh) * 2023-06-02 2023-10-17 华东交通大学 一种基于关系知识图的目标交互关系识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105881548A (zh) * 2016-04-29 2016-08-24 北京快乐智慧科技有限责任公司 唤醒智能交互机器人的方法及智能交互机器人
CN106354255A (zh) * 2016-08-26 2017-01-25 北京光年无限科技有限公司 一种面向机器人产品的人机交互方法及装置
CN108733420A (zh) * 2018-03-21 2018-11-02 北京猎户星空科技有限公司 智能设备的唤醒方法、装置、智能设备和存储介质
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质
CN109461448A (zh) * 2018-12-11 2019-03-12 百度在线网络技术(北京)有限公司 语音交互方法及装置
CN109683610A (zh) * 2018-12-14 2019-04-26 北京猎户星空科技有限公司 智能设备控制方法、装置和存储介质
CN110111789A (zh) * 2019-05-07 2019-08-09 百度国际科技(深圳)有限公司 语音交互方法、装置、计算设备和计算机可读介质
CN110290096A (zh) * 2018-03-19 2019-09-27 阿里巴巴集团控股有限公司 一种人机交互方法和终端
US20190371342A1 (en) * 2018-06-05 2019-12-05 Samsung Electronics Co., Ltd. Methods and systems for passive wakeup of a user interaction device
CN110689889A (zh) * 2019-10-11 2020-01-14 深圳追一科技有限公司 人机交互方法、装置、电子设备及存储介质
CN110730115A (zh) * 2019-09-11 2020-01-24 北京小米移动软件有限公司 语音控制方法及装置、终端、存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105881548A (zh) * 2016-04-29 2016-08-24 北京快乐智慧科技有限责任公司 唤醒智能交互机器人的方法及智能交互机器人
CN106354255A (zh) * 2016-08-26 2017-01-25 北京光年无限科技有限公司 一种面向机器人产品的人机交互方法及装置
CN110290096A (zh) * 2018-03-19 2019-09-27 阿里巴巴集团控股有限公司 一种人机交互方法和终端
CN108733420A (zh) * 2018-03-21 2018-11-02 北京猎户星空科技有限公司 智能设备的唤醒方法、装置、智能设备和存储介质
US20190371342A1 (en) * 2018-06-05 2019-12-05 Samsung Electronics Co., Ltd. Methods and systems for passive wakeup of a user interaction device
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质
CN109461448A (zh) * 2018-12-11 2019-03-12 百度在线网络技术(北京)有限公司 语音交互方法及装置
CN109683610A (zh) * 2018-12-14 2019-04-26 北京猎户星空科技有限公司 智能设备控制方法、装置和存储介质
CN110111789A (zh) * 2019-05-07 2019-08-09 百度国际科技(深圳)有限公司 语音交互方法、装置、计算设备和计算机可读介质
CN110730115A (zh) * 2019-09-11 2020-01-24 北京小米移动软件有限公司 语音控制方法及装置、终端、存储介质
CN110689889A (zh) * 2019-10-11 2020-01-14 深圳追一科技有限公司 人机交互方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023202635A1 (zh) * 2022-04-22 2023-10-26 华为技术有限公司 语音交互方法、电子设备以及存储介质
CN114715175A (zh) * 2022-05-06 2022-07-08 Oppo广东移动通信有限公司 目标对象的确定方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN112739507B (zh) 2023-05-09
WO2021212388A1 (zh) 2021-10-28

Similar Documents

Publication Publication Date Title
CN112739507B (zh) 一种交互沟通实现方法、设备和存储介质
US20210065682A1 (en) Human-computer interaction method, and electronic device and storage medium thereof
CN109427333B (zh) 激活语音识别服务的方法和用于实现所述方法的电子装置
CN108735209B (zh) 唤醒词绑定方法、智能设备及存储介质
US11145302B2 (en) System for processing user utterance and controlling method thereof
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
EP2932371B1 (en) Response endpoint selection
KR20180083587A (ko) 전자 장치 및 그의 동작 방법
KR20160026317A (ko) 음성 녹음 방법 및 장치
CN112860169B (zh) 交互方法及装置、计算机可读介质和电子设备
US20210407521A1 (en) Method and apparatus for controlling a voice assistant, and computer-readable storage medium
CN105357653B (zh) 一种提醒方法及终端
CN110619873A (zh) 音频处理方法、装置及存储介质
CN110738994A (zh) 一种智能家居的控制方法、装置、机器人及系统
CN109032554B (zh) 一种音频处理方法和电子设备
WO2024103926A1 (zh) 语音控制方法、装置、存储介质以及电子设备
CN112634895A (zh) 语音交互免唤醒方法和装置
CN117253478A (zh) 一种语音交互方法和相关装置
WO2022227507A1 (zh) 唤醒程度识别模型训练方法及语音唤醒程度获取方法
CN108388399B (zh) 虚拟偶像的状态管理方法及系统
CN106683668A (zh) 一种智能设备的唤醒控制的方法以及系统
CN109086017A (zh) 基于多屏终端的控制方法、装置及计算机可读存储介质
CN112435441B (zh) 睡眠检测方法和可穿戴电子设备
CN114999496A (zh) 音频传输方法、控制设备及终端设备
WO2024103893A1 (zh) 唤醒应用程序的方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant