CN105868827B - 一种智能机器人多模态交互方法和智能机器人 - Google Patents

一种智能机器人多模态交互方法和智能机器人 Download PDF

Info

Publication number
CN105868827B
CN105868827B CN201610179233.1A CN201610179233A CN105868827B CN 105868827 B CN105868827 B CN 105868827B CN 201610179233 A CN201610179233 A CN 201610179233A CN 105868827 B CN105868827 B CN 105868827B
Authority
CN
China
Prior art keywords
user
information
modal
robot
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610179233.1A
Other languages
English (en)
Other versions
CN105868827A (zh
Inventor
郭家
石琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangnian Infinite Technology Co ltd
Original Assignee
Beijing Guangnian Wuxian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangnian Wuxian Technology Co Ltd filed Critical Beijing Guangnian Wuxian Technology Co Ltd
Priority to CN201610179233.1A priority Critical patent/CN105868827B/zh
Publication of CN105868827A publication Critical patent/CN105868827A/zh
Application granted granted Critical
Publication of CN105868827B publication Critical patent/CN105868827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Robotics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种智能机器人多模态交互方法以及机器人系统。本发明的方法包括:采集多模态交互输入信息;分析所述多模态交互输入信息以获取用户状态信息并判断当前是否存在交互需求;当当前不存在交互需求时进入非交互行为模式;在所述非交互行为模式下输出多模态交互信息,所述多模态交互信息配置为与所述用户状态信息对应。根据本发明的方法以及系统,可以令机器人模拟人与人相处中陪伴状态,形成自然舒适的人机交互体验,大大提高了机器人的用户体验。

Description

一种智能机器人多模态交互方法和智能机器人
技术领域
本发明涉及机器人领域,具体说涉及一种机器人交互方法。
背景技术
随着计算机技术的不断发展以及人工智能技术的不断进步。在家用领域小型智能机器人的应用也越来越广泛,面向家用的小型智能机器人正在迅猛发展。
现有面向家用的小型机器人,多数是采用被动应答的交互方式,机器人在没有接收到交互输入时不能主动行为。这样的交互模式固化呆板,容易令人厌倦。为了提高机器人的用户体验,一些机器人采用了主动交互的交互方式,但是由于主动交互的切入时机把握不好,失去了主动交互的意义。甚至在某些情况下,机器人发起的主动交互会对用户造成干扰,反而降低了用户体验。
因此,为了让机器人的行为更自然生动,提高机器人的用户体验,需要一种新的机器人交互方法。
发明内容
为了让机器人的行为更自然生动,提高机器人的用户体验,本发明提供了一种智能机器人多模态交互方法,包括:
采集多模态交互输入信息;
分析所述多模态交互输入信息以获取用户状态信息并判断当前是否存在交互需求;
当当前不存在交互需求时进入非交互行为模式;
在所述非交互行为模式下输出多模态交互信息,所述多模态交互信息配置为与所述用户状态信息对应。
在一实施例中,在处理所述多模态交互输入信息的过程中,分析所述多模态交互输入信息以判断当前是否存在用户,其中,当不存在用户时进入所述非交互行为模式。
在一实施例中,在处理所述多模态交互输入信息的过程中,分析所述多模态交互输入信息以判断用户是否存在交互意愿,其中,当所述用户不存在交互意愿时进入所述非交互行为模式。
在一实施例中,在处理所述多模态交互输入信息的过程中,分析所述图像信息和/或所述声音信息进行以确定用户的身份,其中:
从所述图像信息中提取所述用户的面部图像信息,分析所述面部图像信息以确定所述用户的身份;
从所述声音信息中提取所述用户的语音信息,对所述语音信息进行声纹识别以确定所述用户的身份。
在一实施例中,在处理所述多模态交互输入信息的过程中,通过对所述图像信息和/或所述声音信息进行分析以确定所述用户的情绪,其中:
从所述图像信息中提取所述用户的面部图像信息,分析所述面部图像信息以确定所述用户的情绪;
从所述声音信息中提取所述用户的语音信息,对所述语音信息进行声纹识别以确定所述用户的情绪。
本发明还提出了一种智能机器人多模态交互系统,包括:
信息采集模块,其配置为采集多模态交互输入信息,所述信息采集模块包括图像采集装置和声音采集装置;
交互信息处理模块,其配置为处理所述多模态交互输入信息以获取当前用户所处状态信息并判断当前是否存在交互需求;
非交互行为输出模块,其配置为当当前不存在交互需求时输出多模态交互信息,所述多模态交互信息配置为与所述当前用户所处状态信息对应。
在一实施例中,所述交互信息处理模块包含用户辨别装置,所述用户辨别装置配置为分析所述多模态交互输入信息以辨别当前是否存在用户。
在一实施例中,所述交互信息处理模块包含交互意愿辨别装置,所述交互意愿辨别装置配置为分析所述多模态交互输入信息以辨别用户是否存在交互意愿。
在一实施例中,所述交互信息处理模块包含身份确认装置,所述身份确认装置配置为分析所述多模态交互输入信息以确定用户的身份。
在一实施例中,所述交互信息处理模块包含情绪确认装置,所述身份确认装置配置为分析所述多模态交互输入信息以确定用户的情绪。
根据本发明的方法以及系统,可以令机器人模拟人与人相处中陪伴状态,形成自然舒适的人机交互体验,大大提高了机器人的用户体验。
本发明的其它特征或优点将在随后的说明书中阐述。并且,本发明的部分特征或优点将通过说明书而变得显而易见,或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一实施例的流程图;
图2、图3、图4以及图5分别是根据本发明不同实施例的部分流程图;
图6是根据本发明一实施例的系统结构简图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
现有面向家用的小型机器人,多数是采用被动应答的交互方式,机器人在没有接收到交互输入时不能主动行为。这样的交互模式固化呆板,容易令人厌倦。为了提高机器人的用户体验,一些机器人采用了主动交互的交互方式,但是由于主动交互的切入时机把握不好,往往会陷入自言自语的状态,失去了主动交互的意义。甚至在某些情况下,机器人发起的主动交互会对用户造成干扰,反而降低了用户体验。
为了让机器人的行为更自然生动,提高机器人的用户体验,本发明提出了一种智能机器人多模态交互方法。接下来基于流程图详细描述根据本发明实施例的方法的具体实施步骤。附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本说明书描述中所涉及到的机器人由执行机构、驱动装置、控制系统和采集设备构成。所述执行机构主要包括头部、上肢部、躯干和下肢部,在驱动装置可包括电驱动装置等。控制系统作为机器人的核心部分,类似于人的大脑,其主要包括处理器和关节伺服控制器。
采集系统包括内部传感器和外部传感器。外部传感器包括摄像头、麦克风、红外装置,用以感知外界多种信息。摄像头可以设置在头部,类似于人眼。红外装置可以设置在躯干的任意部位上,或者其它位置,用以辅助摄像头感应物体的存在或者外界环境。机器人具有听觉、视觉、触觉采集能力。
这里需要说明的是,本发明所涉及的机器人的具体结构并不限于上述描述。根据实际需要,机器人在可实现本发明所述的方法的基础上,可以采用任意的其他硬件结构。
本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如,本文所述的方法可以实现为能以控制逻辑来执行的软件,其由机器人控制系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时,该计算机程序包括一组指令,当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中,例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外,本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如,现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑,或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。
在本发明一实施例中,如图1所示,首先执行步骤S110,采集多模态交互输入信息。然后执行步骤S120,分析采集到的多模态交互输入信息以获取用户状态信息(在本说明书中,用户状态信息包含但不限于下文提到的一切和用户状态、用户特征有关的信息)。接下来执行步骤S130,根据分析获得的用户状态信息判断是否存在交互需求,也就是判断当前是否需要机器人进行人机交互。如果存在交互需求,则执行步骤S140,机器人进入交互行为模式。如果不存在交互需求,则执行步骤S150,机器人进入非交互行为模式。
在交互行为模式下,机器人分析处理用户的交互输入信息以输出相应的多模态交互信息从而实现人机交互。
在非交互行为模式下,机器人输出与用户状态信息对应的多模态交互信息。与交互行为模式不同,在非交互行为模式下机器人输出的多模态交互信息并不是为了实现与用户的交互,而是避免机器人出现呆板等待的状态(通常机器人在不与用户交互时会呆立不动,傻傻等待,影响机器人拟人化水平,降低用户体验)。在本发明中,机器人在非交互行为模式下输出多模态交互信息,其目的是实现不无聊,吸引用户的注意,提高用户的交互兴趣(例如自助游走、低声哼歌或是四处张望等行为)。
这里需要注意的是,在本发明中,机器人在非交互行为模式下的输出的一切多模态交互信息都是以不干扰用户为前提的。例如,判断用户处于安静休息状态,机器人则不做大幅度的动作,避免发出声音,打扰用户休息。
特别的,机器人在非交互行为模式下分析用户状态信息,输出对应用户状态信息的非交互行为。例如在本发明一实施例中,机器人在非交互行为模式下具有自由活动、原地活动、自言自语、安静陪伴、休息等多个不同的行为状态模式。机器人根据具体的用户状态信息,选择进入相应的行为状态模式。
通过对当前是否存在交互需求的判断,机器人可以智能的选择自己的行为模式。这样不仅不会影响机器人实现正常的人机交互,而且还可以避免机器人的交互行为干扰用户。进一步的,机器人在非交互行为模式下输出与用户状态信息对应多模态交互信息,避免了机器人在非交互状态下的呆板等待状态,使得机器人的行为更加灵活生动。根据本发明的方法,以不打扰和不无聊为目的,模拟人与人相处中陪伴状态,形成自然舒适的人机交互体验,大大提高了机器人的用户体验。
本发明的方法,其关键点之一是判断当前是否存在交互需求。在本发明一实施例中,首先通过判断当前是否存在用户来判断当前是否存在交互需求。具体的,即是根据采集到的多模态交互输入信息判断当前是否存在可以交互的对象(用户)。当不存在可以交互的对象(用户)时,自然也不会存在交互需求,此时就可以进入非交互行为模式。
多模态交互输入信息包括图像信息。在本发明一实施例中,通过对图像信息的分析判断当前是否存在可以交互的对象。具体的,即分析图像信息中是否存在人形,如果存在人形,则说明机器人的可视范围内存在用户(可以交互的对象)。进一步的,在分析是否存在人形的过程中,为了保证分析结果的正确性,还需要对人形进行活体检测,排除把照片、影像等虚拟形象误识别为人。
多模态交互输入信息还包括声音信息。在本发明一实施例中,通过对声音信息的分析判断当前是否存在可以交互的对象。具体的,分析声音信息中是否包含可以识别的人声,如果包含可以识别的人声,则说明在机器人可交互范围内有人(可交互对象)的存在。
在本发明的实施例中,可以采用多种上述图像分析或声音分析中的一种来分析判断当前是否存在用户,也可以采用上述两种方法结合的方式来分析判断当前是否存在用户。
在实际交互环境下,存在用户(可交互的对象)并不等于用户希望与机器人进行交互。如果在用户不希望与机器人进行交互时与用户交互,那么必然是对用户的打扰。因此,为了避免打扰用户,在本发明一实施例中需要进一步判断用户是否具有交互意愿。
具体的,如图2所示,首先判断是否存在用户(执行步骤S210),如果不存在用户,执行步骤S250,进入非交互行为模式。如果存在用户,则执行步骤S220,判断用户是否具有交互意愿。当用户具有交互意愿时,执行步骤S240,进入交互行为模式。当用户没有交互意愿时,执行步骤S250,进入非交互行为模式。
进一步的,机器人在非交互行为模式下输出多模态交互信息的目的是在不打扰用户的前提下避免呆板等待(不打扰和不无聊)。然而如果当前不存在用户,自然也就不涉及到打搅用户。另外,如果不存在用户,那么也就不存在实施不无聊的表现客体(是否呆板等待都没有意义,因为没有用户会看到机器人现在的状态)。因此,为了节约能源,在本发明一实施例中,当不存在可以交互的对象(用户)时,机器人进入非交互行为模式,进一步的,以不存在可交互对象为前提,此时的机器人不进行任何自主行为,而是停止运行,进入休眠状态。
在本发明一实施例中,通过对用户行为的分析来判断用户是否具有交互意愿。具体的,如图3所示,首先执行步骤S310,分析声音信息中是否包含用户语音。当声音信息中包含用户语音时执行步骤S320,根据用户语音判断交互意愿。
具体的,分析用户语音的具体语义,辨别用户语音是否包含与机器人交互的意愿。例如,如果用户语音的具体语义表明用户是在同其他人交谈,则当前用户没有交互意愿(与机器人交互的意愿)。如果用户语音的具体语义表明用户在对机器人交谈(例如,用户向机器人提问“现在几点了”),那么当前用户有交互意愿。
如果根据用户语音无法断定当前用户是否有交互意愿(例如用户在哼歌,其具体的语义机器人无法理解识别)或者当前不存在用户语音,则进一步分析用户行为。首先执行步骤S330,分析图像信息中是否包含用户动作。当图像信息中包含用户动作时执行步骤S340,根据用户动作判断交互意图。
具体的,分析用户动作的具体含义,辨别用户动作是否包含与机器人交互的意愿。例如,如果用户动作的具体含义表明用户是在忙于做与机器人无关的事情(例如用户正在打字),则当前用户没有交互意愿。如果用户动作的具体含义表明用户是在对机器人动作(例如,用户向机器人挥手指示机器人靠过来),那么则当前用户有交互意愿。
实际交互中,如果用户主动发出交互请求(对机器人发出包含交互含义的声音或者动作),那必然可以直接视为用户具有交互意愿;如果用户行为明确表明用户在忙于其他事物,那可以直接视为用户不具有交互意愿。然而,如果用户没有发出任何交互请求(没有发出任何包含交互含义的声音或者动作,进一步的,用户处于静止状态,没有发出任何可以识别的声音或者动作)或是机器人无法从用户的行为中识别用户是否具有交互意愿时,并不能表明用户没有交互意愿。
针对上述情况,在图3所示实施例中采用了主动试探的方式。即如果无法根据用户行为识别用户是否具有交互意愿(根据用户语音、用户动作均无法识别或是当前不存在用户语音/动作)时,执行步骤S370,主动交互试探。在步骤S370中,机器人向用户主动发出交互请求,试探用户是否存在交互意愿。例如,机器人向用户打招呼“您好,今天天气不错”或是向用户提问“您现在忙么”。
在步骤S370之后,机器人等待用户回应并执行步骤S380,判断用户是否做出交互回应。当经过预设时间(根据通常的交互习惯设定问答等待时间)后并没有得到用户的交互回应,则说明用户不想回应机器人或是处于无法回应的状态,此时用户没有交互意愿。
如果机器人接收到用户的交互回应,则执行步骤S390,根据交互回应判断交互意愿,分析交互回应的具体语义,判断用户是否有交互意愿。例如,机器人向用户提问“您现在忙么”,用户回答“我很忙”,则可以判断用户没有交互意愿。
以一具体应用场景为例,用户在跑步机上跑步。机器人首先采集图像信息以及声音信息。虽然声音信息中不包含用户语音(用户没有说话),但图像信息包含人形,因此机器人判断当前存在用户。
接下来分析用户的交互意愿,由于声音信息中并不包含用户语音,因此分析图像信息中的用户动作,用户在跑步机上跑步,机器人无法识别这个跑步动作具体代表用户是否具有交互意愿,于是机器人发出主动交互试探。机器人向用户提问“您好,您在做什么呢”。
假设用户跑步很累,不想说话,那么用户可以不回答机器人。机器人没有得到交互回应,于是判断用户不具有交互意愿,机器人进入非交互行为模式,在用户附近自主的自由游走。
假设用户可以说话,但是正在思考问题,可以直接回答“我很忙”。机器人通过分析交互回应的语义判断用户不具有交互意愿,机器人进入非交互行为模式,在用户附近自主的自由游走。
假设用户想和机器人随便聊聊,那么用户可以顺着机器人的提问进行回答。机器人通过分析交互回应的语义判断用户具有交互意愿,机器人进入交互行为模式,顺着用户的回答开始和用户聊天。
进一步的,为了使机器人更加人性化,提高机器人的用户体验,在本实施例中,在判断用户是否具有交互意愿时还采用了情绪分析。具体的,在机器人主动交互试探(步骤S370)之前,如果经过步骤S310、320、330以及340无法根据用户行为识别用户是否具有交互意愿时,首先执行步骤S350,分析用户情绪。然后执行步骤S360,判断用户情绪是否适合交互。如果适合交互,则执行步骤S370。如果不适合交互,则判断用户不具备交互意愿。
具体的,在步骤S350中,可以采用声纹识别的方式分析识别用户情绪。即分析用户语音的语气、语调以及语义从而分析判断用户当前的情绪。也可以采用面部识别的方式分析识别用户情绪。即从图像信息中分析提取用户的面部图像,然后对用户的面部图像进行表情识别从而分析识别用户当前的情绪。
在这里需要说明的是,本实施例采用用户语音以及用户面部图像综合分析的方式来分析获取用户情绪。在本发明其他实施例中,可以采用以上两种方式中的任一种方式进行分析识别。
进一步的,在图3所示实施例中,判断用户情绪的目地是分析用户情绪是否适合交互,但是在实际交互时并不能准确判断用户的情绪是否适合交互,因此在本发明的另一实施例中,用户情绪的分析主要是辅助作用。例如,在进行主动交互试探(步骤S370)时基于用户情绪采用不同的试探内容/方式;在分析交互回应(步骤S390)时基于用户情绪辅助判断交互回应是否包含交互意愿。
另外,用户情绪的分析也可以贯穿整个交互执行过程,即在交互进行时随时监控用户情绪,基于用户情绪随时调整机器人具体输出的交互行为。例如,如果用户情绪低落,机器人在交互过程中可以针对性的唱歌或者讲笑话;如果用户在生气(其没有交互意愿,因此机器人进入非交互模式,自主自由行动),机器人可以降低自由行动的范围以及动作幅度(甚至直接进入休眠状态),避免干扰用户。
这里需要注意的是,在判断用户是否具有交互意图的过程中,由于主动交互试探行为(步骤S370)会打搅到用户。因此在本实施例中,在其他判断手段执行完毕且均不能做出有效判断时才执行步骤S370。
在人与人的正常交互中,人们会根据交互对象的不同身份采用不同的交互回应。为了提高机器人的拟人化水平,提高机器人的交互灵活性,在本发明一实施例中,采用了身份识别机制。
如图4所示,首先执行步骤S410,判断是否存在用户,不存在用户时则执行步骤S460,进入非交互行为模式。如果存在用户,则执行步骤S420,确定用户身份。
具体的,在本实施例中,通过分析声音信息来确定用户身份。即从声音信息中分离用户语音,然后对用户语音进行声纹分析以确定用户身份。进一步的,在本实施例中也基于图像分析来确定用户身份。即从图像信息中分析提取用户的面部图像,然后对用户的面部图像进行面部识别从而确定用户身份。
在这里需要说明的是,本实施例采用用户语音以及用户面部图像综合分析的方式来确定用户身份。在本发明其他实施例中,可以采用以上两种方式中的任一种方式进行分析识别。
当用户身份确定了之后,执行步骤S430,判断用户是否具有交互权限(在本实施例中,对应无法识别身份的用户,均认为其不具备交互权限)。如果用户没有交互权限(也就是说,不容许机器人与该用户进行交互),那么机器人执行步骤S460,进入非交互行为模式。如果用户有交互权限,则执行步骤S440,判断用是否具有交互意愿。如果有交互意愿,执行步骤S450,进入交互行为模式。如果没有交互意愿,执行步骤S460,进入非交互行为模式。
进一步的,为了提高机器人的拟人化水平,在本发明其他实施例中,可以根据实际需求做更为细致的划分。如图5所示,在步骤S510中判断是否有用户存在,当用户存在时确定用户身份(步骤S520),之后并不是直接基于用户身份划分是否进入非交互行为模式。而是执行步骤S540,判断用户是否有交互意愿。与图3所示实施例不同,在步骤S540中,会基于不同的用户身份采用不同的主动交互试探方式,从而使得机器人的主动试探行为更加人性化,大大提高了机器人的应用体验。
例如,如果无法识别用户身份,机器人可以提问“您是哪位”;如果识别出用户是机器人的拥有者,机器人可以打招呼“主人早上好”;如果识别出用户是机器人拥有者的朋友王某,机器人可以打招呼“王先生早上好,您找主人有事么”。
进一步的,身份识别结果在整个机器人的交互过程中都起辅助作用。机器人可以依照交互对象身份的不同采取不同内容的交互回应。例如,如果无法识别用户身份,那么机器人在交互时就会避免提及和拥有者隐私相关的内容,即使被问及也可以不做回答。
进一步的,机器人在非交互行为模式下也可以根据在场的用户的身份采取不同的行为输出。例如,如果是机器人拥有者在场(其没有交互意愿,因此机器人进入非交互模式,自主自由行动),机器人可以采用较为引人注目的自主行为吸引拥有者的注意,提高拥有者的交互兴趣;如果是不能识别身份的用户在场(其没有交互意愿,因此机器人进入非交互模式,自主自由行动),机器人可以采用比较悠闲的自主行为,甚至可以进入休眠状态(在这里设定机器人只需要吸引其拥有者的注意,不需要吸引不能识别身份的用户)。
这里需要说明的是,图1-图5所示实施例默认机器人的最初状态是刚启动(既不处于交互行为模式也不处于非交互行为模式,并没有开始和用户进行交互)。当机器人进入交互行为模式或非交互行为模式后,也可以执行图1-图5所示流程判断自身下一步需要进入的模式。
以图2所示实施例为例,当机器人正在和用户交互时,随时监测用户状态(步骤S210),当用户离开(不存在用户),则意味着交互终止,机器人执行步骤S250。如果用户没有离开,则机器人在执行交互行为时随时判断用户是否有交互意愿(步骤S220),如果用户有交互意愿,则执行步骤S240,继续交互,如果用户没有交互意愿,则终止交互(结束话题,避免打搅用户),执行步骤S250。
当机器人处于非交互行为模式时,随时监测用户是否具有交互意图(图3所示流程),当用户具有交互意图时脱离非交互行为模式,进入交互行为模式。
这里需要注意的是,在监测用户是否具有交互意图的过程中,由于主动交互试探行为会打搅到用户。因此执行过主动交互试探且试探结果为用户不具备交互意愿时,在预设的时间段(根据用户通常的交互频次设定时间值)内不能再次执行主动交互试探。这样就能避免连续多次的主动交互试探打搅到用户。
综上,根据本发明的方法,以不打扰和不无聊为目的,模拟人与人相处中陪伴状态,形成自然舒适的人机交互体验,大大提高了机器人的用户体验。进一步的,相较于现有技术,本发明的系统更加全面的分析了机器人所处的交互环境以及用户的交互状态,从而可以输出更加匹配实际情况的机器人交互输出,机器人的拟人化程度和灵活性得到大大提高,进一步提高了机器人的用户体验。
基于本发明的方法,本发明还提出了一种智能机器人多模态交互系统。如图6所示,系统包括信息采集模块610、交互信息处理模块620、交互行为输出模块630以及非交互行为输出模块640。
信息采集模块610配置为采集多模态交互输入信息,其包括图像采集装置611和声音采集装置612;交互信息处理模块620配置为处理多模态交互输入信息(图像信息以及声音信息)以获取当前用户所处状态信息并判断当前是否存在交互需求;交互行为输出模块630配置为当当前存在交互需求时输出与当前用户所处状态信息对应的多模态交互信息;非交互行为输出模块640配置为当当前不存在交互需求时输出与当前用户所处状态信息对应的多模态交互信息。
交互行为输出模块630与非交互行为输出模块640输出的多模态交互信息的基本区别在于:
交互行为输出模块630输出的多模态交互信息主要用途是实现与用户的交互;
非交互行为输出模块640输出的多模态交互信息是要在不打搅用户的前提下避免机器人呆板的等待行为,实现不无聊。
为了提高机器人的人性化程度,交互信息处理模块620包含用户辨别装置621、交互意愿辨别装置622、身份确认装置623以及情绪确认装置624,其中:
用户辨别装置621配置为分析多模态交互输入信息以辨别当前是否存在用户;
交互意愿辨别装置622配置为分析多模态交互输入信息以辨别用户是否存在交互意愿;
身份确认装置623配置为分析多模态交互输入信息以确定用户的身份;
情绪确认装置624配置为分析所述多模态交互输入信息以确定用户的情绪。
基于上述装置,交互信息处理模块620可以更加精确的识别当前机器人所处的交互环境以及用户的具体交互状态等特征信息,从而更加人性化的判断是否进入交互行为模式/非交互行为模式。并且在交互行为模式/非交互行为模式基于不同的交互环境以及用户状态采取匹配的交互应对。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
根据本发明的系统,以不打扰和不无聊为目的,模拟人与人相处中陪伴状态,形成自然舒适的人机交互体验,大大提高了机器人的用户体验。进一步的,相较于现有技术,本发明的系统更加全面的分析了机器人所处的交互环境以及用户的交互状态,从而可以输出更加匹配实际情况的机器人交互输出,机器人的拟人化程度和灵活性得到大大提高,进一步提高了机器人的用户体验。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。本发明所述的方法还可有其他多种实施例。说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
在不背离本发明实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变或变形,但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims (8)

1.一种智能机器人多模态交互方法,其特征在于,包括:
采集多模态交互输入信息;
分析所述多模态交互输入信息以获取用户状态信息并判断当前是否存在交互需求,当存在交互需求时进一步判断是否存在交互意愿;
当当前不存在交互需求或不存在交互意愿时进入非交互行为模式,在非交互行为模式下机器人具有自由活动、原地活动、自言自语、安静陪伴、休息的行为状态模式;
在所述非交互行为模式下输出以不干扰用户为前提的多模态交互信息,所述多模态交互信息配置为与所述用户状态信息对应。
2.根据权利要求1所述的方法,其特征在于,在处理所述多模态交互输入信息的过程中,分析所述多模态交互输入信息以判断当前是否存在用户,其中,当不存在用户时进入所述非交互行为模式。
3.根据权利要求1或2所述的方法,其特征在于,在处理所述多模态交互输入信息的过程中,分析图像信息和/或声音信息以确定用户的身份,其中:
从所述图像信息中提取所述用户的面部图像信息,分析所述面部图像信息以确定所述用户的身份;
从所述声音信息中提取所述用户的语音信息,对所述语音信息进行声纹识别以确定所述用户的身份。
4.根据权利要求1或2所述的方法,其特征在于,在处理所述多模态交互输入信息的过程中,通过对图像信息和/或声音信息进行分析以确定所述用户的情绪,其中:
从所述图像信息中提取所述用户的面部图像信息,分析所述面部图像信息以确定所述用户的情绪;
从所述声音信息中提取所述用户的语音信息,对所述语音信息进行声纹识别以确定所述用户的情绪。
5.一种智能机器人系统,其特征在于,包括:
信息采集模块,其配置为采集多模态交互输入信息,所述信息采集模块包括图像采集装置和声音采集装置;
交互信息处理模块,其配置为处理所述多模态交互输入信息以获取当前用户所处状态信息并判断当前是否存在交互需求,当存在交互需求时进一步判断是否存在交互意愿;
非交互行为输出模块,其配置为当当前不存在交互需求或不存在交互意愿时进入非交互行为模式,在非交互行为模式下机器人具有自由活动、原地活动、自言自语、安静陪伴、休息的行为状态模式,在所述非交互行为模式下输出以不干扰用户为前提的多模态交互信息,所述多模态交互信息配置为与所述当前用户所处状态信息对应。
6.根据权利要求5所述的系统,其特征在于,所述交互信息处理模块包含用户辨别装置,所述用户辨别装置配置为分析所述多模态交互输入信息以辨别当前是否存在用户。
7.根据权利要求5或6所述的系统,其特征在于,所述交互信息处理模块包含身份确认装置,所述身份确认装置配置为分析所述多模态交互输入信息以确定用户的身份。
8.根据权利要求5或6所述的系统,其特征在于,所述交互信息处理模块包含情绪确认装置,所述情绪确认装置配置为分析所述多模态交互输入信息以确定用户的情绪。
CN201610179233.1A 2016-03-25 2016-03-25 一种智能机器人多模态交互方法和智能机器人 Active CN105868827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610179233.1A CN105868827B (zh) 2016-03-25 2016-03-25 一种智能机器人多模态交互方法和智能机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610179233.1A CN105868827B (zh) 2016-03-25 2016-03-25 一种智能机器人多模态交互方法和智能机器人

Publications (2)

Publication Number Publication Date
CN105868827A CN105868827A (zh) 2016-08-17
CN105868827B true CN105868827B (zh) 2019-01-22

Family

ID=56626010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610179233.1A Active CN105868827B (zh) 2016-03-25 2016-03-25 一种智能机器人多模态交互方法和智能机器人

Country Status (1)

Country Link
CN (1) CN105868827B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354255A (zh) * 2016-08-26 2017-01-25 北京光年无限科技有限公司 一种面向机器人产品的人机交互方法及装置
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和系统
CN106558052A (zh) * 2016-10-10 2017-04-05 北京光年无限科技有限公司 一种用于智能机器人的交互数据处理输出方法及机器人
CN106503786B (zh) * 2016-10-11 2020-06-26 北京光年无限科技有限公司 用于智能机器人的多模态交互方法和装置
CN106541408B (zh) * 2016-10-11 2018-10-12 北京光年无限科技有限公司 基于智能机器人的儿童行为引导方法及系统
CN108614987A (zh) * 2016-12-13 2018-10-02 深圳光启合众科技有限公司 数据处理的方法、装置和机器人
CN108227906B (zh) * 2016-12-22 2021-04-23 深圳大森智能科技有限公司 一种人机交互方法及装置
CN107053191B (zh) * 2016-12-31 2020-05-08 华为技术有限公司 一种机器人,服务器及人机互动方法
CN107016046A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 基于视觉场景化的智能机器人对话方法及系统
CN106970743A (zh) * 2017-03-27 2017-07-21 宇龙计算机通信科技(深圳)有限公司 一种图标排序方法、装置及移动终端
CN107480766B (zh) * 2017-07-18 2021-01-22 北京光年无限科技有限公司 多模态虚拟机器人的内容生成的方法和系统
CN107783650A (zh) * 2017-09-18 2018-03-09 北京光年无限科技有限公司 一种基于虚拟机器人的人机交互方法及装置
CN107704169B (zh) * 2017-09-26 2020-11-17 北京光年无限科技有限公司 虚拟人的状态管理方法和系统
CN108214513A (zh) * 2018-01-23 2018-06-29 深圳狗尾草智能科技有限公司 机器人多维度响应交互方法及装置
CN108255307A (zh) * 2018-02-08 2018-07-06 竹间智能科技(上海)有限公司 基于多模态情绪与脸部属性识别的人机交互方法、系统
CN108724203A (zh) * 2018-03-21 2018-11-02 北京猎户星空科技有限公司 一种交互方法及装置
CN110472134A (zh) * 2018-05-10 2019-11-19 刘新宇 酒店客房服务机器人及本地化服务数据信息处理系统
CN110653815B (zh) * 2018-06-29 2021-12-07 深圳市优必选科技有限公司 一种机器人控制方法、机器人及计算机存储介质
CN109093631A (zh) * 2018-09-10 2018-12-28 中国科学技术大学 一种服务机器人唤醒方法及装置
CN111352501A (zh) * 2019-12-09 2020-06-30 华为技术有限公司 业务交互方法及装置
CN110910887B (zh) * 2019-12-30 2022-06-28 思必驰科技股份有限公司 语音唤醒方法和装置
CN111931897B (zh) * 2020-06-30 2024-06-28 华为技术有限公司 交互方法、装置、电子设备和存储介质
CN112017629B (zh) * 2020-07-15 2021-12-21 马上消费金融股份有限公司 语音机器人的会话控制方法及设备、存储介质
WO2024124481A1 (zh) * 2022-12-15 2024-06-20 北京可以科技有限公司 人机交互装置及人机交互方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218654A (zh) * 2012-01-20 2013-07-24 沈阳新松机器人自动化股份有限公司 一种机器人情绪情感生成与表达系统
CN103869945A (zh) * 2012-12-14 2014-06-18 联想(北京)有限公司 一种信息交互方法及装置、电子设备
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN105093986A (zh) * 2015-07-23 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的拟人机器人控制方法、系统及拟人机器人
CN105082150A (zh) * 2015-08-25 2015-11-25 国家康复辅具研究中心 一种基于用户情绪及意图识别的机器人人机交互方法
EP3109856A1 (en) * 2015-06-24 2016-12-28 Baidu Online Network Technology (Beijing) Co., Ltd Control system, method and device of intelligent robot based on artificial intelligence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218654A (zh) * 2012-01-20 2013-07-24 沈阳新松机器人自动化股份有限公司 一种机器人情绪情感生成与表达系统
CN103869945A (zh) * 2012-12-14 2014-06-18 联想(北京)有限公司 一种信息交互方法及装置、电子设备
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
EP3109856A1 (en) * 2015-06-24 2016-12-28 Baidu Online Network Technology (Beijing) Co., Ltd Control system, method and device of intelligent robot based on artificial intelligence
CN105093986A (zh) * 2015-07-23 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的拟人机器人控制方法、系统及拟人机器人
CN105082150A (zh) * 2015-08-25 2015-11-25 国家康复辅具研究中心 一种基于用户情绪及意图识别的机器人人机交互方法

Also Published As

Publication number Publication date
CN105868827A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN105868827B (zh) 一种智能机器人多模态交互方法和智能机器人
JP6803351B2 (ja) マン・マシン・ダイアログにおけるエージェント係属の管理
CN107481718B (zh) 语音识别方法、装置、存储介质及电子设备
KR102444165B1 (ko) 적응적으로 회의를 제공하기 위한 장치 및 방법
CN107340865B (zh) 多模态虚拟机器人交互方法和系统
KR102611751B1 (ko) 키 문구 사용자 인식의 증강
CN107894833B (zh) 基于虚拟人的多模态交互处理方法及系统
CN105843118B (zh) 一种机器人交互方法及机器人系统
CN110047487A (zh) 车载语音设备的唤醒方法、装置、车辆以及机器可读介质
CN107825429B (zh) 对话装置和方法
CN110383235A (zh) 多用户智能辅助
CN109176535B (zh) 基于智能机器人的交互方法及系统
CN109243432A (zh) 话音处理方法以及支持该话音处理方法的电子设备
KR20190022109A (ko) 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
KR102515023B1 (ko) 전자 장치 및 그 제어 방법
CN109272994A (zh) 话音数据处理方法以及支持该话音数据处理方法的电子装置
CN109036393A (zh) 家电设备的唤醒词训练方法、装置及家电设备
JP2022095768A (ja) インテリジェントキャビン用の対話方法、装置、機器および媒体
KR101984283B1 (ko) 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체
CN109101663A (zh) 一种基于互联网的机器人对话系统
KR20190136706A (ko) 개인 관심상황 발생 예측/인지 장치 및 방법
CN111370004A (zh) 人机交互方法、语音处理方法及设备
CN110364178A (zh) 一种语音处理方法、装置、存储介质和电子设备
US11682389B2 (en) Voice conversation system, control system for voice conversation system, and control program, and control method
Zlatintsi et al. Multimodal signal processing and learning aspects of human-robot interaction for an assistive bathing robot

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190211

Address after: 518064 Turing Robot 1404 Mango Net Building, Haitianyi Road, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Lightyear Turing Technology Co.,Ltd.

Address before: 100000 Fourth Floor Ivy League Youth Venture Studio No. 193, Yuquan Building, No. 3 Shijingshan Road, Shijingshan District, Beijing

Patentee before: Beijing Guangnian Infinite Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240401

Address after: Room 193, Ivy League Youth Entrepreneurship Studio, 4th Floor, Yuquan Building, No. 3 Shijingshan Road, Shijingshan District, Beijing, 100049

Patentee after: Beijing Guangnian Infinite Technology Co.,Ltd.

Country or region after: China

Address before: 518064 Turing Robot 1404 Mango Net Building, Haitianyi Road, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Lightyear Turing Technology Co.,Ltd.

Country or region before: China