CN106502381A - 一种针对具有视觉能力的机器人的多模态输出方法 - Google Patents

一种针对具有视觉能力的机器人的多模态输出方法 Download PDF

Info

Publication number
CN106502381A
CN106502381A CN201610838438.6A CN201610838438A CN106502381A CN 106502381 A CN106502381 A CN 106502381A CN 201610838438 A CN201610838438 A CN 201610838438A CN 106502381 A CN106502381 A CN 106502381A
Authority
CN
China
Prior art keywords
user
robot
identity
active
user identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610838438.6A
Other languages
English (en)
Inventor
汪霄鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangnian Wuxian Technology Co Ltd
Original Assignee
Beijing Guangnian Wuxian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangnian Wuxian Technology Co Ltd filed Critical Beijing Guangnian Wuxian Technology Co Ltd
Priority to CN201610838438.6A priority Critical patent/CN106502381A/zh
Publication of CN106502381A publication Critical patent/CN106502381A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality

Abstract

本发明公开了一种针对具有视觉能力的机器人的多模态输出方法及机器人,本发明的方法包括:调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据;根据所述当前用户图像数据确定用户身份;生成并输出与所述用户身份匹配的主动交互输出。根据本发明的方法,机器人可以针对用户的不同身份有针对性的做出不同的交互应答,尤其的,在用户尚未进行交互时主动向用户输出匹配用户身份的交互输出。机器人的图像采集能力被辅助应用到机器人的人机交互过程中,相较于现有技术,机器人的应用功能被大大拓展,机器人的用户体验得到显著提高。

Description

一种针对具有视觉能力的机器人的多模态输出方法
技术领域
本发明涉及计算机领域,具体说涉及一种针对具有视觉能力的机器人的多模态输出方法。
背景技术
随着机器人技术的不断发展,机器人的应用范围被不断拓展,尤其的,越来越多的机器人被应用到日常的生产生活中。如何提高机器人的拟人化水平,提高机器人的用户体验就成了当前机器人技术的主要研发方向。
在日常的生产生活中,机器人的主要应用场景通常集中在与人的交互上。因此,提高机器人的拟人化水平,提高机器人的用户体验的主要针对方向也就集中在如何使得机器人的人机交互行为更为拟人化。
随着机器人硬件技术的不断发展,机器人在硬件基础上的功能不断提高。但是,伴随着机器人硬件的不断升级,其人机交互模式并没有进行相应的升级调整。尤其的,当前大多机器人具备了图像采集功能,但是机器人的人机交互模式还停留在最初的文字语音交互方式上。这就造成了机器人硬件资源的极大浪费。
发明内容
本发明提出了一种针对具有视觉能力的机器人的多模态输出方法,所述方法包括:
调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据;
根据所述当前用户图像数据确定用户身份;
生成并输出与所述用户身份匹配的主动交互输出。
在一实施例中,根据所述当前用户图像数据确定用户身份,其中:
分析所述当前用户图像数据获取当前用户特征信息;
查找与所述当前用户特征信息匹配的已保存用户特征信息;
获取所述已保存用户特征信息对应的用户身份。
在一实施例中,根据所述当前用户图像数据确定用户身份,其中,当无法确定用户身份时,调用获取身份机制获取当前用户身份信息并保存。
在一实施例中,根据所述当前用户图像数据确定用户身份由服务器或本地处理器执行。
在一实施例中,生成并输出与所述用户身份匹配的主动交互输出,其中:
基于当前的对话内容生成第一多模态输出内容;
在所述第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容,所述第二多模态输出内容与所述用户身份匹配;
结合所述第一多模态输出内容以及所述第二多模态输出内容生成并输出所述多模态输出。
本发明还提出了一种具有视觉能力的机器人,所述机器人包括:
用户图像数据获取模块,其配置为调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据;
用户身份确定模块,其配置为根据所述当前用户图像数据确定用户身份;
交互输出生成模块,其配置为生成并输出与所述用户身份匹配的主动交互输出。
在一实施例中,所述用户身份确定模块配置为:
分析所述当前用户图像数据获取当前用户特征信息;
查找与所述当前用户特征信息匹配的已保存用户特征信息;
获取所述已保存用户特征信息对应的用户身份。
在一实施例中,所述机器人还包含用户身份获取模块,所述用户身份获取模块配置为当无法确定用户身份时,调用获取身份机制获取当前用户身份信息并保存。
在一实施例中,所述用户身份确定模块配置为基于服务器或本地处理器执行身份确定操作。
在一实施例中,所述交互输出生成模块配置为:
基于当前的对话内容生成第一多模态输出内容;
在所述第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容,所述第二多模态输出内容与所述用户身份匹配;
结合所述第一多模态输出内容以及所述第二多模态输出内容生成并输出所述多模态输出。
根据本发明的方法,机器人基于其图像采集装置识别当前用户的身份,然后针对用户的不同身份有针对性的做出不同的交互应答,尤其的,在用户尚未进行交互时主动向用户输出匹配用户身份的交互输出。机器人的图像采集能力被辅助应用到机器人的人机交互过程中,相较于现有技术,机器人的应用功能被大大拓展,机器人的用户体验得到显著提高。
本发明的其它特征或优点将在随后的说明书中阐述。并且,本发明的部分特征或优点将通过说明书而变得显而易见,或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一实施例的方法流程图;
图2~4是根据本发明不同实施例的部分方法流程图;
图5是根据本发明一实施例的机器人结构简图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
在日常的生产生活中,机器人的主要应用场景通常集中在与人的交互上。因此,提高机器人的拟人化水平,提高机器人的用户体验的主要针对方向也就集中在如何使得机器人的人机交互行为更为拟人化。
随着机器人硬件技术的不断发展,机器人在硬件基础上的功能不断提高。但是,伴随着机器人硬件的不断升级,其人机交互模式并没有进行相应的升级调整。尤其的,当前大多机器人具备了图像采集功能,但是机器人的人机交互模式还停留在最初的文字语音交互方式上。这就造成了机器人硬件资源的极大浪费。
为了扩展机器人的应用范围,提升机器人的用户体验本发明的发明人提出了一种针对具有视觉能力的机器人的多模态输出方法。具体的,机器人基于其图像采集装置识别当前用户的身份,然后针对用户的不同身份有针对性的做出不同的交互应答。这样,将机器人的图像采集能力辅助应用到机器人的人机交互过程中,不但拓展了机器人的应用功能,而且大大提高了机器人的用户体验。
接下来基于附图详细描述本发明具体实施例的详细执行过程。附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,在本发明一实施例中,机器人调用机器人视觉处理模块获取当前图像(步骤S100);检测当前图像从而判断当前是否存在用户(步骤S110);如果不存在用户,则返回步骤S100,再次获取当前图像并重复检测步骤。
如果当前存在用户,则机器人主动获取该用户图像数据(步骤S120);并进一步的根据当前用户图像数据确定用户身份(步骤S130);最后,机器人生成并输出与所述用户身份匹配的主动交互输出(步骤S140)。
在图1所示的步骤中,关键步骤之一是步骤S130,确定用户身份。具体的,在一实施例中,如图2所示,机器人首先分析当前用户图像数据获取当前用户特征信息(步骤S200);然后查找与当前用户特征信息匹配的已保存用户特征信息(步骤S210);最后获取已保存用户特征信息对应的用户身份(步骤S220)。
进一步的,在图1所示的步骤S130中,会出现机器人无法识别当前用户身份的情况。例如,当前的用户为新用户,机器人之前并未储存其对应的用户特征信息。那么在图2所示的步骤S210中,机器人也就无法查找到与当前用户特征信息匹配的已保存用户特征信息。在这种情况下,在本发明一实施例中,当无法确定用户身份时,调用获取身份机制获取当前用户身份信息并保存。
如图3所示,机器人首先分析当前用户图像数据获取当前用户特征信息(步骤S300);然后查找与当前用户特征信息匹配的已保存用户特征信息(步骤S310);接着确定步骤S310中是否可以查找到与当前用户特征信息匹配的已保存用户特征信息(步骤S320);在步骤S320中,如果确定存在与当前用户特征信息匹配的已保存用户特征信息则获取已保存用户特征信息对应的用户身份(步骤S330)。
在步骤S320中,如果确定不存在与当前用户特征信息匹配的已保存用户特征信息则获取新用户身份信息并保存(步骤S340)。
具体的,在本发明一实施例中,步骤S340的具体执行方式是机器人主动向用户询问以获取新用户的身份信息。
进一步的,在图1所示的步骤S130中,无法确定用户身份的另一个原因可能是步骤S100和/或步骤S120出现错误,即机器人并没有获取到足以识别用户身份的正确的用户图像数据。在这种情况下,在本发明一实施例中,在图3所示的步骤S340执行过程中,机器人将获取到的新用户身份信息与当前已保存的用户特征信息做比对,如果发现新用户身份信息是已经保存了的,那么说明机器人的用户图像数据获取环节出了问题,机器人进行相应的自检或发出警报。
进一步的,在本发明一实施例中,用户身份的确认是在机器人本地进行的,也就是说,用户特征信息是保存在机器人本地存储器上的,由机器人本地处理器进行用户身份的识别。为了减小机器人的数据存储压力以及数据处理压力,在本发明一实施例中,机器人基于网络云端服务器进行用户身份的识别。
具体的,在本发明一实施例中,已保存的用户特征信息保存在云端服务器。当机器人需要进行用户身份识别时,从云端服务器的数据库中查找与当前用户特征信息匹配的已保存用户特征信息。这样,机器人就不需要将已保存用户特征信息保存在自身的存储器中,机器人的存储压力大大降低。并且,进一步的,当已保存用户特征信息需要更新时(例如机器人获取到新用户身份信息时),只需要更新云端服务器存储的数据(机器人通过网络将获取到的新用户身份信息写入云端服务器的数据库),这样同一服务网络下的所有机器人都可以调用到新的用户身份信息,而不需要逐一对机器人进行新用户身份信息的更新。
进一步的,在本发明一实施例中,为了进一步降低机器人的数据处理压力,用户身份的确认(查找与当前用户特征信息匹配的已保存用户特征信息)过程也在云端服务器完成。机器人只需将获取到的用户特征信息发送到云端服务器,然后接受来自云端服务器的用户身份确认结果。
在图1所示的步骤中,关键步骤还包括步骤S140,生成并输出与用户身份匹配的主动交互输出。具体的,在本发明一实施例中,如图4所示,机器人首先基于当前的对话内容生成第一多模态输出内容(步骤S400);然后在第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容(步骤S410),其中,第二多模态输出内容与用户身份匹配;最后,结合第一多模态输出内容以及第二多模态输出内容生成并输出多模态输出。
例如,在一应用环境中,用户向机器人询问天气状况,机器人识别出用户身份为A。此时,机器人生成第一多模态输出内容“今天会下雨”(回答用户提问);然后在第一多模态输出内容“今天会下雨”机器人结合用户身份生成第二多模态输出内容“A,上班时要带伞”(A每天这个时候出去上班);最后,机器人生成并输出多模态输出“今天会下雨,A,上班时要带伞”。相较于现有技术中机器人仅仅有针对性的回答“今天会下雨”,根据本发明方法的机器人拟人化程度大大增强,用户体验得到提高。
进一步的,当机器人和用户的交互并未开始时(当前的对话内容为空),那么第一多模态输出内容也就为空。此时,在本发明一实施例中,机器人直接生成与用户身份匹配的第二多模态输出内容。具体的,在一实施例中,在一具体的应用环境中,当机器人识别出用户身份时,主动向用户打招呼。例如,说出用户名字,然后问候(早上好、你好、或是天气不错等)。
综上,根据本发明的方法,机器人基于其图像采集装置识别当前用户的身份,然后针对用户的不同身份有针对性的做出不同的交互应答,尤其的,在用户尚未进行交互时主动向用户输出匹配用户身份的交互输出。这样,将机器人的图像采集能力辅助应用到机器人的人机交互过程中,不但拓展了机器人的应用功能,而且大大提高了机器人的用户体验。
基于本发明的方法,本发明还提出了一种具有视觉能力的机器人。在一实施例中,如图5所示,机器人包括:
用户图像数据获取模块510,其配置为调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据;
用户身份确定模块520,其配置为根据当前用户图像数据确定用户身份;
交互输出生成模块530,其配置为生成并输出与用户身份匹配的主动交互输出。
进一步的,在一实施例中,用户身份确定模块520配置为:分析当前用户图像数据获取当前用户特征信息;查找与当前用户特征信息匹配的已保存用户特征信息;获取已保存用户特征信息对应的用户身份。
进一步的,在一实施例中,机器人还包含用户身份获取模块540,用户身份获取模块配置为当无法确定用户身份时,调用获取身份机制获取当前用户身份信息并保存。
进一步的,在一实施例中,用户身份确定模块520配置为基于服务器或本地处理器执行身份确定操作。
进一步的,在一实施例中,交互输出生成模块530配置为:基于当前的对话内容生成第一多模态输出内容;在第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容,第二多模态输出内容与所述用户身份匹配;结合第一多模态输出内容以及第二多模态输出内容生成并输出多模态输出。
本发明的机器人基于其图像采集装置识别当前用户的身份,然后针对用户的不同身份有针对性的做出不同的交互应答,尤其的,在用户尚未进行交互时主动向用户输出匹配用户身份的交互输出。这样,将机器人的图像采集能力辅助应用到机器人的人机交互过程中,不但拓展了机器人的应用功能,而且大大提高了机器人的用户体验。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变或变形,但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims (10)

1.一种针对具有视觉能力的机器人的多模态输出方法,其特征在于,所述方法包括:
调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据;
根据所述当前用户图像数据确定用户身份;
生成并输出与所述用户身份匹配的主动交互输出。
2.根据权利要求1所述的方法,其特征在于,根据所述当前用户图像数据确定用户身份,其中:
分析所述当前用户图像数据获取当前用户特征信息;
查找与所述当前用户特征信息匹配的已保存用户特征信息;
获取所述已保存用户特征信息对应的用户身份。
3.根据权利要求2所述的方法,其特征在于,根据所述当前用户图像数据确定用户身份,其中,当无法确定用户身份时,调用获取身份机制获取当前用户身份信息并保存。
4.根据权利要求1所述的方法,其特征在于,根据所述当前用户图像数据确定用户身份由服务器或本地处理器执行。
5.根据权利要求1所述的方法,其特征在于,生成并输出与所述用户身份匹配的主动交互输出,其中:
基于当前的对话内容生成第一多模态输出内容;
在所述第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容,所述第二多模态输出内容与所述用户身份匹配;
结合所述第一多模态输出内容以及所述第二多模态输出内容生成并输出所述多模态输出。
6.一种具有视觉能力的机器人,其特征在于,所述机器人包括:
用户图像数据获取模块,其配置为调用机器人视觉处理模块检测并在出现用户时主动获取该用户图像数据;
用户身份确定模块,其配置为根据所述当前用户图像数据确定用户身份;
交互输出生成模块,其配置为生成并输出与所述用户身份匹配的主动交互输出。
7.根据权利要求6所述的机器人,其特征在于,所述用户身份确定模块配置为:
分析所述当前用户图像数据获取当前用户特征信息;
查找与所述当前用户特征信息匹配的已保存用户特征信息;
获取所述已保存用户特征信息对应的用户身份。
8.根据权利要求7所述的机器人,其特征在于,所述机器人还包含用户身份获取模块,所述用户身份获取模块配置为当无法确定用户身份时,调用获取身份机制获取当前用户身份信息并保存。
9.根据权利要求6所述的机器人,其特征在于,所述用户身份确定模块配置为基于服务器或本地处理器执行身份确定操作。
10.根据权利要求6所述的机器人,其特征在于,所述交互输出生成模块配置为:
基于当前的对话内容生成第一多模态输出内容;
在所述第一多模态输出内容的基础上基于用户身份生成第二多模态输出内容,所述第二多模态输出内容与所述用户身份匹配;
结合所述第一多模态输出内容以及所述第二多模态输出内容生成并输出所述多模态输出。
CN201610838438.6A 2016-09-21 2016-09-21 一种针对具有视觉能力的机器人的多模态输出方法 Pending CN106502381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610838438.6A CN106502381A (zh) 2016-09-21 2016-09-21 一种针对具有视觉能力的机器人的多模态输出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610838438.6A CN106502381A (zh) 2016-09-21 2016-09-21 一种针对具有视觉能力的机器人的多模态输出方法

Publications (1)

Publication Number Publication Date
CN106502381A true CN106502381A (zh) 2017-03-15

Family

ID=58290144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610838438.6A Pending CN106502381A (zh) 2016-09-21 2016-09-21 一种针对具有视觉能力的机器人的多模态输出方法

Country Status (1)

Country Link
CN (1) CN106502381A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109991859A (zh) * 2017-12-29 2019-07-09 青岛有屋科技有限公司 一种手势指令控制方法及智能家居控制系统
CN113147771A (zh) * 2021-05-10 2021-07-23 前海七剑科技(深圳)有限公司 基于车载虚拟机器人的主动交互方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011224777A (ja) * 2006-08-29 2011-11-10 Daihen Corp ロボット制御システム
CN102500113A (zh) * 2011-11-11 2012-06-20 山东科技大学 基于智能手机交互的综合型迎宾机器人
CN105701447A (zh) * 2015-12-30 2016-06-22 上海智臻智能网络科技股份有限公司 迎宾机器人
CN105835064A (zh) * 2016-05-03 2016-08-10 北京光年无限科技有限公司 一种智能机器人的多模态输出方法和智能机器人系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011224777A (ja) * 2006-08-29 2011-11-10 Daihen Corp ロボット制御システム
CN102500113A (zh) * 2011-11-11 2012-06-20 山东科技大学 基于智能手机交互的综合型迎宾机器人
CN105701447A (zh) * 2015-12-30 2016-06-22 上海智臻智能网络科技股份有限公司 迎宾机器人
CN105835064A (zh) * 2016-05-03 2016-08-10 北京光年无限科技有限公司 一种智能机器人的多模态输出方法和智能机器人系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109991859A (zh) * 2017-12-29 2019-07-09 青岛有屋科技有限公司 一种手势指令控制方法及智能家居控制系统
CN109991859B (zh) * 2017-12-29 2022-08-23 青岛有屋科技有限公司 一种手势指令控制方法及智能家居控制系统
CN113147771A (zh) * 2021-05-10 2021-07-23 前海七剑科技(深圳)有限公司 基于车载虚拟机器人的主动交互方法及装置

Similar Documents

Publication Publication Date Title
CN109389562B (zh) 图像修复方法及装置
CN109344258B (zh) 一种智能化自适应敏感数据识别系统及方法
CN111652218A (zh) 文本检测方法、电子设备及计算机可读介质
JP6932742B2 (ja) 深層学習モデルを利用して、眼球状態を検出する眼球状態検出システム及びその眼球状態検出システムを動作させる方法
US6920248B2 (en) Contour detecting apparatus and method, and storage medium storing contour detecting program
CN106502381A (zh) 一种针对具有视觉能力的机器人的多模态输出方法
CN111696110A (zh) 场景分割方法及系统
CN111968134A (zh) 目标分割方法、装置、计算机可读存储介质及计算机设备
CA3136990A1 (en) PRINCIPAL POINT DETECTION METHOD OF A HUMAN BODY, APPARATUS, COMPUTER DEVICE AND STORAGE MEDIA
CN111401331B (zh) 人脸识别方法及装置
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
CN113840040B (zh) 一种人机协作的外呼方法、装置、设备及存储介质
KR100553850B1 (ko) 얼굴인식/표정인식 시스템 및 방법
JP2004502262A (ja) 指示介入不要なシーン分割
CN111144374B (zh) 人脸表情识别方法及装置、存储介质和电子设备
CN109002776A (zh) 人脸识别方法、系统、计算机设备和计算机可读存储介质
CN105224919A (zh) 纹理特征提取方法及装置
CN107945139A (zh) 一种图像处理方法、存储介质及智能终端
Li et al. If-gan: Generative adversarial network for identity preserving facial image inpainting and frontalization
CN111160240A (zh) 图像对象的识别处理方法、装置及智能设备、存储介质
CN108256401B (zh) 一种获取目标属性特征语义的方法及装置
CN113920020B (zh) 一种基于深度生成模型的人体点云实时修复方法
CN116524207A (zh) 基于边缘检测辅助的弱监督rgbd图像显著性检测方法
CN115630066A (zh) 一种动态本体语义融合模型的多源异构数据映射的方法
CN112949731A (zh) 基于多专家模型的目标检测方法、装置、存储介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315