CN107728780A - 一种基于虚拟机器人的人机交互方法及装置 - Google Patents
一种基于虚拟机器人的人机交互方法及装置 Download PDFInfo
- Publication number
- CN107728780A CN107728780A CN201710841023.9A CN201710841023A CN107728780A CN 107728780 A CN107728780 A CN 107728780A CN 201710841023 A CN201710841023 A CN 201710841023A CN 107728780 A CN107728780 A CN 107728780A
- Authority
- CN
- China
- Prior art keywords
- user
- virtual robot
- modal
- information
- feedback information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 230000003993 interaction Effects 0.000 title claims abstract description 77
- 230000008569 process Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 31
- 230000008451 emotion Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 12
- 230000002996 emotional effect Effects 0.000 abstract description 2
- 230000001755 vocal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Manipulator (AREA)
Abstract
一种基于虚拟机器人的人机交互方法及装置,该方法包括:获取多模态输入信息;对多模态输入信息进行解析并根据解析结果判断当前用户是否为儿童用户,如果当前用户为儿童用户,则对多模态输入信息进行意图识别,得到用户意图,根据当前交互场景信息所对应的知识产权内容和用户意图生成并输出相应的多模态反馈信息,多模态反馈信息中的虚拟机器人版权形象与当前交互场景所对应的知识产权内容相关。本方法可以实现虚拟机器人在大IP场景中,通过多模态交互的方式,与用户进行互动,增强虚拟机器人与用户的情感联系,增加交互的趣味性,提升用户的交互兴趣,从而增多用户与虚拟机器人的交互次数,进而增强虚拟机器人的交互能力。
Description
技术领域
本发明涉及机器人技术领域,具体地说,涉及一种基于虚拟机器人的人机交互方法及装置。
背景技术
随着科学技术的不断发展,信息技术、计算机技术以及人工智能技术的引入,机器人的研究已经逐步走出工业领域,逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人,人机交互也就成为决定智能机器人发展的重要因素。
发明内容
为解决上述问题,本发明提供了一种基于虚拟机器人的人机交互方法,启用虚拟机器人,将所述虚拟机器人的形象显示在预设显示区域中,所述方法包括:
步骤一、获取多模态输入信息;
步骤二、对所述多模态输入信息进行图像处理和/或音频处理,根据图像处理结果和/或音频处理结果判断当前用户是否为儿童用户,其中,如果当前用户为儿童用户,则对所述多模态输入信息进行意图识别,得到用户意图,根据当前交互场景信息所对应的知识产权内容和所述用户意图生成并输出相应的多模态反馈信息,其中,所述多模态反馈信息中的虚拟机器人版权形象与所述当前交互场景所对应的知识产权内容相关。
根据本发明一个实施例,在所述步骤二中,对获取到的用户语音信息进行音频处理,得到用户声纹数据,对获取到的用户图像信息进行人脸识别处理,得到用户人脸数据,对所述用户人脸数据和用户声纹数据进行特征匹配,判断所述当前用户是否为儿童用户。
根据本发明一个实施例,如果所述当前用户为儿童用户,则根据所述用户人脸数据和/或用户声纹数据确定所述当前用户的用户年龄和/或用户性别,并生成与所述用户年龄和/或用户性别相对应的多模态反馈信息。
根据本发明一个实施例,在所述步骤二中,根据所述用户年龄和/或用户性别从预设内容库中提取与所述用户年龄和/或用户性别相对应的内容数据,并根据提取出的内容数据生成所述多模态反馈信息。
根据本发明一个实施例,所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。
根据本发明一个实施例,在所述步骤二中,还获取虚拟机器人情感信息,并结合所述虚拟机器人情感信息以及虚拟机器人版权形象生成所述多模态反馈信息。
本发明还提供了一种基于虚拟机器人的人机交互装置,所述装置配置为将虚拟机器人的形象显示在预设显示区域中,所述装置包括:
输入信息获取模块,其用于获取多模态输入信息;
数据处理模块,其与所述输入信息获取模块连接,用于对所述多模态输入信息进行图像处理和/或音频处理,根据图像处理结果和/或音频处理结果判断当前用户是否为儿童用户,其中,如果当前用户为儿童用户,则对所述多模态输入信息进行意图识别,得到用户意图,根据当前交互场景信息所对应的知识产权内容和所述用户意图生成并输出相应的多模态反馈信息,其中,所述多模态反馈信息中的虚拟机器人版权形象与所述当前交互场景所对应的知识产权内容相关。
根据本发明一个实施例,所述数据处理模块配置为对获取到的用户语音信息进行音频处理,得到用户声纹数据,对获取到的用户图像进行人脸识别处理,得到用户人脸数据,对所述用户人脸数据和用户声纹数据进行特征匹配,判断所述当前用户是否为儿童用户。
根据本发明一个实施例,如果所述当前用户为儿童用户,所述数据处理模块则配置为根据所述用户人脸数据和/或用户声纹数据确定所述当前用户的用户年龄和/或用户性别,并生成与所述用户年龄和/或用户性别相对应的多模态反馈信息。
根据本发明一个实施例,所述数据处理模块配置为根据所述用户年龄和/或用户性别从预设内容库中提取与所述用户年龄和/或用户性别相对应的内容数据,并根据提取出的内容数据生成所述多模态反馈信息。
根据本发明一个实施例,所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。
根据本发明一个实施例,所述数据处理模块配置为还获取虚拟机器人情感信息,并结合所述虚拟机器人情感信息以及虚拟机器人版权形象生成所述多模态反馈信息。
本发明还提供了一种存储介质,所述存储介质上存储有可执行如上任一项所述的基于虚拟机器人的人机交互方法步骤的程序代码。
本发明所提供的基于虚拟机器人的人机交互方法,可以实现虚拟机器人在大IP场景中,通过多模态交互的方式,与用户进行互动,增强虚拟机器人与用户的情感联系,增加交互的趣味性,提升用户的交互兴趣,从而增多用户与虚拟机器人的交互次数,进而增强虚拟机器人的交互能力。
同时,该人机交互方法通过将虚拟机器人的版权形象与当前交互场景的知识产权内容相关联,可以使得虚拟机器人能够在周边产品推广、知识产权关联业务推广以及执行过程中得到应用,从而提高产品以及服务推广的效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:
图1是根据本发明一个实施例的基于虚拟机器人的人机交互场景示意图;
图2是根据本发明一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图;
图3是根据本发明一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图;
图4是根据本发明一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图;
图5是根据本发明一个实施例的基于虚拟机器人的人机交互装置的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本发明实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本发明可以不用这里的具体细节或者所描述的特定方式来实施。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明提供了一种新的基于虚拟机器人的人机交互方法,该人机交互方法能够通过显示相应的虚拟机器人版权形象来与用户进行人机交互。图1示出了本实施例中该方法的实现场景示意图。
如图1所示,本实施例中,该基于虚拟机器人的人机交互方法在实现过程中会使用到一用于显示虚拟机器人形象103的图像显示设备101。需要指出的是,在本发明的不同实施例中,上述图像显示设备101可以根据实际需要来采用不同的设备来实现,本发明不限于此。例如,在本发明的一个实施例中,上述图像显示设备101可以利用液晶显示器来显示虚拟机器人形象;而在本发明的另一个实施例中,上述图像显示设备101还可以利用全息投影仪来显示虚拟机器人形象103。
本实施例中,图像显示设备101所显示的虚拟机器人形象是与用户102以及当前交互场景所对应的知识产权内容相对应的。为了更加清楚地阐述本发明所提供的实现原理、实现过程以及有限,以下分别结合不同的实施例来对该基于虚拟机器人的人机交互方法作进一步地说明。
实施例一:
图2示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。
如图2所示,本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤S201中获取多模态输入信息。本实施例中,该方法在步骤S201中所获取到的多模态输入信息既可以包含关于用户的图像信息(即用户图像信息),也可以包含用户所输入的语音信息(即用户语音信息)。当然,在本发明的其它实施例中,根据实际情况,该方法在步骤S201中所获取到的多模态交互信息中还可以包含其它合理信息,本发明不限于此。
在获取到多模态输入信息后,该方法会在步骤S202中对上述多模态交互信息中所包含的用户图像信息和用户语音信息分别进行图像处理和音频处理,从而对应得到图像处理结果和音频处理结果。
该方法会在步骤S203中根据上述步骤S202中所得到的图像处理结果和音频处理结果来判断当前用户是否为儿童用户。具体地,本实施例中,该方法可以通过对多模态交互信息中所包含的用户图像信息进行图像处理来得到用户的人脸数据和/或用户的身高数据。
而通过对多模态交互信息中所包含的用户音频数据进行音频处理,该方法则可以得到用户的音频特征数据(例如声纹特征数据、音调特征数据、声长特征数据等)。在步骤S203中,该方法可以根据上述用户的人脸数据、用户的身高数据和/或用户的音频特征数据来判断当前用户是否为儿童用户。具体地,该方法在步骤S203中可以利用预先训练完成的人工神经网络来根据上述用户的人脸数据、用户的身高数据和/或用户的音频特征数据判断出当前用户的年龄区间,随后根据当前用户的年龄区间来判断当前用户是否为儿童用户。
当然,在本发明的其它实施例中,该方法在步骤S203中还可以采用其它合理的方式来根据步骤S202中所得到的图像处理结果和音频处理结果来确定当前用户是否为儿童用户,本发明不限于此。
同时,需要指出的是,在本发明的其它实施例中,根据实际情况,该方法在步骤S202中还可以仅对多模态交互信息中的图像信息或音频信息进行处理,并在步骤S203中根据步骤S202中所得到的图像处理结果或音频处理结果来确定当前用户是否为儿童用户。
如果当前用户为儿童用户,如图2所示,本实施例中,该方法会在步骤S204中对上述多模态交互信息进行意图识别,从而得到用户意图。意图在本发明一个实施例中,在步骤S204中可以通过提取文本信息中的关键词的方式来确定交互话题。而当用户所输入的交互输入信息为语音对话信息时,该方法可以首先将语音对话信息转换为相应的文本信息,再通过对文本信息进行解析来确定出交互话题。
在确定出交互话题后,该方法会利用预设意图图谱,根据所确定出的交互话题来确定出用户的意图。意图可以视为机器人以自身视角来尝试理解人机交互过程中,用户在某种主题或者话题下期望达到某种目的的打算。由于交互话题所涉及的内容较为广泛,因此该方法也就需要以意图图谱来挖掘和确定在后续人机交互过程中用户需要从机器人获取的信息(即机器人需要向用户反馈的信息)。
具体地,本实施例中,在根据交互话题来确定用户的意图时,该方法首先会在预设意图图谱中确定出上述交互话题所对应的节点,随后在预设意图图谱中确定出以上述交互话题所对应的节点为初始节点的连线所对应的节点(即终端节点),从而根据终端节点来确定出用户意图。
由于与初始节点所连接的节点可能存在多个,因此该方法所确定出的终端节点也就可能为多个。针对这种情况,本实施例中,该方法首先会根据与初始节点相连接的多个节点确定出多个候选意图,随后对这些候选意图进行置信度排序,并根据排序结果来确定出所需要的意图。
具体地,本实施例中,该方法根据预设意图图片中各个节点连线的权重来对这些候选意图进行排序,并选取权重最大的候选意图作为最终所需要的意图。
当然,在本发明的其它实施例中,该方法还可以采用其它合理方式来根据确定出用户意图,本发明不限于此。
在得到用户意图后,该方法将会在步骤S205中根据当前交互场景信息所对应的知识产权内容和用户意图来生成相应的多模态反馈信息并输出。本实施例中,该方法所生成的多模态反馈信息中包含有虚拟机器人版权形象,该虚拟机器人版权形象与当前交互场景所对应的知识产权内容相关。本实施例中,当前交互场景所对应的知识产权内容可以指交互场景中所设置的物体的版权形象,也可以指交互场景所处的场地的版权内容,抑或是其它与知识产权相关的内容,本发明不限于此。
例如,如果当前交互场景为关于乐迪的主体乐园,那么该方法在步骤S205中所生成的虚拟机器人的机器人版权形象将可以是乐迪的动画形象。同时,该方法在步骤S205中还可以在显示乐迪的动画形象的同时输出与乐迪相关的语音(例如关于乐迪的故事等)。
需要指出的是,本实施例中,根据实际需要,上述步骤S201至步骤S205既可以完全在设置于当前交互场景中的用于直接与用户进行交互的相关硬件设备来实现,也可以由上述用于直接与用户进行交互的相关硬件设备与云端服务器配合地实现,本发明不限于此。例如,当上述步骤需要由用于直接与用户进行交互的相关硬件设备与云端服务器配合地实现时,该方法可以将获取到的多模态输入信息传输至云端服务器,以由云端服务器通过执行上述步骤S202至步骤S205来生成多模态反馈信息,随后再将所生成的多模态反馈信息传输至用于直接与用户进行交互的相关硬件设备来进行输出。
同时,还需要指出的是,在本发明的不同实施例中,该方法在步骤S205中所生成并输出的多模态反馈信息既可以是包含虚拟机器人版权形象的动画,也可以是包含虚拟机器人版权形象的动画与相应语音信息(例如与该虚拟机器人版权形象相关的故事语音)的结合,抑或是包含虚拟机器人版权形象的动画与其它合理形式的信息的结合,本发明不限于此。
从上述描述中可以看出,本实施例所提供的基于虚拟机器人的人机交互方法使得所显示出的虚拟机器人的版权形象或者动作能够与当前交互场景的知识产权内容相对应,这样也就可以使得虚拟机器人能够更加地符合自身所处的交互场景,从而避免了因虚拟机器人的版权形象与当前交互场景冲突而影响人机交互体验。
实施例二:
图3示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。
如图3所示,本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤S301中获取多模态输入信息。需要指出的是,本实施例中,步骤S301的具体实现原理以及实现过程与上述步骤S201相同,故在此不再对步骤S301的相关内容进行赘述。
该方法会在步骤S302中对上述多模态输入信息中所包含的用户图像信息进行人脸识别处理,从而得到用户人脸数据。此外,该方法还会在步骤S303中对上述多模态输入信息中所包含的用户语音信息进行音频处理,从而得到用户声纹数据。
在步骤S304中,该方法会将上述用户人脸数据和用户声纹数据与预设儿童用户人脸数据和预设儿童用户声纹数据分别进行匹配,并根据匹配结果来判断当前用户是否为儿童用户。
其中,如果当前用户为儿童用户,该方法则会在步骤S305中对获取到的多模态输入信息进行意图识别,从而得到当前用户的用户意图。本实施例中,步骤S305的具体实现原理以及实现过程与上述实施例所公开的步骤S204的内容相同,故在此不再对步骤S305的相关内容进行赘述。
除了获取当前用户的用户意图外,该方法还会在步骤S306中根据用户人脸数据和/或用户声纹数据来确定当前用户的用户年龄和/或用户性别,随后再在步骤S307中根据当前交互场景所对应的知识产权内容和用户意图,来生成与用户年龄和/或用户性别相对应的多模态反馈信息。
具体地,本实施例中,在得到当前用户的用户年龄和用户性别后,该方法会在步骤S307中根据当前用户的用户年龄和用户性别来从预设内容库中提取出用户年龄和用户性别相对应的内容数据,并根据提取出的内容数据来结合当前交互场景所对应的知识产权内容和用户意图生成相应的多模态反馈信息。
本实施例所提供的基于虚拟机器人的人机交互方法在实施例一所提供的方法的基础上,通过结合当前用户的用户年龄和/或用户性别来生成多模态反馈信息,这不仅能够使得最终生成的多模态反馈信息更加精准地符合当前用户的交互预期,也能够有效吸引用户与虚拟机器人进行人机交互,从而提高了人机交互产品的用户吸引力以及用户使用粘度。
实施例三:
图4示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。
如图4所示,本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤S401中获取多模态输入信息,并在步骤S402中对上述多模态输入信息进行图像处理和/或音频处理,进而在步骤S403中根据上述图像处理结果和/或音频处理结果来判断当前用户是否为儿童用户。
其中,如果当前用户为儿童用户,该方法则会在步骤S404中进一步对步骤S401中所获取的多模态输入信息进行意图识别,从而得到当前用户的用户意图。
需要指出的是,本实施例中,步骤S401至步骤S404的具体实现原理以及实现过程与上述步骤S201至步骤S204相同,故在此不再对步骤S401至步骤S404的相关内容进行赘述。
在获取到当前用户的用户意图后,本实施例中,该方法还会在步骤S405中进一步获取虚拟机器人的情感信息,并在步骤S406中根据当前交互场景信息所对应的知识产权内容和用户意图,结合虚拟机器人情感信息以及虚拟机器人版权形象生成相应的多模态反馈信息。
具体地,本实施例中,该方法在步骤S405中优选地通过读取存储在相关存储器中的机器人情感信息数据来获取虚拟机器人的情感信息。当然,在本发明的其它实施例中,该方法还可以采用其它合理方式来获取虚拟机器人情感信息,本发明不限于此。
本发明还提供了一种存储介质,该存储介质上存储有可执行如上所述的基于虚拟机器人的人机交互方法步骤的程序代码。此外,本发明还提供了一种基于虚拟机器人的人机交互装置,图5示出了本实施例中该人机交互装置的结构示意图。
如图5所示,本实施例中,该基于虚拟机器人的人机交互装置优选地包括:输入信息获取模块501以及数据处理模块502。其中,根据实际需要,输入信息获取模块501可以采用不同的器件或设备来实现,以便能够获取不同类型的输入信息。
例如,如果需要获取图像信息,那么输入信息获取模块501则需要包括相应的图像采集设备(例如摄像头等);而如果需要获取语音信息,那么输入信息获取模块501则需要包括相应的语音采集设备(例如麦克风等);而如果需要获取文本信息,那么输入信息获取模块501则需要包括相应的文本采集设备(例如实体键盘或是虚拟键盘等)。
数据处理模块502与输入信息获取模501连接,其能对输入信息获取模块501所传输来的多模态输入信息进行解析,并根据解析结果来判断当前用户是否为儿童用户。具体地,本实施例中,数据处理模块502优选地包括云端服务器。输入信息获取模块501在获取到多模态输入信息后,会将上述多模态输入信息通过相关数据传输网络(例如以太网等)传输至云端服务器,以由云端服务器对上述多模态输入信息进行解析。
本实施例中,云端服务器优选地会对输入信息获取模块501传输来的多模态输入信息所包含的图像信息和音频信息对应地进行图像处理和音频处理,对应得到图像处理结果(例如用户人脸数据和/或用户身高数据等)和音频处理结果。例如,云端服务器通过对用户图像信息进行人脸识别处理可以得到当前用户的用户人脸数据,通过对用户音频信息进行处理可以得到当前用户的用户声纹数据。在得到当前用户的用户人脸数据和用户声纹数据后,云端服务器也就可以通过特征匹配的方式来将当前用户的用户人脸数据和用户声纹数据与预设儿童用户的用户人脸数据和用户声纹数据进行特征匹配,从而判断当前用户是否为儿童用户。
当判断出当前用户为儿童用户后,云端服务器还会对接收到的多模态输入信息进行意图识别,从而得到当前用户的用户意图。这样云端服务器也就可以根据当前交互场景信息所对应的知识产权内容和用户意图来生成相应的多模态反馈信息。其中,云端服务器所生成的多模态反馈信息中包含虚拟机器人版权形象,该虚拟机器人版权形象与当前交互场景所对应的知识产权内容相对应。
在生成上述多模态反馈信息后,云端服务器会将上述多模态反馈信息传输至设置在当前交互场景中的输出设备,以由该输出设备来将上述多模态反馈信息进行输出(例如显示虚拟机器人版权形象或输出与虚拟机器人版权形象相对应的语音等)。
需要指出的是,在本发明的不同实施例中,上述云端服务器实现其功能的具体原理以及过程既可以与上述实施例一中步骤S202至步骤S205所公开的内容相同,也可以与上述实施例二中步骤S302至步骤S307所公开的内容相同,还可以与上述实施例三中步骤S402至步骤S406所公开的内容相同,故在此不再对云端服务器的相关内容进行赘述。
当然,在本发明的其它实施例中,云端服务器的功能以及输出设备的功能还可以集成在一设置在当前交互场景中的某一设备中来实现,这样输入信息获取模块501也就无需将获取到的多模态输入信息上传至云端服务器,而可以改由在本地进行数据处理。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构或处理步骤,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然上述示例用于说明本发明在一个或多个应用中的原理,但对于本领域的技术人员来说,在不背离本发明的原理和思想的情况下,明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此,本发明由所附的权利要求书来限定。
Claims (13)
1.一种基于虚拟机器人的人机交互方法,其特征在于,启用虚拟机器人,将所述虚拟机器人的形象显示在预设显示区域中,所述方法包括:
步骤一、获取多模态输入信息;
步骤二、对所述多模态输入信息进行图像处理和/或音频处理,根据图像处理结果和/或音频处理结果判断当前用户是否为儿童用户,其中,如果当前用户为儿童用户,则对所述多模态输入信息进行意图识别,得到用户意图,根据当前交互场景信息所对应的知识产权内容和所述用户意图生成并输出相应的多模态反馈信息,其中,所述多模态反馈信息中的虚拟机器人版权形象与所述当前交互场景所对应的知识产权内容相关。
2.如权利要求1所述的方法,其特征在于,在所述步骤二中,对获取到的用户语音信息进行音频处理,得到用户声纹数据,对获取到的用户图像信息进行人脸识别处理,得到用户人脸数据,对所述用户人脸数据和用户声纹数据进行特征匹配,判断所述当前用户是否为儿童用户。
3.如权利要求2所述的方法,其特征在于,如果所述当前用户为儿童用户,则根据所述用户人脸数据和/或用户声纹数据确定所述当前用户的用户年龄和/或用户性别,并生成与所述用户年龄和/或用户性别相对应的多模态反馈信息。
4.如权利要求3所述的方法,其特征在于,在所述步骤二中,根据所述用户年龄和/或用户性别从预设内容库中提取与所述用户年龄和/或用户性别相对应的内容数据,并根据提取出的内容数据生成所述多模态反馈信息。
5.如权利要求1~4中任一项所述的方法,其特征在于,所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。
6.如权利要求1~5中任一项所述的方法,其特征在于,在所述步骤二中,还获取虚拟机器人情感信息,并结合所述虚拟机器人情感信息以及虚拟机器人版权形象生成所述多模态反馈信息。
7.一种基于虚拟机器人的人机交互装置,其特征在于,所述装置配置为将虚拟机器人的形象显示在预设显示区域中,所述装置包括:
输入信息获取模块,其用于获取多模态输入信息;
数据处理模块,其与所述输入信息获取模块连接,用于对所述多模态输入信息进行图像处理和/或音频处理,根据图像处理结果和/或音频处理结果判断当前用户是否为儿童用户,其中,如果当前用户为儿童用户,则对所述多模态输入信息进行意图识别,得到用户意图,根据当前交互场景信息所对应的知识产权内容和所述用户意图生成并输出相应的多模态反馈信息,其中,所述多模态反馈信息中的虚拟机器人版权形象与所述当前交互场景所对应的知识产权内容相关。
8.如权利要求7所述的装置,其特征在于,所述数据处理模块配置为对获取到的用户语音信息进行音频处理,得到用户声纹数据,对获取到的用户图像进行进行人脸识别处理,得到用户人脸数据,对所述用户人脸数据和用户声纹数据进行特征匹配,判断所述当前用户是否为儿童用户。
9.如权利要求8所述的装置,其特征在于,如果所述当前用户为儿童用户,所述数据处理模块则配置为根据所述用户人脸数据和/或用户声纹数据确定所述当前用户的用户年龄和/或用户性别,并生成与所述用户年龄和/或用户性别相对应的多模态反馈信息。
10.如权利要求9所述的装置,其特征在于,所述数据处理模块配置为根据所述用户年龄和/或用户性别从预设内容库中提取与所述用户年龄和/或用户性别相对应的内容数据,并根据提取出的内容数据生成所述多模态反馈信息。
11.如权利要求7~10中任一项所述的装置,其特征在于,所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。
12.如权利要求7~11中任一项所述的装置,其特征在于,所述数据处理模块配置为还获取虚拟机器人情感信息,并结合所述虚拟机器人情感信息以及虚拟机器人版权形象生成所述多模态反馈信息。
13.一种存储介质,其特征在于,所述存储介质上存储有可执行如权利要求1-6中任一项所述的方法步骤的程序代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710841023.9A CN107728780B (zh) | 2017-09-18 | 2017-09-18 | 一种基于虚拟机器人的人机交互方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710841023.9A CN107728780B (zh) | 2017-09-18 | 2017-09-18 | 一种基于虚拟机器人的人机交互方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107728780A true CN107728780A (zh) | 2018-02-23 |
CN107728780B CN107728780B (zh) | 2021-04-27 |
Family
ID=61207613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710841023.9A Active CN107728780B (zh) | 2017-09-18 | 2017-09-18 | 一种基于虚拟机器人的人机交互方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107728780B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108377422A (zh) * | 2018-02-24 | 2018-08-07 | 腾讯科技(深圳)有限公司 | 一种多媒体内容的播放控制方法、装置及存储介质 |
CN108563627A (zh) * | 2018-03-02 | 2018-09-21 | 北京云知声信息技术有限公司 | 启发式语音交互方法及装置 |
CN108596042A (zh) * | 2018-03-29 | 2018-09-28 | 青岛海尔智能技术研发有限公司 | 开门控制方法和系统 |
CN108806686A (zh) * | 2018-07-09 | 2018-11-13 | 广东小天才科技有限公司 | 一种语音搜题应用的启动控制方法及家教设备 |
CN108920539A (zh) * | 2018-06-12 | 2018-11-30 | 广东小天才科技有限公司 | 一种搜索问题答案的方法及家教机 |
CN109445579A (zh) * | 2018-10-16 | 2019-03-08 | 翟红鹰 | 基于区块链的虚拟形象交互方法、终端及可读存储介质 |
CN109459722A (zh) * | 2018-10-23 | 2019-03-12 | 同济大学 | 基于人脸追踪装置的语音交互方法 |
CN109710941A (zh) * | 2018-12-29 | 2019-05-03 | 上海点融信息科技有限责任公司 | 基于人工智能的用户意图识别方法和装置 |
CN109920422A (zh) * | 2019-03-15 | 2019-06-21 | 百度国际科技(深圳)有限公司 | 语音交互方法及装置、车载语音交互设备及存储介质 |
CN110221693A (zh) * | 2019-05-23 | 2019-09-10 | 南京双路智能科技有限公司 | 一种基于人机交互的智能零售终端操作系统 |
CN110675875A (zh) * | 2019-09-30 | 2020-01-10 | 苏州思必驰信息科技有限公司 | 智能语音对话技术电话体验方法和装置 |
CN110716634A (zh) * | 2019-08-28 | 2020-01-21 | 北京市商汤科技开发有限公司 | 交互方法、装置、设备以及显示设备 |
CN110728165A (zh) * | 2018-06-29 | 2020-01-24 | 南京芝兰人工智能技术研究院有限公司 | 一种儿童意图和情感分析的方法和系统 |
CN110871447A (zh) * | 2018-08-31 | 2020-03-10 | 比亚迪股份有限公司 | 车载机器人及其人机交互方法 |
CN110942769A (zh) * | 2018-09-20 | 2020-03-31 | 九阳股份有限公司 | 一种基于有向图的多轮对话应答系统 |
CN111026932A (zh) * | 2019-12-20 | 2020-04-17 | 北京百度网讯科技有限公司 | 人机对话交互方法、装置、电子设备和存储介质 |
CN111028472A (zh) * | 2019-12-17 | 2020-04-17 | 上海博泰悦臻电子设备制造有限公司 | 一种报警方法、装置及计算机存储介质 |
CN111273990A (zh) * | 2020-01-21 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息交互方法、装置、计算机设备和存储介质 |
CN111428666A (zh) * | 2020-03-31 | 2020-07-17 | 齐鲁工业大学 | 基于快速人脸检测的智能家庭陪伴机器人系统及方法 |
CN111737670A (zh) * | 2019-03-25 | 2020-10-02 | 广州汽车集团股份有限公司 | 多模态数据协同人机交互的方法、系统及车载多媒体装置 |
CN111966212A (zh) * | 2020-06-29 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 基于多模态的交互方法、装置、存储介质及智能屏设备 |
CN112099628A (zh) * | 2020-09-08 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于人工智能的vr互动方法、装置、计算机设备及介质 |
CN112562734A (zh) * | 2020-11-25 | 2021-03-26 | 中检启迪(北京)科技有限公司 | 一种基于语音检测的语音交互方法及其装置 |
CN113284404A (zh) * | 2021-04-26 | 2021-08-20 | 广州九舞数字科技有限公司 | 一种基于用户动作的电子沙盘展示方法及装置 |
CN113436625A (zh) * | 2021-06-25 | 2021-09-24 | 安徽淘云科技股份有限公司 | 一种人机交互方法及其相关设备 |
CN113656125A (zh) * | 2021-07-30 | 2021-11-16 | 阿波罗智联(北京)科技有限公司 | 一种虚拟助手生成的方法、装置及电子设备 |
CN115101048A (zh) * | 2022-08-24 | 2022-09-23 | 深圳市人马互动科技有限公司 | 科普信息交互方法、装置、系统、交互设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002278673A (ja) * | 2001-03-09 | 2002-09-27 | Samsung Electronics Co Ltd | バイオフィードバックを用いた情報入力システム及び情報入力方法 |
CN105843382A (zh) * | 2016-03-18 | 2016-08-10 | 北京光年无限科技有限公司 | 一种人机交互方法及装置 |
CN106663127A (zh) * | 2016-07-07 | 2017-05-10 | 深圳狗尾草智能科技有限公司 | 一种虚拟机器人的交互方法、系统及机器人 |
CN106991123A (zh) * | 2017-02-27 | 2017-07-28 | 北京光年无限科技有限公司 | 一种面向智能机器人的人机交互方法及装置 |
-
2017
- 2017-09-18 CN CN201710841023.9A patent/CN107728780B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002278673A (ja) * | 2001-03-09 | 2002-09-27 | Samsung Electronics Co Ltd | バイオフィードバックを用いた情報入力システム及び情報入力方法 |
CN105843382A (zh) * | 2016-03-18 | 2016-08-10 | 北京光年无限科技有限公司 | 一种人机交互方法及装置 |
CN106663127A (zh) * | 2016-07-07 | 2017-05-10 | 深圳狗尾草智能科技有限公司 | 一种虚拟机器人的交互方法、系统及机器人 |
CN106991123A (zh) * | 2017-02-27 | 2017-07-28 | 北京光年无限科技有限公司 | 一种面向智能机器人的人机交互方法及装置 |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108377422A (zh) * | 2018-02-24 | 2018-08-07 | 腾讯科技(深圳)有限公司 | 一种多媒体内容的播放控制方法、装置及存储介质 |
CN108377422B (zh) * | 2018-02-24 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种多媒体内容的播放控制方法、装置及存储介质 |
CN108563627A (zh) * | 2018-03-02 | 2018-09-21 | 北京云知声信息技术有限公司 | 启发式语音交互方法及装置 |
CN108563627B (zh) * | 2018-03-02 | 2021-09-03 | 云知声智能科技股份有限公司 | 启发式语音交互方法及装置 |
CN108596042A (zh) * | 2018-03-29 | 2018-09-28 | 青岛海尔智能技术研发有限公司 | 开门控制方法和系统 |
CN108920539A (zh) * | 2018-06-12 | 2018-11-30 | 广东小天才科技有限公司 | 一种搜索问题答案的方法及家教机 |
CN110728165A (zh) * | 2018-06-29 | 2020-01-24 | 南京芝兰人工智能技术研究院有限公司 | 一种儿童意图和情感分析的方法和系统 |
CN108806686A (zh) * | 2018-07-09 | 2018-11-13 | 广东小天才科技有限公司 | 一种语音搜题应用的启动控制方法及家教设备 |
CN110871447A (zh) * | 2018-08-31 | 2020-03-10 | 比亚迪股份有限公司 | 车载机器人及其人机交互方法 |
CN110942769A (zh) * | 2018-09-20 | 2020-03-31 | 九阳股份有限公司 | 一种基于有向图的多轮对话应答系统 |
CN109445579A (zh) * | 2018-10-16 | 2019-03-08 | 翟红鹰 | 基于区块链的虚拟形象交互方法、终端及可读存储介质 |
CN109459722A (zh) * | 2018-10-23 | 2019-03-12 | 同济大学 | 基于人脸追踪装置的语音交互方法 |
CN109710941A (zh) * | 2018-12-29 | 2019-05-03 | 上海点融信息科技有限责任公司 | 基于人工智能的用户意图识别方法和装置 |
CN109920422A (zh) * | 2019-03-15 | 2019-06-21 | 百度国际科技(深圳)有限公司 | 语音交互方法及装置、车载语音交互设备及存储介质 |
CN111737670A (zh) * | 2019-03-25 | 2020-10-02 | 广州汽车集团股份有限公司 | 多模态数据协同人机交互的方法、系统及车载多媒体装置 |
CN111737670B (zh) * | 2019-03-25 | 2023-08-18 | 广州汽车集团股份有限公司 | 多模态数据协同人机交互的方法、系统及车载多媒体装置 |
CN110221693A (zh) * | 2019-05-23 | 2019-09-10 | 南京双路智能科技有限公司 | 一种基于人机交互的智能零售终端操作系统 |
CN110716634A (zh) * | 2019-08-28 | 2020-01-21 | 北京市商汤科技开发有限公司 | 交互方法、装置、设备以及显示设备 |
CN110675875A (zh) * | 2019-09-30 | 2020-01-10 | 苏州思必驰信息科技有限公司 | 智能语音对话技术电话体验方法和装置 |
CN111028472A (zh) * | 2019-12-17 | 2020-04-17 | 上海博泰悦臻电子设备制造有限公司 | 一种报警方法、装置及计算机存储介质 |
CN111026932A (zh) * | 2019-12-20 | 2020-04-17 | 北京百度网讯科技有限公司 | 人机对话交互方法、装置、电子设备和存储介质 |
CN111026932B (zh) * | 2019-12-20 | 2023-05-26 | 北京百度网讯科技有限公司 | 人机对话交互方法、装置、电子设备和存储介质 |
CN111273990A (zh) * | 2020-01-21 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息交互方法、装置、计算机设备和存储介质 |
CN111428666A (zh) * | 2020-03-31 | 2020-07-17 | 齐鲁工业大学 | 基于快速人脸检测的智能家庭陪伴机器人系统及方法 |
CN111966212A (zh) * | 2020-06-29 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 基于多模态的交互方法、装置、存储介质及智能屏设备 |
CN112099628A (zh) * | 2020-09-08 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于人工智能的vr互动方法、装置、计算机设备及介质 |
CN112562734A (zh) * | 2020-11-25 | 2021-03-26 | 中检启迪(北京)科技有限公司 | 一种基于语音检测的语音交互方法及其装置 |
CN112562734B (zh) * | 2020-11-25 | 2021-08-27 | 中检启迪(北京)科技有限公司 | 一种基于语音检测的语音交互方法及其装置 |
CN113284404A (zh) * | 2021-04-26 | 2021-08-20 | 广州九舞数字科技有限公司 | 一种基于用户动作的电子沙盘展示方法及装置 |
CN113436625A (zh) * | 2021-06-25 | 2021-09-24 | 安徽淘云科技股份有限公司 | 一种人机交互方法及其相关设备 |
CN113656125A (zh) * | 2021-07-30 | 2021-11-16 | 阿波罗智联(北京)科技有限公司 | 一种虚拟助手生成的方法、装置及电子设备 |
CN115101048A (zh) * | 2022-08-24 | 2022-09-23 | 深圳市人马互动科技有限公司 | 科普信息交互方法、装置、系统、交互设备和存储介质 |
CN115101048B (zh) * | 2022-08-24 | 2022-11-11 | 深圳市人马互动科技有限公司 | 科普信息交互方法、装置、系统、交互设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107728780B (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107728780A (zh) | 一种基于虚拟机器人的人机交互方法及装置 | |
US11151765B2 (en) | Method and apparatus for generating information | |
US11436863B2 (en) | Method and apparatus for outputting data | |
CN109101545A (zh) | 基于人机交互的自然语言处理方法、装置、设备和介质 | |
CN107294837A (zh) | 采用虚拟机器人进行对话交互的方法和系统 | |
US20200005673A1 (en) | Method, apparatus, device and system for sign language translation | |
CN104735480B (zh) | 移动终端与电视之间的信息发送方法及系统 | |
CN107632706A (zh) | 多模态虚拟人的应用数据处理方法和系统 | |
CN106997243A (zh) | 基于智能机器人的演讲场景监控方法及装置 | |
CN111414506B (zh) | 基于人工智能情绪处理方法、装置、电子设备及存储介质 | |
CN107704612A (zh) | 用于智能机器人的对话交互方法及系统 | |
CN108491808B (zh) | 用于获取信息的方法及装置 | |
CN111292262B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
US20230080230A1 (en) | Method for generating federated learning model | |
CN110234018A (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN107808191A (zh) | 虚拟人多模态交互的输出方法和系统 | |
CN113792871A (zh) | 神经网络训练方法、目标识别方法、装置和电子设备 | |
CN113703585A (zh) | 交互方法、装置、电子设备及存储介质 | |
CN107862058A (zh) | 用于生成信息的方法和装置 | |
WO2020053172A1 (en) | Invoking chatbot in online communication session | |
CN107783650A (zh) | 一种基于虚拟机器人的人机交互方法及装置 | |
CN116881427B (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN113516972A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
CN112749556A (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231030 Address after: 100000 6198, Floor 6, Building 4, Yard 49, Badachu Road, Shijingshan District, Beijing Patentee after: Beijing Virtual Dynamic Technology Co.,Ltd. Address before: 100000 Fourth Floor Ivy League Youth Venture Studio No. 193, Yuquan Building, No. 3 Shijingshan Road, Shijingshan District, Beijing Patentee before: Beijing Guangnian Infinite Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |