CN113760100A - 一种带有虚拟形象生成、显示和控制功能的人机交互设备 - Google Patents
一种带有虚拟形象生成、显示和控制功能的人机交互设备 Download PDFInfo
- Publication number
- CN113760100A CN113760100A CN202111109333.4A CN202111109333A CN113760100A CN 113760100 A CN113760100 A CN 113760100A CN 202111109333 A CN202111109333 A CN 202111109333A CN 113760100 A CN113760100 A CN 113760100A
- Authority
- CN
- China
- Prior art keywords
- avatar
- display
- human
- voice
- virtual image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 46
- 230000006870 function Effects 0.000 title claims abstract description 38
- 230000008451 emotion Effects 0.000 claims abstract description 17
- 239000000463 material Substances 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 12
- 230000000981 bystander Effects 0.000 claims abstract description 6
- 230000014509 gene expression Effects 0.000 claims abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 19
- 230000002996 emotional effect Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 11
- 238000011217 control strategy Methods 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 230000003631 expected effect Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000001815 facial effect Effects 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000036651 mood Effects 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 1
- 230000004044 response Effects 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 8
- 230000002787 reinforcement Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000009529 body temperature measurement Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
- G06F3/1407—General aspects irrespective of display type, e.g. determination of decimal point position, display with fixed or driving decimal point, suppression of non-significant zeros
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及一种带有虚拟形象生成、显示和控制功能的人机交互设备,包括:视频摄像头,提取人脸、骨架、手势、人体运动,进而提取人脸朝向、表情和唇部的动作;立体声收音麦克风,从语音音频中提取人类语音和音源方向,并且通过语音音频结合视频图像中的唇部动作来判断语音音源;虚拟形象显示屏,用于显示图像;CPU,控制各技术特征协调工作;GPU,为显示信息进行转换驱动,控制显示器的正确显示;系统软件,包括操作系统、情绪特征数据库、内容和素材、AR和影音处理引擎;内存和存储器,用于存储数据;以及虚拟形象控制器,生成虚拟形象,并且形成调整策略,记录到内存和存储器中。虚拟形象控制器,排除环境中的旁观者,判断是否有多个操作者。
Description
技术领域
本发明涉及一种人机交互设备,特别是,涉及一种带有虚拟形象生成、显示和控制功能的人机交互设备。
背景技术
当目前的支持虚拟形象的人机交互设备一般由一个显示装置和生成软件组成,缺少对操作者的感知能力,不仅不感知操作者的位置和动作,更不感知操作者的情绪状态。
由于不感知操作者的位置、动作、姿势、语调语气、情绪等状态,因此无法按照操作者的状态,设置不同的响应策略,导致生成的虚拟形象都是预先录制或按预设脚本合成,千篇一律,环境的融入性较差,体验生硬。
缺少人工智能、神经网络,无法构建强化学习闭环,因此无法学习升级。
发明内容
本发明旨在于提供一种带有虚拟形象生成、显示和控制功能的人机交互设备,以解决如下技术问题:
1.实时生成虚拟形象的骨架、动作,偏转或平移虚拟形象、提高或降低语速、提高或降低音量等操作的响应速度都较快;
2.在网络不佳或离线状态下,虚拟形象依靠本地的计算资源也能很快完成一定精度的计算和策略选择工作,从而更好的满足实时响应的需求;以及
3.采用的人工智能和机器学习模型,构建完善的策略引擎和情绪特征数据库,实现并逐步强化人机交互设备的神经网络和机器深入学习。
为实现上述目的,本发明提供如下技术方案:一种带有虚拟形象生成、显示和控制功能的人机交互设备,包括:视频摄像头,生成视频图像,并且从视频图像中提取人脸、骨架、手势、人体运动,进而提取人脸朝向、表情和唇部的动作;立体声收音麦克风,生成语音音频,从语音音频中提取人类语音和音源方向,并且通过语音音频结合视频图像中的唇部动作来判断语音音源;虚拟形象显示屏,用于显示图像;CPU,控制各技术特征协调工作;GPU,为显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示;系统软件,包括操作系统、情绪特征数据库、内容和素材、AR和影音处理引擎;内存和存储器,用于存储数据;以及虚拟形象控制器,生成虚拟形象以显示在虚拟形象显示屏上,并且形成调整策略,记录到内存和存储器中,其中,虚拟形象控制器结合人脸朝向、语音音源对比分析后获得操作者的朝向、距离等位置信息,排除环境中的旁观者或走动的路人,同时判断是否有多个操作者共同操作。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括超声波距离传感器,超声波距离传感器识别操作者朝向、距离等位置信息,以获取操作者距离变动数据作为动作频率、摇摆抖动等信息提取的辅助数据。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括红外测温传感器,红外测温传感器获取操作者面部温度等信息,作为提取面部表情的辅助数据。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括网络通信模块,网络通信模块用于对外通信。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括蓄电电源,蓄电电源与公共电源连接,并在断电的情况下仍保持为设备供电预定的时间。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括与网络通信模块通信的云计算资源,云计算资源提供情绪特征数据库、控制策略引擎、数据清洗、数据采集、内容和素材等数据支持。
根据本发明的实施例,根据操作者的人数、距离和朝向信息,AR和影音处理引擎可计算虚拟形象的偏转和平移、结合预设的内容和素材,重新绘制虚拟形象的外形、衣着、动作和手势,重新合成虚拟形象的语音和背景音,由虚拟形象控制器按照相应的策略合成音视频输出流、在显示屏上展现姿势、朝向、视角、语音音量动态调整后的虚拟形象。
根据本发明的实施例,云计算资源可结合设备本地和云端的情绪特征数据库计算出操作者的情绪状态。
根据本发明的实施例,通过AR和影音处理引擎可构建虚拟形象的动作骨架,结合预设的内容和素材,重新绘制虚拟形象的外形、衣着、动作和手势,重新合成虚拟形象的语音和背景音,由虚拟形象控制器按照相应的策略合成音视频输出流、在显示屏上展现姿势、朝向、视角、语音音量动态调整后的虚拟形象。
根据本发明的实施例,在虚拟形象显示屏上显示虚拟形象控制器所生成的虚拟形象后,可继续收集操作者的朝向、距离、姿势、手势、动作、语音、语气和情绪等状态,并与云计算资源保持通信。
根据本发明的实施例,云计算资源可对虚拟形象控制器所采取的策略是否达到预期的效果进行评分,评价控制器选择的策略是否实现了适合操作者的效果。
根据本发明的实施例,云计算资源可对虚拟形象控制策略和预期效果的各项数据和评分采集后进行清洗,然后通过人工智能建模后,对云端虚拟形象控制策略引擎和情绪特征数据库可进行完善和丰富,系统本地内存中的虚拟形象控制器和情绪特征数据库也可以定时连接云端控制策略引擎和特征数据库,获得升级和更新。
与现有技术相比,本发明能够达到的有益效果是:
1.基于AR的影音处理引擎,依靠本地的素材,可以实时生成虚拟形象的骨架、动作,偏转或平移虚拟形象、提高或降低语速、提高或降低音量等操作的响应速度都较快;
2.本地有一定的人工智能计算和决策能力,在网络不佳或离线状态下,虚拟形象依靠本地的计算资源也能很快完成一定精度的计算和策略选择工作,从而更好的满足实时响应的需求;
3.嘈杂环境中识别出操作者,使得虚拟形象在展示中都始终面向操作者,并且通过感知操作者的情绪状态后做出合理的动态的响应,避免了冷冰冰的机械化的交互反馈,会给操作者带来更好的体验;
4.构建完善的策略引擎和情绪特征数据库采用的人工智能和机器学习模型主要包括:时间序列分析和预测、协同过滤、卷积神经网络和强化学习等;以及
5.在虚拟形象的交互过程中,基于人工智能、神经网络、强化学习顺序构建了采集数据、响应方式决策、响应结果数据采集、响应策略效果评估、响应决策方式优化的算法升级迭代闭环。
附图说明
图1为根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备的示意图。
图2为根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备的操作原理的示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
以下将结合附图,对本发明实施例作进一步说明。本领域技术人员应理解的是,本发明所描述的实施例仅是示范性实施例。
图1为根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备的示意图;且图2为根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备的操作原理的示意图。
参见图1和图2,根据本发明的实施例,提供一种带有虚拟形象生成、显示和控制功能的人机交互设备。根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备包括视频摄像头、立体声收音麦克风、虚拟形象显示屏、CPU、GPU、内存和存储器、系统软件和虚拟形象控制器,分述如下。
视频摄像头生成视频图像,并且从视频图像中提取人脸、骨架、手势、人体运动,进而提取人脸朝向、表情和唇部的动作。
立体声收音麦克风生成语音音频,从语音音频中提取人类语音和音源方向,并且通过语音音频结合视频图像中的唇部动作来判断语音音源。
通过语音音频结合视频图像中的唇部动作来判断语音音源可有效地屏蔽环境噪声和行为干扰。结合人脸朝向、语音音源对比分析后获得操作者的朝向、距离等位置信息,排除环境中的旁观者或走动的路人,同时判断是否有多个操作者共同操作。
虚拟形象显示屏为根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备的显示装置,用于显示图像。
CPU是根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备的处理器,用于控制各技术特征协调工作。
GPU是根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备的图形处理器,为显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示。
系统软件包括操作系统、情绪特征数据库、内容和素材、AR和影音处理引擎。通过AR和影音处理引擎计算虚拟形象的偏转和平移、结合预设的内容和素材,重新绘制虚拟形象的外形、衣着、动作和手势,重新合成虚拟形象的语音和背景音,由虚拟形象控制器按照相应的策略合成音视频输出流、在显示屏上展现姿势、朝向、视角、语音音量动态调整后的虚拟形象。
内存和存储器是根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备的存储元件,可用于存储数据,也可用于加载系统软件。
如图2所示,虚拟形象控制器生成虚拟形象以显示在虚拟形象显示屏上,并且形成调整策略,记录到内存和存储器中。虚拟形象控制器结合人脸朝向、语音音源对比分析后获得操作者的朝向、距离等位置信息,排除环境中的旁观者或走动的路人,同时判断是否有多个操作者共同操作。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括超声波距离传感器,超声波距离传感器可识别操作者朝向、距离等位置信息,以获取操作者距离变动数据作为动作频率、摇摆抖动等信息提取的辅助数据。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括红外测温传感器,红外测温传感器获取操作者面部温度等信息,作为提取面部表情的辅助数据。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括网络通信模块,网络通信模块用于对外通信。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括蓄电电源,蓄电电源与公共电源连接,并在断电的情况下仍保持为设备供电预定的时间。
根据本发明的实施例,带有虚拟形象生成、显示和控制功能的人机交互设备还可包括与网络通信模块通信的云计算资源,云计算资源提供情绪特征数据库、控制策略引擎、数据清洗、数据采集、内容和素材等数据支持。
云计算资源也称之为云端,在本文中可替换使用。为了描述上的方便,根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备除了云端的计算资源外的部分也称之为本地。
根据本发明的实施例,根据操作者的人数、距离和朝向信息,AR和影音处理引擎可计算虚拟形象的偏转和平移、结合预设的内容和素材,重新绘制虚拟形象的外形、衣着、动作和手势,重新合成虚拟形象的语音和背景音,由虚拟形象控制器按照相应的策略合成音视频输出流、在显示屏上展现姿势、朝向、视角、语音音量动态调整后的虚拟形象。
根据本发明的实施例,云计算资源可结合设备本地和云端的情绪特征数据库计算出操作者的情绪状态。
根据本发明的实施例,通过AR和影音处理引擎可构建虚拟形象的动作骨架,结合预设的内容和素材,重新绘制虚拟形象的外形、衣着、动作和手势,重新合成虚拟形象的语音和背景音,由虚拟形象控制器按照相应的策略合成音视频输出流、在显示屏上展现姿势、朝向、视角、语音音量动态调整后的虚拟形象。
根据本发明的实施例,在虚拟形象显示屏上显示虚拟形象控制器所生成的虚拟形象后,可继续收集操作者的朝向、距离、姿势、手势、动作、语音、语气和情绪等状态,并与云计算资源保持通信。
根据本发明的实施例,云计算资源可对虚拟形象控制器所采取的策略是否达到预期的效果进行评分,评价控制器选择的策略是否实现了适合操作者的效果。
根据本发明的实施例,云计算资源可对虚拟形象控制策略和预期效果的各项数据和评分采集后进行清洗,然后通过人工智能建模后,对云端虚拟形象控制策略引擎和情绪特征数据库可进行完善和丰富,系统本地内存中的虚拟形象控制器和情绪特征数据库也可以定时连接云端控制策略引擎和特征数据库,获得升级和更新。
根据本发明实施例的带有虚拟形象生成、显示和控制功能的人机交互设备利用音频、视频、红外等组件,基于机器学习和虚拟现实等技术,实现了一种能够实时识别操作者、排除旁观者的干扰,并采集分析操作者的表情、手势、动作、语语调等数据,动态生成、显示、控制虚拟形象展示生成的人机交互设备。该交互设备中的虚拟形象,对操作者的行为做出更智能、更人性化的反馈,改善了操作者的使用体验,提升操作者的满意度。
与现有技术相比,本发明能够达到的有益效果是:
1.基于AR的影音处理引擎,依靠本地的素材,可以实时生成虚拟形象的骨架、动作,偏转或平移虚拟形象、提高或降低语速、提高或降低音量等操作的响应速度都较快;
2.本地有一定的人工智能计算和决策能力,在网络不佳或离线状态下,虚拟形象依靠本地的计算资源也能很快完成一定精度的计算和策略选择工作,从而更好的满足实时响应的需求;
3.嘈杂环境中识别出操作者,使得虚拟形象在展示中都始终面向操作者,并且通过感知操作者的情绪状态后做出合理的动态的响应,避免了冷冰冰的机械化的交互反馈,会给操作者带来更好的体验;
4.构建完善的策略引擎和情绪特征数据库采用的人工智能和机器学习模型主要包括:时间序列分析和预测、协同过滤、卷积神经网络和强化学习等;以及
5.在虚拟形象的交互过程中,基于人工智能、神经网络、强化学习顺序构建了采集数据、响应方式决策、响应结果数据采集、响应策略效果评估、响应决策方式优化的算法升级迭代闭环。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (11)
1.一种带有虚拟形象生成、显示和控制功能的人机交互设备,包括:
视频摄像头,生成视频图像,并且从所述视频图像中提取人脸、骨架、手势、人体运动,进而提取人脸朝向、表情和唇部的动作;
立体声收音麦克风,生成语音音频,从语音音频中提取人类语音和音源方向,并且通过所述语音音频结合所述视频图像中的唇部动作来判断语音音源;
虚拟形象显示屏,用于显示图像;
CPU,控制各技术特征协调工作;
GPU,为显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示;
系统软件,包括操作系统、情绪特征数据库、内容和素材、AR和影音处理引擎;
内存和存储器,用于存储数据;以及
虚拟形象控制器,生成虚拟形象以显示在所述虚拟形象显示屏上,并且形成调整策略,记录到所述内存和存储器中,
其中,所述虚拟形象控制器结合人脸朝向、语音音源对比分析后获得操作者的朝向、距离等位置信息,排除环境中的旁观者或走动的路人,同时判断是否有多个操作者共同操作。
2.如权利要求1所述的带有虚拟形象生成、显示和控制功能的人机交互设备,还包括超声波距离传感器,所述超声波距离传感器识别操作者朝向、距离等位置信息,以获取操作者距离变动数据作为动作频率、摇摆抖动等信息提取的辅助数据。
3.如权利要求2所述的带有虚拟形象生成、显示和控制功能的人机交互设备,还包括红外测温传感器,所述红外测温传感器获取操作者面部温度等信息,作为提取面部表情的辅助数据。
4.如权利要求3所述的带有虚拟形象生成、显示和控制功能的人机交互设备,还包括网络通信模块,所述网络通信模块用于对外通信。
5.如权利要求1所述的带有虚拟形象生成、显示和控制功能的人机交互设备,还包括蓄电电源,所述蓄电电源与公共电源连接,并在断电的情况下仍保持为设备供电预定的时间。
6.如权利要求4所述的带有虚拟形象生成、显示和控制功能的人机交互设备,还包括与所述网络通信模块通信的云计算资源,所述云计算资源提供情绪特征数据库、控制策略引擎、数据清洗、数据采集、内容和素材等数据支持。
7.如权利要求6所述的带有虚拟形象生成、显示和控制功能的人机交互设备,其中,根据操作者的人数、距离和朝向信息,AR和影音处理引擎计算虚拟形象的偏转和平移、结合预设的内容和素材,重新绘制虚拟形象的外形、衣着、动作和手势,重新合成虚拟形象的语音和背景音,由虚拟形象控制器按照相应的策略合成音视频输出流、在显示屏上展现姿势、朝向、视角、语音音量动态调整后的虚拟形象;并且其中,通过AR和影音处理引擎构建虚拟形象的动作骨架,结合预设的内容和素材,重新绘制虚拟形象的外形、衣着、动作和手势,重新合成虚拟形象的语音和背景音,由虚拟形象控制器按照相应的策略合成音视频输出流、在显示屏上展现姿势、朝向、视角、语音音量动态调整后的虚拟形象。
8.如权利要求6所述的带有虚拟形象生成、显示和控制功能的人机交互设备,其中,所述云计算资源结合设备本地和云端的情绪特征数据库计算出操作者的情绪状态。
9.如权利要求6所述的带有虚拟形象生成、显示和控制功能的人机交互设备,其中,在所述虚拟形象显示屏上显示所述虚拟形象控制器所生成的虚拟形象后,继续收集操作者的朝向、距离、姿势、手势、动作、语音、语气和情绪等状态,并与所述云计算资源保持通信。
10.如权利要求9所述的带有虚拟形象生成、显示和控制功能的人机交互设备,其中,所述云计算资源对所述虚拟形象控制器所采取的策略是否达到预期的效果进行评分,评价控制器选择的策略是否实现了适合操作者的效果。
11.如权利要求10所述的带有虚拟形象生成、显示和控制功能的人机交互设备,其中,所述云计算资源对虚拟形象控制策略和预期效果的各项数据和评分采集后进行清洗,然后通过人工智能建模后,对云端虚拟形象控制策略引擎和情绪特征数据库进行完善和丰富,系统本地内存中的虚拟形象控制器和情绪特征数据库也可以定时连接云端控制策略引擎和特征数据库,获得升级和更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111109333.4A CN113760100B (zh) | 2021-09-22 | 2021-09-22 | 一种带有虚拟形象生成、显示和控制功能的人机交互设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111109333.4A CN113760100B (zh) | 2021-09-22 | 2021-09-22 | 一种带有虚拟形象生成、显示和控制功能的人机交互设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113760100A true CN113760100A (zh) | 2021-12-07 |
CN113760100B CN113760100B (zh) | 2024-02-02 |
Family
ID=78796782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111109333.4A Active CN113760100B (zh) | 2021-09-22 | 2021-09-22 | 一种带有虚拟形象生成、显示和控制功能的人机交互设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113760100B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360313A (zh) * | 2021-12-29 | 2022-04-15 | 南京财经大学 | 一种使用ar眼镜的辅助跨境电商实战教学方法和装置 |
CN114911381A (zh) * | 2022-04-15 | 2022-08-16 | 青岛海尔科技有限公司 | 交互的反馈方法和装置、存储介质及电子装置 |
CN117391822A (zh) * | 2023-12-11 | 2024-01-12 | 中汽传媒(天津)有限公司 | 一种汽车营销的vr虚拟现实数字展示方法及系统 |
CN117727303A (zh) * | 2024-02-08 | 2024-03-19 | 翌东寰球(深圳)数字科技有限公司 | 一种音视频的生成方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206095A1 (en) * | 2016-01-14 | 2017-07-20 | Samsung Electronics Co., Ltd. | Virtual agent |
KR102035596B1 (ko) * | 2018-05-25 | 2019-10-23 | 주식회사 데커드에이아이피 | 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법 |
CN110874137A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种交互方法以及装置 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
JP2020119334A (ja) * | 2019-01-24 | 2020-08-06 | 株式会社バンダイナムコエンターテインメント | プログラム、電子機器およびデータ記録方法 |
CN112044069A (zh) * | 2020-09-10 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 虚拟场景中的对象提示方法、装置、设备及存储介质 |
CN112465935A (zh) * | 2020-11-19 | 2021-03-09 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
CN113194348A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 |
CN113192161A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
-
2021
- 2021-09-22 CN CN202111109333.4A patent/CN113760100B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206095A1 (en) * | 2016-01-14 | 2017-07-20 | Samsung Electronics Co., Ltd. | Virtual agent |
KR102035596B1 (ko) * | 2018-05-25 | 2019-10-23 | 주식회사 데커드에이아이피 | 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법 |
CN110874137A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种交互方法以及装置 |
JP2020119334A (ja) * | 2019-01-24 | 2020-08-06 | 株式会社バンダイナムコエンターテインメント | プログラム、電子機器およびデータ記録方法 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
CN112044069A (zh) * | 2020-09-10 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 虚拟场景中的对象提示方法、装置、设备及存储介质 |
CN112465935A (zh) * | 2020-11-19 | 2021-03-09 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
CN113194348A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 |
CN113192161A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360313A (zh) * | 2021-12-29 | 2022-04-15 | 南京财经大学 | 一种使用ar眼镜的辅助跨境电商实战教学方法和装置 |
CN114911381A (zh) * | 2022-04-15 | 2022-08-16 | 青岛海尔科技有限公司 | 交互的反馈方法和装置、存储介质及电子装置 |
CN114911381B (zh) * | 2022-04-15 | 2023-06-16 | 青岛海尔科技有限公司 | 交互的反馈方法和装置、存储介质及电子装置 |
CN117391822A (zh) * | 2023-12-11 | 2024-01-12 | 中汽传媒(天津)有限公司 | 一种汽车营销的vr虚拟现实数字展示方法及系统 |
CN117391822B (zh) * | 2023-12-11 | 2024-03-15 | 中汽传媒(天津)有限公司 | 一种汽车营销的vr虚拟现实数字展示方法及系统 |
CN117727303A (zh) * | 2024-02-08 | 2024-03-19 | 翌东寰球(深圳)数字科技有限公司 | 一种音视频的生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113760100B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113760100A (zh) | 一种带有虚拟形象生成、显示和控制功能的人机交互设备 | |
US11858118B2 (en) | Robot, server, and human-machine interaction method | |
US11241789B2 (en) | Data processing method for care-giving robot and apparatus | |
WO2021043053A1 (zh) | 一种基于人工智能的动画形象驱动方法和相关装置 | |
WO2022148083A1 (zh) | 仿真3d数字人交互方法、装置、电子设备及存储介质 | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US11948241B2 (en) | Robot and method for operating same | |
CN106406512A (zh) | 基于人群的触觉 | |
US9467673B2 (en) | Method, system, and computer-readable memory for rhythm visualization | |
US11407106B2 (en) | Electronic device capable of moving and operating method thereof | |
CN110069707A (zh) | 一种人工智能自适应互动教学系统 | |
CN113436602A (zh) | 虚拟形象语音交互方法、装置、投影设备和计算机介质 | |
EP4144425A1 (en) | Behavior control device, behavior control method, and program | |
CN111444982A (zh) | 信息处理方法、装置、电子设备及可读存储介质 | |
CN109451356A (zh) | 一种智能移动机器人、自动点播方法、装置及芯片 | |
CN108762512A (zh) | 人机交互装置、方法及系统 | |
CN116572260A (zh) | 基于人工智能生成内容的情感交流陪护养老机器人系统 | |
CN110286771B (zh) | 交互方法、装置、智能机器人、电子设备及存储介质 | |
US11531394B2 (en) | Systems and methods for emotional-imaging composer | |
CN111399647A (zh) | 一种人工智能自适应互动教学系统 | |
CN112860064B (zh) | 一种基于ai技术的智能互动系统及设备 | |
Rach et al. | Emotion recognition based preference modelling in argumentative dialogue systems | |
JP2004280673A (ja) | 情報提供装置 | |
CN113099305A (zh) | 播放控制方法及装置 | |
CN108833949A (zh) | 用于儿童陪伴机器人的视频推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |