CN116860105A - 大屏虚拟对象互动方法及相关装置 - Google Patents
大屏虚拟对象互动方法及相关装置 Download PDFInfo
- Publication number
- CN116860105A CN116860105A CN202310582448.8A CN202310582448A CN116860105A CN 116860105 A CN116860105 A CN 116860105A CN 202310582448 A CN202310582448 A CN 202310582448A CN 116860105 A CN116860105 A CN 116860105A
- Authority
- CN
- China
- Prior art keywords
- information
- virtual object
- user
- interaction
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 171
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000002452 interceptive effect Effects 0.000 claims description 67
- 241000282414 Homo sapiens Species 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 29
- 230000009471 action Effects 0.000 claims description 27
- 230000014509 gene expression Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000004888 barrier function Effects 0.000 claims description 8
- 230000001953 sensory effect Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 27
- 238000013473 artificial intelligence Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006854 communication Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000036642 wellbeing Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了大屏虚拟对象互动方法及相关装置,应用于大屏终端设备,所述方法包括:检测目标区域是否符合虚拟对象的唤醒条件;当所述目标区域不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于静默模式;当所述目标区域符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于唤醒模式;当所述虚拟对象处于唤醒模式时,利用大屏终端设备接收用户的操作信息;基于所述操作信息,获取所述虚拟对象的互动信息;使用所述大屏终端设备播放所述虚拟对象的互动信息。本申请能够吸引用户利用大屏终端设备与虚拟对象进行互动,提升用户感官体验,提高互动效率,节约人力成本。
Description
技术领域
本申请涉及虚拟人、交互设计、人工智能的技术领域,尤其涉及大屏虚拟对象互动方法、大屏终端设备及计算机可读存储介质。
背景技术
虚拟对象包括虚拟人、虚拟动物、虚拟卡通形象等。其中,虚拟人是由CG技术构建、以代码形式运行的拟人化形象,具有语言交流、表情表达、动作展示等多种互动方式。虚拟人技术已经在人工智能领域迅速发展,并且在很多技术领域都得到了应用,例如影视、传媒、游戏、金融、文旅、教育、医疗等领域。
现有的大屏互动方法需要人工点击屏幕主动搜索信息,提供的交互方式有限,对用户的吸引力弱。
基于此,本申请提供大屏虚拟对象互动方法及相关装置,以改进相关技术。
发明内容
本申请的目的在于提供大屏虚拟对象互动方法、电子设备及计算机可读存储介质,吸引用户利用大屏终端设备与虚拟对象进行互动,提升用户感官体验,提高互动效率,节约人力成本。
本申请的目的采用以下技术方案实现:
第一方面,本申请提供了大屏虚拟对象互动方法,应用于大屏终端设备,所述方法包括:
检测目标区域是否符合虚拟对象的唤醒条件;
当所述目标区域不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于静默模式;
当所述目标区域符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于唤醒模式;
当所述虚拟对象处于唤醒模式时,利用大屏终端设备接收用户的操作信息;
基于所述操作信息,获取所述虚拟对象的互动信息;
使用所述大屏终端设备播放所述虚拟对象的互动信息。
该技术方案的有益效果在于:采用大屏终端设备作为虚拟对象的交互媒介,曝光度高,吸引用户与虚拟人进行互动,增强用户的感官体验;一方面,通过检测目标区域是否符合虚拟对象的唤醒条件,保证用户在接近大屏幕时,快速使得虚拟对象与用户建立互动,提高用户的参与度与互动性;而当目标区域不符合唤醒条件时,控制虚拟对象处于静默模式,减少不必要的资源浪费;另一方面,采用虚拟对象与用户互动,可以减少人力成本,并且可以实时、快速地响应用户的操作信息,提高互动效率;采用大屏虚拟对象互动方法,可以实现更加直观、生动、有趣的人机互动方式,从而提高互动服务效果,吸引用户体验,增加企业曝光度和知名度。
在一些可选的实施方式中,所述检测目标区域是否符合虚拟对象的唤醒条件,包括:
利用图像传感器采集所述目标区域的实时图像,根据所述实时图像检测所述目标区域是否存在所述用户;或者,
利用红外传感器采集得到红外数据,根据所述红外数据检测所述目标区域是否存在所述用户;或者,
利用麦克风采集得到音频信息,根据所述音频信息检测所述目标区域是否存在预设唤醒音频信息,当存在预设唤醒音频信息时,确认所述目标区域存在所述用户。
该技术方案的有益效果在于:采用多种传感器对目标区域从图像、声音等多方面进行检测,可以满足不同情境下对目标区域的不同检测需求,提高检测用户进而唤醒虚拟对象的准确性;另一方面,采用多种传感器进行多维度的检测手段,可以避免单一传感器可能出现的失灵或误判的情况,提高大屏终端设备进行虚拟对象互动功能的稳定性和可靠性。
在一些可选的实施方式中,所述方法还包括:
统计并保存所述用户和所述虚拟对象的互动记录,所述互动记录包括一个或多个所述操作信息、一个或多个所述互动信息和所述操作信息和所述互动信息的统计数据。
该技术方案的有益效果在于:通过统计、保存用户与虚拟对象的互动记录,可以对用户和虚拟对象互动记录的统计数据进行分析,了解用户的兴趣爱好、行为习惯等互动偏好信息,优化虚拟对象的互动服务,为用户提供个性化服务;另一方面可以便于用户记录或下载当前互动的互动信息。
在一些可选的实施方式中,所述基于所述操作信息,获取所述虚拟对象的互动信息,包括:
基于所述操作信息,获取所述虚拟对象的互动驱动模式,所述互动驱动模式包括问答库驱动模式和中之人驱动模式;
基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息。
该技术方案的有益效果在于:通过对用户的操作信息进行分析,采用虚拟对象的不同的互动驱动模式,以实现快速地响应用户的操作并提供准确地虚拟对象互动信息,提高用户的满意度和体验感;不同的互动驱动模式的可以适用于不同的互动场景,问答库驱动模式可以使得虚拟对象快速响应用户提出的基础性互动,中之人驱动模式可以使得虚拟对象响应突发或非基础性互动。
在一些可选的实施方式中,所述基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息,包括:
当所述互动驱动模式为问答库驱动模式时,基于所述操作信息从所述虚拟对象的问答库中匹配得到所述虚拟对象的所述互动信息;
当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据,所述驱动数据用于驱动所述虚拟对象的动作、表情、口型和语音中的一种或多种;
基于所述驱动数据,获取所述虚拟对象的互动信息。
该技术方案的有益效果在于:针对用户的不同的操作信息,通过匹配虚拟对象的问答库或者通过利用中之人配置的数据驱的方式获得虚拟对象的互动信息使得虚拟对象能够准确地服务用户的需求,增强沟通效率和准确率;基于所述操作信息从所述虚拟对象的问答库中匹配得到所述虚拟对象的所述互动信息,可以节约人力成本,将基础性互动预设于问答库中,不需要中之人干预就可以基于用户的操作信息匹配预设互动内容,节约服务成本;基于所述操作信息,获取中之人配置的驱动数据以获取所述虚拟对象的互动信息可以使得虚拟人服务突发情况,或者使得虚拟人为用户提供更加个性化和定制化的服务;并且,提高用户与虚拟人互动的流畅度和真实感,增强用户对虚拟对象的信任和好感。
在一些可选的实施方式中,所述当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据,包括:
当所述互动驱动模式为中之人驱动模式时,向所述中之人的终端设备发送提示信息和所述操作信息,以提示所述中之人配置所述驱动数据;
利用所述终端设备的音频采集组件采集所述中之人的语音信息,利用语音转文本模型获取所述语音信息对应的文本信息;
利用所述终端设备的图像采集组件采集所述中之人的实时图像,根据所述中之人的实时图像提取动作信息;
基于所述文本信息和所述动作信息,获取所述中之人配置的所述驱动数据。
该技术方案的有益效果在于:通过向中之人的终端设备发送提示信息和操作信息,能够及时提醒中之人做出反应并快速配置所需的驱动数据,进而提高虚拟对象对用户的响应速度;通过采集中之人的语音和实时图像等信息,利用语音转文本模型获取语音信息对应的文本信息,以及根据中之人的实时图像提取动作信息,可以更加精准地获取到中之人配置的驱动数据以准确响应用户的操作信息;提高用户对虚拟对象服务的满意度,增强用户的信任感和好感度。
在一些可选的实施方式中,所述大屏终端设备连接至运动模组,所述方法还包括:
获取所述目标环境的目标区域的障碍物信息和所述用户的第一位置信息;
检测所述用户是否移动;
当检测到所述用户移动时,获取所述用户移动后的第二位置信息;
基于所述障碍物信息、所述第一位置信息和所述第二位置信息,获取所述大屏终端设备的移动轨迹信息,以使所述大屏终端设备在移动过程中避开障碍物;
基于所述移动轨迹信息,控制所述运动模组跟随所述用户移动,以使所述大屏终端设备跟随所述用户移动。
该技术方案的有益效果在于:通过将大屏终端设备连接至运动模组,可以实现大屏终端设备的自适应移动,避免用户频繁移动时不方便与虚拟人互动的问题,同时,通过避开目标环境中的障碍物,能够保证移动过程的稳定性和流畅性,提高使用体;当大屏终端设备需要适应不同的环境场景时,通过获取当前环境的目标区域的障碍物信息和用户的位置信息用于路径规划,提高设备的适用性;通过实时检测用户是否移动,获取用户移动后的位置信息,并基于障碍物信息和用户移动前和移动后的位置信息生成移动轨迹信息,确保设备在移动过程中避开障碍物,保障用户和设备的安全性;通过控制运动模组跟随用户移动,并基于移动轨迹信息避开障碍物,实现了大屏终端设备的自适应运动,方便用户与虚拟人的移动类型的互动。
在一些可选的实施方式中,所述检测所述用户是否移动,包括:
使用摄像头采集所述目标区域的实时图像;
基于所述实时图像,检测所述用户是否移动。
该技术方案的有益效果在于:基于摄像头采集目标区域的实时图像,通过计算机视觉算法对用户状态进行检测,可以实现较高的检测精度和响应速度,提高了用户利用大屏终端设备与虚拟对象交互的效率和体验;采用摄像头作为检测方式以于扩展,可以适用并满足于不同环境和应用场景的需求。
第二方面,本申请提供了大屏终端设备,所述大屏终端设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤:
检测目标区域是否符合虚拟对象的唤醒条件;
当所述目标区域不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于静默模式;
当所述目标区域符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于唤醒模式;
当所述虚拟对象处于唤醒模式时,利用大屏终端设备接收用户的操作信息;
基于所述操作信息,获取所述虚拟对象的互动信息;
使用所述大屏终端设备播放所述虚拟对象的互动信息。
在一些可选的实施方式中,所述大屏终端设备还包括:
显示屏,所述显示屏用于播放所述虚拟对象的互动信息;
运动模组,所述运动模组用于跟随用户移动,以使所述大屏终端设备跟随所述用户移动。
在一些可选的实施方式中,所述大屏终端设备还包括图像传感器、红外传感器或麦克风,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式检测目标区域是否符合虚拟对象的唤醒条件:
利用图像传感器采集所述目标区域的实时图像,根据所述实时图像检测所述目标区域是否存在所述用户;或者,
利用红外传感器采集得到红外数据,根据所述红外数据检测所述目标区域是否存在所述用户;或者,
利用麦克风采集得到音频信息,根据所述音频信息检测所述目标区域是否存在预设唤醒音频信息,当存在预设唤醒音频信息时,确认所述目标区域存在所述用户。
在一些可选的实施方式中,所述至少一个处理器还被配置成执行所述计算机程序时实现以下步骤:
统计并保存所述用户和所述虚拟对象的互动记录,所述互动记录包括一个或多个所述操作信息、一个或多个所述互动信息和所述操作信息和所述互动信息的统计数据。
在一些可选的实施方式中,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式基于所述操作信息,获取所述虚拟对象的互动信息:
基于所述操作信息,获取所述虚拟对象的互动驱动模式,所述互动驱动模式包括问答库驱动模式和中之人驱动模式;
基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息。
在一些可选的实施方式中,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息:
当所述互动驱动模式为问答库驱动模式时,基于所述操作信息从所述虚拟对象的问答库中匹配得到所述虚拟对象的所述互动信息;
当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据,所述驱动数据用于驱动所述虚拟对象的动作、表情、口型和语音中的一种或多种;
基于所述驱动数据,获取所述虚拟对象的互动信息。
在一些可选的实施方式中,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据:
当所述互动驱动模式为中之人驱动模式时,向所述中之人的终端设备发送提示信息和所述操作信息,以提示所述中之人配置所述驱动数据;
利用所述终端设备的音频采集组件采集所述中之人的语音信息,利用语音转文本模型获取所述语音信息对应的文本信息;
利用所述终端设备的图像采集组件采集所述中之人的实时图像,根据所述中之人的实时图像提取动作信息;
基于所述文本信息和所述动作信息,获取所述中之人配置的所述驱动数据。
在一些可选的实施方式中,所述大屏终端设备连接至运动模组,所述至少一个处理器还被配置成执行所述计算机程序时实现以下步骤:
获取所述目标环境的目标区域的障碍物信息和所述用户的第一位置信息;
检测所述用户是否移动;
当检测到所述用户移动时,获取所述用户移动后的第二位置信息;
基于所述障碍物信息、所述第一位置信息和所述第二位置信息,获取所述大屏终端设备的移动轨迹信息,以使所述大屏终端设备在移动过程中避开障碍物;
基于所述移动轨迹信息,控制所述运动模组跟随所述用户移动,以使所述大屏终端设备跟随所述用户移动。
在一些可选的实施方式中,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式检测所述用户是否移动,包括:
使用摄像头采集所述目标区域的实时图像;
基于所述实时图像,检测所述用户是否移动。
第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现上述任一项所述方法的步骤或者实现上述任一项所述大屏终端设备的功能。
附图说明
下面结合附图和实施例对本申请进一步说明。
图1是本申请实施例提供的一种大屏虚拟对象互动方法的流程示意图;
图2是本申请实施例提供的一种大屏虚拟对象互动方法的部分流程示意图;
图3是本申请实施例提供的一种电子设备的结构示意图;
图4是本申请实施例提供的一种用于实现大屏虚拟对象互动方法的程序产品的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
在本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,a和b和c,其中a、b和c可以是单个,也可以是多个。值得注意的是,“至少一项(个)”还可以解释成“一项(个)或多项(个)”。
还需说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施方式或设计方案不应被解释为比其他实施方式或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
下面对本申请实施例技术领域和相关术语进行简单说明。
虚拟对象包括虚拟人、虚拟动物、虚拟卡通形象等。其中,虚拟人是由CG技术构建、以代码形式运行的拟人化形象,具有语言交流、表情表达、动作展示等多种互动方式。虚拟人技术已经在人工智能领域迅速发展,并且在很多技术领域都得到了应用,例如影视、传媒、游戏、金融、文旅、教育、医疗等领域,不仅可以定制化虚拟主持人、虚拟主播、虚拟偶像、虚拟客服、虚拟律师、虚拟金融顾问、虚拟老师、虚拟医生、虚拟讲解员、虚拟助手等,还可以通过文本或音频一键生成视频。在虚拟人中,服务型虚拟人的主要功能为替代真人服务和提供日常陪伴,是现实中服务型角色的虚拟化,其产业价值主要是降低已有服务型产业的成本,为存量市场降本增效。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。计算机程序可以在给定某种类别的任务T和性能度量P下学习经验E,如果其在任务T中的性能恰好可以用P度量,则随着经验E而提高。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
深度学习是一种特殊的机器学习,通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性,其中每个概念都定义为与简单概念相关联,而更为抽象的表示则以较不抽象的方式来计算。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
虚拟对象互动应用用于提供虚拟对象互动功能。虚拟对象互动应用可以模拟人类的交流和行为,并与用户进行互动。这种软件(指虚拟人互动应用)通常是由人工智能和自然语言处理技术驱动的,并且能够通过文本、语音、图像、表单等方式与用户进行交互。本申请实施例中,虚拟对象包括虚拟人、虚拟动物和虚拟卡通形象中的一种或多种。作为一个示例,虚拟对象为虚拟人“JING”(中文名:镜)。
在虚拟人技术中,“中之人”指的是通过动作捕捉、面部捕捉技术来演绎并完善虚拟人形象的人,可以实现虚拟人与现实的交互,让虚拟人能够自如地与真人互动。
(方法实施例)
参见图1,图1是本申请实施例提供的一种大屏虚拟对象互动方法的流程示意图。
本申请实施例提供了大屏虚拟对象互动方法,应用于大屏终端设备,所述方法包括:
步骤S101:检测目标区域是否符合虚拟对象的唤醒条件;
步骤S102:当所述目标区域不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于静默模式;
步骤S103:当所述目标区域符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于唤醒模式;
步骤S104:当所述虚拟对象处于唤醒模式时,利用大屏终端设备接收用户的操作信息;
步骤S105:基于所述操作信息,获取所述虚拟对象的互动信息;
步骤S106:使用所述大屏终端设备播放所述虚拟对象的互动信息。
由此,采用大屏终端设备作为虚拟对象的交互媒介,曝光度高,吸引用户与虚拟人进行互动,增强用户的感官体验;一方面,通过检测目标区域是否符合虚拟对象的唤醒条件,保证用户在接近大屏幕时,快速使得虚拟对象与用户建立互动,提高用户的参与度与互动性;而当目标区域不符合唤醒条件时,控制虚拟对象处于静默模式,减少不必要的资源浪费;另一方面,采用虚拟对象与用户互动,可以减少人力成本,并且可以实时、快速地响应用户的操作信息,提高互动效率;采用大屏虚拟对象互动方法,可以实现更加直观、生动、有趣的人机互动方式,从而提高互动服务效果,吸引用户体验,增加企业曝光度和知名度。
在一些可选的实施例中,用户利用大屏终端设备进行虚拟人互动的方法可以是利用大屏终端设备显示虚拟对象,用户通过设备固有或外接的摄像头、激光传感器、麦克风等传感器进行动作/手势互动、语音互动或者利用设备固有或外接的按键、触摸屏、键盘、鼠标等输入装置进行操作与虚拟对象进行交互;例如用户可以在具有或者外设有触摸屏的大屏终端设备上通过手指或者触控笔等方式点击、拖动、滑动屏幕来与虚拟人进行交互,虚拟对象可以根据用户的操作做出相应的反应;或者用户可以通过具有或者外设有麦克风的大屏终端设备进行语音输入,虚拟对象可以使用语音识别技术将用户的话语转化为文字,并作出相应的回答;或者用户可以在具有或者外设有摄像头等图像传感器的大屏终端设备的预设区域内做出特定的手势、动作、表情等,基于图像识别技术识别用户的手势、动作、表情等数据信息,虚拟对象根据识别出的数据信息做出相应的反应;或者
用户可以通过具有或者外设有虚拟现实设备的大屏终端设备与虚拟人进行互动。
在一些可选的实施例中,所述大屏终端设备例如可以是LED展示设备、OLED展示设备、全息设备、投影设备、透明展示柜、电视机、电脑、笔记本电脑、广告机、立式触摸一体机等;所述大屏终端设备应用于线下场景,例如可以是展厅、营业厅、展会、店铺、学校、政务大厅、律师事务所、医院、车站等。
所述目标区域是指所述大屏终端设备的配置人员设定的利用所述大屏终端设备具有的或者外设的摄像头、红外传感器或麦克风等装置拍摄、检测或监听的特定区域,所述目标区域可以根据场景需求由配置人员进行设定,或通过配置人员设置软件程序参数自动识别得到。
所述虚拟对象的唤醒条件例如可以是利用所述大屏终端设备具有的或者外设的摄像头检测到目标区域中用户的人脸图像;或者可以是利用所述大屏终端设备具有的或者外设的红外传感器检测到目标区域中有人停留超过固定时间(例如3秒、5秒);或者可以是利用麦克风检测到目标区域的预设唤醒语音信息(例如“你好”、“hello,xxx”、“虚拟对象的名字”等唤醒词或唤醒语句)。
所述静默模式可以是显示当前虚拟对象的画面,或者可以是播放当前虚拟对象的随机动作动画,或者可以是播放当前虚拟对象的预设视频(例如是当前虚拟对象的互动教程)等。
所述唤醒模式可以是显示正在获取用户操作的提示画面,例如可以是显示正在接收用户语音输入信息的检测动画或显示已接受到用户的语音输入信息的文字信息;例如可以是显示检测用户动作/手势/表情的输入信息的检测动画或显示已检测到的用户的动作/手势/表情的输入信息的图像信息;例如可以是显示正在接收用户文字输入信息的画面或显示已接收到的用户的文字输入信息。
所述用户的操作信息可以是利用所述大屏终端设备具有的或者外设的键盘、触控屏、鼠标等装置输入的文字信息;可以是利用所述大屏终端设备具有的或者外设的触控屏幕、按钮、键盘、鼠标接收的用户的选择信息;可以是利用所述大屏终端设备具有的或者外设的摄像头等图像传感器接收的用户的动作/手势/表情信息;可以是利用所述大屏终端设备具有的或者外设的麦克风的获取的用户的语音信息;可以是利用所述大屏终端设备具有的或者外设的虚拟现实设备接收的用户的操作信息等。
所述虚拟对象的互动信息可以是通过语音合成等技术生成的与用户进行自然对话的语音信息;可以是以对话框形式显示的文本信息;可以是预设的视频信息或图像信息,例如展示图片、视频、网页等(区域屏播放或全屏播放);所述虚拟对象的互动信息用于向用户提供问题解答、娱乐互动等,在一些可选的实施例中所述虚拟对象的互动信息可以用于业务问题讲解、聊天、提供订阅服务、互动自拍、抽奖活动等。
在一个具体的实施例中,利用大屏终端设备的摄像头检测设备前方1.5平方米的目标区域是否具有用户的人脸信息,当检测到用户A的人脸信息时,播放虚拟对象的预设问候视频并控制所述虚拟对象处于唤醒状态,利用大屏终端设备的麦克风接收用户A的语音信息“请问你们公司有没有优惠活动?”,通过语音识别技术识别将用户A的语音信息转化为文字信息进行处理和分析后,通过自然语言处理等技术播放虚拟对象的回答“您好,现在我们公司有针对某些商品的折扣活动,您可以在我们的官网上查看详细信息。您需要我帮您打开我们的官网吗?”,同时配合虚拟对象微笑的表情。
在一些可选的实施例中,当播放所述虚拟对象的互动信息时,检测到目标环境的语音信息中存在预设唤醒语音信息,中止当前正在播放的虚拟对象的互动信息后,接收用户当前的操作信息,基于用户当前的操作信息,重新获取所述虚拟对象的互动信息;当在预设的时间内(例如是5秒、10秒)没接收大到用户当前的操作信息,则继续播放所中止的虚拟对象的互动信息。
在一些可选的实施例中,当所述目标区域符合所述虚拟对象的唤醒条件时,播放所述虚拟对象的问候视频。
在一些可选的实施例中,当所述目标区域由符合所述虚拟对象的唤醒条件转变为不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象恢复静默状态。
在一些可选的实施例中,所述检测目标区域是否符合虚拟对象的唤醒条件,包括:
利用图像传感器采集所述目标区域的实时图像,根据所述实时图像检测所述目标区域是否存在所述用户;或者,
利用红外传感器采集得到红外数据,根据所述红外数据检测所述目标区域是否存在所述用户;或者,
利用麦克风采集得到音频信息,根据所述音频信息检测所述目标区域是否存在预设唤醒音频信息,当存在预设唤醒音频信息时,确认所述目标区域存在所述用户。
由此,采用多种传感器对目标区域从图像、声音等多方面进行检测,可以满足不同情境下对目标区域的不同检测需求,提高检测用户进而唤醒虚拟对象的准确性;另一方面,采用多种传感器进行多维度的检测手段,可以避免单一传感器可能出现的失灵或误判的情况,提高大屏终端设备进行虚拟对象互动功能的稳定性和可靠性。
在一具体的实施例中,商场中安装由具有摄像头、红外传感器和麦克风的立式屏幕(大屏终端设备)具有大屏虚拟购物助手(虚拟对象)互动功能,帮助顾客(用户)解答关于商品信息、价格、促销等方面的问题;虚拟购物助手的唤醒条件是在设备屏幕前方2平方米内的目标区域检测到用户人脸信息,当顾客走近购物助手所在区域,摄像头采集屏幕前方2平方米内的目标区域的实时图像,当利用图像识别技术检测用户的人脸信息时,确认检测到目标区域存在顾客(用户);或者虚拟购物助手的唤醒条件是检测到预设唤醒词“购物助手”,利用麦克风采集目标区域的语音音系,顾客面对设备说“你好,购物助手”,利用语音识别技术检测到预设唤醒词,确认检测到目标区域存在顾客(用户);或者虚拟购物助手的唤醒条件是利用红外传感器检测到有用户在设备前停留3秒,当利用红外传感器检测到顾客在设备前停留3秒时,确认检测到目标区域存在顾客(用户)。
在一些可选的实施例中,所述方法还包括:
统计并保存所述用户和所述虚拟对象的互动记录,所述互动记录包括一个或多个所述操作信息、一个或多个所述互动信息和所述操作信息和所述互动信息的统计数据。
由此,通过统计、保存用户与虚拟对象的互动记录,可以对用户和虚拟对象互动记录的统计数据进行分析,了解用户的兴趣爱好、行为习惯等互动偏好信息,优化虚拟对象的互动服务,为用户提供个性化服务;另一方面可以便于用户记录或下载当前互动的互动信息。
在一个具体的实施例中,一个大型商场中的美妆店铺设置了一台大屏终端设备,当顾客接近该屏幕时,图像传感器会检测到顾客的存在并将虚拟对象切换至唤醒状态,展示出美妆品牌的相关信息和宣传内容,如果顾客对这些信息感兴趣,他们可以通过触摸屏幕或语音进行操作,例如点击广告、咨询产品信息,基于顾客的操作信息和反馈,虚拟对象从问答库中获取相应的互动信息并呈现给用户;互动结束后,统计并保存用户与虚拟对象的互动内容和统计数据;基于虚拟对象收集到的互动内容和统计数据,对数据进行清洗和去重和标准化处理,使用深度学习等算法对处理后的数据进行分析和挖掘,以获使用该大屏终端设备的用户群体的兴趣爱好、消费倾向、购买能力、偏好价位等分析结果,根据分析结果,生成相应的用户群体画像,帮助美妆店铺了解用户群体的需求和偏好,从而利用大屏终端设备的虚拟对象向用户提供更精准、个性化的推荐服务。
参见图2,图2是本申请实施例提供的一种大屏虚拟对象互动方法的部分流程示意图。
在一些可选的实施例中,所述基于所述操作信息,获取所述虚拟对象的互动信息,包括:
基于所述操作信息,获取所述虚拟对象的互动驱动模式,所述互动驱动模式包括问答库驱动模式和中之人驱动模式;
基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息。
由此,通过对用户的操作信息进行分析,采用虚拟对象的不同的互动驱动模式,以实现快速地响应用户的操作并提供准确地虚拟对象互动信息,提高用户的满意度和体验感;不同的互动驱动模式的可以适用于不同的互动场景,问答库驱动模式可以使得虚拟对象快速响应用户提出的基础性互动,中之人驱动模式可以使得虚拟对象响应突发或非基础性互动。
在一些可选的实施例中,所述基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息,包括:
当所述互动驱动模式为问答库驱动模式时,基于所述操作信息从所述虚拟对象的问答库中匹配得到所述虚拟对象的所述互动信息;
当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据,所述驱动数据用于驱动所述虚拟对象的动作、表情、口型和语音中的一种或多种;
基于所述驱动数据,获取所述虚拟对象的互动信息。
由此,针对用户的不同的操作信息,通过匹配虚拟对象的问答库或者通过利用中之人配置的数据驱的方式获得虚拟对象的互动信息使得虚拟对象能够准确地服务用户的需求,增强沟通效率和准确率;基于所述操作信息从所述虚拟对象的问答库中匹配得到所述虚拟对象的所述互动信息,可以节约人力成本,将基础性互动预设于问答库中,不需要中之人干预就可以基于用户的操作信息匹配预设互动内容,节约服务成本;基于所述操作信息,获取中之人配置的驱动数据以获取所述虚拟对象的互动信息可以使得虚拟人服务突发情况,或者使得虚拟人为用户提供更加个性化和定制化的服务;并且,提高用户与虚拟人互动的流畅度和真实感,增强用户对虚拟对象的信任和好感。
所述驱动数据可以包括文字、音频、视频、图像等数据中的一种或多种。
在一些可选的实施例中,所述当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据,包括:
当所述互动驱动模式为中之人驱动模式时,向所述中之人的终端设备发送提示信息和所述操作信息,以提示所述中之人配置所述驱动数据;
利用所述终端设备的音频采集组件采集所述中之人的语音信息,利用语音转文本模型获取所述语音信息对应的文本信息;
利用所述终端设备的图像采集组件采集所述中之人的实时图像,根据所述中之人的实时图像提取动作信息;
基于所述文本信息和所述动作信息,获取所述中之人配置的所述驱动数据。
由此,通过向中之人的终端设备发送提示信息和操作信息,能够及时提醒中之人做出反应并快速配置所需的驱动数据,进而提高虚拟对象对用户的响应速度;通过采集中之人的语音和实时图像等信息,利用语音转文本模型获取语音信息对应的文本信息,以及根据中之人的实时图像提取动作信息,可以更加精准地获取到中之人配置的驱动数据以准确响应用户的操作信息;提高用户对虚拟对象服务的满意度,增强用户的信任感和好感度。
所述终端设备例如可以是手机、平板电脑、笔记本电脑、台式计算机、智能穿戴设备等具有显示屏和扬声器的智能终端设备,或者,终端设备可以是具有显示屏和扬声器的工作站或者控制台。显示屏可以是触控显示屏或者非触控显示屏。
所述图像采集组件例如可以是模拟工业相机的图像采集卡、摄像头、智能手机/电脑/无人机的嵌入式图像采集模块等,所述音频采集组件例如可以是麦克风、数字麦克风阵列、采样声卡、语音识别芯片等。
所述虚拟对象的问答库包括多个预设的虚拟对象的互动信息,例如互动视频、互动图片、互动音频等。通过获取用户的输入信息(操作信息),所述输入信息包括第一文本信息、语音信息和/或图像信息中的一种或多种;当所述输入信息包括所述第一文本信息时,提取所述第一文本信息的关键词,基于所述第一文本信息的关键词,从所述虚拟对象匹配的问答库中查找一个或多个与所述第一文本信息的关键词匹配的互动信息,使用所述终端设备播放一个或多个与所述第一文本信息的关键词匹配的互动信息;和/或当所述输入信息包括所述语音信息时,识别所述语音信息,将所述语音信息转换为第二文本信息,提取所述第二文本信息的关键词,基于所述第二文本信息的关键词,从所述问答库中查找一个或多个与所述第二文本信息的关键词匹配的互动信息,使用所述终端设备播放一个或多个与所述第二文本信息的关键词匹配的互动信息;和/或当所述输入信息包括所述图像信息时,识别所述图像信息,将所述图片信息转换为第三文本信息,提取所述第三文本信息的关键词,基于所述第三文本信息的关键词,从所述问答库中查找一个或多个与所述第三文本信息的关键词匹配的互动信息,使用所述终端设备播放一个或多个与所述第三文本信息的关键词匹配的互动信息;从所述虚拟对象匹配的问答库中,获取所述用户需求信息匹配的一个或多个所述推荐互动视频。
在一个具体实施例中,用户在售楼处利用大屏终端设备与虚拟置业顾问进行互动,当用户询问虚拟置业顾问“请介绍一下小区的环境和周边设施”,基于用户的语音提问,利用语音识别技术识别到“介绍、小区环境、周边设施”预设关键词,基于预设关键词判断所述虚拟职业顾问的问答库中包括相关互动视频,则获取虚拟职业顾问的互动驱动模式为问答库驱动模式,基于用户语音提问提取的关键词从虚拟置业顾问的问答库中匹配得到预先制作的介绍小区环境和周边设施的互动视频(互动信息),并使用所述大屏终端设备播放该互动视频;当用户询问虚拟置业顾问“请对1幢1108室进行报价”,基于用户的语音提问,利用语音识别技术识别到“报价”预设关键词,基于预设关键词判断所述虚拟职业顾问的问答库中不包括相关互动视频,则获取虚拟职业顾问的互动驱动模式为中之人驱动模式,向真人置业顾问(中之人)的手机(终端设备)发送提示信息和用户的提问内容,以提示真人置业顾问配置虚拟职业顾问的驱动数据与用户进行互动,利用真人置业顾问的手机采集真人置业顾问的语音信息“1幢1108室的报价在每平方米1.7-2万区间,具体精准单价您可以联系xxx,联系方式xxxxx,进行咨询”,利用语音转文本模型获取真人置业顾问的语音信息对应的文本信息;利用所述文本信息驱动虚拟置业顾问的口型,结合真实置业顾问为虚拟置业顾问所配置的动作,获得虚拟置业顾问的驱动数据,渲染得到虚拟置业顾问的图像信息以得到获取所述虚拟对象的互动信息,并使用所述大屏终端设备播放所述虚拟对象的互动信息。
在一些可选的实施例中,可以利用姿势捕捉系统,使用多个摄像头或传感器监测人体动作并将数据发送到计算机中以提取中之人的动作信息;或者利用穿戴在手上的传感手套监测中之人手部及手指的运动以提取中之人的动作信息;或者可以利用运动跟踪器追踪中之人的身体运动,包括头部、手臂、腿部等以提取中之人的动作信息。
在一些可选的实施例中,所述大屏终端设备连接至运动模组,所述方法还包括:
获取所述目标环境的目标区域的障碍物信息和所述用户的第一位置信息;
检测所述用户是否移动;
当检测到所述用户移动时,获取所述用户移动后的第二位置信息;
基于所述障碍物信息、所述第一位置信息和所述第二位置信息,获取所述大屏终端设备的移动轨迹信息,以使所述大屏终端设备在移动过程中避开障碍物;
基于所述移动轨迹信息,控制所述运动模组跟随所述用户移动,以使所述大屏终端设备跟随所述用户移动。
由此,通过将大屏终端设备连接至运动模组,可以实现大屏终端设备的自适应移动,避免用户频繁移动时不方便与虚拟人互动的问题,同时,通过避开目标环境中的障碍物,能够保证移动过程的稳定性和流畅性,提高使用体;当大屏终端设备需要适应不同的环境场景时,通过获取当前环境的目标区域的障碍物信息和用户的位置信息用于路径规划,提高设备的适用性;通过实时检测用户是否移动,获取用户移动后的位置信息,并基于障碍物信息和用户移动前和移动后的位置信息生成移动轨迹信息,确保设备在移动过程中避开障碍物,保障用户和设备的安全性;通过控制运动模组跟随用户移动,并基于移动轨迹信息避开障碍物,实现了大屏终端设备的自适应运动,方便用户与虚拟人的移动类型的互动。
在一些可选的实施例中,所述检测所述用户是否移动,包括:
使用摄像头采集所述目标区域的实时图像;
基于所述实时图像,检测所述用户是否移动。
由此,基于摄像头采集目标区域的实时图像,通过计算机视觉算法对用户状态进行检测,可以实现较高的检测精度和响应速度,提高了用户利用大屏终端设备与虚拟对象交互的效率和体验;采用摄像头作为检测方式以于扩展,可以适用并满足于不同环境和应用场景的需求。
在一个具体实施例中,博物馆设置大屏终端设备为用户讲解展品,并且大屏终端设备具有运动模组,可以跟随用户的位置对不同展品进行讲解;通过获取博物馆场馆内各个区域的障碍物信息,例如展示柜、桌子等,通过利用摄像头、激光雷达传感器或红外传感器获取房间内的三维空间信息,以及通过机器学习算法进行障碍物识别和分类,记录下某个位置处的物品是展示柜或桌子,并将其标记为障碍物;使用摄像头采集场馆内的实时图像,利用计算机视觉算法对实时图像进行分析,当检测到目标用户(原始位置为第一位置信息)移动时,获取目标用户移动后的第二位置信息,并且可以通过计算目标用户当前位置和移动轨迹,预测其下一个位置,并记录为第三位置信息;基于障碍物信息、第一位置信息、第二位置信息、第三位置信息,利用路径规划算法,计算出移动至目标用户所在位置的最短路径,并避开场馆内的各个障碍物,获得大屏终端设备的移动轨迹信息,控制运动组件移动并使得大屏终端设备移动至目标用户的所在位置进行讲解,并可以控制运动模组跟随用户移动,以使大屏终端设备能够跟随用户移动,例如,利用运动控制算法,根据目标用户的移动,不断调整运动组件的移动轨迹信息,以保持大屏终端与目标用户的相对位置不变。
在一些可选的实施例中,结合运动模组的大屏终端设备可以形成可移动的虚拟人对象,运动模组可以使得以大屏终端设备作为载体的虚拟对象进行自主的移动和互动,例如可以跟随用户进行行走或者在场景中进行巡游等。
在一些可选的实施例中,运动模组还可以搭载一些传感器,例如红外线传感器、超声波传感器等实现避障功能。
在一个具体的实施例中,一种大屏虚拟对象互动方法,应用于大屏终端设备,所述大屏终端设备连接至运动模组,所述方法包括:利用图像传感器采集所述目标区域的实时图像,根据所述实时图像检测所述目标区域是否存在所述用户;或者,利用红外传感器采集得到红外数据,根据所述红外数据检测所述目标区域是否存在所述用户;或者,利用麦克风采集得到音频信息,根据所述音频信息检测所述目标区域是否存在预设唤醒音频信息,当存在预设唤醒音频信息时,确认所述目标区域存在所述用户;当所述目标区域不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于静默模式;当所述目标区域符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于唤醒模式;当所述虚拟对象处于唤醒模式时,利用大屏终端设备接收用户的操作信息;基于所述操作信息,获取所述虚拟对象的互动驱动模式,所述互动驱动模式包括问答库驱动模式和中之人驱动模式;当所述互动驱动模式为问答库驱动模式时,基于所述操作信息从所述虚拟对象的问答库中匹配得到所述虚拟对象的所述互动信息;当所述互动驱动模式为中之人驱动模式时,向所述中之人的终端设备发送提示信息和所述操作信息,以提示所述中之人配置所述驱动数据;利用所述终端设备的音频采集组件采集所述中之人的语音信息,利用语音转文本模型获取所述语音信息对应的文本信息;利用所述终端设备的图像采集组件采集所述中之人的实时图像,根据所述中之人的实时图像提取动作信息;基于所述文本信息和所述动作信息,获取所述中之人配置的所述驱动数据;基于所述驱动数据,获取所述虚拟对象的互动信息;使用所述大屏终端设备播放所述虚拟对象的互动信息;统计并保存所述用户和所述虚拟对象的互动记录,所述互动记录包括一个或多个所述操作信息、一个或多个所述互动信息和所述操作信息和所述互动信息的统计数据;获取所述目标环境的目标区域的障碍物信息和所述用户的第一位置信息;使用摄像头采集所述目标区域的实时图像;基于所述实时图像,检测所述用户是否移动;当检测到所述用户移动时,获取所述用户移动后的第二位置信息;基于所述障碍物信息、所述第一位置信息和所述第二位置信息,获取所述大屏终端设备的移动轨迹信息,以使所述大屏终端设备在移动过程中避开障碍物;基于所述移动轨迹信息,控制所述运动模组跟随所述用户移动,以使所述大屏终端设备跟随所述用户移动。
(设备实施例)
本申请实施例提供了一种电子设备,其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致,部分内容不再赘述。
所述大屏终端设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤:
检测目标区域是否符合虚拟对象的唤醒条件;
当所述目标区域不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于静默模式;
当所述目标区域符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于唤醒模式;
当所述虚拟对象处于唤醒模式时,利用大屏终端设备接收用户的操作信息;
基于所述操作信息,获取所述虚拟对象的互动信息;
使用所述大屏终端设备播放所述虚拟对象的互动信息。
在一些可选的实施例中,所述大屏终端设备还包括:
显示屏,所述显示屏用于播放所述虚拟对象的互动信息;
运动模组,所述运动模组用于跟随用户移动,以使所述大屏终端设备跟随所述用户移动。
所述显示屏例如是OLED透明屏、LED透明屏、全息屏、液晶屏等。
所述运动模组例如可以包括驱动电机、控制器/编码器、传感器、机械结构等。
在一些可选的实施例中,所述大屏终端设备还包括图像传感器、红外传感器或麦克风,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式检测目标区域是否符合虚拟对象的唤醒条件:
利用图像传感器采集所述目标区域的实时图像,根据所述实时图像检测所述目标区域是否存在所述用户;或者,
利用红外传感器采集得到红外数据,根据所述红外数据检测所述目标区域是否存在所述用户;或者,
利用麦克风采集得到音频信息,根据所述音频信息检测所述目标区域是否存在预设唤醒音频信息,当存在预设唤醒音频信息时,确认所述目标区域存在所述用户。
在一些可选的实施例中,所述至少一个处理器还被配置成执行所述计算机程序时实现以下步骤:
统计并保存所述用户和所述虚拟对象的互动记录,所述互动记录包括一个或多个所述操作信息、一个或多个所述互动信息和所述操作信息和所述互动信息的统计数据。
在一些可选的实施例中,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式基于所述操作信息,获取所述虚拟对象的互动信息:
基于所述操作信息,获取所述虚拟对象的互动驱动模式,所述互动驱动模式包括问答库驱动模式和中之人驱动模式;
基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息。
在一些可选的实施例中,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息:
当所述互动驱动模式为问答库驱动模式时,基于所述操作信息从所述虚拟对象的问答库中匹配得到所述虚拟对象的所述互动信息;
当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据,所述驱动数据用于驱动所述虚拟对象的动作、表情、口型和语音中的一种或多种;
基于所述驱动数据,获取所述虚拟对象的互动信息。
在一些可选的实施例中,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据:
当所述互动驱动模式为中之人驱动模式时,向所述中之人的终端设备发送提示信息和所述操作信息,以提示所述中之人配置所述驱动数据;
利用所述终端设备的音频采集组件采集所述中之人的语音信息,利用语音转文本模型获取所述语音信息对应的文本信息;
利用所述终端设备的图像采集组件采集所述中之人的实时图像,根据所述中之人的实时图像提取动作信息;
基于所述文本信息和所述动作信息,获取所述中之人配置的所述驱动数据。
在一些可选的实施例中,所述大屏终端设备连接至运动模组,所述至少一个处理器还被配置成执行所述计算机程序时实现以下步骤:
获取所述目标环境的目标区域的障碍物信息和所述用户的第一位置信息;
检测所述用户是否移动;
当检测到所述用户移动时,获取所述用户移动后的第二位置信息;
基于所述障碍物信息、所述第一位置信息和所述第二位置信息,获取所述大屏终端设备的移动轨迹信息,以使所述大屏终端设备在移动过程中避开障碍物;
基于所述移动轨迹信息,控制所述运动模组跟随所述用户移动,以使所述大屏终端设备跟随所述用户移动。
在一些可选的实施例中,所述至少一个处理器被配置成执行所述计算机程序时采用以下方式检测所述用户是否移动,包括:
使用摄像头采集所述目标区域的实时图像;
基于所述实时图像,检测所述用户是否移动。
参见图3,图3示出了本申请实施例提供的一种电子设备的结构框图。
电子设备10例如可以包括至少一个存储器11、至少一个处理器12以及连接不同平台系统的总线13。
存储器11可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)111和/或高速缓存存储器112,还可以进一步包括只读存储器(ROM)113。
其中,存储器11还存储有计算机程序,计算机程序可以被处理器12执行,使得处理器12实现上述任一项方法的步骤。
存储器11还可以包括具有至少一个程序模块115的实用工具114,这样的程序模块115包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例的每一个或某种组合中可能包括网络环境的实现。
相应的,处理器12可以执行上述计算机程序,以及可以执行实用工具114。
处理器12可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
总线13可以为表示几类总线结构的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构的任意总线结构的局域总线。
电子设备10也可以与一个或多个外部设备例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该电子设备10交互的设备通信,和/或与使得该电子设备10能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口14进行。并且,电子设备10还可以通过网络适配器15与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器15可以通过总线13与电子设备10的其它模块通信。应当明白,尽管图中未示出,但在实际应用中可以结合电子设备10使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
(计算机可读存储介质)
本申请实施例还提供了一种计算机可读存储介质,其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致,部分内容不再赘述。
所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。
计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读存储介质还可以是任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
(计算机程序产品)
本申请实施例还提供了一种计算机程序产品,其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致,部分内容不再赘述。
本申请提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。
参见图4,图4是本申请实施例提供的一种计算机程序产品的结构示意图。
所述计算机程序产品用于实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。计算机程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的计算机程序产品不限于此,计算机程序产品可以采用一个或多个计算机可读介质的任意组合。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,已符合专利法所强调的功能增进及使用要件,本申请以上的说明书及说明书附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。
Claims (11)
1.一种大屏虚拟对象互动方法,其特征在于,应用于大屏终端设备,所述方法包括:
检测目标区域是否符合虚拟对象的唤醒条件;
当所述目标区域不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于静默模式;
当所述目标区域符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于唤醒模式;
当所述虚拟对象处于唤醒模式时,利用大屏终端设备接收用户的操作信息;
基于所述操作信息,获取所述虚拟对象的互动信息;
使用所述大屏终端设备播放所述虚拟对象的互动信息。
2.根据权利要求1所述的大屏虚拟对象互动方法,其特征在于,所述检测目标区域是否符合虚拟对象的唤醒条件,包括:
利用图像传感器采集所述目标区域的实时图像,根据所述实时图像检测所述目标区域是否存在所述用户;或者,
利用红外传感器采集得到红外数据,根据所述红外数据检测所述目标区域是否存在所述用户;或者,
利用麦克风采集得到音频信息,根据所述音频信息检测所述目标区域是否存在预设唤醒音频信息,当存在预设唤醒音频信息时,确认所述目标区域存在所述用户。
3.根据权利要求1所述的大屏虚拟对象互动方法,其特征在于,所述方法还包括:
统计并保存所述用户和所述虚拟对象的互动记录,所述互动记录包括一个或多个所述操作信息、一个或多个所述互动信息和所述操作信息和所述互动信息的统计数据。
4.根据权利要求1所述的大屏虚拟对象互动方法,其特征在于,所述基于所述操作信息,获取所述虚拟对象的互动信息,包括:
基于所述操作信息,获取所述虚拟对象的互动驱动模式,所述互动驱动模式包括问答库驱动模式和中之人驱动模式;
基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息。
5.根据权利要求4所述的大屏虚拟对象互动方法,其特征在于,所述基于所述操作信息和所述互动驱动模式,获取所述虚拟对象的所述互动信息,包括:
当所述互动驱动模式为问答库驱动模式时,基于所述操作信息从所述虚拟对象的问答库中匹配得到所述虚拟对象的所述互动信息;
当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据,所述驱动数据用于驱动所述虚拟对象的动作、表情、口型和语音中的一种或多种;
基于所述驱动数据,获取所述虚拟对象的互动信息。
6.根据权利要求5所述的大屏虚拟对象互动方法,其特征在于,所述当所述互动驱动模式为中之人驱动模式时,基于所述操作信息,获取中之人配置的驱动数据,包括:
当所述互动驱动模式为中之人驱动模式时,向所述中之人的终端设备发送提示信息和所述操作信息,以提示所述中之人配置所述驱动数据;
利用所述终端设备的音频采集组件采集所述中之人的语音信息,利用语音转文本模型获取所述语音信息对应的文本信息;
利用所述终端设备的图像采集组件采集所述中之人的实时图像,根据所述中之人的实时图像提取动作信息;
基于所述文本信息和所述动作信息,获取所述中之人配置的所述驱动数据。
7.根据权利要求1所述的大屏虚拟对象互动方法,其特征在于,所述大屏终端设备连接至运动模组,所述方法还包括:
获取所述目标环境的目标区域的障碍物信息和所述用户的第一位置信息;
检测所述用户是否移动;
当检测到所述用户移动时,获取所述用户移动后的第二位置信息;
基于所述障碍物信息、所述第一位置信息和所述第二位置信息,获取所述大屏终端设备的移动轨迹信息,以使所述大屏终端设备在移动过程中避开障碍物;
基于所述移动轨迹信息,控制所述运动模组跟随所述用户移动,以使所述大屏终端设备跟随所述用户移动。
8.根据权利要求7所述的大屏虚拟对象互动方法,其特征在于,所述检测所述用户是否移动,包括:
使用摄像头采集所述目标区域的实时图像;
基于所述实时图像,检测所述用户是否移动。
9.一种大屏终端设备,其特征在于,所述大屏终端设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤:
检测目标区域是否符合虚拟对象的唤醒条件;
当所述目标区域不符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于静默模式;
当所述目标区域符合所述虚拟对象的唤醒条件时,控制所述虚拟对象处于唤醒模式;
当所述虚拟对象处于唤醒模式时,利用大屏终端设备接收用户的操作信息;
基于所述操作信息,获取所述虚拟对象的互动信息;
使用所述大屏终端设备播放所述虚拟对象的互动信息。
10.根据权利要求9所述的大屏终端设备,其特征在于,所述大屏终端设备还包括:
显示屏,所述显示屏用于播放所述虚拟对象的互动信息;
运动模组,所述运动模组用于跟随用户移动,以使所述大屏终端设备跟随所述用户移动。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现权利要求1-8任一项所述方法的步骤或者实现权利要求9和10所述大屏终端设备的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310582448.8A CN116860105A (zh) | 2023-05-22 | 2023-05-22 | 大屏虚拟对象互动方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310582448.8A CN116860105A (zh) | 2023-05-22 | 2023-05-22 | 大屏虚拟对象互动方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116860105A true CN116860105A (zh) | 2023-10-10 |
Family
ID=88229275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310582448.8A Pending CN116860105A (zh) | 2023-05-22 | 2023-05-22 | 大屏虚拟对象互动方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860105A (zh) |
-
2023
- 2023-05-22 CN CN202310582448.8A patent/CN116860105A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taniguchi et al. | Survey on frontiers of language and robotics | |
Kachouie et al. | Socially assistive robots in elderly care: a mixed-method systematic literature review | |
US20190369742A1 (en) | System and method for simulating an interactive immersive reality on an electronic device | |
CN107300970A (zh) | 虚拟现实交互方法和装置 | |
CN110598576A (zh) | 一种手语交互方法、装置及计算机介质 | |
CN111448533A (zh) | 认知系统的通信模型 | |
Attamimi et al. | Learning word meanings and grammar for verbalization of daily life activities using multilayered multimodal latent Dirichlet allocation and Bayesian hidden Markov models | |
Rivas-Costa et al. | An accessible platform for people with disabilities | |
CN112424736A (zh) | 机器交互 | |
CN116684688A (zh) | 基于观众情绪的直播模式切换方法及相关装置 | |
CN116719462A (zh) | 互动管理装置、互动管理方法及相关装置 | |
Rozaliev et al. | Recognizing and analyzing emotional expressions in movements | |
Soliman et al. | Artificial intelligence powered Metaverse: analysis, challenges and future perspectives | |
CN116860105A (zh) | 大屏虚拟对象互动方法及相关装置 | |
Sparacino | Natural interaction in intelligent spaces: Designing for architecture and entertainment | |
Ahmad et al. | Towards a Low‐Cost Teacher Orchestration Using Ubiquitous Computing Devices for Detecting Student’s Engagement | |
Xiao et al. | Body movement analysis and recognition | |
Baek et al. | Implementation of a Virtual Assistant System Based on Deep Multi-modal Data Integration | |
Kasinathan et al. | Sign language translation system using convolutional neural networks approach | |
Kerdvibulvech | Recent multimodal communication methodologies in Phonology, Vision, and Touch | |
Dammak et al. | Real-time learner expressive gestures analysis using in EMASPEL framework | |
Lin et al. | Implementation of an eBook Reader System with the Features of Emotion Sensing and Robot Control | |
Nijholt | Multimodality and ambient intelligence | |
Demircioğlu Kam et al. | A New Data Collection Interface for Dynamic Sign Language Recognition with Leap Motion Sensor | |
Kruppa | Migrating characters: effective user guidance in instrumented environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |