CN117648027A - 虚拟人交互方法、装置、电子设备和介质 - Google Patents
虚拟人交互方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN117648027A CN117648027A CN202211695705.0A CN202211695705A CN117648027A CN 117648027 A CN117648027 A CN 117648027A CN 202211695705 A CN202211695705 A CN 202211695705A CN 117648027 A CN117648027 A CN 117648027A
- Authority
- CN
- China
- Prior art keywords
- target
- virtual person
- preset
- determining
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000003993 interaction Effects 0.000 title claims abstract description 58
- 210000005252 bulbus oculi Anatomy 0.000 claims abstract description 53
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 210000001508 eye Anatomy 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及一种虚拟人交互方法、装置、电子设备和介质,包括:通过获取目标用户相对于智能设备的空间位置参数;根据空间位置参数,在多个预设范围内确定目标预设范围;确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像,其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度;针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人在目标坐标系中的视线参数,其中,目标坐标系是根据智能设备的显示界面进行构建的;根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。采用该方法能够使得目标用户与虚拟人进行交流互动时自动面向用户,实现与用户的眼神交流互动。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种虚拟人交互方法、装置、电子设备和介质。
背景技术
虚拟人是指具有数字化外形的虚拟数字人物,主要通过智能设备如智能手机、智能电视或者是电脑呈现给用户,并且能够通过识别用户语音,获取用户的语义,进而利用虚拟人实现与用户之间的对话交流互动。目前,虚拟人与用户在交流互动过程中,仅仅进行对话交流,无法实现虚拟人自动面向用户,实现与用户的眼神交流互动。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明提供了一种虚拟人交互方法、装置、电子设备和介质,能够考虑目标用户相对于智能设备的空间位置参数,并通过与目标用户相对应的目标虚拟人的预设角度,在以智能设备的显示界面进行构建的目标坐标系中,确定目标虚拟人眼球的视线参数,进而利用该视线参数调整目标虚拟人眼球的至少一个初始关键点坐标,以此使得目标用户在与虚拟人进行交流互动时,虚拟人能够自动面向用户,实现与用户的眼神交流互动,提升用户的体验。
为了实现上述目的,本发明实施例提供的技术方案如下:
第一方面,提供一种虚拟人交互方法,包括:获取目标用户相对于智能设备的空间位置参数;
根据所述空间位置参数,在多个预设范围内确定目标预设范围;
确定所述目标预设范围对应的虚拟人图像为所述目标用户对应的目标虚拟人图像,其中,所述目标虚拟人图像中包含的目标虚拟人对应一个预设角度;
针对所述目标虚拟人,根据所述空间位置参数和所述预设角度,获取所述目标虚拟人在目标坐标系中的视线参数,其中,所述目标坐标系是根据所述智能设备的显示界面进行构建的;
根据所述视线参数、以及所述目标虚拟人眼球在所述目标坐标系中的至少一个初始关键点坐标,确定所述目标虚拟人的视线方向。
作为本发明实施例一种可选的实施方式,所述获取目标用户相对于智能设备的空间位置参数,包括:
确定所述目标用户所处的预设环境;
获取所述目标用户在所述预设环境下相对于智能设备的空间位置参数。
作为本发明实施例一种可选的实施方式,所述预设环境包括第一预设环境,所述第一预设环境不包含嘈杂噪声;
所述根据所述预设环境,获取所述目标用户在所述预设环境下相对于智能设备的空间位置参数,包括:
根据麦克风矩阵,获取所述目标用户在所述第一预设环境下相对于智能设备的方位角以及俯仰角。
作为本发明实施例一种可选的实施方式,所述预设环境还包括第二预设环境,所述第二预设环境包含嘈杂噪声;
所述根据所述预设环境,获取所述目标用户在所述预设环境下相对于智能设备的空间位置参数,包括:
通过摄像头采集相对于智能设备的目标图像;
在确定所述目标图像中包含多个用户时,在多个用户中确定所述目标用户;
当确定所述目标用户之后,根据所述目标用户眼球对应的至少一个关键点在所述目标坐标系中的投影坐标,获取所述目标用户在所述第二预设环境下相对于智能设备的方位角。
作为本发明实施例一种可选的实施方式,所述在多个用户中确定所述目标用户,包括;
在每个所述用户嘴部包含的多个关键点中,确定多个第一关键点坐标;
根据各个用户嘴部对应的多个第一关键点坐标以及预设阈值,在多个用户中确定目标用户。
作为本发明实施例一种可选的实施方式,所述视线参数包括目标虚拟人眼球的关键点坐标在所述目标坐标系中对应的横轴差值和纵轴差值;
针对所述目标虚拟人,根据所述空间位置参数和所述预设角度,获取所述目标虚拟人在目标坐标系中的视线参数,包括:
针对所述目标虚拟人的眼球,获取所述眼球对应的第一参数以及第二参数;
根据所述第一参数、方位角以及所述预设角度,确定所述横轴差值;
根据所述第二参数以及俯仰角,确定所述纵轴差值。
作为本发明实施例一种可选的实施方式,所述根据所述视线参数、以及所述目标虚拟人眼球在所述目标坐标系中的至少一个初始关键点坐标,确定所述目标虚拟人的视线方向,包括:
根据所述视线参数、以及每个所述初始关键点坐标,确定每个所述初始关键点对应的目标关键点坐标;
对所述目标虚拟人进行三角剖分处理,得到所述目标虚拟人对应的多个三角形;
根据至少一个所述初始关键点坐标、至少一个所述目标关键点坐标以及多个所述三角形,确定所述目标虚拟人的视线方向。
第二方面,提供一种虚拟人交互装置,包括:
空间位置参数获取模块,用于获取目标用户相对于智能设备的空间位置参数;
目标预设范围确定模块,用于根据所述空间位置参数,在多个预设范围内确定目标预设范围;
目标虚拟人图像确定模块,用于确定所述目标预设范围对应的虚拟人图像为所述目标用户对应的目标虚拟人图像,其中,所述目标虚拟人图像中包含的目标虚拟人对应一个预设角度;
视线参数获取模块,用于针对所述目标虚拟人,根据所述空间位置参数和所述预设角度,获取所述目标虚拟人在目标坐标系中的视线参数,其中,所述目标坐标系是根据所述智能设备的显示界面进行构建的;
视线方向确定模块,用于根据所述视线参数、以及所述目标虚拟人眼球在所述目标坐标系中的至少一个初始关键点坐标,确定所述目标虚拟人的视线方向。
第三方面,本发明提供了一种电子设备,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所示的虚拟人交互方法。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所示的虚拟人交互生成方法。
本发明实施例提供的虚拟人交互方法、装置、电子设备和介质,通过获取目标用户相对于智能设备的空间位置参数;根据空间位置参数,在多个预设范围内确定目标预设范围;确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像,其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度;针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人在目标坐标系中的视线参数,其中,目标坐标系是根据智能设备的显示界面进行构建的;根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。在上述过程中,能够考虑目标用户相对于智能设备的空间位置参数,并通过与目标用户相对应的目标虚拟人的预设角度,在以智能设备的显示界面进行构建的目标坐标系中,确定目标虚拟人眼球的视线参数,进而利用该视线参数调整目标虚拟人眼球的至少一个初始关键点坐标,以此使得目标用户在与虚拟人进行交流互动时,虚拟人能够自动面向用户,实现与用户的眼神交流互动,提升用户的体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的一种虚拟人与用户进行交互的显示界面示意图;
图2为根据本公开一个或多个实施例的电子设备的软件配置示意图;
图3A为本公开实施例提供的一种虚拟人交互方法的流程示意图;
图3B为本公开实施例提供的目标用户对应的空间位置参数即方位角的示意图;
图3C为本实施例中提供的目标用户对应的空间位置参数即俯仰角的示意图;
图3D为本公开实施例提供的另一种虚拟人交互方法的流程示意图;
图3E为本公开实施例提供的再一种虚拟人交互方法的流程示意图;
图3F为本公开实施例提供的又一种虚拟人交互方法的流程示意图;
图3G为本公开实施例提供的每个用户嘴部对应的多个第一关键点的示意图;
图3H为本公开实施例提供的目标用户眼球对应的一个关键点在目标目标坐标系上的投影坐标的示意图;
图4A为本公开实施例提供的又一种虚拟人交互方法的流程示意图;
图4B为本公开实施例提供的根据目标虚拟人的眼眶构建的椭圆形的示意图;
图5A为本公开实施例提供的又一种虚拟人交互方法的流程示意图;
图5B为本公开实施例提供的对目标虚拟人进行三角剖分处理的示意图;
图6为本公开实施例提供的一种虚拟人交互装置的结构示意图;
图7是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将对本发明的方案进行进一步描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但本发明还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本发明的一部分实施例,而不是全部的实施例。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
图1为现有技术中的一种虚拟人与用户进行交互的显示界面示意图,如图1所示,当用户使用智能设备例如智能电视和虚拟人进行交互时,在显示界面101中,虚拟人11仅仅能够面向正前方,根据智能系统识别到的当前用户的语音进行分析确定用户的语义信息,从而和用户进行对话交流。
又或者是,当虚拟人与用户进行交流互动时,虚拟人随机转动身体和头部,在显示界面中,并根据智能系统识别到的当前用户的语音进行分析,以此确定用户的语义信息,从而和用户进行对话交流。
然而,采用上述方式,虚拟人与用户进行对话交流互动过程中,虚拟人无法自动面向用户,实现与用户的眼神交流互动,导致用户与虚拟人交互过程中的真实感较低,降低用户的体验。
为了解决上述问题,本公开实施例提出了一种虚拟人交互方法,通过获取目标用户相对于智能设备的空间位置参数;根据空间位置参数,在多个预设范围内确定目标预设范围;确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像,其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度;针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人在目标坐标系中的视线参数,其中,目标坐标系是根据智能设备的显示界面进行构建的;根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。在上述过程中,能够考虑目标用户相对于智能设备的空间位置参数,并通过与目标用户相对应的目标虚拟人的预设角度,在以智能设备的显示界面进行构建的目标坐标系中,确定目标虚拟人眼球的视线参数,进而利用该视线参数调整目标虚拟人眼球的至少一个初始关键点坐标,以此使得目标用户在与虚拟人进行交流互动时,虚拟人能够自动面向用户,实现与用户的眼神交流互动,提升用户的体验。
本公开实施例提供的虚拟人交互模型训练方法和虚拟人交互方法,可以基于电子设备,或者电子设备中的功能模块或者功能实体实现。
其中,电子设备可以为智能电视、个人计算机(personal computer,PC)、服务器、手机、平板电脑、笔记本电脑、大型计算机等,本公开实施例对此不作具体限定。
示例性的,图2为根据本公开一个或多个实施例的电子设备的软件配置示意图,如图2所示,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Androidruntime)和系统库层(简称“系统运行库层”),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在具体实施时,应用程序层中的应用程序包不限于以上举例。
框架层为应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
本申请实施例提供的虚拟人交互方法可以基于上述电子设备实现。
为了更加详细的说明本方案,以下将以示例性的方式结合图3A进行说明,可以理解的是,图3A中所涉及的步骤在实际实现时可以包括更多的步骤,或者更少的步骤,并且这些步骤之间的顺序也可以不同,以能够实现本申请实施例中提供的虚拟人交互方法为准。
图3A为本公开实施例提供的一种虚拟人交互方法的流程示意图。本实施例方法由应用于智能设备的虚拟人交互装置来执行,该装置可采用硬件/或软件的方式来实现。如图3A所示,该虚拟人交互方法具体包括如下步骤:
S31,获取目标用户相对于智能设备的空间位置参数。
其中,空间位置参数是指当前目标用户使用智能设备如智能电视与虚拟人进行交流互动时,相对于智能设备的位置,空间位置参数例如可以是方位角、俯仰角,示例性的,参考图3B-图3C所示,以智能设备如智能电视的显示屏幕102的中心作为原点,建立目标坐标系,以目标用户的眼球与垂直于纵轴的平面之间的角度作为方位角,此时方位角为θ,对于俯仰角,以目标用户的眼球与垂直于横轴的平面之间的角度作为俯仰角,则此时俯仰角为a,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,当目标用户在使用智能设备与虚拟人进行交流互动时,获取目标用户相对于智能设备的空间位置参数。
可选的,在上述实施例的基础上,在本公开一些实施例中,由于目标用户在使用智能设备与虚拟人进行交流互动时,所处的预设环境不同,基于此,为了保证能够准确的获取目标用户相对于智能设备的空间位置参数,参考图3D所示,S31的一种实现方式可以是:
S311,确定目标用户所处的预设环境。
其中,预设环境可以是包含嘈杂噪声的环境,还可以是不包含嘈杂噪声,相对安静的环境,由于目标用户所处的预设环境不同,为了保证能够准确的获取目标用户相对于智能设备的空间位置参数,因此采用不同的方式,获取目标用户在预设环境下相对于智能设备的空间位置参数。
S312,获取目标用户在预设环境下相对于智能设备的空间位置参数。
具体的,在目标用户使用智能设备与虚拟人进行交流互动时,确定目标用户所处的预设环境,在确定目标用户所处的预设环境之后,针对目标用户所处的预设环境,获取目标用户在预设环境下相对于智能设备的空间位置参数。
可选的,在上述实施例的基础上,在本公开一些实施例中,S312的实现方式包括但不限于以下两种方式,图3E为本公开实施例提供的再一种虚拟人交互方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。参考图3E所示,预设环境包括第一预设环境,第一预设环境为不包含嘈杂噪声的环境,S312的一种实现方式可以是:
S3121,根据麦克风矩阵,获取目标用户在第一预设环境下相对于智能设备的方位角以及俯仰角。
其中,第一预设环境为不包含嘈杂噪声的环境,由于当前目标用户使用智能设备如智能电视与虚拟人进行交流互动时,所处的环境是较安静的,基于此,能够直接采用与智能设备相关联的麦克风矩阵,获取当前目标用户在不包含嘈杂噪声的第一预设环境中,相对于智能设备的方位角以及俯仰角。
上述麦克风矩阵是指针对于智能设备,能够靠多路拾音系统来收集声音信号并对声音做特殊处理的麦克风,通过该方式,能够获取目标用户在第一预设环境下相对于智能设备的方位角以及俯仰角,对于利用麦克风矩阵获取目标用户在第一预设环境下相对于智能设备的方位角以及俯仰角的具体实现过程,参考现有技术,此处不再做过多赘述。
具体的,在确定目标用户与虚拟人进行交流互动时,所处的预设环境不包含嘈杂噪声时,通过麦克风矩阵,获取目标用户在第一预设环境下相对于智能设备的方位角以及俯仰角。
这样,本公开实施例中提供的虚拟人交互方法,利用麦克风矩阵的方式,直接获取目标用户的空间位置参数,以此能够提高获取空间位置参数效率。
可选的,在上述实施例的基础上,在本公开一些实施例中,图3F为本公开实施例提供的又一种虚拟人交互方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。参考图3F所示,预设环境包括第二预设环境,第二预设环境为包含嘈杂噪声的环境,由于用户当前所处的预设环境包含嘈杂噪声,采用麦克风矩阵获取目标用户的空间位置参数时,可能存在较大的误差,基于此,S312的另一种实现方式可以是:
S3122,通过摄像头采集相对于智能设备的目标图像。
S3123,在确定目标图像中包含多个用户时,在多个用户中确定目标用户。
具体的,当确定目标用户与目标虚拟人进行交流互动时,所处的预设环境包含嘈杂噪声时,为了准确的获取目标用户相对于智能设备的空间位置参数,通过设置在智能设备上的摄像头采集相对于智能设备的目标图像,且针对拍摄目标图像中,确定拍摄的目标图像中包含多个观看智能设备的用户时,需要在目标图像中包含的多个用户中确定与目标虚拟人进行语音交流互动的目标用户。
上述确定目标图像中包含多个用户可以是通过人脸检测的技术实现,对于人脸检测的技术的参考现有技术,此处不再过多赘述。
可选的,在上述实施例的基础上,在本公开一些实施例中,本实施例是在上述实施例的基础上进一步扩展与优化,S3123的另一种实现方式可以是:
S31231,在每个用户嘴部包含的多个关键点中,确定多个第一关键点坐标。
具体的,对于目标图像中包含的多个用户,获取多个用户中每个用户嘴部包含的多个关键点,并在多个关键点中确定每个用户嘴部对应的多个第一关键点坐标。
需要说明的是,对于多个第一关键点,包含了相互对称的关键点,对于各个第一关键点的坐标可以是基于目标用户嘴部建立的坐标系确定的坐标,但不限于此,本公开不具体限制。
示例性的,参考图3G所示,对于用户嘴部01,获取用户嘴部01包含的多个关键点,并在多个关键点中确定多个第一关键点,如第一关键点1、第一关键点2、第一关键点3、第一关键点4、第一关键点5、第一关键点6,其中,第一关键点5与第一关键点6为对称关键点,并取得每个第一关键点坐标,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
可选的,在上述实施例的基础上,在本公开一些实施例中,为了能够提高在多个用户中获取目标用户的效率,在执行S31231之前还包括:
在目标图像包含的多个用户中确定正向面对智能设备的多个用户,在确定向面对智能设备的多个用户中确定目标用户。
S31232,根据各个用户嘴部对应的多个第一关键点坐标以及预设阈值,在多个用户中确定目标用户。
其中,预设阈值是指用来根据多个第一关键点坐标进行计算,以此在多个用户中确定目标用户所设置的参数,对于该预设阈值的取值,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,在各个用户嘴部对应的多个关键点中确定多个第一关键点之后,根据该多个第一关键点以及预先设置的预设阈值,在多个用户中确定目标对象。
可选的,在上述实施例的基础上,在本公开一些实施例中,根据各个用户嘴部对应的多个第一关键点坐标以及预设阈值,在多个用户中确定目标用户,一种实现方式可以是:
首先,对多个第一关键点中的任意两个关键点坐标进行距离计算,求得多个第一距离,对于第一距离可以是欧式距离,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况进行计算。
进一步的,为了保证在拍摄过程中由于摄像头等硬件设备造成的误差,可以通过计算一个参考距离进行纠正,可选的,对于参考距离,可以通过获取脸部的一个关键点坐标,与多个第一关键点中的任一关键点坐标进行距离计算,从而得到一个参考距离,利用该参考距离对多个第一距离进行纠正,即将多个第一距离与参考距离进行除运算,分别得到多个第一距离对应的第一相对距离。
最后,通过比较前后帧中各个用户第一相对距离的变化,并与预设阈值进行对比,以此确定多个用户中与虚拟人进行语音交流互动的目标用户。需要说明的是,当第一相对距离大于预设阈值时,说明该用户可能在说话,基于此,选取多个用户中对应的第一相对距离远远大于预设阈值的用户,作为目标用户。
可选的,还可以通过连续计算多帧之间的第一相对距离的变化,以此提高在多个用户中确定目标用户的准确性。
S3124,当确定目标用户之后,根据目标用户眼球对应的至少一个关键点在目标坐标系中的投影坐标,获取目标用户在第二预设环境下相对于智能设备的方位角。
具体的,在多个用户中确定目标用户之后,获取目标用户眼球对应的至少一个关键点在目标坐标系中的投影坐标,根据目标用户眼球对应的至少一个关键点在目标坐标系中的投影坐标进行计算,以此得到目标用户在包含嘈杂噪声的第二预设环境下相对于智能设备的方位角。
示例性的,参考图3H所示,获取目标用户眼球对应的一个关键点在目标坐标系中的投影坐标(x,y),根据投影坐标(x,y)进行反正切求解,以此得到目标用户在第二预设环境下相对于智能设备的方位角,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
这样,本公开实施例中提供的虚拟人交互方法,在确定目标用户使用智能设备与虚拟人进行交流互动时,所处的预设环境包含嘈杂噪声时,通过上述过程,以此保证获取获取目标用户的空间位置参数的准确性。
S32,根据空间位置参数,在多个预设范围内确定目标预设范围。
其中,预设范围是指在预制图像库中,由于保存的多个虚拟人图像中每个虚拟人图像对应一个角度,根据每两个虚拟人对应的角度确定得到的范围,示例性的,在预制图像库中保存了3个虚拟人图像H1、H2、H3,以虚拟人H1面向正前方的角度设置为0°,虚拟人H2面向左前方为45°,虚拟人H3面向右前方为-45°,则预设范围包括[-45°,45°],(-∞,-45°),(45°,∞),但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,根据目标用户对应的空间位置参数如方位角,在多个预设范围内确定目标预设范围。
S33,确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像。
其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度。
具体的,根据目标用户对应的空间位置参数如方位角,在多个预设范围内确定目标预设范围。在确定目标预设范围之后,确定目标预设范围对应的虚拟人图像即为目标用户对应的目标虚拟人图像。
示例性的,承接上述实施例,当确定目标用户对应的空间位置参数如方位角为θ,当θ∈[-45°,45°]时,则确定[-45°,45°]对应的虚拟人图像H1为目标用户对应的目标虚拟人图像,且,此时目标虚拟人图像中包含的目标虚拟人对应的预设角度为0°,当θ∈(-∞,-45°)时,则确定(-∞,-45°)对应的虚拟人图像H3为目标用户对应的目标虚拟人图像,且,此时目标虚拟人图像中包含的目标虚拟人对应的预设角度为-45°,当θ∈(45°,∞)时,则确定(45°,∞)对应的虚拟人图像H2为目标用户对应的目标虚拟人图像,且,此时目标虚拟人图像中包含的目标虚拟人对应的预设角度为45°,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S34,针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人的在目标坐标系中的视线参数。
其中,视线参数是指对于目标用户眼球的一个或多个关键点在目标坐标系中的投影坐标,与该一个或多个关键点对应的目标虚拟人眼球的一个或多个关键点坐标,在目标坐标系中之间的差值。
示例性的,对于目标用户眼球的一个关键点A,确定在目标虚拟人的眼球与其对应的关键点为A1,则视线参数为关键点A在目标坐标系中的投影坐标(x,y)与关键点为A1目标坐标系中的坐标(x1,y1)之间的差值,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S35,根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。
具体的,针对目标虚拟人,根据目标用户的空间位置参数如方位角和俯仰角,以及目标虚拟人对应的预设角度,以此确定目标虚拟人在目标坐标系中的视线参数,在确定目标虚拟人在目标坐标系中的视线参数之后,根据目标虚拟人在目标坐标系中的视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,以此确定目标虚拟人的视线方向。
这样,本公开实施例中提供的虚拟人交互方法,通过获取目标用户相对于智能设备的空间位置参数;根据空间位置参数,在多个预设范围内确定目标预设范围;确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像,其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度;针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人在目标坐标系中的视线参数,其中,目标坐标系是根据智能设备的显示界面进行构建的;根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。在上述过程中,能够考虑目标用户相对于智能设备的空间位置参数,并通过与目标用户相对应的目标虚拟人的预设角度,在以智能设备的显示界面进行构建的目标坐标系中,确定目标虚拟人眼球的视线参数,进而利用该视线参数调整目标虚拟人眼球的至少一个初始关键点坐标,以此使得目标用户在与虚拟人进行交流互动时,虚拟人能够自动面向用户,实现与用户的眼神交流互动,提升用户的体验。
图4A为本公开实施例提供的另一种虚拟人交互方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的,对于视线参数,包括目标虚拟人眼球的关键点坐标在目标坐标系中对应的横轴差值和纵轴差值,参考图4A所示,S34的一种实现方式可以是:
S41,针对目标虚拟人的眼球,获取眼部球对应的第一参数以及第二参数。
其中,第一参数指的是根据目标虚拟人的眼眶构建的椭圆形的长轴长度,第二参数是指短轴参数,示例性的,参考图4B所示,以眼眶构建的椭圆形401的中心为原点建立坐标系,则第一参数为椭圆形401的长轴长度c,第二参数为椭圆形401的短轴长度b,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S42,根据第一参数、方位角以及预设角度,确定横轴差值。
S43,根据第二参数以及俯仰角,确定纵轴差值。
具体的,获取以目标虚拟人的对应的眼眶构建的椭圆中的第一参数和第二参数,并根据第一参数、方位角以及预设角度,确定横轴差值,根据第二参数以及俯仰角,确定纵轴差值。
可选的,在上述实施例的基础上,在本公开的一些实施例中,根据第一参数、方位角以及预设角度,确定横轴差值,能够通过以下表示式具体限定:Δx=c*cos(θ+γ),其中,c表示第一参数,θ表示目标用户的方位角,γ表示目标虚拟人的预设角度。
可选的,根据第二参数以及俯仰角,确定纵轴差值,能够通过以下表示式具体限定:Δy=b*cos(a),其中,b表示第二参数,a表示目标用户的俯仰角。
这样,本公开实施例中提供的虚拟人交互方法,通过根据目标用户的空间位置参数与目标虚拟人对应的预设角度进行计算,获取目标虚拟人的视差参数,以此方式引入目标用户的空间位置参数,从而实现根据目标用户的空间位置参数来确定目标虚拟人的视线方向。
可选的,图5A为本公开实施例提供的又一种虚拟人交互方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。参考图5A所示,S35的一种实现方式可以是:
S51,根据视线参数、以及每个初始关键点坐标,确定每个初始关键点对应的目标关键点坐标。
示例性的,根据视线参数、以及每个初始关键点坐标,确定每个初始关键点坐标对应的目标关键点坐标,可以是通过将每个初始关键点坐标与视线参数如横轴差值好人纵轴差值进行求和计算,以此得到每个初始关键点对应的目标关键点坐标,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S52,对目标虚拟人进行三角剖分处理,得到目标虚拟人对应的多个三角形。
其中,三角剖分处理是指针对目标虚拟人的脸部进行三角形剖分处理,得到对应的多个三角形参,以此利用该多个三角形对目标虚拟人眼球进行进行拉伸处理,参考图5B所示,对目标虚拟人51的脸部进行三角形分割处理,得到了对目标虚拟人的脸部对应的多个三角形,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S53,根据至少一个初始关键点坐标、至少一个目标关键点坐标以及多个三角形,确定目标虚拟人的视线方向。
具体的,根据目标虚拟人眼球对应的一个或多个初始关键点坐标,以及一个或多个目标关键点坐标,通过目标虚拟人脸部对应的多个三角形,对目标虚拟人眼球进行进行拉伸,以此确定目标虚拟人的视线方向。
这样,本公开实施例中提供的虚拟人交互方法,根据目标虚拟人眼球对应的一个或多个初始关键点坐标,以及一个或多个目标关键点坐标,利用目标虚拟人脸部对应的多个三角形进行拉伸,使得目标虚拟人能够与目标用户实现眼神的交流,提升用户体验。
图6为本公开实施例提供的一种虚拟人交互装置的结构示意图。该装置可实现本公开任意实施例所述的虚拟人交互方法。该装置具体包括如下:空间位置参数获取模块31、目标预设范围确定模块32、目标虚拟人图像确定模块33、视线参数获取模块34以及视线方向确定模块35。
其中,空间位置参数获取模块31,用于获取目标用户相对于智能设备的空间位置参数;
目标预设范围确定模块32,用于根据所述空间位置参数,在多个预设范围内确定目标预设范围;
目标虚拟人图像确定模块33,用于确定所述目标预设范围对应的虚拟人图像为所述目标用户对应的目标虚拟人图像,其中,所述目标虚拟人图像中包含的目标虚拟人对应一个预设角度;
视线参数获取模块34,用于针对所述目标虚拟人,根据所述空间位置参数和所述预设角度,获取所述目标虚拟人在目标坐标系中的视线参数,其中,所述目标坐标系是根据所述智能设备的显示界面进行构建的;
视线方向确定模块35,用于根据所述视线参数、以及所述目标虚拟人眼球在所述目标坐标系中的至少一个初始关键点坐标,确定所述目标虚拟人的视线方向。
作为本公开实施例一种可选的实施方式,空间位置参数获取模块31,具体用于确定所述目标用户所处的预设环境;获取所述目标用户在所述预设环境下相对于智能设备的空间位置参数。
作为本公开实施例一种可选的实施方式,所述预设环境包括第一预设环境,所述第一预设环境不包含嘈杂噪声;
空间位置参数获取模块31,具体还用于根据麦克风矩阵,获取所述目标用户在所述第一预设环境下相对于智能设备的方位角以及俯仰角。
作为本公开实施例一种可选的实施方式,所述预设环境还包括第二预设环境,所述第二预设环境包含嘈杂噪声;
空间位置参数获取模块31,具体还用于通过摄像头采集相对于智能设备的目标图像;在确定所述目标图像中包含多个用户时,在多个用户中确定所述目标用户;当确定所述目标用户之后,根据所述目标用户眼球对应的至少一个关键点在所述目标坐标系中的投影坐标,获取所述目标用户在所述第二预设环境下相对于智能设备的方位角。
作为本公开实施例一种可选的实施方式,空间位置参数获取模块31,具体还用于在每个所述用户嘴部包含的多个关键点中,确定多个第一关键点坐标;根据各个用户嘴部对应的多个第一关键点坐标以及预设阈值,在多个用户中确定目标用户。
作为本公开实施例一种可选的实施方式,所述视线参数包括目标虚拟人眼球的关键点坐标在所述目标坐标系中对应的横轴差值和纵轴差值;
视线参数获取模块34,具体用于针对所述目标虚拟人的眼球,获取所述眼球对应的第一参数以及第二参数;根据所述第一参数、方位角以及所述预设角度,确定所述横轴差值;根据所述第二参数以及俯仰角,确定所述纵轴差值。
作为本公开实施例一种可选的实施方式,视线方向确定模块35,具体用于根据所述视线参数、以及每个所述初始关键点坐标,确定每个所述初始关键点对应的目标关键点的坐标;;对所述目标虚拟人进行三角剖分处理,得到所述目标虚拟人对应的多个三角形;根据至少一个所述初始关键点坐标、至少一个所述目标关键点坐标以及多个所述三角形,确定所述目标虚拟人的视线方向。
这样,本实施例通过空间位置参数获取模块用于获取目标用户相对于智能设备的空间位置参数;目标预设范围确定模块用于根据空间位置参数,在多个预设范围内确定目标预设范围;目标虚拟人图像确定模块用于确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像,其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度;视线参数获取模块用于针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人在目标坐标系中的视线参数,其中,目标坐标系是根据智能设备的显示界面进行构建的;视线方向确定模块用于根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。在上述过程中,能够考虑目标用户相对于智能设备的空间位置参数,并通过与目标用户相对应的目标虚拟人的预设角度,在以智能设备的显示界面进行构建的目标坐标系中,确定目标虚拟人眼球的视线参数,进而利用该视线参数调整目标虚拟人眼球的至少一个初始关键点坐标,以此使得目标用户在与虚拟人进行交流互动时,虚拟人能够自动面向用户,实现与用户的眼神交流互动,提升用户的体验。
图7是本公开实施例提供的一种电子设备的结构示意图。如图7所示,该电子设备包括处理器1010和存储装置1020;电子设备中处理器1010的数量可以是一个或多个,图7中以一个处理器1010为例;电子设备中的处理器1010和存储装置1020可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储装置1020作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的虚拟人交互方法对应的程序指令/模块。处理器1010通过运行存储在存储装置1020中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现本公开实施例所提供的虚拟人交互方法。
存储装置1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置1020可进一步包括相对于处理器1010远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提供的一种电子设备可用于执行上述任意实施例提供的虚拟人交互方法,具备相应的功能和有益效果。
本公开实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述虚拟人交互方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,该计算机可读存储介质可以为只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (10)
1.一种虚拟人交互方法,其特征在于,包括:
获取目标用户相对于智能设备的空间位置参数;
根据所述空间位置参数,在多个预设范围内确定目标预设范围;
确定所述目标预设范围对应的虚拟人图像为所述目标用户对应的目标虚拟人图像,其中,所述目标虚拟人图像中包含的目标虚拟人对应一个预设角度;
针对所述目标虚拟人,根据所述空间位置参数和所述预设角度,获取所述目标虚拟人在目标坐标系中的视线参数,其中,所述目标坐标系是根据所述智能设备的显示界面进行构建的;
根据所述视线参数、以及所述目标虚拟人眼球在所述目标坐标系中的至少一个初始关键点坐标,确定所述目标虚拟人的视线方向。
2.根据权利要求1所述的方法,其特征在于,所述获取目标用户相对于智能设备的空间位置参数,包括:
确定所述目标用户所处的预设环境;
获取所述目标用户在所述预设环境下相对于智能设备的空间位置参数。
3.根据权利要求2所述的方法,其特征在于,所述预设环境包括第一预设环境,所述第一预设环境不包含嘈杂噪声;
所述根据所述预设环境,获取所述目标用户在所述预设环境下相对于智能设备的空间位置参数,包括:
根据麦克风矩阵,获取所述目标用户在所述第一预设环境下相对于智能设备的方位角以及俯仰角。
4.根据权利要求2所述的方法,其特征在于,所述预设环境还包括第二预设环境,所述第二预设环境包含嘈杂噪声;
所述根据所述预设环境,获取所述目标用户在所述预设环境下相对于智能设备的空间位置参数,包括:
通过摄像头采集相对于智能设备的目标图像;
在确定所述目标图像中包含多个用户时,在多个用户中确定所述目标用户;
当确定所述目标用户之后,根据所述目标用户眼球对应的至少一个关键点在所述目标坐标系中的投影坐标,获取所述目标用户在所述第二预设环境下相对于智能设备的方位角。
5.根据权利要求4所述的方法,其特征在于,所述在多个用户中确定所述目标用户,包括;
在每个所述用户嘴部包含的多个关键点中,确定多个第一关键点坐标;
根据各个用户嘴部对应的多个第一关键点坐标以及预设阈值,在多个用户中确定目标用户。
6.根据权利要求1所述的方法,其特征在于,所述视线参数包括目标虚拟人眼球的关键点坐标在所述目标坐标系中对应的横轴差值和纵轴差值;
针对所述目标虚拟人,根据所述空间位置参数和所述预设角度,获取所述目标虚拟人在目标坐标系中的视线参数,包括:
针对所述目标虚拟人的眼球,获取所述眼球对应的第一参数以及第二参数;
根据所述第一参数、方位角以及所述预设角度,确定所述横轴差值;
根据所述第二参数以及俯仰角,确定所述纵轴差值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述视线参数、以及所述目标虚拟人眼球在所述目标坐标系中的至少一个初始关键点坐标,确定所述目标虚拟人的视线方向,包括:
根据所述视线参数、以及每个所述初始关键点坐标,确定每个所述初始关键点对应的目标关键点坐标;
对所述目标虚拟人进行三角剖分处理,得到所述目标虚拟人对应的多个三角形;
根据至少一个所述初始关键点坐标、至少一个所述目标关键点坐标以及多个所述三角形,确定所述目标虚拟人的视线方向。
8.一种虚拟人交互装置,其特征在于,包括:
空间位置参数获取模块,用于获取目标用户相对于智能设备的空间位置参数;
目标预设范围确定模块,用于根据所述空间位置参数,在多个预设范围内确定目标预设范围;
目标虚拟人图像确定模块,用于确定所述目标预设范围对应的虚拟人图像为所述目标用户对应的目标虚拟人图像,其中,所述目标虚拟人图像中包含的目标虚拟人对应一个预设角度;
视线参数获取模块,用于针对所述目标虚拟人,根据所述空间位置参数和所述预设角度,获取所述目标虚拟人在目标坐标系中的视线参数,其中,所述目标坐标系是根据所述智能设备的显示界面进行构建的;
视线方向确定模块,用于根据所述视线参数、以及所述目标虚拟人眼球在所述目标坐标系中的至少一个初始关键点坐标,确定所述目标虚拟人的视线方向。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211695705.0A CN117648027A (zh) | 2022-12-28 | 2022-12-28 | 虚拟人交互方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211695705.0A CN117648027A (zh) | 2022-12-28 | 2022-12-28 | 虚拟人交互方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117648027A true CN117648027A (zh) | 2024-03-05 |
Family
ID=90046595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211695705.0A Pending CN117648027A (zh) | 2022-12-28 | 2022-12-28 | 虚拟人交互方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648027A (zh) |
-
2022
- 2022-12-28 CN CN202211695705.0A patent/CN117648027A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11383166B2 (en) | Interaction method of application scene, mobile terminal, and storage medium | |
US10853677B2 (en) | Verification method and system | |
US11403757B2 (en) | Sight line detection method and sight line detection device | |
US10460512B2 (en) | 3D skeletonization using truncated epipolar lines | |
US20210271321A1 (en) | Method and apparatus for training gaze tracking model, and method and apparatus for gaze tracking | |
EP3123283B1 (en) | Eye gaze tracking based upon adaptive homography mapping | |
US10007349B2 (en) | Multiple sensor gesture recognition | |
US11693475B2 (en) | User recognition and gaze tracking in a video system | |
US20220254058A1 (en) | Method for determining line-of-sight, method for processing video, device, and storage medium | |
CN109635752B (zh) | 人脸关键点的定位方法、人脸图像处理方法和相关装置 | |
WO2015026645A1 (en) | Automatic calibration of scene camera for optical see-through head mounted display | |
WO2019100932A1 (zh) | 一种运动控制方法及其设备、存储介质、终端 | |
US20210201021A1 (en) | User recognition and gaze tracking in a video system | |
CN110148191B (zh) | 视频虚拟表情生成方法、装置及计算机可读存储介质 | |
CN107958223B (zh) | 人脸识别方法及装置、移动设备、计算机可读存储介质 | |
CN110555426A (zh) | 视线检测方法、装置、设备及存储介质 | |
US20240042622A1 (en) | Electronic apparatus and method of controlling thereof | |
KR20190113252A (ko) | 시선 추적 방법 및 이를 수행하기 위한 단말 | |
WO2022166173A1 (zh) | 视频资源处理方法、装置、计算机设备、存储介质及程序 | |
US10417738B2 (en) | System and method for displaying graphical effects based on determined facial positions | |
CN113342157B (zh) | 眼球追踪处理方法及相关装置 | |
CN117648027A (zh) | 虚拟人交互方法、装置、电子设备和介质 | |
KR20200079748A (ko) | 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법 | |
CN115484411A (zh) | 拍摄参数的调整方法、装置、电子设备和可读存储介质 | |
CN113093907A (zh) | 人机交互方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |