CN116382475B - 视线方向的控制、视线交流方法、装置、设备及介质 - Google Patents

视线方向的控制、视线交流方法、装置、设备及介质 Download PDF

Info

Publication number
CN116382475B
CN116382475B CN202310308842.2A CN202310308842A CN116382475B CN 116382475 B CN116382475 B CN 116382475B CN 202310308842 A CN202310308842 A CN 202310308842A CN 116382475 B CN116382475 B CN 116382475B
Authority
CN
China
Prior art keywords
target
control
sight
pupil
eye diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310308842.2A
Other languages
English (en)
Other versions
CN116382475A (zh
Inventor
王志强
赵亚飞
张世昌
郭紫垣
范锡睿
陈毅
杜宗财
孙权
刘倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310308842.2A priority Critical patent/CN116382475B/zh
Publication of CN116382475A publication Critical patent/CN116382475A/zh
Application granted granted Critical
Publication of CN116382475B publication Critical patent/CN116382475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供了一种视线方向的控制、视线交流方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及视频交互技术领域。具体实现方案为:获取待视线方向控制的目标实际眼图;根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。本公开实施例的技术方案可以直接根据实际所需的视线控制方向,构建得到满足视线控制方向的虚拟眼图,并通过图像到图像的映射关系,显式得到满足该视线控制方向的实际调整眼图,实现方式简单、准确度高且效果稳定。

Description

视线方向的控制、视线交流方法、装置、设备及介质
技术领域
本公开涉及人工智能技术领域,具体涉及视频交互技术领域,尤其涉及一种视线方向的控制方法、视线交流方法、视线方向的控制装置、视线交流装置、电子设备和非瞬时计算机可读存储介质。
背景技术
视线方向在视频交互过程中显的尤为重要,好的视线方向给交互者以良好的交流体验。比如,在智能客服、直播、视频会议场景中,当一个或者多个用户在屏幕前与屏幕内的真实或者虚拟形象进行交流时,如果屏幕内形象的视线方向不准确,往往会导致交互感差,关键交互信息无法有效获取等问题。
视线方向主要取决于视频的录制,后期难以进行有效修复或者实时修改。相关技术中,通过软件或者神经网络模型进行逐帧修复代价过高,并且容易出现帧间不连续、真实性较差以及无法实时处理等问题。
发明内容
本公开提供了一种用于视线方向的控制方法、视线交流方法、视线方向的控制装置、视线交流装置、电子设备和非瞬时计算机可读存储介质。
根据本公开的一方面,提供了一种视线方向的控制方法,包括:
获取待视线方向控制的目标实际眼图;
根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;
根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
根据本公开的另一方面,提供了一种视线交流方法,包括:
实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向;
根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;
根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图;
根据目标实际控制眼图,对所述视频流进行更新
根据本公开的另一方面,提供了一种视线方向的控制装置,包括:
实际眼图获取模块,用于获取待视线方向控制的目标实际眼图;
虚拟眼图生成模块,用于根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;
控制眼图转换模块,用于根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
根据本公开的另一方面,提供了一种视线交流装置,包括:
眼图提取模块,用于实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向;
眼图虚拟模块,用于根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;
眼图调整模块,用于根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图;
眼图更新模块,用于根据目标实际控制眼图,对所述视频流进行更新。
根据本公开的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本公开实施例任一项所述的视线方向的控制方法,或者执行如本公开实施例任一项所述的视线交流方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据本公开实施例任一项所述的视线方向的控制方法,或者执行根据本公开实施例任一项所述的视线交流方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种视线方向的控制方法的示意图;
图2是根据本公开实施例提供的另一种视线方向的控制方法的示意图;
图3是本公开实施例所适用的一种在单眼区域中确定瞳孔位置调整空间的示意图;
图4是根据本公开实施例提供的又一种视线方向的控制方法的示意图;
图5是可以实现本公开实施例的视线方向的控制方法的场景示意图;
图6是根据本公开实施例提供的一种视线交流方法的示意图;
图7是根据本公开实施例提供的一种视线方向的控制装置的结构图;
图8是根据本公开实施例提供的一种视线交流装置的结构图;
图9是用来实现本公开实施例的视线方向的控制或者视线交流方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例提供的一种视线方向的控制方法的流程图。本公开实施例可适用于对视频或图像中包含的眼睛的视线方向进行控制情况。该方法可以由视线方向的控制装置来执行,该装置可采用硬件和/或软件的方式实现,并一般可以集成在具有图像处理功能的终端或者服务器中。
相应的,如图1所示,本公开实施例提供的一种视线方向的控制方法包括以下具体步骤:
S110、获取待视线方向控制的目标实际眼图。
其中,目标实际眼图是指需要进行视线方向控制的图像。目标实际眼图的来源可以为视频中的一个或者多个视频帧,也可以为图片库中的某一张具体的图片。在该目标实际眼图中包含有眼部区域。
需要说明的是,目标实际眼图可以理解为原图,用于与后文提到的目标虚拟眼图相对应。在一个具体的例子中,通过进行人脸采集获取到一张人脸图像后,直接对该人脸图像进行眼部图像的截取,可以得到一张包含眼部区域的原图,截取到的这张原图可以作为目标实际眼图。也即,目标实际眼图可以理解为通过图像采集技术获取到的原始图像或者该原始图像中的一部分。
S120、根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图。
其中,视线控制方向,为期望该目标实际眼图中的眼睛所注视的方向。可以理解的是,当眼睛中的瞳孔位于眼眶中不同的位置时,可以显式表达该眼睛注视于不同的方向。
在本实施例中,该视线控制方向可以根据实际的应用场景进行预设或者动态确定。在一个具体的例子中,如果该视线方向的控制方法应用于视频会议场景中,则期望屏幕内的参会人(尤其是讲话人)在视频会议的参与过程中,视线能始终直视着屏幕的中心,以保证屏幕外的其他参会人能够提高视频会议的参与度和关注度等。进而,该视线控制方向为朝向视频采集装置的中心点。在另一个具体的例子中,如果屏幕外的用户可以在屏幕前进行自由移动,则期望屏幕内的讲话人的视线可以随着屏幕外的用户的移动而发生偏转。进而,该视线控制方向可以为朝向屏幕外用户所在的位置。
其中,该瞳孔控制位置可以理解为在该视线控制方向下,瞳孔所需位于的眼眶位置,也即,当眼眶中的瞳孔位于该瞳孔控制位置时,眼睛朝向该视线控制方向。
可选的,可以根据预先设定的映射关系确定出与视线控制方向对应的瞳孔控制位置。
在本实施例中,目标虚拟眼图可以理解为根据瞳孔控制位置,自动绘制得到的“假的”或者说虚拟化的眼图。可选的,可以根据预设的瞳孔半径,以目标虚拟眼图中的瞳孔控制位置为圆心绘制出一个虚拟的圆形虹膜,进而,将该圆形虹膜和目标实际眼图中的眼眶(或者说眼皮)区域进行组合,得到该目标虚拟眼图,或者,还可以进一步对该眼眶区域中的其他部分进行虚拟化处理后,得到该目标虚拟眼图等,本实施例对此并不进行限制。
通过上述设置,针对一个视线方向未知的,或者与该视线控制方向不匹配的目标实际眼图,可以构建得到一个与该视线控制方向相匹配的目标虚拟眼图。
S130、根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
在本实施例中,在获取目标虚拟眼图后,需要将该目标虚拟眼图转换为实际眼图,也即,需要将目标虚拟眼图适配到原图上。在一个具体的视频交互例子中,在针对屏幕内讲话者生成目标虚拟眼图后,需要将该目标虚拟眼图与目标实际眼图所在的图像场景进行融合,使得屏幕外用户直接无感的观测到该屏幕内讲话者的目光注视在该视线控制方向下。
在本实施例中,可以成对的收集大量的标准实际眼图与标准虚拟眼图,并根据每个标准实际眼图与标准虚拟眼图之间的配对关系,训练或者拟合得到标准实际眼图与标准虚拟眼图之间的图像映射关系。
其中,上述图像映射关系可以通过一个预先训练的机器学习模型体现,也可以通过一个或者多个拟合公式体现,本实施例对此并不进行限制。
在获取上述图像映射关系之后,基于该图像映射关系,可以将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
具体的,该目标实际控制眼图与目标实际眼图的图像形式相同。也即,如果目标实际眼图为从一个实时视频中截取得到的,则该目标实际控制眼图肉眼看来也是来源于该实时视频的,区别在于,该目标实际控制眼图中的视线方向是与该视线控制方向相匹配的。
本公开实施例的技术方案通过获取待视线方向控制的目标实际眼图;根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图的技术手段,可以直接根据实际所需的视线控制方向,构建得到一个“虚假的”,满足该视线控制方向的虚拟眼图,并通过图像到图像的映射关系,显式得到满足该视线控制方向的实际调整眼图,实现方式简单、准确度高且效果稳定,可以满足各类视线方向控制场景的应用需求。
在上述各实施例的基础上,获取待视线方向控制的目标实际眼图,可以包括:
获取包含面部轮廓的目标图像,并识别目标图像中包括的眼部关键点;根据眼部关键点,从目标图像中截取目标实际眼图。
在本可选实施方式中,可以在实时视频中,或者图像集中获取包含有面部轮廓的目标图像。具体的,可以通过预设的各类面部识别算法,准确获取到目标图像。其中,该目标图像中可以包括有真实人脸、2D数字人脸,3D虚拟数字人脸或者卡通动物脸等,本实施例对此并不进行限制。
在获取到目标图像后,可以通过预设的各类脸部关键点识别技术,获取到该目标图像中包括的全部脸部关键点,进而可以根据各脸部关键点的属性信息,例如,瞳孔点、眉心点或者嘴角点等,在全部脸部关键点中识别出用于描述眼部特征的眼部关键点。进而,可以根据各眼部关键点在目标图像中的坐标范围,从目标图像中截取得到目标实际眼图。
通过上述设置,可以准确的从包含面部轮廓的图像中截取得到包含全部眼部关键点的目标实际眼图,减少了后续进行视线方向控制的计算量,在保证准确度的前提下,提高了计算效率。
或者,为了实现简单,还可以在识别到目标图像中包括的全部脸部关键点后,将全部脸部关键点所围成的图像区域直接构成目标实际眼图。既保证了目标实际眼图中包含有眼部区域,又避免了对脸部关键点进行二次处理。
图2是根据本公开实施例提供的另一种视线方向的控制方法的流程图。在本实施例中,将根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图的操作,具体化为:在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间;根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置;根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图。
相应的,如图2所示,本公开实施例提供的另一种视线方向的控制方法包括以下具体步骤:
S210、获取待视线方向控制的目标实际眼图。
在本实施例中,该目标实际眼图中可以仅包括眼部区域的图像内容,也可以包括整个脸部区域的图像内容等,本实施例对此并不进行限制。
S220、在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间。
可以理解的是,在大多数情况下,目标实际眼图中包含有左右两只眼睛,每只眼睛均需要进行视线方向的控制。如果简单的以两只眼睛的眼神同步为例,则需要对每只眼睛进行相同方式的视线方向的控制。
相应的,需要在目标实际眼图中分别识别每个单眼区域,也即,仅包括一只眼睛的图像区域。之后,可以分别确定出与每个单眼区域分别对应的瞳孔位置调整空间。
其中,瞳孔位置调整空间可以理解为瞳孔控制位置的可调范围,该瞳孔位置调整空间可以为一维调整空间,例如,仅可以在水平方向上进行左右调整,也可以为二维调整空间,例如,既可以在水平方向上进行左右调整,还可以在垂直方向上进行上下调整。可以理解的是,当一个单眼区域确定后,则眼眶区域也被唯一确定了,则瞳孔仅可以在眼眶区域所限定的范围内进行调整设置。
在本实施例的一个可选的实施方式,在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间,可以包括:
根据目标实际眼图中各眼部关键点的属性信息,分别对左右眼计算连通区域,并将计算得到的两个连通区域分别作为单眼区域;将每个单眼区域的最小外接矩形,确定为与每个单眼区域分别对应的瞳孔位置调整空间。
其中,以目标图像中包括的脸部轮廓为人脸作为示例,在图3中示出了本公开实施例所适用的一种在单眼区域中确定瞳孔位置调整空间的示意图。如图3所示,在目标实际眼图中识别出各眼部关键点后,每个眼部关键点均具有设定的属性信息,例如,左眼眼角点,或者右眼眼角点等,通过上述属性信息,可以将隶属于同一眼睛(左眼或者右眼)的眼部关键点划分至同一连通区域中,也即,将36号到41号眼部关键点顺次相连后,构成一个连通区域,对应一个单眼区域(也即右眼区域),将42号到47号眼部关键点顺次相连后,构成另一个连通区域,对应另一个单眼区域(也即左眼区域)。可以理解的是,每个单眼区域对应于一只眼睛的轮廓区域,也即眼皮区域。
如图3所示,在获取每个单眼区域后,根据每个单眼区域中各眼部关键点的坐标值,可以确定出每个单眼区域的最小外接矩形,作为与每个单眼区域分别对应的瞳孔位置调整空间。进而,每只眼睛的瞳孔控制位置仅能在与该眼睛匹配的瞳孔位置调整空间内进行设置。
通过上述设置,可以有效确定出瞳孔控制位置的可调区间,进而可以通过简单的空间坐标映射关系,在该可调空间中确定出与视线控制方向匹配的瞳孔控制位置。
S230、根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置。
如前所述,该视线控制方向可以理解为屏幕外的观测者期望观测到屏幕内形象的注视方向。例如,朝向屏幕正中、或者朝向屏幕左上侧或者右下侧等。
也即,视线控制方向为真实空间中的视线方向,瞳孔控制位置反映的是瞳孔位置调整空间中的视线方向,进而,通过建立真实空间与瞳孔位置调整空间直接的映射关系,可以基于该映射关系,将视线控制方向映射为瞳孔位置调整空间中的瞳孔控制位置。
相应的,在本实施例的一个可选的实施方式中,根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置,可以包括:
获取视线控制方向在视线方向调整空间中的目标方向位置;
根据视线方向调整空间与瞳孔位置调整空间之间的空间坐标映射关系,以及目标方向位置,在每个瞳孔位置调整空间中确定瞳孔控制位置。
其中,目标方向位置可以理解为该视线控制方向在视线方向调整空间中的映射结果,例如,如果将该视线方向调整空间理解为一个坐标系的话,则该目标方向位置可以理解为视线控制方向在该坐标系中的坐标值。
作为示例而非限定,人眼的视线角度范围为上侧94,下侧104,左侧94,右侧104。基于上述人眼的视线角度范围,可以构建得到该视线方向调整空间,一旦确定出视线控制方向后,例如,上侧0以及左侧0(朝向正中间)后,则该视线控制方向可以映射为视线方向调整空间中的一个点。进而,在确定出视线方向调整空间与瞳孔位置调整空间之间的空间坐标映射关系后,可以基于该空间坐标映射关系,在每个瞳孔位置调整空间中确定瞳孔控制位置。
在一个具体的例子中,同样以左右眼神同步为例。假设每个单眼区域的最小外界矩形长为w、高为h,左眼矩形左上角坐标为x1、y1,右眼矩形左上角坐标为x2、y2。假设在视线方向调整空间中,通过进行空间坐标映射后,确定瞳孔活动的自由度范围为:x方向[0,1],y方向[0,1],其中0、1表示眼球转动左边、右边及上边、下边的极限。也即前述的人眼的视线角度范围的归一化结果。在确定出视线控制方向,可以将该视线控制方向转换为设定的(x,y)的坐标值,例如,当注视方向朝向正中间时,x=0,y=0。
相应的,基于该(x,y)的坐标值,以及瞳孔活动的自由度范围以及与瞳孔位置调整空间(外接矩形)之间的关联关系,可以计算得到左眼瞳孔控制位置为(x1+x*w,y1+y*h),右眼瞳孔控制位置为(x2+x*w,y2+y*h)。
通过上述设置,可以通过简单的映射关系,快速计算出与视线控制方向匹配的瞳孔控制位置,可以进一步提高各类视线方向控制场景的实时性应用需求。
可以理解的是,本公开各实施例主要以双眼的眼神同步为例进行介绍,如果有一些眼神不同步的极端应用场景,可以分别获取每只眼睛的视线控制方向,并基于每只眼睛不同的视线控制方向,分别确定出每只眼睛的瞳孔控制位置。
S240、根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图。
为了进一步减少计算量,本公开各实施例将虹膜看做一个标准的圆形,那么瞳孔就可以理解为虹膜的中心点,也即圆心位置。进而,在获取到目标虹膜半径后,可以基于在每个单眼区域中确定出的瞳孔控制位置,绘制得到一个与视线控制方向相匹配的虚拟的“假”的虹膜,基于该绘制结果,可以得到目标虚拟眼图。也即,在该目标虚拟眼图中包括的虹膜不再使用原图中的实际虹膜,而是在瞳孔控制位置处绘制得到了一个圆形的虚拟虹膜,以适配该视线控制方向。
可以理解的是,在该目标虚拟眼图中,可以仅将虹膜设置为虚拟的,单眼区域中的其他的眼部图像都使用目标实际眼图中的图像内容,还可以同时将虹膜和单眼区域中的其他眼部图像均设置为虚拟的,以简化操作流程,本实施例对此并不进行限制。
需要说明的是,该目标虹膜半径可以为一个预设的固定经验值,也可以为一个随着脸部轮廓的类型不同而动态更新的值,本实施例对此并不进行限制。
在本实施例的一个可选的实施方式中,根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图,可以包括:
获取与当前处理单眼区域匹配的当前处理瞳孔控制位置;
根据目标虹膜半径,在目标实际眼图中确定以当前处理瞳孔控制位置为圆心的圆形区域;
计算圆形区域与当前处理单眼区域的图像交集,并将图像交集中的各像素点赋值为第一像素值;
在当前处理单眼区域中,获取所述图像交集的图像补集,并将图像补集中的各像素点赋值为第二像素值,以得到目标虚拟眼图。
在本可选实施方式中,在将整个单眼区域内的图像均进行虚拟化处理时,为了简便操作,可以选择使用二值化处理的方式进行虚拟化处理。也即,将绘制得到的虹膜以一个统一的像素值(例如,黑色)绘制在该眼皮区域内,超出的部分则会被眼皮遮盖。眼皮内除去该虹膜的位置被赋值为另一个统一的像素值(例如,白色),以简单、便捷的得到一个注视方向为视线控制方向的,二值化形式的目标虚拟眼图。
通过上述设置,以单眼区域作为所绘制瞳孔的限定区域,不论目标实际图像中的眼睛处于眨眼、斜视或者眯眼等情况,都可以高效、准确的恢复得到视线控制方向下的目标实际控制眼图,进一步提高了本公开各实施例技术方案的通用性和有效性。
S250、根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
本公开实施例的技术方案通过在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间;根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置;根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图的实现方式,可以显示的根据视线控制方向直接确定出瞳孔控制位置,实现方式简单、准确度高且效果稳定,可以满足各类视线方向控制场景的应用需求。
在上述各实施例的基础上,在根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理之前,还可以包括:
在多个备选虹膜半径中,选取与目标图像中的面部轮廓匹配的目标虹膜半径。
可以理解的是,面部轮廓不同,该面部轮廓内部眼睛的虹膜半径一般也不尽相同。为了进一步提高目标虚拟眼图与真实的目标实际眼图中的眼睛适配性,可以为不同类型的面部轮廓设置不同的虹膜半径,作为备选虹膜半径。
其中,面部轮廓的类型可以包括:某一个特定身份的真实人,(张三或者李四等),某一个特定身份的2D或者3D的虚拟数据人,以及某一个特定身份的卡通动物等。
在本公开实施例中,可以预先收集与不同类型的面部轮廓分别对应的备选虹膜半径,并对上述多个备选虹膜半径预先进行存储。在获取目标图像中的面部轮廓的类型后,通过进行数据查询,可以获取与该面部轮廓的类型相适配的目标虹膜半径。进而,可以基于该目标虹膜半径,准确的构建得到与该目标身份标识相适配的目标虚拟眼图。
在一个具体的例子中,可以通过对目标图像中的面部轮廓进行身份识别的方式,获取该面部轮廓的类型。
图4是根据本公开实施例提供的另一种视线方向的控制方法的流程图。在本实施例中,将根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图,具体化为:将目标虚拟眼图输入至预先训练的视线图像生成模型中,获取视线控制方向下的目标实际控制眼图。
相应的,如图4所示,本公开实施例提供的另一种视线方向的控制方法包括以下具体步骤:
S410、获取待视线方向控制的目标实际眼图。
S420、根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图。
S430、将目标虚拟眼图输入至预先训练的视线图像生成模型中,获取视线控制方向下的目标实际控制眼图。
其中,所述视线图像生成模型使用多个图像映射样本对训练得到,每个图像映射样本对中包括具有匹配关系的标准实际眼图和标准虚拟眼图。
在本实施例中,可以预先构建得到一个视线图像生成模型,该视线图像生成模型可以为卷积神经网络、全连接网络、transformer模型或者注意力机制模型等,该视线图像生成模型只要可以实现图像到图像的映射即可,本实施例对该视线图像生成模型的具体模型结构并不进行限制。
在对该视线图像生成模型进行训练时,使用的是多个图像映射样本对,每个图像映射样本对中均包括了匹配关系的标准实际眼图和标准虚拟眼图。其中,标准虚拟眼图和标准实际眼图与前述的目标虚拟眼图与目标实际眼图的含义一致,区分仅在于,前述的目标虚拟眼图为根据视线控制方向绘制得到的,而图像映射样本对中的标准虚拟眼图为根据具有匹配关系的标准实际眼图中的实际瞳孔位置绘制得到的,也即,具有匹配关系的标准实际眼图和标准虚拟眼图中的瞳孔位置相一致。
通过使用上述各图像映射样本对,训练该视线图像生成模型,可以使得视线图像生成模型通过简单的训练流程,学习到标准虚拟眼图与标准实际眼图之间的映射关系,模型训练速度快,实现效果好。
进而,通过将目标虚拟眼图输入至预先训练的视线图像生成模型中,可以获取视线控制方向下的目标实际控制眼图。
本公开实施例的技术方案通过将目标虚拟眼图输入至预先训练的视线图像生成模型中,获取视线控制方向下的目标实际控制眼图的实现方式,可以进一步提高视线方向的调整效率和准确度,进一步满足各类视线方向控制场景的应用需求。
在上述各实施例的基础上,在将目标虚拟眼图输入至预先训练的视线图像生成模型中之前,还可以包括:
获取多个标准实际眼图;根据在各标准实际眼图中识别到的瞳孔位置,生成与每个标准实际眼图分别对应的标准虚拟眼图;根据各标准实际眼图以及各标准虚拟眼图,生成多个图像映射样本对。
在本实施例中,可以从各类视频或者图像库中收集包含有面部轮廓的标准实际眼图,并通过在各标准实际眼图中识别人眼关键点的方式,可以确定标准实际眼图中每个单眼区域内的瞳孔位置,通过预设或者动态更新的瞳孔半径,以及各瞳孔位置,可以构建得到与每个标准实际眼图分别对应的标准虚拟眼图,也即,标准虚拟眼图中的视线方向是与标准实际眼图中的视线方向相一致的。进而,可以将每个标准实际眼图,以及经由该标准实际眼图所生成的标准虚拟眼图,构建得到图像映射样本对,以对该视线图像生成模型进行模型训练。
通过上述设置,可以简便、便捷的构建得到视线图像生成模型,由于该视线图像生成模型只要实现图像到图像的映射即可,整个训练流程简单、效果好且速度快。
在图5中示出了一种可以实现本公开实施例的视线方向的控制方法的场景示意图。如图5所示,首先获取待进行视线方向控制的目标实际眼图,在该目标实际眼图中包含有眼睛。之后,可以通过预先训练的关键点提取模型,对该目标实际眼图进行眼部关键点的提取,得到各眼部关键点在目标实际图像中的位置,以及各眼部关键点的属性信息。基于上述各眼部关键点,可以在目标实际眼图中确定出两个单眼区域以及瞳孔控制位置,然后,可以根据该瞳孔控制位置以及固定或者动态可变的虹膜半径,绘制得到目标虚拟眼图。最后,可以通过预先训练的视线图像生成模型,通过图像到图像的映射方式,将该目标虚拟眼图转换为目标控制实际眼图,以完成对该目标实际眼图中视线方向的调整。
图6是根据本公开实施例提供的一种视线交流方法的流程图。本公开实施例可适用于对屏幕内播放的实时视频中包含的眼睛的视线方向进行控制调整,以达到与屏幕外的观看用户进行视线交流的情况。该方法可以由视线交流装置来执行,该装置可采用硬件和/或软件的方式实现,并一般可以集成在具有视频播放以及图像处理功能的终端或者服务器中。
相应的,如图6所示,本公开实施例提供的一种视线交流方法包括以下具体步骤:
S610、实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向。
在本公开实施例中,可以在实时播放的视频中进行视线方向的控制,例如,可以在视频会议或者真人直播过程中,将会议发言人或者直播用户的视线方向控制为朝向屏幕的中心位置,或者也可以包含有2D或者3D虚拟数字人(典型的,虚拟主播、虚拟客服、虚拟助理、虚拟教师、虚拟偶像以及游戏)的相关视频中,将2D或者3D虚拟数字人的视线方向控制为朝向屏幕的中心位置,或者朝向屏幕外的一个或者多个观看用户所在的位置。
相应的,该视频流中的真实形象可以理解为当前视频会议的发言人或者直播用户等真实的人物。该视频流中的虚拟形象可以理解为上述的2D或者3D虚拟数字人或者卡通动物等。
其中,目标实际眼图的当前视线方向不满足视线交流条件,可以理解为目标实际眼图中眼睛的注视方向不满于与屏幕外用户的视线产生视线交流或者视线接触的条件。在不同的应用场景,该视线交流条件一般不同。
例如,在真人直播场景中,如果确定主播的当前视线方向没有指向视频播放屏幕的正中央,则确定目标实际眼图的当前视线方向不满足视线交流条件,在2D或者3D虚拟数字人的大屏幕视频播放场景中,当屏幕外用户所在位置与2D或者3D虚拟数字人的当前视线方向不一致时,确定目标实际眼图的当前视线方向不满足视线交流条件。
其中,目标实际眼图的当前视线方向可以通过确定瞳孔在眼部区域中的相对位置的方式确定得到。
S620、根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图。
S630、根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
S640、根据目标实际控制眼图,对所述视频流进行更新。
在本实施例中,在针对实时视频流中的各视频帧确定出目标实际控制眼图后,可以基于各目标实际控制眼图对视频流中的各视频帧进行更新,并将更新结果进行播放,以达到自动修正实时视频流中的视线方向的技术效果。
本公开实施例的技术方案通过实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向;根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图;根据目标实际控制眼图,对所述视频流进行更新的方式,可以实时对视频流中的视线方向进行准确、及时且可控的调整,实现方式简单、准确度高且效果稳定,可以满足各类视线方向控制场景的应用需求。
作为上述各视线方向的控制方法的实现,本公开还提供了一种实施上述各视线方向的控制方法的执行装置的可选实施例。
在图7中示出了一种视线方向的控制装置的结构示意图,如图7所述,该装置包括实际眼图获取模块710、虚拟眼图生成模块720以及控制眼图转换模块730,其中:
实际眼图获取模块710,用于获取待视线方向控制的目标实际眼图;
虚拟眼图生成模块720,用于根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;
控制眼图转换模块730,用于根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
本公开实施例的技术方案通过获取待视线方向控制的目标实际眼图;根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图的技术手段,可以直接根据实际所需的视线控制方向,构建得到一个“虚假的”,满足该视线控制方向的虚拟眼图,并通过图像到图像的映射关系,显式得到满足该视线控制方向的实际调整眼图,实现方式简单、准确度高且效果稳定,可以满足各类视线方向控制场景的应用需求。
在上述各实施例的基础上,其中,实际眼图获取模块,可以用于:
获取包含面部轮廓的目标图像,并识别目标图像中包括的眼部关键点;
根据眼部关键点,从目标图像中截取目标实际眼图。
在上述各实施例的基础上,其中,虚拟眼图生成模块,可以包括:
调整空间确定单元,用于在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间;
控制位置确定单元,用于根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置;
虚拟化处理单元,用于根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图。
在上述各实施例的基础上,其中,调整空间确定单元,具体可以用于:
根据目标实际眼图中各眼部关键点的属性信息,分别对左右眼计算连通区域,并将计算得到的两个连通区域分别作为单眼区域;
将每个单眼区域的最小外接矩形,确定为与每个单眼区域分别对应的瞳孔位置调整空间。
在上述各实施例的基础上,其中,控制位置确定单元,具体可以用于:
获取视线控制方向在视线方向调整空间中的目标方向位置;
根据视线方向调整空间与瞳孔位置调整空间之间的空间坐标映射关系,以及目标方向位置,在每个瞳孔位置调整空间中确定瞳孔控制位置。
在上述各实施例的基础上,还可以包括,虹膜半径确定单元,用于:
在多个备选虹膜半径中,选取与目标图像中的面部轮廓匹配的目标虹膜半径。
在上述各实施例的基础上,其中,虚拟化处理单元,具体可以用于:
获取与当前处理单眼区域匹配的当前处理瞳孔控制位置;
根据目标虹膜半径,在目标实际眼图中确定以当前处理瞳孔控制位置为圆心的圆形区域;
计算圆形区域与当前处理单眼区域的图像交集,并将图像交集中的各像素点赋值为第一像素值;
在当前处理单眼区域中,获取所述图像交集的图像补集,并将图像补集中的各像素点赋值为第二像素值,以得到目标虚拟眼图。
在上述各实施例的基础上,其中,控制眼图转换模块,可以用于:
将目标虚拟眼图输入至预先训练的视线图像生成模型中,获取视线控制方向下的目标实际控制眼图;
其中,所述视线图像生成模型使用多个图像映射样本对训练得到,每个图像映射样本对中包括具有匹配关系的标准实际眼图和标准虚拟眼图。
在上述各实施例的基础上,还可以包括:映射样本对生成单元,用于:
获取多个标准实际眼图;
根据在各标准实际眼图中识别到的瞳孔位置,生成与每个标准实际眼图分别对应的标准虚拟眼图;
根据各标准实际眼图以及各标准虚拟眼图,生成多个图像映射样本对。
上述产品可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
作为上述各视线交流方法的实现,本公开还提供了一种实施上述各视线交流方法的执行装置的可选实施例。
在图8中示出了一种视线交流装置的结构示意图,如图8所述,该装置包括实际眼图提取模块810、眼图虚拟模块820、眼图调整模块830以及眼图更新模块840,其中:
眼图提取模块810,用于实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向;
眼图虚拟模块820,用于根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;
眼图调整模块830,用于根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图;
眼图更新模块840,用于根据目标实际控制眼图,对所述视频流进行更新。
本公开实施例的技术方案通过实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向;根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图;根据目标实际控制眼图,对所述视频流进行更新的方式,可以实时对视频流中的视线方向进行准确、及时且可控的调整,实现方式简单、准确度高且效果稳定,可以满足各类视线方向控制场景的应用需求。
需要再次强调的是,虽然本公开技术方案涉及脸部识别、瞳孔识别等图像处理手段,但是本公开各实施例在使用时,需要在用户授权该视线方式的控制功能后,依据法律规定获取目标实际眼图进行视线方向的控制处理,并在用户授权范围内,将处理后得到的目标实际控制眼图,依据法律规定进行展示。
也即:本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如本公开各实施例所述的视线方向的控制方法,或者视线交流方法。例如,在一些实施例中,本公开各实施例所述的视线方向的控制方法,或者视线交流方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的如本公开各实施例所述的视线方向的控制方法,或者视线交流方法中的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开各实施例所述的视线方向的控制方法,或者视线交流方法。
也即,该视线方向的控制方法,可以包括:
获取待视线方向控制的目标实际眼图;
根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;
根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
同时,该视线交流方法,可以包括:
实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向;
根据视线控制方向,在目标实际眼图中确定瞳孔控制位置,并根据瞳孔控制位置,生成与目标实际眼图对应的目标虚拟眼图;
根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图;
根据目标实际控制眼图,对所述视频流进行更新。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (21)

1.一种视线方向的控制方法,包括:
获取待视线方向控制的目标实际眼图;
在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间;其中,所述瞳孔位置调整空间为瞳孔控制位置的可调范围;
根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置;其中,所述瞳孔控制位置为在该视线控制方向下,瞳孔所需位于的眼眶位置;
根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图;
根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
2.根据权利要求1所述的方法,其中,获取待视线方向控制的目标实际眼图,包括:
获取包含面部轮廓的目标图像,并识别目标图像中包括的眼部关键点;
根据眼部关键点,从目标图像中截取目标实际眼图。
3.根据权利要求1所述的方法,其中,在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间,包括:
根据目标实际眼图中各眼部关键点的属性信息,分别对左右眼计算连通区域,并将计算得到的两个连通区域分别作为单眼区域;
将每个单眼区域的最小外接矩形,确定为与每个单眼区域分别对应的瞳孔位置调整空间。
4.根据权利要求1所述的方法,其中,根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置,包括:
获取视线控制方向在视线方向调整空间中的目标方向位置;
根据视线方向调整空间与瞳孔位置调整空间之间的空间坐标映射关系,以及目标方向位置,在每个瞳孔位置调整空间中确定瞳孔控制位置。
5.根据权利要求1所述的方法,还包括:
在多个备选虹膜半径中,选取与目标图像中的面部轮廓匹配的目标虹膜半径。
6.根据权利要求1所述的方法,其中,根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图,包括:
获取与当前处理单眼区域匹配的当前处理瞳孔控制位置;
根据目标虹膜半径,在目标实际眼图中确定以当前处理瞳孔控制位置为圆心的圆形区域;
计算圆形区域与当前处理单眼区域的图像交集,并将图像交集中的各像素点赋值为第一像素值;
在当前处理单眼区域中,获取所述图像交集的图像补集,并将图像补集中的各像素点赋值为第二像素值,以得到目标虚拟眼图。
7.根据权利要求1所述的方法,其中,根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图,包括:
将目标虚拟眼图输入至预先训练的视线图像生成模型中,获取视线控制方向下的目标实际控制眼图;
其中,所述视线图像生成模型使用多个图像映射样本对训练得到,每个图像映射样本对中包括具有匹配关系的标准实际眼图和标准虚拟眼图。
8.根据权利要求7所述的方法,还包括:
获取多个标准实际眼图;
根据在各标准实际眼图中识别到的瞳孔位置,生成与每个标准实际眼图分别对应的标准虚拟眼图;
根据各标准实际眼图以及各标准虚拟眼图,生成多个图像映射样本对。
9.一种视线交流方法,包括:
实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向;
在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间;其中,所述瞳孔位置调整空间为瞳孔控制位置的可调范围;
根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置;其中,所述瞳孔控制位置为在该视线控制方向下,瞳孔所需位于的眼眶位置;
根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图;
根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图;
根据目标实际控制眼图,对所述视频流进行更新。
10.一种视线方向的控制装置,包括:
实际眼图获取模块,用于获取待视线方向控制的目标实际眼图;
虚拟眼图生成模块,包括:
调整空间确定单元,用于在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间;其中,所述瞳孔位置调整空间为瞳孔控制位置的可调范围;
控制位置确定单元,用于根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置;其中,所述瞳孔控制位置为在该视线控制方向下,瞳孔所需位于的眼眶位置;
虚拟化处理单元,用于根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图;
控制眼图转换模块,用于根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。
11.根据权利要求10所述的装置,其中,实际眼图获取模块,用于:
获取包含面部轮廓的目标图像,并识别目标图像中包括的眼部关键点;
根据眼部关键点,从目标图像中截取目标实际眼图。
12.根据权利要求10所述的装置,其中,调整空间确定单元,具体用于:
根据目标实际眼图中各眼部关键点的属性信息,分别对左右眼计算连通区域,并将计算得到的两个连通区域分别作为各单眼区域;
将每个单眼区域的最小外接矩形,确定为与每个单眼区域分别对应的瞳孔位置调整空间。
13.根据权利要求10所述的装置,其中,控制位置确定单元,具体用于:
获取视线控制方向在视线方向调整空间中的目标方向位置;
根据视线方向调整空间与瞳孔位置调整空间之间的空间坐标映射关系,以及目标方向位置,在每个瞳孔位置调整空间中确定瞳孔控制位置。
14.根据权利要求10所述的装置,还包括,虹膜半径确定单元,用于:
在多个备选虹膜半径中,选取与目标图像中的面部轮廓匹配的目标虹膜半径。
15.根据权利要求10所述的装置,其中,虚拟化处理单元,具体用于:
获取与当前处理单眼区域匹配的当前处理瞳孔控制位置;
根据目标虹膜半径,在目标实际眼图中确定以当前处理瞳孔控制位置为圆心的圆形区域;
计算圆形区域与当前处理单眼区域的图像交集,并将图像交集中的各像素点赋值为第一像素值;
在当前处理单眼区域中,获取所述图像交集的图像补集,并将图像补集中的各像素点赋值为第二像素值,以得到目标虚拟眼图。
16.根据权利要求10所述的装置,其中,控制眼图转换模块,用于:
将目标虚拟眼图输入至预先训练的视线图像生成模型中,获取视线控制方向下的目标实际控制眼图;
其中,所述视线图像生成模型使用多个图像映射样本对训练得到,每个图像映射样本对中包括具有匹配关系的标准实际眼图和标准虚拟眼图。
17.根据权利要求16所述的装置,还包括:映射样本对生成单元,用于:
获取多个标准实际眼图;
根据在各标准实际眼图中识别到的瞳孔位置,生成与每个标准实际眼图分别对应的标准虚拟眼图;
根据各标准实际眼图以及各标准虚拟眼图,生成多个图像映射样本对。
18.一种视线交流装置,包括:
眼图提取模块,用于实时获取视频流中的真实或者虚拟形象的目标实际眼图,并在目标实际眼图的当前视线方向不满足视线交流条件时,获取与当前视线交流场景匹配的视线控制方向;
眼图虚拟模块,具体用于在目标实际眼图中识别单眼区域,并确定与每个单眼区域分别对应的瞳孔位置调整空间;其中,所述瞳孔位置调整空间为瞳孔控制位置的可调范围;根据视线控制方向,在每个瞳孔位置调整空间中确定瞳孔控制位置;其中,所述瞳孔控制位置为在该视线控制方向下,瞳孔所需位于的眼眶位置;根据目标虹膜半径以及每个瞳孔控制位置,将每个单眼区域内的图像进行虚拟化处理,得到目标虚拟眼图;
眼图调整模块,用于根据标准实际眼图与标准虚拟眼图之间的图像映射关系,将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图;
眼图更新模块,用于根据目标实际控制眼图,对所述视频流进行更新。
19. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法,或者执行权利要求9所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法,或者执行根据权利要求9所述的方法。
21.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤,或者实现权利要求9所述方法的步骤。
CN202310308842.2A 2023-03-24 2023-03-24 视线方向的控制、视线交流方法、装置、设备及介质 Active CN116382475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310308842.2A CN116382475B (zh) 2023-03-24 2023-03-24 视线方向的控制、视线交流方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310308842.2A CN116382475B (zh) 2023-03-24 2023-03-24 视线方向的控制、视线交流方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116382475A CN116382475A (zh) 2023-07-04
CN116382475B true CN116382475B (zh) 2024-05-14

Family

ID=86960856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310308842.2A Active CN116382475B (zh) 2023-03-24 2023-03-24 视线方向的控制、视线交流方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116382475B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108980A (ja) * 2001-09-28 2003-04-11 Mitsubishi Electric Corp 頭部領域抽出装置およびリアルタイム表情追跡装置
CN102125422A (zh) * 2010-01-12 2011-07-20 北京科技大学 视线追踪系统中基于瞳孔-角膜反射的视线估计方法
CN108701227A (zh) * 2016-03-07 2018-10-23 奇跃公司 用于生物安全的蓝光调节
CN109840019A (zh) * 2019-02-22 2019-06-04 网易(杭州)网络有限公司 虚拟人物的控制方法、装置及存储介质
CN111368717A (zh) * 2020-03-02 2020-07-03 广州虎牙科技有限公司 视线确定方法、装置、电子设备和计算机可读存储介质
CN112016455A (zh) * 2020-08-27 2020-12-01 湖南文理学院 一种基于数学形态学和改进Hough变换的虹膜定位方法
CN112733795A (zh) * 2021-01-22 2021-04-30 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质
CN113192132A (zh) * 2021-03-18 2021-07-30 魔珐(上海)信息科技有限公司 眼神捕捉方法及装置、存储介质、终端
WO2021246012A1 (ja) * 2020-06-05 2021-12-09 株式会社Jvcケンウッド 視線検出装置、視線検出方法、及び視線検出プログラム
CN113822114A (zh) * 2021-05-31 2021-12-21 腾讯科技(深圳)有限公司 一种图像处理方法、相关设备及计算机可读存储介质
CN115830278A (zh) * 2022-11-16 2023-03-21 科大乾延科技有限公司 一种元宇宙会议信息展示方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108980A (ja) * 2001-09-28 2003-04-11 Mitsubishi Electric Corp 頭部領域抽出装置およびリアルタイム表情追跡装置
CN102125422A (zh) * 2010-01-12 2011-07-20 北京科技大学 视线追踪系统中基于瞳孔-角膜反射的视线估计方法
CN108701227A (zh) * 2016-03-07 2018-10-23 奇跃公司 用于生物安全的蓝光调节
CN109840019A (zh) * 2019-02-22 2019-06-04 网易(杭州)网络有限公司 虚拟人物的控制方法、装置及存储介质
CN111368717A (zh) * 2020-03-02 2020-07-03 广州虎牙科技有限公司 视线确定方法、装置、电子设备和计算机可读存储介质
WO2021246012A1 (ja) * 2020-06-05 2021-12-09 株式会社Jvcケンウッド 視線検出装置、視線検出方法、及び視線検出プログラム
CN112016455A (zh) * 2020-08-27 2020-12-01 湖南文理学院 一种基于数学形态学和改进Hough变换的虹膜定位方法
CN112733795A (zh) * 2021-01-22 2021-04-30 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质
CN113192132A (zh) * 2021-03-18 2021-07-30 魔珐(上海)信息科技有限公司 眼神捕捉方法及装置、存储介质、终端
WO2022193809A1 (zh) * 2021-03-18 2022-09-22 魔珐(上海)信息科技有限公司 眼神捕捉方法及装置、存储介质、终端
CN113822114A (zh) * 2021-05-31 2021-12-21 腾讯科技(深圳)有限公司 一种图像处理方法、相关设备及计算机可读存储介质
CN115830278A (zh) * 2022-11-16 2023-03-21 科大乾延科技有限公司 一种元宇宙会议信息展示方法

Also Published As

Publication number Publication date
CN116382475A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US11538229B2 (en) Image processing method and apparatus, electronic device, and computer-readable storage medium
US10460512B2 (en) 3D skeletonization using truncated epipolar lines
WO2018177379A1 (zh) 手势识别、控制及神经网络训练方法、装置及电子设备
WO2020015468A1 (zh) 一种图像传输方法、装置、终端设备及存储介质
WO2022156640A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
KR20200037147A (ko) 응시점 판단 방법 및 장치, 전자 기기 및 컴퓨터 저장 매체
CN113822977A (zh) 图像渲染方法、装置、设备以及存储介质
US11238633B2 (en) Method and apparatus for beautifying face, electronic device, and storage medium
CN105787884A (zh) 一种图像处理方法及电子设备
WO2019062056A1 (zh) 一种智能投影方法、系统及智能终端
US20220375258A1 (en) Image processing method and apparatus, device and storage medium
EP4262193A2 (en) Puppeteering remote avatar by facial expressions
CN111294665A (zh) 视频的生成方法、装置、电子设备及可读存储介质
US20220358675A1 (en) Method for training model, method for processing video, device and storage medium
CN116051729B (zh) 三维内容生成方法、装置和电子设备
CN113221771B (zh) 活体人脸识别方法、装置、设备、存储介质及程序产品
WO2016165614A1 (zh) 一种即时视频中的表情识别方法和电子设备
EP3855386A2 (en) Method, apparatus, device and storage medium for transforming hairstyle and computer program product
CN108665510B (zh) 连拍图像的渲染方法、装置、存储介质及终端
CN115482325B (zh) 画面渲染方法、装置、系统、设备及介质
CN111754431B (zh) 一种图像区域替换方法、装置、设备及存储介质
CN115578515A (zh) 三维重建模型的训练方法、三维场景渲染方法及装置
CN110928509A (zh) 显示控制方法、显示控制装置、存储介质、通信终端
CN113658035A (zh) 脸部变换方法、装置、设备、存储介质以及产品
CN116382475B (zh) 视线方向的控制、视线交流方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant