CN110174942A

CN110174942A - 眼动合成方法及装置

Info

Publication number: CN110174942A
Application number: CN201910365222.6A
Authority: CN
Inventors: 陆峰; 李承坤
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-27
Anticipated expiration: 2039-04-30
Also published as: CN110174942B; US10970909B2; US20200349750A1

Abstract

本发明实施例提供一种眼动合成方法及装置，该方法包括：获取眼动特征数据与言语特征数据，其中，眼动特征数据为反映眼动行为的数据，言语特征数据为反映语音特征的数据。根据眼动特征数据与言语特征数据，得到驱动模型，其中，驱动模型用于指示眼动特征数据与言语特征数据之间的关联关系。根据言语输入数据与驱动模型，合成虚拟人的眼动行为，并控制虚拟人表现出合成后的眼动。本实施例通过根据眼动特征数据与言语特征数据使得虚拟人表现出与语音数据相对应的眼动，从而提高交互的真实感。

Description

眼动合成方法及装置

技术领域

本发明实施例涉及计算机视觉技术，尤其涉及一种眼动合成方法及装置。

背景技术

随着虚拟现实技术与人机交互技术的快速发展，虚拟人的应用已经延伸到各个领域，其中虚拟人的眼动能够有效提供用户与虚拟人之间自然的交互。

目前，现有技术在实现虚拟人的眼动时，通常是通过构建堆叠沙漏网络和稠密网络，从而进行视线估计以得到视线方向，其次根据视线方向控制虚拟人的眼动。

然而，现有技术中虚拟人的眼动无法与虚拟人的语音数据相对应，导致虚拟人的眼动生硬，缺乏真实性。

发明内容

本发明实施例提供一种眼动合成方法及装置，以克服虚拟人的眼动行为生硬，缺乏真实性的问题。

第一方面，本发明实施例提供一种眼动合成方法，包括：

获取眼动特征数据与言语特征数据，其中，所述眼动特征数据为反映眼动行为的数据，所述言语特征数据为反映语音特征的数据；

根据所述眼动特征数据与所述言语特征数据，得到驱动模型，其中，所述驱动模型用于指示所述眼动特征数据与所述言语特征数据之间的关联关系；

根据言语输入数据与所述驱动模型，合成所述虚拟人的眼动，并控制所述虚拟人表现出合成后的眼动。

在一种可能的设计中，所述根据所述眼动特征数据与所述言语特征数据，得到驱动模型，包括：

对所述眼动特征数据与所述言语特征数据分别进行标准化处理，得到数据格式相同的眼动特征数据与言语特征数据；

将所述数据格式相同的眼动特征数据与言语特征数据按照其对应的时间序列进行数据对齐，得到时间序列对齐的眼动特征数据与言语特征数据；

根据所述时间序列对齐的眼动特征数据与言语特征数据，得到驱动模型。

在一种可能的设计中，所述时间序列包括多个时间点，所述根据所述时间序列对齐的眼动特征数据与言语特征数据，得到驱动模型，包括：

将各所述时间点的眼动特征数据言语特征数据输入预设处理模型，得到各所述时间点的眼动特征数据与言语特征数据的关联关系，其中，所述预设处理模型为用于获取眼动特征数据与言语特征数据的关联关系的处理模型；

根据各所述时间点的眼动特征数据与言语特征数据关联关系，得到驱动模型。

在一种可能的设计中，所述获取眼动特征数据与言语特征数据，包括：

获取自然状态下的眼动数据与言语数据，其中所述眼动数据与言语数据在时间序列上相对应；

对所述眼动数据以及所述言语数据分别进行处理，获取眼动特征数据与言语特征数据。

在一种可能的设计中，所述眼动特征数据包括如下中的至少一种：瞳孔直径、视线注视点、视线注视时长、视线方向、眼球转动速度、眼球转动轨迹、眼球转动模式、眨眼动作；

所述言语特征数据包括如下中的至少一种：语音内容、语法结构、语音情绪、音素、韵律、语调。

在一种可能的设计中，所述根据言语输入数据与所述驱动模型，合成所述虚拟人的眼动，包括：

将言语输入数据输入所述驱动模型，得到所述驱动模型输出的眼动行为数据，其中，所述眼动行为数据为指示眼动行为的数据；

根据所述眼动行为数据，合成所述虚拟人的眼动。

在一种可能的设计中，所述得到所述驱动模型输出的眼动行为数据之后，所述方法还包括：

将驱动模型输出的所述眼动行为数据输入心理矫正模型，得到心理矫正后的眼动行为数据，其中，所述心理矫正模型为用于矫正心理行为对眼动行为的影响的模型；和/或

将驱动模型输出的所述眼动行为数据输入时域矫正模型，得到时域连续的眼动行为数据，其中，所述时域矫正模型为用于使得眼动行为在时域上连续的模型。

第二方面，本发明实施例提供一种眼动合成装置，包括：

获取模块，用于获取眼动特征数据与言语特征数据，其中，所述眼动特征数据为反映眼动行为的数据，所述言语特征数据为反映语音特征的数据；

模型模块，用于根据所述眼动特征数据与所述言语特征数据，得到驱动模型，其中，所述驱动模型用于指示所述眼动特征数据与所述言语特征数据之间的关联关系；

合成模块，拥有根据言语输入数据与所述驱动模型，合成所述虚拟人的眼动，并控制所述虚拟人表现出合成后的眼动。

在一种可能的设计中，所述模型模块具体用于：

在一种可能的设计中，所述获取模块，具体用于：

在一种可能的设计中，所述合成模块具体用于：

根据所述眼动行为数据，合成所述虚拟人的眼动。

在一种可能的设计中，还包括：矫正模块；

所述矫正模块，具体用于：所述得到所述驱动模型输出的眼动行为数据之后，将驱动模型输出的所述眼动行为数据输入心理矫正模型，得到心理矫正后的眼动行为数据，其中，所述心理矫正模型为用于矫正心理行为对眼动行为的影响的模型；和/或

第三方面，本发明实施例提供一种眼动合成设备，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。

本发明实施例提供一种眼动合成方法及装置，该方法包括：获取眼动特征数据与言语特征数据，其中，眼动特征数据为反映眼动行为的数据，言语特征数据为反映语音特征的数据。根据眼动特征数据与言语特征数据，得到驱动模型，其中，驱动模型用于指示眼动特征数据与言语特征数据之间的关联关系。根据言语输入数据与驱动模型，合成虚拟人的眼动，并控制虚拟人表现出合成后的眼动。通过根据眼动特征数据与言语特征数据之间的关联关系构建驱动模型，能够使得虚拟人表现出与语音数据相对应的眼动数据，从而避免虚拟人的眼动行为生硬，提高交互的真实感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的眼动合成方法的系统示意图；

图2为本发明实施例提供的眼动合成方法的流程图一；

图3为本发明实施例提供的眼动合成方法的流程图二；

图4为本发明实施例提供的眼动合成装置的结构示意图一；

图5为本发明实施例提供的眼动合成装置的结构示意图二；

图6为本发明实施例提供的眼动合成设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的眼动合成方法的系统示意图。如图1所示，该系统包括：终端设备101以及虚拟人102。

在本发明中，终端设备101可以是移动终端(Mobile Terminal)或移动用户设备等，上述终端设备可以经无线接入网(Radio Access Network，RAN)与一个或多个核心网进行通信。其中，移动终端，如移动电话(或称为“蜂窝”电话)、车载处理装置或具有可移动性的计算机等，可移动性的计算机例如，便携式计算机、袖珍式计算机、手持式计算机、外设广告投屏，承载处理器的虚拟现实眼睛等。

其次，虚拟人102是指通过数字模拟技术实现的虚拟人物，通过终端设备101的屏幕进行显示，其中虚拟人102可以模仿人类的动作，如说话、眨眼、微笑等，虚拟人的外观可以与人类相似，也可以设置为任意非人类的外观，此处对虚拟人102的具体设计以及其具体功能均不做限定。

在本实施例中，虚拟人102至少包括眼动行为，具体的，用户通过终端设备与虚拟人进行交互，其中交互的方式例如可以为通过语音交互，还例如可以为通过鼠标、键盘等外设设备进行交互等，本实施例对此不作限制。

现有技术在实现虚拟人的眼动行为时，通常是通过视线估计以得到视线方向，其次根据视线方向控制虚拟人的眼动行为，其实现的虚拟人的眼动行为无法与语音相结合，从而导致虚拟人的眼动行为生硬，缺乏灵活性。

基于上述问题，本发明提供了一种眼动合成方法，下面结合具体的实施例对本发明提供的眼动合成方法进行详细介绍，首先结合图2进行说明。

图2为本发明实施例提供的眼动合成方法的流程图一。如图2所示，该方法包括：

S201、获取眼动特征数据与言语特征数据，其中，眼动特征数据为反映眼动行为的数据，言语特征数据为反映语音特征的数据。

其中，眼动行为是指眼睛的动作行为，例如可以包括眨眼、视线移动、瞳孔变化等眼睛相关的动作行为，本领域技术人员可以理解，与眼睛有关的任何动作行为都可以是本实施例中的眼动行为。

进一步地，眼动特征数据为反映眼动行为的数据，例如眼动特征数据可以包括眼动的直观数据，如瞳孔直径，还可以包括眼动的注视指标，如视线的注视点、注视时长，还可以包括眼动的动态指标，如眼球转动速度、转动轨迹等，其中眼动特征数据的具体设置可以根据实际需求进行设定，凡是可以用于描述眼动行为的数据都属于眼动特征数据，此处对此不作限定。

其中，言语特征数据为反映语音特征的数据，例如可以包括语音对应的语音内容、语法结构、语调等，凡是可以用于描述语音特征的数据都可以认为是言语特征数据，其具体实现方式可以根据实际需求进行选择，本实施例对言语特征数据不作限定。

在一种可能的实现方式中，例如可以通过采集真实用户在自然状态下的图像数据与对应的语音数据，其次从图像数据中分析眼动数据从而获取眼动特征数据，以及从语音数据中分析言语数据从而获取言语特征数据，其中分析的方式例如可以为自动眼动追踪算法、语音识别等，本实施例对具体的分析方式不作限定。

在另一种可能的实现方式中，例如可以通过网络资源直接获取虚拟人的眼动特征数据与言语特征数据等，本实施例对获取眼动特征数据与言语特征数据的实现方式不做特别限制。

S202、根据眼动特征数据与言语特征数据，得到驱动模型，其中，驱动模型用于指示眼动特征数据与言语特征数据之间的关联关系。

在本实施例中，为实现在虚拟人说话时，根据说话对应的语音数据表现出对应的眼动行为，需要首先确定眼动行为与语音行为之间的关联关系。

具体的，根据眼动特征数据与言语特征数据，得到用于指示眼动特征数据与言语特征数据之间的关联关系的驱动模型，其中构建驱动模型的具体实现方式例如可以为采用机器学习算法对眼动特征数据与言语特征数据进行处理，从而分析其中的关联关系，其中关联关系例如在语音内容是说谎时视线方向向下，或者在语音情绪为惊恐时瞳孔直径增加等

或者，可以采用数据挖掘算法挖掘其中的关联关系，从而得到驱动模型等，本领域技术人员可以理解，只要能够处理得到眼动特征数据与言语特征数据之间的关联关系即可，其具体的处理方式可以根据需求进行选择，本实施例对得到驱动模型的具体实现方式不做限定。

S203、根据言语输入数据与驱动模型，合成虚拟人的眼动行为，并控制虚拟人表现出合成后的眼动。

具体的，将言语输入数据作为驱动模型的输入，从而言语输入数据对应的眼动行为数据，其次根据眼动行为数据合成虚拟人需要表现出的眼动，最终控制虚拟人表现出根据言语输入数据合成后的眼动。

其中，言语输入数据可以为虚拟人的语音数据，例如虚拟人需要根据自身的语音内容表现出对应的眼动，如虚拟人当前的语音内容在说谎，则可以对应表现出视线方向飘忽的眼动。

或者，言语输入数据还可以为用户输入的语音数据，例如虚拟人需要根据用户的语音输入表现出对应的眼动，如用户的语音内容在斥责虚拟人时，虚拟人可以表现出害怕的眼动等。

本发明实施例提供的眼动合成方法，包括：获取眼动特征数据与言语特征数据，其中，眼动特征数据为反映眼动行为的数据，言语特征数据为反映语音特征的数据。根据眼动特征数据与言语特征数据，得到驱动模型，其中，驱动模型用于指示眼动特征数据与言语特征数据之间的关联关系。根据言语输入数据与驱动模型，合成虚拟人的眼动，并控制虚拟人表现出合成后的眼动。通过根据眼动特征数据与言语特征数据之间的关联关系构建驱动模型，能够使得虚拟人表现出与语音数据相对应的眼动，从而避免虚拟人的眼动生硬，提高交互的真实感。

在上述实施例的基础上，下面结合具体的实施例对图1所示的实施例的技术方案进行进一步地详细说明，结合图3进行介绍，图3为本发明实施例提供的眼动合成方法的流程图二。如图3所示，该方法包括：

S301、获取自然状态下的眼动数据与言语数据，其中眼动数据与言语数据在时间序列上相对应。

其中，自然状态下是用户在进行自然对话时的状态，在一种可能的实现方式中，可以通过第一人称角度或者第三人称角度的图像采集设备获取用户的图像数据，其中用户的图像数据例如可以为照片，还例如可以为视频等，本实施例对此不作限定。

其次，根据用户的图像数据获取用户的眼动数据，其中眼动数据例如可以为用户眼部状态的照片，还例如可以为用户眼部动作的视频等，其中图像采集设备例如可以为摄像机、智能手机、照相机、摄像头等，本实施例对获取眼动数据的实现方式不作限定。

进一步地，例如可以为通过声音采集设备获取言语数据，其中声音采集设备例如可以包括智能手机、录音机、录音笔等，但是能够用于采集声音的设备均可以用于获取言语数据。

在本实施例中，为获取眼动数据与言语数据之间的关联关系，因此需要确定在用户说出某言语数据时，其对应的眼动数据的状态，具体的，本实施例中获取的眼动数据与言语数据在时间序列上是相对应的。

假设当前通过摄像机获取了10分钟的用户的言语数据，对应的，同样获取了10分钟的用户的眼动数据，在该10分钟内，每一时间节点的眼动数据均有其对应的言语数据。

在一种可选的实现方式中，还可以通过网络资源直接获取用户的眼动数据与言语数据，而不需要现场采集，以降低操作难度。

S302、对眼动数据以及言语数据分别进行处理，获取眼动特征数据与言语特征数据。

其次，对眼动数据进行处理，从而获取眼动特征数据，其中眼动特征数据包括如下中的至少一种：瞳孔直径、视线注视点、视线注视时长、视线方向、眼球转动速度、眼球转动轨迹、眼球转动模式、眨眼动作。

具体的，例如可以通过自动眼动追踪算法或者半自动眼动追踪算法获取视线注视点、视线注视时长等，还例如可以通过人工眼动标注获取通过眼球转动速度、眼球转动轨迹、眼球转动模式等，本实施例对具体处理所采用的算法不作限定，在实际实现过程中，可以选用任意有效的算法实现获取眼动特征数据。

可选的，鉴于单一的眼动特征数据是短暂的，可以通过分析时域上连续的眼动特征数据，以及结合眼动特征数据的上下文信息，从而获取眼动特征数据的时序性信息，其中眼动特征数据的时序性信息例如可以为视线方向，还例如可以为视线轨迹等，此处对此不做限定，通过获取眼动特征数据的时序性信息能够提高眼动行为的整体性与连续性。

以及本实施例中，对言语数据进行处理以获取言语特征数据，其中言语特征数据包括如下中的至少一种：语音内容、语法结构、语音情绪、音素、韵律、语调。

具体的，例如可以通过语音识别从而获取语音内容，还例如可以通过分词算法从而获取语法结构，还可以采用手动标注以获取语音数据的语音情绪等，本实施例对言语数据处理的具体实现方式不作特别限定，其具体实现可以根据需求进行选择，只要能够获取反映语音特征的数据即可。

S303、对眼动特征数据与言语特征数据分别进行标准化处理，得到数据格式相同的眼动特征数据与言语特征数据。

进一步地，将眼动特征数据与言语特征数据分别处理为数据格式相同的数据，其中数据格式是是描述数据保存的规则，例如可以为整形、布尔型等基本数据格式，还例如可以为可扩展标记语言(Extensible Markup Language，XML)、JSON等数据格式，本实施例对数据格式不作限定，只要眼动特征数据与言语特征数据采用相同的数据格式即可。

在可选的实施例中，标准化处理还可以包括眼动特征数据与言语特征数据的数据大小的归一化处理，或者数据单位的统一处理等，本领域技术人员可以理解，凡是为提高数据处理效率而进行的使得眼动特征数据和言语特征数据在格式、存储方式、单位等方面统一的处理均可以认为是标准化处理，其具体实现方式可以根据实际需求进行选择，本实施例对此不作限定。

通过将眼动特征数据与言语特征数据处理为数据格式相同的数据，可以提升数据处理的效率。

S304、将数据格式相同的眼动特征数据与言语特征数据按照其对应的时间序列进行数据对齐，得到时间序列对齐的眼动特征数据与言语特征数据。

在本实施例中，眼动数据与言语数据在时间序列上是相对应的，则眼动特征数据与言语特征数据同样能够按照时间序列进行对应，例如可以以帧为单位进行数据对齐，从而确定每一帧的眼动特征数据以及对应的言语特征数据。

可选的，还可以以时间的毫秒为单位，将眼动特征数据与言语特征数据按照其对应的时间序列进行数据对齐等，本实施例对具体的实现方式不作限定，只要能够保证眼动特征数据与言语特征数据在时间序列上的对应关系即可。

通过按照时间序列进行数据对齐，从而能够快速获取眼动特征数据与言语特征数据之间的关联关系，以提升数据处理的准确性和效率。

S305、根据时间序列对齐的眼动特征数据与言语特征数据，得到驱动模型，其中，驱动模型用于指示眼动特征数据与言语特征数据之间的关联关系。

进一步地，本实施例中，时间序列包括多个时间点，其中一个时间点例如可以为一帧图像对应的时间点，还例如可以为预设时间单位(如毫秒)对应的时间点。

其次，将各时间点的眼动特征数据言语特征数据输入预设处理模型，得到各时间点的眼动特征数据与言语特征数据的关联关系，其中，预设处理模型为用于获取眼动特征数据与言语特征数据的关联关系的处理模型，例如可以为机器学习算法，或者任意有效的数据挖掘算法等，此处对此不作限定。

进一步地，根据各时间点的眼动特征数据与言语特征数据关联关系，得到驱动模型，其中驱动模型中包含各眼动特征数据与言语特征数据之间的关联关系。

S306、将言语输入数据输入驱动模型，得到驱动模型输出的眼动行为数据，其中，眼动行为数据为指示眼动行为的数据。

S307、根据眼动行为数据，合成虚拟人的眼动。

其次，将言语输入数据输入驱动模型，以得到驱动模型输出的眼动行为数据，眼动行为数据用于指示虚拟人的眼动，例如可以用于指示瞳孔直径至预设放大直径，或者指示视线方向缓慢向下等。

根据眼动行为数据的具体指示信息，合成虚拟人的眼动，其中眼动行为数据为根据言语输入数据与驱动模型得到的，因此虚拟人能够表现出与语音数据对应的眼动。

本发明实施例提供的眼动合成方法，包括：获取自然状态下的眼动数据与言语数据，其中眼动数据与言语数据在时间序列上相对应。对眼动数据以及言语数据分别进行处理，获取眼动特征数据与言语特征数据。对眼动特征数据与言语特征数据分别进行标准化处理，得到数据格式相同的眼动特征数据与言语特征数据。将数据格式相同的眼动特征数据与言语特征数据按照其对应的时间序列进行数据对齐，得到时间序列对齐的眼动特征数据与言语特征数据。根据时间序列对齐的眼动特征数据与言语特征数据，得到驱动模型，其中，驱动模型用于指示眼动特征数据与言语特征数据之间的关联关系。将言语输入数据输入驱动模型，得到驱动模型输出的眼动行为数据，其中，眼动行为数据为指示眼动行为的数据。根据眼动行为数据，合成虚拟人的眼动。通过将眼动特征数据以及言语特征数据进行标准化处理以及数据对齐，能够有效提升数据处理效率以准确率，其次根据言语输入数据与驱动模型，得到用于指示虚拟人的眼动行为的眼动行为数据，从而按照眼动行为数据合成虚拟人需要表现出的眼动，以使得机器人根据语音内容表现出对应的眼动，提升交互的自然性，提升用户体验。

在上述实施例的基础上，本发明实施例提供的眼动合成方法在得到驱动模型输出的眼动行为数据之后，还能够对眼动行为数据进行进一步矫正，以提升眼动行为的正确性，下面结合具体的实施例进行说明。

将驱动模型输出的眼动行为数据输入心理矫正模型，得到心理矫正后的眼动行为数据，其中，心理矫正模型为用于矫正心理行为对眼动行为的影响的模型；和/或

将驱动模型输出的眼动行为数据输入时域矫正模型，得到时域连续的眼动行为数据，其中，时域矫正模型为用于使得眼动行为在时域上连续的模型。

首先对仅对眼动行为数据进行心理矫正的实现方式进行说明，具体的，例如存在在自然环境下用户会避免长时间的对视的心理行为，又例如存在用户在说谎话时视线方向会朝向特定方向等心理行为，根据多个心理行为构建多个心理矫正模型，对驱动模型输出的眼动行为数据进行心理矫正，从而使得输出的眼动行为数据更加符合真实情况下的眼动行为数据。

本领域技术人员可以理解，具体的心理行为可以根据实际需求进行设计以及选择，本实施例对此不作特别限制。

其中，例如可以按照预设周期对多帧眼动数据一次进行心理矫正，或者可以实时对驱动模型输出的眼动行为数据进行心理矫正等，此处对此不作限定。

其次对仅对眼动行为数据进行时域矫正的实现方式进行说明，具体的，驱动模型输出的眼动行为数据指示了单个时间点的眼动行为，其时域上是离散的，在时域上无法连续则会导致虚拟人的眼动行为存在不自然的跳动。

基于此，本实施例将将驱动模型输出的眼动行为数据输入时域矫正模型，以得到时域连续的眼动行为数据，其中，时域矫正模型为用于使得眼动行为在时域上连续的模型，可以为根据关注热力图以及人眼运动方式构建时域矫正模型，其中关注热力图反映了自然状态下视线方向在场景中不同区域的关注概率，而人眼运动方式反映了人眼在自然状态下如何实现方向如何移动。

可选的，还可以采用采集的眼动数据构建时域矫正模型等，本实施例对此不作限定，只要时域矫正模型能够根据离散的眼动行为数据得到连续的实现轨迹即可。

进一步地，当同时进行心理矫正与时域矫正时，例如可以首先将驱动模型输出的眼动行为数据输入心理矫正模型，其次再将心理矫正后的眼动行为数据输入时域矫正模型，以得到心理矫正和时域连续的眼动行为数据，其处理顺序也可以相反，即首先进行时域连续矫正，其次再进行心理矫正等，其中时域连续矫正与心理矫正的具体实现方式与上述介绍的类似，此处不再赘述。

本发明实施例提供的眼动合成方法，包括将驱动模型输出的眼动行为数据输入心理矫正模型，得到心理矫正后的眼动行为数据，其中，心理矫正模型为用于矫正心理行为对眼动行为的影响的模型；和/或将驱动模型输出的眼动行为数据输入时域矫正模型，得到时域连续的眼动行为数据，其中，时域矫正模型为用于使得眼动行为在时域上连续的模型。通过对驱动模型输出的眼动行为进行心理矫正，能够使得虚拟人的眼动更加符合真实场景下的眼动，以提升其交互的自然性，以及通过对驱动模型输出的眼动进行时域连续性处理，能够避免虚拟人的眼动存在不自然的跳动，提高其眼动的连续性。

图4为本发明实施例提供的眼动合成装置的结构示意图一。如图4所示，该装置40包括：获取模块401、模型模块402以及合成模块403。

获取模块401，用于获取眼动特征数据与言语特征数据，其中，眼动特征数据为反映眼动行为的数据，言语特征数据为反映语音特征的数据；

模型模块402，用于根据眼动特征数据与言语特征数据，得到驱动模型，其中，驱动模型用于指示眼动特征数据与言语特征数据之间的关联关系；

合成模块403，拥有根据言语输入数据与驱动模型，合成虚拟人的眼动，并控制虚拟人表现出合成后的眼动。

可选的，模型模块402具体用于：

对眼动特征数据与言语特征数据分别进行标准化处理，得到数据格式相同的眼动特征数据与言语特征数据；

将数据格式相同的眼动特征数据与言语特征数据按照其对应的时间序列进行数据对齐，得到时间序列对齐的眼动特征数据与言语特征数据；

根据时间序列对齐的眼动特征数据与言语特征数据，得到驱动模型。

可选的，模型模块402具体用于：

将各时间点的眼动特征数据言语特征数据输入预设处理模型，得到各时间点的眼动特征数据与言语特征数据的关联关系，其中，预设处理模型为用于获取眼动特征数据与言语特征数据的关联关系的处理模型；

根据各时间点的眼动特征数据与言语特征数据关联关系，得到驱动模型。

可选的，获取模块401，具体用于：

获取自然状态下的眼动数据与言语数据，其中眼动数据与言语数据在时间序列上相对应；

对眼动数据以及言语数据分别进行处理，获取眼动特征数据与言语特征数据。

可选的，眼动特征数据包括如下中的至少一种：瞳孔直径、视线注视点、视线注视时长、视线方向、眼球转动速度、眼球转动轨迹、眼球转动模式、眨眼动作；

言语特征数据包括如下中的至少一种：语音内容、语法结构、语音情绪、音素、韵律、语调。

可选的，合成模块403具体用于：

将言语输入数据输入驱动模型，得到驱动模型输出的眼动行为数据，其中，眼动行为数据为指示眼动行为的数据；

根据眼动行为数据，合成虚拟人的眼动，并控制虚拟人表现出合成后的眼动。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图5为本发明实施例提供的眼动合成装置的结构示意图二。如图5所示，本实施例在图4实施例的基础上，还包括：矫正模块504。

可选的，矫正模块504，具体用于：得到驱动模型输出的眼动行为数据之后，将驱动模型输出的眼动行为数据输入心理矫正模型，得到心理矫正后的眼动行为数据，其中，心理矫正模型为用于矫正心理行为对眼动行为的影响的模型；和/或

图6为本发明实施例提供的眼动合成设备的硬件结构示意图，如图6所示，本实施例的眼动合成设备60包括：处理器601以及存储器602；其中

存储器602，用于存储计算机执行指令；

处理器601，用于执行存储器存储的计算机执行指令，以实现上述实施例中眼动合成方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，存储器602既可以是独立的，也可以跟处理器601集成在一起。

当存储器602独立设置时，该眼动合成设备还包括总线603，用于连接所述存储器602和处理器601。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上眼动合成设备所执行的眼动合成方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种眼动合成方法，其特征在于，包括：

根据言语输入数据与所述驱动模型，合成虚拟人的眼动，并控制所述虚拟人表现出合成后的眼动。

2.根据权利要求1所述的方法，其特征在于，所述根据所述眼动特征数据与所述言语特征数据，得到驱动模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述时间序列包括多个时间点，所述根据所述时间序列对齐的眼动特征数据与言语特征数据，得到驱动模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取眼动特征数据与言语特征数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述眼动特征数据包括如下中的至少一种：瞳孔直径、视线注视点、视线注视时长、视线方向、眼球转动速度、眼球转动轨迹、眼球转动模式、眨眼动作；

6.根据权利要求1所述的方法，其特征在于，所述根据言语输入数据与所述驱动模型，合成所述虚拟人的眼动，包括：

根据所述眼动行为数据，合成所述虚拟人的眼动。

7.根据权利要求6所述的方法，其特征在于，所述得到所述驱动模型输出的眼动行为数据之后，所述方法还包括：

8.一种眼动合成装置，其特征在于，包括：

合成模块，拥有根据言语输入数据与所述驱动模型，合成虚拟人的眼动，并控制所述虚拟人表现出合成后的眼动。

9.一种眼动合成设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如权利要求1至7中任一所述的方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一所述的方法。