CN116934926B

CN116934926B - 一种基于多模态数据融合的识别方法和系统

Info

Publication number: CN116934926B
Application number: CN202311190623.5A
Authority: CN
Inventors: 黄术; 黄琪敏; 魏祥; 夏航剑
Original assignee: Hangzhou Youhang Information Technology Co ltd
Current assignee: Hangzhou Youhang Information Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-05
Anticipated expiration: 2043-09-15
Also published as: CN116934926A

Abstract

本发明提出了一种基于多模态数据融合的识别方法和系统，其中方法包括：对人脸图像或视频进行3D人脸重建，获得3D人脸参数，所述3D人脸参数姿态参数、形状和表情参数；所述表情参数包括唇形表情参数；通过语音特征抽取网络，在离线阶段从数据库或预先录制的语音样本中提取语音高阶特征，并自适应选择倒谱系数从而获得口唇相关系数，根据所述口唇相关系数结合所述唇形表情参数，建立口唇相关系数网络。通过此方法和系统综合利用人脸图像或视频、语音信息和肢体动作信息，实现了虚拟形象的综合表达，使得虚拟形象具备更加逼真的外貌、口唇合成和整体动作协调，从而实现更加自然、生动的人机交互效果。

Description

一种基于多模态数据融合的识别方法和系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于多模态数据融合的识别方法和系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。如何提升虚拟形象的可接受度，如何让虚拟形象流畅清晰地与用户进行交互，提高虚拟形象真实性，并且如何适应不同语音输入和系统性能的要求，提高口唇识别的准确性和口唇表达的真实感，在保证准确性的同时提高系统的响应速度和处理效率是需要解决的问题。

发明内容

本发明提供了一种基于多模态数据融合的识别方法和系统，用以解决现有技术中产生的虚拟形象不够真实，尤其是身体动作与嘴部动作不协调，人机交互体验差，并且如何适应不同语音输入和系统性能的要求，提高口唇识别的准确性和口唇表达的真实感，在保证准确性的同时提高系统的响应速度和处理效率的问题。

本发明提出的一种基于多模态数据融合的识别方法，所述方法包括：

S1、对人脸图像或视频进行3D人脸重建，获得3D人脸参数，所述3D人脸参数姿态参数、形状和表情参数；所述表情参数包括唇形表情参数；

S2、通过语音特征抽取网络，在离线阶段从数据库或预先录制的语音样本中提取语音高阶特征，并自适应选择倒谱系数从而获得口唇相关系数，根据所述口唇相关系数结合所述唇形表情参数，建立口唇相关系数网络；实时采集语音信息，并动态调整语音缓存队列长度，通过动态调整语音缓存队列长度后的语音信息和所述口唇相关系数网络，进行口唇驱动；S3、获取肢体动作信息，将肢体动作信息与人脸信息进行融合，得到完整的虚拟形象，实现人机交互。

进一步的，一种基于多模态数据融合的识别方法，所述S1包括：

S11、通过人脸关键点检测算法和3D人脸模型，从输入的图像或视频中提取人脸的关键点位置进行3D人脸重建，得到人脸的3D姿态参数、形状和表情参数；

S12、将所述人脸的3D姿态、形状和表情参数表示为一组具有语义信息的向量；

S13、选取所述表情参数与唇形表达相关的部分作为唇形表情参数。

进一步的，一种基于多模态数据融合的识别方法，所述3D人脸重建包括：

获得单张正脸照片；

设置初始的形状参数α和表情参数β的值；

将所述单张正脸照片中的人脸特征点坐标（X）与3D模型对应的68个特征点坐标（X3d）进行匹配；

定义一个目标函数，所述目标函数包括关键点误差的平方和和正则化项；

所述目标函数为：

（1）

（2）

（3）

其中是PCA系数，包括形状系数/>以及表情系数/>，/>表示对应的主成分偏差，λ为正则化项权重；X 是输入的人脸特征点坐标，与3D模型对应的68个特征点坐标进行匹配得到；/>是三维模型投影到二维平面的点，/>，为正交投影矩阵，R为(3, 3)旋转矩阵，/>为位移矩阵，用于平移变换；g为能量方程的系数；/>是人脸模型的形状基函数；/>人脸模型的表情基函数；/>为人脸模型的平均形状；k 表示形状参数和表情参数的个数之和，即 k = (m-1) + (n-1)；/>为人脸重建结果；

通过优化算法，在目标函数的基础上对形状参数α和表情参数β以及其他参数进行迭代更新，使得目标函数最小化；所述优化算法包括梯度下降法、Levenberg-Marquardt算法；

根据最优的形状参数α和表情参数β，使用3D模型和相机参数将重建结果投影到图像平面，从而获得重建后的3D人脸模型在图像上的表现；所述相机参数包括：正交投影矩阵Porth、旋转矩阵R和位移矩阵t2d；

根据人脸重建公式获得最终人脸重建结果和人脸参数信息。

进一步的，一种基于多模态数据融合的识别方法，所述S2包括：

S21、在离线阶段从数据库或预先录制的语音样本中提取特征，根据所述语音特征结合所述唇形表情参数；建立口唇相关系数网络；

S22、实时采集语音信息，通过声学模型和语言模型识别所述语音信息，并保存至缓存队列；

S23、将所述缓存队列中的语音信息进行拼接并映射到口唇相关系数网络；基于拟合的口唇相关系数网络实现语音驱动的虚拟形象唇形表达。

进一步的，一种基于多模态数据融合的识别方法，所述S21包括：

通过语音特征抽取网络，抽取语音高阶特征，捕说话人的共性信；

对所述语音高阶特征进行去噪处理和端点监测得到处理后的语音特征；

将所述处理后的语音特征映射到口唇相关系数网络，生成对应的唇形表情参数；其中，口唇相关系数生成网络为time-delay的LSTM。

进一步的，一种基于多模态数据融合的识别方法，所述口唇相关系数算法包括：

将预处理后的语音信号切分成若干帧，每帧长度为20~30毫秒；

对每帧语音信号应用加窗函数；

对加窗后的语音帧进行快速傅里叶变换，将时域信号转换为频域信号；

将所述频域信号通过一组梅尔滤波器，得到每个滤波器通道的能量；

对所述每个滤波器通道的能量值进行对数运算；

对对数运算之后的数值进行归一化处理得到归一化的能量值；

对所述归一化后的能量值进行离散余弦变换，得到频域的倒谱系数；

从计算得到的倒谱系数中选择口唇相关的系数。

进一步的，一种基于多模态数据融合的识别方法，其中S22包括：

收集一定数量的用于分析的语音样本；

对收集到的语音样本进行处理，所处理包括去除噪声和截取固定时间段；

对处理后的样本进行统计分析，以获取语音长度的分布情况；所述分析包括计算语音平均长度；

根据语音长度分布情况以及实时语音输入情况，动态调整缓存队列的长度。

进一步的，一种基于多模态数据融合的识别方法，所述S3包括：

S31、拍摄预设的人体动作视频，并进行处理和编码；

S32、在虚拟形象与用户交互的过程，根据给定的条件序列生成连续的高清人脸视频；并适时插入相应的预设人体动作视频。

进一步的，一种基于多模态数据融合的识别方法，所述S32包括：

在插入相应的预设人体动作视频过程中，通过基于光流的视频插帧算法对插入视频之间的跳变帧进行视频过渡处理；包括：

使用光流表示人体的运动，通过两个U-Net网络分别估计人体运动和过渡帧的生成；其中，第一个U-Net为光流估计网络，第二个U-Net为过渡帧生成网络；

通过所述光流估计网络估计视频过渡帧的双向光流；

通过所述过渡帧生成网络对光流变换的图像进行补全调整，生成最终插帧图像。

本发明提出一种基于多模态数据融合的识别系统，所述系统包括：

人脸识别模块：对人脸图像或视频进行3D人脸重建，获得3D人脸参数，所述3D人脸参数姿态参数、形状和表情参数；所述表情参数包括唇形表情参数；

语音驱动模块：通过语音特征抽取网络，在离线阶段从数据库或预先录制的语音样本中提取语音高阶特征，并自适应选择倒谱系数从而获得口唇相关系数，根据所述口唇相关系数结合所述唇形表情参数，建立口唇相关系数网络；实时采集语音信息，并动态调整语音缓存队列长度，通过动态调整语音缓存队列长度后的语音信息和所述口唇相关系数网络，进行口唇驱动；

融合模块：获取肢体动作信息，将肢体动作信息与人脸信息进行融合，得到完整的虚拟形象，实现人机交互。

本发明有益效果：通过多模态数据融合的识别方法和系统，利用多模态数据融合实现语音驱动的口唇合成和人机交互通过对人脸图像或视频进行处理，获得3D人脸参数，包括姿态参数、形状和表情参数；这可以使得虚拟形象更贴近真实人脸的外貌特征；建立口唇相关系数网络，通过结合语音信息和口唇相关系数网络，实现语音驱动的口唇运动。这意味着根据输入的语音信息，系统可以自动生成相应的口唇运动，使得虚拟形象的嘴部动作与语音内容相匹配；获取肢体动作信息，将其与人脸信息进行融合。这样可以产生更加真实的虚拟形象，使得整个身体动作和嘴部动作相协调，增强人机交互体验。根据实时语音输入情况和系统处理速度等因素动态调整缓存队列长度；通过适当地控制缓存队列的长度，在保证实时性的同时提高系统的处理效率，使识别结果能够快速返回，提高了语音识别和处理的准确性和效率。总体而言，该方法和系统通过综合利用人脸图像或视频、语音信息和肢体动作信息，实现了虚拟形象的综合表达，使得虚拟形象具备更加逼真的外貌、口唇合成和整体动作协调，从而实现更加自然、生动的人机交互效果。

附图说明

图1为本发明所述一种基于多模态数据融合的识别方法示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本实施例一种基于多模态数据融合的识别方法，如说明书附图1所示，所述方法包括：

上述技术方案的工作原理为：基于图像/视频的3D人脸重建是实现参数化人脸表达、驱动以及编辑的基础，通过人脸关键点检测，3D人脸拟合等步骤提取3D人脸参数，可以得到人脸的3D姿态并将人脸的形状和表情特征使用一组具有语义信息的向量进行表示，其中表情参数中关于唇形表达的部分与语音强相关，因此可以通过神经网络方法学习都语音到唇形表情参数的映射，实现语音驱动的虚拟形象唇形表达，通过语音特征抽取网络从数据库或预先录制的语音样本中提取语音的高阶特征。然后，根据口唇相关系数的需求，自适应选择倒谱系数来计算口唇相关系数，并建立口唇相关系数网络。在实时采集语音信息的过程中，动态调整语音缓存队列长度，然后使用调整后的语音信息和口唇相关系数网络进行口唇驱动；此外，通过编译姿态和表情等人脸参数可以实现特定的人脸表情合成，例如微笑、点头等表情动作的定制，从而使得虚拟形象生成过程具有可控可编辑的能力，适用于更复杂广泛的场景。

上述技术方案的效果为：该方法的效果为利用多模态数据融合实现语音驱动的口唇合成和人机交互。具体包括：通过对人脸图像或视频进行处理，获得3D人脸参数，包括姿态参数、形状和表情参数；这可以使得虚拟形象更贴近真实人脸的外貌特征；建立口唇相关系数网络，通过结合语音信息和口唇相关系数网络，实现语音驱动的口唇运动，根据动态调整的语音缓存队列长度，结合口唇相关系数网络，实现实时口唇驱动；可以使得生成的虚拟形象的嘴唇动作与语音更为一致和自然。这意味着根据输入的语音信息，系统可以自动生成相应的口唇运动，使得虚拟形象的嘴部动作与语音内容相匹配；获取肢体动作信息，将其与人脸信息进行融合。这样可以产生更加真实的虚拟形象，使得整个身体动作和嘴部动作相协调，增强人机交互体验。

总体而言，该方法通过综合利用人脸图像或视频、语音信息和肢体动作信息，实现了虚拟形象的综合表达，使得虚拟形象具备更加逼真的外貌、口唇合成和整体动作协调，从而实现更加自然、生动的人机交互效果。

本实施例一种基于多模态数据融合的识别方法，所述S1包括：

S12、将所述人脸的3D姿态、形状和表情参数表示为一组具有语义信息的向量；这些向量可以用来描述人脸在空间中的姿态和形状特征；

上述技术方案的工作原理为：首先，使用人脸关键点检测算法和3D人脸模型，从输入的图像或视频中提取人脸的关键点位置。然后，利用这些关键点位置进行3D人脸重建，得到人脸的3D姿态参数、形状和表情参数。通过这一步骤，我们可以获取人脸在三维空间中的姿态、形状和表情信息。将人脸的3D姿态、形状和表情参数表示为一组具有语义信息的向量。这些向量可以用来描述人脸在空间中的姿态和形状特征。通过将这些参数转换为向量表示，可以更方便地进行后续处理和分析。在完成向量表示后，从中选取与唇形表达相关的部分作为唇形表情参数。通过分析人脸的形状和表情参数，选择与唇形相关的部分，以捕捉和描述唇部运动和表情的特征。这样，我们可以得到唇形表情参数，用于后续的识别任务。该方法的主要思想是将图像或视频中的人脸信息进行多模态数据融合，通过3D人脸重建和参数表示，提取出与唇形表达相关的参数。这样可以更精确地捕捉和描述唇部运动和表情特征，为后续的识别任务提供更有用的信息。

上述技术方案的效果为：通过使用人脸关键点检测算法和3D人脸模型，可以从输入的图像或视频中提取准确的人脸关键点位置，并进行3D人脸重建。这样得到的人脸的3D姿态参数、形状和表情参数能够更准确地表示人脸的姿态和形状特征。将人脸的3D姿态、形状和表情参数表示为具有语义信息的向量，可以更好地捕捉到人脸在空间中的姿态和形状特征。这些向量能够提供更加丰富、有用的语义信息，便于后续的处理和分析。通过选取与唇形表达相关的部分作为唇形表情参数，能够突出唇部运动和表情的特征。这样可以更精确地描述唇形表情，为后续的识别任务提供更有价值的信息。利用3D人脸重建和参数表示，结合唇形表情参数，可以更准确地捕捉和描述人脸的唇部运动和表情特征。这有助于提高识别任务（如唇语识别、表情识别等）的准确性和性能。

综上所述，基于多模态数据融合的识别方法可以提供更准确、丰富的人脸表示，突出唇形表情特征，并提高识别准确性。这种方法在人脸相关的应用领域，如人机交互、情感识别、安全认证等方面具有广泛的应用前景。

本实施例一种基于多模态数据融合的识别方法，所述3D人脸重建包括：

获得单张正脸照片；

设置初始的形状参数α和表情参数β的值；

定义一个目标函数，所述目标函数包括关键点误差的平方和和正则化项；关键点误差的平方和，表示3D人脸模型投影到图像上后的关键点与图像中特征点的距离差异；正则化项，用于约束形状参数α和表情参数β的范围和平滑性；

所述目标函数为：

（1）

（2）

（3）

根据人脸重建公式获得最终人脸重建结果和人脸参数信息。

上述技术方案的工作原理为：基于人脸关键点和3D人脸模型的人脸重建过程可简化为根据形状和表情参数变形的3D人脸投影到图像上后关键点误差最小，因此3D人脸重建过程可视为形状和表情参数的优化问题，根据上文3D人脸模型可细化表达为以下形式：

其中，α和β为所要求解的形状和表情参数，根据一张单张正脸照片，可以从里面得到人脸的68个特征点坐标（X），在BFM模型中有对应的68个特征点（X3d），根据这些信息便可以求出α和β系数，将平均脸模型与照片中的脸部进行拟合。

具体求解过程如下：

这里Xprojection是三维模型投影到二维平面的点，Porth = [[1,0,0],[0,1,0]]为正交投影矩阵，R(3, 3)为旋转矩阵，为位移矩阵。因此，三维求解问题又可以转化为求解满足以下的能量方程的系数s, R, />以及α和β。

公式中增加了正则化部分，其中γ是PCA系数（包括形状系数α以及表情系数β），σ表示对应的主成分偏差，λ为正则化项权重。

由上式求解使得三维模型中的68特征点投影到二维平面上的值与二维平面原68个特征点距离相差最小的系数则能得到3D人脸重建结果和人脸参数信息。

上述技术方案的效果为：通过3D人脸重建，可以从单张正脸照片中获取更准确的人脸形状和表情参数。利用68个特征点坐标的匹配和目标函数的优化，能够捕捉到更精细的人脸特征，提供更准确的人脸表示；通过对形状参数α和表情参数β等参数进行迭代更新和优化，可以使得重建结果和参数信息更加稳定。这种优化算法（如梯度下降法、Levenberg-Marquardt算法）能够提高重建的鲁棒性，减少误差和偏差。基于3D人脸重建的方法适用于各种不同的人脸图像，无论光照、姿态、表情变化多大，都能够实现较为准确的人脸重建和识别。这种广泛适用性使得该方法在人脸识别领域具有很高的应用价值。通过获得最优的形状参数α和表情参数β，可以得到人脸重建的结果以及相关的参数信息。这些参数信息可以用于后续的人脸分析和应用，如情感识别、面部动作分析等。公式中的目标函数能够量化人脸重建的优化目标，包括关键点误差的平方和和正则化项。通过定义明确的目标函数，可以更准确地衡量人脸重建的精度和稳定性。

综上所述，基于3D人脸重建的人脸识别方法能够提供更准确、稳定的人脸表示，并具有广泛适用性和丰富的参数信息。这种方法在人脸识别、人机交互、虚拟现实等领域有着重要的应用潜力。

本实施例一种基于多模态数据融合的识别方法，所述S2包括：

S22、实时采集语音信息，通过声学模型和语言模型识别所述语音信息，并保存至缓存队列；使用自然语言处理技术，将用户的语音指令转化为机器可理解的格式；可以使用识别模型、关键词匹配等方法来解析用户的指令，并根据指令进行相应的操作；

S23、将所述语音信息映射到口唇相关系数网络；基于拟合的口唇相关系数网络实现语音驱动的虚拟形象唇形表达。

其中，语音识别包括：

语音识别能力具备优秀的识别率，提供全面的开发支持，丰富的开发工具，易于使用。针对中文语音识别能力达到了国际领先水平，对语音识别应用中面临的方言口音、背景噪声等问题，基于实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据。语音识别能力涵盖的模型主要包括声学模型和语言模型。基于如上两个模型，对外提供连续语音识别服务，为客户提供高可用的语音识别框架。通过先进的区分性训练方法进行语音建模，使语音识别在复杂应用环境下均有良好的效果表现。主要包括以下功能特性：

1）支持中文常见语句听写

语音识别对于日常使用的常用对话有着很高的识别准确率，包含短信类、生活、交通、娱乐、科技、数字数值、名人、互联网热词、新闻等领域。

2）支持中文标点智能预测

语音识别使用超大规模的语言模型，对识别结果语句智能预测其对话语境，提供智能断句和标点符号的预测。

3）端点检测

端点检测是对输入的音频流进行分析，确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话，语音开始流向识别引擎，直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。

4）识别结果实时反馈

PGS(progressive)功能，即在语音识别过程中，引擎实时输出当前解码的结果，而不是只返回最终结果，以实现实时上屏的需求。PGS 结果的获取具有不确定性，不是每个时刻都可以获取 PGS 结果。通过PGS开关将指定帧数的识别结果实时的打印出来，会发现这些词语有可能会改变，主要是因为随着帧数的增加，最优词的概率会变大，从而改变之前屏幕上的词语内容。

5）支持词端点检测

该功能是提供识别结果中各个词(字)与音频帧之间的对应关系，给出结果的帧对齐信息。

6）多候选词

（NBEST）多候选功能是识别引擎提供的一个附加功能，对于每条音频，为引擎调用者提供不只一个的识别结果，供调用者候选，以扩展其对外提供服务的能力。多候选功能，分为词级多候选和句子级多候选两类。词级多候选，是以最好的识别结果为基准，对结果中的各个词，给出该词的其他可能选项。句子级多候选，则是在最好的识别结果之外，另外给出几条可能的识别结果做为候选。

7）后处理功能

该功主要将识别引擎输出的文本结果更加人性化的展现给调用者而做的一个操作，当前主要支持如下:

7.1 顺滑(Smooth)

主要将识别结果文本中将一些不合理的语气词替换。

7.2标点(Punc)

根据识别结果给文本内容加上标点符号。

7.3数字规整(Num)

将识别结果中的中文数字更换成合理的阿拉伯数字。

7.4替换列表(Replace)

将识别结果中的某些指定文字替换成列表中映射的文字。

上述技术方案的工作原理为：从数据库或预先录制的语音样本中提取特征，并结合唇形表情参数，建立口唇相关系数网络。这一阶段的目标是通过语音特征和唇形表情参数来训练一个模型，该模型可以根据语音信息预测相应的口唇相关系数。在实时采集语音信息过程中，使用声学模型和语言模型对语音进行识别，并将其保存至缓存队列。然后，使用自然语言处理技术将用户的语音指令转化为机器可理解的格式。可以使用识别模型、关键词匹配等方法来解析用户的指令，并根据指令进行相应的操作。将所述语音信息映射到口唇相关系数网络。基于拟合的口唇相关系数网络，实现语音驱动的虚拟形象唇形表达。在这个阶段，通过将实时语音信息输入到训练好的口唇相关系数网络中，网络会输出对应的口唇相关系数。这些口唇相关系数可以用来控制虚拟形象的唇部运动，从而实现与语音信息的同步表达。

总体来说，整个系统的工作原理是：首先在离线阶段建立口唇相关系数网络，这个网络可以根据语音特征和唇形表情参数预测口唇相关系数；然后在实时阶段，通过语音识别和自然语言处理技术将用户的语音指令转化为机器可理解的格式，并将其映射到口唇相关系数网络中，最终实现语音驱动的虚拟形象唇形表达。

上述技术方案的效果为：通过从数据库或预先录制的语音样本中提取特征，并结合唇形表情参数，建立口唇相关系数网络。这样可以实现语音与口唇动作之间的关联，使得虚拟形象的唇形表达更加自然和准确。系统能够实时采集用户的语音信息，并通过声学模型和语言模型对语音进行识别，将其保存至缓存队列。同时，利用自然语言处理技术将用户的语音指令转化为机器可理解的格式。通过这些处理过程，系统能够快速、准确地理解用户的意图和指令。将实时语音信息映射到口唇相关系数网络，根据网络的输出结果，实现虚拟形象的唇部运动。这样可以实现语音与虚拟形象的同步表达，增强了交互的真实感和沟通的效果。通过语音驱动的虚拟形象唇形表达，用户可以更直观地感受到语音指令和虚拟形象之间的关联，增加了交互的乐趣和沟通的效率。这对于语音交互系统、虚拟形象应用等领域都有着积极的影响。

总体而言，该系统可以实现语音与唇形表达之间的关联，提升语音交互的真实感和用户体验，为用户提供更好的交互方式和沟通效果。同时，它还具备实时处理语音指令和驱动虚拟形象进行唇形表达的能力，使得系统的应用范围更加广。

本实施例一种基于多模态数据融合的识别方法，所述S21包括：

对所述语音高阶特征进行去噪处理得到处理后的语音特征；

将所述处理后的语音特征映射到口唇相关系数网络，生成对应的唇形表情参数；所述网络为time-delay的LSTM；所述网络采用dropout，全连接层, 以及非线性映射层。

上述技术方案的工作原理为：数字人形象依托于语音驱动，鉴于语音与口唇动作有强相关性，对此设计语音特征抽取以及口唇系数预测两个模块：1、语音特征抽取网络，抽取语音高阶特征，捕说话人的共性信息，剔除噪声等信息；2、基于提取到的高阶语音特征映射到口唇相关系数网络，基于拟合的口唇相关系数，可良好的控制头部运动和嘴型等相关信息。此外,为提升虚拟形象的延展性，将对语音驱动口唇系数在多语种上的泛化性进行研究，支持多国语言输入，且生成口型自然准确；虚拟形象具有语音与口唇运动准确，过度自然等特性，对此语音驱动口唇系数生成网络需要考虑时序上的连续性，对此采用time-delay的LSTM，而非双向LSTM，双向LSTM虽然能捕捉上下文信息，但其具有天然的滞后性，需要看完整段语音或者截断语音，不适用于实时场景。Time-delay LSTM综合考虑了当前说话人嘴型和当前语音和后面1~2帧之间的关系，且能有效的保持时序性。此外，网络中采用dropout，全连接层, 以及非线性映射层，保证网络的泛化性。基于此，该网络虽然在真实语音上训练，但可广泛作用于其他语音驱动，如其他说话人声音，TTS合成语音等；总的来说，口唇相关系数网络通常采用 time-delay LSTM 结构。在该网络中，使用 dropout 技术来减少过拟合，全连接层用于执行线性变换操作，非线性映射层则引入了非线性因素以增强网络的表达能力，将线性变换后的输出映射到非线性空间。这些组件共同作用，使得网络能够学习并生成唇形表情参数。

上述技术方案的效果为：通过语音特征抽取网络，提取语音的高阶特征。这些高阶特征能够捕捉到说话人的共性信号，从而更好地区分不同个体之间的语音差异。对提取的语音高阶特征进行去噪处理，得到处理后的语音特征。这样可以减少噪声对语音识别的干扰，提高语音信息的质量和准确性。将处理后的语音特征映射到口唇相关系数网络，生成对应的唇形表情参数。采用time-delay的LSTM网络结构，能够更好地捕捉到语音与唇形之间的时序关系。另外，采用dropout、全连接层和非线性映射层等技术，能够增强网络的学习能力和表达能力。该方法综合了语音和唇形两种模态的信息，实现了多模态数据融合。通过将语音特征映射到唇形表情参数，实现了语音驱动的唇形表达。这样可以使虚拟形象更加生动、真实地呈现说话人的语音特征，增强了交互的体验和有效性。

总体而言，该方法通过多模态数据融合，将语音特征和唇形表情参数相结合，实现了语音识别和唇形表达的联合优化。它能够提高语音识别的准确性和鲁棒性，并实现自然、准确的唇形表达，为语音交互和虚拟形象应用等领域带来了显著的好处和效果。

本实施例一种基于多模态数据融合的识别方法，所述口唇相关系数算法包括：

将预处理后的语音信号切分成若干帧，每帧长度约为20~30毫秒；

对每帧语音信号应用加窗函数，所述加窗函数包括汉明窗、矩形窗；

对所述每个滤波器通道的能量值进行对数运算；

从计算得到的倒谱系数中选择口唇相关的系数；

将选择的相关系数输入到基于时间延迟的LSTM网络中，通过学习和记忆前后文信息，生成对应的唇形表情参数。

其中，将预处理后的语音信号切分成若干帧，包括：

输入：原始语音信号 Y，帧长度 LZ，帧之间的重叠率F；

输出：切分后的语音帧列表 frames。

步骤：

计算每帧的长度（样本数）为 C= LZ ×fp ; fp为采样频率

计算帧移大小为 M = (1 - F) ×C。

初始化当前帧的起始位置为 start = 0。

初始化帧计数器 frame_count = 0。

进入循环，直到满足条件 start + (L-1)<len(x)，其中 len(x) 是语音信号的总样本数;

a. 获取当前帧的结束位置 end = start + (N-1)。

b. 将语音信号从 start 到 end 的样本作为当前帧的数据，存储到 frames[frame_count] 中。

c. 更新帧计数器 frame_count = frame_count + 1。

d. 根据帧移大小 M 更新当前帧的起始位置 start = start + M。

返回切分后的语音帧列表 frames。

从计算得到的倒谱系数中选择口唇相关的系数，包括：

令倒谱系数为；

相邻两个倒谱系数的差值作为差分系数；

=/>

如果；则倒谱系数/>为相关于口唇的运动；

其中，h为倒谱系数个数，s为倒谱系数差值的标准差，为差分系数最大值，/>为差分系数最小值。

上述技术方案的工作原理为：首先，将预处理后的语音信号切分成若干帧。每一帧的长度约为20-30毫秒，具体计算方法是根据采样频率和帧长度来确定每帧的样本数。对每一帧的语音信号应用加窗函数，常用的加窗函数包括汉明窗和矩形窗。加窗函数能够减少信号边界带来的突变，平滑语音信号的边界。对加窗后的语音帧进行快速傅里叶变换，将时域信号转换为频域信号。这样可以得到每个频率分量的强度信息，用于后续的特征提取。将频域信号通过一组梅尔滤波器，得到每个滤波器通道的能量。梅尔滤波器通常在低频区分辨率高，在高频区分辨率低，更符合人耳的感知特性。对每个滤波器通道的能量值进行对数运算，将其转换为对数能量。然后对对数能量进行归一化处理，得到归一化的能量值。这样可以消除能量在不同频率上的差异，突出关键特征。对归一化后的能量值进行离散余弦变换，得到频域的倒谱系数。倒谱系数表示了频域信息在时间上的变化特征，能够反映信号的共振特性。从计算得到的倒谱系数中选择与口唇形状相关的系数。根据实际需要，选取对口唇形状影响较大的倒谱系数作为口唇相关系数。将选择的口唇相关系数作为输入，输入到基于时间延迟的LSTM网络中。通过学习和记忆前后文信息，LSTM网络可以生成对应的唇形表情参数，从而实现语音驱动的唇形表达。

综上所述，该方法通过对预处理后的语音信号进行切分、加窗、傅里叶变换和梅尔滤波器等处理，提取出口唇相关的倒谱系数。然后利用这些系数作为输入，通过LSTM网络生成对应的唇形表情参数，实现语音驱动的唇形表达。这样可以使虚拟形象更加生动、真实地呈现说话人的语音特征。

上述技术方案的效果为：口唇相关系数算法能够从语音信号中提取出与口唇形状相关的特征，可以实现语音驱动的唇形表达。这样可以使虚拟形象更加生动、真实地呈现说话人的语音特征。通过对预处理后的语音信号进行切分、加窗、傅里叶变换和梅尔滤波器等处理，可以提取出能量和倒谱系数等频域特征。这些特征能够反映语音信号的共振特性和口唇形状的变化。归一化处理可以消除不同频率上能量的差异，突出关键特征，提高口唇相关系数的准确性和稳定性。公式中的差分系数表示相邻两个倒谱系数的差值。通过计算差分系数，可以得到倒谱系数的变化情况，从而反映口唇运动的速度和幅度。

公式中的第一项是对差分系数的平均值的一部分。它代表了差分系数的整体变化趋势；公式中的第二项/> 是根据差分系数的极值和标准差进行调节的。它考虑了差分系数的变化幅度和离散程度。如果某个倒谱系数的差分系数大于公式右侧的阈值，则认为该倒谱系数与口唇运动相关。这样选择出口唇相关的倒谱系数，可以过滤掉那些变化较小或与口唇无关的系数。这个公式的好处是能够根据差分系数的变化情况自适应地选择口唇相关的倒谱系数。通过设置阈值，可以控制口唇相关系数的选取程度，从而提高口唇识别系统对口唇运动的准确性。总之，这个公式通过计算倒谱系数的差分系数，并结合差分系数的平均值、极值和标准差来选择与口唇相关的倒谱系数。这样可以有效地过滤掉无关的系数，提高口唇识别的准确性和口唇表达的真实感。

基于时间延迟的LSTM网络能够学习和记忆前后文信息，生成对应的唇形表情参数。这样可以实现口唇运动的连贯和自然，提高口唇表达的真实感和可信度。

综上所述，该口唇相关系数算法能够有效地提取口唇形状相关的特征，并通过LSTM网络生成对应的唇形表情参数。这样可以使虚拟形象更加生动、真实地呈现说话人的语音特征，提高口唇识别的准确性和口唇表达的真实感。

本实施例一种基于多模态数据融合的识别方法，其中S22包括：

收集一定数量的用于分析的语音样本；

对收集到的语音样本进行处理，所处理包括去除噪声和截取固定时间段；选择截取 2 秒或 5 秒的语音段进行后续处理；

根据语音长度分布情况以及实时语音输入情况，动态调整缓存队列的长度；

缓存队列长度为：

为当前系统响应时间，/>为历史数据中系统平均响应时间，/>当前语音长度，/>为统计样本中语音平均长度；/>为系统当前处理速度；/>系统平均处理速度；/>当前语音数量；/>为平均语音数量; Lh0 为预设缓存队列长度；q1、q2、q3为权重系数，范围（0，1）。

上述技术方案的工作原理为：首先，收集一定数量的用于分析的语音样本；对收集到的语音样本进行处理。处理包括去除噪声和截取固定时间段；根据需求，可以选择截取2秒或5秒的语音段进行后续处理。对处理后的样本进行统计分析，以获取语音长度的分布情况。这包括计算语音的平均长度、最大长度和最小长度等指标；根据语音长度分布情况和实时语音输入情况，动态调整缓存队列的长度。根据给定的调整公式，使用各项指标的比较来计算缓存队列长度。

上述技术方案的效果为：通过采集大量的语音样本并对其进行处理和分析，可以获取语音长度的分布情况。这有助于更好地理解不同长度的语音输入，并针对性地调整系统的缓存队列长度，从而提高识别的准确性。该方法根据实时语音输入情况和系统处理速度等因素动态调整缓存队列长度。通过适当地控制缓存队列的长度，可以在保证实时性的同时提高系统的处理效率，使识别结果能够快速返回。根据实际需求，可以选择截取2秒或5秒的语音段进行后续处理。这种灵活性使得该方法可以适应不同场景下的语音识别需求，无论是对较短语音进行快速识别，还是对较长语音进行更详细的分析，都能够得到满意的结果。通过权重系数q1、q2、q3的调整，可以根据不同因素的重要程度自适应地调整缓存队列长度。这有助于平衡各个因素的影响，使系统在不同情况下都能够保持高效的运行状态。通过根据语音长度分布情况和实时语音输入情况，结合历史数据中系统平均相应时间、处理速度以及平均语音数量等因素，动态计算缓存队列长度。这样可以根据当前环境的需求自动调整队列长度，使其能够适应各种工作负载情况，提供更好的性能和效果。公式中的权重系数q1、q2、q3可以根据需求进行调整，以平衡不同因素对缓存队列长度的影响。通过调整权重系数，可以灵活地控制各个因素的权重，从而满足特定场景下的需求，并达到最佳的识别效果。根据语音长度分布情况和实时输入情况，动态调整缓存队列的长度有助于平衡系统的资源利用和响应速度。通过合理地设置队列长度，可以在保证准确性的同时提高系统的响应速度和处理效率，从而提升整体的识别准确性和用户体验。总之，这个公式能够根据实际情况自动调整缓存队列长度，以适应不同语音输入和系统性能的要求。它具有自适应性、灵活性和能够提高准确性和效率的好处和效果，进而提升多模态数据融合识别方法的性能和可用性。

综上所述，基于多模态数据融合的识别方法通过动态调整缓存队列长度，提高准确性、实时性和效率，适应不同场景，并具有自适应调整的优势，从而能够有效地应对语音识别任务。

本实施例一种基于多模态数据融合的识别方法，所述S3包括：

S31、拍摄预设的人体动作视频，并进行处理和编码；所述动作包括例如挥手、点头和微笑动作；

S32、在虚拟形象与用户交互的过程，根据给定的条件序列生成连续的高清人脸视频；并适时插入相应的预设人体动作视频；对于条件序列中频繁变化的部分（如表情、姿势），可以对其进行预处理和缓存，只有当这些条件发生变化时，才需要重新计算生成结果。

基于语言特征、情感特征和说话人身份特征融合驱动和残差U-net结构的图像生成技术获得高清视频；所述高清视频采用基于光流场的vid2vid模型；

通过所述光流估计网络估计视频过渡帧的双向光流；

上述技术方案的工作原理为：根据给定的条件序列生成连续的高清人脸视频，关键技术包括：基于语言特征、情感特征和说话人身份特征融合驱动和残差U-net结构的图像生成技术，该技术可以将不同人在不同情绪下的合成细节刻画地更加逼真，有效保留了面部图像细节；为解决视频稳定性的问题，采用基于光流场的vid2vid模型，使得合成的视频视觉连续性达到真实视频的水平。

动作与语音表情等之间的相互配合能够提升虚拟形象的可接受度。虚拟形象的动作主要可分为人脸和人体两部分：人脸动作通过3D人脸参数提取，不仅能够提取到人脸的ID和表情参数，还能提取到人脸的姿态参数。人脸的姿态参数指的是人脸相对于预定坐标系的位置和姿态，该参数能够使得系统可控制虚拟形象人脸的姿态和动作，配合虚拟形象的语音做出相应的人脸动作；对于人体动作，系统首先拍摄一些场景常用的预设人体动作，比如你好、挥手、再见等常用动作视频，然后在虚拟形象与用户对话的过程中适时地插入相应的动作视频。同时在插入动作视频的过程中，我们使用相应的视频过渡算法对插入视频之间的跳变帧进行视频过渡处理，使得虚拟形象在与用户交互过程中，达到视频无跳帧、画面流畅清晰等要求。

视频之间的过渡处理，使用基于光流的视频插帧算法进行实现。对于视频插帧算法，一个自然而然的想法是：训练一个神经网络直接生成中间的过渡帧。然而，由于人体运动的模式非常多变，且图像的RGB颜色空间自由度过大，导致网络不能生成高质量的过渡帧。因此，这里借助光流的思想，使用光流表示人体的运动，使用两个U-Net网络分别估计人体运动和过渡帧的生成，第一个U-Net称为光流估计网络，第二个U-Net称为过渡帧生成网络，网络的基本框架分为两部分，第一部分的光流估计网络估计视频过渡帧之间的双向光流。光流指的是两帧图像之间，由图像1变换到图像2的变换场，使用光流能够较好地表示视频中的人体运动。然而，由于人体的自遮挡、拍摄光照条件等问题，仅仅使用光流进行变换不能得到质量理想的过渡帧，算法的第二部分使用过渡帧生成网络对光流变换的图像进行补全调整，生成最终的插帧图像，达到最终生成视频流畅不跳帧的效果。

其中，过渡帧生成网络包括：

输入：将两个相邻帧作为输入，记为It和It+1；

特征提取：通过卷积操作将输入图像进行特征提取和编码；

特征融合：使用反卷积和跳跃连接（如残差连接）将编码的特征进行上采样和融合；

生成过渡帧：通过进一步的卷积操作将融合后的特征映射到最终的插帧图像；

计算损失：将生成的插帧图像与目标图像进行比较，计算损失函数；

其中，损失函数为：L=w1*L1+w2*L2

其中；

其中，表示生成的插帧图像，/>表示真实帧，p表示像素总数;

φ表示视觉感知模型提取的特征图；v表示特征图像素总数；w1,w2为权重；

优化参数：通过反向传播和优化算法来更新网络参数，使得损失函数逐渐减小。

基于人脸区域识别、唇动识别，与阵列麦克风的定向语音识别技术结合，实现仅识别指定区域内首次识别人脸的语音对话，进一步做到机器人实时交互过程中交互者的精准定位。

本实施例一种基于多模态数据融合的识别系统，所述系统包括：

上述技术方案的工作原理为：基于图像/视频的3D人脸重建是实现参数化人脸表达、驱动以及编辑的基础，通过人脸关键点检测，3D人脸拟合等步骤提取3D人脸参数，可以得到人脸的3D姿态并将人脸的形状和表情特征使用一组具有语义信息的向量进行表示，其中表情参数中关于唇形表达的部分与语音强相关，因此可以通过神经网络方法学习都语音到唇形表情参数的映射，实现语音驱动的虚拟形象唇形表达，通过语音特征抽取网络从数据库或预先录制的语音样本中提取语音的高阶特征。然后，根据口唇相关系数的需求，自适应选择倒谱系数来计算口唇相关系数，并建立口唇相关系数网络。在实时采集语音信息的过程中，动态调整语音缓存队列长度，然后使用调整后的语音信息和口唇相关系数网络进行口唇驱动；此外，通过编译姿态和表情等人脸参数可以实现特定的人脸表情合成，例如微笑、点头等表情动作的定制，从而使得虚拟形象生成过程具有可控可编辑的能力，适用于更复杂广泛的场景;

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多模态数据融合的识别方法，其特征在于，所述方法包括：

S2、通过语音特征抽取网络，在离线阶段从数据库或预先录制的语音样本中提取语音高阶特征，并自适应选择倒谱系数从而获得口唇相关系数，根据所述口唇相关系数结合所述唇形表情参数，建立口唇相关系数网络；实时采集语音信息，并动态调整语音缓存队列长度，通过动态调整语音缓存队列长度后的语音信息和所述口唇相关系数网络，进行口唇驱动；

S3、获取肢体动作信息，将肢体动作信息与人脸信息进行融合，得到完整的虚拟形象，实现人机交互；

其中，所述3D人脸重建包括：

获得单张正脸照片；

设置初始的形状参数α和表情参数β的值；

将所述单张正脸照片中的人脸特征点坐标与3D模型对应的68个特征点坐标进行匹配；

定义一个目标函数，所述目标函数包括关键点误差的平方和以及正则化项；

通过优化算法，在目标函数的基础上对形状参数α和表情参数β进行迭代更新，使得目标函数最小化；

根据最优的形状参数α和表情参数β，使用3D模型和相机参数将重建结果投影到图像平面，从而获得重建后的3D人脸模型在图像上的表现；

根据人脸重建公式获得最终人脸重建结果和人脸参数信息；

S3包括：

S31、拍摄预设的人体动作视频，并进行处理和编码；

S32、在虚拟形象与用户交互的过程，根据给定的条件序列生成连续的高清人脸视频；并适时插入相应的预设人体动作视频；在插入相应的预设人体动作视频过程中，通过基于光流的视频插帧算法对插入视频之间的跳变帧进行视频过渡处理；包括：

通过所述光流估计网络估计视频过渡帧的双向光流；

2.根据权利要求1所述的一种基于多模态数据融合的识别方法，其特征在于，所述S1包括：

3.根据权利要求1所述的一种基于多模态数据融合的识别方法，其特征在于，所述S2包括：

S21、在离线阶段从数据库或预先录制的语音样本中提取特征，根据语音特征结合唇形表情参数；建立口唇相关系数网络；

S22、实时采集语音信息，通过声学模型和语言模型识别所述语音信息，并保存至缓存队列；并调整缓存队列长度；

4.根据权利要求3所述的一种基于多模态数据融合的识别方法，其特征在于，所述S21包括：

通过语音特征抽取网络，抽取语音高阶特征，捕说话人的共性；

5.根据权利要求4所述的一种基于多模态数据融合的识别方法，其特征在于，口唇相关系数算法包括：

将预处理后的语音信号切分成若干帧，每帧长度为20～30毫秒；

对每帧语音信号应用加窗函数；

对所述每个滤波器通道的能量值进行对数运算；

从计算得到的倒谱系数中选择口唇相关的系数。

6.根据权利要求3所述的一种基于多模态数据融合的识别方法，其特征在于，其中S22包括：

收集用于分析的语音样本；

7.一种基于多模态数据融合的识别系统，其特征在于，所述系统包括：

融合模块：获取肢体动作信息，将肢体动作信息与人脸信息进行融合，得到完整的虚拟形象，实现人机交互；

其中，所述3D人脸重建包括：

获得单张正脸照片；

设置初始的形状参数α和表情参数β的值；

根据人脸重建公式获得最终人脸重建结果和人脸参数信息；

融合模块的方法包括：

拍摄预设的人体动作视频，并进行处理和编码；

在虚拟形象与用户交互的过程，根据给定的条件序列生成连续的高清人脸视频；并适时插入相应的预设人体动作视频；在插入相应的预设人体动作视频过程中，通过基于光流的视频插帧算法对插入视频之间的跳变帧进行视频过渡处理；包括：

通过所述光流估计网络估计视频过渡帧的双向光流；