CN112001215B

CN112001215B - 一种基于三维唇动的文本无关说话人身份识别方法

Info

Publication number: CN112001215B
Application number: CN202010448968.6A
Authority: CN
Inventors: 王建荣; 吴彤; 王善宇; 方强; 喻梅; 于瑞国; 张句
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-11-24
Anticipated expiration: 2040-05-25
Also published as: CN112001215A

Abstract

本发明涉及一种基于三维唇动的文本无关说话人身份识别方法，通过一个端到端网络，提取唇动瞬时静态和连续动态特征，对特征融合和分析，提取个性化特征，用于说话人身份识别，三维唇部序列不受光照影响，方便姿态矫正，又能精确分割唇部和其他区域。本发明基于唇部运动先验知识的注意力，根据唇部波动唇部区域对对说话人识别的贡献；本工作可以根据人的生物信息和说话习惯来识别说话人，从而打破先前实验中密码固定的限制，具有一定的理论价值和研究意义。

Description

一种基于三维唇动的文本无关说话人身份识别方法

技术领域

本发明属于模式识别领域，涉及唇部建模方法、动作个性化提取方法和识别技术，特别涉及一种基于三维唇动的文本无关说话人身份识别方法。

背景技术

随着自动化技术的发展，身份识别技术被广泛的应用于各种场景。从最开始的密码口令验证，发展到现如今的人脸识别、指纹识别等生物特征识别方式，身份识别技术正朝着更全面、更精确、更安全的方向不断发展。在一些登录验证、访问控制等需要身份认证的场景下，用户不便进行其他形式的输入，因此，根据用户讲话的行为特征进行身份认证的说话人识别技术受到了大量的关注。该技术依照预先存储的用户信息，使用某种匹配机制，对说话人进行身份识别。

在语义表达时，除了语义信息，还包含多种说话人的身份特征，这些特征可以被应用于说话人识别任务。传统的方法中，声纹识别是应用传统的方法中，声纹识别是应用最广泛的方法。很多研究也证明了声纹识别的有效性，但会受到背景噪声、多人说话的影响使得准确度下降。在这样的背景下，包含人脸信息的识别比使用语音在效果上得到一定提升。人脸识别以非接触的采集方式和极高的准确率，成为身份识别应用中的主流方式，被广泛应用。人脸动作表情主要由眼部和唇部完成。唇部动作具有复杂性和个性化差异。

近几年，加入了唇部运动信息进行识别的方法开始出现。唇和唇部动作作为具有个性化差异的生物特征之一，是人类面部动作和发音器官的重要组成部分，已被证明可以用来表征说话人的身份。因此，身份识别任务可以利用三维唇部动作。

目前随着硬件设备的成本降低，深度摄像头逐渐在机器人、手机等智能设备上普及，深度数据可以方便采集。因此，我们提出说话人身份识别的新数据类型—─三维唇部动作序列。相较于声纹和图像，三维数据不受光照条件、噪音的影响，能够精确分割唇部与其他区域，又方便姿态矫正。飞行时间相机极大减弱光照对深度数据采集的影响，为深度信息的广泛应用提供有力支持。该相机能准确地对三维人脸重构，得到唇部的点云图和深度图。

三维数据还可以弥补图像的不足。大多说话人识别是基于图像帧的，但图像的清晰度、脸部朝向、可变光照、无关背景等因素会影响唇部信息，为唇部特征提取带来难度，影响实验效果。目前提出的直方图均衡、小波变换傅里叶变换等图像增强的解决方法也难以完全有效解决环境因素对图像的干扰问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于三维唇动的文本无关说话人身份识别方法，通过一个端到端网络，提取唇动瞬时静态和连续动态特征，对特征融合和分析，提取个性化特征，用于说话人身份识别，三维唇部序列不受光照影响，方便姿态矫正，又能精确分割唇部和其他区域。

本发明解决其技术问题是通过以下技术方案实现的：

一种基于三维唇动的文本无关说话人身份识别方法，其特征在于：所述方法的步骤为：

1)唇部建模：对唇部动作向量的说话人和说话内容建立模型，包括步骤：

S1、唇动数据预处理；

S2、唇动句子序列表示；

S3、唇部动作的分解模型构建；

2)说话人身份识别阶段：网络对与文本无关的说话内容提取说话人唇部特征，并对不同唇部区域调整识别权重，最后识别说话人，包括步骤：

S4、提取唇部点的静态瞬时和动态变化特征；

S5、利用唇动注意力提高唇动数据处理的效率与准确性，找到说话人唇部特征的关键区域，调整唇部各区域在识别中的重要性；

S6、融合并分析唇动特征，并对说话人识别。

而且，所述步骤S1唇动数据预处理的具体操作为：通过坐标轴的平移建立原始点云坐标系到以唇部点为中心的坐标系的映射，对说话人三维人脸数据作姿态纠正，包括人脸左右旋转纠正、头部倾斜纠正及低头仰头纠正。

而且，所述步骤S2利用预处理后的三维数据表示唇动句子序列的具体操作为：对唇动数据按时间排序，均匀选择28帧用来表示句子级的唇部运动，规定唇动句子序列为训练的最小单元，不仅可以横向表示唇部模型的空间位置，还可以纵向表示相邻帧中唇部点的位置变化。

而且，所述步骤S3构建唇部动作模型的具体操作为：定义说话人的唇部动作模型，模型中包括文本唇部动作向量、个性唇部动作向量及噪声向量，对唇部动作模型使用L2范数,强调个性化的说话人唇部特征，减弱说话内容的影响。

而且，所述步骤S4的具体操作为：唇动注意力将每个唇部点看作一个小的区域，根据唇部点的运动筛选出关键区域，自动调整权重向量，改变唇部各点在识别算法中的重要性，抑制无用信息。

而且，所述步骤S5提取唇部点的静态瞬时和动态变化特征的具体操作为：在静态特征的提取中，卷积核对唇部序列在五个时间帧长内提取唇部静态特征；在动态特征的提取中，卷积核仅在时间维度提取唇部点的动态特征，提取每个唇部点在相邻帧的位置变化。

而且，所述步骤S6融合唇动特征并分析唇动特征的具体操作为：唇部动作的静态和动态特征分别训练，再沿通道融合，使用ResNet-34网络的二到五层网络作为端到端网络的特征提取器，并使用ResNet-34的预训练参数作为初始参数，再通过三个全连接层实现说话人的识别任务，对实验的识别率进行计算从而实现对模型效果的评估。

本发明的优点和有益效果为：

1、本发明提出用动态三维唇部数据识别说话人身份，在身份识别技术中动态三维数据具有更高的安全性；唇部特征点的三维数据还可以弥补图像识别对可变光敏感的不足；文本无关的说话内容通过端到端的识别网络，将三维唇部点的动态序列映射到该说话人。

2、本发明基于唇部运动先验知识的注意力，根据唇部波动唇部区域对对说话人识别的贡献；本工作可以根据人的生物信息和说话习惯来识别说话人，从而打破先前实验中密码固定的限制，具有一定的理论价值和研究意义。

附图说明

图1为本发明XY平面上的姿态纠正图；

图2为唇动注意力模型图。

具体实施方式

下面通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

1)对句子级的唇部动作建立模型

S0101：在新坐标系中以左右嘴角的中点作为新的坐标原点，嘴角的连线作为X轴，嘴角上方的垂直方向为Y轴，人脸的前方为Z轴。

对三维人脸数据做姿态纠正，以人脸左右旋转为例：假设人脸特征点在ZX平面上围绕左右嘴角连线的中点旋转，Y轴的坐标值不变，XY平面上的旋转如图1所示。左右嘴角的连线与新坐标系的X′轴重合，原点O为左右嘴角连线的中点，特征点M与原坐标轴X的夹角γ可以通过左右嘴角的原坐标系坐标计算：

γ＝(z_r-z_l)/(x_r-x_l)

其中左右嘴角在原坐标系中的坐标分别为(x_l，z_l)、(x_r，z_r)，两嘴角的距离可表示为：

r²＝(x_r-x_l)²+(z_r-z_l)²

特征点M在原坐标系的坐标为(x_M，z_M)，可以用嘴角距离和该点与原坐标轴的夹角计算：

x_M＝r cosγ，z_M＝r sinγ

同理，点M在新坐标系的坐标(x_M′，z_M′)为：

x_M′＝r cos(γ-θ)，z_M′＝r sin(γ-θ)

其中：θ为X′轴与X轴的夹角，可得特征点坐标变换M′＝TM，变换矩阵T可以表示为：

同理，对三维人脸特征点在XY平面和YZ平面做旋转，可纠正头部倾斜和低头仰头姿态。

S0102：我们从面部的点云中选出唇部的200个点作为唇部，其中上唇下唇各100个点，三维笛卡尔坐标可以描述嘴唇的瞬时状态；坐标集合的序列就可以描述一段时间的唇部运动，我们在不定长的数据中选择28帧表示说话者唇部的运动。

步骤S0103：假设说话人i的文本j的唇部动作模型是：P_ij＝u_j+l_i+ε_ij，其中，u_j是文本唇部动作向量，主要由说话内容j决定，控制发音时的特定唇部形状；l_i是个性唇部动作向量，由说话人习惯和面部肌肉差异造成；ε_ij是噪声向量，主要原因是设备误差和不同记录的数据差；我们对唇部动作模型使用L2范数，我们定义唇部动作模型的L2范数是：

同一说话人不同说话内容的唇部动作模型可以估计为：

多个说话人不同说话内容的唇部动作模型可以估计为：

噪声向量ε_ij是随机变量，由中心极限定理，其应服从正态分布，自然应假设：

因此可得：

该方法分解了复杂唇部动作并建立模型。依据唇部肌肉驱动分析，把唇部动作主要分为共性唇部动作向量和个性唇部动作向量；利用L2范数，强调个性化的说话人唇部特征，减弱了说话内容的影响，更有利于本文中的文本无关的说话人身份识别任务。

2)在说话人身份识别阶段，身份识别网络对与文本无关的说话内容提取说话人唇部特征，并对不同唇部区域调整识别权重，最后利用端到端网络识别说话人。

S0201：由于网络注意力的有限性，同等关注唇部所有区域时可能得不到最高效的唇部信息，把唇部区域以特征点为单位，筛选出与个性化特征有关的区域。统计了数据库中每个人说话的唇部动作，探究唇部特征点的波动大小与说话人识别的关系。

用神经网络和逻辑回归函数来表示唇动注意力在唇动序列上的作用，唇动注意力模型如图2所示。唇部点运动注意力模型的定义为：

我们定义是矩阵和向量的加法，通过向量和矩阵的每行相加实现；θ是唇部点注意向量，表示唇部点对说话人识别的重要性，θ可以用一个逻辑回归函数计算：

其中，ɑ和b是线性变换的系数和偏置；

S0202：使用两个卷积网络分别提取唇部的静态瞬时和动态变化特征。为了简化训练过程，再使用有预训练参数的ResNet-34网络的二到五层网络融合并分析唇动的静态和动态特征，再沿通道融合。

S0203：通过卷积网络和三个全连接层实现说话人的识别任务。

为了证明三维唇动序列在说话人识别中的有效性，我们用实验验证该三维唇动序列在LSTM、VGG-16、和ResNet-34网络中的实验效果。三维唇动序列的实验结果如表1所示。三维唇动序列在ResNet-34中的识别率最高，在VGG-16中的结果略低，在LSTM中的识别率最低。在这三个广泛使用的网络中的识别结果中可以得出，三维唇动序列可以用在在文本无关的说话人身份识别任务中。ResNet-34的实验结果好于LSTM，能说明在卷积网络中使用句子级数据优于在时序网络中使用时间帧数据。

表1三维唇动序列在通用网络的识别结果表

为了证明三维唇动序列的静态点级特征和动态帧级特征有助于说话人识别，我们通过改变编码器提取特征部分的网络来评估这两个特征。我们将ResNet-34网络作为对比实验，改变ResNet-34的前几层用来提取静态点特征和动态帧特征。结果如表2所示。虽然动态帧特征的识别率相对较低，仅为77.6％。但是该特征依然对说话人身份识别任务有效。在ResNet网络中，原始特征的说话人识别率为93.5％，低于点级特征的识别率，但高于帧级特征的识别率。动态特征可以逐帧表示每个唇部点的变化，但缺少唇部的整体特征。因此，动态特征不足以充分代表说话人的特征，但可以补充说话人的唇部动作特征。融合点级特征和帧级特征方法的识别率为93.91％，优于其他唇部特征。静态点级特征和动态帧级特征有助于区分唇部动作中的个体差异。

表2三维唇不同特征的识别结果表

为了评估步骤五唇动注意力，我们用三个有注意力机制的实验来说明唇部注意力的聚焦区域会影响识别结果，如表3所示。无先验知识的注意力(以下简称无先验注意力)实验由唇动注意力自动调整关键识别区域。正相关先验知识的注意力(以下简称正相关注意力)认为运动程度越大的唇部区域对说话人识别贡献越大，并自动调整关键识别区域。而负相关先验知识注意力(以下简称负相关注意力)与正相关注意力相反。三个实验结果较大的差异，说明了唇部区域的不同运动程度确实影响说话人的识别。唇部各区域对识别贡献相等时识别率为93.91％。负相关注意力实验取得了最佳结果，比无注意力的结果提高了1.31％。负相关注意力降低了实验结果，比无注意力的结果低了1.97％。无先验注意力识别率在两者之间。

表3不同唇动注意力的结果比较表

尽管为说明目的公开了本发明的实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例和附图所公开的内容。

Claims

1.一种基于三维唇动的文本无关说话人身份识别方法，其特征在于：所述方法的步骤为：

S1、唇动数据预处理；

S2、唇动句子序列表示；

S3、唇部动作的分解模型构建；

S4、提取唇部点的静态瞬时和动态变化特征；

S6、融合并分析唇动特征，并对说话人识别；

所述步骤S1唇动数据预处理的具体操作为：通过坐标轴的平移建立原始点云坐标系到以唇部点为中心的坐标系的映射，对说话人三维人脸数据作姿态纠正，包括人脸左右旋转纠正、头部倾斜纠正及低头仰头纠正；

所述步骤S2利用预处理后的三维数据表示唇动句子序列的具体操作为：对唇动数据按时间排序，均匀选择28帧用来表示句子级的唇部运动，规定唇动句子序列为训练的最小单元，不仅可以横向表示唇部模型的空间位置，还可以纵向表示相邻帧中唇部点的位置变化；

所述步骤S3构建唇部动作模型的具体操作为：定义说话人的唇部动作模型，模型中包括文本唇部动作向量、个性唇部动作向量及噪声向量，对唇部动作模型使用L2范数，强调个性化的说话人唇部特征，减弱说话内容的影响；

所述步骤S1～S3的具体操作还包括：

S0101：在新坐标系中以左右嘴角的中点作为新的坐标原点，嘴角的连线作为X轴，嘴角上方的垂直方向为Y轴，人脸的前方为Z轴；

对三维人脸数据做姿态纠正，假设人脸特征点在ZX平面上围绕左右嘴角连线的中点旋转，Y轴的坐标值不变，左右嘴角的连线与新坐标系的X'轴重合，原点O为左右嘴角连线的中点，特征点M与原坐标轴X的夹角γ可以通过左右嘴角的原坐标系坐标计算：

γ＝(z_r-z_l)/(x_r-x_l)

r²＝(x_r-x_l)²+(x_r-z_l)²

x_M＝r cosγ，z_M＝r sinγ

同理，点M在新坐标系的坐标(x_M′，z_M′)为：

x_M′＝r cos(γ-θ)，z_M′＝r sin(γ-θ)

其中：θ为X'轴与X轴的夹角，可得特征点坐标变换M′＝TM，变换矩阵T可以表示为：

同理，对三维人脸特征点在XY平面和YZ平面做旋转，可纠正头部倾斜和低头仰头姿态；

S0102：我们从面部的点云中选出唇部的200个点作为唇部，其中上唇下唇各100个点，三维笛卡尔坐标可以描述嘴唇的瞬时状态；坐标集合的序列就可以描述一段时间的唇部运动，我们在不定长的数据中选择28帧表示说话者唇部的运动；

同一说话人不同说话内容的唇部动作模型可以估计为：

多个说话人不同说话内容的唇部动作模型可以估计为：

因此可得：

该方法分解了复杂唇部动作并建立模型，依据唇部肌肉驱动分析，把唇部动作主要分为共性唇部动作向量和个性唇部动作向量；利用L2范数，强调个性化的说话人唇部特征，减弱了说话内容的影响，更有利于本文中的文本无关的说话人身份识别任务；

所述步骤S4提取唇部点的静态瞬时和动态变化特征的具体操作为：在静态特征的提取中，卷积核对唇部序列在五个时间帧长内提取唇部静态特征；在动态特征的提取中，卷积核仅在时间维度提取唇部点的动态特征，提取每个唇部点在相邻帧的位置变化；

所述步骤S5的具体操作为：唇动注意力将每个唇部点看作一个小的区域，根据唇部点的运动筛选出关键区域，自动调整权重向量，改变唇部各点在识别算法中的重要性，抑制无用信息；

所述步骤S6融合唇动特征并分析唇动特征的具体操作为：唇部动作的静态和动态特征分别训练，再沿通道融合，使用ResNet-34网络的二到五层网络作为端到端网络的特征提取器，并使用ResNet-34的预训练参数作为初始参数，再通过三个全连接层实现说话人的识别任务，对实验的识别率进行计算从而实现对模型效果的评估；

所述步骤S4～S6的具体操作还包括：

S0201：用神经网络和逻辑回归函数来表示唇动注意力在唇动序列上的作用，唇部点运动注意力模型的定义为：

其中，ɑ和b是线性变换的系数和偏置；

S0202：使用两个卷积网络分别提取唇部的静态瞬时和动态变化特征，为了简化训练过程，再使用有预训练参数的ResNet-34网络的二到五层网络融合并分析唇动的静态和动态特征，再沿通道融合；