CN112001215B - 一种基于三维唇动的文本无关说话人身份识别方法 - Google Patents
一种基于三维唇动的文本无关说话人身份识别方法 Download PDFInfo
- Publication number
- CN112001215B CN112001215B CN202010448968.6A CN202010448968A CN112001215B CN 112001215 B CN112001215 B CN 112001215B CN 202010448968 A CN202010448968 A CN 202010448968A CN 112001215 B CN112001215 B CN 112001215B
- Authority
- CN
- China
- Prior art keywords
- lip
- speaker
- movement
- point
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000003068 static effect Effects 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims abstract description 10
- 238000002474 experimental method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000001052 transient effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 210000001097 facial muscle Anatomy 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 210000003205 muscle Anatomy 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims 1
- 230000002401 inhibitory effect Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 238000005286 illumination Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010034960 Photophobia Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 208000013469 light sensitivity Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于三维唇动的文本无关说话人身份识别方法,通过一个端到端网络,提取唇动瞬时静态和连续动态特征,对特征融合和分析,提取个性化特征,用于说话人身份识别,三维唇部序列不受光照影响,方便姿态矫正,又能精确分割唇部和其他区域。本发明基于唇部运动先验知识的注意力,根据唇部波动唇部区域对对说话人识别的贡献;本工作可以根据人的生物信息和说话习惯来识别说话人,从而打破先前实验中密码固定的限制,具有一定的理论价值和研究意义。
Description
技术领域
本发明属于模式识别领域,涉及唇部建模方法、动作个性化提取方法和识别技术,特别涉及一种基于三维唇动的文本无关说话人身份识别方法。
背景技术
随着自动化技术的发展,身份识别技术被广泛的应用于各种场景。从最开始的密码口令验证,发展到现如今的人脸识别、指纹识别等生物特征识别方式,身份识别技术正朝着更全面、更精确、更安全的方向不断发展。在一些登录验证、访问控制等需要身份认证的场景下,用户不便进行其他形式的输入,因此,根据用户讲话的行为特征进行身份认证的说话人识别技术受到了大量的关注。该技术依照预先存储的用户信息,使用某种匹配机制,对说话人进行身份识别。
在语义表达时,除了语义信息,还包含多种说话人的身份特征,这些特征可以被应用于说话人识别任务。传统的方法中,声纹识别是应用传统的方法中,声纹识别是应用最广泛的方法。很多研究也证明了声纹识别的有效性,但会受到背景噪声、多人说话的影响使得准确度下降。在这样的背景下,包含人脸信息的识别比使用语音在效果上得到一定提升。人脸识别以非接触的采集方式和极高的准确率,成为身份识别应用中的主流方式,被广泛应用。人脸动作表情主要由眼部和唇部完成。唇部动作具有复杂性和个性化差异。
近几年,加入了唇部运动信息进行识别的方法开始出现。唇和唇部动作作为具有个性化差异的生物特征之一,是人类面部动作和发音器官的重要组成部分,已被证明可以用来表征说话人的身份。因此,身份识别任务可以利用三维唇部动作。
目前随着硬件设备的成本降低,深度摄像头逐渐在机器人、手机等智能设备上普及,深度数据可以方便采集。因此,我们提出说话人身份识别的新数据类型—─三维唇部动作序列。相较于声纹和图像,三维数据不受光照条件、噪音的影响,能够精确分割唇部与其他区域,又方便姿态矫正。飞行时间相机极大减弱光照对深度数据采集的影响,为深度信息的广泛应用提供有力支持。该相机能准确地对三维人脸重构,得到唇部的点云图和深度图。
三维数据还可以弥补图像的不足。大多说话人识别是基于图像帧的,但图像的清晰度、脸部朝向、可变光照、无关背景等因素会影响唇部信息,为唇部特征提取带来难度,影响实验效果。目前提出的直方图均衡、小波变换傅里叶变换等图像增强的解决方法也难以完全有效解决环境因素对图像的干扰问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于三维唇动的文本无关说话人身份识别方法,通过一个端到端网络,提取唇动瞬时静态和连续动态特征,对特征融合和分析,提取个性化特征,用于说话人身份识别,三维唇部序列不受光照影响,方便姿态矫正,又能精确分割唇部和其他区域。
本发明解决其技术问题是通过以下技术方案实现的:
一种基于三维唇动的文本无关说话人身份识别方法,其特征在于:所述方法的步骤为:
1)唇部建模:对唇部动作向量的说话人和说话内容建立模型,包括步骤:
S1、唇动数据预处理;
S2、唇动句子序列表示;
S3、唇部动作的分解模型构建;
2)说话人身份识别阶段:网络对与文本无关的说话内容提取说话人唇部特征,并对不同唇部区域调整识别权重,最后识别说话人,包括步骤:
S4、提取唇部点的静态瞬时和动态变化特征;
S5、利用唇动注意力提高唇动数据处理的效率与准确性,找到说话人唇部特征的关键区域,调整唇部各区域在识别中的重要性;
S6、融合并分析唇动特征,并对说话人识别。
而且,所述步骤S1唇动数据预处理的具体操作为:通过坐标轴的平移建立原始点云坐标系到以唇部点为中心的坐标系的映射,对说话人三维人脸数据作姿态纠正,包括人脸左右旋转纠正、头部倾斜纠正及低头仰头纠正。
而且,所述步骤S2利用预处理后的三维数据表示唇动句子序列的具体操作为:对唇动数据按时间排序,均匀选择28帧用来表示句子级的唇部运动,规定唇动句子序列为训练的最小单元,不仅可以横向表示唇部模型的空间位置,还可以纵向表示相邻帧中唇部点的位置变化。
而且,所述步骤S3构建唇部动作模型的具体操作为:定义说话人的唇部动作模型,模型中包括文本唇部动作向量、个性唇部动作向量及噪声向量,对唇部动作模型使用L2范数,强调个性化的说话人唇部特征,减弱说话内容的影响。
而且,所述步骤S4的具体操作为:唇动注意力将每个唇部点看作一个小的区域,根据唇部点的运动筛选出关键区域,自动调整权重向量,改变唇部各点在识别算法中的重要性,抑制无用信息。
而且,所述步骤S5提取唇部点的静态瞬时和动态变化特征的具体操作为:在静态特征的提取中,卷积核对唇部序列在五个时间帧长内提取唇部静态特征;在动态特征的提取中,卷积核仅在时间维度提取唇部点的动态特征,提取每个唇部点在相邻帧的位置变化。
而且,所述步骤S6融合唇动特征并分析唇动特征的具体操作为:唇部动作的静态和动态特征分别训练,再沿通道融合,使用ResNet-34网络的二到五层网络作为端到端网络的特征提取器,并使用ResNet-34的预训练参数作为初始参数,再通过三个全连接层实现说话人的识别任务,对实验的识别率进行计算从而实现对模型效果的评估。
本发明的优点和有益效果为:
1、本发明提出用动态三维唇部数据识别说话人身份,在身份识别技术中动态三维数据具有更高的安全性;唇部特征点的三维数据还可以弥补图像识别对可变光敏感的不足;文本无关的说话内容通过端到端的识别网络,将三维唇部点的动态序列映射到该说话人。
2、本发明基于唇部运动先验知识的注意力,根据唇部波动唇部区域对对说话人识别的贡献;本工作可以根据人的生物信息和说话习惯来识别说话人,从而打破先前实验中密码固定的限制,具有一定的理论价值和研究意义。
附图说明
图1为本发明XY平面上的姿态纠正图;
图2为唇动注意力模型图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
一种基于三维唇动的文本无关说话人身份识别方法,其特征在于:所述方法的步骤为:
1)对句子级的唇部动作建立模型
S0101:在新坐标系中以左右嘴角的中点作为新的坐标原点,嘴角的连线作为X轴,嘴角上方的垂直方向为Y轴,人脸的前方为Z轴。
对三维人脸数据做姿态纠正,以人脸左右旋转为例:假设人脸特征点在ZX平面上围绕左右嘴角连线的中点旋转,Y轴的坐标值不变,XY平面上的旋转如图1所示。左右嘴角的连线与新坐标系的X′轴重合,原点O为左右嘴角连线的中点,特征点M与原坐标轴X的夹角γ可以通过左右嘴角的原坐标系坐标计算:
γ=(zr-zl)/(xr-xl)
其中左右嘴角在原坐标系中的坐标分别为(xl,zl)、(xr,zr),两嘴角的距离可表示为:
r2=(xr-xl)2+(zr-zl)2
特征点M在原坐标系的坐标为(xM,zM),可以用嘴角距离和该点与原坐标轴的夹角计算:
xM=r cosγ,zM=r sinγ
同理,点M在新坐标系的坐标(xM′,zM′)为:
xM′=r cos(γ-θ),zM′=r sin(γ-θ)
其中:θ为X′轴与X轴的夹角,可得特征点坐标变换M′=TM,变换矩阵T可以表示为:
同理,对三维人脸特征点在XY平面和YZ平面做旋转,可纠正头部倾斜和低头仰头姿态。
S0102:我们从面部的点云中选出唇部的200个点作为唇部,其中上唇下唇各100个点,三维笛卡尔坐标可以描述嘴唇的瞬时状态;坐标集合的序列就可以描述一段时间的唇部运动,我们在不定长的数据中选择28帧表示说话者唇部的运动。
步骤S0103:假设说话人i的文本j的唇部动作模型是:Pij=uj+li+εij,其中,uj是文本唇部动作向量,主要由说话内容j决定,控制发音时的特定唇部形状;li是个性唇部动作向量,由说话人习惯和面部肌肉差异造成;εij是噪声向量,主要原因是设备误差和不同记录的数据差;我们对唇部动作模型使用L2范数,我们定义唇部动作模型的L2范数是:
同一说话人不同说话内容的唇部动作模型可以估计为:
多个说话人不同说话内容的唇部动作模型可以估计为:
噪声向量εij是随机变量,由中心极限定理,其应服从正态分布,自然应假设:
因此可得:
该方法分解了复杂唇部动作并建立模型。依据唇部肌肉驱动分析,把唇部动作主要分为共性唇部动作向量和个性唇部动作向量;利用L2范数,强调个性化的说话人唇部特征,减弱了说话内容的影响,更有利于本文中的文本无关的说话人身份识别任务。
2)在说话人身份识别阶段,身份识别网络对与文本无关的说话内容提取说话人唇部特征,并对不同唇部区域调整识别权重,最后利用端到端网络识别说话人。
S0201:由于网络注意力的有限性,同等关注唇部所有区域时可能得不到最高效的唇部信息,把唇部区域以特征点为单位,筛选出与个性化特征有关的区域。统计了数据库中每个人说话的唇部动作,探究唇部特征点的波动大小与说话人识别的关系。
用神经网络和逻辑回归函数来表示唇动注意力在唇动序列上的作用,唇动注意力模型如图2所示。唇部点运动注意力模型的定义为:
我们定义是矩阵和向量的加法,通过向量和矩阵的每行相加实现;θ是唇部点注意向量,表示唇部点对说话人识别的重要性,θ可以用一个逻辑回归函数计算:
其中,ɑ和b是线性变换的系数和偏置;
S0202:使用两个卷积网络分别提取唇部的静态瞬时和动态变化特征。为了简化训练过程,再使用有预训练参数的ResNet-34网络的二到五层网络融合并分析唇动的静态和动态特征,再沿通道融合。
S0203:通过卷积网络和三个全连接层实现说话人的识别任务。
为了证明三维唇动序列在说话人识别中的有效性,我们用实验验证该三维唇动序列在LSTM、VGG-16、和ResNet-34网络中的实验效果。三维唇动序列的实验结果如表1所示。三维唇动序列在ResNet-34中的识别率最高,在VGG-16中的结果略低,在LSTM中的识别率最低。在这三个广泛使用的网络中的识别结果中可以得出,三维唇动序列可以用在在文本无关的说话人身份识别任务中。ResNet-34的实验结果好于LSTM,能说明在卷积网络中使用句子级数据优于在时序网络中使用时间帧数据。
表1三维唇动序列在通用网络的识别结果表
为了证明三维唇动序列的静态点级特征和动态帧级特征有助于说话人识别,我们通过改变编码器提取特征部分的网络来评估这两个特征。我们将ResNet-34网络作为对比实验,改变ResNet-34的前几层用来提取静态点特征和动态帧特征。结果如表2所示。虽然动态帧特征的识别率相对较低,仅为77.6%。但是该特征依然对说话人身份识别任务有效。在ResNet网络中,原始特征的说话人识别率为93.5%,低于点级特征的识别率,但高于帧级特征的识别率。动态特征可以逐帧表示每个唇部点的变化,但缺少唇部的整体特征。因此,动态特征不足以充分代表说话人的特征,但可以补充说话人的唇部动作特征。融合点级特征和帧级特征方法的识别率为93.91%,优于其他唇部特征。静态点级特征和动态帧级特征有助于区分唇部动作中的个体差异。
表2三维唇不同特征的识别结果表
为了评估步骤五唇动注意力,我们用三个有注意力机制的实验来说明唇部注意力的聚焦区域会影响识别结果,如表3所示。无先验知识的注意力(以下简称无先验注意力)实验由唇动注意力自动调整关键识别区域。正相关先验知识的注意力(以下简称正相关注意力)认为运动程度越大的唇部区域对说话人识别贡献越大,并自动调整关键识别区域。而负相关先验知识注意力(以下简称负相关注意力)与正相关注意力相反。三个实验结果较大的差异,说明了唇部区域的不同运动程度确实影响说话人的识别。唇部各区域对识别贡献相等时识别率为93.91%。负相关注意力实验取得了最佳结果,比无注意力的结果提高了1.31%。负相关注意力降低了实验结果,比无注意力的结果低了1.97%。无先验注意力识别率在两者之间。
表3不同唇动注意力的结果比较表
尽管为说明目的公开了本发明的实施例和附图,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例和附图所公开的内容。
Claims (1)
1.一种基于三维唇动的文本无关说话人身份识别方法,其特征在于:所述方法的步骤为:
1)唇部建模:对唇部动作向量的说话人和说话内容建立模型,包括步骤:
S1、唇动数据预处理;
S2、唇动句子序列表示;
S3、唇部动作的分解模型构建;
2)说话人身份识别阶段:网络对与文本无关的说话内容提取说话人唇部特征,并对不同唇部区域调整识别权重,最后识别说话人,包括步骤:
S4、提取唇部点的静态瞬时和动态变化特征;
S5、利用唇动注意力提高唇动数据处理的效率与准确性,找到说话人唇部特征的关键区域,调整唇部各区域在识别中的重要性;
S6、融合并分析唇动特征,并对说话人识别;
所述步骤S1唇动数据预处理的具体操作为:通过坐标轴的平移建立原始点云坐标系到以唇部点为中心的坐标系的映射,对说话人三维人脸数据作姿态纠正,包括人脸左右旋转纠正、头部倾斜纠正及低头仰头纠正;
所述步骤S2利用预处理后的三维数据表示唇动句子序列的具体操作为:对唇动数据按时间排序,均匀选择28帧用来表示句子级的唇部运动,规定唇动句子序列为训练的最小单元,不仅可以横向表示唇部模型的空间位置,还可以纵向表示相邻帧中唇部点的位置变化;
所述步骤S3构建唇部动作模型的具体操作为:定义说话人的唇部动作模型,模型中包括文本唇部动作向量、个性唇部动作向量及噪声向量,对唇部动作模型使用L2范数,强调个性化的说话人唇部特征,减弱说话内容的影响;
所述步骤S1~S3的具体操作还包括:
S0101:在新坐标系中以左右嘴角的中点作为新的坐标原点,嘴角的连线作为X轴,嘴角上方的垂直方向为Y轴,人脸的前方为Z轴;
对三维人脸数据做姿态纠正,假设人脸特征点在ZX平面上围绕左右嘴角连线的中点旋转,Y轴的坐标值不变,左右嘴角的连线与新坐标系的X'轴重合,原点O为左右嘴角连线的中点,特征点M与原坐标轴X的夹角γ可以通过左右嘴角的原坐标系坐标计算:
γ=(zr-zl)/(xr-xl)
其中左右嘴角在原坐标系中的坐标分别为(xl,zl)、(xr,zr),两嘴角的距离可表示为:
r2=(xr-xl)2+(xr-zl)2
特征点M在原坐标系的坐标为(xM,zM),可以用嘴角距离和该点与原坐标轴的夹角计算:
xM=r cosγ,zM=r sinγ
同理,点M在新坐标系的坐标(xM′,zM′)为:
xM′=r cos(γ-θ),zM′=r sin(γ-θ)
其中:θ为X'轴与X轴的夹角,可得特征点坐标变换M′=TM,变换矩阵T可以表示为:
同理,对三维人脸特征点在XY平面和YZ平面做旋转,可纠正头部倾斜和低头仰头姿态;
S0102:我们从面部的点云中选出唇部的200个点作为唇部,其中上唇下唇各100个点,三维笛卡尔坐标可以描述嘴唇的瞬时状态;坐标集合的序列就可以描述一段时间的唇部运动,我们在不定长的数据中选择28帧表示说话者唇部的运动;
步骤S0103:假设说话人i的文本j的唇部动作模型是:Pij=uj+li+εij,其中,uj是文本唇部动作向量,主要由说话内容j决定,控制发音时的特定唇部形状;li是个性唇部动作向量,由说话人习惯和面部肌肉差异造成;εij是噪声向量,主要原因是设备误差和不同记录的数据差;我们对唇部动作模型使用L2范数,我们定义唇部动作模型的L2范数是:
同一说话人不同说话内容的唇部动作模型可以估计为:
多个说话人不同说话内容的唇部动作模型可以估计为:
噪声向量εij是随机变量,由中心极限定理,其应服从正态分布,自然应假设:
因此可得:
该方法分解了复杂唇部动作并建立模型,依据唇部肌肉驱动分析,把唇部动作主要分为共性唇部动作向量和个性唇部动作向量;利用L2范数,强调个性化的说话人唇部特征,减弱了说话内容的影响,更有利于本文中的文本无关的说话人身份识别任务;
所述步骤S4提取唇部点的静态瞬时和动态变化特征的具体操作为:在静态特征的提取中,卷积核对唇部序列在五个时间帧长内提取唇部静态特征;在动态特征的提取中,卷积核仅在时间维度提取唇部点的动态特征,提取每个唇部点在相邻帧的位置变化;
所述步骤S5的具体操作为:唇动注意力将每个唇部点看作一个小的区域,根据唇部点的运动筛选出关键区域,自动调整权重向量,改变唇部各点在识别算法中的重要性,抑制无用信息;
所述步骤S6融合唇动特征并分析唇动特征的具体操作为:唇部动作的静态和动态特征分别训练,再沿通道融合,使用ResNet-34网络的二到五层网络作为端到端网络的特征提取器,并使用ResNet-34的预训练参数作为初始参数,再通过三个全连接层实现说话人的识别任务,对实验的识别率进行计算从而实现对模型效果的评估;
所述步骤S4~S6的具体操作还包括:
S0201:用神经网络和逻辑回归函数来表示唇动注意力在唇动序列上的作用,唇部点运动注意力模型的定义为:
我们定义是矩阵和向量的加法,通过向量和矩阵的每行相加实现;θ是唇部点注意向量,表示唇部点对说话人识别的重要性,θ可以用一个逻辑回归函数计算:
其中,ɑ和b是线性变换的系数和偏置;
S0202:使用两个卷积网络分别提取唇部的静态瞬时和动态变化特征,为了简化训练过程,再使用有预训练参数的ResNet-34网络的二到五层网络融合并分析唇动的静态和动态特征,再沿通道融合;
S0203:通过卷积网络和三个全连接层实现说话人的识别任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010448968.6A CN112001215B (zh) | 2020-05-25 | 2020-05-25 | 一种基于三维唇动的文本无关说话人身份识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010448968.6A CN112001215B (zh) | 2020-05-25 | 2020-05-25 | 一种基于三维唇动的文本无关说话人身份识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001215A CN112001215A (zh) | 2020-11-27 |
CN112001215B true CN112001215B (zh) | 2023-11-24 |
Family
ID=73466381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010448968.6A Active CN112001215B (zh) | 2020-05-25 | 2020-05-25 | 一种基于三维唇动的文本无关说话人身份识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001215B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903344B (zh) * | 2021-12-07 | 2022-03-11 | 杭州兆华电子有限公司 | 基于多通道小波分解共同降噪的深度学习声纹识别方法 |
CN114299952B (zh) * | 2021-12-29 | 2022-08-19 | 湖北微模式科技发展有限公司 | 结合多种运动分析的话者角色区分方法及系统 |
CN115170818A (zh) * | 2022-07-27 | 2022-10-11 | 北京拙河科技有限公司 | 一种动态帧画面特征提取方法及装置 |
CN116405635A (zh) * | 2023-06-02 | 2023-07-07 | 山东正中信息技术股份有限公司 | 一种基于边缘计算的多模态会议记录方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019062721A1 (zh) * | 2017-09-29 | 2019-04-04 | 腾讯科技(深圳)有限公司 | 语音身份特征提取器、分类器训练方法及相关设备 |
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8050919B2 (en) * | 2007-06-29 | 2011-11-01 | Microsoft Corporation | Speaker recognition via voice sample based on multiple nearest neighbor classifiers |
-
2020
- 2020-05-25 CN CN202010448968.6A patent/CN112001215B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019062721A1 (zh) * | 2017-09-29 | 2019-04-04 | 腾讯科技(深圳)有限公司 | 语音身份特征提取器、分类器训练方法及相关设备 |
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
3D Convolutional Neural Networks Based Speaker Identification andAuthentication;Jianguo Liao,et al;《2018 25th IEEE International Conference on Image Processing (ICIP)》;第2381-2385页 * |
基于唇动的说话人识别技术;刘庆辉 等;《计算机工程与应用》;第85-88页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112001215A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001215B (zh) | 一种基于三维唇动的文本无关说话人身份识别方法 | |
CN101964064B (zh) | 一种人脸比对方法 | |
USRE42205E1 (en) | Method and system for real-time facial image enhancement | |
CN104008370B (zh) | 一种视频人脸识别方法 | |
CN104978550B (zh) | 基于大规模人脸数据库的人脸识别方法及系统 | |
CN101968846B (zh) | 一种人脸跟踪方法 | |
CN106919903A (zh) | 一种鲁棒的基于深度学习的连续情绪跟踪方法 | |
Jaswanth et al. | A novel based 3D facial expression detection using recurrent neural network | |
CN106068514A (zh) | 用于在不受约束的媒体中识别面孔的系统和方法 | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN110059593B (zh) | 一种基于反馈卷积神经网络的面部表情识别方法 | |
CN111062292A (zh) | 一种疲劳驾驶检测装置与方法 | |
CN111091075A (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
Zhao et al. | Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection | |
CN114155512A (zh) | 一种基于3d卷积网络多特征融合的疲劳检测方法及系统 | |
CN111738178A (zh) | 一种基于深度学习的戴口罩人脸表情识别方法 | |
CN111898571A (zh) | 动作识别系统及方法 | |
CN113627256A (zh) | 基于眨眼同步及双目移动检测的伪造视频检验方法及系统 | |
CN111241922B (zh) | 一种机器人及其控制方法、计算机可读存储介质 | |
CN110598647B (zh) | 一种基于图像识别的头部姿态识别方法 | |
KR20160037423A (ko) | 동적보상퍼지신경네트워크(dcfnn)를 기반으로 한 얼굴인식 알고리즘 | |
CN109993135A (zh) | 一种基于增强现实的手势识别方法、系统及装置 | |
US11048926B2 (en) | Adaptive hand tracking and gesture recognition using face-shoulder feature coordinate transforms | |
CN107977622A (zh) | 基于瞳孔特征的眼睛状态检测方法 | |
CN116453230A (zh) | 活体检测方法、装置、终端设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |