CN117456590A - 一种针对智能城市应用的视觉转换的人脸识别方法及装置 - Google Patents
一种针对智能城市应用的视觉转换的人脸识别方法及装置 Download PDFInfo
- Publication number
- CN117456590A CN117456590A CN202311785763.7A CN202311785763A CN117456590A CN 117456590 A CN117456590 A CN 117456590A CN 202311785763 A CN202311785763 A CN 202311785763A CN 117456590 A CN117456590 A CN 117456590A
- Authority
- CN
- China
- Prior art keywords
- face
- feature
- matrix
- image
- identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000009466 transformation Effects 0.000 title claims abstract description 44
- 230000000007 visual effect Effects 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 193
- 230000001815 facial effect Effects 0.000 claims abstract description 101
- 230000007246 mechanism Effects 0.000 claims abstract description 51
- 238000009792 diffusion process Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 14
- 238000005520 cutting process Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 84
- 230000006870 function Effects 0.000 claims description 45
- 230000003068 static effect Effects 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000009826 distribution Methods 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000005286 illumination Methods 0.000 abstract description 16
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 210000000887 face Anatomy 0.000 description 5
- 238000012937 correction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 208000006440 Open Bite Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Collating Specific Patterns (AREA)
Abstract
一种针对智能城市应用的视觉转换的人脸识别方法及装置,属于人脸识别领域,步骤包括:步骤1,建立数据集并标注,采集不同场景下的人脸数据,并对采集的人像数据进行标记和身份对应;步骤2,对图像进行对齐与切分;步骤3,构建图卷积视觉转换网络,通过双关系矩阵结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果。本发明通过结合深度学习与先进的人脸特征提取技术,显著提高了在多变光照、复杂天气和面部遮挡情境下的识别准确性。
Description
技术领域
本发明属于人脸识别领域,尤其涉及一种针对智能城市应用的视觉转换的人脸识别方法及装置。
背景技术
在当前的智能城市架构中,智能设备和智能终端已成为公共生活的重要组成部分,广泛应用于环保、交通、安全和社会公共服务等多个关键领域。这些设备和终端在身份验证、行为记录和资源管理等方面起到了至关重要的作用。人脸识别技术,由于其高度的便捷性和非接触性,成为了一种具有极大潜力和广泛应用前景的身份验证方式。然而,实际应用中存在诸多挑战和限制,严重影响了人脸识别技术的准确性和效率,下面列举三类主要的不利因素:
1. 不同的光照条件:光照是影响人脸识别准确性的一个关键因素。不同的光照条件(如逆光、侧光或不均匀的光照)会导致摄像头捕获的面部图像存在明暗不一、特征不清晰等问题。这样的图像输入会使得识别算法难以准确提取面部特征,进而降低整体的匹配准确率。对于实时或高吞吐量的应用场景,不断地进行光照矫正和特征重提取也会极大地消耗计算资源,降低系统效率;
2. 多变的天气情况:在户外应用中,天气的多变性是另一个挑战。雨、雪或雾等天气条件会在摄像头镜头上形成水滴或雾气,或者引入其他种类的视觉噪声。这不仅会降低图像的质量,还会干扰人脸识别算法,导致误识别或漏识别。此外,恶劣天气条件下的图像处理和修复算法通常计算量较大,处理时间较长,这在一定程度上会降低人脸识别系统的实时性和效率;
3. 面部部分或完全遮挡:近年来,由于健康和时尚等原因,人们在公共场合常常会戴上口罩、帽子或者其他面部遮挡物。这些遮挡物阻碍了识别算法获取完整的面部信息,尤其是对于依赖整体面部特征的传统算法而言。部分或完全的面部遮挡会大大降低识别准确性,而为了克服这一挑战,系统可能需要多次尝试或启动其他辅助认证方式,从而增加了识别的时间成本和复杂性。
发明内容
为解决上述问题,提出了一种新型的人脸识别算法。该算法采用深度学习和人脸特征提取技术,通过对识别算法的重构和高效的优化措施,包括但不限于切片和补齐方式的优化、数据,以提高人脸识别在复杂环境下的准确度和效率。这一发明致力于解决人脸识别在应对多样化和复杂条件下所面临的挑战,旨在提供一个全面而高效的解决方案。
根据本发明的实施方案,提供第一个方案为:
一种针对智能城市应用的视觉转换的人脸识别方法,包括如下步骤:
步骤1 ,建立数据集并标注,采集不同场景下的人脸数据,并对采集的人像数据进行标记和身份对应;
步骤2,对图像进行对齐与切分;
步骤2.1,人脸对齐:对数据集中的图像数据进行标准人脸特征对齐;
步骤2.2,窗口切分:采用边缘重叠的策略,确保每个窗口不仅包含其自身的局部信息,还包括与邻近窗口共享的信息,从而提高信息的连续性;
步骤2.3,特征映射:采用捕获复杂特征的映射策略,结合深度学习,针对每个切分的窗口,将其内容转化为向量,并通过卷积操作转化为一个特征向量;
再将图像中的局部特征提取出来并转化为一系列的特征向量,组织这些向量,能够得到一个特征矩阵,此特征矩阵代表了与标准人脸对齐的输入图像中的所有信息在特征空间中完整表示;
步骤3,构建图卷积视觉转换网络,包括双关系矩阵、图扩散机制和自注意力机制,所述的双关系矩阵包括静态关系矩阵和动态关系矩阵;
通过双关系矩阵结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果;在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布;身份确认,采用交叉熵损失函数计算来确定身份;交叉熵损失函数度量了算法预测的身份概率分布与真实身份标签之间的误差,当模型对于真实身份的预测概率越高,交叉熵损失就越低,当交叉熵损失函数的输出值低于预设阈值时则判定为符合此身份信息,否则则判定为不符合此身份。
进一步地,步骤1 ,建立数据集并标注;包括:步骤1.1 ,获取人脸图像数据建立数据集,收集来自不同场景的原始输入的人脸图像,每张图像都被定义为矩阵 ,其中 />、/> 和 /> 分别表示图像的宽度、高度和颜色通道;
步骤1.2,图像数据建立身份标签,确保每个人脸的唯一性,采用独热编码的方法,设有个身份标签,则每一标签转化为长度为/>的向量;
通过独热编码,每张人脸图像与其对应的向量关联,确保模型训练中图像数据与正确的编码匹配。
进一步地,步骤2.1,人脸对齐采用的方式;
定义一组标准的人脸特征点;
利用dlib68点检测器,从原始输入的人脸图像中精确地提取出特征点;计算出一个几何变换矩阵,此矩阵描述了如何将输入图像中的特征点 精确对齐到标准的人脸特征点上;
应用此几何变换矩阵,可以调整整个输入图像,使其与预定的人脸标准模板达到对齐,进而得到一个更标准化、更容易被识别的对齐后的人脸图像。
进一步地,步骤2.2,窗口切分采用的边缘重叠的策略处理方式为,对于对齐后的人脸图像,精确地从中提取一系列重叠的窗口;每个窗口有固定尺寸的宽度和高度;进一步定义了每个窗口高度和宽度方向的重叠比例参数,重叠比例参数的取值范围为0-1。
进一步地,步骤2.3,特征映射采用的处理方式为,针对每个切分的窗口,将其内容转化为向量,并进一步通过卷积操作转化为一个特征向量:;
将图像中的局部特征提取出来并转化为一系列的特征向量,通过组织这些向量,能够得到一个特征矩阵: ;
上述特征矩阵代表了与标准人脸对齐的输入图像中的所有信息,在特征空间中完整表示;
其中::经过卷积操作转化后的特征向量,/>:特征向量的数量,/>:特征向量的维度。
进一步地,所述静态关系矩阵包括面部特征对称关系矩阵的特征和面部特征邻接关系矩阵的特征,
所述面部特征对称关系矩阵是一个描述面部特征点之间对称性的二维矩阵;
所述面部特征邻接关系矩阵是一个描述面部特征点之间邻接关系的矩阵。
进一步地,所述动态关系矩阵构建基于一个嵌入矩阵,该矩阵捕获了面部特征的特征信息,并将其映射到一个高维空间,大小为 ,其中 /> 表示嵌入的维度,利用这个嵌入矩阵,可以进一步计算出动态关系矩阵是通过嵌入矩阵与其转置矩阵的乘积并应用ReLU 激活函数得到的。
进一步地,所述的图扩散机制模块针对面部特征变化来聚合图中面部节点的信息;
使用特征表示和两个权重矩阵,并结合静态关系矩阵和动态关系矩阵 ,通过多次扩散和线性变换来得到新的面部节点表示;
其中所述的两个权重矩阵分别是静态关系矩阵和动态关系矩阵对应的权重矩阵。
进一步地,所述的自注意力机制模块;捕捉上下文相关的重要性,通过将更新后的节点表示与三个卷积操作相结合,可以得到一个注意力矩阵;利用这个注意力矩阵,模型能够为每个面部特征节点提取其在特定上下文中最相关的信息,最终的结果存储在通过自注意力机制获得的新的节点特征表示中。
进一步地,步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果;
在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布,
将前述步骤得到的人脸特征表示,通过权重矩阵和偏置进行线性变换,得到每个身份的原始得分,
利用 softmax 函数将原始得分转换为身份概率分布,输出为一个向量,代表每个可能身份的预测概率。
进一步地,交叉熵损失函数用来度量算法预测的身份概率分布与真实身份标签之间的误差,当模型对于真实身份的预测概率越高,交叉熵损失就越低,这意味着识别更为准确;给定实际身份的独热编码标签向量和模型预测的概率向量,交叉熵损失描述了这两个向量之间的差异度量,最小化这一损失,确保了模型在众多干扰因素中始终保持高准确性的人脸身份验证。根据本发明的实施方案,利用本发明提供的第一个方案中的针对智能城市应用的视觉转换的人脸识别方法,提供第二个方案为:
一种针对智能城市应用的视觉转换的人脸识别装置,包括:
图像采集模块,用于对各种环境和场景下的人脸图像的采集;
图像处理模块,用于对图像进行标准人脸特征对齐操作、进行重叠策略下的窗口切分操作和通过卷积操作将每个切分的窗口对应的内容转化为特征向量并通过组织这些向量,进一步转化得到一个特征矩阵;
数据库模块,用于存储图像采集模块采集人脸信息,通过独热编码处理,使得每张人脸图像与其对应的向量关联;
图卷及视觉转换网络,用于通过人脸识别模型捕捉到面部特征点之间的固有关系,根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
决策模块,用于调用数据库模块中的数据和图卷及视觉转换网络输出的人脸特征表示,通过分类器和优化算法给出人脸识别的身份判断。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
步骤1 ,建立数据集并标注,采集不同场景下的人脸数据,并对采集的人像数据进行标记和身份对应;
步骤2,对图像进行对齐与切分;
步骤2.1,人脸对齐:对数据集中的图像数据进行标准人脸特征对齐;
步骤2.2,窗口切分:采用边缘重叠的策略,确保每个窗口不仅包含其自身的局部信息,还包括与邻近窗口共享的信息,从而提高信息的连续性;
步骤2.3,特征映射:采用捕获复杂特征的映射策略,结合深度学习,针对每个切分的窗口,将其内容转化为向量,并通过卷积操作转化为一个特征向量;
再将图像中的局部特征提取出来并转化为一系列的特征向量,组织这些向量,能够得到一个特征矩阵,此特征矩阵代表了与标准人脸对齐的输入图像中的所有信息在特征空间中完整表示;
步骤3,构建图卷积视觉转换网络,包括双关系矩阵、图扩散机制和自注意力机制,所述的双关系矩阵包括静态关系矩阵和动态关系矩阵;
通过双关系矩阵结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果;在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布;身份确认,采用交叉熵损失函数计算来确定身份;交叉熵损失函数度量了算法预测的身份概率分布与真实身份标签之间的误差,当模型对于真实身份的预测概率越高,交叉熵损失就越低,当交叉熵损失函数的输出值低于预设阈值时则判定为符合此身份信息,否则则判定为不符合此身份。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
步骤1 ,建立数据集并标注,采集不同场景下的人脸数据,并对采集的人像数据进行标记和身份对应;
步骤2,对图像进行对齐与切分;
步骤2.1,人脸对齐:对数据集中的图像数据进行标准人脸特征对齐;
步骤2.2,窗口切分:采用边缘重叠的策略,确保每个窗口不仅包含其自身的局部信息,还包括与邻近窗口共享的信息,从而提高信息的连续性;
步骤2.3,特征映射:采用捕获复杂特征的映射策略,结合深度学习,针对每个切分的窗口,将其内容转化为向量,并通过卷积操作转化为一个特征向量;
再将图像中的局部特征提取出来并转化为一系列的特征向量,组织这些向量,能够得到一个特征矩阵,此特征矩阵代表了与标准人脸对齐的输入图像中的所有信息在特征空间中完整表示;
步骤3,构建图卷积视觉转换网络,包括双关系矩阵、图扩散机制和自注意力机制,所述的双关系矩阵包括静态关系矩阵和动态关系矩阵;
通过双关系矩阵结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果;在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布;身份确认,采用交叉熵损失函数计算来确定身份;交叉熵损失函数度量了算法预测的身份概率分布与真实身份标签之间的误差,当模型对于真实身份的预测概率越高,交叉熵损失就越低,当交叉熵损失函数的输出值低于预设阈值时则判定为符合此身份信息,否则则判定为不符合此身份。
本发明的一种针对智能城市应用的视觉转换的人脸识别方法及装置具有以下优点:
1、本发明通过结合深度学习与先进的人脸特征提取技术,显著提高了在多变光照、复杂天气和面部遮挡情境下的识别准确性;
2、对于不同光照条件造成的面部特征不清晰问题,新算法能够更稳定地提取关键特征,降低误识别率;
3、在面对雨、雪或雾等天气挑战时,算法优化了图像处理流程,大大减少了由恶劣天气造成的视觉噪声对识别的影响;
4、此外,面对日益普遍的面部遮挡问题,新算法通过切片、补齐等策略,仍然能够准确捕捉到关键的面部信息,避免了多次尝试和额外的身份验证流程;
这一创新方法不仅提升了人脸识别的准确性,同时也增强了系统的效率和实时性,为智能城市中的各种应用场景提供了有力支持。
附图说明
以下结合附图对本发明作进一步说明:
图1为一个实施例中人脸识别方法的流程示意图一;
图2为一个实施例中人脸识别方法的流程示意图二;
图3为一个实施例中人脸识别方法的装置的结构框图;
图4为一个实施例中计算机设备的结构框图;
图5为一个实施例中人脸特征对齐变换的示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种针对智能城市应用的视觉转换的人脸识别方法及装置做进一步详细的描述。
为了解决目前人脸识别中面临的问题,本发明通过重叠切分策略和在模型中采用了双特征矩阵并且结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用场景动态地调整每个特征点的重要性,从而在各种复杂环境中都能提供准确的身份验证。
如图1-2所示,给出了本发明人脸识别方法的流程图示意图。
本发明的针对智能城市应用的视觉转换的人脸识别方法,步骤包括:
步骤1 ,建立数据集并标注;
面对智能城市环境的多样性,人脸识别技术已逐渐成为众多领域的核心身份认证手段。然而,实际应用中,由于环境光照、气候不稳定和面部遮挡等变数,其准确性和工作效率面对考验。
所以在建立模型之初就要多方面的采集不同场景下的人脸数据,并且要对采集的人像数据进行标记和身份对应。
步骤1.1 ,获取人脸图像数据建立数据集:为了适应捕捉真实场景多变性,确保模型具有更强的泛化能力,特地采集了不同光照、角度和表情条件下的人脸图像。
为了使模型更好地适应各种情况,首先广泛收集了来自不同场景(如智能监控、移动终端)的人脸图像,丰富了模型的数据基础。每张图像都被定义为矩阵 ,其中 />、/> 和 /> 分别表示图像的宽度、高度和颜色通道。
其中:
: 代表一张人脸图像的数据矩阵。这是一个三维的数据结构,其中包括了图像的宽度、高度和颜色通道。
: 代表图像的宽度,即图像中的像素列数。
: 代表图像的高度,即图像中的像素行数。
: 代表图像的颜色通道数。对于彩色图像,通常有三个颜色通道:红色、绿色和蓝色,所以 />为3。
步骤1.2,图像数据建立身份标签:确保每个人脸的唯一性。
对每张人脸图像都分配了一个身份标签,用于在模型中区分各个个体。在数据集中,每位个体都配备了一个描述性标签,如姓名或ID,这些标签在模型训练过程中通过独热编码转换,确保每张图像与其真实身份一一对应。
为了模型的数学运算,描述性的身份标签需转换为数值向量。采用独热编码。设有个身份标签,则每一标签转化为长度为/>的向量 />. 该转化可以表示为矩阵:
数学表示如下:
当且仅当 i=j。
通过独热编码,每张人脸图像与其对应的向量 关联,确保模型训练中图像数据 与正确的编码 /> 匹配,为参数优化提供指导。
步骤2,对图像进行对齐与切分;
步骤2.1,人脸对齐:此步骤是应对复杂环境的关键步骤。
在智能城市复杂的场景中,如变化的光照、不稳定的气候和面部遮挡,人脸识别经常会受到影响。为了应对这些情况,对齐人脸成为了提高识别准确率的关键步骤。
人脸对齐是为了减少图像间的非身份差异,这些差异可能来自于头部的旋转、倾斜或不同的表情。对齐通过特征点检测(如眼角、鼻尖和嘴角等)对每张脸进行定位,然后使用仿射变换将这些关键特征点映射到预定的标准坐标上。这样,每张图像上的相同特征点都会出现在相似的位置,从而简化了后续处理流程,如特征提取和分类,因为模型可以假设同一特征点在所有对齐后的图像中具有相似的位置。实际上,这一步骤提高了人脸识别的准确性和效率。
如图5所示,通过这种方法,可以确保所有采集到的人脸图像都与一个统一标准进行对齐,避免由于图像的旋转、大小变化或其他因素导致的差异,使得模型能够更专注于捕捉真实的面部特征。
定义一组标准的人脸特征点,标记为 。
利用dlib68点检测器,从输入图像中精确地提取出特征点 。
。
为了确保人脸特征与标准特征之间的最佳匹配,计算出一个几何变换矩阵。此矩阵描述了如何将输入图像中的特征点 /> 精确对齐到 /> 上。
应用此几何变换矩阵,可以调整整个输入图像,使其与预定的人脸标准模板达到对齐,进而得到一个更标准化、更容易被识别的对齐后的图像 。这种对齐技术极大地提高了在复杂环境中的人脸识别准确性。
其中:
: 原始输入的人脸图像。这是从智能监控摄像头、移动设备等收集的原始图像,可能受到光照、角度、表情等多种因素的影响。
: 标准的人脸特征点集。这是一个预定义的人脸特征点模板,通常包括眼睛、鼻子、嘴巴等关键部位的位置。它提供了一个标准参考,以便将输入图像中的人脸特征与之进行匹配。
: 从输入图像 /> 中提取出的人脸特征点集。使用 dlib 68点检测器或其他相应的特征点检测工具,在输入图像中定位这些特征点。
: 用于从输入图像中提取人脸特征点的函数或工具。在这里使用的是 dlib 68点检测器。
: 几何变换矩阵。这个矩阵能够描述如何将 /> 特征点集变换到 /> 上,从而使得输入图像与标准模板进行对齐。这通常涉及旋转、缩放和平移等操作。
: 对齐后的人脸图像。通过应用几何变换矩阵 />到原始输入图像 />上,得到了一个与 /> 进行了对齐的图像。
步骤2.2,窗口切分:用于提高复杂环境下的识别稳定性。
在多变环境中,确保连续性和避免信息丢失是人脸识别技术面临的核心挑战。在图像处理中,经常需要将大图像切分成多个小窗口进行处理。但是,这样的切分可能会导致信息丢失,特别是在窗口的边缘区域。为了解决这个问题,通过使用边缘重叠的策略,可以确保每个窗口不仅包含其自身的局部信息,还包括与邻近窗口共享的信息,从而提高信息的连续性。
边缘重叠策略确保了局部区域的处理不会被边缘效应所影响。
考虑到人脸的某些特征可能位于图像的边缘或接近边缘,边缘重叠策略确保了这些关键特征不会被丢失或割裂。这是特别重要的,因为丢失关键面部特征可能导致识别的不准确性。
需要说明的是,图像分割的限定在人脸识别任务中是至关重要的。目标不是简单地随机地对图像进行切割,而是确保每个分割部分对后续的处理步骤具有价值。在人脸识别的应用中,若图像的分割方法导致关键面部特征被隔离或截断,这种分割将不具备实际效用。允许分割区域之间的边缘重叠可以确保每个区域不仅捕获其独有的局部信息,同时也可以涵盖与相邻区域交叠的部分,以最大程度地减少信息丢失。
传统分割可能在分割时造成人脸特征信息的被分割到不同的分割区域中,为了保证识别的准确性,只能限定每个分割后的图像应包含至少一个完整的人脸特征。
这样就造成了分割区域的限定较多,而人脸识别主要依赖于面部的核心特征,如眼睛、鼻子、嘴巴等。因此,分割策略需确保这些关键特征在任何情况下都不被误分。二本发明的边缘重叠策略为这一目标提供了支持,保证面部特征在分割的边缘处不被截断,并在相邻区域间维持连续性。是的分割的区域限制大大降低,分割区域的灵活性得到增强。
通常需要对图像进行校正或对齐有助于提高识别的准确性和稳定性,因为它将图像调整到一个标准的姿态或方向。然而边缘重叠的窗口切分策略为处理那些未完全校正或偏离中心的图像提供了更好的容错能力。
图卷积与自注意力网络的适应性:由于图卷积和自注意力网络需要对结构化的数据进行操作,窗口切分策略为这些网络提供了适当大小和形状的输入数据。每个切分的窗口都可以被视为图中的节点。
通过确保每个窗口与其邻近窗口有一定的重叠,模型能够捕获到更丰富的上下文信息,从而避免了信息的断裂。
所采用的处理方式为,对于对齐后的高分辨率图像 ,精确地从中提取一系列重叠的窗口。每个窗口有固定尺寸 />,其中 /> 和 /> 分别表示窗口的宽度和高度。定义两组关键坐标:/> 作为窗口的起始点,而 /> 为窗口的结束点。
为了实现所需的边缘重叠,进一步引入了重叠比例参数和/>,确保/>。
窗口切分可以精确地通过以下公式描述:
,
为了保证窗口之间的精确重叠,坐标更新策略如下:
,
,
通过此切分策略,确保了在复杂环境中人脸识别的稳定性和准确性,为用户提供了一致而高效的验证体验。
其中:
:经过对齐后的高分辨率图像。
:窗口的宽度。
:窗口的高度。
:经过切分策略后得到的图像片段或窗口。
:图像的通道数,对于彩色图像通常为3(红、绿、蓝)。
:窗口的宽度起始坐标。
:窗口的高度起始坐标。
:窗口的宽度结束坐标。
:窗口的高度结束坐标。
:宽度方向的重叠比例,介于0到1之间。例如,/> 表示当前窗口与下一个窗口在宽度方向有50%的重叠。
:高度方向的重叠比例,也介于0到1之间。
采用边缘重叠窗口切分策略不仅增强了模型在复杂环境中的识别稳定性,还为图卷积和自注意力网络提供了适当的输入格式。这确保了在各种情境下都能为用户提供准确和高效的人脸识别体验。
在图像处理中,有时需要将大图像切分成多个小窗口进行处理。但是,这样的切分可能会导致信息丢失,特别是在窗口的边缘区域。为了解决这个问题,通过使用边缘重叠的策略,可以确保每个窗口不仅包含其自身的局部信息,还包括与邻近窗口共享的信息,从而提高信息的连续性。
在图像处理中,边缘效应指的是由于处理窗口大小或形状引起的图像边缘区域的失真。边缘重叠策略确保了局部区域的处理不会被边缘效应所影响。
为了实现上述的连续性和避免边缘效应,模型使用了重叠比例参数 和 />,用于定义窗口之间在宽度和高度方向上的重叠程度。
通过上述的选择和设定,可以起到如下效果:
1. 面部识别的稳定性:考虑到人脸的某些特征可能位于图像的边缘或接近边缘,边缘重叠策略确保了这些关键特征不会被丢失或割裂。这是特别重要的,因为丢失关键面部特征可能导致识别的不准确性。
2. 图卷积与自注意力网络的适应性:由于图卷积和自注意力网络需要对结构化的数据进行操作,窗口切分策略为这些网络提供了适当大小和形状的输入数据。每个切分的窗口都可以被视为图中的节点。
3. 增强上下文信息:通过确保每个窗口与其邻近窗口有一定的重叠,模型能够捕获到更丰富的上下文信息,这对于面部识别尤为重要。
步骤2.3,特征映射:用于提高后续模型处理在复杂环境中保持鲁棒性。
面对诸如光照变化、不稳定的天气和面部遮挡等实际应用中的挑战,设计了一个能够捕获复杂特征的映射策略。通过结合深度学习技术,针对每个切分的窗口,将其内容转化为向量,并进一步通过卷积操作转化为一个特征向量:
。
此处理方式是将图像中的局部特征提取出来并转化为一系列的特征向量。通过组织这些向量,能够得到一个特征矩阵:
。
上述特征矩阵代表了与标准人脸对齐的输入图像中的所有信息在特征空间中完整表示。
利用这种深度学习驱动的映射方法,能够在复杂环境下保持人脸识别的鲁棒性,从而为用户提供快速、高效的身份验证体验。
其中:
:经过卷积操作转化后的特征向量。
:一个函数,将图像内容转化为向量。
:一个卷积函数,将向量转化为特征向量。
:特征向量的数量。
:特征向量的维度。
需要说明的是,通过特征映射步骤进行展平映射同时结合边缘重叠的切分策略,图像被分为相互连接的区域节点,确保恶劣天气下被干扰的局部信息不会被隔离或丢失。
步骤3,构建图卷积视觉转换网络,包括构建一个双关系矩阵,并结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用背景动态地调整每个特征点的重要性,从而在各种复杂环境中都能提供准确的身份验证。
所述的双关系矩阵包括静态关系矩阵和动态关系矩阵。
在人脸识别技术中,因素众多,如光线变化、不稳定的气候条件以及面部遮挡,均可能影响识别的准确性。特别是面部遮挡,如口罩、墨镜或其他物品,为人脸识别带来了特殊的挑战。
为了更好地应对这些挑战,模型中设计了静态关系矩阵。该矩阵捕捉并描述面部特征之间的恒定关系,即使在面部部分被遮挡的情况下也能保持这种关系的稳定性。通过静态关系矩阵可以从未被遮挡的面部特征中推断出其他特征的位置和形状,从而提高识别的准确性和鲁棒性。
所述静态关系矩阵包括面部特征对称关系矩阵的特征和面部特征邻接关系矩阵的特征。
所述面部特征对称关系矩阵 ,其中的元素表示为/>,/> 是一个描述面部特征点之间对称性的二维矩阵。当特征点 /> 和 /> 之间存在对称关系时,/> 的值为0.5;否则为0。此矩阵的维度是 />,其中 /> 表示面部特征点的数量。
,
。
所述面部特征邻接关系矩阵 ,其中的元素表示为/>;/> 是一个描述面部特征点之间邻接关系的矩阵。当特征点 /> 和 /> 邻接时,/> 的值为1;否则为0。这个矩阵的维度同样为 />。/>
则 。
所述的用于人脸识别的静态关系矩阵定义为;
结合对称关系矩阵和邻接关系矩阵,得到了用于人脸识别的静态关系矩阵。对于每一对特征点/> 和 />,/>的值等于 /> 和 />的和,确保在人脸识别过程中能够同时考虑面部特征的对称性和邻接性。
,
则 ,。
其中:
:面部特征点的总数量。这指的是在人脸图像中用于描述和识别人脸的关键特征点的数量。
:面部特征对称关系矩阵 /> 中的元素。它表示第 /> 个和第 /> 个面部特征点之间的对称关系。如果两点对称,该值为0.5,否则为0。
:面部特征对称关系矩阵。这是一个 /> 的矩阵,用于描述面部特征点之间的对称性。其元素由 /> 组成。
/>
:面部特征邻接关系矩阵 /> 中的元素。它表示第 /> 个和第 /> 个面部特征点之间的邻接关系。如果两点邻接,该值为1,否则为0。
:面部特征邻接关系矩阵。这是一个 /> 的矩阵,用于描述面部特征点之间的邻接性。其元素由 /> 组成。
,
:用于人脸识别的静态关系矩阵中的元素。每一个元素值都是对应的 />和 /> 的和,表达了面部特征点之间的对称性和邻接性的综合信息。
:用于人脸识别的静态关系矩阵。这是一个 /> 的矩阵,结合了面部特征的对称性和邻接性信息。
面部特征对称关系矩阵 :所起到的作用是人的脸具有一定的对称性,尤其是在两侧。比如,左眼与右眼、左腮与右腮都存在一定的对称关系。这种对称性提供了一种在人脸的一侧出现遮挡或失真时,仍然可以从另一侧推断特征的方法。/>矩阵就是为了捕捉这种对称性。其中,/>的值为0.5表示特征点 i 和 j 对称,而值为0则表示它们不对称。
需要解释的是,对称关系的作用:在人脸图像中,对称关系指的是面部结构中相对于中轴线对称的部分,比如左眼与右眼。在静态关系矩阵中,这样的对称关系被设定为0.5,这不仅是数值上的标识,而且是模型中的一种约束,意味着这两个节点虽然重要,但在信息交流的优先级上可能不如直接邻接的节点(如眼睛与鼻子之间的关系)。 对称关系的设置使得网络能够在捕捉面部特征时保持一种对称性质,这是大多数人脸共有的特征。例如,对于表情识别,即使面部一侧的微笑可能比另一侧稍微强烈一点,静态关系矩阵中的这种对称设置可以帮助网络在处理这种轻微不对称时,保持对整体面部表情的理解。
面部特征邻接关系矩阵 :所起到的作用是面部特征点不仅有对称关系,它们之间还有邻接或相邻关系。比如,眼睛和眉毛、鼻子和嘴巴之间都有邻接关系。这种邻接关系提供了一种当某个特征点失真或不清晰时,从其邻近的特征点中获得上下文信息的方法。 矩阵正是用于捕捉这种邻接性的,其中,/> 的值为1表示特征点 i 和 j 是邻接的,而值为0则表示它们不邻接。
需要解释的是,邻接关系的作用: 邻接关系反映了面部特征点之间直接相连的关系,如眼睛与鼻子之间、鼻子与嘴巴之间的距离。在静态关系矩阵中,这样的邻接关系通常被设定为1,表示这些连接是图中最强的联系,它们是面部结构的基础。这种设置反映了一个前提,即某些面部特征点之间的距离和位置关系在不同人脸图像中相对稳定,不随外界因素如表情或姿势变化而改变。 这种邻接关系的设置帮助图神经网络在学习过程中优先考虑这些稳定的连接,从而更有效地捕捉和学习面部的基本结构。例如,在识别遮挡的脸部特征时,模型可以依赖这些邻接关系来推断遮挡区域的可能外观,因为这些邻接关系提供了稳定的结构信息。
用于人脸识别的静态关系矩阵 :所起到作用是/> 是 /> 和 /> 的结合,旨在为人脸识别提供一个全面的面部特征关系图。它不仅考虑了对称性,还考虑了邻接性。因此,对于每对特征点,/> 的值是 /> 和 /> 的和。
在实际应用中,很多情况会导致面部特征失真或遮挡,比如佩戴口罩或墨镜。在这种情况下,静态关系矩阵可以更好地理解人脸的结构。例如,如果一个人的一只眼睛被墨镜遮挡,可以通过对称关系从另一只眼睛推断出被遮挡的眼睛的位置和形状。在某些复杂的情况下,可能难以直接检测到所有的面部特征点。此时,静态关系矩阵可以作为一个指导,从已知的特征点推断出其他特征点的位置。例如,如果知道眼睛的位置,那么可以使用邻接关系预测眉毛的位置。静态关系矩阵使得系统在面对遮挡和失真时更具鲁棒性。
模块2,动态关系矩阵,
在人脸识别任务中,尤其是在变化的外部条件下,如不稳定的光照、不同的天气或面部遮挡等,面部特征(例如眼睛、鼻子、嘴巴等)之间的相对关系在这些条件下会发生变化。动态关系矩阵就是为了捕捉这种变化。
动态关系矩阵的构建基于一个嵌入矩阵 />,该矩阵捕获了面部特征的特征信息,并将其映射到一个高维空间,大小为 />,其中 /> 表示嵌入的维度。
利用这个嵌入矩阵,可以计算出 ,是通过 /> 与其转置 /> 的乘积并应用ReLU 激活函数得到的。这种处理方法确保了动态关系矩阵可以精确地捕捉到面部特征之间的动态变化,从而为人脸识别提供了强大的支持。
;
;
通过引入这种动态关系矩阵,结合深度学习和人脸特征提取技术,新算法可以更有效地处理面部的动态变化,确保在复杂环境下为用户提供准确、快速的身份验证体验。
其中:
:表示嵌入的维度,这代表当从原始特征空间映射到嵌入空间时使用的维度数。
:表示嵌入矩阵。它是一个大小为 /> 的矩阵,其中每一行代表一个节点(或人脸特征关键点)在 /> 维空间中的嵌入。
,
:嵌入矩阵的转置。它是 /> 矩阵的转置形式。
:动态关系矩阵。这是一个大小为 /> 的矩阵,描述了人脸特征点或区域之间的动态关系。它是通过计算嵌入矩阵 /> 与其转置 /> 的乘积并应用 ReLU 激活函数得到的。
,
ReLU:修正线性单元 (Rectified Linear Unit) 激活函数。它是深度学习中常用的激活函数,定义为 。
首先,模型使用嵌入矩阵 ()来捕获面部特征的丰富信息。嵌入矩阵用于将数据从其原始空间映射到一个更高的维度空间,这样可以更好地捕捉特征之间的复杂关系。例如,眼睛和鼻子的位置关系在高维空间中可能更容易区分,尤其是在复杂的环境下。
利用嵌入矩阵,计算出一个新的矩阵,即。这实际上是衡量嵌入矩阵中的每一行(或面部特征)之间的相似性或关系。但是,为了确保这个关系是正的并且非常的突出(因为负的关系可能是无关的或噪声),在此之上应用了ReLU激活函数。这是一个简单的非线性函数,定义为 />。它将所有的负数值置为0,因此只有正的关系被保留下来。这可以确保动态关系矩阵中只有那些强烈的正关系被考虑进去。
动态关系矩阵提供了面部特征之间动态变化的精确信息。例如,当一个人从室内走到阳光下时,或者当他们的脸部被部分遮挡时,这些动态关系可以为人脸识别算法提供强有力的线索,使得算法在复杂环境下可以更有效地识别个体。
需要解释的是,动态关系矩阵在训练过程中捕获并学习到了人脸特征之间在不同环境下的动态变化关系。即便在推理时它不再变化,它包含的信息是在考虑到各种变化因素(如光照、表情、姿态变化等)的基础上学习得到的。换句话说,它已经包含了一种在训练数据上泛化的特征变化表示,这可以帮助模型更好地处理新的、未见过的人脸图片。
泛化能力:动态关系矩阵在训练过程中考虑到了面部特征在各种变化条件下的关系,因此可能在未见过的变化条件下具有更好的泛化能力。
区分能力:动态关系矩阵提供了更丰富的区分特征,对于看似相似的人脸(例如双胞胎或具有相似特征的不同个体)能提供更好的区分度。
鲁棒性:固定的动态关系矩阵在训练时已经考虑到了如光照、角度、表情变化等因素,这有助于在面对实际应用中这些不可预测的变化时,仍然能保持鲁棒的识别性能。
动态关系矩阵会捕获那些不容易直观定义的复杂或非线性的特征间关系。这可以为模型提供额外的、可能是决定性的信息,尤其是在处理更加复杂或挑战性的图像时。在实际应用中,静态关系矩阵和动态关系矩阵结合使用,各自提供不同的信息,提高整个系统的准确性和鲁棒性。最终的目标是确保在各种条件下,系统都能可靠地识别个体。
模块3,图扩散机制模块;
在复杂环境中,为了更好地处理因光照、天气和遮挡等因素带来的面部特征变化,引入了图扩散机制来聚合图中面部节点的信息。
具体地,使用特征表示 和两个权重矩阵 /> 和 />,并结合静态关系矩阵 和动态关系矩阵 />,通过多次扩散和线性变换来得到新的面部节点表示 />。
。
这种图扩散机制确保算法能够充分捕获面部特征在复杂环境中的各种变化,从而更准确地进行人脸识别。
其中:
: 表示图中的特征,通常每行对应一个节点的特征向量。
和 />: 权重矩阵,用于对静态关系矩阵 /> 和动态关系矩阵 /> 进行线性变换。/>
: 静态关系矩阵,描述图中节点的对称性和邻接性。
: 动态关系矩阵,通过特定的嵌入策略构建。
: 扩散的最大次数,决定了考虑多远的邻居信息。
: 更新后的节点特征表示。
图扩散机制基于图理论,目标是更有效地在图中传播或“扩散”节点信息,图中的每个节点都代表面部的一个特征点,每次扩散都允许节点从它的邻居中获取和整合信息。
具体来说,为了考虑多跳邻居的信息,引入了一个多次扩散过程。 和 /> 分别表示了经过 /> 次扩散后的静态关系和动态关系。
和 /> 是权重矩阵,它们的作用是将扩散的信息与原始特征结合起来,产生新的特征表示。
当处理面部图像时,由于各种原因(如光线、天气和遮挡)导致的特征变化,单一的特征可能不足以进行准确的人脸识别。通过图扩散机制,算法可以捕获到多个邻接特征点的联合信息,从而更好地理解和识别面部的整体结构。
模块4,自注意力机制模块;
在应用场景下,每个面部特征点在不同的情境下可能具有不同的重要性。
为了捕捉这种上下文相关的重要性,引入自注意力机制。通过将更新后的节点表示 与三个卷积操作(/>、/> 和 />)相结合,可以得到一个注意力矩阵。
利用这个注意力矩阵,模型能够为每个面部特征节点提取其在特定上下文中最相关的信息,最终的结果存储在 中。
通过这种自注意力机制,新算法可以更加敏感地响应面部特征的微小变化,确保在各种复杂场景中都能为用户提供准确的身份验证体验。
其中:
, /> 和 />: 卷积操作,用于生成注意力机制中的查询(Q)、键(K)和值(V)。
: 键向量的维度,用于进行缩放的点积注意力。
Z: 通过自注意力机制获得的新的节点特征表示。
自注意力机制是从自然语言处理中获得启示的一个强大的工具,它允许模型在不同的上下文中为每个节点或特征分配不同的权重。
注意机制的计算方式有下述步骤,
查询(Q)、键(K)和值(V):这些操作构成了自注意力的基础。对于给定的输入特征,会有三种不同的表示:查询、键和值。查询表示当前节点想要知道的信息,键表示每个节点可以提供什么信息,值则是节点真正的信息内容。
通过计算查询和键之间的点积,并随后进行缩放(除以 ),得到了每个节点对于当前查询的重要性得分,即注意力得分。
应用softmax函数确保得分在0和1之间,并且所有节点的得分之和为1。此操作意味着模型可以为每个节点分配一个权重,根据其在特定上下文中的重要性。
最后,将softmax后的权重与值进行乘积,得到新的特征表示。
在面部识别的上下文中,自注意力允许模型专注于当前最相关或最重要的特征点,而忽略那些不那么重要的点。例如,在识别戴口罩的脸部时,鼻子和嘴巴可能被遮挡,这时眼睛和眉毛可能就更为重要。自注意力机制能够动态地为每个特征点分配权重,从而适应各种复杂的情境。
需要说明的是,动态关系矩阵是基于嵌入特征向量生成的,这意味着该矩阵能够捕捉和适应图像中的动态变化和模式。相比静态关系矩阵仅基于固定的面部关系和结构,动态关系矩阵则可以捕捉图像中的变化,例如由于雨、雪或雾造成的视觉噪声。
这些图节点为算法提供了一个结构化的输入。图卷积专门处理节点间的连接,维持图像的连续性,而自注意力机制确保算法专注于关键区域,避免噪声对结果的干扰。
步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果:
人脸识别系统面临的是一个复杂的多类别分类问题,需要从各种环境变化中准确辨认个体身份。为此,在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布。
具体地,将前述步骤得到的人脸特征表示 ,通过权重矩阵 /> 和偏置 /> 进行线性变换,得到每个身份的原始得分。
为了提高模型鲁棒性,对这些得分进行了平均化操作。最终,利用 softmax 函数将原始得分转换为身份概率分布,输出为一个 的向量 />,代表每个可能身份的预测概率。
。
在这样的智能城市背景下,这种分类器策略确保了即使在光照、天气和遮挡等挑战因素存在时,也能有效地完成人脸身份验证任务。
其中:
: 是模型前层输出的特征表示。它捕获了输入图像中人脸的关键特征,并为分类器提供了所需的信息。
: 是分类器的权重矩阵。它的作用是将/>中的特征转换为每个身份类别的原始得分。
: 是分类器的偏置项。它通常与权重矩阵/>一起,进行线性变换,调整模型的输出得分。
: 是分类器的输出,表示模型预测每个身份的概率分布。每个元素代表相应身份的预测概率。
: 代表可能的身份类别数。在面部识别任务中,它等于数据库中的人脸数量。/>
身份确认,采用交叉熵损失函数计算来确定身份。
交叉熵损失函数在本发明的人脸识别算法中起到了最终决策的关键作用。它度量了算法预测的身份概率分布与真实身份标签之间的误差。简而言之,当模型对于真实身份的预测概率越高,交叉熵损失就越低,这意味着识别更为准确。因此,目标是优化这一损失,以在各种复杂场景下达到最佳的人脸身份验证效果。
给定实际身份的独热编码标签向量 和模型预测的概率向量 />,交叉熵损失 />描述了这两个向量之间的差异度量:
。
智能城市环境下,通过最小化这一损失,确保了模型在众多干扰因素中始终保持高准确性的人脸身份验证。
当交叉熵损失函数的输出值低于预设阈值时则判定为符合此身份信息,否则则判定为不符合此身份。
其中:
: 是实际身份的独热编码标签向量。例如,如果有三个类别,第二个类别是正确的,那么/>可能是/>。
: 代表/>向量中的第/>个元素,表示第/>个身份类别的真实标签值。它的值只能是0或1,其中1表示这是正确的身份类别。
: 代表/>向量中的第/>个元素,即模型预测的第/>个身份的概率。
: 是交叉熵损失函数的值。它度量了/>(真实标签分布)与/>(预测概率分布)之间的差异。
下面给出上述识别方法的实施过程。
一个实施例过程,人脸图像识别方法的建立和训练;
首先按照步骤1,为数据库建立数据集并标注,为保证模型具有更好的泛化性,收集大量真实场景下的人脸图像,覆盖了多种光照、表情和姿态;为适应多种遮挡情境,同时尤其针对受到头巾、口罩、墨镜等遮挡的图像进行集中收集。每张图像都标注有唯一的身份信息;上述图像经过处理,主要特征被提取出来,为后续的重建和识别过程提供基础数据。
其次进行针对智能城市应用的视觉转换的人脸识别方法中的步骤2、步骤3。
最后按照步骤4,进行模型训练;在完成前述步骤后,我们为每张图像采用独热编码方式打上标签,便于监督学习。随后,我们对一个深度神经网络分类器进行训练,目标是使其能够准确地识别新的输入图像。为了提升模型的泛化和稳定性,我们使用交叉熵损失进行优化,并持续迭代直至模型达到收敛状态。
另一个实施过过程:人脸遮挡和异常天气的情况下识别;
SS1,每张图像都明确标明了遮挡的种类和位置。经过处理,我们提取了遮挡区域与非遮挡区域的关键人脸特征,这为后续的遮挡检测和识别奠定了基础。
SS2 ,人脸图像的空间对齐与结构化拓扑重建,首先进行人脸的空间对齐,接着,我们将图像通过重叠切分技术分为多个窗口。每一个窗口都被映射展平为一维数据,之后,根据其在原始图像中的位置,这些数据被拼接,构造出有空间拓扑关系的数据结构。
SS3,挡感知图卷积视觉转换网络,为了更有效地检测遮挡,我们专门设计了一个图卷积视觉转换网络。此网络不仅能深入提取图像特征,更引入了自适应的双关系矩阵结构。
静态关系矩阵的构建
(1) 标定面部关键特征点:
操作:在人脸图像上,我们标出了 个显著的特征点,例如眼睛、鼻子和嘴巴的位置。
这些关键点像是人脸的“导航标记”,助我们更清晰地描述和识别脸部。
(2) 建立面部对称关系矩阵:
操作:基于标定点,我们形成一个 的矩阵 />。若特征点 /> 与 /> 之间有对称关系,如左右眼,那么 /> 被标为0.5;否则为0。
面部的对称性是其固有特点。通过识别这些对称关系,我们能更全面地理解面部结构,特别是在某些特征点被遮挡时。
(3) 建立面部邻接关系矩阵:
操作:我们再建一个 的矩阵 />。若特征点 /> 与 /> 是邻接的,那么 /> 被标为1;否则为0。
了解哪些特征点相邻有助于我们描绘面部的整体形态。
(4) 结合两矩阵得到静态关系矩阵:
操作:我们综合上述两个矩阵,得到 。对于每对特征点 /> 和 />,/> 是 />与 /> 的和。
综合的静态关系矩阵包含面部特征的对称和邻接信息,为我们呈现一个完整的面部特征图谱。
动态关系矩阵:该矩阵能够动态捕捉当前图像中的遮挡情况和由于异常天气造成的图像局部噪声高的位置,之后根据矩阵模型的规则进行动态关系的补偿和校正。
利用这两种关系矩阵,我们的网络可以更准确地识别并强调图像中的遮挡特征,再结合自注意力机制,确保系统对微妙的遮挡模式高度敏感,从而提高遮挡下的人脸识别的准确性。
SS4,进行识别决策,与前述模型训练过程相似,区别在于将模型输出由训练目的使用交叉熵损失函数进行优化,直至模型收敛;变更为阈值比较输出判断。给出步骤1中的输入图像的身份信息判断。
图3示出了一个实施例中针对智能城市应用的视觉转换的人脸识别装置的组成图,
该针对智能城市应用的视觉转换的人脸识别装置,包括;
图像采集模块100,用于对各种环境和场景下的人脸图像的采集;
图像处理模块200,用于对图像进行标准人脸特征对齐操作、进行重叠策略下的窗口切分操作和通过卷积操作将每个切分的窗口对应的内容转化为特征向量并通过组织这些向量,进一步转化得到一个特征矩阵;
数据库模块300,用于存储图像采集模块采集人脸信息,通过独热编码处理,使得每张人脸图像与其对应的向量关联;
图卷及视觉转换网络400,用于通过人脸识别模型捕捉到面部特征点之间的固有关系,根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
决策模块500,用于调用数据库模块中的数据和图卷及视觉转换网络输出的人脸特征表示,通过分类器和优化算法给出人脸识别的身份判断。
图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现针对智能城市应用的视觉转换的人脸识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行针对智能城市应用的视觉转换的人脸识别方法。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
步骤1 ,建立数据集并标注,采集不同场景下的人脸数据,并对采集的人像数据进行标记和身份对应;
步骤2,对图像进行对齐与切分;
步骤2.1,人脸对齐:对数据集中的图像数据进行标准人脸特征对齐;
步骤2.2,窗口切分:采用边缘重叠的策略,确保每个窗口不仅包含其自身的局部信息,还包括与邻近窗口共享的信息,从而提高信息的连续性;
步骤2.3,特征映射:采用捕获复杂特征的映射策略,结合深度学习,针对每个切分的窗口,将其内容转化为向量,并通过卷积操作转化为一个特征向量;
再将图像中的局部特征提取出来并转化为一系列的特征向量,组织这些向量,能够得到一个特征矩阵,此特征矩阵代表了与标准人脸对齐的输入图像中的所有信息在特征空间中完整表示;
步骤3,构建图卷积视觉转换网络,包括双关系矩阵、图扩散机制和自注意力机制,所述的双关系矩阵包括静态关系矩阵和动态关系矩阵;
通过双关系矩阵结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果;在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布;身份确认,采用交叉熵损失函数计算来确定身份;交叉熵损失函数度量了算法预测的身份概率分布与真实身份标签之间的误差,当模型对于真实身份的预测概率越高,交叉熵损失就越低,当交叉熵损失函数的输出值低于预设阈值时则判定为符合此身份信息,否则则判定为不符合此身份。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
步骤1 ,建立数据集并标注,采集不同场景下的人脸数据,并对采集的人像数据进行标记和身份对应;
步骤2,对图像进行对齐与切分;
步骤2.1,人脸对齐:对数据集中的图像数据进行标准人脸特征对齐;
步骤2.2,窗口切分:采用边缘重叠的策略,确保每个窗口不仅包含其自身的局部信息,还包括与邻近窗口共享的信息,从而提高信息的连续性;
步骤2.3,特征映射:采用捕获复杂特征的映射策略,结合深度学习,针对每个切分的窗口,将其内容转化为向量,并通过卷积操作转化为一个特征向量;
再将图像中的局部特征提取出来并转化为一系列的特征向量,组织这些向量,能够得到一个特征矩阵,此特征矩阵代表了与标准人脸对齐的输入图像中的所有信息在特征空间中完整表示;
步骤3,构建图卷积视觉转换网络,包括双关系矩阵、图扩散机制和自注意力机制,所述的双关系矩阵包括静态关系矩阵和动态关系矩阵;
通过双关系矩阵结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果;在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布;身份确认,采用交叉熵损失函数计算来确定身份;交叉熵损失函数度量了算法预测的身份概率分布与真实身份标签之间的误差,当模型对于真实身份的预测概率越高,交叉熵损失就越低,当交叉熵损失函数的输出值低于预设阈值时则判定为符合此身份信息,否则则判定为不符合此身份。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明在人脸识别算法中给出了新的思考和解决方案;
1. 端到端图像处理流程的一体化设计:基于先进的深度学习图像处理框架,本方法在一个统一的框架中融合了图像对齐与切分、扩散图卷积以及Transformer结构。这种端到端的设计策略优化了跨多个处理阶段的协同工作,确保了在处理高维度的图像数据时实现了准确性和效率的均衡。这种设计不仅减少了计算成本,还增强了模型在实际应用场景中的健壮性和可靠性,为深入的图像识别与分析提供了稳固基础。
2. 自适应的双关系矩阵结构:本模型引入了一种创新的双关系矩阵设计。其中,静态关系矩阵考虑了基于物理和几何的固有图像关系,而动态关系矩阵则赋予模型从数据中学习并识别更为复杂和微妙的依赖关系的能力。这种结构的设计既吸纳了固有的几何与物理先验,又为模型提供了处理复杂数据分布的适应性,从而增强了模型的深度表示学习能力。特别是在面对面部遮挡和非遮挡混合情况时,这种双关系矩阵的设计能够有效地识别和解释这些复杂的遮挡模式,确保识别准确性。
3. 空间感知增强的重叠切分策略:提出了一个考虑到空间连续性的切分策略,该策略通过在图像切分时创建重叠区域,确保模型能更精确地捕捉到图像的局部特性以及边界交接处的上下文信息。特别在面对遮挡的情况,这种重叠切分策略可以帮助模型更好地识别和理解被遮挡的部分,同时识别出完整的结构和特性,从而提高对遮挡与无遮挡混合情况的高效识别。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种针对智能城市应用的视觉转换的人脸识别方法,其特征在于,包括如下步骤:
步骤1 ,建立数据集并标注,采集不同场景下的人脸数据,并对采集的人像数据进行标记和身份对应;
步骤2,对图像进行对齐与切分;
步骤2.1,人脸对齐:对数据集中的图像数据进行标准人脸特征对齐;
步骤2.2,窗口切分:采用边缘重叠的策略,确保每个窗口不仅包含其自身的局部信息,还包括与邻近窗口共享的信息,从而提高信息的连续性;
步骤2.3,特征映射:采用捕获复杂特征的映射策略,结合深度学习,针对每个切分的窗口,将其内容转化为向量,并通过卷积操作转化为一个特征向量;
再将图像中的局部特征提取出来并转化为一系列的特征向量,组织这些向量,能够得到一个特征矩阵,此特征矩阵代表了与标准人脸对齐的输入图像中的所有信息在特征空间中完整表示;
步骤3,构建图卷积视觉转换网络,包括双关系矩阵、图扩散机制和自注意力机制,所述的双关系矩阵包括静态关系矩阵和动态关系矩阵;
通过双关系矩阵结合图扩散机制和自注意力机制,使得人脸识别模型不仅可以捕捉到面部特征点之间的固有关系,还可以根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果;在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布;身份确认,采用交叉熵损失函数计算来确定身份;交叉熵损失函数度量了算法预测的身份概率分布与真实身份标签之间的误差,当模型对于真实身份的预测概率越高,交叉熵损失就越低,当交叉熵损失函数的输出值低于预设阈值时则判定为符合此身份信息,否则则判定为不符合此身份。
2.根据权利要求1所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
步骤1 ,建立数据集并标注;包括:
步骤1.1 ,获取人脸图像数据建立数据集,收集来自不同场景的原始输入的人脸图像,每张图像都被定义为矩阵 ,其中 />、/> 和 /> 分别表示图像的宽度、高度和颜色通道;
步骤1.2,图像数据建立身份标签,确保每个人脸的唯一性,采用独热编码的方法,设有个身份标签,则每一标签转化为长度为/>的向量;
通过独热编码,每张人脸图像与其对应的向量关联,确保模型训练中图像数据与正确的编码匹配。
3.根据权利要求1所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
步骤2.1,人脸对齐采用的方式;
定义一组标准的人脸特征点;
利用dlib68点检测器,从原始输入的人脸图像中精确地提取出特征点;
计算出一个几何变换矩阵,此矩阵描述了如何将输入图像中的特征点精确对齐到标准的人脸特征点上;
应用此几何变换矩阵,可以调整整个输入图像,使其与预定的人脸标准模板达到对齐,进而得到一个更标准化、更容易被识别的对齐后的人脸图像。
4.根据权利要求3所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
步骤2.2,窗口切分采用的边缘重叠的策略处理方式为,对于对齐后的人脸图像,精确地从中提取一系列重叠的窗口;每个窗口有固定尺寸的宽度和高度;进一步定义了每个窗口高度和宽度方向的重叠比例参数,重叠比例参数的取值范围为0-1。
5.根据权利要求4所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
步骤2.3,特征映射采用的处理方式为,针对每个切分的窗口,将其内容转化为向量,并进一步通过卷积操作转化为一个特征向量:;
将图像中的局部特征提取出来并转化为一系列的特征向量,通过组织这些向量,能够得到一个特征矩阵: ;
上述特征矩阵代表了与标准人脸对齐的输入图像中的所有信息,在特征空间中完整表示;
其中::经过卷积操作转化后的特征向量,/>:特征向量的数量,/>:特征向量的维度。
6.根据权利要求1-5任意一项所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
所述静态关系矩阵包括面部特征对称关系矩阵的特征和面部特征邻接关系矩阵的特征;
所述面部特征对称关系矩阵是一个描述面部特征点之间对称性的二维矩阵;
所述面部特征邻接关系矩阵是一个描述面部特征点之间邻接关系的矩阵。
7.根据权利要求6所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
所述动态关系矩阵构建基于一个嵌入矩阵,该矩阵捕获了面部特征的特征信息,并将其映射到一个高维空间,大小为 ,其中 /> 表示嵌入的维度,利用这个嵌入矩阵,可以进一步计算出动态关系矩阵是通过嵌入矩阵与其转置矩阵的乘积并应用 ReLU 激活函数得到的。
8.根据权利要求7所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,包括:
所述的图扩散机制模块针对面部特征变化来聚合图中面部节点的信息;
使用特征表示和两个权重矩阵,并结合静态关系矩阵和动态关系矩阵 ,通过多次扩散和线性变换来得到新的面部节点表示;
其中所述的两个权重矩阵分别是静态关系矩阵和动态关系矩阵对应的权重矩阵。
9.根据权利要求8所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
所述的自注意力机制模块;捕捉上下文相关的重要性,通过将更新后的节点表示与三个卷积操作相结合,可以得到一个注意力矩阵;利用这个注意力矩阵,模型能够为每个面部特征节点提取其在特定上下文中最相关的信息,最终的结果存储在通过自注意力机制获得的新的节点特征表示中。
10.根据权利要求1-5任意一项所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
步骤4;识别过程,将待检测图像输入模型,通过计算输出判断结果;
在模型的决策阶段,采用专门的分类器,将深层特征输出转化为各类别的身份概率分布;
将前述步骤得到的人脸特征表示,通过权重矩阵和偏置进行线性变换,得到每个身份的原始得分;
利用 softmax 函数将原始得分转换为身份概率分布,输出为一个向量,代表每个可能身份的预测概率。
11.根据权利要求10所述的针对智能城市应用的视觉转换的人脸识别方法,其特征在于,
交叉熵损失函数用来度量算法预测的身份概率分布与真实身份标签之间的误差,当模型对于真实身份的预测概率越高,交叉熵损失就越低,这意味着识别更为准确;给定实际身份的独热编码标签向量和模型预测的概率向量,交叉熵损失描述了这两个向量之间的差异度量,最小化这一损失,确保了模型在众多干扰因素中始终保持高准确性的人脸身份验证。
12.一种针对智能城市应用的视觉转换的人脸识别装置,其特征在于,包括:
图像采集模块,用于对各种环境和场景下的人脸图像的采集;
图像处理模块,用于对图像进行标准人脸特征对齐操作、进行重叠策略下的窗口切分操作和通过卷积操作将每个切分的窗口对应的内容转化为特征向量并通过组织这些向量,进一步转化得到一个特征矩阵;
数据库模块,用于存储图像采集模块采集人脸信息,通过独热编码处理,使得每张人脸图像与其对应的向量关联;
图卷及视觉转换网络,用于通过人脸识别模型捕捉到面部特征点之间的固有关系,根据具体的应用背景动态地调整每个特征点的重要性,给出人脸特征表示;
决策模块,用于调用数据库模块中的数据和图卷及视觉转换网络输出的人脸特征表示,通过分类器和优化算法给出人脸识别的身份判断。
13.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311785763.7A CN117456590B (zh) | 2023-12-25 | 2023-12-25 | 一种针对智能城市应用的视觉转换的人脸识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311785763.7A CN117456590B (zh) | 2023-12-25 | 2023-12-25 | 一种针对智能城市应用的视觉转换的人脸识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117456590A true CN117456590A (zh) | 2024-01-26 |
CN117456590B CN117456590B (zh) | 2024-04-02 |
Family
ID=89580306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311785763.7A Active CN117456590B (zh) | 2023-12-25 | 2023-12-25 | 一种针对智能城市应用的视觉转换的人脸识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456590B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894058A (zh) * | 2024-03-14 | 2024-04-16 | 山东远桥信息科技有限公司 | 基于注意力增强的智慧城市摄像头人脸识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220075994A1 (en) * | 2020-09-08 | 2022-03-10 | Samsung Electronics Co., Ltd. | Real-time facial landmark detection |
CN114550247A (zh) * | 2022-02-15 | 2022-05-27 | 华中师范大学 | 表情强度变化的人脸表情识别方法、系统及存储介质 |
CN114612861A (zh) * | 2022-03-09 | 2022-06-10 | 沈阳航空航天大学 | 基于注意力图卷积网络的考生动作识别方法 |
CN116205383A (zh) * | 2023-05-05 | 2023-06-02 | 杭州半云科技有限公司 | 一种基于元学习的静态动态协同图卷积交通预测方法 |
CN116311472A (zh) * | 2023-04-07 | 2023-06-23 | 湖南工商大学 | 基于多层次图卷积网络的微表情识别方法及装置 |
CN117133035A (zh) * | 2023-08-25 | 2023-11-28 | 华中师范大学 | 一种面部表情识别方法、系统及电子设备 |
-
2023
- 2023-12-25 CN CN202311785763.7A patent/CN117456590B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220075994A1 (en) * | 2020-09-08 | 2022-03-10 | Samsung Electronics Co., Ltd. | Real-time facial landmark detection |
CN114550247A (zh) * | 2022-02-15 | 2022-05-27 | 华中师范大学 | 表情强度变化的人脸表情识别方法、系统及存储介质 |
CN114612861A (zh) * | 2022-03-09 | 2022-06-10 | 沈阳航空航天大学 | 基于注意力图卷积网络的考生动作识别方法 |
CN116311472A (zh) * | 2023-04-07 | 2023-06-23 | 湖南工商大学 | 基于多层次图卷积网络的微表情识别方法及装置 |
CN116205383A (zh) * | 2023-05-05 | 2023-06-02 | 杭州半云科技有限公司 | 一种基于元学习的静态动态协同图卷积交通预测方法 |
CN117133035A (zh) * | 2023-08-25 | 2023-11-28 | 华中师范大学 | 一种面部表情识别方法、系统及电子设备 |
Non-Patent Citations (1)
Title |
---|
张亚飞;: "基于注意力的权重分配机制", 计算机技术与发展, no. 09, 10 September 2020 (2020-09-10) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894058A (zh) * | 2024-03-14 | 2024-04-16 | 山东远桥信息科技有限公司 | 基于注意力增强的智慧城市摄像头人脸识别方法 |
CN117894058B (zh) * | 2024-03-14 | 2024-05-24 | 山东远桥信息科技有限公司 | 基于注意力增强的智慧城市摄像头人脸识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117456590B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163114B (zh) | 一种人脸角度及人脸模糊度分析方法、系统和计算机设备 | |
CN111460962B (zh) | 一种口罩人脸识别方法及系统 | |
WO2019218824A1 (zh) | 一种移动轨迹获取方法及其设备、存储介质、终端 | |
CN111428581A (zh) | 人脸遮挡检测方法及系统 | |
CN109145759B (zh) | 车辆属性识别方法、装置、服务器及存储介质 | |
CN117456590B (zh) | 一种针对智能城市应用的视觉转换的人脸识别方法及装置 | |
CN109543627A (zh) | 一种判断驾驶行为类别的方法、装置、及计算机设备 | |
CN107239735A (zh) | 一种基于视频分析的活体检测方法和系统 | |
CN111275685A (zh) | 身份证件的翻拍图像识别方法、装置、设备及介质 | |
CN111353447B (zh) | 一种基于图卷积网络的人体骨架行为识别方法 | |
CN111428552B (zh) | 黑眼圈识别方法、装置、计算机设备和存储介质 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN103902962A (zh) | 一种遮挡或光源自适应人脸识别方法和装置 | |
CN111739029A (zh) | 基于深度学习卷积神经网络的电铲斗齿脱落检测方法 | |
CN103279753B (zh) | 一种基于树结构指导的英文场景文本块识别方法 | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子系统 | |
CN116110113A (zh) | 一种基于深度学习的虹膜识别方法 | |
CN114565955A (zh) | 人脸属性识别模型训练、社区人员监控方法、装置、设备 | |
CN106156739A (zh) | 一种基于脸部轮廓分析的证件照耳朵检测与提取方法 | |
CN117237326A (zh) | 证件照缺陷检测及提示方法、装置、介质及设备 | |
CN111652048A (zh) | 一种基于深度学习的1:n人脸比对方法 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
CN111160292A (zh) | 人眼检测方法 | |
CN111222473A (zh) | 一种对视频中人脸进行聚类的分析识别方法 | |
CN114333038B (zh) | 对象识别模型的训练方法和对象识别方法、装置、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |