CN116343266A - 图像人物识别方法及其装置、设备、介质、产品 - Google Patents
图像人物识别方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN116343266A CN116343266A CN202310335157.9A CN202310335157A CN116343266A CN 116343266 A CN116343266 A CN 116343266A CN 202310335157 A CN202310335157 A CN 202310335157A CN 116343266 A CN116343266 A CN 116343266A
- Authority
- CN
- China
- Prior art keywords
- image
- feature vector
- prediction frame
- person
- coordinate data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 217
- 238000011176 pooling Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims description 46
- 230000000694 effects Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 108091006146 Channels Proteins 0.000 description 14
- 238000004891 communication Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种图像人物识别方法及其装置、设备、介质、产品,所述方法包括:获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸;将所述待识别图像输入倒残插卷积层中获取图像特征向量,将所述图像特征向量输入至池化层中获取一维图像特征向量;将一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据;当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框。本申请可提供精准地单目标人物识别模型,且该人物识别模型为轻量化模型,无需占用过多的资源也具有较高地识别效率。
Description
技术领域
本申请涉及目标识别领域,尤其涉及一种图像人物识别方法,此外还涉及该方法相应的装置、设备、非易失性存储介质以及计算机程序产品。
背景技术
目标识别旨在对数字图像中的特定类别,如识别出图像中的人物对象,动物对象或汽车对象等,对图像中的目标对象进行预测,是许多计算机视觉任务的基础,例如实现图像中的目标对象实例分割或图像中的目标跟踪等;传统目标识别方法主要采用人工的方式提取特征,具有一定的局限性,近年来,随着深度学习飞速发展,神经网络的广泛应用使得目标识别也开启了新的征程,基于深度学习的目标识别方法根据检测思想的不同通常可分为两大类别:两阶段(two-stage)检测和一阶段(one-stage)检测,其中,两阶段检测算法基于提议的区域候选框,是一个“由粗到细”的过程,特点是精度高但速度慢,一阶段检测算法基于边界框的回归,是一个“一步到位”的过程,特点是速度快但精度稍逊;根据图像中目标的数量,检测任务可分为单目标和多目标识别任务,在单目标识别任务中,如果图像中存在特定类别对象,则需要给定对象的位置坐标和置信度得分,否则不输出任何结果,但目前现有技术中针对单目标人体识别的研究并不多,大部分研究工作针对的都是密集环境下的人体检测,并且目标识别模型的参数量多,占用的运行内存过大,无法将模型部署至普通CPU设备上做到实时目标检测。
鉴于现有的单目标识别模型所存在的问题,本申请人出于解决该问题的考虑做出相应的探索。
发明内容
本申请的目的在于满足用户需求而提供一种图像人物识别方法,此外还涉及该方法相应的装置、设备、非易失性存储介质以及计算机程序产品。
为实现本申请的目的,采用如下技术方案:
适应本申请的目的而提出的一种图像人物识别方法,包括如下步骤:
获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸;
将所述待识别图像输入倒残插卷积层中获取图像特征向量,将所述图像特征向量输入至池化层中获取一维图像特征向量;
将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据;
当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框。
进一步的实施例中,获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸的步骤之前,包括如下步骤:
将为所述目标图片尺寸的训练识别图像输入至所述倒残插卷积层中获取图像特征向量,并通过所述池化层中获取所述图像特征向量的一维图像特征向量;
将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的训练图像识别结果;
根据预设的坐标框偏差数据算法,计算所述训练图像识别结果中包含的人物预测框坐标数据与所述训练识别图像对应的标注人物预测框坐标数据之间的坐标框偏差数据;
根据预设的交叉熵损失函数,计算所述训练图像识别结果中包含的人物识别置信度与所述训练识别图像对应的标注人物识别置信度的交叉熵损失值;
检测所述坐标框偏差数据与所述交叉熵损失是否分别超过各自对应的训练阈值,若皆未超过,则从样本数据集中调用下一训练识别图片及其标注人物预测框坐标数据与标注人物识别置信度实施迭代训练。
进一步的实施例中,将所述待识别图像输入倒残插卷积层中获取图像特征向量的步骤之中,包括如下步骤:
对所述待识别图像进行向量编码获取原始图像向量,调用膨胀卷积层升维提取所述原始图像向量,获取升维图像特征向量;
调用深度可分卷积层提取所述升维图像特征向量,获取深度图像特征向量;
调用压缩卷积层降维提取所述深度图像特征向量,获取降维图像特征向量;
对所述原始图像向量与所述降维图像特征向量进行向量相加,获取所述待待识别图像对应的图像特征向量。
进一步的实施例中,将所述图像特征向量输入至池化层中获取一维图像特征向量的步骤之中,包括如下步骤:
对所述图像特征向量的一个或多个通道的特征图分别进行全局平均池化,获取各所述特征图各自对应的池化均值;
生成包含各所述池化均值的一维图像特征向量。
进一步的实施例中,将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据的步骤之中,包括如下步骤:
将所述一维图像特征向量输入至所述全连接层中,其中,所述全连接层的宽度为所述一维图像特征向量具有的数据数量;
获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据,所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据。
进一步的实施例中,当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框的步骤之中,包括如下步骤:
获取所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据;
确定出所述预测框左上角平面坐标数据及预测框右下角平面坐标数据在所述待识别图像中各自对应的坐标位置;
基于各所述坐标位置,所述待识别图像中输出呈矩形的人物预测框,所述人物预测框中包含所述待识别图像中人物对象的图像区域。
进一步的实施例中,当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框的步骤之后,包括如下步骤:
获取待处理视频数据中的视频帧图像,将所述视频帧图像作为待识别图像进行人物预测框识别;
获取具有人物预测框的视频帧图像,获取所述待处理视频数据对应的预测框特效;
将所述预测框特效合成至所述所述视频帧图像中输出的人物预测框处,生成人物特效视频帧图像。
适应本申请的目的而提出的一种图像人物识别装置,其包括:
图像尺寸修改模块,用于获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸;
图像特征提取模块,用于将所述待识别图像输入倒残插卷积层中获取图像特征向量,将所述图像特征向量输入至池化层中获取一维图像特征向量;
图像人物识别模块,用于将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据;
预测框输出模块,用于当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框。
进一步的实施例中,所述图像特征提取模块包括:
特征升维提取子模块,用于对所述待识别图像进行向量编码获取原始图像向量,调用膨胀卷积层升维提取所述原始图像向量,获取升维图像特征向量;
特征深度提取子模块,用于调用深度可分卷积层提取所述升维图像特征向量,获取深度图像特征向量;
特征降维提取子模块,用于调用压缩卷积层降维提取所述深度图像特征向量,获取降维图像特征向量;
特征向量相加子模块,用于对所述原始图像向量与所述降维图像特征向量进行向量相加,获取所述待待识别图像对应的图像特征向量。
较佳的实施例中,所述图像特征提取模块还包括:
特征池化子模块,用于对所述图像特征向量的一个或多个通道的特征图分别进行全局平均池化,获取各所述特征图各自对应的池化均值;
一维向量生成子模块,用于生成包含各所述池化均值的一维图像特征向量。
进一步的实施例中,所述图像人物识别模块包括:
全连接输入子模块,用于将所述一维图像特征向量输入至所述全连接层中,其中,所述全连接层的宽度为所述一维图像特征向量具有的数据数量;
全连接输出子模块,用于获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据,所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据。
进一步的实施例中,所述预测框输出模块包括:
平面坐标获取子模块,用于获取所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据;
坐标位置确定子模块,用于确定出所述预测框左上角平面坐标数据及预测框右下角平面坐标数据在所述待识别图像中各自对应的坐标位置;
预测框输出子模块,用于基于各所述坐标位置,所述待识别图像中输出呈矩形的人物预测框,所述人物预测框中包含所述待识别图像中人物对象的图像区域。
为解决上述技术问题本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述图像人物识别方法的步骤。
为解决上述技术问题本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述图像人物识别方法的步骤。
为解决上述技术问题本申请实施例还提供一种计算机程序产品,包括计算机程序及计算机指令,该计算机程序及计算机指令被处理器执行时,使得所述处理器执行上述所述图像人物识别方法的步骤。
相对于现有技术,本申请的优势如下:
本申请通过构建轻量化的单目标人物对象识别模型,为移动终端设备或普通配置终端设备提供可本地执行的单目标人物对象识别功能,通过轻量化的倒残插卷积层提取需进行人物对象识别的图像的图像特征向量,并将图像特征向量池化为一维图像特征向量输入至小尺寸的全连接层中进行全连接操作获取全连接回归结果作为图像识别结果,在人物置信度表征图像存在人物对象时,根据人物预测框坐标数据在图像中输出对应的人物预测框,以通过人物预测框标示出图像中具有人物对象的图像区域。
其次,本申请以轻量化为目的构建的单目标人物对象识别模型,相比于两阶段模型,本申请的模型无需候选框提取的过程,相比单阶段模型,本申请的模型不需要执行非极大值抑制操作,且本申请的模型复杂度较低,易于扩展并且人物识别效果显著,一方面可以作为数据预处理模块过滤不符合条件的样本,另一方面可以作为其他视觉类任务的高效且低算力占用人物对象识别功能模块。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为实施本申请的技术方案相关的一种典型的网络部署架构示意图;
图2为本申请的图像人物识别方法的典型实施例的流程示意图;
图3为本申请中关于倒残插卷积层及全连接层的训练的具体实施方式所形成的流程示意图;
图4为本申请中关于倒残插卷积层提取待识别图像的图像特征向量的具体实施方式所形成的流程示意图;
图5为本申请中关于池化层将图像特征向量转换为一维图像特征向量的具体实施方式所形成的流程示意图;
图6为本申请中关于全连接层对一维图像特征向量进行全连接操作以获取对应的图像识别结果的具体实施方式所形成的流程示意图;
图7为本申请中关于根据人物预测框数据在待识别图像中输出人物预测框的具体实施方式所形成的流程示意图;
图8为本申请中关于在待识别图像中人物预测框的图像区域合成预测框特效的具体实施方式所形成的流程示意图;
图9为本申请的图像人物识别装置的典型实施例的原理框图;
图10为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;传统膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的传统膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“工作节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称服务器80部署在云端,作为一个在线服务器,其可以负责进一步连接起相关数据服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备例如图中所示的智能手机81和个人计算机82或者第三方服务器(未图示)提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与云端的服务器80建立数据通信链路,以便运行所述服务器所提供的服务相关的终端应用程序。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。
所述的应用程序,是指运行于服务器或终端设备上的应用程序,这一应用程序采用编程的方式实现了本申请的相关技术方案,其程序代码可被以计算机可执行指令的形式保存于计算机能识别的非易失性存储介质中,并被中央处理器调入内存中运行,通过该应用程序在计算机的运行而构造出本申请的相关装置。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
请参阅图2,本申请的一种图像人物识别方法,在其典型实施例中,其包括如下步骤:
步骤S11,获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸:
所述的待识别图像一般为通过解码视频数据获取的视频帧图像或为普通的图像数据,例如,所述视频数据或图片数据可为存储至当前设备的本地存储空间中的数据,用户通过选定的控件选定对应的视频数据或图片数据作为需进行单目标人物识别的数据,当前设备将解码视频数据获取其具有的视频帧图像或将被选定的图片数据作为所述待识别图像,以修改该待识别图像的图片尺寸,使其符合后续的所述倒残插卷积层进行特征提取时的目标图片尺寸输入规格。
所述的目标图片尺寸为预设的图片尺寸,所述目标图片尺寸用于修改将需进行单目标人物对象识别的所述待识别图像的图片尺寸,以使所述待识别图像的图片尺寸可符合后续的所述倒残插卷积层的图片尺寸输入规格;所述目标图片尺寸一般设置为宽度为320像素及高度为320像素的图片尺寸,当然,本领域技术人员可灵活设计所述目标图片尺寸,恕不赘述。
所述的单目标人物识别是指识别出图像中具有的单个人物对象,对于需进行所述单目标人物识别的所述待识别图像,将该待识别图像的图片尺寸修改为所述目标图片尺寸。
步骤S12,将所述待识别图像输入倒残插卷积层中获取图像特征向量,将所述图像特征向量输入至池化层中获取一维图像特征向量:
将所述待识别图像的图片尺寸修改为所述目标图片尺寸后,当前设备将所述待识别图像输入至所述倒残插卷积层中,以提取出所述待识别图像对于的所述图像特征向量。
所述的倒残插卷积层一般是指以MobileNetV2特征提取网络所构建的卷积层,所述倒残插卷积层一般由膨胀卷积层、深度可分卷积层及压缩卷积层所组成,其中,所述待识别图像输入所述倒残插卷积层时将进行向量编码,以将所述待识别图像转换为原始图像向量,当所述原始图像向量输入所述倒残插卷积层时,所述膨胀卷积层提升所述原始图像向量的向量维度,以将所述原始图像向量转换为升维图像特征向量,进而通过所述深度可分卷积层深度提取所述升维图像特征向量,以生成所述升维图像特征向量对应的深度图像特征向量,最后通过所述压缩卷积层降维提取所述深度图像特征向量,对所述深度图像特征向量进行向量压缩将其转换为对应的所述降维图像特征向量,以将所述深度图像特征向量压缩为与所述压缩图像向量相同的向量维度,最后当所述倒残插卷积层的步数为1时,将进行倒残插操作,将所述原始图像向量与所述降维图像特征向量进行向量相加,将向量相加后的图像向量作为所述待识别图像对应的图像特征向量,若所述倒残插卷积层的步数不为1时,则将所述降维图像特征向量作为所述待识别图像的图像特征向量。
所述的倒残插卷积层具有两种超参数可进行设置,超参数α用于设置每一个卷积层的通道数,每一个卷积层的通道数与所述超参数α相乘,以控制所述倒残插卷积层中每一个卷积层的通道数,另一个超参数为超参数β,其为分辨率系数,用于控制输入至所述倒残插卷积层的所述待识别图像的分辨率,所述的目标图像尺寸一般为通过所述超参数β进行设置;其中,所述超参数α的数值设置范围为0到1的范围内,本方法一般设置在0.25,以减少所述倒残插卷积层中各卷积层的通道数,轻量化所述倒残插卷积层使其可被配置至移动终端设备或普通配置终端设备中,相对应,所述超参数β一般设置为320x320,如上所述,将所述目标图像尺寸设置为宽度为320像素及高度为320像素的图片尺寸,当然,本领域技术人员可灵活设计所述超参数α及超参数β的具体数值,恕不赘述。
获取所述待识别图像对应的所述图像特征向量后,将所述图像特征向量输入至所述池化层中,以将所述图像特征向量转换为所述一维图像特征向量,所述的池化层一般为进行全局平均池化的池化层,将所述图像特征向量输入至所述池化层后,将对所述图像特征向量的一个或多个通道的特征图分别进行全局平均池化,获取各所述特征图各自对应的池化均值,进而将各所述池化均值组合为所述待识别图像对应的所述一维图像特征向量。
步骤S13,将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据:
获取所述待识别图像对应的所述一维图像特征向量后,将该一维图像特征向量输入值所述全连接层中,以通过所述全连接层进行特征提取,输出所述一维图像特征向量对应的所述人物识别置信度及人物预测框坐标数据。
所述的全连接层的宽度一般与所述一维图像特征向量具有的数据数量相同,所述全连接层的长度一般为5层,且具有对应的激活函数,以轻量化为目的设计所述全连接层,使所述全连接层可部署至移动终端设备或普通配置的终端设备中,且所述全连接层输出的所述图像识别结果一般包含所述人物识别置信度及所述人物预测框坐标数据,其中,所述人物预测框坐标数据一般包含预测框左上角平面坐标数据及预测框右下角平面坐标数据,所述平面坐标数据包含x轴数据及y轴数据,可以看出,所述全连接层输出的数据量为5,包含所述人物识别置信度、所述预测框左上角平面坐标数据及预测框右下角平面坐标数据各自的x轴及y轴数据。
所述的人物识别置信度一般分为表征图像具有人物的置信度及表征图像不具有人物的置信度。
所述的人物预测框坐标数据用于表征框选出图像中具有的人物对象的预测框的坐标数据,所述坐标数据一般为预测框的左上角平面坐标数据及右下角平面坐标数据,因所述人物预测框一般为矩形,通过所述预测框左上角平面坐标数据及所述预测框右下角平面坐标数据即可确定出所述预测框在待识别图像中的位置,所述预测框框选出待识别图像中具有的人物对象的图像区域。
步骤S14,当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框:
获取由所述全连接层输出的所述人物识别置信度后,当该人物识别置信度为表征所述待识别图像中操作人物对象时,当前设备将根据所述全连接层对应输出的所述人物预测框坐标数据,在所述待识别图像中输出对应的人物预测框,以通过该人物预测框框选出所述待识别图像中具有的人物对象的图像区域。
当前设备获取所述人物预测框数据包含的所述预测框左上角平面坐标数据及所述预测框右下角平面坐标数据,进而确定出所述所述预测框左上角平面坐标数据及所述预测框右下角平面坐标数据在所述待识别图像中各自对应的坐标位置,其中,所述待识别图像中的平面坐标系的原点一般处于图像的四个边角或图像的中心处,基于各所述坐标位置,所述待识别图像中输出呈矩形的人物预测框,所述人物预测框中包含所述待识别图像中人物对象的图像区域,以将通过所述人物预测框将所述待识别图像中具有的人物对象框选出来。
在所述待识别图像中输出所述人物预测框框选出人物对象的图像区域后,可在所述待识别图像中所述人物预测框的图像区域处进行对应的图像处理工作,例如,当所述待识别图像为视频数据中的视频帧图像时,则将对所述在所述待识别图像中所述人物预测框的图像区域处进行马赛克处理,具体的,在所述待识别图像中输出所述人物预测框后,将生成尺寸为所述人物预测框的尺寸的马赛克特效遮蔽图像,进而将所述马赛克特效遮蔽图像合成至所述待识别图像中所述人物预测框的图像区域处;另外,在输出所述待识别图像中的所述人物预测框处后,所述人物预测框的边框的图像区域输出对应的预测框特效,通过所述预测框特效框选修饰所述待识别特效中人物对象的图像区域。
通过本方法的典型实施例可知,本方法通过构建轻量化的单目标人物对象识别模型,为移动终端设备或普通配置终端设备提供可本地执行的单目标人物对象识别功能,通过轻量化的倒残插卷积层提取需进行人物对象识别的图像的图像特征向量,并将图像特征向量池化为一维图像特征向量输入至小尺寸的全连接层中进行全连接操作获取全连接回归结果作为图像识别结果,在人物置信度表征图像存在人物对象时,根据人物预测框坐标数据在图像中输出对应的人物预测框,以通过人物预测框标示出图像中具有人物对象的图像区域。
其次,本方法以轻量化为目的构建的单目标人物对象识别模型,相比于两阶段模型,本方法的模型无需候选框提取的过程,相比单阶段模型,本方法的模型不需要执行非极大值抑制操作,且本方法的模型复杂度较低,易于扩展并且人物识别效果显著,一方面可以作为数据预处理模块过滤不符合条件的样本,另一方面可以作为其他视觉类任务的高效且低算力占用人物对象识别功能模块。
以上的典型实施例及其变化实施例充分揭示了本申请的图像人物识别方法的实施方案,但是,仍可通过对一些技术手段的变换和扩增而演绎出该方法的多种变化实施例,如下概要说明其他实施例:
一种实施例中,请参考图3,获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸的步骤之前,包括如下步骤:
步骤S05,将为所述目标图片尺寸的训练识别图像输入至所述倒残插卷积层中获取图像特征向量,并通过所述池化层中获取所述图像特征向量的一维图像特征向量:
关于所述倒残插卷积层的神经网络训练,本实施例中,将用于训练的所述训练识别图像修改为所述目标图片尺寸后,再将该训练识别图像输入至未训练至收敛的所述倒残插卷积层中,并通过所述池化层中获取所述图像特征向量的所述一维图像特征向量。
所述的训练识别图像具有对应的标注数据,所述标注数据包含标注人物预测框坐标数据及标注人物标识置信度。
步骤S06,将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的训练图像识别结果:
通过所述未训练至收敛的倒残插卷积层及所述池化层获取所述训练识别图像对应的所述一维图像特征向量后,将该所述一维图像特征向量输入至未训练至收敛的所述全连接层中,以获取所述全连接层输出的训练图像识别结果。
步骤S07,根据预设的坐标框偏差数据算法,计算所述训练图像识别结果中包含的人物预测框坐标数据与所述训练识别图像对应的标注人物预测框坐标数据之间的坐标框偏差数据:
所述的坐标框偏差数据算法根据所述训练图像识别结果中包含的人物预测框坐标数据与所述标注人物预测框坐标数据进行坐标偏差数据计算,所述坐标框偏差数据算法的具体数学表达式为:
tX=(x*-x)/w
ty=(y*-y)/h
tw=log(w*/w)
th=log(h*/h)
其中,所示的x和y为所述人物预测框坐标数据中包含的左上角平面坐标数据的x轴数据与y轴数据,所示的w和h分别为根据人物预测框坐标数据中包含的左上角平面坐标数据与右下角平面坐标数据所计算的人物预测框的宽度或高度,相应的,所示的x*、y*、w*、h*分别为所述标注人物预测框坐标数据对应的左上角平面坐标数据的x轴数据与y轴数据与其对应的标注人物预测框的宽度和高度,另外,所示的tX、ty、tw、th为所述的坐标框偏差数据,其中,所示tX为所述人物预测框坐标数据与所述标注人物预测框坐标数据各自的左上角平面坐标数据的x轴数据的偏差数据,所示ty为所述人物预测框坐标数据与所述标注人物预测框坐标数据各自的左上角平面坐标数据的y轴数据的偏差数据,所示tw为所述人物预测框坐标数据与所述标注人物预测框坐标数据各自的宽度的偏差数据,所示th为所述人物预测框坐标数据与所述标注人物预测框坐标数据各自的高度的偏差数据。
步骤S08,根据预设的交叉熵损失函数,计算所述训练图像识别结果中包含的人物识别置信度与所述训练识别图像对应的标注人物识别置信度的交叉熵损失值:
调用预设的交叉熵损失函数,此处可由本领域技术人员根据先验知识或实验经验灵活变通设置所述交叉熵损失函数,如L1 Loss或L2 Loss等交叉熵损失函数,以计算出所述训练图像识别结果包含的人物识别置信度与所述标注人物识别置信度之间的交叉熵损失值之和,作为所述训练图像识别结果包含的人物对应的交叉熵损失值。
步骤S09,检测所述坐标框偏差数据与所述交叉熵损失是否分别超过各自对应的训练阈值,若皆未超过,则从样本数据集中调用下一训练识别图片及其标注人物预测框坐标数据与标注人物识别置信度实施迭代训练:
计算出所述训练图像识别结果与所述标注数据之间的所述坐标框偏差数据与所述交叉熵损失后,将检测所述坐标框偏差数据与所述交叉熵损失是否分别超过各自对应的所述训练阈值,若皆未超过,则从所述样本数据集中调用下一训练识别图片及其标注人物预测框坐标数据与标注人物识别置信度实施迭代训练。
所述样本数据集中存储这多个由训练识别图像与其对应的标注数据所组成的映射关系数据。
同时,开发人员可根据检测所述坐标框偏差数据与所述交叉熵损失是否分别超过各自对应的训练阈值的检测结果,调节所述倒残插卷积层的所述超参数α与超参数β,以优化所述倒残插卷积层的特征提取精度。
本实施例中,通过坐标框偏差数据算法与交叉熵损失函数训练应用于单目标人物识别的倒残插卷积层与卷积层,以有效地将具有所述倒残插卷积层与卷积层的神经网络模型训练至收敛,提升单目标人物识别的识别精度。
一种实施例中,请参考图4,将所述待识别图像输入倒残插卷积层中获取图像特征向量的步骤之中,包括如下步骤:
步骤S121,对所述待识别图像进行向量编码获取原始图像向量,调用膨胀卷积层升维提取所述原始图像向量,获取升维图像特征向量:
将所述待识别图像的图片尺寸修改为目标图片尺寸后,将对所述待识别图像进行向量编码,其中,将所述待识别图像分为一个或多个通道进行所述向量编码,例如,将所述待识别图像分为R(红)、G(绿)及B(蓝)3个通道进行向量编码,或Y、UV两个通道进行向量编码,以获取所述待识别图像对应的所述原始图像向量。
所述的膨胀卷积层一般为基于逐点卷积(Pointwise Convolution,PW)所构建的卷积层,所述膨胀卷积层具有的卷积卷积核为1x1xM,其中,M为由本领域技术人员根据先验知识或实验经验灵活变通设置,以用于对所述原始图像向量进行升维处理。
步骤S122,调用深度可分卷积层提取所述升维图像特征向量,获取深度图像特征向量:
通过所述膨胀卷积层升维提取所述原始图像向量,获取所述原始图像向量对应的所述升维图像特征向量后,将调用所述深度可分卷积层提取所述升维图像特征向量,获取所述深度图像特征向量。
所述的深度可分卷积层一般是指基于深度可分离卷积(Depthwise SeparableConvolution,DW)所构建的卷积层,深度可分离卷积(Depthwise Separable Convolution)是一种卷积结构。它是由一层深度卷积(Depthwise convolution)与一层逐点卷积(Pointwise Convolution)组合而成的,每一层卷积之后都紧跟着批规范化和ReLU激活函数。
步骤S123,调用压缩卷积层降维提取所述深度图像特征向量,获取降维图像特征向量:
通过所述深度可分卷积层提取所述升维图像特征向量,获取所述升维图像特征向量对应的所述深度图像特征向量后,将通过调用压缩卷积层降维提取所述深度图像特征向量,以将所述深度图像特征向量的数据维度压缩至与所述原始图像向量同样的数据维度,其中,所述压缩卷积层具有的卷积核尺寸为1x1。
所述膨胀卷积层、深度可分卷积层及压缩卷积层各自一般具有BN层,所述BN(Batch Normalization,批量正则化)层是通过一定的规范化手段,将与其连接的卷积层中的神经元相对应的输入值的分布强行拉回到均值为0方差为1的标准正态分布,即把越来越偏的分布强制拉回比较标准的分布,使得激活输入值落在非线性函数对输入比较敏感的区域,网络的输出就不会很大,可以得到比较大的梯度,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。据此处揭示的原理,另一实施例中,本领域技术人员可按照业务所需灵活变通而对所述膨胀卷积层、深度可分卷积层及压缩卷积层中的BN层与ReLU层组合中的BN层进行取舍,可放弃采用BN层而单独使用卷积层与ReLU组合。
步骤S124,对所述原始图像向量与所述降维图像特征向量进行向量相加,获取所述待待识别图像对应的图像特征向量:
当所述膨胀卷积层、深度可分卷积层及压缩卷积层的步数为1时,将进行倒残插操作,将所述原始图像向量与所述降维图像特征向量进行向量相加,将向量相加后的图像向量作为所述待识别图像对应的图像特征向量,若所述所述膨胀卷积层、深度可分卷积层及压缩卷积层的步数不为1时,则将所述降维图像特征向量作为所述待识别图像的图像特征向量。
本实施例中,通过膨胀卷积层、深度可分卷积层及压缩卷积层所组成的倒残插卷积层具有轻量化的优势,使得应用该倒残插卷积层进行待识别图像的特征提取的单目标人物识别模型可部署至移动终端设备或普通配置终端设备中,使该类终端设备可本地进行单目标人物识别。
一种实施例中,请参考图5,将所述图像特征向量输入至池化层中获取一维图像特征向量的步骤之中,包括如下步骤:
步骤S121’,对所述图像特征向量的一个或多个通道的特征图分别进行全局平均池化,获取各所述特征图各自对应的池化均值:
所述的全局平均池化是指(Global Average Pooliong,GAP),其通过对所述图像特征向量中各通道的特征图进行平均计算,以获取各所述特征图各自对应的池化均值,进而组合该些池化均值以完成对所述图像特征向量的池化操作。
步骤S122’,生成包含各所述池化均值的一维图像特征向量:
获取各所述所述特征图各自对应的池化均值,将根据各所述特征图在所述图像特征向量中的通道顺序,按序将该些池化均值组合所述一维图像特征向量。
本实施例中,通过对待识别图像的图像特征向量进行全局平均池化,将图像特征向量池化为一维图像特征向量,抑制图像特征向量的过拟合。
一种实施例中,请参考图6,将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据的步骤之中,包括如下步骤:
步骤S131,将所述一维图像特征向量输入至所述全连接层中,其中,所述全连接层的宽度为所述一维图像特征向量具有的数据数量:
所述的全连接层的尺寸一般为长度为5层,宽度为n的尺寸,其中,宽度n与所述一维图像特征向量具有的数据数量相关,即所述全连接层每一层的神经元数量与所述一维图像特征向量具有的数据数量相同。
步骤S132,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据,所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据:
所述全连接层在对所述一维图像特征向量进行全连接操作后,将输出5个输出结果作为所述图像识别结果,其中,所述5个输出结果包括所述人物识别置信度,以及所述人物预测框坐标数据中包含的预测框左上角平面坐标数据及预测框右下角平面坐标数据各自对应的x轴数据及y轴数据。
本实施例中,以轻量化为目的设计全连接层,使全连接层可部署至移动终端设备或普通配置的终端设备中。
一种实施例中,请参考图7,当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框的步骤之中,包括如下步骤:
步骤S141,获取所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据:
所述的预测框左上角平面坐标数据及所述右下角平面坐标数据各自包含对应于所述待识别图像中的平面坐标系的x轴数据及y轴数据。
步骤S142,确定出所述预测框左上角平面坐标数据及预测框右下角平面坐标数据在所述待识别图像中各自对应的坐标位置:
所述的待识别图像中平面坐标系的原点一般处于图像边角或图像中心,根据所述预测框左上角平面坐标数据及所述右下角平面坐标数据中各自包含的x轴数据及y轴数据,可确定出所述预测框左上角平面坐标数据与所述右下角平面坐标数据在所述待识别图像中各自对应的坐标位置。
步骤S143,基于各所述坐标位置,所述待识别图像中输出呈矩形的人物预测框,所述人物预测框中包含所述待识别图像中人物对象的图像区域:
所述人物预测框一般为矩形预测框,因此,根据所述所述预测框左上角平面坐标数据与所述右下角平面坐标数据在所述待识别图像中各自对应的所述坐标位置,可确定出所述人物预测框在所述待识别图像中的形状及位置,且在所述待识别图像中输出的所述人物预测框框选出该待识别图像具有的人物对象的图像区域,使所述人物对象的图像区域被所述人物预测框所包含。
本实施例中,根据识别出的人物预测框坐标数据,在待识别图像中输出对应的人物预测框,以将待识别图像中具有人物对象的图像区域进行框选,使待识别图像中被识别出的人物对象可被直观地标示出来。
一种实施例中,请参考图8,当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框的步骤之后,包括如下步骤:
步骤S15,获取待处理视频数据中的视频帧图像,将所述视频帧图像作为待识别图像进行人物预测框识别:
所述的待处理视频数据中包含多个按时间轴排序的视频帧图像,通过解码所述待处理视频数据,以获取所述待处理视频数据中包含的多个视频帧图像,并将所述多个视频帧图像作为所述待识别图像,对该些视频帧图像进行人物预测框识别,检测所述视频帧图像中是否具有人物对象的图像区域,对识别出具有的人物对象的视频帧图像,将输出该些视频帧图像各自对应的所述人物预测框。
步骤S16,获取具有人物预测框的视频帧图像,获取所述待处理视频数据对应的预测框特效:
所述的预测框特效可为用于遮蔽视频帧图像中具有人物对象的图像区域的马赛克遮蔽特效,或为用于装饰所述人物预测框的预测框装饰特效,当然,本领域技术人员可灵活设计所述预测框特效,恕不赘述。
步骤S17,将所述预测框特效合成至所述所述视频帧图像中输出的人物预测框处,生成人物特效视频帧图像:
获取所述预测框特效后,将所述预测框特效的图像尺寸修改为与当前进行特效合成的视频帧图像中输出的人物预测框的尺寸相符的图像尺寸,再将所述预测框特效合成至所述视频帧图像中输出的人物预测框处,以生成所述人物特效视频帧图像。
本实施例中,对视频数据中包含的各视频帧图像进行人物预测框识别处理,以对视频数据中具有的人物对象进行特效合成,且负责人物预测框识别处理的模型为图像人物识别方法的轻量化识别模型,使得人物对象特效合成功能可部署于移动终端设备或普通配置终端设备中进行本地运行。
进一步,可以通过将上述各实施例所揭示的方法中的各个步骤进行功能化,构造出本申请的一种图像人物识别装置,按照这一思路,请参阅图9,其中的一个典型实施例中,该装置包括:图像尺寸修改模块11,用于获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸;图像特征提取模块12,用于将所述待识别图像输入倒残插卷积层中获取图像特征向量,将所述图像特征向量输入至池化层中获取一维图像特征向量;图像人物识别模块13,用于将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据;预测框输出模块14,用于当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框。
一种实施例中,所述图像特征提取模块12包括:特征升维提取子模块,用于对所述待识别图像进行向量编码获取原始图像向量,调用膨胀卷积层升维提取所述原始图像向量,获取升维图像特征向量;特征深度提取子模块,用于调用深度可分卷积层提取所述升维图像特征向量,获取深度图像特征向量;特征降维提取子模块,用于调用压缩卷积层降维提取所述深度图像特征向量,获取降维图像特征向量;特征向量相加子模块,用于对所述原始图像向量与所述降维图像特征向量进行向量相加,获取所述待待识别图像对应的图像特征向量。
一种实施例中,所述图像特征提取模块12还包括:特征池化子模块,用于对所述图像特征向量的一个或多个通道的特征图分别进行全局平均池化,获取各所述特征图各自对应的池化均值;一维向量生成子模块,用于生成包含各所述池化均值的一维图像特征向量。
一种实施例中,所述图像人物识别模块13包括:全连接输入子模块,用于将所述一维图像特征向量输入至所述全连接层中,其中,所述全连接层的宽度为所述一维图像特征向量具有的数据数量;全连接输出子模块,用于获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据,所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据。
一种实施例中,所述预测框输出模块14包括:平面坐标获取子模块,用于获取所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据;坐标位置确定子模块,用于确定出所述预测框左上角平面坐标数据及预测框右下角平面坐标数据在所述待识别图像中各自对应的坐标位置;预测框输出子模块,用于基于各所述坐标位置,所述待识别图像中输出呈矩形的人物预测框,所述人物预测框中包含所述待识别图像中人物对象的图像区域。
为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根据所述图像人物识别方法所实现的计算机程序。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
如图10所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种图像人物识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种图像人物识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行本申请的图像人物识别装置中的各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有图像人物识别装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种非易失性存储介质,所述的图像人物识别方法被编写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读指令被一个或多个处理器执行时,意味着该程序在计算机中的运行,由此使得一个或多个处理器执行上述任一实施例图像人物识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请可提供精准地单目标人物识别模型,且该人物识别模型为轻量化模型,无需占用过多的资源也具有较高地识别效率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种图像人物识别方法,其特征在于,包括如下步骤:
获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸;
将所述待识别图像输入倒残插卷积层中获取图像特征向量,将所述图像特征向量输入至池化层中获取一维图像特征向量;
将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据;
当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框。
2.根据权利要求1所述的方法,其特征在于,获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸的步骤之前,包括如下步骤:
将为所述目标图片尺寸的训练识别图像输入至所述倒残插卷积层中获取图像特征向量,并通过所述池化层中获取所述图像特征向量的一维图像特征向量;
将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的训练图像识别结果;
根据预设的坐标框偏差数据算法,计算所述训练图像识别结果中包含的人物预测框坐标数据与所述训练识别图像对应的标注人物预测框坐标数据之间的坐标框偏差数据;
根据预设的交叉熵损失函数,计算所述训练图像识别结果中包含的人物识别置信度与所述训练识别图像对应的标注人物识别置信度的交叉熵损失值;
检测所述坐标框偏差数据与所述交叉熵损失是否分别超过各自对应的训练阈值,若皆未超过,则从样本数据集中调用下一训练识别图片及其标注人物预测框坐标数据与标注人物识别置信度实施迭代训练。
3.根据权利要求1所述的方法,其特征在于,将所述待识别图像输入倒残插卷积层中获取图像特征向量的步骤之中,包括如下步骤:
对所述待识别图像进行向量编码获取原始图像向量,调用膨胀卷积层升维提取所述原始图像向量,获取升维图像特征向量;
调用深度可分卷积层提取所述升维图像特征向量,获取深度图像特征向量;
调用压缩卷积层降维提取所述深度图像特征向量,获取降维图像特征向量;
对所述原始图像向量与所述降维图像特征向量进行向量相加,获取所述待待识别图像对应的图像特征向量。
4.根据权利要求1所述的方法,其特征在于,将所述图像特征向量输入至池化层中获取一维图像特征向量的步骤之中,包括如下步骤:
对所述图像特征向量的一个或多个通道的特征图分别进行全局平均池化,获取各所述特征图各自对应的池化均值;
生成包含各所述池化均值的一维图像特征向量。
5.根据权利要求1所述的方法,其特征在于,将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据的步骤之中,包括如下步骤:
将所述一维图像特征向量输入至所述全连接层中,其中,所述全连接层的宽度为所述一维图像特征向量具有的数据数量;
获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据,所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据。
6.根据权利要求1所述的方法,其特征在于,当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框的步骤之中,包括如下步骤:
获取所述人物预测框坐标数据包含预测框左上角平面坐标数据及预测框右下角平面坐标数据;
确定出所述预测框左上角平面坐标数据及预测框右下角平面坐标数据在所述待识别图像中各自对应的坐标位置;
基于各所述坐标位置,所述待识别图像中输出呈矩形的人物预测框,所述人物预测框中包含所述待识别图像中人物对象的图像区域。
7.根据权利要求1所述的方法,其特征在于,当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框的步骤之后,包括如下步骤:
获取待处理视频数据中的视频帧图像,将所述视频帧图像作为待识别图像进行人物预测框识别;
获取具有人物预测框的视频帧图像,获取所述待处理视频数据对应的预测框特效;
将所述预测框特效合成至所述所述视频帧图像中输出的人物预测框处,生成人物特效视频帧图像。
8.一种图像人物识别装置,其特征在于,包括:
图像尺寸修改模块,用于获取待识别图像,将所述待识别图像的图片尺寸修改为目标图片尺寸;
图像特征提取模块,用于将所述待识别图像输入倒残插卷积层中获取图像特征向量,将所述图像特征向量输入至池化层中获取一维图像特征向量;
图像人物识别模块,用于将所述一维图像特征向量输入至全连接层中,获取所述全连接层输出的图像识别结果,所述图像识别结果中包含人物识别置信度及人物预测框坐标数据;
预测框输出模块,用于当所述人物识别置信度表征所述待识别图像存在人物对象时,根据所述人物预测框坐标数据在所述待识别图像中输出对应的人物预测框。
9.一种图像人物识别设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310335157.9A CN116343266A (zh) | 2023-03-30 | 2023-03-30 | 图像人物识别方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310335157.9A CN116343266A (zh) | 2023-03-30 | 2023-03-30 | 图像人物识别方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343266A true CN116343266A (zh) | 2023-06-27 |
Family
ID=86885548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310335157.9A Pending CN116343266A (zh) | 2023-03-30 | 2023-03-30 | 图像人物识别方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343266A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746463A (zh) * | 2023-12-20 | 2024-03-22 | 脉得智能科技(无锡)有限公司 | 体征信息识别方法、系统和电子设备 |
-
2023
- 2023-03-30 CN CN202310335157.9A patent/CN116343266A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746463A (zh) * | 2023-12-20 | 2024-03-22 | 脉得智能科技(无锡)有限公司 | 体征信息识别方法、系统和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473141B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
US20200311871A1 (en) | Image reconstruction method and device | |
WO2021109876A1 (zh) | 图像处理方法、装置、设备及存储介质 | |
TW202139183A (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN111639692A (zh) | 一种基于注意力机制的阴影检测方法 | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
CN113326930B (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN111047602A (zh) | 图像分割方法、装置及终端设备 | |
CN112488923A (zh) | 图像超分辨率重建方法、装置、存储介质及电子设备 | |
CN111967598A (zh) | 神经网络压缩方法、装置、设备及计算机可读存储介质 | |
CN113128360A (zh) | 基于深度学习的司机驾驶行为检测与识别方法 | |
CN111539353A (zh) | 一种图像场景识别方法及装置、计算机设备以及存储介质 | |
CN116343266A (zh) | 图像人物识别方法及其装置、设备、介质、产品 | |
CN115272250B (zh) | 确定病灶位置方法、装置、计算机设备和存储介质 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN114282622A (zh) | 训练样本排查方法及其装置、设备、介质、产品 | |
CN113688826A (zh) | 基于特征融合的花粉图像检测方法及系统 | |
CN117152105A (zh) | 果园荔枝估产方法、装置、设备及介质 | |
CN116311451A (zh) | 一种多模态融合人脸活体检测模型生成方法和装置、电子设备 | |
CN112509052B (zh) | 黄斑中心凹的检测方法、装置、计算机设备和存储介质 | |
CN113919998B (zh) | 一种基于语义和姿态图引导的图片匿名化方法 | |
CN115410000A (zh) | 对象分类方法以及装置 | |
US20220318950A1 (en) | Video enhancement method and apparatus, and electronic device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |