CN108960207B - 一种图像识别的方法、系统及相关组件 - Google Patents

一种图像识别的方法、系统及相关组件 Download PDF

Info

Publication number
CN108960207B
CN108960207B CN201810896237.0A CN201810896237A CN108960207B CN 108960207 B CN108960207 B CN 108960207B CN 201810896237 A CN201810896237 A CN 201810896237A CN 108960207 B CN108960207 B CN 108960207B
Authority
CN
China
Prior art keywords
sample
image recognition
image
training
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810896237.0A
Other languages
English (en)
Other versions
CN108960207A (zh
Inventor
程良伦
陈佳莉
黄国恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201810896237.0A priority Critical patent/CN108960207B/zh
Publication of CN108960207A publication Critical patent/CN108960207A/zh
Application granted granted Critical
Publication of CN108960207B publication Critical patent/CN108960207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像识别的方法,所述方法包括当接收到模型训练指令时,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量;将所有所述样本图片划分为
Figure DDA0001758241520000011
个样本图片组;利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure DDA0001758241520000012
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。本方法能够降低图像识别模型的训练成本,提升图像识别的工作效率。本申请还公开了一种图像识别的系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。

Description

一种图像识别的方法、系统及相关组件
技术领域
本发明涉及计算机视觉领域,特别涉及一种图像识别的方法、系统、一种计算机可读存储介质及一种图像识别装置。
背景技术
人体动作识别是视频理解和计算机视觉的重要研究方向,并被广泛应用于实际中,例如人体运动分析、人机交互、视频检索、智能视频监控以及异常事件检测等。在研究与研发中,涌现了大量人体动作识别方法及装置。但由于人体动作样式复杂、光照多变、拍摄视角倾斜、背景干扰等原因,目前基于视频的人体动作识别依然计算机视觉领域的难点问题。
采用人为既定的特征模板进行特征提取,需要数量庞大的特征模板来适应人体动作样式的多变性与复杂性。因此现有技术中利用深度学习进行特征提取的新型识别方法具有自适应性,无需事先规定特征模板,但由于深度学习需要从大量样本中提取特征进行学习,训练十分耗时,导致训练成本高、产品迭代慢。
因此,如何降低图像识别模型的训练成本,提升图像识别的工作效率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种图像识别的方法、系统、一种计算机可读存储介质及一种图像识别装置,能够降低图像识别模型的训练成本,提升图像识别的工作效率。
为解决上述技术问题,本申请提供一种图像识别的方法,该方法包括:
当接收到模型训练指令时,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量;
将所有所述样本图片划分为
Figure BDA0001758241500000011
个样本图片组;其中,每个所述样本图片组内包括N帧相邻的所述样本图片;
利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure BDA0001758241500000021
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;
将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。
可选的,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量包括:
根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络进行所述图像特征提取操作得到多帧所述样本图片的所述特征向量。
可选的,将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型包括:
将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型;其中,所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。
可选的,在根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量之前,还包括:
获取视频数据并将所述视频数据按照预设周期进行截图操作得到若干张样本图像,根据所有所述样本图像构建所述训练样本集。
可选的,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量包括:
根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域;
对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。
可选的,利用所述图像识别模型进行图像识别操作包括:
当接收到目标视频时,对所述目标视频进行截图操作得到多张待识别图像,对所述待识别图像执行图像特征提取操作得到待识别特征向量;
将所述待识别特征向量输入所述段落融合网络得到待识别拼接特征向量,并对所有所述待识别拼接特征向量进行池化操作得到待识别段落特征;
将所有所述待识别段落特征传输至所述图像识别模型得到图像识别结果。
本申请还提供了一种图像识别的系统,该系统包括:
特征提取模块,用于当接收到模型训练指令时,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量;
划分模块,用于将所有所述样本图片划分为
Figure BDA0001758241500000031
个样本图片组;其中,每个所述样本图片组内包括N帧相邻的所述样本图片;
段落融合模块,用于利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure BDA0001758241500000032
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;
识别模块,用于将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。
可选的,所述特征提取模块为根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络进行所述图像特征提取操作得到多帧样本图片的所述特征向量的模块。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述图像识别的方法执行的步骤。
本申请还提供了一种图像识别装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述图像识别的方法执行的步骤。
本发明提供了一种图像识别的方法,包括当接收到模型训练指令时,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量;将所有所述样本图片划分为
Figure BDA0001758241500000033
个样本图片组;其中,每个所述样本图片组内包括N帧相邻的所述样本图片;利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure BDA0001758241500000034
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。
对一个视频进行逐帧截图的时候,时间上挨得近的图片是很相似的,反映到数字上面,相邻帧的图片的特征向量也必然存在相似性。本发明通过段落融合网络将每N帧相邻的样本图片的特征向量拼接为一个拼接特征向量,把具有相似性的N帧特征向量融合为一帧融合特征向量,明显降低了训练图像识别模型的训练成本。本方案能够降低图像识别模型的训练成本,提升图像识别的工作效率。本申请同时还提供了一种图像识别的系统、一种计算机可读存储介质和一种图像识别装置,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种图像识别的方法的流程图;
图2为本申请实施例提供的一种段落融合网络的原理示意图;
图3为本申请实施例所提供的一种优选的图像识别的方法的流程图;
图4为三帧差分提取运动目标区域的方法的原理示意图
图5为AlexNet网络结构示意图;
图6为长短期记忆网络LSTM的结构示意图;
图7为本申请实施例所提供的一种图像识别的系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种图像识别的方法的流程图。
具体步骤可以包括:
S101:当接收到模型训练指令时,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量;
其中,当接收到模型训练指令时,默认存在已经构建好对图像识别模型进行训练的训练样本集,训练样本集中存在有连续的多帧视频截图。具体的,本实施例可以作为视频中人体动作识别的方法。需要说明的是,本实施例默认训练样本集是通过对一段连续的视频进行固定周期的截图得到的,相邻的帧的截图之间存在图像相似性。对训练样本集中的所有图片进行特征提取操作可以得到每一帧样本图片的特征向量。需要说明的是,可以使用积神经网络进行特征提取操作。
可以理解的是,当本实施例应用于人体动作识别中时,作为一种优选的实施方式可以采用三帧差分法提取运动目标区域。具体的,可以先根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域;再对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。
S102:将所有所述样本图片划分为
Figure BDA0001758241500000051
个样本图片组;其中,每个所述样本图片组内包括N帧相邻的所述样本图片;
由于相邻帧的样本图片具有相似性,一个样本图片组内的N帧图片同样具有相似性,举例说明本步骤中的操作:例如有第1帧、第2帧、第3帧……第12帧的样本图片,N为4,可以按第1帧~第4帧、第5帧~第8帧、第9帧~第12帧进行划分得到3个样本图片组。
S103:利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure BDA0001758241500000052
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;
其中,本实施例的关键在于使用段落融合网络将多个特征向量进行融合。段落融合网络(SFN,segment fusion net),段落融合网络能够将多个特征向量拼接为一个拼接特征向量。请参见图2,图2为本申请实施例提供的一种段落融合网络的原理示意图,举例说明该拼接的过程:
例如,一张图进行特征提取操作后的特征向量是图中虚线框内部分,它是n行1列的向量,图中的每个点代表的是一个数字。段落融合网络在进行向量拼接时,将多个这样的n行1列的向量合并到一起,为了方便阐述,可以把m个这样的n行1列的向量合并到一起,拼接后的结果是n行m列的。拼接前特征向量为:
Figure BDA0001758241500000061
对它们进行拼接,拼接结果为:
Figure BDA0001758241500000062
可见,段落融合网络的结果是将多个样本图片的特征向量融合为一个段落融合向量,进一步的由于相邻的样本图片的拍摄时间非常接近,反映到数字上面,相邻帧的图片的特征向量也必然存在很相似的。那么,通过特征融合网络将N帧相邻的样本图片(相似的图片)的特征向量进行融合,N张图片特征向量融合成1个段落特征向量,用1个代替原有的N个。由于融合的图片为具有相似性的图片,因此段落融合网络中特征向量的拼接操作不仅不会造成识别准确率的下降,反而加快了训练速度。
值得注意的是,本实施例中的段落融合网络按每N帧相邻的样本图片的特征向量拼接,例如有第1帧、第2帧、第3帧……第12帧的样本图片,N为4,可以按第1帧~第4帧、第5帧~第8帧、第9帧~第12帧进行拼接得到3个段落特征向量。由于本申请是利用相邻真的样本图片间存在相似性进行的图像融合,因此得到的1个段落特征向量与融合之前的3个特征向量具有很高的相似性。通过本步骤中的操作能够将需要输入至循环神经网络的特征的数量减少至N分之一,明显降低了图像识别模型的训练成本。
需要说明的是,在本步骤中段落融合网络不仅将S101中获得的样本图片的特征向量按每N个特征向量拼接成一个段落特征向量,还需要对拼接后的段落特征向量施加池化(pooling)操作,融合N张图像信息,输出融合后的图像特征(即段落融合特征)。
S104:将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。
本步骤的是建立在S103已经得到段落融合特征的基础上将段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。具体的可以使用传统的RNN循环神经网络进行模型训练操作,但是传统RNN循环神经网络的一个弊端是存在梯度消失,这导致RNN循环神经网络在实际中只能拥有短时记忆,很难处理长时间的前后依赖,得到的图像识别模型的识别效果不佳。
作为一种优选的实施方式,可以将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型;其中,所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。通过长短期记忆网络可以拥有长时记忆,能够处理长时间的前后依赖,得到的图像识别模型的识别效果相对传统RNN循环神经网络更好。
对一个视频进行逐帧截图的时候,时间上接近的图片是很相似的,反映到数字上面,相邻帧的图片的特征向量也必然存在相似性。本发明通过段落融合网络将每N帧相邻的样本图片的特征向量拼接为一个拼接特征向量,把具有相似性的N帧特征向量融合为一帧融合特征向量,明显降低了训练图像识别模型的训练成本。本实施例能够降低图像识别模型的训练成本,提升图像识别的工作效率。
下面为本申请实施例所提供的一种构建训练样本集的方法的介绍;在本实施例可以在上一实施例的S101之前执行,两个实施例可以相互结合。
具体步骤可以包括:
编写截帧代码,将获取的视频按每N秒截图一次,每张图视为一帧,获得若干帧待处理图像:截帧代码详细包括调用视频接口读入视频,每N秒截图一次,持续输出截取的图像。一段长为t分钟的视频,若按每n秒截一帧,则共可获得
Figure BDA0001758241500000071
帧图像。将所有帧图像构建得到训练样本集。
由于不同视频中物体的动作变化频率是不同的,例如人体动作变化与车辆等刚性物体动作变化不同,人体动作具有幅度较大,频率较快的特点。举个例子,车辆在行驶过程中,车身动作幅度较小,基于车辆的视频识别中,截帧频率往往可以很低,1秒截一帧与5秒截一帧并不会给识别准确率带来多大的影响。但在人体动作识别中,1秒截一帧与5秒截一帧的差别就很大,5秒的时间内,也许人体一个动作已经做完,截帧频率过低会丢失关键信息。因此,为了保证识别准确率,可以根据具体的视频内容选择适当的截图频率。
下面请参见图3,图3为本申请实施例所提供的一种优选的图像识别的方法的流程图。
S201:根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域;
通过一个具体的例子说明S201中的操作,请参见图4,图4为三帧差分提取运动目标区域的方法的原理示意图。
步骤1:选取图像序列中连续的三帧图像Pi-1(x,y),Pi(x,y),Pi+1(x,y),分别计算相邻两帧图像的差值d
d(i,i-1)(x,y)=|Pi(x,y)-Pi-1(x,y)|
d(i+1,i)(x,y)=|Pi+!(x,y)-Pi(x,y)|
步骤2:对得到的差值图像,通过选择合适的阈值S进行二值化,
Figure BDA0001758241500000081
Figure BDA0001758241500000082
步骤3:在每一个像素点(x,y)将得到的二值图逻辑相“与”,得到三帧图像中的中间帧的二值图像B:
Figure BDA0001758241500000083
S202:根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络,利用所述卷积神经网络对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。
可以理解的是,卷积神经网络CNN的种类有很多种,此处列出其中一个实例AlexNet,网络结构如图5所示,图5为AlexNet网络结构示意图。具体包括以下步骤:
步骤1:我们使用AlexNet对ILSVRC数据集进行预训练。ILSVRC数据集包含1000个类别的120万张训练图片,5万验证图片,15万测试图片,是很好的预训练数据集。
步骤2:从检测出的运动目标和误检区域以及视频背景中选取300个视频序列,每个视频序列等间隔截取6000张图片,其中正样本3000张,负样本3000张。3000张正样本中,2000张作为训练集,1000张作为测试集。3000张负样本中,2000张作为训练集,1000张作为测试集。其中,正样本为包含指定动作的图片,负样本为不包含指定动作的图片。用其中训练集对得到的预训练模型进行微调,得到训练模型。
步骤3:把收集到的图像归一化为同样大小224×224。
步骤4:把归一化后的结果送到卷积神经网络中训练,这里使用AlexNet的网络结构。训练时采用批量梯度下降(mini-batch)的方法。依据样本量选择合适的批尺寸(batch_size)参数,我们这里设置为50,学习率设置为0.0001。
步骤5:将归一化后的图像作为输入层输入到卷积层conv_1中,第一层输入数据为原始的224×224×3的图像,用11×11×3的卷积核进行卷积运算,步长是4。因此,会生成96个55×55的特征图。再经过relu激活单元的处理,输出尺寸仍为55×55×96。
步骤6:将conv_1的输出进入池化层pool_1中,池化运算的尺度为3×3,步长为2,则池化后图像的尺寸为27×27×96。然后经过归一化处理,输出尺寸仍为27×27×96。
步骤7:将pool_1输出的特征图输入到卷积层conv_2中,输入数据为27×27×96的特征图,用256个大小为5×5的卷积核进行运算,对特征图的行和列都填充2像素,得到256个27×27的特征图。再经过relu激活单元的处理,输出尺寸仍为27×27×256。
步骤8:将conv_2的输出进入池化层pool_2中,池化运算的尺度为3×3,步长为2,则池化后图像的尺寸为13×13×256。
步骤9:将pool_2输出的特征图输入到卷积层conv_3中,输入数据为13×13×96的特征图,用384个大小为3×3的卷积核进行运算,对特征图的行和列都填充1像素,得到384个13×13的特征图。再经过relu激活单元的处理,输出尺寸仍为13×13×384。
步骤10:将conv_3输出的特征图输入到卷积层conv_4中,输入数据为13×13×384的特征图,用384个大小为3×3的卷积核进行运算,对特征图的行和列都填充1像素,得到384个13×13的特征图。再经过relu激活单元的处理,输出尺寸仍为13×13×384。
步骤11:将conv_4输出的特征图输入到卷积层conv_5中,输入数据为13×13×384的特征图,用256个大小为3×3的卷积核进行运算,步长为2,对特征图的行和列都填充1像素,得到256个13×13的特征图。再经过relu激活单元的处理,输出尺寸仍为13×13×256。
步骤12:将conv_5的输出进入池化层pool_3中,池化运算的尺度为3×3,步长为2,则池化后图像的尺寸为6×6×256。
步骤13:将pool_3的输出进入全连接层fc_1中,fc_1层使用4096个神经元,对256个大小为6×6的特征图进行全连接。每个6×6×256尺寸的滤波器对本层的输入数据进行卷积运算生成一个运算结果,通过一个神经元输出这个运算结果。共有4096个6×6×256尺寸的滤波器对输入数据进行卷积运算,通过4096个神经元输出运算结果。这4096个运算结果通过relu激活函数生成4096个值,并通过drop运算后输出4096个本层的输出结果值。本层输出为一个4096维向量。
步骤14:将fc_1的输出进入全连接层fc_2中,fc_2使用1000个神经元,类似fc_1层,输出为一个1000维向量。这就是预测的动作类别的可能性。得到的可能性结果会通过标签进行对比误差,然后求解出残差,再通过链式求导法则,将残差通过求解偏导数逐步向上传递,并将权重进行更改,且会逐层调整权重和偏置,此为网络的优化。
S203:将所有所述样本图片划分为
Figure BDA0001758241500000101
个样本图片组;其中,每个所述样本图片组内包括N帧相邻的所述样本图片;
S204:利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure BDA0001758241500000102
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;
利用段落融合网络(SFN)将S202中获得的多帧单张图片的特征向量融合成段落特征,具体步骤如下:
将获得的单张图片的特征向量按每N个特征向量拼接成一个特征向量;对拼接后的特征向量施加池化(pooling)操作,融合N张图像信息,输出融合后的图像特征。利用S202中的例子具体说明本步骤中的操作,由于CNN网络结构为AlexNet,AlexNet输出单帧图像特征向量尺寸为1×1000,此处取m=3,则连续3帧图像组成的特征向量尺寸为3×1000。然后,对这个组合成的特征向量进行池化操作,在此选择平均池化(average pooling)操作。池化运算的尺度为2×2,步长为1,则池化后图像的尺寸为2×1000。
S205:将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型,以便利用所述图像识别模型进行图像识别操作;其中,所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。
将S204中融合后的段落特征输入长短期记忆网络中,请参见图6,图6为长短期记忆网络LSTM的结构示意图。具体步骤如下:
步骤1:Xt-1是通过段落融合网络输出的第t-1个段落特征向量,将其输入到LSTM网络中,输出的分类结果为Ht-1。Xt是通过段落融合网络输出的第t个段落特征向量,将其输入到LSTM网络中,输出的分类结果为Ht。Xt是通过段落融合网络输出的第t个段落特征向量,将其输入到LSTM网络中,输出的分类结果为Ht。以时序t为参考,t-1为上一段落,t+1为下一段落。
步骤2:LSTM中的第一步是决定会从上一段落的人体动作信息状态即t-1段落LSTM的输出ht-1中保留车辆的什么信息。这个决定通过一个称为遗忘门(forget gate)完成。该门会读取上一段落的输出ht-1和这一段路的输入Xt,经过σ(sigmoid)函数输出一个0到1之间的数值。当σ函数输出为0时,不传送信息,当输出为1时,全部传送。
遗忘门的计算公式为:
ft=σ(Wf,[Ht-1,xt]+bf)
其中,Wf是网络学习参数,bf是网络偏置,ft是第t个时序的遗忘程度。
步骤3:第二步是决定什么样的新动作特征信息可以被存放在当前状态。当有新信息传入时,更新包括两个部分:第一,输入门(input gate)决定要更新的程度,正如上文中说到的“当σ函数输出为0时,不传送信息,当输出为1时,全部传送”。第二,tanh函数创建一个新的候选值向量ct
it=σ(Wi,[Ht-1,xt]+bi)
ct=tanh(wc,[Ht-1,xt]+bc)
Wi、wc为当前网络的学习参数,bi、bc为当前网络偏置,it是现有信息的遗忘程度,ct是现有信息的状态。
步骤4:更新旧的动作特征ct-1,旧的状态乘上ft,遗忘掉之前计划遗忘的动作特征信息,ft为遗忘程度。将it乘上ct,得到新的局部变量,用来表示更新动作特征信息的程度。再加上上一段落部分遗忘的动作特征信息,得到新的动作特征ct':
ct'=ft*ct-1+it*ct
步骤5:最后通过一个σ函数来决定动作特征信息的哪些部分是需要输出的,即表示一个遗忘程度。将步骤4中动作特征信息状态通过tanh函数乘上当前遗忘程度ot,输出表示不同动作的可能性,即最终动作分类结果。
ot=σ(wo[Ht-1,xt]+bo)
Ht=ot*tanh(ct)
wo为当前网络学习参数,bo为网络偏置。
通过上述操作,由于视频图像是连续的序列,上一段落与下一段落的图像在时序上有联系,基于已经得到的上一段落特征信息预测下一段落特征可以提高识别的准确度。
请参见图7,图7为本申请实施例所提供的一种图像识别的系统的结构示意图;
该系统可以包括:
特征提取模块100,用于当接收到模型训练指令时,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量;
划分模块200,用于将所有所述样本图片划分为
Figure BDA0001758241500000121
个样本图片组;其中,每个所述样本图片组内包括N帧相邻的所述样本图片;
段落融合模块300,用于利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure BDA0001758241500000131
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;
识别模块400,用于将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。
进一步的,所述特征提取模块100为根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络进行所述图像特征提取操作得到多帧样本图片的所述特征向量的模块。
进一步的,识别模块包括具体为将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型的模块;其中,所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。
进一步的,还包括:
样本集构建模块,用于获取视频数据并将所述视频数据按照预设周期进行截图操作得到若干张样本图像,根据所有所述样本图像构建所述训练样本集。
进一步的,特征提取模块100,包括:
目标区域确定单元,用于根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域;
提取单元,用于对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。
进一步的,还包括:
特征向量提取模块,用于当接收到目标视频时,对所述目标视频进行截图操作得到多张待识别图像,对所述待识别图像执行图像特征提取操作得到待识别特征向量;
拼接模块将所述待识别特征向量输入所述段落融合网络得到待识别拼接特征向量,并对所有所述待识别拼接特征向量进行池化操作得到待识别段落特征;
识别模块,用于将所有所述待识别段落特征传输至所述图像识别模型得到图像识别结果。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种图像识别装置,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述图像识别装置还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种图像识别的方法,其特征在于,包括:
当接收到模型训练指令时,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量;
将所有所述样本图片划分为
Figure FDA0001758241490000011
个样本图片组;其中,每个所述样本图片组内包括N帧相邻的所述样本图片;
利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure FDA0001758241490000012
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;
将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。
2.根据权利要求1所述方法,其特征在于,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量包括:
根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络进行所述图像特征提取操作得到多帧所述样本图片的所述特征向量。
3.根据权利要求1所述方法,其特征在于,将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型包括:
将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型;其中,所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。
4.根据权利要求1所述方法,其特征在于,在根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量之前,还包括:
获取视频数据并将所述视频数据按照预设周期进行截图操作得到若干张样本图像,根据所有所述样本图像构建所述训练样本集。
5.根据权利要求1所述方法,其特征在于,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量包括:
根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域;
对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。
6.根据权利要求1所述方法,其特征在于,利用所述图像识别模型进行图像识别操作包括:
当接收到目标视频时,对所述目标视频进行截图操作得到多张待识别图像,对所述待识别图像执行图像特征提取操作得到待识别特征向量;
将所述待识别特征向量输入所述段落融合网络得到待识别拼接特征向量,并对所有所述待识别拼接特征向量进行池化操作得到待识别段落特征;
将所有所述待识别段落特征传输至所述图像识别模型得到图像识别结果。
7.一种图像识别的系统,其特征在于,包括:
特征提取模块,用于当接收到模型训练指令时,根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量;
划分模块,用于将所有所述样本图片划分为
Figure FDA0001758241490000021
个样本图片组;其中,每个所述样本图片组内包括N帧相邻的所述样本图片;
段落融合模块,用于利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到
Figure FDA0001758241490000022
个拼接特征向量,并对所有所述拼接特征向量进行池化操作得到段落融合特征;
识别模块,用于将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型,以便利用所述图像识别模型进行图像识别操作。
8.根据权利要求7所述系统,其特征在于,所述特征提取模块为根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络进行所述图像特征提取操作得到多帧样本图片的所述特征向量的模块。
9.一种图像识别装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时执行如权利要求1至6任一项所述的图像识别的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像识别的方法的步骤。
CN201810896237.0A 2018-08-08 2018-08-08 一种图像识别的方法、系统及相关组件 Active CN108960207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810896237.0A CN108960207B (zh) 2018-08-08 2018-08-08 一种图像识别的方法、系统及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810896237.0A CN108960207B (zh) 2018-08-08 2018-08-08 一种图像识别的方法、系统及相关组件

Publications (2)

Publication Number Publication Date
CN108960207A CN108960207A (zh) 2018-12-07
CN108960207B true CN108960207B (zh) 2021-05-11

Family

ID=64468908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810896237.0A Active CN108960207B (zh) 2018-08-08 2018-08-08 一种图像识别的方法、系统及相关组件

Country Status (1)

Country Link
CN (1) CN108960207B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711342B (zh) * 2018-12-27 2021-05-04 河北工程大学 人脸识别方法及装置
CN109492624A (zh) * 2018-12-29 2019-03-19 北京灵汐科技有限公司 一种人脸识别方法、特征提取模型的训练方法及其装置
CN109544631A (zh) * 2019-01-03 2019-03-29 银河航天(北京)科技有限公司 一种货物输送设备运行状态的检测系统与方法
CN109815931B (zh) * 2019-02-01 2024-02-23 广东工业大学 一种视频物体识别的方法、装置、设备以及存储介质
CN110569702B (zh) 2019-02-14 2021-05-14 创新先进技术有限公司 视频流的处理方法和装置
CN109919252B (zh) * 2019-03-26 2020-09-01 中国科学技术大学 利用少数标注图像生成分类器的方法
CN111753574A (zh) * 2019-03-26 2020-10-09 顺丰科技有限公司 抛扔区域定位方法、装置、设备及存储介质
CN111104945A (zh) * 2019-12-17 2020-05-05 上海博泰悦臻电子设备制造有限公司 物体识别方法及相关产品
CN111203878B (zh) * 2020-01-14 2021-10-01 北京航空航天大学 一种基于视觉模仿的机器人序列任务学习方法
CN111353392B (zh) * 2020-02-18 2022-09-30 腾讯科技(深圳)有限公司 换脸检测方法、装置、设备及存储介质
CN111553147A (zh) * 2020-03-27 2020-08-18 南京工业大学 一种基于N-gram的BERT模型以及语义分割方法
CN111553320B (zh) * 2020-05-14 2021-12-21 支付宝(杭州)信息技术有限公司 保护个人数据隐私的特征提取方法、模型训练方法及硬件
CN112733863B (zh) * 2021-01-07 2022-06-07 苏州浪潮智能科技有限公司 一种图像特征提取方法、装置、设备及存储介质
CN113011395B (zh) * 2021-04-26 2023-09-01 深圳市优必选科技股份有限公司 一种单阶段动态位姿识别方法、装置和终端设备
CN113139076B (zh) * 2021-05-20 2024-03-29 广东工业大学 一种深度特征学习多标签的神经网络影像自动标记方法
CN114783069B (zh) * 2022-06-21 2022-11-08 中山大学深圳研究院 基于步态识别对象的方法、装置、终端设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN108108699A (zh) * 2017-12-25 2018-06-01 重庆邮电大学 融合深度神经网络模型和二进制哈希的人体动作识别方法
CN108288015A (zh) * 2017-01-10 2018-07-17 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060034508A1 (en) * 2004-06-07 2006-02-16 Zhou Xiang S Computer system and method for medical assistance with imaging and genetics information fusion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288015A (zh) * 2017-01-10 2018-07-17 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN108108699A (zh) * 2017-12-25 2018-06-01 重庆邮电大学 融合深度神经网络模型和二进制哈希的人体动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Low-Latency Human Action Recognition with Weighted Multi-Region Convolutional Neural Network;Wang Y 等;《computer vision and pattern recognition》;20180508;第1-8页 *
基于动态图像序列的运动人体行为识别的研究;盛月红;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215;第I138-236页 *

Also Published As

Publication number Publication date
CN108960207A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108960207B (zh) 一种图像识别的方法、系统及相关组件
CN107527007B (zh) 在车辆图像处理系统中检测关注对象的方法
CN109145766B (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
US20180114071A1 (en) Method for analysing media content
Liu et al. Visual attention in deep learning: a review
CN109902662B (zh) 一种行人重识别方法、系统、装置和存储介质
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
KR102132407B1 (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
CN111257341A (zh) 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法
CN112381763A (zh) 一种表面缺陷检测方法
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN113283368B (zh) 一种模型训练方法、人脸属性分析方法、装置及介质
JP2024513596A (ja) 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体
CN110688966B (zh) 语义指导的行人重识别方法
CN112150497A (zh) 基于二值神经网络的局部激活方法与系统
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN111652320B (zh) 一种样本分类方法、装置、电子设备及存储介质
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN116206227A (zh) 5g富媒体信息的图片审查系统、方法、电子设备及介质
CN113011395B (zh) 一种单阶段动态位姿识别方法、装置和终端设备
CN115565146A (zh) 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统
CN116416486A (zh) 图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant