CN114708645A - 物件辨识装置及物件辨识方法 - Google Patents

物件辨识装置及物件辨识方法 Download PDF

Info

Publication number
CN114708645A
CN114708645A CN202110087912.7A CN202110087912A CN114708645A CN 114708645 A CN114708645 A CN 114708645A CN 202110087912 A CN202110087912 A CN 202110087912A CN 114708645 A CN114708645 A CN 114708645A
Authority
CN
China
Prior art keywords
model
teacher
student
sample
student model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110087912.7A
Other languages
English (en)
Inventor
黄国伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wistron Corp
Original Assignee
Wistron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wistron Corp filed Critical Wistron Corp
Publication of CN114708645A publication Critical patent/CN114708645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本文提供了一种物件辨识装置及物件辨识方法,其中物件辨识方法包含,学生模型依据老师模型以调整复数个参数,当调整后的学生模型的输出结果与老师模型的输出结果之间的向量差值小于一学习门槛值,则视为学生模型完成训练,提取学生模型作为一物件辨识模型。其中学生模型所需的空间小于老师模型。藉此可以有效率地产生大量训练图片及标记,达成了不需要消耗大量人工标记时间进行手动标记的功效。

Description

物件辨识装置及物件辨识方法
技术领域
本发明实施例是关于一种辨识装置及辨识方法,特别是关于一种适用于判断图像中的特定物件的物件辨识装置及物件辨识方法。
背景技术
目前人工智能(AI)模型标记工作,多半被专门企业独立承揽,以人工进行标记作业,尤其是在中国、印度、东南亚等国家,有越来越多专门委托人工标记的公司。市面上所有AI物件辨识模型训练前,必定要累积大量数据,并且需要大量人工标记,因此十分耗费人工资源,且需要大量时间进行手动标记。
因此如何使用自动标记产生工具,达到大量产生图片并自动标记,已成为本领域需解决的问题之一。
发明内容
本揭露内容的一实施例提供了一种物件辨识装置包含处理器以及一储存装置。处理器用以存取储存装置所储存的程序,以实现一前处理模组、一老师模型训练模组以及一学生模型训练模组。前处理模组用以产生一追踪样本及一对抗样本。老师模型训练模组用以产生一老师模型。学生模型训练模组依据老师模型以初始化一学生模型。其中学生模型依据老师模型以及对抗样本调整复数个参数,响应于调整后的学生模型的输出结果与老师模型的输出结果之间的向量差值小于一学习门槛值,则视为学生模型完成训练,提取学生模型作为一物件辨识模型。
本揭露内容的一实施例提供了一种物件辨识方法,包含:产生一追踪样本及一对抗样本;依据追踪样本产生一老师模型;以及依据老师模型初始化一学生模型;其中学生模型依据老师模型以及该对抗样本调整复数个参数,响应于调整后的学生模型的输出结果与老师模型的输出结果之间的向量差值小于一学习门槛值,则视为学生模型完成训练,提取学生模型作为一物件辨识模型。
由上述可知,在某些实施例中的物件辨识装置及物件辨识方法使得作为物件辨识模型的学生模型的卷积层数及神经元数量小于老师模型的卷积层数及神经元数量,因此物件辨识模型具有模型精简性,且建立学生模型的过程中使用到对抗样本,此可使物件辨识模型具有模型强健性。再者,在整个学生模型的过程中,所需的人工标记样本大幅小于对抗样本数,因此具有人工样本数稀释性,达到降低人力标记的时间与资源。藉此,物件辨识装置及物件辨识方法只需要输入目标物在任何环境的视频或多张图像,即可大量自动追踪标记物件,解决了人工智能物件辨识领域中,最花时间的标记环节,因此可以有效率地产生大量训练图片及标记,达成了不需要消耗大量人工标记时间进行手动标记的功效。
附图说明
图1是依照本发明实施例绘示一种物件辨识装置的方块图。
图2是依照本发明实施例绘示一种物件辨识方法的示意图。
图3是依照本发明实施例绘示一种物件辨识方法的流程图。
图4A是依照本发明实施例绘示一种产生老师模型与对抗样本的示意图。
图4B是依照本发明一实施例绘示一种产生物件辨识模型的示意图。
附图符号说明:
100:物件辨识装置;
PR:处理器;
ST:储存装置;
10:前处理模组;
20:老师模型训练模组;
30:学生模型训练模组;
PRD:数据前处理;
MT:模型训练;
DB:对抗样本;
DA:追踪样本;
DC:人工标记样本;
ORI:数据收集;
STM:学生模型;
TTM:老师模型;
STV:学生模型验证;
200,300:物件辨识方法;
310~340,410~474,510~590:步骤。
具体实施方式
以下说明为完成发明的较佳实现方式,其目的在于描述本发明的基本精神,但并不用以限定本发明。实际的发明内容必须参考之后的申请专利范围。
必须了解的是,使用于本说明书中的“包含”、“包括”等词,是用以表示存在特定的技术特征、数值、方法步骤、作业处理、元件以及/或组件,但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、元件、组件,或以上的任意组合。
于申请专利中使用如“第一”、“第二”、“第三”等词是用来修饰申请专利中的元件,并非用来表示之间具有优先权顺序,先行关系,或者是一个元件先于另一个元件,或者是执行方法步骤时的时间先后顺序,仅用来区别具有相同名字的元件。
请参阅图1,图1是依照本发明实施例绘示一种物件辨识装置的方块图。物件辨识装置100包含一处理器PR及一储存装置ST。在一实施例中,处理器PR存取并执行储存装置ST中储存的程序,以实现一前处理模组10、一老师模型训练模组20及一学生模型训练模组30。于一实施例中,前处理模组10、老师模型训练模组20及学生模型训练模组30可以各自或一并由软件或固件实现之。
于一实施例中,储存装置ST可被实作为只读存储器、闪存、软盘、硬盘、光盘、随身盘、磁带、可由网络存取的数据库或本领域技术人员可轻易思及具有相同功能的储存媒体。
于一实施例中,前处理模组10、老师模型训练模组20及学生模型训练模组30可以各自或一并由一或多个处理器实现之,处理器可由集成电路如微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、特殊应用集成电路(Application Specific Integrated Circuit,ASIC)或一逻辑电路来实施。于一实施例中,前处理模组10、老师模型训练模组20及学生模型训练模组30可以各自或一并由硬件电路实现之。举例而言,前处理模组10、老师模型训练模组20及学生模型训练模组30可藉由主动器件(例如开关、晶体管)、被动器件(例如电阻、电容、电感)所构成。于一实施例中,处理器PR用以存取储存装置ST中的前处理模组10、老师模型训练模组20及学生模型训练模组30各自的运算结果。
请参阅图2和图3,图2是依照本发明实施例绘示一种物件辨识方法的示意图。图3是依照本发明实施例绘示一种物件辨识方法的流程图。物件辨识方法200及物件辨识方法300可以由图1的器件实现之。由图2可看出,物件辨识方法200可分为数据收集ORI、数据前处理PRD、模型训练MT与学生模型验证STV等过程。以下以图3中的步骤配合图2进行说明。
于一实施例中,处理器PR用以存取前处理模组10、老师模型训练模组20及学生模型训练模组30或存取并执行储存装置ST中的程序/演算法,实现前处理模组10、老师模型训练模组20及学生模型训练模组30。于一实施例中,前处理模组10、老师模型训练模组20及学生模型训练模组30由硬件(例如为芯片或电路)实现时,可于接收到数据或信号后自行运算,并将处理结果回传给处理器PR。于一实施例中,前处理模组10、老师模型训练模组20及学生模型训练模组30由软件(例如为演算法)实现时,处理器PR执行前处理模组10、老师模型训练模组20及学生模型训练模组30中的演算法,以取得处理结果。
于步骤310中,前处理模组10用以产生一追踪样本及一对抗样本。
于一实施例中,前处理模组10接收数据收集ORI(数据收集ORI可以是,例如通过镜头拍摄,或是存取数据库中的多张图像或一视频而获得)后,先由使用者通过物件辨识的输入界面(例如为触控式屏幕、键盘、鼠标等等)框选视频的几个帧或是几张图像中的框选物件(例如为人),前处理模组10接着依据一光流演算法以追踪每个画面中的一框选物件,以产生追踪样本DA。其中,光流演算法是关于追踪视域中的物件,描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。通过使用者框选几张帧或几张图像以定义框选物件后,光流演算法可追踪每一帧或其它图像中的框选物件,以产生追踪样本DA(即多张图像中追踪到具有框选物件的图像后,产生对应框选物件的物件框数据,例如在第一张图像中框选出人,即使在第二张图像中,此人相对于第一张图像移动了约1公分,利用光流演算法仍可在第二张图像中框选出此人,依此类推,藉此可以应用多张图像追踪此人的运动轨迹,以产生追踪样本DA)。于另一实施例中,可分别对不同类别的物件产生追踪样本DA,而获得对应多个类别的物件的多笔追踪样本DA。
于一实施例中,追踪样本DA中包含相对于原始图像中的框选物件的框选位置的可扩展标记语言(Extensible Markup Language,XML)档,内容是标记于画面中的框选位置的中心点坐标(x,y)、框选位置的宽度W、框选位置的高度H及物件类别(例如为人)。追踪样本DA作为训练老师模型TTM使用的数据集。
于一实施例中,前处理模组10将追踪样本DA加入一噪声,以产生对抗样本DB。
于一实施例中,前处理模组10将追踪样本DA输入一生成式对抗网络(generativeadversarial network,GAN)或是一对抗产生对抗样本法(adv-GAN),生成式对抗网络或是对抗产生对抗样本法输出对抗样本DB。
于一实施例中,前处理模组10将追踪样本DA中的框选位置对应的图像选取出来,将这些选取出来的框选位置对应的图像输入adv-GAN,以增强图量,adv-GAN用以加入有意义的噪声(即误导老师模型TTM的有效信息),以产生噪声图,再将一或多张噪声图贴回追踪样本DA,以产生多张不同的对抗样本DB。举例而言,将框选位置对应的图像加入噪声并贴回原本的追踪样本DA以产生对抗样本DB后,使用者的肉眼看仍是框选到人类,但会使对抗样本DB中的框选位置被老师模型TTM判读成猫的机率为90%,判读成人类的机率是15%,则于后续训练步骤中调整老师模型TTM的参数(例如加强关于人类特征的权重),直到训练出将对抗样本DB中的框选位置辨识为人(例如被老师模型TTM判读成猫的机率为10%,判读成人类的机率是95%)。于另一实施例中,贴回追踪样本DA的噪声图包括不同物件类别(例如瓶子、箱子、标示牌等)的图像的噪声图,将包括不同物件类别的噪声图贴回追踪样本DA,而产生对抗样本DB,后续利用对抗样本DB训练老师模型TTM,将使老师模型TTM识别出图像中同时存在的不同类别的物件。
藉由产生对抗样本DB,可以增加给老师模型TTM训练用的样本数量,且通过增加噪声的对抗样本DB及对应的正确答案,以使老师模型TTM能够自动调整参数,提升判断物件的精准度。于另一实施例中,对抗样本DB可增加不同类别的物件图像,并将不同类别的物件图像加入噪声后,贴至对抗样本DB中,可让训练后的老师模型TTM识别出多种物件。
于步骤320中,老师模型训练模组20用以在初始时,先以追踪样本DA训练出初版的一老师模型TTM,此时老师模型TTM对于数据的认知偏向追踪样本DA形态。
于一实施例中,老师模型TTM以对抗样本DB数据形态做再训练,此时老师模型TTM中的神经参数朝向对抗样本DB更新,而老师模型TTM可应用于一些物体检测模型,如YOLO系列,这种一阶(one-stage)预测形态,增加模型精准度,原因在于训练老师模型TTM时,已经将数据形态分成两种维度做再训练,所以这种维度再适应(Domain Adaptation)的训练方式,缩减了梯度迷散的可能性。由于YOLO模型需要大量的训练数据,通过输入追踪样本DA及大量的对抗样本DB,可以增加老师模型TTM的神经网络的强健性。于一实施例中,YOLO是一种物件检测方法,只需要对图片作一次卷积神经网络(Convolutional Neural Networks,CNN)架构便能够判断图形内的物体位置与类别,因此提升辨识速度。
于步骤330中,学生模型训练模组30依据老师模型TTM初始化一学生模型STM。
于一实施例中,学生模型STM采用的模型框架与老师模型TTM相同,但学生模型STM的大小可以设计成较小档案的储存量(如较少的权重参数量)。于一实施例中,其中学生模型与老师模型的神经框架搭建手法类似,仅减少部分框架搭建层。例如,老师模型TTM采用YOLO模型建置,则学生模型STM在初始化时,也采用YOLO模型的架构。于后续步骤中,学生模型STM会跟随老师模型TTM进行学习,然而老师TTM以及学生模型STM的输入数据皆是对抗样本DB,在训练过程中,让学生模型STM训练逼近老师模型TTM,以提升学生模型STM在辨识物件的精准度。其中,学生模型STM跟随老师模型TTM进行学习是指,学生模型STM不断调整多个参数,例如偏权值(bias)跟多个输入样本所对应的多个权重(weight),学生模型STM使得输出的多个输出结果(例如包含多个机率的一学生张量)趋近于老师模型TTM的输出结果(例如包含多个机率的一老师张量)。
于一实施例中,学生模型STM设置的参数数量小于老师模型TTM的参数数量。于一实施例中,学生模型STM设置的深度学习模型的卷积层数及神经元数量小于老师模型TTM的卷积层数及神经元数量,所以学生模型STM的卷积层数及神经元数量对应的权重参数数量也小于老师模型TTM的卷积层数及神经元数量对应的权重参数数量。因此,学生模型STM所需要的储存空间小于老师模型TTM。再者,由于学生模型STM的卷积层数及神经元数量也小于老师模型TTM,因此,学生模型STM的运算速度会比老师模型TTM快。
于步骤340中,学生模型STM依据老师模型TTM以及对抗样本DB调整复数个参数(对抗样本DB为训练学生模型STM和老师模型TTM的数据,学生模型STM向老师模型TTM学习),响应于调整后的学生模型STM的一学生张量(tensor)与老师模型TTM的一老师张量之间的向量差值小于一学习门槛值(例如0.1),则视为学生模型STM完成训练,提取学生模型STM作为一物件辨识模型。于一实施例中,在提取学生模型STM作为一物件辨识模型之前,可以包含更细部的提升学生模型STM辨识精准度的方法,于后述详述之。
于一实施例中,由图2可知,学生模型STM在运算的过程中,人工标记样本DC并没有直接输入学生模型STM,因此可通过人工标记样本DC进行学生模型验证STV。例如,学生模型训练模组30将人工标记样本DC(例如框选了人)输入学生模型STM,而学生模型STM正确的输出框选位置是人的机率为99%,是猫的机率为0.1%,则可视为学生模型STM精准度已足够辨识物件。
于一实施例中,学生模型STM依据老师模型TTM以调整的参数可以是偏权值跟多个输入所对应的多个权重,而学生张量是指学生模型STM输出的多个机率,例如判断输入图像中框选位置为人的机率为70%、为猫的机率为10%、为狗的机率为10%。同理,老师张量是指老师模型TTM输出的多个机率,例如判断输入图像中框选位置为人的机率为90%、为猫的机率为5%、为狗的机率为5%。此处的机率是指框选位置分别为人、猫、狗的各自的机率,因此皆为独立且彼此无关连性的机率。
于一实施例中,向量差值可以是损失函数(loss function)的一种实际操作方法,向量差值可以使用均方误差(Mean square error,MSE)和平均绝对值误差(Mean absoluteerror,MAE)等方法计算出来。这些方法中的预测值(通常表示成y)例如为学生张量,真实值(通常表示成
Figure BDA0002911414140000081
)例如为老师张量,并计算两者的向量差值。由于此些方法为既有方法,故此处不赘述之。于一实施例中,向量差值的范围在0~1之间。
于一实施例中,当调整后的学生模型STM的一学生张量(tensor)与老师模型TTM的一老师张量之间的向量差值小于学习门槛值(例如为0.1),则视为学生模型STM完成训练,进而提取学生模型STM作为一物件辨识模型。由于学生模型STM具有运算速度快及储存空间小的特性,且学生模型STM是向老师模型TTM逼近向量差值,因此学生模型STM的辨识精准度也与大量数据训练出来的老师模型TTM差不多高。
于一实施例中,于步骤340中,更包含前处理模组10更用以接收人工标记样本DC。当学生模型STM的学生张量与老师模型TTM的老师张量之间的向量差值小于一学习门槛值(例如为0.2,此处仅为举例,数值可依据实作调整)时,将人工标记样本DC输入老师模型TTM,以产生一进修老师模型。
在某些实施例中,当学生模型STM的学生张量与老师模型TTM的老师张量之间的向量差值小于学习门槛值,代表学生模型STM与老师模型TTM的执行结果相近,因此,老师模型TTM需要藉由人工标记样本DC进行训练(此称为进修);而当学生模型STM的学生张量与进修老师模型的进修后张量之间的向量差值小于学习门槛值,代表学生模型STM与进修老师模型的执行结果相近,此时学生模型STM视为已训练完成。
于一实施例中,老师模型训练模组20将人工标记样本DC输入进修老师模型。当进修老师模型输出的一进修后张量与人工标记样本的向量差值(或损失函数)小于一进修门槛值,则视为进修老师模型完成训练。
于一实施例中,人工标记样本DC的数量小于对抗样本DB的数量。
藉由将人工标记样本DC输入老师模型TTM,可以使老师模型TTM学习到标记物件(例如人)于背景(例如街景)的相依性,当进修老师模型输出的一进修后张量与人工标记样本的向量差值(或损失函数)小于一进修门槛值,则视为进修老师模型完成训练,老师模型训练模组20再使用进修老师模型带领学生模型TTM去逼近进修老师模型,学生模型TTM会再次向进修老师模型学习。
于一实施例中,学生模型训练模组30将学生模型TTM依据进修老师模型以调整参数(学生模型TTM向进修老师模型学习),例如调整偏权值及/或调整多个输入所对应的多个权重。当调整后的学生模型的学生张量与进修老师模型的一进修老师张量之间的向量差值小于学习门槛值,则视为学生模型TTM完成训练,提取学生模型TTM作为物件辨识模型。
藉此可以使学生模型TTM分析实际环境的图像时,提升图像中的物件(例如人)的辨识率。
于一实施例中,步骤340的停止条件为重复运算步骤340到达一特定次数(例如预先设定为70次),代表学生模型STM调整了70次才使学生模型STM足够精准,学生模型训练模组30提取学生模型STM作为一物件辨识模型。
请参阅图4A和图4B,图4A是依照本发明实施例绘示一种产生老师模型TTM与对抗样本DB的示意图。图4B是依照本发明实施例绘示一种产生物件辨识模型的流程图。
于步骤410中,录制目标物图片。例如,藉由一摄相机拍摄走在路上的一或多个行人。
于步骤420中,使用鼠标框选目标物的范围,被框选目标物的范围视为框选位置。然,不限于使用鼠标,若物件辨识装置100包含触控式屏幕,则可由触控式屏幕接收框选目标的范围,例如使用者用手指在触控式屏幕上将框选目标(例如为人)框选出来。此时前处理模组10可知道框选目标在整个帧中的框选位置的长度与宽度及框选位置的中心点坐标,藉此可产生人工标记样本DC。其中,框选位置可以是指一个框选的范围。
于一实施例中,在步骤420中,使用者可以针对多张帧或图像中的框选目标进行框选,使前处理模组10可知道多张帧或图像的框选目标在各个帧或图像中的框选位置的长度与宽度及框选位置的中心点坐标。
于一实施例中,使用者可以针对多种类别的框选目标(目标物)进行框选,例如框选多个人物或猫。
于步骤430中,前处理模组10使用光流演算法搭配特征金字塔,针对框选位置的像素面积进行光流追踪。
于一实施例中,由于使用者已框选出至少一张帧的框选位置(例如为人),前处理模组10使用光流演算法可以在后续的帧中继续追踪框选位置(例如人在下一帧中往右走,则前处理模组10使用光流演算法可以追踪到人于此帧中的框选位置)。特征金字塔网络是根据特征金字塔概念设计的特征提取器,目的是提高找到框选位置的精度和速度。
于步骤440中,前处理模组10针对移动中的框选目标,使用图像处理演算法,找出目标边缘轮廓。
于步骤450中,前处理模组10优化出最适合的追踪框选位置。
于一实施例中,可能因为物件移动的位移较大,使得前述的框选位置的范围太大或有噪声,因此,藉由例如二值化演算法、边缘检测演算法(Edge detection)等等,找出物件连续的边,以找出目标边缘轮廓(例如为人的轮廓)。例如,处理器PR应用开源电脑视觉软件库(Open Source Computer Vision Library,open CV)进行移动检测,由于框选位置已经通过二值化处理,前处理模组10可以计算出最小化的框选位置(最小化矩形)。藉此,处理器PR可以依据目标边缘轮廓将框选位置收敛适当的大小,作为最适合的追踪框选位置,再进行追踪框选位置,以提升追踪的精准度。
于步骤460中,前处理模组10产生追踪样本DA。
例如,前处理模组10接着依据一光流演算法以追踪每个画面中的一框选物件,以产生大量自动产生的追踪样本DA,无须人工进行框选,即可自动产生大量的追踪样本DA。
于步骤462中,前处理模组10将追踪样本DA输入初始老师模型,以训练初始老师模型。
于一实施例中,初始老师模型只是一个架构(例如YOLO模型的架构)。
于步骤464中,老师模型训练模组20产生老师模型TTM。此老师模型TTM已经学习过追踪样本DA。
于步骤470中,前处理模组10选取(crop)出框选位置的图像。换言之,前处理模组10会从整张帧或图像中将框选位置选取出来。
于步骤472中,前处理模组10生成框选位置假样本。
于一实施例中,可以将原始的框选位置的图像加入噪声。较佳地,可使用adv-GAN演算法以加入有意义的噪声(即误导老师模型TTM的有效信息),以产生噪声图(即框选位置假样本)。
于步骤474中,前处理模组10将一或多张框选位置假样本贴回追踪样本DA,以产生多张不同的对抗样本DB。
于此例中,可产生大量的对抗样本DB,用于训练老师模型TTM,让老师模型TTM调整参数(让老师模型TTM学习对抗样本DB),直到训练出让老师模型TTM也能将对抗样本DB中的框选位置进行正确辨识。
由上述可知,通过图4A的流程产生了追踪样本DA、老师模型TTM及对抗样本DB。接着,请参阅图4B。于一实施例中,图4B中的各步骤亦可以由处理器PR执行。
于步骤510中,前处理模组10读取对抗样本DB,并输入学生模型和老师模型。
于步骤520中,前处理模组10接收人工标记样本DC。
于一实施例中,对抗样本DB约占整体样本量的70%,人工标记样本DC约占整体样本量的30%。
于步骤530中,前处理模组10读取老师模型TTM。
于步骤540中,学生模型训练模组30建置初始学生模型。此时的初始学生模型采用老师模型TTM相同的框架。
于步骤550中,学生模型训练模组30利用对抗样本DB训练初始学生模型,产生一学生模型STM。
于一实施例中,学生模型训练模组30依据老师模型TTM以初始化一学生模型STM。学生模型STM以老师模型TTM为标准,进行调整参数(学生模型STM向老师模型TTM学习),以使学生模型STM的输出张量接近老师模型TTM的输出张量。
于一实施例中,当前的学生模型STM与前一版的学生模型STM两者误差小于一误差门槛值(例如5%),代表当前的学生模型STM的训练已经趋于收敛,并进入步骤S560。
于步骤560中,学生模型STM输出一学生张量。
于步骤570中,老师模型TTM输出一老师张量。
于步骤580中,处理器PR判断调整后的学生模型STM的学生张量与老师模型TTM的老师张量之间的向量差值是否小于一学习门槛值。若是,代表学生模型STM与老师模型TTM之间的损失函数较小,落差相近,进入步骤590。若否,则进行训练流程A,继续让学生模型STM学习老师模型TTM,继续调整学生模型STM的参数。
于步骤590中,处理器PR提取最新训练后的学生模型STM。
执行完步骤590后,进行训练流程B,藉由人工标记样本DC训练老师模型TTM,以提升老师模型TTM的精准度,再继续让学生模型STM学习老师模型TTM,继续调整学生模型STM的参数。
于步骤572中,老师模型训练模组20将人工标记样本DC输入老师模型TTM,以产生进修老师模型。
于步骤574中,老师模型训练模组20判断进修老师模型输出的一进修后张量与人工标记样本DC的向量差值是否小于一进修门槛值。若否,则回到步骤572,继续以人工标记样本DC或新增的人工标记样本DC输入进修老师模型,并进一步训练进修老师模型。若是,则代表进修老师模型完成训练,将步骤530中的老师模型TTM替换成进修老师模型,使学生模型STM继续向进修老师模型学习,学生模型STM调整参数以逼近进修老师模型的张量。当调整后的学生模型STM的学生张量与进修老师模型的一进修老师张量之间的向量差值小于学习门槛值,则视为学生模型完成训练,学生模型训练模组30提取学生模型作为物件辨识模型。
于一实施例中,当一未知图像输入物件辨识模型后,物件辨识模型可以辨识或框选出此未知图像中特定物件的位置及/或数量。于另一实施例中,物件辨识模型可以辨识或框选出此未知图像中不同类别的物件的位置及/或数量。
由上述可知,物件辨识装置及物件辨识方法使得作为物件辨识模型的学生模型的卷积层数及神经元数量小于老师模型的卷积层数及神经元数量,因此物件辨识模型具有模型精简性。再者,本案的物件辨识装置及物件辨识方法在建立学生模型的过程中使用到对抗样本,此可使物件辨识模型具有模型强健性,在整个学生模型的过程中,所需的人工标记样本大幅小于对抗样本数,因此具有人工样本数稀释性,达到降低人力标记的时间与资源。
藉此,物件辨识装置及物件辨识方法只需要输入目标物在任何环境的图片或多张图像,即可大量自动追踪标记物件,解决了人工智能物件辨识领域中,最花时间的标记环节,因此可以有效率地产生大量训练图片及标记,达成了不需要消耗大量人工标记时间进行手动标记的功效。

Claims (20)

1.一种物件辨识装置,其特征在于,包含:
一处理器;以及
一储存装置,所述处理器用以存取所述储存装置所储存的程序,以实现一前处理模组、一老师模型训练模组以及一学生模型训练模组;其中
所述前处理模组,用以产生一追踪样本及一对抗样本;
所述老师模型训练模组,以所述追踪样本训练出一老师模型;以及
所述学生模型训练模组,依据所述老师模型初始化一学生模型;
其中所述学生模型依据所述老师模型以及所述对抗样本调整所述学生模型的复数个参数,响应于所述学生模型的输出结果与所述老师模型的输出结果之间的向量差值小于一学习门槛值,则视为所述学生模型完成训练,提取所述学生模型作为一物件辨识模型。
2.根据权利要求1所述的物件辨识装置,其特征在于,所述学生模型设置的深度学习模型的卷积层数及神经元数量小于所述老师模型的卷积层数及神经元数量,且所述学生模型的卷积层数及神经元数量对应的权重参数数量也小于所述老师模型的卷积层数及神经元数量对应的权重参数数量。
3.根据权利要求1所述的物件辨识装置,其特征在于,所述前处理模组更用以接收一人工标记样本,响应于所述学生模型的所述输出结果与所述老师模型的所述输出结果之间的向量差值小于所述学习门槛值时,所述老师模型训练模组将所述人工标记样本输入所述老师模型进行训练,以产生一进修老师模型。
4.根据权利要求3所述的物件辨识装置,其特征在于,所述老师模型训练模组将所述人工标记样本输入所述进修老师模型,响应于所述进修老师模型输出的一进修后张量与所述人工标记样本的向量差值小于一进修门槛值,则视为所述进修老师模型完成训练。
5.根据权利要求3所述的物件辨识装置,其特征在于,所述学生模型训练模组将所述学生模型依据所述进修老师模型调整所述复数个参数,响应于所述学生模型的所述输出结果与所述进修老师模型的输出结果之间的向量差值小于所述学习门槛值,则视为所述学生模型完成训练,提取所述学生模型作为所述物件辨识模型。
6.根据权利要求5所述的物件辨识装置,其特征在于,所述学生模型训练模组将所述学生模型依据所述进修老师模型调整所述复数个参数,响应于所述学生模型的一学生张量与所述进修老师模型的一老师张量之间的向量差值小于所述学习门槛值,则视为所述学生模型完成训练,提取所述学生模型作为所述物件辨识模型。
7.根据权利要求1所述的物件辨识装置,其特征在于,所述前处理模组依据一光流演算法追踪每个画面中的一框选物件,以产生所述追踪样本;
其中所述前处理模组将所述追踪样本加入一噪声或将所述追踪样本输入一生成式对抗网络,以产生所述对抗样本。
8.根据权利要求7所述的物件辨识装置,其特征在于,所述前处理模组将所述追踪样本加入一噪声图,所述噪声图包括不同的物件类别的图像。
9.根据权利要求1所述的物件辨识装置,其特征在于,所述学生模型调整偏权值及复数个权重,使得所述学生模型输出的所述输出结果趋近于所述老师模型的所述输出结果。
10.根据权利要求1所述的物件辨识装置,其特征在于,所述学生模型输出的所述输出结果为一学生张量,所述老师模型输出的所述输出结果为一老师张量。
11.一种物件辨识方法,其特征在于,包含:
产生一追踪样本及一对抗样本;
依据所述追踪样本训练一老师模型;以及
依据所述老师模型初始化一学生模型;
其中所述学生模型依据所述老师模型以及所述对抗样本调整所述学生模型的复数个参数,响应于所述学生模型的输出结果与所述老师模型的输出结果之间的向量差值小于一学习门槛值,则视为所述学生模型完成训练,提取所述学生模型作为一物件辨识模型。
12.根据权利要求11所述的物件辨识方法,其特征在于,所述学生模型设置的深度学习模型的卷积层数及神经元数量小于所述老师模型的卷积层数及神经元数量,且所述学生模型的卷积层数及神经元数量对应的权重参数数量也小于所述老师模型的卷积层数及神经元数量对应的权重参数数量。
13.根据权利要求11所述的物件辨识方法,其特征在于,更包含:
接收一人工标记样本;
响应于所述学生模型的所述输出结果与所述老师模型的所述输出结果之间的向量差值小于所述学习门槛值时,所述老师模型训练模组将所述人工标记样本输入所述老师模型进行训练,以产生一进修老师模型。
14.根据权利要求13所述的物件辨识方法,其特征在于,更包含:
将所述人工标记样本输入所述进修老师模型;
响应于所述进修老师模型输出的一进修后张量与所述人工标记样本的向量差值小于一进修门槛值,则视为所述进修老师模型完成训练。
15.根据权利要求13所述的物件辨识方法,其特征在于,更包含:
将所述学生模型依据所述进修老师模型调整所述复数个参数;
响应于所述学生模型的所述输出结果与所述进修老师模型的输出结果之间的向量差值小于所述学习门槛值,则视为所述学生模型完成训练,提取所述学生模型作为所述物件辨识模型。
16.根据权利要求15所述的物件辨识方法,其特征在于,更包含:
将所述学生模型依据所述进修老师模型调整所述复数个参数;
响应于所述学生模型的一学生张量与所述进修老师模型的一老师张量之间的向量差值小于所述学习门槛值,则视为所述学生模型完成训练,提取所述学生模型作为所述物件辨识模型。
17.根据权利要求11所述的物件辨识方法,其特征在于,更包含:
依据一光流演算法追踪每个画面中的一框选物件,以产生所述追踪样本;以及
将所述追踪样本加入一噪声或将所述追踪样本输入一生成式对抗网络,以产生所述对抗样本。
18.根据权利要求17所述的物件辨识方法,其特征在于,更包含:
将所述追踪样本加入一噪声图,所述噪声图包括不同的物件类别的图像。
19.根据权利要求11所述的物件辨识方法,其特征在于,所述学生模型调整偏权值及复数个权重,使得所述学生模型输出的所述输出结果趋近于所述老师模型的所述输出结果。
20.根据权利要求11所述的物件辨识方法,其特征在于,所述学生模型输出的所述输出结果为一学生张量,所述老师模型输出的所述输出结果为一老师张量。
CN202110087912.7A 2020-12-17 2021-01-22 物件辨识装置及物件辨识方法 Pending CN114708645A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW109144640 2020-12-17
TW109144640A TW202226054A (zh) 2020-12-17 2020-12-17 物件辨識裝置及物件辨識方法

Publications (1)

Publication Number Publication Date
CN114708645A true CN114708645A (zh) 2022-07-05

Family

ID=76392243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110087912.7A Pending CN114708645A (zh) 2020-12-17 2021-01-22 物件辨识装置及物件辨识方法

Country Status (4)

Country Link
US (1) US11776292B2 (zh)
EP (1) EP4016394A1 (zh)
CN (1) CN114708645A (zh)
TW (1) TW202226054A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937703B (zh) * 2022-11-30 2024-05-03 南京林业大学 一种用于遥感图像目标检测的增强特征提取方法
CN117496509B (zh) * 2023-12-25 2024-03-19 江西农业大学 一种融合多教师知识蒸馏的Yolov7柚子计数方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426008B (zh) 2013-08-29 2017-04-05 北京大学深圳研究生院 基于在线机器学习的视觉人手跟踪方法及系统
CN103559237B (zh) 2013-10-25 2017-02-15 南京大学 基于目标跟踪的半自动图像标注样本生成方法
CN105654055A (zh) 2015-12-29 2016-06-08 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种利用视频数据进行人脸识别训练的方法
CN107392319A (zh) 2017-07-20 2017-11-24 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107392255B (zh) 2017-07-31 2020-06-12 深圳先进技术研究院 少数类图片样本的生成方法、装置、计算设备及存储介质
US11487997B2 (en) * 2018-10-04 2022-11-01 Visa International Service Association Method, system, and computer program product for local approximation of a predictive model
CN111105008A (zh) 2018-10-29 2020-05-05 富士通株式会社 模型训练方法、数据识别方法和数据识别装置
US11694088B2 (en) * 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11586930B2 (en) 2019-04-16 2023-02-21 Microsoft Technology Licensing, Llc Conditional teacher-student learning for model training
CN110414415A (zh) 2019-07-24 2019-11-05 北京理工大学 面向课堂场景的人体行为识别方法
CN111967529B (zh) 2020-08-27 2023-09-05 杭州海康威视数字技术股份有限公司 识别方法、装置、设备及系统

Also Published As

Publication number Publication date
US20220198181A1 (en) 2022-06-23
US11776292B2 (en) 2023-10-03
TW202226054A (zh) 2022-07-01
EP4016394A1 (en) 2022-06-22

Similar Documents

Publication Publication Date Title
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN110909618B (zh) 一种宠物身份的识别方法及装置
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
KR20060097074A (ko) 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN107301376B (zh) 一种基于深度学习多层刺激的行人检测方法
CN110070090A (zh) 一种基于手写文字识别的物流标签信息检测方法及系统
WO2022218396A1 (zh) 图像处理方法、装置和计算机可读存储介质
CN116935447B (zh) 基于自适应师生结构的无监督域行人重识别方法及系统
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN114708645A (zh) 物件辨识装置及物件辨识方法
CN110688980A (zh) 基于计算机视觉的人体姿态分类方法
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
Fan Research and realization of video target detection system based on deep learning
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
CN105160285A (zh) 基于立体视觉的自动人体跌倒识别方法及系统
CN113870254A (zh) 目标对象的检测方法、装置、电子设备及存储介质
CN116071719A (zh) 基于模型动态修正的车道线语义分割方法及装置
CN116189130A (zh) 基于图像标注模型的车道线分割方法及装置
CN114926635A (zh) 与深度学习方法相结合的多焦图像中目标分割方法
CN114927236A (zh) 一种面向多重目标图像的检测方法及系统
CN114663835A (zh) 一种行人跟踪方法、系统、设备及存储介质
CN113470073A (zh) 一种基于深度学习的动物中心追踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination