CN111209783A - 使用模拟物件影像的物件识别系统及其方法 - Google Patents
使用模拟物件影像的物件识别系统及其方法 Download PDFInfo
- Publication number
- CN111209783A CN111209783A CN201811399155.1A CN201811399155A CN111209783A CN 111209783 A CN111209783 A CN 111209783A CN 201811399155 A CN201811399155 A CN 201811399155A CN 111209783 A CN111209783 A CN 111209783A
- Authority
- CN
- China
- Prior art keywords
- image
- simulated
- images
- image set
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000004088 simulation Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 description 24
- 239000011159 matrix material Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 239000006002 Pepper Substances 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 6
- 235000002566 Capsicum Nutrition 0.000 description 4
- 241000722363 Piper Species 0.000 description 4
- 235000016761 Piper aduncum Nutrition 0.000 description 4
- 235000017804 Piper guineense Nutrition 0.000 description 4
- 235000008184 Piper nigrum Nutrition 0.000 description 4
- 230000004075 alteration Effects 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000000746 body region Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009429 electrical wiring Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19167—Active pattern learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明是提供一种使用模拟物件影像的物件识别方法以及一种使用模拟物件影像的物件识别系统,该方法包括:(A)取得包括一或多张物件影像的一物件影像集合以及包括复数张背景影像的一背景影像集合;(B)依据该物件影像集合及该背景影像集合产生包括复数张模拟物件影像的一模拟物件影像集合;(C)依据该模拟物件影像集合以训练出一待测物识别模型;以及(D)将由一待测场景所取得的一待测影像输入该待测物识别模型以取得一物件识别结果。
Description
技术领域
本发明涉及物件识别,特别涉及一种使用模拟物件影像的物件识别系统及其方法。
背景技术
识别模型的训练建立在大量的标注数据,数据量的多寡与数据的品质影响训练模型的识别率。对于一些任务或领域而言,这些数据可以通过长时间的收集得到,帮助该领域解决问题。因此,在模型训练之前必须花费时间搜集数据并对其分类、标注。
以识别系统来说,识别率的高低取决于是否有足够充分的数据样本,样本的多样性越高,越能克服在各个场域遇到的问题。因此一个好的识别模型会耗费许多时间在搜集数据与标注数据上。另外当特定场域识别率无法达到标准的状况下,可以通过搜集该场域的数据,施以针对性的训练与调整来提高该场域的识别率。但也导致整体建置时间延长、提高初期建置成本。另一方面对于个资保护较为缜密的地区,则面临难以取得大量数据的窘境,必须花费更多资源在收集数据上。
发明内容
本发明是提供一种使用模拟物件影像的物件识别系统及其方法以解决传统识别系统所遇到的问题。
本发明是提供一种使用模拟物件影像的物件识别方法,该方法包括:(A)取得包括一或多张物件影像的一物件影像集合以及包括复数张背景影像的一背景影像集合;(B)依据该物件影像集合及该背景影像集合产生包括复数张模拟物件影像的一模拟物件影像集合;(C)依据该模拟物件影像集合以训练出一待测物识别模型;以及(D)将由一待测场景所取得的一待测影像输入该待测物识别模型以取得一物件识别结果。
本发明更提供一种使用模拟物件影像的物件识别系统,包括:一非易失性存储器,用以存储一物件识别程序;以及一运算单元,用以执行该物件识别程序以进行下列步骤:取得包括复数张物件影像的一物件影像集合以及包括复数张背景影像的一背景影像集合;依据该物件影像集合及该背景影像集合产生包括复数张模拟物件影像的一模拟物件影像集合;依据该模拟物件影像集合以训练出一待测物识别模型;以及将由一待测场景所取得的一待测影像输入该待测物识别模型以取得一物件识别结果。
附图说明
图1是显示依据本发明一实施例中的物件识别系统的方框图。
图2A-2M是显示依据本发明一实施例在物件识别流程中所使用的不同影像的示意图。
图3A是显示依据本发明一实施例中在模糊遮罩中的训练用物件的像素的示意图。
图3B是显示依据本发明一实施例在模糊遮罩中的系数的示意图。
图3C是显示依据本发明一实施例在亮度遮罩中的系数的示意图。
图4A-4F是显示依据本发明另一实施例中物件影像的示意图。
图5是显示依据本发明一实施例中使用模拟物件影像的物件识别方法的流程图。
附图标记说明:
100~物件识别系统;
110~处理单元;
120~影像获取装置;
130~存储单元;
131~易失性存储器;
132~非易失性存储器;
133~物件识别程序;
135~第一数据库;
136~第二数据库;
137~第三数据库;
138~第四数据库;
139~第五数据库;
140~第六数据库;
141~待测物识别模型;
150~显示器;
S510-S540~步骤。
具体实施方式
以下叙述列举本发明的多种实施方式。以下叙述介绍本发明的基本概念,且并非意图限制本发明内容。实际发明范围应依照权利要求界定之。
图1是显示依据本发明一实施例中的物件识别系统的方框图。
在一实施例中,物件识别系统100可实现于一电子装置,例如一个人电脑、一伺服器、或一便携式装置。物件识别系统100包括一运算单元110、一影像获取装置120、一存储单元130、及一显示器150。
运算单元110可通过多种方式实施,例如以专用硬件电路或者通用硬件(例如:单一处理器、具平行处理能力的多处理器、图形处理器或者其它具有运算能力的处理器),且于执行与本发明各个模型以及流程有关的程序码或者软件时,提供之后所描述的功能。影像获取装置120例如为一照相机,用以对一待测场景获取一待测影像。
存储单元130包括一易失性存储器131及一非易失性存储器132。非易失性存储器132是用以存储各种不同影像集合的数据库、在物件识别流程中所需要的数据以及各种程序码,例如各种演算法和/或物件识别模型等等。非易失性存储器132例如可为一硬盘机(hard disk drive)、一固态硬盘机(solid-state disk)、一快闪存储器(flash memory)、或一只读存储器(read-only memory),但本发明并不限于此。易失性存储器131可为一随机存取存储器,例如是一静态随机存取存储器(SRAM)或一动态随机存取存储器(DRAM),但本发明并不限于此。易失性存储器131例如可暂存在物件识别流程中的中间数据及影像。
在一实施例中,非易失性存储器132是存储一物件识别程序133,且运算单元110是将物件识别程序133由该非易失性存储器132读取至挥发性存储器131并执行,其中物件识别程序133包括一物件识别方法的程序码。
显示单元150可为显示面板(例如,薄膜液晶显示面板、有机发光二极管面板或者其它具显示能力的面板),用以显示输入的字元、数字、符号、拖曳鼠标的移动轨迹或者应用程序所提供的使用者介面,以提供给使用者观看。物件识别系统100还可包括一输入装置(未示出),用以供使用者执行对应的操作,例如鼠标、触控笔、或键盘等,但本发明并不限于此。
在一实施例中,非易失性存储器132还包括一第一数据库135、一第二数据库136、一第三数据库137、一第四数据库138、一第五数据库139、一第六数据库140、及一待测物识别模型141。举例来说,第一数据库135是存储复数张物件场景影像。各物件场景影像例如可包括一或多种类型的物件,其中上述物件例如可为文字(例如A~Z、0~9、或其他字体)、人体、车牌、零组件、及标志等等,但本发明并不限于此。
第二数据库136是存储复数张背景影像,例如为一背景影像集合。其中,上述背景影像例如可为在不同拍摄条件下所取得的任意真实场景的真实背景影像,并不限于待测场景的背景影像,且亦可不包括待测物件。在一些实施例中,上述背景影像还包括电脑视觉技术模拟出的虚拟背景影像。
第三数据库137是存储复数张物件影像,例如为一物件影像集合,其中各物件影像例如是可由第一数据库135中的复数张物件场景影像获取而得。第四数据库138是存储复数张模拟物件影像,例如为一模拟物件影像集合。
其中,运算单元110是依据在第三数据库137中的物件影像集合、以及第二数据库136中的背景影像集合以产生第四数据库138中的模拟物件影像集合,其细节将详述于后。
图2A-2M是显示依据本发明一实施例在物件识别流程中所使用的不同影像的示意图。请同时参考图1及图2A-2M。为了便于说明,在后述实施例中所使用的待测物件为车牌。
第一数据库135所存储的各物件场景影像例如可为真实的车牌影像,例如需包括所有的车牌字元(例如A~Z、0~9、或其他字体),如图2A所示。举例来说,运算单元110例如可对各物件场景影像进行影像获取处理以取得车牌中的各字元的影像(意即物件影像),如图2B所示。运算单元110并利用光学字元识别(optical character recognition)技术或是其他物件识别技术以取得所有车牌字元,且各车牌字元为单独的物件影像,如图2C所示,其中共有10个数字的物件影像,以及26个字母的物件影像,其中所有车牌字元的物件影像例如可存储于第三数据库137。
接着,运算单元110是依据一预定规则由一或多张物件影像组成一或多个训练用物件。因为在此实施例中是以车牌为例,故上述预定规则为车牌制订规则,例如包括车牌长宽、字体间距、字元限制、字元布局、字体颜色、车牌颜色、螺丝孔大小及位置等等。图2D所示为汽车(自用小客车)车牌的制订规则,但本发明并不限定于汽车车牌,其他车辆类型的车牌亦可使用,例如是大型重型机车、普通重型机车、大客车、大货车等等。意即,不同车辆类型的车牌有相应的一车牌制订规则,运算单元110可依据所选择的车牌制订规则使用车牌字元的物件影像的不同组合以产生一或多个训练用物件(例如模拟车牌影像),如图2E所示。需注意的是,在图2E中的模拟车牌影像是由在第三数据库137中不同的车牌字元的物件影像所组成,且模拟车牌并没有加入噪声、模糊、形态变化或真实场景的各种影像特征。
运算单元110接着执行第一影像处理对模拟车牌影像(即训练用物件)加入一或多个物件影像特征及一或多个背景影像特征。举例来说,物件影像特征例如可为在真实场景中的待测物件,受到环境的影响而产生视觉上的差异。物件影像特征例如包括:模糊(blurriness)、刮痕或污损(scratches or stains)、阴影(shadow)、遮蔽(shading)、过曝(overexposure)、变形(distortion)、及色差(color aberration),但本发明并不限于此。图2F则显示了包含不同的物件影像特征的车牌的示意图。因为物件影像特征及背景影像特征均包括多种不同类型的影像特征,运算单元110可进行第一影像处理将一或多个物件影像特征加入各训练用物件(例如:模拟车牌影像)以产生一或多个模拟待测物件(经过处理的模拟车牌影像),例如第2H-1~2H-6图是显示在图2E中的模拟车牌影像分别加入刮痕、色差、阴影、模糊、噪声、变形、及色差等物件影像特征后所产生的模拟待测物件。需注意的是,本发明并不限定于仅加入其中一种物件影像特征至各训练用物件(例如:模拟车牌影像)。
背景影像特征例如可为真实场景中所拍摄的影像所产生的噪声,且背景影像特征亦可称为环境噪声特征。背景影像特征例如包括:模糊、刮痕或污损、阴影、噪声、遮蔽、过曝、变形、及色差,但本发明并不限于此。图2G则显示了包含不同的背景影像特征的真实场景的示意图。物件影像特征及背景影像特征的细节将详述于后。
在一些实施例中,运算单元110可进行第一影像处理将一或多个物件影像特征及一或多个背景影像特征加入各训练用物件(例如:模拟车牌影像)以产生一或多个模拟待测物件。举例来说,除了车牌可能出现的物件影像特征之外,车牌影像在真实场景中亦会受到背景的环境噪声影像,故运算单元110亦可将一或多个物件影像特征及一或多个背景影像特征加入各训练用物件以产生一或多个模拟待测物件。
在一实施例中,存储于第二数据库136的背景影像集合中的背景影像例如图2I所示。需注意的是,图2I中的背景影像可以不包括车牌。
接着,运算单元110是由第二数据库136所存储的背景影像集合随机挑选一背景影像,其中所挑选的背景影像例如可为在背景影像集合的其中一张真实背景影像的全部或是一部分(例如感兴趣区域),分别如图2J-1及2J-2所示。假定以图2J-2的感兴趣区域的背景影像为准(例如为第一背景影像),运算单元110则进行一第二影像处理将一或多个背景影像特征加入第一背景影像以产生一模拟背景影像。举例来说,运算单元110可在第一背景影像中加入例如模糊、刮痕或污损、阴影、噪声、遮蔽、过曝、变形等等的一或多个背景影像特征,使得在第一背景影像的场景得以融入原本未拍摄到的不同的影像特征,故可采用较少数量的背景影像以达到不同拍摄条件下的背景环境的影像效果。
在前述实施例中,运算单元110可进行第一影像处理将一或多个物件影像特征及一或多个背景影像特征加入各训练用物件(例如:模拟车牌影像)以产生一或多个模拟待测物件,并进行第二影像处理将一或多个背景影像特征加入第一背景影像以产生一模拟背景影像。因为模拟待测物件是针对车牌的部分以加入一或多个物件影像特征所产生,且模拟背景影像是针对第一背景影像以加入一或多个背景影像特征所产生,但是模拟待测物件及模拟背景影像之间可能并没有关联性。因此,运算单元110是进行一影像合成处理(imagesynthesis process)将模拟待测物件加入模拟背景影像以产生一模拟合成影像,如图2K所示。
举例来说,上述影像合成处理可将模拟待测物件调整为适当的影像尺寸并贴上模拟背景影像中的任意位置(例如为在模拟背景影像中的一预定范围内的位置),并进行对贴上模拟背景影像的模拟待测物件进行边缘平滑化处理以产生一模拟合成影像。需注意的是,加入模拟背景影像中的模拟待测物件本身并没有在模拟背景影像中的模拟场景的影像特征。因此,运算单元110更进行第二影像处理以将一或多个背景影像特征加入上述模拟合成影像,并产生一模拟物件影像,其中上述流程是强化模拟待测物件与背景的一致性,才产生用于训练的模拟物件影像。图2L-1~2L-4是分别显示将背景影像特征中的模糊、干扰、椒盐噪声、高斯噪声等影像特征加入模拟合成影像后的结果。在图2M所示的模拟物件影像例如是结合了第2L-1~2L-4图中的不同的背景影像特征所得到的结果。在本发明的上述流程中,将模拟待测物件覆盖在任意背景影像上可以提高车牌的背景的复杂度,有助于增强后续物件识别模型训练的效果。
运算单元110可选择不同的物件影像特征及背景影像特征的组合及选择不同的真实背景影像,并重复执行前述实施例中的流程,以产生不同的模拟物件影像。因此,运算单元110可得到复数张模拟物件影像以形成模拟物件影像集合,并将上述模拟物件影像存储于第四数据库138中。
接着,运算单元110是依据第四数据库138中的模拟物件影像集合以训练出一待测物识别模型141。举例来说,运算单元110可使用支持向量机(support vector machine,SVM)、卷积神经网络(convolutional neural network)、深度神经网络(deep neuralnetwork)等技术以训练出待测物识别模型141,但本发明并不限于此。需注意的是,在开始训练待测物识别模型141的过程中,运算单元110均是使用模拟物件影像集合中的模拟物件影像。因为模拟物件影像是经由模拟不同的场景及不同的训练用物件(例如模拟车牌影像)的变化所得到,故可大幅涵盖在待测现场实地拍摄而无法取得的情况,故运算单元110可不使用真实场景的影像,而是使用模拟物件影像集合中的模拟物件影像以训练出待测物识别模型141。
在一实施例中,当待测物识别模型141训练完成后,运算单元110即可将来自外部主机或是由影像获取装置120所获取的待测场景(例如为具有车辆的场景)的待测影像输入待测物识别模型141以得到一物件识别结果,其中上述物件识别结果例如为待测影像中的车牌号码。
在另一实施例中,非易失性存储器132中的第五数据库139,其是存储包括复数张测试影像的测试影像集合,其中测试影像集合亦可称为未标注(unlabeled)的测试影像集合。上述测试影像例如为在包括车辆及其车牌的真实场景拍摄所得到的影像。运算单元110例如可将测试影像集合中的各测试影像输入待测物识别模型141以得到相应的物件识别结果,并将各测试影像相应的物件识别结果存储至非易失性存储器132中的第五数据库139。选择性地,运算单元110可将各测试影像相应的物件识别结果标示于各测试影像上,并将标示后的各测试影像另外存储至非易失性存储器132中的第六数据库140。
在一实施例中,因为各种环境变化的影响,待测物识别模型141的识别结果并无法百分之百准确,故使用者可以经由人工检视的方式以检查测试影像集合中的各测试影像相应的物件识别结果是否正确。若判断有一特定测试影像相应的物件识别结果不正确,则运算单元110可将该特定测试影像加入第四数据库138,并将该特定测试影像相应的正确物件识别结果输入至待测物识别模型141,借此再训练并更新待测物识别模型141,故可提高在类似情况下,待测物识别模型141的识别率。类似地,若由待测场景所获取的待测影像输入至待测物识别模型141后的物件识别结果不正确,则运算单元110可将该待测影像加入第四数据库138,并将该特定测试影像相应的正确物件识别结果输入至待测物识别模型141,借此再训练并更新待测物识别模型141。
在另一实施例中,使用者可先将各测试影像及正确物件识别结果预先存储于第五数据库139中。且运算单元110在初始阶段训练待测物识别模型141后,即可将第五数据库139中的各测试影像输入待测物识别模型141以产生物件识别结果,并将所产生的物件识别结果与预先存储的正确物件识别结果进行比对。若所产生的物件识别结果与预先存储的正确物件识别结果不相符(意即物件识别结果为”失败”),则运算单元110可将所产生的物件识别结果相应的测试影像加入第四数据库138,并将正确物件识别结果输入待测物识别模型141,借此再训练并更新待测物识别模型141,故可提高待测物识别模型141的识别率。
详细而言,本发明中的待测物识别模型141的训练过程是以模拟物件影像为主,并可利用真实场景的待测影像或在第五数据库139中的测试影像以辅助修正及更新待测物识别模型141。
在一实施例中,在真实场景所拍摄到的物件影像(例如车牌影像),均有可能受到环境的影像而产生视觉上的差异,此即为前述的物件影像特征,亦可称为待测物件(例如车牌)特征。物件影像特征例如包括:模糊、刮痕或污损、阴影、遮蔽、过曝、变形、及色差。各物件影像特征例如可分别使用不同的表示方式。
举例来说,以模糊特征为例,当车速过快、对焦失败、或是车辆距离过远时,都可能造成车牌影像模糊。因此,模糊特征例如可用一模糊遮罩表示,例如可为一M*N的矩阵,且在模糊遮罩的中心像素乘上M*N的矩阵以得到模糊化的中心像素。举例来说,模糊遮罩中的车牌影像的三列像素由左而右、由上而下例如分别为a1~a3、b1~b3、及c1~c3,其中b2即为中心像素,如图3A所示。模糊遮罩例如可为一3x3矩阵,如图3B所示。3x3矩阵中的系数值例如均为1,但本发明并不限定于上述模糊遮罩,本发明亦可利用本发明领域中的现有的模糊遮罩进行处理。因此,经由模糊遮罩处理后的中心像素b2会更新为b2=(a1*1+a2*1+a3*1+b1*1+b2*1+b3*1+c1*1+c2*1+c3*1)*(1/9)。
以刮痕或污损特征为例,车牌上的字元可能会有刮痕或污损,且刮痕例如会以直线或曲线存在,且污损会以平面存在。因此,运算单元110可分别使用直线方程式或曲线方程式以模拟车牌上的刮痕,并以平面方程式模拟车牌上的污损。
以阴影特征为例,光源与环境作用会使车牌影像中的特定区域产生阴影。因此,运算单元110可将一亮度遮罩用于车牌影像以产生阴影的影像效果。举例来说,若亮度遮罩中的车牌影像的三列像素由上而下例如分别为a1~a3、b1~b3、及c1~c3,其中b2即为中心像素,如图3A所示。亮度遮罩例如可为一3x3矩阵,如图3C所示,其中亮度遮罩的三列系数由左而右、由上而下例如分别为h1~h3、i1~i3、j1~j3,其中h1~h3、i1~i3、j1~j3的数值可为大于1、或小于/等于1的正数,端视亮度遮罩的设计需求而定。因此,运算单元110可将在亮度遮罩中的车牌影像像素a1更新为a1=a1*h1,车牌影像像素a2更新为a2=a2*h2,依此类推。
以遮蔽特征为例,天气(沙尘、雨、雪)或是其他物体(落叶、昆虫等)覆盖于车牌上均会产生遮蔽效果。因此,因此,运算单元110可使用一或多个平面方程式做为遮罩以遮蔽车牌影像中的部分区域,且遮罩的大小以不破坏车牌上的字元为原则。
以过曝特征为例,来自车灯的光源无法抑制而造成车灯附近区域产生过曝的情况。因此,运算单元110可将一亮度遮罩用于车牌影像以产生过曝的影像效果。举例来说,若亮度遮罩中的车牌影像的三列像素由上而下例如分别为a1~a3、b1~b3、及c1~c3,其中b2即为中心像素,如图3A所示。亮度遮罩例如可为一3x3矩阵,如图3C所示,其中亮度遮罩的三列系数由左而右、由上而下例如分别为h1~h3、i1~i3、j1~j3,其中参数h1~h3、i1~i3、j1~j3的数值可为大于1、或小于/等于1的正数,端视亮度遮罩的设计需求而定,且用于过曝特征的亮度遮罩的参数数值与用于阴影特征的亮度遮罩的参数数值不同。因此,运算单元110可将在亮度遮罩中的车牌影像像素a1更新为a1=a1*h1,车牌影像像素a2更新为a2=a2*h2,依此类推。
以变形特征为例,摄影机的不同视角会对所获取的车牌影像产生三轴(X轴、Y轴、Z轴)旋转。因此,运算单元110可将一透视变换矩阵用于车牌影像以产生变形的影像效果。举例来说,运算单元110例如可依据方程式(1)以计算透视变换矩阵(transparenttransformation matrix):
运算单元110可依据需求设定在3x3矩阵中的参数a11~a33的数值,并将模拟物件(例如用不同字元所组成的模拟车牌)经过透视变换矩阵后(例如可将(x,y)的像素值用(x’/w’,y’/w’)的像素值代替)以模拟不同视角的车牌影像。
以色差特征为例,摄影机会受环境影响导致光源经过透镜成像产生颜色偏差,故运算单元110可对车牌影像进行一色彩空间转换以达到色差的影像效果。
在一实施例中,背景影像特征例如可为真实场景中所拍摄的影像所产生的噪声,且背景影像特征亦可称为环境噪声特征。背景影像特征例如包括:模糊、刮痕或污损、阴影、噪声、遮蔽、过曝、变形、及色差,但本发明并不限于此。各背景影像特征例如可分别使用不同的表示方式。需注意的是,在物件影像特征及背景影像特征中有部分影像特征的名称相同,这些名称相同的影像特征的处理方式类似,但是物件影像特征是针对各个训练用物件(例如:模拟车牌影像)进行处理,背景影像特征则是针对整张背景影像(可不包括车牌)或模拟合成影像进行处理,所以物件影像特征及背景影像特征在设定相应类型的遮罩、矩阵、方程式的参数也不同。
在一实施例中,相较于物件影像特征,背景影像特征还包含了噪声特征。举例来说,运算单元110可对待处理影像(例如训练用物件、背景影像或模拟合成影像)加入不同类型的噪声,例如椒盐噪声(salt-and-pepper noise)、高斯噪声(Gaussian noise)、斑点噪声(speckle noise)、或周期噪声(periodic noise)。关于椒盐噪声,运算单元110可设定椒盐噪声为待处理影像的影像面积的x%,并将椒盐噪声随机地加入于待处理影像中,其中x的数值可视实际情况调整。关于高斯噪声、斑点噪声、及周期噪声,运算单元110可利用现有技术将这些噪声加入待处理影像中,故其细节于此不再详述。
图4A-4F是显示依据本发明另一实施例中在物件识别流程中所使用的训练用物件的示意图。在另一实施例中,运算单元110所产生的训练用物件并不限定于模拟车牌影像。举例来说,训练用物件亦包括人体、车牌、零组件、及标志。在此实施例中,第一数据库135所存储的复数张物件场景影像,例如为包括一或多个人体姿势的人体影像,且运算单元110是由各物件场景影像中识别出人体区域并获取为物件影像,并将所获取物件影像存储至第三数据库137。
如图4A-4F所示,在第三数据库137中的物件影像例如可为在不同背景及获取位置所得到的人体影像。在此实施例中,预定规则例如为可直接使用第三数据库137中的物件影像以做为训练用物件,故运算单元110可直接由第三数据库137所存储的复数张物件影像中选择其中一者以做为训练用物件。在一些实施例中,预定规则例如可为以一预定方式或间距排列不同的一或多个物件影像以产生训练用物件,但本发明并不限于此。类似地,当欲识别的物件为文字、零组件、或标志等等,本发明亦可在第一数据库135中存储相应类型的物件场景影像,并由物件场景影像中获取出物件影像,并利用前述实施例的流程产生相应类型的模拟物件影像以形成模拟物件影像集合,再依据模拟物件影像集合以训练出待测物识别模型141。
图5是显示依据本发明一实施例中使用模拟物件影像的物件识别方法的流程图。请同时参考图1及图5。
在步骤S510,取得包括复数张物件影像的一物件影像集合以及包括复数张背景影像的一背景影像集合。物件影像集合例如存储于第三数据库137,上述物件影像例如可为包括一或多种类型的物件的影像,其中上述物件例如可为文字、人体、车牌、零组件、及标志等等,但本发明并不限于此。背景影像集合例如存储于第二数据库136。其中,上述背景影像例如可为在不同拍摄条件下所取得的任意真实场景的真实背景影像,并不限于待测场景的背景影像,且亦可不包括待测物件。在一些实施例中,上述背景影像还包括电脑视觉技术模拟出的虚拟背景影像。
在步骤S520,依据该物件影像集合及该背景影像集合产生包括复数张模拟物件影像的一模拟物件影像集合。举例来说,运算单元110是依据一预定规则由该一或多个物件影像组成一或多个训练用物件,进行一第一影像处理将一或多个物件影像特征加入该一或多个训练用物件的每一者,以产生一或多个模拟待测物件。其中运算单元110可依据一或多个模拟待测物件及背景影像集合以产生模拟物件影像集合。上述一或多个物件影像特征例如可由第一数据库135中的物件场景影像获取而得,或是通过以方程式、矩阵运算以模拟训练用物件的物件影像特征。运算单元110接着由第二数据库136中的背景影像集合取得第一背景影像,并进行一第二影像处理将该一或多个背景影像特征加入该第一背景影像以产生一模拟背景影像。运算单元110例如可依据一或多个模拟待测物件及模拟背景影像以产生模拟物件影像集合。接着,运算单元110是进行一影像合成处理将该模拟待测物件加入该模拟背景影像以产生一模拟合成影像,并进行该第二影像处理将该一或多个背景影像特征加入对该模拟合成影像以产生该等模拟物件影像的其中一者。
在步骤S530,依据该模拟物件影像集合以训练出一待测物识别模型。举例来说,在一实施例中,运算单元110可先通过模拟物件影像集合训练出待测物识别模型141(意即可不使用真实影像进行训练)。在另一实施例中,运算单元110可直接将真实物件影像加入模拟物件影像集合以产生一混合物件影像集合,并依据该混合物件影像集合以训练出该待测物识别模型。
在步骤S540,将由一待测场景所取得的一待测影像输入该待测物识别模型以取得一物件识别结果。举例来说,使用者可先将各测试影像及正确物件识别结果预先存储于第五数据库139中。运算单元110在初始阶段训练出待测物识别模型141后,即可将第五数据库139中的各测试影像输入待测物识别模型141以产生物件识别结果,并将所产生的物件识别结果与预先存储的正确物件识别结果进行比对。若所产生的物件识别结果与预先存储的正确物件识别结果不相符(意即物件识别结果为”失败”)。此外,当待测物识别模型141对待测影像的该物件识别结果为失败时,运算单元110可将该待测影像加入该模拟物件影像集合以产生一混合物件影像集合,并依据该混合物件影像集合及该待测影像的一正确物件识别结果再训练该待测物识别模型141。
综上所述,本发明是提供一种使用模拟物件影像的物件识别系统及其方法,可使用少量的数据影像抽取物件特征与环境特征,并以此产生已标注的大量的模拟物件影像与模拟背景影像,提高训练数据集合(例如模拟物件影像集合)的多样性。由于模拟数据贴近实际数据,因此本方法可以模拟数据为主,真实数据为辅,大幅降低数据准备的时间并改善数据取得不易时所遇到的窘境。
本发明的方法,或特定形态或其部分,可以以程序码的形态包含于实体媒体,如软碟、光盘片、硬盘、或是任何其他机器可读取(如电脑可读取)存储媒体,其中,当程序码被机器,如电脑载入且执行时,此机器变成用以参与本发明的装置或系统。本发明的方法、系统与装置也可以以程序码形态通过一些传送媒体,如电线或电缆、光纤、或是任何传输形态进行传送,其中,当程序码被机器,如电脑接收、载入且执行时,此机器变成用以参与本发明的装置或系统。当在一般用途处理器实作时,程序码结合处理器提供一操作类似于应用特定逻辑电路的独特装置。
本发明虽以优选实施例公开如上,然其并非用以限定本发明的范围,任何所属技术领域中技术人员,在不脱离本发明的构思和范围内,当可做些许的变动与润饰,因此本发明的保护范围当视权利要求所界定者为准。
Claims (14)
1.一种使用模拟物件影像的物件识别方法,该方法包括:
(A)取得包括一或多张物件影像的一物件影像集合以及包括一或多张背景影像的一背景影像集合;
(B)依据该物件影像集合及该背景影像集合产生包括复数张模拟物件影像的一模拟物件影像集合;
(C)依据该模拟物件影像集合以训练出一待测物识别模型;以及
(D)将由一待测场景所取得的一待测影像输入该待测物识别模型以取得一物件识别结果。
2.如权利要求1所述的使用模拟物件影像的物件识别方法,其中该步骤(B)包括:
依据一预定规则由该一或多个物件影像组成一或多个训练用物件;
进行一第一影像处理将一或多个物件影像特征加入该一或多个训练用物件的每一者,以产生一或多个模拟待测物件;以及
依据该一或多个模拟待测物件及该背景影像集合以产生该模拟物件影像集合。
3.如权利要求2所述的使用模拟物件影像的物件识别方法,其中该一或多个物件影像特征是由该等物件影像获取而得。
4.如权利要求2所述的使用模拟物件影像的物件识别方法,其中该步骤(B)还包括:
由该一或多张背景影像取得一第一背景影像;
进行一第二影像处理将该一或多个背景影像特征加入该第一背景影像以产生一模拟背景影像;以及
依据该模拟背景影像及该一或多个模拟待测物件以产生该模拟物件影像集合。
5.如权利要求4所述的使用模拟物件影像的物件识别方法,其中该步骤(B)还包括:
进行一影像合成处理将该模拟待测物件加入该模拟背景影像以产生一模拟合成影像;以及
进行该第二影像处理将该一或多个背景影像特征加入对该模拟合成影像以产生该等模拟物件影像的其中一者。
6.如权利要求1所述的使用模拟物件影像的物件识别方法,还包括:
(E)当该物件识别结果为失败时,将该待测影像加入该模拟物件影像集合以产生一混合物件影像集合;以及
(F)依据该混合物件影像集合及该待测影像的一正确物件识别结果再训练该待测物识别模型。
7.如权利要求1所述的使用模拟物件影像的物件识别方法,其中该步骤(C)还包括:
将一或多张真实物件影像加入该模拟物件影像集合以产生一混合物件影像集合;以及
依据该混合物件影像集合以训练出该待测物识别模型。
8.一种使用模拟物件影像的物件识别系统,包括:
一非易失性存储器,用以存储一物件识别程序;以及
一运算单元,用以执行该物件识别程序以进行下列步骤:
(A)取得包括复数张物件影像的一物件影像集合以及包括复数张背景影像的一背景影像集合;
(B)依据该物件影像集合及该背景影像集合产生包括复数张模拟物件影像的一模拟物件影像集合;
(C)依据该模拟物件影像集合以训练出一待测物识别模型;以及
(D)将由一待测场景所取得的一待测影像输入该待测物识别模型以取得一物件识别结果。
9.如权利要求8所述的使用模拟物件影像的物件识别系统,其中在该步骤(B),该运算单元更依据一预定规则由该一或多个物件组成一或多个训练用物件,并进行一第一影像处理将该一或多个物件影像特征加入该一或多个训练用物件的每一者以产生一或多个模拟待测物件,且该运算单元更依据该一或多个模拟待测物件及该背景影像集合以产生该模拟物件影像集合。
10.如权利要求9所述的使用模拟物件影像的物件识别系统,其中该一或多个物件影像特征是由该等物件影像获取而得。
11.如权利要求9所述的使用模拟物件影像的物件识别系统,其中在该步骤(B),该运算单元更由该等背景影像取得一第一背景影像,并进行一第二影像处理将该一或多个背景影像特征加入该第一背景影像以产生一模拟背景影像,且该运算单元更依据该模拟背景影像及该一或多个模拟待测物件以产生该模拟物件影像集合。
12.如权利要求11所述的使用模拟物件影像的物件识别系统,其中在该步骤(B),该运算单元更进行一影像合成处理将该模拟待测物件加入该模拟背景影像以产生一模拟合成影像,并进行该第二影像处理将该一或多个背景影像特征加入对该模拟合成影像以产生该等模拟物件影像的其中一者。
13.如权利要求8所述的使用模拟物件影像的物件识别系统,其中,该运算单元更执行下列步骤:(E)当该物件识别结果为失败时,将该待测影像加入该模拟物件影像集合以产生一混合物件影像集合;以及(F)依据该混合物件影像集合及该待测影像的一正确物件识别结果再训练该待测物识别模型。
14.如权利要求8所述的使用模拟物件影像的物件识别系统,其中在该步骤(C),该运算单元更将一或多张真实物件影像加入该模拟物件影像集合以产生一混合物件影像集合,并依据该混合物件影像集合以训练出该待测物识别模型。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811399155.1A CN111209783A (zh) | 2018-11-22 | 2018-11-22 | 使用模拟物件影像的物件识别系统及其方法 |
US16/387,910 US20200167609A1 (en) | 2018-11-22 | 2019-04-18 | Object recognition system and method using simulated object images |
SG10201906401VA SG10201906401VA (en) | 2018-11-22 | 2019-07-10 | Object recognition system and method using simulated object images |
EP19189207.4A EP3657390A1 (en) | 2018-11-22 | 2019-07-30 | Object recognition system and method using simulated object images |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811399155.1A CN111209783A (zh) | 2018-11-22 | 2018-11-22 | 使用模拟物件影像的物件识别系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111209783A true CN111209783A (zh) | 2020-05-29 |
Family
ID=67513427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811399155.1A Pending CN111209783A (zh) | 2018-11-22 | 2018-11-22 | 使用模拟物件影像的物件识别系统及其方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200167609A1 (zh) |
EP (1) | EP3657390A1 (zh) |
CN (1) | CN111209783A (zh) |
SG (1) | SG10201906401VA (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116687A (zh) * | 2020-09-30 | 2020-12-22 | 上海商米科技集团股份有限公司 | 一种基于虚拟车牌的面向移动端部署的车牌识别方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190504B (zh) * | 2018-08-10 | 2020-12-22 | 百度在线网络技术(北京)有限公司 | 汽车图像数据的处理方法、装置及可读存储介质 |
JP6843362B1 (ja) * | 2020-05-29 | 2021-03-17 | ニューラルポケット株式会社 | 情報処理システム、情報処理装置、端末装置、サーバ装置、プログラム、又は方法 |
CN111832568B (zh) * | 2020-06-12 | 2024-01-12 | 北京百度网讯科技有限公司 | 车牌识别方法、车牌识别模型的训练方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090400A (zh) * | 2016-11-23 | 2018-05-29 | 中移(杭州)信息技术有限公司 | 一种图像文本识别的方法和装置 |
CN108268871A (zh) * | 2018-02-01 | 2018-07-10 | 武汉大学 | 一种基于卷积神经网络的端到端的车牌识别方法和系统 |
US10049308B1 (en) * | 2017-02-21 | 2018-08-14 | A9.Com, Inc. | Synthesizing training data |
CN108460414A (zh) * | 2018-02-27 | 2018-08-28 | 北京三快在线科技有限公司 | 训练样本图像的生成方法、装置及电子设备 |
US20180330198A1 (en) * | 2017-05-14 | 2018-11-15 | International Business Machines Corporation | Systems and methods for identifying a target object in an image |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8588470B2 (en) * | 2011-11-18 | 2013-11-19 | Xerox Corporation | Methods and systems for improved license plate signature matching by similarity learning on synthetic images |
US9501707B2 (en) * | 2015-04-16 | 2016-11-22 | Xerox Corporation | Method and system for bootstrapping an OCR engine for license plate recognition |
-
2018
- 2018-11-22 CN CN201811399155.1A patent/CN111209783A/zh active Pending
-
2019
- 2019-04-18 US US16/387,910 patent/US20200167609A1/en not_active Abandoned
- 2019-07-10 SG SG10201906401VA patent/SG10201906401VA/en unknown
- 2019-07-30 EP EP19189207.4A patent/EP3657390A1/en not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090400A (zh) * | 2016-11-23 | 2018-05-29 | 中移(杭州)信息技术有限公司 | 一种图像文本识别的方法和装置 |
US10049308B1 (en) * | 2017-02-21 | 2018-08-14 | A9.Com, Inc. | Synthesizing training data |
US20180330198A1 (en) * | 2017-05-14 | 2018-11-15 | International Business Machines Corporation | Systems and methods for identifying a target object in an image |
CN108268871A (zh) * | 2018-02-01 | 2018-07-10 | 武汉大学 | 一种基于卷积神经网络的端到端的车牌识别方法和系统 |
CN108460414A (zh) * | 2018-02-27 | 2018-08-28 | 北京三快在线科技有限公司 | 训练样本图像的生成方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
慎利;方灿明;王继成;戴延帅;: "场景解译框架下的高铁沿线建筑物自动识别" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116687A (zh) * | 2020-09-30 | 2020-12-22 | 上海商米科技集团股份有限公司 | 一种基于虚拟车牌的面向移动端部署的车牌识别方法 |
Also Published As
Publication number | Publication date |
---|---|
SG10201906401VA (en) | 2020-06-29 |
US20200167609A1 (en) | 2020-05-28 |
EP3657390A1 (en) | 2020-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Single image rain streak decomposition using layer priors | |
CN111209783A (zh) | 使用模拟物件影像的物件识别系统及其方法 | |
CN106778928B (zh) | 图像处理方法及装置 | |
US10635935B2 (en) | Generating training images for machine learning-based objection recognition systems | |
CN107967693B (zh) | 视频关键点处理方法、装置、计算设备及计算机存储介质 | |
US9519968B2 (en) | Calibrating visual sensors using homography operators | |
US11893789B2 (en) | Deep neural network pose estimation system | |
CN111311523B (zh) | 图像处理方法、装置、系统和电子设备 | |
Lee et al. | Simultaneous localization, mapping and deblurring | |
DE102021119726A1 (de) | Dreidimensionale objektrekonstruktion aus einem video | |
US20190019342A1 (en) | Deformable-Surface Tracking Based Augmented Reality Image Generation | |
Beyeler | OpenCV with Python blueprints | |
US8629868B1 (en) | Systems and methods for simulating depth of field on a computer generated display | |
US20220335682A1 (en) | Generating physically-based material maps | |
CN111383252B (zh) | 多相机目标追踪方法、系统、装置及存储介质 | |
Temel et al. | Challenging environments for traffic sign detection: Reliability assessment under inclement conditions | |
CN114170227B (zh) | 产品表面缺陷检测方法、装置、设备及存储介质 | |
CN111008935A (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
TWI672639B (zh) | 使用模擬物件影像之物件辨識系統及其方法 | |
CN115008454A (zh) | 一种基于多帧伪标签数据增强的机器人在线手眼标定方法 | |
JP2018133110A (ja) | 画像処理装置及び画像処理プログラム | |
CN115578286A (zh) | 高动态范围的混合曝光成像方法和装置 | |
Zhang et al. | Color-constrained dehazing model | |
Han et al. | Zero-shot learning for reflection removal of single 360-degree image | |
Carbajal et al. | Single image non-uniform blur kernel estimation via adaptive basis decomposition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200529 |