CN111126513B - 一种通用物体实时学习、识别系统及其学习、识别方法 - Google Patents
一种通用物体实时学习、识别系统及其学习、识别方法 Download PDFInfo
- Publication number
- CN111126513B CN111126513B CN202010066559.XA CN202010066559A CN111126513B CN 111126513 B CN111126513 B CN 111126513B CN 202010066559 A CN202010066559 A CN 202010066559A CN 111126513 B CN111126513 B CN 111126513B
- Authority
- CN
- China
- Prior art keywords
- block
- color
- knowledge
- blocks
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种通用物体实时学习、识别系统及其学习、识别方法,系统包括纠错模块,组织编码模块,深度学习模块,数据库管理模块和图像处理模块,方法是首先获取并处理图像数据,检测图像中物体的位置信息,获取标注框box,再对box内图像的颜色块及颜色块特征进行提取,编码、组织、检索,从而识别出物体。本发明基于特定的图像特征及二进制的编码方式,将获取到的图像分割为简单的形状组合,并将提取到的特征分类细化,不仅提高了系统的概括和推广能力,而且每次在获取到新的物体图像分类后,可以持续提取特征学习,并在后续过程中识别,不需要人为的去获取大量的样本进行长时间的训练,最终能实现实时的对图像中的物体进行持续的跟踪、学习和识别。
Description
技术领域
本发明涉及图像识别技术领域,特别涉及一种通用物体实时学习、识别系统及其学习、识别方法。
背景技术
图像识别技术是指对图像进行对象识别,以识别各种不同模式的目标和对象的技术。图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。文字识别的研究从1950年开始,一般为识别字母、数字和符号,从印刷文字识别到手写文字识别,应用非常广泛;数字图像处理与识别的研究很早,至今也有近50年历史,数字图像与模拟图像相比具有存储、传输方便可压缩,传输过程中不易失真、处理方便等巨大优势,这些都为图像识别技术的发展提供了强大的动力。
物体识别主要指对三维世界的客体及环境的感知和认识,属于高级的计算机视觉范畴,它以数字图像处理与识别为基础,并结合人工智能、系统学等学科的研究方向,现代图像识别技术的一个不足就是自适应性能差,一旦目标图像被较强的噪声污染或是目标图像有较大的残缺时,往往得不出理想的结果。
近年来,人工智能方面相关的理论越来越丰富,基于人工神经网络的图像识别技术也获得了非常广泛的应用,人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。以CNN(卷积神经网络)为例,由输入层、卷积层、激活函数、池化层、全连接层组成,即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层)。输入层输入图像;卷积层,卷积运算可提取出图像特征,通过卷积运算可使得原始信号的某些特征增强,并且降低噪声;池化层,即对图像进行下采样,可以减少数据处理量同时保留有用信息,采样可以混淆特征的具体位置,因为某个特征找出来之后,它的位置已经不重要了,只需要这个特征和其他特征的相对位置,即可应对形变和扭曲带来的同类物体的变化;全连接层,连接所有的特征,将输出值送给分类器(如softmax分类器),在分类器中将当前图像进行分类打分,筛选出得分高的分类即为当前的识别结果。
然而基于神经网络的图像识别算法,例如深度学习的图像识别算法,主要还有以下不足之处:
1.需要大量的样本图进行长时间的模型训练,耗时麻烦;
2.只能识别经过训练的物体分类,针对性强,扩展性差,即无法做到识别任意物体,识别范围只在样本范围内,若需要识别新的物体种类,还需要经过对该物体种类样本重新做大量训练才可实现;
3.识别准确度依赖于样本,若样本中没有包含某种物体特征,识别该物体的准确性便会降低;
4.物体样本种类过多会导致识别准确性下降;
5.算法过程无法解释,例如,当你将一张猫的图像放入神经网络,预测结果显示它是一辆汽车,这种结果无法解释。
发明内容
本发明要解决的技术问题是:提供一种可实时进行物体识别且不限制物体种类的实时学习、识别系统及其学习、识别方法,无限制学习新的知识并存储,只要经过学习的内容并不断的强化,便可在下次见到的时候识别出该物体,以克服已有技术所存在的上述不足。
本发明采取的技术方案是:一种通用物体实时学习、识别系统,包括:
纠错模块,在系统识别到错误的名称后,用于将错误的名称纠正;
组织编码模块,用于对特征进行编码、组织;
深度学习模块,用于检测物体的标注框;
数据库管理模块,用于管理数据库里的信息、知识;
图像处理模块,用于提取颜色块、提取特征信息并进行跟踪处理;
所述纠错模块包括命名模块;
所述组织编码模块包括组织模块,知识匹配模块和编码模块;
所述深度学习模块包括标注框检测模块;
所述数据库管理模块包括记忆管理模块和知识管理模块;
所述图像处理模块包括特征处理模块和跟踪处理模块。
相关的另一技术方案是:一种通用物体实时学习、识别方法,它是运用本发明上述的通用物体实时学习、识别系统来实现图像物体学习和识别的方法,其具体步骤为:
S1:系统启动,获取图像原始数据;
S2:处理图像数据,采用神经网络结构算法检测图像中物体的位置信息,得到一个或多个物体的位置信息,即标注框box,形成包含多个标注框的图像;
S3:对标注框box内图像进行颜色块的提取,得到颜色块特征信息;
S4:根据得到的多个物体box和box内提取到的颜色块特征信息,将当前帧的标注框、颜色块与前面N帧的标注框、颜色块逐一做跟踪匹配,若跟踪匹配成功且标注框已做过识别,则标识识别结果,若有一个box匹配失败,则删除已匹配的标注框,匹配结束;
S5:筛选焦点box,对该box区域颜色块进行特征提取;
S6:将步骤S5中得到的颜色块特征做编码,组织成知识存储到数据库中,同时在数据库中进行检索、匹配,若有匹配结果,则将当前颜色块所属标注框设置为已识别,并标识识别结果,若无,则将当前颜色块所属标注框设置为已处理,为该识别结果添加编号,从而不断实现搜索识别和学习。
其进一步的技术方案是:所述步骤S2具体包括以下步骤:
S201:对图像数据进行滤波、采样;
S202:采用神经网络模型YOLOv3算法模型,Darknet-53结构(含有53个卷积层),进行多尺度预测,输出3层,每层均将输入图像分成S×S个格子;
S203:物体的中心位置坐标所落入的格子,检测出该物体;
S204:每个格子预测B个box及其置信度;
S205:根据得到的多个box的置信度,筛选出置信度高的box,将图像所有格子处理完后,得到多个box。
更进一步:所述步骤S3具体包括以下步骤:
S301:采用高斯滤波算法,对box(物体的矩形框)内的图像信息进行滤波,以3x3像素范围进行卷积,即以(0,0)为中心点,计算得到8邻域内像素所占比例,将中心点和8邻域内对应点的像素值大小与模板中对应点的比例相乘,得到的9个结果再相加得到最终该点的像素值大小;
S302:对每个box进行图像分割,根据颜色通道HSV提取颜色块;
S303:计算各颜色块的初步特征,即位置信息(大小、中心点)及颜色(HSV)。
更进一步:所述步骤S4具体包括以下步骤:
S401:根据box的位置信息,将当前帧与前面N帧逐一进行跟踪匹配,判断与前面N帧的box数据是否在一定的变化范围内,若是,则进入下一步;
S402:对box内的颜色块逐一进行匹配,判断块大小、块位置、块颜色的数据是否都在一定的变化范围内,若是,则该颜色块匹配成功,进入下一步;
S403:将匹配成功的块的数量除以该box内块的总数得到相应的匹配系数S,即S =匹配的块数量/块总数量;
S404:判断匹配系数S的值是否大于设定的阈值,若是,则box匹配成功;
S405:匹配完成后,对通过跟踪识别的物体标识其识别结果;
S406:判断是否有box匹配失败,若是,则进入步骤S407,若否,则进入步骤S408;
S407:则将匹配成功的box从box集合中删除;
S408:匹配结束。
更进一步:所述步骤S5具体包括以下步骤:
S501:从步骤S407删剩下的box集合里,选取移动物体box,若无移动物体box,则按大小顺序选取,获得焦点box;
S502:对焦点box区域的颜色块进行处理,根据块相邻距离及颜色像素量化区域的距离大小进行块合并测试;
S503:获取多个颜色块的颜色值HSV,其中:
H=块像素点的H值和/点数量,
S=块像素点的S值和/点数量,
V=块像素点的V值和/点数量,
取平均值即为该焦点box颜色块特征HSV;
S504:获取颜色块纹理信息LBP;
S505:基于颜色块的外轮廓,获取颜色块角点信息;
S506:基于轮廓,根据角点位置,以两个角点切分一条线段的方法得到多条线段,提取每条线段的特征数据,从而获取颜色块线段特征。
更进一步:所述步骤S6具体包括以下步骤:
S601:对焦点box里的多个颜色块特征进行编码,成为知识写入数据库;
S602:逐个判断知识是否有经验,即计数器是否达到阈值,其中计数器为每个颜色块的编码出现的次数累计,若是,则进入步骤S606,若否,则进入步骤S603;
S603:根据角点位置,对块进行切块处理,得到多个颜色块子块;
S604:将得到的多个颜色块子块按顺序逐个进行组织编码,再逐个判断子块是否有经验,若是,则进入步骤S605,若否,则进入步骤S606;
S605:删除切块前的原块,该原块切块后的多个子块加入块集合,进入步骤S606;
S606:选择一组织编码超过阈值的大颜色块a1和一组织编码超过阈值的小颜色块b1,该小颜色块b1的距离接近大颜色块a1,以大颜色块a1外接矩形为中心、一倍长宽为边界包含小颜色块b1,将大颜色块a1的组织编码与小颜色块b1的组织编码组织起来,成为一个新的颜色块,并获得一个新的组织编码;
S607:用步骤S606组织获得的编码检索数据库,其中编码有多层,每生成一层检索一次数据库,得到该层知识在数据库的计数器,多层检索后获得计数器最大的一个组织(a1,b1);
S608:根据组织块(a1,b1)的特征编码,在数据库中进行检索、匹配,找到包含该特征编码的其他组织块及其特征信息,即相关,若无相关,则进入步骤S609,若有相关,则进入步骤S610;
S609:匹配无结果,将当前颜色块设置为已处理;
S610:若匹配的相关数量唯一,则查找该知识的物体名称,将当前颜色块所属标注框设置为已识别,标识名称,更新记忆数据,若匹配的相关数量小于等于相关数量阈值,则将相关的组合特征进行比对,并查找未能组织的块的相关知识,将相关数据中最多的物体名称作为该识别结果,将当前颜色块所属标注框设置为已识别,标识名称,更新记忆数据,若匹配的相关数量大于阈值,则继续与视野内的颜色块两两组织;
S611:每组织完一次更新一次视野,直到将焦点box内所有颜色块都组织完;
S612:若焦点box内所有颜色块匹配无结果,则该标注框匹配无结果,将当前标注框设置为已处理,并为该标注框添加编号;
S613:组织、匹配结束。
更进一步:所述颜色块的组织编码,采用归一化算法,所述归一化包括以下方式:
(1)编码穷举归一化,若有ABC三个颜色块,编码顺序为ABC,穷举后有ACB,BAC,BCA,CAB,CBA编码知识生成,将这些知识全部归一化成ID最小的组织方式,即若ABC为最小,则归一化为ABC,同时增加ABC编码知识的计数器值,以ABC为基础继续往下组织;
(2)知识(名称)归一化,当通过跟踪的方式得到的两个知识为同一物体时,若两个知识编码所属的物体ID不同,文本对象表中物体ID也对应不同的名字,则不修改编码知识库中对应编码知识所属的物体ID,若有相同的名字或只有一个有名字,则编码知识库中,两个编码知识所对应的所属的物体ID,将最大的物体ID修改为最小的物体ID,同时,修改不同的所属的物体ID对应的编码知识ID,将两个数据中较大的知识ID修改为较小的那个知识ID,若其中一条有名称时,将没有名称的填入相同的名称;
(3)切块形状归一化,当原颜色块没有经验,通过切块得到经验时,将原颜色块的形状特征编码知识与切块的组织编码知识进行归一化,即若有原始颜色块A,可以切为两个颜色块B和C,则将块A归一化为B和C的相加,当切块后的知识达到计数器阈值时,即使原块组织知识计数器未达到阈值也强行将其形状知识组织完,并将其计数器数值设置到阈值。
由于采用上述技术方案,本发明之一种通用物体实时学习、识别系统及其学习、识别方法具有如下有益效果:
1.本发明基于特定的图像特征及二进制的编码方式,将获取到的图像分割为简单的形状组合,并将提取到的特征分类细化,即将任意复杂的物体进行简化、抽象,提高了系统的概括和推广能力;
2.本发明在组织编码过程中,编码方式加入归一化算法,即将几个编码归类为其中一个编码,大大地提高了物体识别率;
3.本发明具有持续学习能力,因此能不断的对新物体进行学习且不会对原有数据造成任何影响,不需要重新训练新模型或者做迁移学习;
4.本发明系统具有通过部分特征唯一确认物体的方式,因此不需要成千上万的样本,只需要数十张物体样本,即可学习大部分的物体特征,大大提高了机器视觉的学习效率,以及大大降低了搜集样本的人力成本,而且系统在识别过程中会持续的学习,如此将会学到越来越多、越详细的特征,达到小样本高识别率的目的;
5.本发明缩短了物体学习时间成本,由于系统只需要少量的样本就能学习物体,因此将大大缩减时间成本,而非深度学习的长时间训练模型。
下面结合附图和实施例对本发明之一种通用物体实时学习、识别系统及其学习、识别方法的技术特征作进一步的说明。
附图说明
图1:本发明之一种通用物体实时学习、识别系统结构框图;
图2:本发明实施例二之一种通用物体实时学习、识别方法流程图;
图3:本发明实施例二之颜色块的编码、组织、检索和识别流程图;
图4:本发明实施例二之获取标注框box的图像示意图。
文中英文及缩略语说明:
YOLOv3,You Only Look Once v3,一种目标检测模型;
Darknet-53,含有53个卷积层的神经网络结构;
box ,标注框;
HSV,颜色值;
LBP,颜色块的纹理信息;
ANNs,Artificial Neural Networks,人工神经网络;
NNs,Neural Networks,神经网络;
Connection Model,连接模型;
CNN,Convolutional Neural Networks,卷积神经网络;
INPUT,Input Layer,输入层;
CONV,Convolutional layer,卷积层;
RELU,激活函数;
POOL,Pool layer,池化层;
FC- Fully,Connected layer,全连接层;
Ground truth,正确打标记的数据;
confidence score,置信度。
具体实施方式
实施例一
一种通用物体实时学习、识别系统,如图1所示,包括:
纠错模块,在系统识别到错误的名称后,用于将错误的名称纠正;
组织编码模块,用于对特征进行编码、组织;
深度学习模块,用于检测物体的标注框;
数据库管理模块,用于管理数据库里的信息、知识;
图像处理模块,用于提取颜色块、提取特征信息并进行跟踪处理;
所述纠错模块包括命名模块;
所述组织编码模块包括组织模块,知识匹配模块和编码模块;
所述深度学习模块包括标注框检测模块;
所述数据库管理模块包括记忆管理模块和知识管理模块;
所述图像处理模块包括特征处理模块和跟踪处理模块。
实施例二
如图2所示,一种通用物体实时学习、识别方法,它是运用实施例一所述的通用物体实时学习、识别系统来实现图像物体学习和识别的方法,其具体步骤为:
S1:系统启动,获取图像原始数据,可通过摄像头采集实时图像数据,也可通过传输等方式获取视频数据;
S2:处理图像数据,采用神经网络结构算法检测图像中物体的位置信息,得到一个或多个物体的位置信息,即标注框box,形成包含多个标注框的图像,如图4所示;
S3:对标注框box内图像进行颜色块的提取,得到颜色块特征信息;
S4:根据得到的多个物体box和box内提取到的颜色块特征信息,进行跟踪处理,将当前帧的标注框、颜色块与前面N帧的标注框、颜色块逐一做跟踪匹配,若跟踪匹配成功且标注框已做过识别,则标识识别结果,若有一个box匹配失败,则删除已匹配的标注框,匹配结束;
S5:筛选焦点box,对该box区域颜色块进行特征提取;
S6:将步骤S5中得到的颜色块特征做编码,组织成知识存储到数据库中,同时在数据库中进行检索、匹配,若有匹配结果,则将当前颜色块所属标注框设置为已识别,并标识识别结果,若无,则将当前颜色块所属标注框设置为已处理,为该识别结果添加编号,从而在编码过程中不断实现搜索识别和学习。
所述步骤S2具体包括以下步骤:
S201:将图像数据输入神经网络前,对图像数据进行滤波、采样,使之满足神经网络模型需求;
S202:采用神经网络模型YOLOv3算法模型,Darknet-53结构(含有53个卷积层),进行多尺度预测,输出3层,每层均将输入图像分成S×S个格子,分别为13×13,26 ×26,52×52等,可以更精确的获取box,增加对小目标的识别能力;
S203:物体Ground truth的中心位置坐标所落入的格子,负责检测出该物体;
S204:每个格子预测B个box及其置信度(confidence score),以及C个类别概率,box亦为bounding box,bounding box信息(x,y,w,h)为物体的中心位置相对格子位置的偏移以及宽度和高度,均被归一化;
S205:根据得到的多个box的置信度,筛选出置信度高的box,其中置信度反映是否包含物体以及包含物体情况下位置的准确性,将图像所有格子处理完后,得到多个box。
所述步骤S3具体包括以下步骤:
S301:采用高斯滤波算法,对box(物体的矩形框)内的图像信息进行预处理,即滤波(噪声过滤),以3x3像素范围进行卷积,即以(0,0)为中心点,计算得到8邻域内像素所占比例,将中心点和8邻域内对应点的像素值大小与模板中对应点的比例相乘,得到的9个结果再相加得到最终该点的像素值大小;
S302:对每个box进行图像分割,即根据颜色通道HSV提取颜色块;
S303:计算各颜色块的初步特征,即位置信息(大小、中心点)及颜色(HSV)等。
所述步骤S4具体包括以下步骤:
S401:由于获取的是实时视频,可存储得到多帧图像,每帧图像经过上述步骤得到box及其内部信息,再根据box的位置信息,将当前帧与前面N帧逐一进行跟踪匹配,判断与前面N帧的box数据是否在一定的变化范围内,若是,则进入下一步;
S402:对box内的颜色块逐一进行匹配,判断块大小、块位置、块颜色的数据是否都在一定的变化范围内,若是,则该颜色块匹配成功,进入下一步;
S403:将匹配成功的块的数量除以该box内块的总数得到相应的匹配系数S,即S =匹配的块数量/块总数量;
S404:判断匹配系数S的值是否大于设定的阈值m,若是,则box匹配成功,所述m的取值范围为0.6~0.8;
S405:匹配完成后,对通过跟踪识别的物体标识其识别结果;
S406:判断是否有box匹配失败,若是,则进入步骤S407,若否,则进入步骤S408;
S407:则将匹配成功的box从box集合中删除;
S408:匹配结束。
所述步骤S5具体包括以下步骤:
S501:从步骤S407删剩下的box集合里,选取移动物体box,若无移动物体box,则按大小顺序选取,获得焦点box,作为需要识别或者学习的对象;
S502:对焦点box区域的颜色块进行处理,根据块相邻距离及颜色像素量化区域的距离大小进行块合并测试,最后得到所有颜色块的提取特征信息,如步骤S503~S506;
S503:获取多个颜色块的颜色值HSV,其中:
H=块像素点的H值和/点数量,
S=块像素点的S值和/点数量,
V=块像素点的V值和/点数量,
取平均值即为该焦点box颜色块特征HSV;
S504:获取颜色块纹理信息LBP;
S505:基于颜色块的外轮廓,获取颜色块角点信息;
S506:基于轮廓,根据角点位置,以两个角点切分一条线段的方法得到多条线段,提取每条线段的特征数据,从而获取颜色块线段特征。
如图3所示,所述步骤S6具体包括以下步骤:
S601:对焦点box里的多个颜色块特征进行编码,成为知识写入数据库;
S602:由于块的结构有简单有复杂,为了提高识别效率及识别精度,逐个判断知识是否有经验,即计数器是否达到阈值n,其中计数器为每个颜色块的编码出现的次数累计,所述n的取值范围为30~50,若是,则进入步骤S606,若否,则进入步骤S603;
S603:根据角点位置,对块进行切块处理,得到多个颜色块子块,即将复杂的物体简单化,以多个简单的形状拼接为一个复杂的物体;
S604:将得到的多个颜色块子块按顺序逐个进行组织编码,其中顺序依赖于计数器及颜色块大小和颜色块与颜色块之间的距离,再逐个判断子块是否有经验,若是,则进入步骤S605,若否,则进入步骤S606;
S605:删除切块前的原块,该原块切块后的多个子块加入块集合,进入步骤S606;
S606:选择一组织编码超过阈值n的大颜色块a1和一组织编码超过阈值n的小颜色块b1,该小颜色块b1的距离接近大颜色块a1,以大颜色块a1外接矩形为中心、一倍长宽为边界包含小颜色块b1,将大颜色块a1的组织编码与小颜色块b1的组织编码组织起来,成为一个新的颜色块,并获得一个新的组织编码;
S607:用步骤S606组织获得的编码检索数据库,其中编码有多层,每生成一层检索一次数据库,得到该层知识在数据库的计数器,多层检索后获得计数器最大的一个组织(a1,b1);
S608:根据组织块(a1,b1)的特征编码,在数据库中进行检索、匹配,找到包含该特征编码的其他组织块及其特征信息,即相关,若无相关,则进入步骤S609,若有相关,则进入步骤S610;
S609:匹配无结果,将当前颜色块设置为已处理;
S610:若匹配的相关数量唯一,则查找该知识的物体名称,将当前颜色块所属标注框设置为已识别,标识名称,更新记忆数据,若匹配的相关数量小于等于相关数量阈值3,则将相关的组合特征进行比对,并查找未能组织的块的相关知识,将相关数据中最多的物体名称作为该识别结果,将当前颜色块所属标注框设置为已识别,标识名称,更新记忆数据,若匹配的相关数量大于阈值3,则继续与视野内的颜色块两两组织,在组织到几个特征的某层编码时,无法继续组织的情况下得到几个相关结果,与这几个相关结果进行匹配,例如有多层编码,逐渐加深编码层数比较匹配度,或者以未组织的特征编码与相关结果中未组织的特征编码做匹配,综合匹配结果选择匹配度最大的一个作为识别结果;
S611:每组织完一次更新一次视野,直到将焦点box内所有颜色块都组织完,从而在组织的过程实现持续学习和识别模式下的检索,即不断的学习新特征知识和识别物体名称;
S612:若焦点box内所有颜色块匹配无结果,则该标注框匹配无结果,将当前标注框设置为已处理,并为该标注框添加编号;
S613:组织、匹配结束。
所述步骤S601颜色块的组织编码,采用归一化算法,所述归一化包括以下方式:
(1)编码穷举归一化,若有ABC三个颜色块,编码顺序为ABC,穷举后有ACB,BAC,BCA,CAB,CBA编码知识生成,将这些知识全部归一化成ID最小的组织方式,即若ABC为最小,则归一化为ABC,同时增加ABC编码知识的计数器值,以ABC为基础继续往下组织;
(2)知识(名称)归一化,当通过跟踪的方式得到的两个知识为同一物体时,若两个知识编码所属的物体ID不同,文本对象表中物体ID也对应不同的名字,则不修改编码知识库中对应编码知识所属的物体ID,若有相同的名字或只有一个有名字,则编码知识库中,两个编码知识所对应的所属的物体ID,将最大的物体ID修改为最小的物体ID,同时,修改不同的所属的物体ID对应的编码知识ID,将两个数据中较大的知识ID修改为较小的那个知识ID,若其中一条有名称时,将没有名称的填入相同的名称;
(3)切块形状归一化,当原颜色块没有经验,通过切块得到经验时,将原颜色块的形状特征编码知识与切块的组织编码知识进行归一化,即若有原始颜色块A,可以切为两个颜色块B和C,则将块A归一化为B和C的相加,当切块后的知识达到计数器阈值时,即使原块组织知识计数器未达到阈值也强行将其形状知识组织完,并将其计数器数值设置到阈值。
以上实施例仅为本发明的较佳实施例,本发明的结构和方法并不限于上述实施例列举的形式,凡在本发明的精神和原则之内所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种通用物体实时学习、识别方法,其特征在于:其具体步骤为:
S1:系统启动,获取图像原始数据;
S2:处理图像数据,采用神经网络结构算法检测图像中物体的位置信息,得到一个或多个物体的位置信息,即标注框box,形成包含多个标注框的图像;
S3:对标注框box内图像进行颜色块的提取,得到颜色块特征信息;
S4:根据得到的多个物体box和box内提取到的颜色块特征信息,将当前帧的标注框、颜色块与前面N帧的标注框、颜色块逐一做跟踪匹配,若跟踪匹配成功且标注框已做过识别,则标识识别结果;
所述步骤S4具体包括以下步骤:
S401:根据box的位置信息,将当前帧与前面N帧逐一进行跟踪匹配,判断与前面N帧的box数据是否在一定的变化范围内,若是,则进入下一步;
S402:对box内的颜色块逐一进行匹配,判断块大小、块位置、块颜色的数据是否都在一定的变化范围内,若是,则该颜色块匹配成功,进入下一步;
S403:将匹配成功的块的数量除以该box内块的总数得到相应的匹配系数S,即S=匹配的块数量/块总数量;
S404:判断匹配系数S的值是否大于设定的阈值,若是,则box匹配成功;
S405:匹配完成后,对通过跟踪识别的物体标识其识别结果;
S406:判断是否有box匹配失败,若是,则进入步骤S407,若否,则进入步骤S408;
S407:则将匹配成功的box从box集合中删除;
S408:匹配结束;
S5:筛选焦点box,对该box区域颜色块进行特征提取;
所述步骤S5具体包括以下步骤:
S501:从步骤S407删剩下的box集合里,选取移动物体box,若无移动物体box,则按大小顺序选取,获得焦点box;
S502:对焦点box区域的颜色块进行处理,根据块相邻距离及颜色像素量化区域的距离大小进行块合并测试;
S503:获取多个颜色块的颜色值HSV,其中:
H=块像素点的H值和/点数量,
S=块像素点的S值和/点数量,
V=块像素点的V值和/点数量,
取平均值即为该焦点box颜色块特征HSV;
S504:获取颜色块纹理信息LBP;
S505:基于颜色块的外轮廓,获取颜色块角点信息;
S506:基于轮廓,根据角点位置,以两个角点切分一条线段的方法得到多条线段,提取每条线段的特征数据,从而获取颜色块线段特征;
S6:将步骤S5中得到的颜色块特征做编码,组织成知识存储到数据库中,同时在数据库中进行检索、匹配,若有匹配结果,则将当前颜色块所属标注框设置为已识别,并标识识别结果,若无,则将当前颜色块所属标注框设置为已处理,为该识别结果添加编号,从而不断实现搜索识别和学习;
所述步骤S6具体包括以下步骤:
S601:对焦点box里的多个颜色块特征进行编码,成为知识写入数据库;
S602:逐个判断知识是否有经验,即计数器是否达到阈值,其中计数器为每个颜色块的编码出现的次数累计,若是,则进入步骤S606,若否,则进入步骤S603;
S603:根据角点位置,对块进行切块处理,得到多个颜色块子块;
S604:将得到的多个颜色块子块按顺序逐个进行组织编码,再逐个判断子块是否有经验,若是,则进入步骤S605,若否,则进入步骤S606;
S605:删除切块前的原块,该原块切块后的多个子块加入块集合,进入步骤S606;
S606:选择一组织编码超过阈值的大颜色块a1和一组织编码超过阈值的小颜色块b1,该小颜色块b1的距离接近大颜色块a1,以大颜色块a1外接矩形为中心、一倍长宽为边界包含小颜色块b1,将大颜色块a1的组织编码与小颜色块b1的组织编码组织起来,成为一个新的颜色块,并获得一个新的组织编码;
S607:用步骤S606组织获得的编码检索数据库,其中编码有多层,每生成一层检索一次数据库,得到该层知识在数据库的计数器,多层检索后获得计数器最大的一个组织块(a1,b1);
S608:根据组织块(a1,b1)的特征编码,在数据库中进行检索、匹配,找到包含该特征编码的其他组织块及其特征信息,即相关,若无相关,则进入步骤S609,若有相关,则进入步骤S610;
S609:匹配无结果,将当前颜色块设置为已处理;
S610:若匹配的相关数量唯一,则查找该知识的物体名称,将当前颜色块所属标注框设置为已识别,标识名称,更新记忆数据,若匹配的相关数量小于等于相关数量阈值,则将相关的组合特征进行比对,并查找未能组织的块的相关知识,将相关数据中最多的物体名称作为该识别结果,将当前颜色块所属标注框设置为已识别,标识名称,更新记忆数据,若匹配的相关数量大于阈值,则继续与视野内的颜色块两两组织;
S611:每组织完一次更新一次视野,直到将焦点box内所有颜色块都组织完;
S612:若焦点box内所有颜色块匹配无结果,则该标注框匹配无结果,将当前标注框设置为已处理,并为该标注框添加编号;
S613:组织、匹配结束。
2.根据权利要求1所述的一种通用物体实时学习、识别方法,其特征在于:所述步骤S2具体包括以下步骤:
S201:对图像数据进行滤波、采样;
S202:采用神经网络模型YOLOv3算法模型,Darknet-53结构,所述Darknet-53结构含有53个卷积层,进行多尺度预测,输出3层,每层均将输入图像分成S×S个格子;
S203:物体的中心位置坐标所落入的格子,检测出该物体;
S204:每个格子预测B个box及其置信度;
S205:根据得到的多个box的置信度,筛选出置信度高的box,将图像所有格子处理完后,得到多个box。
3.根据权利要求2所述的一种通用物体实时学习、识别方法,其特征在于:所述步骤S3具体包括以下步骤:
S301:采用高斯滤波算法,对box,即物体的矩形框内的图像信息进行滤波,以3x3像素范围进行卷积,即以(0,0)为中心点,计算得到8邻域内像素所占比例,将中心点和8邻域内对应点的像素值大小与模板中对应点的比例相乘,得到的9个结果再相加得到最终该点的像素值大小;
S302:对每个box进行图像分割,根据颜色通道HSV提取颜色块;
S303:计算各颜色块的初步特征,即位置信息,即大小、中心点,及颜色,即HSV。
4.根据权利要求3所述的一种通用物体实时学习、识别方法,其特征在于:所述颜色块的组织编码,采用归一化算法,所述归一化包括以下方式:
(1)编码穷举归一化,若有ABC三个颜色块,编码顺序为ABC,穷举后有ACB,BAC,BCA,CAB,CBA编码知识生成,将这些知识全部归一化成ID最小的组织方式,即若ABC为最小,则归一化为ABC,同时增加ABC编码知识的计数器值,以ABC为基础继续往下组织;
(2)知识,即名称,归一化,当通过跟踪的方式得到的两个知识为同一物体时,若两个知识编码所属的物体ID不同,文本对象表中物体ID也对应不同的名字,则不修改编码知识库中对应编码知识所属的物体ID,若有相同的名字或只有一个有名字,则编码知识库中,两个编码知识所对应的所属的物体ID,将最大的物体ID修改为最小的物体ID,同时,修改不同的所属的物体ID对应的编码知识ID,将两个数据中较大的知识ID修改为较小的那个知识ID,若其中一条有名称时,将没有名称的填入相同的名称;
(3)切块形状归一化,当原颜色块没有经验,通过切块得到经验时,将原颜色块的形状特征编码知识与切块的组织编码知识进行归一化,即若有原始颜色块A,切为两个颜色块B和C,则将块A归一化为B和C的相加,当切块后的知识达到计数器阈值时,即使原块组织知识计数器未达到阈值也强行将其形状知识组织完,并将其计数器数值设置到阈值。
5.一种通用物体实时学习、识别系统,其特征在于:它是运用权利要求1所述的通用物体实时学习、识别方法来实现的通用物体实时学习、识别系统,该系统包括:
纠错模块,在系统识别到错误的名称后,用于将错误的名称纠正;
组织编码模块,用于对特征进行编码、组织;
深度学习模块,用于检测物体的标注框;
数据库管理模块,用于管理数据库里的信息、知识;
图像处理模块,用于提取颜色块、提取特征信息并进行跟踪处理;
所述纠错模块包括命名模块;
所述组织编码模块包括组织模块,知识匹配模块和编码模块;
所述深度学习模块包括标注框检测模块;
所述数据库管理模块包括记忆管理模块和知识管理模块;
所述图像处理模块包括特征处理模块和跟踪处理模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010066559.XA CN111126513B (zh) | 2020-01-20 | 2020-01-20 | 一种通用物体实时学习、识别系统及其学习、识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010066559.XA CN111126513B (zh) | 2020-01-20 | 2020-01-20 | 一种通用物体实时学习、识别系统及其学习、识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126513A CN111126513A (zh) | 2020-05-08 |
CN111126513B true CN111126513B (zh) | 2023-06-02 |
Family
ID=70491499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010066559.XA Active CN111126513B (zh) | 2020-01-20 | 2020-01-20 | 一种通用物体实时学习、识别系统及其学习、识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126513B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461147B (zh) * | 2020-04-30 | 2023-05-23 | 柳州智视科技有限公司 | 一种基于图像特征的二进制编码组织算法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102313547A (zh) * | 2011-05-26 | 2012-01-11 | 东南大学 | 基于手绘轮廓语义地图的移动机器人视觉导航方法 |
CN107944412A (zh) * | 2017-12-04 | 2018-04-20 | 国网山东省电力公司电力科学研究院 | 基于多层卷积神经网络的输电线路自动识别系统及方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567116B1 (en) * | 1998-11-20 | 2003-05-20 | James A. Aman | Multiple object tracking system |
CN101398894B (zh) * | 2008-06-17 | 2011-12-07 | 浙江师范大学 | 机动车车牌自动识别方法及其实现装置 |
CN102622769B (zh) * | 2012-03-19 | 2015-03-04 | 厦门大学 | 一种在动态场景下以深度为主导线索的多目标跟踪方法 |
CN104751466B (zh) * | 2015-04-01 | 2018-03-16 | 电子科技大学 | 一种基于显著性的形变物体跟踪方法及其系统 |
CN109685076A (zh) * | 2018-12-05 | 2019-04-26 | 泉州装备制造研究所 | 一种基于sift和稀疏编码的图像识别方法 |
CN111461147B (zh) * | 2020-04-30 | 2023-05-23 | 柳州智视科技有限公司 | 一种基于图像特征的二进制编码组织算法 |
CN113920061A (zh) * | 2021-09-09 | 2022-01-11 | 中国科学院自动化研究所 | 工业机器人的作业方法、装置、电子设备及存储介质 |
-
2020
- 2020-01-20 CN CN202010066559.XA patent/CN111126513B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102313547A (zh) * | 2011-05-26 | 2012-01-11 | 东南大学 | 基于手绘轮廓语义地图的移动机器人视觉导航方法 |
CN107944412A (zh) * | 2017-12-04 | 2018-04-20 | 国网山东省电力公司电力科学研究院 | 基于多层卷积神经网络的输电线路自动识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111126513A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN112418117B (zh) | 一种基于无人机图像的小目标检测方法 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN113111871B (zh) | 文本识别模型的训练方法及装置、文本识别方法及装置 | |
CN109671102B (zh) | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 | |
CN109410238B (zh) | 一种基于PointNet++网络的枸杞识别计数方法 | |
CN112347284B (zh) | 一种组合商标图像检索方法 | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及系统 | |
CN111191583A (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN110210433B (zh) | 一种基于深度学习的集装箱箱号检测与识别方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN111753682A (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN114283162A (zh) | 基于对比自监督学习的现实场景图像分割方法 | |
CN113705596A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN115862045A (zh) | 基于图文识别技术的病例自动识别方法、系统、设备及存储介质 | |
CN115880704A (zh) | 一种病例的自动编目方法、系统、设备及存储介质 | |
CN111931571A (zh) | 基于在线增强检测的视频文字目标追踪方法与电子设备 | |
CN111597875A (zh) | 一种交通标志识别方法、装置、设备及存储介质 | |
CN111126513B (zh) | 一种通用物体实时学习、识别系统及其学习、识别方法 | |
Zhu et al. | Scene text relocation with guidance | |
CN111571567A (zh) | 机器人转译技能训练方法、装置及电子设备和存储介质 | |
CN114067314B (zh) | 一种基于神经网络的花生霉变识别方法及系统 | |
CN116206201A (zh) | 一种监督目标检测识别方法、装置、设备及存储介质 | |
CN113032612B (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |