CN106845440B - 一种增强现实图像处理方法及系统 - Google Patents

一种增强现实图像处理方法及系统 Download PDF

Info

Publication number
CN106845440B
CN106845440B CN201710077727.3A CN201710077727A CN106845440B CN 106845440 B CN106845440 B CN 106845440B CN 201710077727 A CN201710077727 A CN 201710077727A CN 106845440 B CN106845440 B CN 106845440B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
target
augmented reality
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710077727.3A
Other languages
English (en)
Other versions
CN106845440A (zh
Inventor
张镇
邵鹏
刘宇
张国栋
梁波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Wanteng Digital Technology Co.,Ltd.
Original Assignee
Shandong Vt Electron Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Vt Electron Technology Co ltd filed Critical Shandong Vt Electron Technology Co ltd
Priority to CN201710077727.3A priority Critical patent/CN106845440B/zh
Publication of CN106845440A publication Critical patent/CN106845440A/zh
Application granted granted Critical
Publication of CN106845440B publication Critical patent/CN106845440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种增强现实图像处理方法及系统,其中该方法包括获取若干连续帧的增强现实图像样本并分别对其进行归一化和去噪预处理;以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络;将待处理的增强现实图像进行归一化和去噪预处理之后,再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。本发明提高了检测精度和速度。

Description

一种增强现实图像处理方法及系统
技术领域
本发明属于图像处理领域,尤其涉及一种增强现实图像处理方法及系统。
背景技术
增强现实(Augmented Reality,简称AR)是通过计算机系统提供的信息增加用户对现实世界感知的技术,将计算机生成的虚拟物体、场景或系统提示信息叠加到真实场景中,从而实现对现实的增强。本发明提供一种基于深度学习的目标检测技术,为增强现实提供技术基础。
从增强现实系统的硬件来看,大致可分为两类:基于计算机视觉算法的增强现实;基于传感器的增强现实。基于传感器的跟踪包括GPS(Global Positioning System全球定位系统),地磁,声音,惯性,光影或者力学感受器等。例如ARToolkit是基于标识识别的开源库,它使用C/C++语言编写,通过它可以让我们很容易的编写增强现实应用程序。这个库首先记录了很多易于标示的标识图片,并以此为交互对象,实现了标识的跟踪与交互,编程人员只要使用ARToolkit库就可以编写渲染方式。现在己经有非常多的基于该库的应用出现,也因此证明了该库的稳定性和实用性。与其他AR技术相对来说已经比较成熟。然而,此技术需要专门绘制固定纹路的标识,使得其应用场景大大受限。
对于标识识别主要有一类方法,目标检测方法。目标检测方法要解决的主要问题是处于复杂光照、复杂背景、多尺度、多视角、遮挡等条件下目标的识别定位问题。在解决这些基本问题的同时,为使目标识别定位方法可以应用于实际场景中,目标检测算法需要满足实时性及鲁棒性。目标检测方法分为全局方法和局部方法两类。全局方法使用统计学分类技术,来比较输入图像与目标物体训练图集的相似程度,具体方法PCA、KNN、Adaboost等。这类方法用来解决检测一类目标物体的实例。而对于目标检测的常见问题,例如复杂的遮挡关系、光照和背景灯,并没有进行针对性解决。
综上所述,传统AR在目标检测过程中,存在不能鲁棒性识别的问题。
发明内容
为了解决传统AR目标检测不能鲁棒性识别的问题,本发明的第一目的是提供了一种增强现实图像处理方法。
本发明的一种增强现实图像处理方法,包括:
获取若干连续帧的增强现实图像样本并分别对其进行归一化和去噪预处理;
以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络;
将待处理的增强现实图像进行归一化和去噪预处理之后,再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。
进一步的,利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络的过程包括:
标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
本发明通过对图像的提取和数据的预处理,能加速神经网络的训练速度。
进一步的,所述第一卷积神经网络为RPN卷积神经网络。
在目标检测中,fast-RCNN卷积神经网络已经减少了检测步骤的执行时间,只有在提取region proposal(候选区域)方面没有提高,而RPN卷积神经网络用来提取检测区域,并且和整个检测网络共享卷积部分的特征。
进一步的,所述第二卷积神经网络为fast-RCNN卷积神经网络。
fast-RCNN卷积神经网络在检测部分减少了卷积的次数,减少了整个过程所需的时间。
发明的第二目的是提供了一种增强现实图像处理系统。
本发明的实施例一的增强现实图像处理系统,包括:
样本集获取模块,其用于获取若干连续帧的增强现实图像样本;
预处理模块,其用于对每个样本分别进行归一化和去噪预处理;
标签化模块,其用于以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
卷积神经网络训练模块,其用于利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络;
图像目标信息获取模块,其用于将待处理的增强现实图像进行归一化和去噪预处理之后,再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。
进一步的,在所述卷积神经网络训练模块中,标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
进一步的,所述第一卷积神经网络为RPN卷积神经网络;
或所述第二卷积神经网络为fast-RCNN卷积神经网络。
本发明的实施例二的增强现实图像处理系统,包括:
图像采集装置,其被配置为:
采集若干连续帧的增强现实图像以及待处理的增强图像并传送至处理器;
所述处理器,其被配置为:
对获取的若干连续帧的增强现实图像样本分别进行归一化和去噪预处理,并将预处理后的图像样本传送至服务器;
所述处理器还被配置为:将待处理的增强图像进行归一化和去噪预处理并传送至服务器;
所述服务器,其被配置为:
以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,得到训练完成的第一卷积神经网络和第二卷积神经网络;
以及将预处理后的待处理的增强图像输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。
进一步的,所述服务器还被配置为:
标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
进一步的,该系统还包括显示装置,其用于显示待处理的增强现实图像的目标位置信息与标签分类信息。
本发明的实施例三的增强现实图像处理系统,包括:
图像采集装置,其被配置为:
采集若干连续帧的增强现实图像以及待处理的增强图像并传送至服务器;
所述服务器,其被配置为:
对获取的若干连续帧的增强现实图像样本分别进行归一化和去噪预处理;
以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,得到训练完成的第一卷积神经网络和第二卷积神经网络;
以及将待处理的增强图像进行归一化和去噪预处理,之后再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。
进一步的,所述服务器还被配置为:
标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
进一步的,该系统还包括显示装置,其用于显示待处理的增强现实图像的目标位置信息与标签分类信息。
与现有技术相比,本发明的有益效果是:
(1)本发明采用RPN卷积神经网络作为第一卷积神经网来定位图像中的目标,由于RPN卷积神经网络对目标的尺度和比例不敏感,这样能够有效提升非常规尺度和比例的目标检测,并且更加简单,通过共享卷积层参数,使计算量变小,且提高了目标检测的准确性和稳定性。
(2)本发明采用第一卷积神经网络和第二卷积神经网络结合分别用来提取图像中的目标的位置信息以及标签分类信息,提高了检测精度和速度;其中,第一卷积神经网络和第二卷积神经网络可以采用RPN卷积神经网络和fast-RCNN卷积神经网络,或其他卷积神经网络来实现。
(3)本发明的增强现实图像处理系统,利用图像采集装置采集增强图像并传送至处理器,利用处理器对增强现实图像进行归一化和去噪预处理,并将预处理后的图像传送至服务器,在服务器内首先训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,最后再利用训练完成的第一卷积神经网络和第二卷积神经网络处理增强现实图像,分别得到待处理的增强现实图像的目标位置信息与标签分类信息,本发明真正实现端到端的目标检测框架,保证了AR在目标检测过程识别的稳定性。
(4)本发明的增强现实图像处理系统,利用图像采集装置采集增强图像并传送至服务器,利用服务器对增强现实图像进行归一化和去噪预处理,并利用预处理后的图像训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,最后再利用训练完成的第一卷积神经网络和第二卷积神经网络处理增强现实图像,分别得到待处理的增强现实图像的目标位置信息与标签分类信息,本发明真正实现端到端的目标检测框架,保证了AR在目标检测过程识别的稳定性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是一种增强现实图像处理方法流程图;
图2是实施例一的增强现实图像处理方法流程图;
图3是实施例二的增强现实图像处理方法流程图;
图4是实施例三的增强现实图像处理方法流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
图1是本实施例的一种增强现实图像处理方法流程图。如图1所示的增强现实图像处理方法,包括:
S101:获取若干连续帧的增强现实图像样本。
具体地,从增强现实图像存储器或是处理器中提取若干连续帧的增强现实图像,作为样本,进一步形成神经网络训练样本集。神经网络训练样本集内的样本用来为训练后续的卷积神经网络提供数据基础。
其中,增强现实图像存储器内存储有均为连续帧的增强现实图像,增强现实图像存储器可为ROM、RAM或TF卡。
处理器,其用来处理图像得到连续帧的增强现实图像。处理器可以为MilbeautMobile和Milbeaut Security ISP系列图像处理器芯片。
S102:对每个样本分别进行归一化和去噪预处理。
通过对图像的归一化和去噪预处理,能加速后续神经网络的训练速度。
具体地,由于提取到的增强现实图像包含噪声以及大小不统一,这样影响了后续神经网络的训练速度以及准确性。因此,在训练神经网络之前需要对每个样本分别进行归一化和去噪预处理,得到大小统一且去除噪声的样本。
在具体实施过程中,图像归一化就是通过一系列变换(即利用图像的不变矩寻找一组参数使其能够消除其他变换函数对图像变换的影响),将待处理的原始图像转换成相应的唯一标准形式(该标准形式图像对平移、旋转、缩放等仿射变换具有不变特性)。
在另一实施例中,基于矩的图像归一化技术基本工作原理为:首先利用图像中对仿射变换具有不变性的矩来确定变换函数的参数,然后利用此参数确定的变换函数把原始图像变换为一个标准形式的图像(该图像与仿射变换无关)。一般说来,基于矩的图像归一化过程包括4个步骤,即坐标中心化、x-shearing归一化、缩放归一化和旋转归一化。
图像归一化使得图像可以抵抗几何变换的攻击,它能够找出图像中的那些不变量,从而得知这些图像原本就是一样的或者一个系列的。
此外,噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。
常用的去除图像噪声的方法包括:均值滤波器、自适应维纳滤波器、中值滤波器、形态学噪声滤除器和小波去噪。其中,小波去噪这种方法保留了大部分包含信号的小波系数,因此可以较好地保持图像细节。小波分析进行图像去噪主要有3个步骤:
(1)对图像信号进行小波分解。
(2)对经过层次分解后的高频系数进行阈值量化。
(3)利用二维小波重构图像信号。
S103:以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别。
具体地,样本的目标实际位置信息以及标签类别均是已知,可以采用手动以标签形式将目标的实际位置信息及标签类别分别标注在相应预处理后的图像样本中。这样是为了训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络。
在训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络的过程中,若第一卷积神经网络和第二卷积神经网络的输出与目标的实际位置信息及标签类别有偏差,则未完成第一卷积神经网络和第二卷积神经网络,继续训练,直至第一卷积神经网络和第二卷积神经网络的输出与目标的实际位置信息及标签类别一致。
因此,以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别的目的是为了验证第一卷积神经网络和第二卷积神经网络的输出是否准确,如果不准确,继续训练。
S104:利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络。
具体地,标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
在一个实施例中,第一卷积神经网络为RPN卷积神经网络。
第二卷积神经网络为fast-RCNN卷积神经网络。
特别说明,第一卷积神经网络和第二卷积神经网络也可以采用其他卷积神经来实现,该处仅是分别以RPN卷积神经网络和fast-RCNN卷积神经网络为一个实施例来说明。
其中,RPN卷积神经网络由八个卷积层和一个softmax层构成;fast-RCNN卷积神经网络由五个卷积层一个ROIpooling层、四个全连接层和一个softmax层构成。
下面详细介绍RPN卷积神经网络和fast-RCNN卷积神经网络的训练过程。
(1)对RPN网络进行初始化,使用随机数初始化训练参数;
(2)对输入样本图像每一点都赋予多个尺度和多个比例的基准框,通过向初始化后的RPN卷积神经网络中输入训练样本的基准框来训练CNN,使用反向传播算法,调整网络参数,使损失函数值最小;
(3)在训练样本上用训练好的RPN,通过网络计算,得到候选框;
(4)对fast-RCNN用与RPN一样的初始化和训练方式,输入训练样本和候选框,结合样本集的标注和标签,进行训练,得到fast-RCNN模型;
(5)在训练好的fast-RCNN网络中,输入候选框,通过网络计算得到网络输出,与真实标签进行对比,得到误差。判断误差是否小于一个阈值,如果是,将训练好的模型进行存储;否则重新训练RPN神经网络以及重新训练fast-RCNN网络;
(6)将训练好的模型进行存储。
S105:将待处理的增强现实图像进行归一化和去噪预处理之后,再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。
在具体实施过程中,通过上述步骤已经得到训练完成的第一卷积神经网络和第二卷积神经网络。为了得到增强现实图像中的目标位置信息与标签分类信息,只需要将待处理的增强现实图像进行归一化和去噪预处理,即可输入至训练完成的第一卷积神经网络和第二卷积神经网络得到处理结果。
本发明采用第一卷积神经网络和第二卷积神经网络结合分别用来提取图像中的目标的位置信息以及标签分类信息,提高了检测精度和速度;其中,第一卷积神经网络和第二卷积神经网络可以采用RPN卷积神经网络和fast-RCNN卷积神经网络,或其他卷积神经网络来实现。
本发明采用RPN卷积神经网络作为第一卷积神经网来定位图像中的目标,由于RPN卷积神经网络对目标的尺度和比例不敏感,这样能够有效提升非常规尺度和比例的目标检测,并且更加简单,通过共享卷积层参数,使计算量变小。
图2是实施例一的增强现实图像处理系统结构示意图。如图2所示的增强现实图像处理系统,包括:
(1)样本集获取模块,其用于获取若干连续帧的增强现实图像样。
具体地,从增强现实图像存储器或是处理器中提取若干连续帧的增强现实图像,作为样本,进一步形成神经网络训练样本集。神经网络训练样本集内的样本用来为训练后续的卷积神经网络提供数据基础。
其中,增强现实图像存储器内存储有均为连续帧的增强现实图像,增强现实图像存储器可为ROM、RAM或TF卡。
处理器,其用来处理图像得到连续帧的增强现实图像。处理器可以为MilbeautMobile和Milbeaut Security ISP系列图像处理器芯片。
(2)预处理模块,其用于对神经网络训练样本集内的每个样本分别进行归一化和去噪预处理。
通过对图像的归一化和去噪预处理,能加速后续神经网络的训练速度。
具体地,由于提取到的增强现实图像包含噪声以及大小不统一,这样影响了后续神经网络的训练速度以及准确性。因此,在训练神经网络之前需要对每个样本分别进行归一化和去噪预处理,得到大小统一且去除噪声的样本。
在具体实施过程中,图像归一化就是通过一系列变换(即利用图像的不变矩寻找一组参数使其能够消除其他变换函数对图像变换的影响),将待处理的原始图像转换成相应的唯一标准形式(该标准形式图像对平移、旋转、缩放等仿射变换具有不变特性)。
在另一实施例中,基于矩的图像归一化技术基本工作原理为:首先利用图像中对仿射变换具有不变性的矩来确定变换函数的参数,然后利用此参数确定的变换函数把原始图像变换为一个标准形式的图像(该图像与仿射变换无关)。一般说来,基于矩的图像归一化过程包括4个步骤,即坐标中心化、x-shearing归一化、缩放归一化和旋转归一化。
图像归一化使得图像可以抵抗几何变换的攻击,它能够找出图像中的那些不变量,从而得知这些图像原本就是一样的或者一个系列的。
此外,噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。
常用的去除图像噪声的方法包括:均值滤波器、自适应维纳滤波器、中值滤波器、形态学噪声滤除器和小波去噪。其中,小波去噪这种方法保留了大部分包含信号的小波系数,因此可以较好地保持图像细节。小波分析进行图像去噪主要有3个步骤:
对图像信号进行小波分解;
对经过层次分解后的高频系数进行阈值量化;
利用二维小波重构图像信号;
(3)标签化模块,其用于以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别。
具体地,样本的目标实际位置信息以及标签类别均是已知,可以采用手动以标签形式将目标的实际位置信息及标签类别分别标注在相应预处理后的图像样本中。这样是为了训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络。
在训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络的过程中,若第一卷积神经网络和第二卷积神经网络的输出与目标的实际位置信息及标签类别有偏差,则未完成第一卷积神经网络和第二卷积神经网络,继续训练,直至第一卷积神经网络和第二卷积神经网络的输出与目标的实际位置信息及标签类别一致。
因此,以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别的目的是为了验证第一卷积神经网络和第二卷积神经网络的输出是否准确,如果不准确,继续训练。
(4)卷积神经网络训练模块,其用于利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络。
在所述卷积神经网络训练模块中,标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
其中,第一卷积神经网络为RPN卷积神经网络。
第二卷积神经网络为fast-RCNN卷积神经网络。
RPN卷积神经网络由八个卷积层和一个softmax层构成;fast-RCNN卷积神经网络由五个卷积层一个ROIpooling层、四个全连接层和一个softmax层构成。
对第一卷积神经网络和第二卷积神经网络训练的过程:
对RPN网络进行初始化,使用随机数初始化训练参数;
对输入样本图像每一点都赋予多个尺度和多个比例的基准框,通过向初始化后的RPN卷积神经网络中输入训练样本的基准框来训练CNN,使用反向传播算法,调整网络参数,使损失函数值最小;
在训练样本上用训练好的RPN,通过网络计算,得到候选框;
对fast-RCNN用与RPN一样的初始化和训练方式,输入训练样本和候选框,结合样本集的标注和标签,进行训练,得到fast-RCNN模型;
在训练好的fast-RCNN网络中,输入候选框,通过网络计算得到网络输出,与真实标签进行对比,得到误差。判断误差是否小于一个阈值,如果是,将训练好的模型进行存储;否则重新训练RPN神经网络以及重新训练fast-RCNN网络;
将训练好的模型进行存储。
(5)图像目标信息获取模块,其用于将待处理的增强现实图像进行归一化和去噪预处理之后,再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。
在具体实施过程中,通过上述步骤已经得到训练完成的第一卷积神经网络和第二卷积神经网络。为了得到增强现实图像中的目标位置信息与标签分类信息,只需要将待处理的增强现实图像进行归一化和去噪预处理,即可输入至训练完成的第一卷积神经网络和第二卷积神经网络得到处理结果。
本发明采用第一卷积神经网络和第二卷积神经网络结合分别用来提取图像中的目标的位置信息以及标签分类信息,提高了检测精度和速度;其中,第一卷积神经网络和第二卷积神经网络可以采用RPN卷积神经网络和fast-RCNN卷积神经网络,或其他卷积神经网络来实现。
本发明采用RPN卷积神经网络作为第一卷积神经网来定位图像中的目标,由于RPN卷积神经网络对目标的尺度和比例不敏感,这样能够有效提升非常规尺度和比例的目标检测,并且更加简单,通过共享卷积层参数,使计算量变小,且提高了目标检测的准确性和稳定性。
图3是实施例二的增强现实图像处理系统结构示意图。如图3所示的增强现实图像处理系统,包括:图像采集装置、处理器和服务器。
其中,图像采集装置,其被配置为:
采集若干连续帧的增强现实图像以及待处理的增强图像并传送至处理器;
所述处理器,其被配置为:
对获取的若干连续帧的增强现实图像样本分别进行归一化和去噪预处理,并将预处理后的图像样本传送至服务器;
所述处理器还被配置为:将待处理的增强图像进行归一化和去噪预处理并传送至服务器;
所述服务器,其被配置为:
以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,得到训练完成的第一卷积神经网络和第二卷积神经网络;
以及将预处理后的待处理的增强图像输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。
特别说明,一个服务器可以与多个处理器相互通信,每个处理器也可以与多个图像采集装置相连。
在具体实施过程中,服务器还被配置为:标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
在具体实施过程中,该系统还包括显示装置,其用于显示待处理的增强现实图像的目标位置信息与标签分类信息。
具体地,服务器可以为云服务器或是本地服务器。
本发明的增强现实图像处理系统可以为可穿戴系统或是非可穿戴系统。
本发明的增强现实图像处理系统,利用图像采集装置采集增强图像并传送至处理器,利用处理器对增强现实图像进行归一化和去噪预处理,并将预处理后的图像传送至服务器,在服务器内首先训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,最后再利用训练完成的第一卷积神经网络和第二卷积神经网络处理增强现实图像,分别得到待处理的增强现实图像的目标位置信息与标签分类信息,本发明真正实现端到端的目标检测框架,保证了AR在目标检测过程识别的稳定性。
图4是实施例三的增强现实图像处理系统结构示意图。如图4所示的增强现实图像处理系统,包括:图像采集装置和服务器。
其中,图像采集装置,其被配置为:
采集若干连续帧的增强现实图像以及待处理的增强图像并传送至服务器。
所述服务器,其被配置为:
对获取的若干连续帧的增强现实图像样本分别进行归一化和去噪预处理;
以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,得到训练完成的第一卷积神经网络和第二卷积神经网络;
以及将待处理的增强图像进行归一化和去噪预处理,之后再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息。
进一步的,所述服务器还被配置为:
标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
进一步的,该系统还包括显示装置,其用于显示待处理的增强现实图像的目标位置信息与标签分类信息。
本发明的增强现实图像处理系统,利用图像采集装置采集增强图像并传送至服务器,利用服务器对增强现实图像进行归一化和去噪预处理,并利用预处理后的图像训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,最后再利用训练完成的第一卷积神经网络和第二卷积神经网络处理增强现实图像,分别得到待处理的增强现实图像的目标位置信息与标签分类信息,本发明真正实现端到端的目标检测框架,保证了AR在目标检测过程识别的稳定性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (7)

1.一种增强现实图像处理方法,其特征在于,包括:
获取若干连续帧的增强现实图像样本并分别对其进行归一化和去噪预处理;
以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络;
将待处理的增强现实图像进行归一化和去噪预处理之后,再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息;
所述第一卷积神经网络为RPN卷积神经网络,所述第二卷积神经网络为fast-RCNN卷积神经网络;
所述RPN卷积神经网络和fast-RCNN卷积神经网络的训练过程为:
(1)对RPN网络进行初始化,使用随机数初始化训练参数;
(2)对输入图像样本每一点都赋予多个尺度和多个比例的基准框,通过向初始化后的RPN卷积神经网络中输入训练样本的基准框来训练CNN,使用反向传播算法,调整网络参数,使损失函数值最小;
(3)在训练样本上用训练好的RPN,通过网络计算,得到候选框;
(4)对fast-RCNN用与RPN一样的初始化和训练方式,输入训练样本和候选框,结合样本集的标注和标签,进行训练,得到fast-RCNN模型;
(5)在训练好的fast-RCNN网络中,输入候选框,通过网络计算得到网络输出,与真实标签进行对比,得到误差;判断误差是否小于一个阈值,如果是,将训练好的模型进行存储;否则重新训练RPN神经网络以及重新训练fast-RCNN网络;
(6)将训练好的模型进行存储。
2.如权利要求1所述的一种增强现实图像处理方法,其特征在于,利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络的过程包括:
标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
3.一种增强现实图像处理系统,其特征在于,包括:
样本集获取模块,其用于获取若干连续帧的增强现实图像样本;
预处理模块,其用于对每个样本分别进行归一化和去噪预处理;
标签化模块,其用于以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
卷积神经网络训练模块,其用于利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络;
图像目标信息获取模块,其用于将待处理的增强现实图像进行归一化和去噪预处理之后,再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息;
所述第一卷积神经网络为RPN卷积神经网络,所述第二卷积神经网络为fast-RCNN卷积神经网络。
4.如权利要求3所述的一种增强现实图像处理系统,其特征在于,在所述卷积神经网络训练模块中,标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络。
5.一种增强现实图像处理系统,其特征在于,包括:
图像采集装置,其被配置为:
采集若干连续帧的增强现实图像以及待处理的增强图像并传送至处理器;
所述处理器,其被配置为:
对获取的若干连续帧的增强现实图像样本分别进行归一化和去噪预处理,并将预处理后的图像样本传送至服务器;
所述处理器还被配置为:将待处理的增强图像进行归一化和去噪预处理并传送至服务器;
所述服务器,其被配置为:
以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,得到训练完成的第一卷积神经网络和第二卷积神经网络;
以及将预处理后的待处理的增强图像输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息;
所述第一卷积神经网络为RPN卷积神经网络,所述第二卷积神经网络为fast-RCNN卷积神经网络。
6.一种增强现实图像处理系统,其特征在于,包括:
图像采集装置,其被配置为:
采集若干连续帧的增强现实图像以及待处理的增强图像并传送至服务器;
所述服务器,其被配置为:
对获取的若干连续帧的增强现实图像样本分别进行归一化和去噪预处理;
以标签形式标注出每个预处理后图像样本中目标的实际位置信息及标签类别;
利用标签化的样本分别训练用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,得到训练完成的第一卷积神经网络和第二卷积神经网络;
以及将待处理的增强图像进行归一化和去噪预处理,之后再输入至训练完成的第一卷积神经网络和第二卷积神经网络中,分别得到待处理的增强现实图像的目标位置信息与标签分类信息;
所述第一卷积神经网络为RPN卷积神经网络,所述第二卷积神经网络为fast-RCNN卷积神经网络。
7.如权利要求5或6所述的一种增强现实图像处理系统,其特征在于,所述服务器还被配置为:
标签化的样本分别输入至用于目标定位的第一卷积神经网络和目标标签分类的第二卷积神经网络,输出的目标位置信息与标签分类信息,直至第一卷积神经网络和第二卷积神经网络分别输出的目标位置信息与标签分类信息与目标的实际位置信息与标签分类信息一致,得到训练完成的第一卷积神经网络和第二卷积神经网络;
或该系统还包括显示装置,其用于显示待处理的增强现实图像的目标位置信息与标签分类信息。
CN201710077727.3A 2017-02-13 2017-02-13 一种增强现实图像处理方法及系统 Active CN106845440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710077727.3A CN106845440B (zh) 2017-02-13 2017-02-13 一种增强现实图像处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710077727.3A CN106845440B (zh) 2017-02-13 2017-02-13 一种增强现实图像处理方法及系统

Publications (2)

Publication Number Publication Date
CN106845440A CN106845440A (zh) 2017-06-13
CN106845440B true CN106845440B (zh) 2020-04-10

Family

ID=59127934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710077727.3A Active CN106845440B (zh) 2017-02-13 2017-02-13 一种增强现实图像处理方法及系统

Country Status (1)

Country Link
CN (1) CN106845440B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330439B (zh) * 2017-07-14 2022-11-04 腾讯科技(深圳)有限公司 一种图像中物体姿态的确定方法、客户端及服务器
US10803555B2 (en) 2017-08-31 2020-10-13 Shanghai United Imaging Healthcare Co., Ltd. System and method for determining a trained neural network model for scattering correction
CN107516330B (zh) * 2017-08-31 2021-02-09 上海联影医疗科技股份有限公司 模型生成方法、图像处理方法及医学成像设备
CN107595312B (zh) * 2017-08-31 2020-12-04 上海联影医疗科技股份有限公司 模型生成方法、图像处理方法及医学成像设备
US10726525B2 (en) * 2017-09-26 2020-07-28 Samsung Electronics Co., Ltd. Image denoising neural network architecture and method of training the same
CN110427542A (zh) * 2018-04-26 2019-11-08 北京市商汤科技开发有限公司 分类网络训练及数据标注方法和装置、设备、介质
CN108650465B (zh) * 2018-05-17 2020-08-28 深圳市零壹移动互联系统有限公司 摄像机画面增强现实标签的计算方法、装置及电子设备
CN108710910B (zh) * 2018-05-18 2020-12-04 中国科学院光电研究院 一种基于卷积神经网络的目标识别方法及系统
CN111310531B (zh) * 2018-12-12 2024-04-09 北京京东乾石科技有限公司 图像分类方法、装置、计算机设备及存储介质
CN111723806A (zh) * 2019-03-19 2020-09-29 北京京东尚科信息技术有限公司 增强现实方法和装置
CN110008956B (zh) * 2019-04-01 2023-07-07 深圳华付技术股份有限公司 发票关键信息定位方法、装置、计算机设备及存储介质
CN110307982B (zh) * 2019-06-19 2021-01-26 电子科技大学 基于CNN和Adaboost的轴承故障分类方法
US11275934B2 (en) * 2019-11-20 2022-03-15 Sap Se Positional embeddings for document processing
CN114154490A (zh) * 2020-08-18 2022-03-08 阿里巴巴集团控股有限公司 模型训练、标题抽取方法、装置、电子设备和计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482923A (zh) * 2009-01-19 2009-07-15 刘云 视频监控中人体目标的检测与性别识别方法
CN104517122A (zh) * 2014-12-12 2015-04-15 浙江大学 一种基于优化卷积架构的图像目标识别方法
CN105469087A (zh) * 2015-07-13 2016-04-06 百度在线网络技术(北京)有限公司 识别服饰图片的方法、服饰图片的标注方法及装置
CN105488468A (zh) * 2015-11-26 2016-04-13 浙江宇视科技有限公司 一种目标区域的定位方法和装置
CN105678322A (zh) * 2015-12-31 2016-06-15 百度在线网络技术(北京)有限公司 样本标注方法和装置
CN105678278A (zh) * 2016-02-01 2016-06-15 国家电网公司 一种基于单隐层神经网络的场景识别方法
CN106295521A (zh) * 2016-07-29 2017-01-04 厦门美图之家科技有限公司 一种基于多输出卷积神经网络的性别识别方法、装置及计算设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482923A (zh) * 2009-01-19 2009-07-15 刘云 视频监控中人体目标的检测与性别识别方法
CN104517122A (zh) * 2014-12-12 2015-04-15 浙江大学 一种基于优化卷积架构的图像目标识别方法
CN105469087A (zh) * 2015-07-13 2016-04-06 百度在线网络技术(北京)有限公司 识别服饰图片的方法、服饰图片的标注方法及装置
CN105488468A (zh) * 2015-11-26 2016-04-13 浙江宇视科技有限公司 一种目标区域的定位方法和装置
CN105678322A (zh) * 2015-12-31 2016-06-15 百度在线网络技术(北京)有限公司 样本标注方法和装置
CN105678278A (zh) * 2016-02-01 2016-06-15 国家电网公司 一种基于单隐层神经网络的场景识别方法
CN106295521A (zh) * 2016-07-29 2017-01-04 厦门美图之家科技有限公司 一种基于多输出卷积神经网络的性别识别方法、装置及计算设备

Also Published As

Publication number Publication date
CN106845440A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106845440B (zh) 一种增强现实图像处理方法及系统
Chen et al. Backbone is all your need: A simplified architecture for visual object tracking
CN108509915B (zh) 人脸识别模型的生成方法和装置
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
US20130215113A1 (en) Systems and methods for animating the faces of 3d characters using images of human faces
CN106447592B (zh) 每个特征描述符的在线个性化服务
EP4085369A1 (en) Forgery detection of face image
CN111680678B (zh) 目标区域识别方法、装置、设备及可读存储介质
US20180300531A1 (en) Computer-implemented 3d model analysis method, electronic device, and non-transitory computer readable storage medium
CN111079571A (zh) 证卡信息识别及其边缘检测模型训练方法、装置
CN112507924B (zh) 一种3d手势识别方法、装置及系统
Ravi et al. Sign language recognition with multi feature fusion and ANN classifier
CN111353385A (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN116152334A (zh) 图像处理方法及相关设备
CN113627576B (zh) 扫码信息检测方法、装置、设备及存储介质
CN111753736A (zh) 基于分组卷积的人体姿态识别方法、装置、设备和介质
CN117809168B (zh) 一种基于水下目标的固有属性特征进行检测的方法及装置
CN115049546A (zh) 样本数据处理方法、装置、电子设备及存储介质
CN114782592A (zh) 基于图像的卡通动画生成方法、装置、设备及存储介质
CN113591765A (zh) 一种基于实例分割算法的异物检测方法及系统
Li et al. Fast matching method of UAV aerial photography enhanced low illumination image
CN112733670A (zh) 指纹特征提取方法、装置、电子设备及存储介质
Chen et al. YOLO‐UOD: An underwater small object detector via improved efficient layer aggregation network
CN106156787B (zh) 多模态湿地生态生境场景核空间溯源方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Shao Peng

Inventor after: Zhang Zhen

Inventor after: Liu Yu

Inventor after: Zhang Guodong

Inventor after: Liang Bo

Inventor before: Zhang Zhen

Inventor before: Liu Yu

Inventor before: Zhang Guodong

Inventor before: Liang Bo

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Zhen

Inventor after: Shao Peng

Inventor after: Liu Yu

Inventor after: Zhang Guodong

Inventor after: Liang Bo

Inventor before: Shao Peng

Inventor before: Zhang Zhen

Inventor before: Liu Yu

Inventor before: Zhang Guodong

Inventor before: Liang Bo

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 250103 room 1-101, office building, 2269 development road, high tech Zone, Ji'nan, Shandong

Patentee after: Shandong Wanteng Digital Technology Co.,Ltd.

Address before: 250103 room 1-101, office building, 2269 development road, high tech Zone, Ji'nan, Shandong

Patentee before: SHANDONG WANTENG ELECTRONIC TECHNOLOGY CO.,LTD.