CN111507906A - 用用于容错及波动鲁棒性的神经网络除抖动的方法及装置 - Google Patents

用用于容错及波动鲁棒性的神经网络除抖动的方法及装置 Download PDF

Info

Publication number
CN111507906A
CN111507906A CN202010020867.9A CN202010020867A CN111507906A CN 111507906 A CN111507906 A CN 111507906A CN 202010020867 A CN202010020867 A CN 202010020867A CN 111507906 A CN111507906 A CN 111507906A
Authority
CN
China
Prior art keywords
image
tth
learning
neural network
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010020867.9A
Other languages
English (en)
Other versions
CN111507906B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111507906A publication Critical patent/CN111507906A/zh
Application granted granted Critical
Publication of CN111507906B publication Critical patent/CN111507906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/81Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

本申请涉及为了在极限状况的容错及波动鲁棒性而提供的,为了使用神经网络去除视频上的抖动而从由于晃动的摄像头而生成的视频检测抖动的方法,其特征在于包括:计算装置生成对应于第t图像内的各客体的各第t掩码的步骤;对各第t掩码、各第t剪切的图像、各第t‑1掩码及各第t‑1剪切的图像适用至少一次第二神经网络运算生成包含于第t图像的各客体像素的各第t客体运动向量的步骤;以及参照各第t客体运动向量生成对应于第t图像内的像素中各参考像素的各第t抖动向量的步骤。本发明可用于视频稳定化、超精密客体追踪、行动预测、运动分解等。

Description

用用于容错及波动鲁棒性的神经网络除抖动的方法及装置
技术领域
本发明涉及与自动行驶车辆一起利用的学习方法及学习装置,更具体来讲涉及为了使用至少一个神经网络(Neural Network)去除视频(Video)上的抖动(Jittering),从由于晃动的摄像头而生成的所述视频检测抖动的学习方法及学习装置、以及利用其的测试方法及测试装置。
背景技术
深度卷积神经网络(Deep Convolution Neural Networks;Deep CNNs)是深度学习领域发生的惊人的发展核心。CNNs为了解决文字识别问题而自90年代以来开始使用,而像目前广泛使用是则多亏近来的研究结果。这种深度CNN在2012年ImageNet图像分类比赛打败其他竞争者获胜。自那以后卷积神经网络在机器学习(Machine Learning)领域成为了非常有用的工具。
CNN还广泛用于车辆的自动行驶领域,其主要执行分析通过附着于车辆的摄像头获取的图像检测障碍物,检测自由空间(Free Space)等功能使得车辆能够安全行驶。
然而,如上利用CNN使得车辆自动行驶的方法在特定状况下可能难以执行。即,CNN须使用通过摄像头得到的图像,由于摄像头晃动等问题导致图像严重晃动的情况下,视频的各帧发生图像显著改变的抖动(Jittering)现象。发生这种抖动现象的情况下CNN难以追踪图像上的客体的运动。尤其,这种抖动现象在常常越野行驶的军用车辆自动行驶的状况下经常发生,防止这种现象的方法非常重要。
用于防止这种抖动的现有技术有物理地测定摄像头的运动后利用其补正发生抖动的图像的方法,这种方法需要大量费用、摄像头模块的重量过大、使用多个装置,因此引起故障的危险性高。现有技术中有不同于以上所述物理性方法的软件性方法,但该方法也只考虑图像的客体的光流,因此具有补正发生抖动的图像的过程中导致图像发生很大失真的问题。
发明内容
技术问题
本发明的目的是解决上述问题。
本发明的另一目的是通过多个神经网络(Neural Network)补正发生抖动(Jittering)的图像使得即使摄像头晃动也能够获取合适的图像。
技术方案
为了达成如上所述的本发明的目的且实现下述本发明的特征性效果的本发明的特征性的构成如下所述。
根据本发明的一个方面,提供一种为了使用至少一个神经网络(Neural Network)去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖动的方法,其特征在于,包括:(a)获取到对应于所述视频的第t帧的第t图像时,计算装置使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤;(b)所述计算装置使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的(Cropped)图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量(Object Motion Vector)的步骤;以及(c)所述计算装置使抖动预测单元(Jittering Estimation Unit)参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素(Reference Pixel)的各第t抖动向量(Jittering Vector)的步骤。
根据一个实施例,其特征在于,还包括:(d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像(Adjusted Image)的步骤。
根据一个实施例,其特征在于,还包括:(e)所述计算装置使学习单元(LearningUnit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失,并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。
根据一个实施例,其特征在于,在所述(c)步骤中,所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量(Optical Flow Vector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。
根据一个实施例,其特征在于,在所述(d)步骤中,所述计算装置使所述抖动预测单元算出最小化以下数学式的
Figure BDA0002360734590000031
以生成所述第t抖动向量,
Figure BDA0002360734590000032
Figure BDA0002360734590000033
表示所述第t抖动向量,
Figure BDA0002360734590000034
表示所述第t FPV向量,
Figure BDA0002360734590000035
表示所述第t客体运动向量,
Figure BDA0002360734590000036
表示第t-1FPV向量,
Figure BDA0002360734590000037
表示第t-1客体运动向量,λv及λo表示关于
Figure BDA0002360734590000038
Figure BDA0002360734590000039
的各加权值。
根据一个实施例,其特征在于,所述数学式使得对满足以下条件的项(Term)有效,
Figure BDA00023607345900000310
Figure BDA00023607345900000311
表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量,
Figure BDA00023607345900000312
表示关于非所述参考像素的其余像素的第二的第t光流向量,
Figure BDA00023607345900000313
表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量,Σ符号下端的i,j∈NB(x,y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息,wij,xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。
根据一个实施例,其特征在于,所述计算装置使所述抖动预测单元算出最小化以下数学式的
Figure BDA00023607345900000314
Figure BDA0002360734590000041
Figure BDA0002360734590000042
表示所述第t抖动向量,
Figure BDA0002360734590000043
表示所述第t FPV向量,
Figure BDA0002360734590000044
表示所述第t客体运动向量,
Figure BDA0002360734590000045
表示关于第t-k图像的第t-k FPV向量,
Figure BDA0002360734590000046
表示关于所述第t-k图像的第t-k客体运动向量,wk表示关于
Figure BDA0002360734590000047
Figure BDA0002360734590000048
的各加权值,K为指定常数。
根据一个实施例,其特征在于,在所述(b)步骤中,所述第二神经网络包括第2_1神经网络及第2_2神经网络,所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图(Intermediate FeatureMap),所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容,对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。
根据一个实施例,其特征在于,所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析,使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量(State Vector)生成所述第t客体运动向量,(ii)更新所述状态向量。
根据一个实施例,其特征在于,所述参考像素是位于所述第t图像上的所述网格的网格单元(Grid Cell)的边界(Boundary)上的顶点。
根据一个实施例,其特征在于,在所述(a)步骤中,所述第一神经网络包括至少一个区域候网络(Region Proposal Network,RPN)、至少一个卷积层及至少一个池化层,所述RPN生成至少一个ROI时,所述第一神经网络利用双线性插值法(Bilinear Interpolation)从所述第t图像上选择对应于所述ROI的至少一个区域后,对其适用至少一次所述卷积层的运算生成所述第t掩码。
根据本发明的另一方面,提供一种为了使用至少一个神经网络(Neural Network)去除测试用视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试方法,其特征在于,包括:(a)学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时,使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码,(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的(Cropped)图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量(Object Motion Vector),(3)使抖动预测单元(Jittering Estimation Unit)参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量(Jittering Vector),(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失,并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下,获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时,测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤;(b)所述测试装置使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的(Cropped)图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量(Object Motion Vector)的步骤;以及(c)所述测试装置使所述抖动预测单元(Jittering Estimation Unit)参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素(Reference Pixel)的各测试用第t抖动向量(Jittering Vector)的步骤。
根据一个实施例,其特征在于,包括(d)所述计算装置使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像(Adjusted Image)的步骤。
根据本发明的又一方面,提供一种为了使用至少一个神经网络(Neural Network)去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖动的装置,其特征在于,包括:至少一个存储器,其存储指令;以及至少一个处理器,其构成为运行用于执行(I)获取到对应于所述视频的第t帧的第t图像时,使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的过程,(II)使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的(Cropped)图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量(Object Motion Vector)的过程,以及(III)使抖动预测单元(Jittering Estimation Unit)参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素(Reference Pixel)的各第t抖动向量(Jittering Vector)的过程的所述指令。
根据一个实施例,其特征在于,所述处理器还包括(IV)使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像(Adjusted Image)的过程。
根据一个实施例,其特征在于,所述处理器还包括(V)使学习单元(LearningUnit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失,并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的过程。
根据一个实施例,其特征在于,在所述(III)过程中,所述处理器使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量(Optical Flow Vector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。
根据一个实施例,其特征在于,在所述(IV)过程中,所述处理器使所述抖动预测单元算出最小化以下数学式的
Figure BDA0002360734590000061
以生成所述第t抖动向量,
Figure BDA0002360734590000071
Figure BDA0002360734590000072
表示所述第t抖动向量,
Figure BDA0002360734590000073
表示所述第t FPV向量,
Figure BDA0002360734590000074
表示所述第t客体运动向量,
Figure BDA0002360734590000075
表示第t-1FPV向量,
Figure BDA0002360734590000076
表示第t-1客体运动向量,λv及λo表示关于
Figure BDA0002360734590000077
Figure BDA0002360734590000078
的各加权值。
根据一个实施例,其特征在于,所述数学式使得对满足以下条件的项(Term)有效,
Figure BDA0002360734590000079
Figure BDA00023607345900000710
表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量,
Figure BDA00023607345900000711
表示关于非所述参考像素的其余像素的第二的第t光流向量,
Figure BDA00023607345900000712
表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量,Σ符号下端的i,j∈NB(x,y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息,wij,xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。
根据一个实施例,其特征在于,所述处理器使所述抖动预测单元算出最小化以下数学式的
Figure BDA00023607345900000713
Figure BDA00023607345900000714
Figure BDA00023607345900000715
表示所述第t抖动向量,
Figure BDA00023607345900000716
表示所述第t FPV向量,
Figure BDA00023607345900000717
表示所述第t客体运动向量,
Figure BDA00023607345900000718
表示关于第t-k图像的第t-k FPV向量,
Figure BDA00023607345900000719
表示关于所述第t-k图像的第t-k客体运动向量,wk表示关于
Figure BDA00023607345900000720
Figure BDA00023607345900000721
的各加权值,K为指定常数。
根据一个实施例,其特征在于,在所述(II)过程中,所述第二神经网络包括第2_1神经网络及第2_2神经网络,所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图(Intermediate FeatureMap),所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容,对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。
根据一个实施例,其特征在于,所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析,使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量(State Vector)生成所述第t客体运动向量,(ii)更新所述状态向量。
根据一个实施例,其特征在于,所述参考像素是位于所述第t图像上的所述网格的网格单元(Grid Cell)的边界(Boundary)上的顶点。
根据一个实施例,其特征在于,在所述(I)过程中,所述第一神经网络包括至少一个区域候网络(Region Proposal Network,RPN)、至少一个卷积层及至少一个池化层,所述RPN生成至少一个ROI时,所述第一神经网络利用双线性插值法(Bilinear Interpolation)从所述第t图像上选择对应于所述ROI的至少一个区域后,对其适用至少一次所述卷积层的运算生成所述第t掩码。
根据本发明的又一方面,提供一种为了使用至少一个神经网络(Neural Network)去除测试用视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试装置,其特征在于,包括:至少一个存储器,其存储指令;以及至少一个处理器,其构成为在学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时,使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码,(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的(Cropped)图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量(Object Motion Vector),(3)使抖动预测单元(Jittering Estimation Unit)参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量(Jittering Vector),(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失,并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下,运行用于执行(I)获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时,测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的过程、(II)使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的(Cropped)图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量(ObjectMotion Vector)的过程、及(III)使所述抖动预测单元(Jittering Estimation Unit)参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素(Reference Pixel)的各测试用第t抖动向量(Jittering Vector)的过程的所述指令。
根据一个实施例,其特征在于:所述处理器包括(IV)使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像(Adjusted Image)的过程。
此外,还提供用于存储用于运行本发明的方法的计算机程序的计算机可读存储介质。
技术效果
本发明提供使用多个神经网络(Neural Network)补正从晃动的摄像头获取的发生抖动(Jittering)的图像的方法,因此具有即使摄像头晃动也能够获取合适的图像的效果。
本发明还具有在极限状况下提供容错(Fault Tolerance)及波动鲁棒性(Fluctuation Robustness)的多个神经网络的效果。
附图说明
为了用于说明本发明的实施例而所附的以下附图只是本发明的实施例中的一部分而已,本发明所属技术领域的一般技术人员(以下“普通技术人员”)在未经过创造性劳动的情况下可基于这些附图得到其他附图。
图1是简要示出执行本发明的一个实施例的使用多个神经网络(Neural Network)从视频上去除抖动(Jittering)的方法的计算装置的构成的示意图;
图2是简要示出本发明的一个实施例的学习使用多个神经网络从视频上去除抖动的方法的过程的示意图;
图3是简要示出执行本发明的一个实施例的使用多个神经网络从视频上去除抖动的方法的第二神经网络的例示性结构的示意图;
图4是简要示出为了执行本发明的一个实施例的使用多个神经网络从视频上去除抖动的方法而建模第t图像上的非参考像素(Reference Pixel)的特定像素的光流向量(Optical Flow Vector)的例示的示意图。
具体实施方式
以下参见例示能够实施本发明的特定实施例的附图对本发明进行详细说明。通过详细说明这些实施例使得本领域普通技术人员足以实施本发明。应理解虽然本发明的多种实施例彼此互异,但不必相互排他。例如,此处记载的特定形状、结构及特性在关于一个实施例不超出本发明的精神及范围的前提下可以以其他实施例实现。并且,在不超出本发明的精神及范围的前提下公开的各实施例内的个别构成要素的位置或配置是可以变更的。因此以下具体说明并非以限定为目的,确切来讲,本发明的范围仅限于权利要求所记载的范围及与之等同的所有范围。在附图中类似的附图标记在各方面表示相同或类似的功能。
本发明所述的各种图像可包括铺装或非铺装道路相关图像,该情况下可想到道路环境中可能出现的物体(例如,汽车、人、动物、植物、物件、建筑物、飞机或无人机之类的飞行器、其他障碍物),但并不局限于此,本发明所述的各种图像还可以是与道路无关的图像(例如,非铺装道路、胡同、空地、大海、湖泊、河流、山川、草地、沙漠、天空、室内相关的图像),该情况下,可想到非铺装道路、胡同、空地、大海、湖泊、河流、山川、草地、沙漠、天空、室内环境中可能出现的物体(例如,汽车、人、动物、植物、物件、建筑物、飞机或无人机之类的飞行器、其他障碍物),但并不局限于此。
以下,为了使得本发明所属技术领域的普通技术人员能够轻易地实施本发明,参见附图对本发明的优选实施例进行具体说明。
图1是简要示出执行本发明的一个实施例的使用多个神经网络(Neural Network)从视频上去除抖动(Jittering)的方法的计算装置的构成的示意图。
参见图1,计算装置100可包括以下要具体说明的构成要素即第一神经网络130、第二神经网络140、抖动预测单元(Jittering Estimation Unit)150及学习单元160。第一神经网络130、第二神经网络140、抖动预测单元150及学习单元160的输入输出及运算过程可分别通过通信部110及处理器120实现。但图1省略了通信部110及处理器120之间的具体连接关系。在此,存储器115可以是存储有下述多种指令的状态,处理器120被设定成运行存储于存储器115的指令,处理器120可通过执行以下要说明的过程执行本发明。尽管如上说明了计算装置100,但并不排除计算装置100具有包括用于实施本发明的处理器、存储器、介质或其他计算装置的所有组合的集成处理器(Integrated Processor)的情况。
如以上对计算装置100的整体构成进行了说明,以下对计算装置100执行的使用多个神经网络从视频上去除抖动的方法进行说明。
图2是关于本发明的一个实施例的学习使用多个神经网络从视频上去除抖动的方法的过程的示意图。
参见图2,可通过第一神经网络130、第二神经网络140及抖动预测单元150依次执行运算。学习单元160可以利用运算结果生成至少一个损失后反向传播该损失学习第二神经网络140的至少一个参数的至少一部分。
具体来讲,首先,计算装置100可获取或支持其他装置获取第t图像。第t图像可以是从晃动的摄像头获取的影像,即,视频发生抖动时该视频的第t个帧。另外,本发明的一个实施例的方法适用于摄像头晃动而发生抖动的情况,晃动的摄像头的效果从视频的第一帧以后开始发生,因此在此声明在以下具体说明中假设了t为2以上。获取的所述第t图像首先输入到第一神经网络130。计算装置100可以使第一神经网络130对第t图像适用至少一次第一神经网络运算生成对应于第t图像内的各客体的各第t掩码。
第t掩码可以是通过第一神经网络130对第t图像适用客体检测及图像分割的结果。具体来讲,第一神经网络130可包括至少一个RPN(Region Proposal Network,区域候选网络)、至少一个卷积层及至少一个池化层。在此,RPN生成至少一个ROI(感兴趣区域)的情况下,第一神经网络可通过双线性插值法(Bilinear Interpolation)从第t图像上选择对应于ROI的至少一个区域后,对所述至少一个区域适用至少一次卷积层运算生成第t掩码。因此,各第t掩码可以是包括第t图像上的各客体的边界框(Bounding Box),各第t掩码可具有相当于客体的像素用1表示,不相当于客体的像素用0表示的结构。
在此,作为例示,第一神经网络130可具有与已知的掩码R-CNN(Mask R-CNN)类似的结构。并且,第一神经网络130可以在执行学习本发明的一个实施例的方法的过程之前已经学习了如上所述的生成第t掩码的方法。
之后,计算装置100使第二神经网络140获取(i)各第t掩码、(ii)与其对应的作为第t图像的一部分的各第t剪切的(Cropped)图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像,(iii)及(iv)可以是对应于作为第t帧的上一帧的第t-1帧的第t-1图像。第t剪切的图像可以是对应于第t图像的一部分的图像,所述一部分对应于第t掩码。并且,第t-1掩码及第t-1剪切的图像可以是第二神经网络140对第t-1图像进行处理时生成的。
获取到各第t掩码、各第t剪切的图像、各第t-1掩码及各第t-1剪切的图像的情况下,计算装置100可以使第二神经网络140对各第t掩码、各第t剪切的图像、各第t-1掩码及各第t-1剪切的图像适用至少一次第二神经网络运算使得生成第t客体运动向量。
各第t客体运动向量是表示在拍摄了第t-1图像的时间点与拍摄了所述第t图像的时间点之间各客体运动的程度的向量。即,存在对应于第t-1特定掩码及特定第t掩码的特定客体的情况下,第二神经网络140可以(i)获取比较了对应于特定客体的特定客体像素的第t-1特定掩码上的位置与在特定第t掩码的位置的位置比较信息(ComparisonInformation),(ii)比较第t-1特定剪切的图像与特定第t剪切的图像获取关于背景的变化的变化信息(Change Information)后,(iii)参照位置比较信息及变化信息生成表示特定客体在拍摄了第t-1图像的时间点与拍摄了所述第t图像的时间点之间运动的程度的特定第t客体运动向量。
在此,第二神经网络140可具有单一的CNN的结构,通过该结构执行的第二神经网络运算可包括至少一个卷积运算及附加于其的运算。但这是用于更有效地用少量的资源而却得到更好的结果的结构,第二神经网络140可包括第2_1神经网络及第2_2神经网络。为了对此进行说明而参见图3。
图3是简要示出执行本发明的一个实施例的使用多个神经网络从视频上去除抖动的方法的第二神经网络的例示性结构的示意图。
参见图3可知,第2_1神经网络141与第2_2神经网络142依次执行运算生成第t抖动向量。
具体来讲,第2_1神经网络141可具有CNN的结构,其可对各第t掩码、各第t剪切的图像、各第t-1掩码及各第t-1剪切的图像适用至少一次包括卷积运算的第2_1神经网络运算,生成包括关于输入的值的分析信息的至少一个中间特征地图(Intermediate FeatureMap)。之后,具有RNN结构的第2_2神经网络142可获取中间特征地图,可通过其参照关于输入的值的分析信息对中间特征地图适用第2_2神经网络运算生成第t客体运动向量。所述分析结果包括对获取到第t图像之前输入到第2_2神经网络的值的分析结果。该过程可参照每当执行了第2_2神经网络运算的情况下第2_2神经网络142处理输入到自身的值时更新的状态向量(State Vector)通过第2_2神经网络142实现。
之后,计算装置100可使抖动预测单元150参照第t客体运动向量生成第t抖动向量。在该过程中可算出用于学习第二神经网络140的至少一部分参数的损失,以下对各过程进行说明。
具体来讲,计算装置100可以使抖动预测单元150参照第t客体运动向量生成对应于包含在第t图像的像素中参考像素(Reference Pixel)的第t抖动向量。参考像素是指位于第t图像上生成的网格的至少一个网格单元(Grid Cell)的边界(Boundary)上的顶点。实质上,若对第t图像内的所有像素计算抖动程度,其运算量过大,这在实时性非常重要的自动行驶方面可引发延迟,可使用分割第t图像的网格且计算作为网格单元的顶点的像素的抖动生成关于第t图像的第t抖动向量。即,第t抖动向量是指追踪了能够代表第t图像内的各像素的参考像素的抖动的结果,成为表示摄像头的抖动的振幅与方向的指标。
为了生成第t抖动向量,计算装置100使抖动预测单元150进一步地参照第t光流向量及第t FPV向量对第t客体运动向量进行优化的过程,以下对此进行具体说明。
首先,(i)各第t光流向量表示对应于第t图像内的各像素的各地点在拍摄了第t-1图像的时间点与拍摄了第t图像的时间点之间运动的程度,(ii)各第t FPV向量可表示在摄像头拍摄了第t-1图像的时间点与拍摄了第t图像的时间点之间各地点在三维上运动的程度。在此,第t光流向量不同于所述的其他向量,不是推定的,而是通过卢卡斯-卡纳德方法(Lucas-Kanade Method)比较第t-1图像及第t图像并适用以准确地算出的。即,这是并不随以下要说明的优化过程变化的常数。并且,第t抖动向量、第t FPV向量仅对参考像素算出,可以设定第t图像上非被判别为对应于客体的客体像素的像素的第t客体运动向量为0。
为了优化过程,假设第t光流向量、第t FPV向量、第t客体运动向量、第t抖动向量之间存在如以下两个数学式所示的关系。
Figure BDA0002360734590000141
所述数学式基本表示测定的第t光流向量由第t FPV向量、第t客体运动向量、第t抖动向量之和构成这一假设。具体来讲,第一个左侧数学式的项(Term)中,
Figure BDA0002360734590000142
表示关于参考像素的第一的第t光流向量,
Figure BDA0002360734590000143
表示客体像素及作为参考像素的特定像素的第t客体运动向量,
Figure BDA0002360734590000144
表示第t FPV向量,
Figure BDA0002360734590000145
表示第t抖动向量。
参考像素的第一的第t光流向量如第一个数学式建模成其余向量的和(Sum),反面,并非参考像素的像素的第二的第t光流向量建模成关于周边参考像素的第t FPV向量及第t抖动向量的加权和(Weighted Sum)。
Figure BDA0002360734590000146
表示关于非参考像素的其余像素的第t光流向量,
Figure BDA0002360734590000147
表示非参考像素的其余像素的第t客体运动向量,Σ符号表示构成网格的关于参考像素中部分参考像素的第t FPV向量及第t抖动向量的加权和。为了对此具体说明而参照图4。
图4是简要示出为了执行本发明的一个实施例使用多个神经网络从视频去除抖动的方法而建模第t图像上的非参考像素的特定像素的光流向量的示意图。
若以图4为例对所述说明进行补充说明,对应于人客体的手臂部分的特定像素的第t光流向量151建模成由第t客体运动向量152、关于特定像素周边的参考像素的第t FPV向量153_1、153_2、153_3、153_4及关于特定像素周边的参考像素的第t抖动向量154_1、154_2、154_3、154_4构成。在此,关于反映多少各第t FPV向量153_1、153_2、153_3、153_4及各第t抖动向量154_1、154_2、154_3、154_4,可根据所述数学式的Σ符号内的加权值wij,xy确定。作为例示,可根据特定像素与各参考像素之间的距离确定所述加权值。
在上述假设下,除第t光流向量以外的其余向量可通过如下数学式优化。
Figure BDA0002360734590000151
即,在上述假设下,找出最小化所述数学式的
Figure BDA0002360734590000152
以优化第t客体运动向量,生成第t FPV向量、第t抖动向量。是第t客体运动向量的情况下,可以以通过第二神经网络140生成的第t客体运动向量为基准,利用所述式进行调整的方式优化。
在所述数学式中,
Figure BDA0002360734590000153
表示第t-1FPV向量,
Figure BDA0002360734590000154
表示第t-1客体运动向量,λv及λo表示关于
Figure BDA0002360734590000155
Figure BDA0002360734590000156
的各加权值。在此,
Figure BDA0002360734590000157
防止明显解(Trivial Solution),能够最大化关于非抖动的运动的向量的信息的量。其余项起到防止第t FPV向量及第t客体运动向量相比于各第t-1FPV向量及第t-1客体运动向量非现实地很大的作用。这是因为非抖动的运动(Motion)具有在一个帧单位的短时间内并不大幅变化的特性。
作为另一例,以下说明根据其他数学式经过优化过程的实施例。
Figure BDA0002360734590000161
原来的数学式与所述数学式的区别在于原来的数学式利用了参照对应于第t帧之前的帧的第t-1图像生成的信息,而新实施例的所述其他数学式利用参照对应于第t帧之前的K个帧的图像生成的信息。
Figure BDA0002360734590000162
表示关于第t-k图像的第t-k FPV向量,
Figure BDA0002360734590000163
表示关于第t-k图像的第t-k客体运动向量,所述新数学式能够起到如之前说明的作用。wk可表示关于
Figure BDA0002360734590000164
Figure BDA0002360734590000165
的加权值,作为例示,可用
Figure BDA0002360734590000166
之类的数学式表示。使用这种过程的情况下运算量增大,但能够更准确地优化第t客体运动向量,能够生成第t FPV向量及第t抖动向量。
为了如上生成缓解了第t图像的抖动的第t调整图像而可以参照第t抖动向量。作为例示,可以将各参考像素的各位置移动成和与各自对应的第t抖动向量具有相同的振幅但方向相反,然后与之相符地调整包含于网格内部的各图像以缓解抖动生成第t调整图像。
以上对优化过程进行了说明,以下说明利用优化过程中能够算出的损失学习第二神经网络140的过程。
在优化过程中,如上所述,第t客体运动向量在生成第t FPV向量、第t抖动向量的同时被优化。此时,学习单元160可以(i)从抖动预测单元150获取优化的第t客体运动向量,(ii)从第二神经网络140获取优化之前的第t客体运动向量后,(iii)生成彼此对应的优化之前与优化之后各第t客体运动向量的差异信息(Difference Information),(iv)参照所述差异信息生成损失。之后,可反向传播该损失学习第二神经网络140。第一神经网络130可以是如上已经学习的状态,抖动预测单元150使用预先设定的数学式,因此没有可学习的。
已对本发明的一个实施例的学习方法进行了说明,以下对测试本发明的方法进行说明。
作为参考,为了防止在以下说明中发生混淆,对与学习过程相关的术语添加术语“学习用”,对与测试过程相关的术语添加术语“测试用”。
在学习装置结束了(1)获取到相当于学习用视频上的学习用第t帧的学习用第t图像的情况下,可以使第一神经网络130对学习用第t图像适用至少一次第一神经网络运算以生成对应于学习用第t图像内的各学习用客体的各学习用第t掩码,(2)使第二神经网络140对(i)各学习用第t掩码、(ii)与其对应的作为学习用第t图像的一部分的各学习用第t剪切的(Cropped)图像、(iii)各学习用第t-1掩码及(iv)在与其对应的学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于学习用第t图像的对应于各学习用客体的学习用客体像素的各学习用第t客体运动向量(ObjectMotion Vector),(3)使抖动预测单元150参照各学习用第t客体运动向量生成对应于学习用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量(Jittering Vector),(4)使学习单元160参照(i)通过用于生成学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的学习用第t客体运动向量算出至少一个损失,反向传播损失学习第二神经网络140的至少一个参数的至少一部分的过程的状态下,获取到相当于测试用视频的测试用第t帧的测试用第t图像的状态下,测试装置可以使第一神经网络对测试用第t图像适用第一神经网络运算生成对应于测试用第t图像内的各测试用客体的各测试用第t掩码。
之后测试装置可以使第二神经网络对(i)各测试用第t掩码、(ii)与其对应的作为测试用第t图像的一部分的各测试用第t剪切的(Cropped)图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于测试用第t图像的对应于各测试用客体的各测试用客体像素的各测试用第t客体运动向量(Object Motion Vector)。
并且测试装置可以使抖动预测单元(Jittering Estimation Unit)参照测试用第t客体运动向量生成对应于测试用第t图像内的像素中各测试用参考像素(ReferencePixel)的各测试用第t抖动向量(Jittering Vector)。
并且,测试装置可以使所述抖动预测单元参照测试用第t抖动向量生成缓解了测试用第t图像的抖动的测试用第t调整图像(Adjusted Image)。
根据如上本发明的一个实施例使用多个神经网络执行补正从晃动的摄像头获取的发生抖动的图像的方法,因此即使摄像头晃动也能够对此补正以从该摄像头获取合适的图像。
并且,本发明的一个实施例的方法可用于影像稳定化、超精密客体追踪、行动预测、运动(Motion)分解。
本发明所属技术领域的普通技术人员能够理解,以上说明的图像、例如原始图像、原始标签及附加标签之类的图像数据的收发可通过学习装置及测试装置的通信部实现,用于与特征图执行运算的数据可通过学习装置及测试装置的处理器(及/或存储器)存储/维护,卷积运算、去卷积运算、损失值运算过程主要可以通过学习装置及测试装置的处理器执行,但本发明不限于此。
以上说明的本发明的实施例可实现为能够通过多种计算机构成要素执行的程序命令的形态存储在计算机可读存储介质中。所述计算机可读存储介质可包括程序指令、数据文件、数据结构等或其组合。存储在所述计算机可读存储介质中的程序指令可以是为本发明而专门设计和构成的,但也可以是计算机软件领域的技术人员公知使用的。计算机可读存储介质例如可以是硬盘、软盘及磁带之类的磁介质、CD-ROM、DVD之类的光存储介质、软光盘(floptical disk)之类的磁-光介质(magneto-optical media)及ROM、RAM、闪速存储器等为了存储和执行程序命令而专门构成的硬件装置。并且,程序命令不仅包括通过编译器得到的机器代码,还包括能够通过解释器由计算机运行的高级语言代码。所述硬件装置可构成为为了执行本发明的处理而作为一个以上的软件模块工作,反之相同。
以上通过具体构成要素等特定事项与限定的实施例及附图对本发明进行了说明,但是其目的只是用于帮助更全面的理解,本发明并不限定于上述实施例,本发明所属领域的普通技术人员可根据以上记载想到多种修改及变更。
因此本发明的思想不应局限于以上说明的实施例,应理解所述权利要求范围及与该权利要求范围等同或等价变形的所有一切都属于本发明思想的范畴。

Claims (26)

1.一种方法,是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头而生成的所述视频检测抖动的方法,其特征在于,包括:
(a)获取到对应于所述视频的第t帧的第t图像时,计算装置使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤;
(b)所述计算装置使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的步骤;以及
(c)所述计算装置使抖动预测单元参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素的各第t抖动向量的步骤。
2.根据权利要求1所述的方法,其特征在于,还包括:
(d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像的步骤。
3.根据权利要求1所述的方法,其特征在于,还包括:
(e)所述计算装置使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失,并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。
4.根据权利要求1所述的方法,其特征在于,在所述(c)步骤中,
所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。
5.根据权利要求2所述的方法,其特征在于:
在所述(d)步骤中,所述计算装置使所述抖动预测单元算出最小化以下数学式的
Figure FDA0002360734580000011
以生成所述第t抖动向量,
Figure FDA0002360734580000021
Figure FDA0002360734580000022
表示所述第t抖动向量,
Figure FDA0002360734580000023
表示所述第t FPV向量,
Figure FDA0002360734580000024
表示所述第t客体运动向量,
Figure FDA0002360734580000025
表示第t-1FPV向量,
Figure FDA0002360734580000026
表示第t-1客体运动向量,λv及λ0表示关于
Figure FDA0002360734580000027
Figure FDA0002360734580000028
的各加权值。
6.根据权利要求5所述的方法,其特征在于:
所述数学式使得对满足以下条件的项有效,
Figure FDA0002360734580000029
Figure FDA00023607345800000210
表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量,
Figure FDA00023607345800000211
表示关于非所述参考像素的其余像素的第二的第t光流向量,
Figure FDA00023607345800000212
表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量,Σ符号下端的i,j∈NB(x,y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息,wij,xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。
7.根据权利要求4所述的方法,其特征在于:
所述计算装置使所述抖动预测单元算出最小化以下数学式的
Figure FDA00023607345800000213
Figure FDA00023607345800000214
Figure FDA00023607345800000215
表示所述第t抖动向量,
Figure FDA00023607345800000216
表示所述第t FPV向量,
Figure FDA00023607345800000217
表示所述第t客体运动向量,
Figure FDA00023607345800000218
表示关于第t-k图像的第t-k FPV向量,
Figure FDA00023607345800000219
表示关于所述第t-k图像的第t-k客体运动向量,wk表示关于
Figure FDA00023607345800000220
Figure FDA00023607345800000221
的各加权值,K为指定常数。
8.根据权利要求1所述的方法,其特征在于:
在所述(b)步骤中,所述第二神经网络包括第2_1神经网络及第2_2神经网络,
所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图,
所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容,对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。
9.根据权利要求8所述的方法,其特征在于:
所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析,使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量生成所述第t客体运动向量,(ii)更新所述状态向量。
10.根据权利要求1所述的方法,其特征在于:
所述参考像素是位于所述第t图像上的所述网格的网格单元的边界上的顶点。
11.根据权利要求1所述的方法,其特征在于:
在所述(a)步骤中,
所述第一神经网络包括至少一个RPN、至少一个卷积层及至少一个池化层,
所述RPN生成至少一个ROI时,所述第一神经网络利用双线性插值法从所述第t图像上选择对应于所述ROI的至少一个区域后,对其适用至少一次所述卷积层的运算生成所述第t掩码。
12.一种方法,是为了使用至少一个神经网络去除测试用视频上的抖动而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试方法,其特征在于,包括:
(a)学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时,使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码,(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量,(3)使抖动预测单元参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素的各学习用第t抖动向量,(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失,并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下,获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时,测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤;
(b)所述测试装置使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量的步骤;以及
(c)所述测试装置使所述抖动预测单元参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素的各测试用第t抖动向量的步骤。
13.根据权利要求12所述的方法,其特征在于,包括:
(d)所述计算装置使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像的步骤。
14.一种装置,是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头而生成的所述视频检测抖动的计算装置,其特征在于,包括:
至少一个存储器,其存储指令;以及
至少一个处理器,其构成为运行用于执行(I)获取到对应于所述视频的第t帧的第t图像时,使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的过程,(II)使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的过程,以及(III)使抖动预测单元参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素的各第t抖动向量的过程的所述指令。
15.根据权利要求14所述的装置,其特征在于:
所述处理器还包括(IV)使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像的过程。
16.根据权利要求14所述的装置,其特征在于:
所述处理器还包括(V)使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失,并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的过程。
17.根据权利要求14所述的装置,其特征在于:
在所述(III)过程中,所述处理器使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第tFPV向量生成所述第t抖动向量。
18.根据权利要求15所述的装置,其特征在于:
在所述(IV)过程中,所述处理器使所述抖动预测单元算出最小化以下数学式的
Figure FDA0002360734580000051
以生成所述第t抖动向量,
Figure FDA0002360734580000052
Figure FDA0002360734580000053
表示所述第t抖动向量,
Figure FDA0002360734580000054
表示所述第t FPV向量,
Figure FDA0002360734580000055
表示所述第t客体运动向量,
Figure FDA0002360734580000056
表示第t-1 FPV向量,
Figure FDA0002360734580000057
表示第t-1客体运动向量,λv及λo表示关于
Figure FDA0002360734580000061
Figure FDA0002360734580000062
的各加权值。
19.根据权利要求18所述的装置,其特征在于:
所述数学式使得对满足以下条件的项有效,
Figure FDA0002360734580000063
Figure FDA0002360734580000064
表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量,
Figure FDA0002360734580000065
表示关于非所述参考像素的其余像素的第二的第t光流向量,
Figure FDA0002360734580000066
表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量,∑符号下端的i,j∈NB(x,y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息,wij,xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。
20.根据权利要求17所述的装置,其特征在于:
所述处理器使所述抖动预测单元算出最小化以下数学式的
Figure FDA0002360734580000067
Figure FDA0002360734580000068
Figure FDA0002360734580000069
Figure FDA00023607345800000610
表示所述第t抖动向量,
Figure FDA00023607345800000611
表示所述第t FPV向量,
Figure FDA00023607345800000612
表示所述第t客体运动向量,
Figure FDA00023607345800000613
表示关于第t-k图像的第t-k FPV向量,
Figure FDA00023607345800000614
表示关于所述第t-k图像的第t-k客体运动向量,wk表示关于
Figure FDA00023607345800000615
Figure FDA00023607345800000616
的各加权值,K为指定常数。
21.根据权利要求14所述的装置,其特征在于:
在所述(II)过程中,
所述第二神经网络包括第2_1神经网络及第2_2神经网络,
所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图,
所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容,对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。
22.根据权利要求21所述的装置,其特征在于:
所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析,使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量生成所述第t客体运动向量,(ii)更新所述状态向量。
23.根据权利要求14所述的装置,其特征在于:
所述参考像素是位于所述第t图像上的所述网格的网格单元的边界上的顶点。
24.根据权利要求14所述的装置,其特征在于:
在所述(I)过程中,
所述第一神经网络包括至少一个RPN、至少一个卷积层及至少一个池化层,
所述RPN生成至少一个ROI时,所述第一神经网络利用双线性插值法从所述第t图像上选择对应于所述ROI的至少一个区域后,对其适用至少一次所述卷积层的运算生成所述第t掩码。
25.一种装置,是为了使用至少一个神经网络去除测试用视频(Video)上的抖动而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试装置,其特征在于,包括:
至少一个存储器,其存储指令;以及
至少一个处理器,其构成为在学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时,使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码,(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量,(3)使抖动预测单元参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素的各学习用第t抖动向量,(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失,并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下,运行用于执行(I)获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时,测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的过程、(II)使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量的过程、及(III)使所述抖动预测单元参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素的各测试用第t抖动向量的过程的所述指令。
26.根据权利要求25所述的装置,其特征在于:
所述处理器包括(IV)使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像的过程。
CN202010020867.9A 2019-01-31 2020-01-09 用用于容错及波动鲁棒性的神经网络除抖动的方法及装置 Active CN111507906B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/262,996 2019-01-31
US16/262,996 US10482584B1 (en) 2019-01-31 2019-01-31 Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN111507906A true CN111507906A (zh) 2020-08-07
CN111507906B CN111507906B (zh) 2023-10-10

Family

ID=68536108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010020867.9A Active CN111507906B (zh) 2019-01-31 2020-01-09 用用于容错及波动鲁棒性的神经网络除抖动的方法及装置

Country Status (5)

Country Link
US (1) US10482584B1 (zh)
EP (1) EP3690811A1 (zh)
JP (1) JP6901803B2 (zh)
KR (1) KR102320999B1 (zh)
CN (1) CN111507906B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019207524A1 (en) * 2018-04-25 2019-10-31 Seesure Single image completion from retrieved image collections
US12012127B2 (en) * 2019-10-26 2024-06-18 Zoox, Inc. Top-down view object detection and tracking
CN111901532B (zh) * 2020-09-30 2020-12-25 南京理工大学 基于循环神经网络迭代策略的视频稳定方法
US20220138903A1 (en) * 2020-11-04 2022-05-05 Nvidia Corporation Upsampling an image using one or more neural networks
WO2023140446A1 (ko) * 2022-01-19 2023-07-27 한화비전 주식회사 영상처리장치 및 그의 영상처리방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012270A (en) * 1988-03-10 1991-04-30 Canon Kabushiki Kaisha Image shake detecting device
US20100245604A1 (en) * 2007-12-03 2010-09-30 Jun Ohmiya Image processing device, photographing device, reproducing device, integrated circuit, and image processing method
US20110019016A1 (en) * 2009-07-21 2011-01-27 Canon Kabushiki Kaisha Image processing apparatus, image pickup apparatus, and image processing method
US20150341667A1 (en) * 2012-12-21 2015-11-26 Thomson Licensing Video quality model, method for training a video quality model, and method for determining video quality using a video quality model
CN106485226A (zh) * 2016-10-14 2017-03-08 杭州派尼澳电子科技有限公司 一种基于神经网络的视频行人检测方法
CN107566688A (zh) * 2017-08-30 2018-01-09 广州华多网络科技有限公司 一种基于卷积神经网络的视频防抖方法及装置
US10089743B1 (en) * 2017-10-05 2018-10-02 StradVision, Inc. Method for segmenting an image and device using the same
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
KR101935399B1 (ko) * 2018-07-11 2019-01-16 주식회사 두원전자통신 심층 신경망 알고리즘 기반 광역 다중 객체 감시 시스템

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004351190A (ja) * 2002-08-21 2004-12-16 Daiya Seiyaku Kk マスク及びその製造方法
JP2015039085A (ja) * 2011-12-14 2015-02-26 パナソニック株式会社 画像処理装置及び画像処理方法
US9374532B2 (en) * 2013-03-15 2016-06-21 Google Inc. Cascaded camera motion estimation, rolling shutter detection, and camera shake detection for video stabilization
US10181195B2 (en) * 2015-12-28 2019-01-15 Facebook, Inc. Systems and methods for determining optical flow
WO2018119240A1 (en) * 2016-12-21 2018-06-28 Massachusetts Institute Of Technology Determining soil state and controlling equipment based on captured images
US11048997B2 (en) * 2016-12-27 2021-06-29 Texas Instruments Incorporated Reduced complexity convolution for convolutional neural networks
US10534962B2 (en) * 2017-06-17 2020-01-14 Matterport, Inc. Automated classification based on photo-realistic image/model mappings
US10217028B1 (en) * 2017-08-22 2019-02-26 Northrop Grumman Systems Corporation System and method for distributive training and weight distribution in a neural network
JP3227736U (ja) * 2020-06-05 2020-09-17 株式会社ノグチニット マスク
JP3228820U (ja) * 2020-07-14 2020-11-12 株式会社アーバンナワチ 立体マスク

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012270A (en) * 1988-03-10 1991-04-30 Canon Kabushiki Kaisha Image shake detecting device
US20100245604A1 (en) * 2007-12-03 2010-09-30 Jun Ohmiya Image processing device, photographing device, reproducing device, integrated circuit, and image processing method
US20110019016A1 (en) * 2009-07-21 2011-01-27 Canon Kabushiki Kaisha Image processing apparatus, image pickup apparatus, and image processing method
US20150341667A1 (en) * 2012-12-21 2015-11-26 Thomson Licensing Video quality model, method for training a video quality model, and method for determining video quality using a video quality model
CN106485226A (zh) * 2016-10-14 2017-03-08 杭州派尼澳电子科技有限公司 一种基于神经网络的视频行人检测方法
CN107566688A (zh) * 2017-08-30 2018-01-09 广州华多网络科技有限公司 一种基于卷积神经网络的视频防抖方法及装置
US10089743B1 (en) * 2017-10-05 2018-10-02 StradVision, Inc. Method for segmenting an image and device using the same
KR101935399B1 (ko) * 2018-07-11 2019-01-16 주식회사 두원전자통신 심층 신경망 알고리즘 기반 광역 다중 객체 감시 시스템
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法

Also Published As

Publication number Publication date
JP6901803B2 (ja) 2021-07-14
KR102320999B1 (ko) 2021-11-03
EP3690811A1 (en) 2020-08-05
KR20200095339A (ko) 2020-08-10
JP2020126617A (ja) 2020-08-20
CN111507906B (zh) 2023-10-10
US10482584B1 (en) 2019-11-19

Similar Documents

Publication Publication Date Title
CN111507906B (zh) 用用于容错及波动鲁棒性的神经网络除抖动的方法及装置
US11200696B2 (en) Method and apparatus for training 6D pose estimation network based on deep learning iterative matching
US11763466B2 (en) Determining structure and motion in images using neural networks
KR102396272B1 (ko) Avm 및 강화 학습을 이용하여 자율 주행의 안전성을 달성하기 위한 어텐션-드리븐 알고리즘을 이용한 리소스 할당을 위한 방법 및 장치
CN111489298B (zh) 用gan减少图像的畸变的学习方法及装置、测试方法及装置
US20210287047A1 (en) Training method for image processing model, image processing method, network device, and storage medium
CN113286194A (zh) 视频处理方法、装置、电子设备及可读存储介质
US11100646B2 (en) Future semantic segmentation prediction using 3D structure
CN113066017B (zh) 一种图像增强方法、模型训练方法及设备
KR20180065498A (ko) 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법
US20230419521A1 (en) Unsupervised depth prediction neural networks
US10013741B2 (en) Method for deblurring video using modeling blurred video with layers, recording medium and device for performing the method
CN111488786B (zh) 基于cnn的监视用客体检测器的方法及装置
US11741579B2 (en) Methods and systems for deblurring blurry images
CN113362338A (zh) 铁轨分割方法、装置、计算机设备和铁轨分割处理系统
US20200167650A1 (en) Hinted neural network
CN112907750A (zh) 一种基于卷积神经网络的室内场景布局估计方法及系统
WO2023045627A1 (zh) 图像超分方法、装置、设备及存储介质
CN115760590A (zh) 一种视频稳像方法及系统
CN113538425B (zh) 可通行水域分割设备、图像分割模型训练和图像分割方法
CN115222955B (zh) 图像匹配模型的训练方法、装置、电子设备及存储介质
CN117726544A (zh) 一种面向复杂运动场景的图像去模糊方法和系统
CN117541507A (zh) 图像数据对的建立方法、装置、电子设备和可读存储介质
Zhang et al. Scene recovery: Combining visual enhancement and resolution improvement
Tappen Statement of Research Intent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant