CN110998597B - 图像数据生成装置、图像识别装置、图像数据生成程序、及图像识别程序 - Google Patents

图像数据生成装置、图像识别装置、图像数据生成程序、及图像识别程序 Download PDF

Info

Publication number
CN110998597B
CN110998597B CN201880050342.0A CN201880050342A CN110998597B CN 110998597 B CN110998597 B CN 110998597B CN 201880050342 A CN201880050342 A CN 201880050342A CN 110998597 B CN110998597 B CN 110998597B
Authority
CN
China
Prior art keywords
image data
data
image
dimensional
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880050342.0A
Other languages
English (en)
Other versions
CN110998597A (zh
Inventor
山田英夫
村松竜弥
柴田雅聪
榎田修一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Aisin Corp
Original Assignee
Kyushu Institute of Technology NUC
Aisin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC, Aisin Co Ltd filed Critical Kyushu Institute of Technology NUC
Priority claimed from PCT/JP2018/028606 external-priority patent/WO2019026890A1/ja
Publication of CN110998597A publication Critical patent/CN110998597A/zh
Application granted granted Critical
Publication of CN110998597B publication Critical patent/CN110998597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明以对动态的识别对象进行图像识别为目的。图像识别装置(1)通过时空间图像数据生成部(2)来将构成视频数据(4)的帧图像数据(6)希尔伯特扫描而生成一维空间图像数据(7),进而将一维空间图像数据(7)在时间方向排列而生成保持空间信息与时间信息的二维的时空间图像数据(8)。像这样图像识别装置(1)保持空间信息与时间信息,并且将视频数据(4)图像转换为二维的时空间图像数据(8)。接下来,图像识别装置(1)通过CNN部(3)来对时空间图像数据(8)进行使用二维过滤器的卷积处理,而对识别对象亦即步行者的行动进行图像识别。像这样,图像识别装置(1)能够将需要空间二维、时间一维的三维的解析的步行者的行动识别通过二维图像的基于CNN的图像识别处理来进行,而推断步行者的状态。

Description

图像数据生成装置、图像识别装置、图像数据生成程序、及图 像识别程序
技术领域
本发明涉及图像数据生成装置、图像识别装置、图像数据生成程序、及图像识别程序,例如涉及使用CNN识别步行者等各种图像的装置或程序。
背景技术
近年来,正积极地研究使用人工智能的深度学习,并在使用CNN的二维图像的图像识别的领域中报告有较大的成果。
由于视频是将二维图像亦即帧图像以时间序列并列后的产物,因此希望将对二维图像的深度学习的技术应用于视频这一迫切期望日益高涨。
作为使用这样的二维的图像识别技术来识别视频的技术,存在非专利文献1的“3DConvolutional Neural Networks for Human Action Recognition”、非专利文献2的“使用帧连结图像的基于CNN的情景识别”。
非专利文献1的技术对视频数据应用从空间二维与时间一维而成的卷积过滤器,来进行卷积处理。
非专利文献2的技术通过将拍摄对象的活动(发声情景)后的一系列的帧图像以瓷砖状配置而连结,从而通过1张二维的图像来表示对象的相对于时间的变化。将之投入基于CNN的图像识别装置来进行情景的识别。
然而,在非专利文献1的技术中,由于对视频数据重复使用三维的卷积过滤器,因此存在计算成本变多,而需要大规模的计算机这一问题。
在非专利文献2记载的技术中,由于使用二维的卷积过滤器,因此虽然能够减少计算成本,但存在在以瓷砖状邻接的图像的像素之间没有信息的相关性,而对象的识别精度降低这一问题。
非专利文献1:IEEE Transactions on Pattern Analysis and MachineIntelligence,Vol.35,pp.221-231,2013,“3D Convolutional Neural Networks forHuman Action Recognition”
非专利文献2:MIRU2016第19次图像的识别·理解座谈会PS1-27“使用帧连结图像的基于CNN的情景识别”
发明内容
本发明以对动态的识别对象进行图像识别为目的。
(1)在权利要求1中记载的发明中,提供一种图像数据生成装置,其特征在于,具备:时间序列空间信息获取单元,其获取将在空间内的识别对象的位置按照时间的经过记录的时间序列空间信息;数据值获取单元,其将所获取的上述时间序列空间信息沿规定的方向扫描来获取该规定的方向上的数据值的列;图像数据生成单元,其将所获取的上述数据值的列与上述时间序列空间信息的其他的方向对应地排列来生成用于图像识别上述识别对象的图像数据;以及输出单元,其输出所生成的上述图像数据。
(2)在权利要求2中记载的发明中,提供根据权利要求1所述的图像数据生成装置,其特征在于,上述规定的方向是上述时间序列空间信息的空间方向,上述其他的方向是上述时间序列空间信息的时间方向。
(3)在权利要求3中记载的发明中,提供根据权利要求1或2所述的图像数据生成装置,其特征在于,上述数据值获取单元将与上述规定的方向上的数据值的局部性对应地重复弯曲的曲线设定为扫描路径,沿所设定的该扫描路径获取上述数据值的列。
(4)在权利要求4中记载的发明中,提供根据权利要求3所述的图像数据生成装置,其特征在于,上述数据值获取单元设定空间填充曲线作为重复弯曲的上述曲线。
(5)在权利要求5中记载的发明中,根据权利要求4所述的图像数据生成装置,其特征在于,上述时间序列空间信息是拍摄上述识别对象得到的视频数据,上述数据值获取单元对上述视频数据的各帧图像数据设定上述曲线,并通过扫描上述各帧图像数据来获取像素值的列作为数据值的列,上述图像数据生成单元生成将每个帧图像数据的像素值的列与时间方向对应地排列的二维的上述图像数据。
(6)在权利要求6中记载的发明中,提供根据权利要求5所述的图像数据生成装置,其特征在于,上述数据值获取单元针对每个上述帧图像数据,使上述曲线的设定条件变化。
(7)在权利要求7中记载的发明中,提供根据权利要求6所述的图像数据生成装置,其特征在于,上述数据值获取单元使上述曲线的设定范围变化来作为上述设定条件。
(8)在权利要求8中记载的发明中,提供根据权利要求6所述的图像数据生成装置,其特征在于,上述数据值获取单元针对每个上述帧图像数据使上述曲线的设定方式变化来作为上述设定条件。
(9)在权利要求9中记载的发明中,提供根据权利要求6~8中任一项所述的图像数据生成装置,其特征在于,上述数据值获取单元针对同一帧图像数据使上述曲线的设定条件变化,来针对每个该设定条件获取数据值。
(10)在权利要求10中记载的发明中,提供根据权利要求2所述的图像数据生成装置,其特征在于,上述数据值获取单元沿直线状的扫描路径获取上述数据值的列。
(11)在权利要求11中记载的发明中,提供根据权利要求10所述的图像数据生成装置,其特征在于,上述时间序列空间信息是拍摄上述识别对象得到的视频数据,具备扫描方向决定单元,其针对构成上述视频数据的帧图像的至少一部分静止图像数据决定上述扫描路径的扫描方向,上述数据值获取单元沿所决定的上述扫描方向获取上述数据值的列,上述图像数据生成单元生成将每个上述静止图像数据的像素值的列与时间方向对应地排列的二维的上述图像数据。
(12)在权利要求12中记载的发明中,提供根据权利要求11所述的图像数据生成装置,其特征在于,上述扫描方向决定单元将上述扫描方向决定为通过上述静止图像数据形成的图像的短边方向。
(13)在权利要求13中记载的发明中,提供一种图像识别装置,其特征在于,具备:根据权利要求1至权利要求12中任一项所述的图像数据生成装置;图像数据获取单元,其获取上述图像数据生成装置输出的图像数据;学习数据获取单元,其获取用于对识别对象进行图像识别的学习数据;以及识别单元,其使用所获取的上述学习数据来识别所获取的上述图像数据所包含的上述识别对象。
(14)在权利要求14中记载的发明中,提供一种图像数据生成程序,其中,上述图像数据生成程序用于通过计算机实现:时间序列空间信息获取功能,获取将在空间内的识别对象的位置按照时间的经过记录的时间序列空间信息;数据值获取功能,将所获取的上述时间序列空间信息沿规定的方向扫描来获取该规定的方向上的数据值的列;图像数据生成功能,将所获取的上述数据值的列与上述时间序列空间信息的其他的方向对应地排列来生成用于图像识别上述识别对象的图像数据;以及输出功能,输出所生成的上述图像数据。
(15)在权利要求15中记载的发明中,提供一种图像识别程序,其中,上述图像识别程序用于通过计算机实现:时间序列空间信息获取功能,获取将在空间内的识别对象的位置按照时间的经过记录的时间序列空间信息;数据值获取功能,将所获取的上述时间序列空间信息沿规定的方向扫描来获取该规定的方向上的数据值的列;图像数据生成功能,将所获取的上述数据值的列与上述时间序列空间信息的其他的方向对应地排列来生成用于图像识别上述识别对象的图像数据;输出功能,输出所生成的上述图像数据;图像数据获取功能,获取所输出的上述图像数据;学习数据获取功能,获取用于对识别对象进行图像识别的学习数据;以及识别功能,使用所获取的上述学习数据来识别所获取的上述图像数据所包含的上述识别对象。
根据本发明,能够通过生成同时具有空间性的信息与时间性的信息的时空间图像数据,来对动态的识别对象进行图像识别。
附图说明
图1是用于对图像识别装置的结构进行说明的图。
图2是用于对希尔伯特扫描进行说明的图。
图3是用于对裁剪视频数据的方法进行说明的图。
图4是用于对裁剪的变形例进行说明的图。
图5是示出图像识别装置的硬件性的结构的一个例子的图。
图6是用于对图像识别处理的次序进行说明的流程图。
图7是用于对实验结果进行说明的图。
图8是用于对变形例7进行说明的图。
图9是用于对变形例7的图像识别处理的次序进行说明的流程图。
图10是用于对变形例8进行说明的图。
具体实施方式
(1)实施方式的概要
图像识别装置1(图1)通过时空间图像数据生成部2将构成视频数据4的帧图像数据6希尔伯特扫描而生成一维空间图像数据7,进而,将一维空间图像数据7在时间方向排列而生成已保持空间信息与时间信息的二维的时空间图像数据8。
像这样,图像识别装置1保持空间信息与时间信息,并且将视频数据4图像转换为二维的时空间图像数据8。
接下来,图像识别装置1通过CNN部3来对时空间图像数据8进行使用二维过滤器的卷积处理,而对识别对象亦即步行者的行动进行图像识别。
像这样,图像识别装置1能够将本来需要基于空间二维与时间一维的三维的解析的步行者的行动识别通过二维图像的基于CNN(使用深度学习的人工智能的一种)的图像识别处理来进行,而推断步行者的状态。
(2)实施方式的详细内容
图1是用于对本实施方式所涉及的图像识别装置1的结构进行说明的图。
图1的(a)中示出的图像识别装置1是车载装置,具备进行图像识别用的图像数据的生成的时空间图像数据生成部2与进行基于使用深度学习的人工智能的图像识别处理的CNN部3,解析车载的照相机输出的视频数据来对存在于车外的步行者的有无与动作状态的分类(右站立、右步行、左站立、左步行等)进行图像识别。
此外,这是一个例子,例如,能够广泛地使用于诸如读取车辆的前方的道路、地形,或是与监视照相机连接而识别、追踪路人等,对动态的识别对象进行图像识别的一般的用途。
时空间图像数据生成部2是作为图像数据生成装置发挥功能的模块,将照相机拍摄、生成出的视频数据4转换为时空间图像数据8。
通过照相机拍摄出的视频数据4由以时间序列生成出的帧图像数据6a、6b、…构成。
以后,在不特别区分帧图像数据6a、6b、…的情况下,仅记作帧图像数据6,而对于后述的其他的构件也设为同样。
帧图像数据6是在某瞬间拍摄到被拍摄体(识别对象)的具有空间方向的(x、y)成分的二维的静止图像数据。
视频数据4是将帧图像数据6根据拍摄时间在时间方向(成为t轴)以时间序列按顺序并列后的静止图像数据的集合,成为合计空间方向的二维、时间方向的一维后的三维数据。
在这里,视频数据4作为将在空间内的识别对象的位置按照时间的经过记录后的时间序列空间信息发挥功能。
时空间图像数据生成部2将从照相机依次送来的帧图像数据6以时间序列读入规定张数的量(Q张)。
像这样,时空间图像数据生成部2具备通过照相机获取时间序列空间信息的时间序列空间信息获取单元。
在这里,作为一个例子,设为读入从最初的帧图像数据6a至最新的帧图像数据6f的6张帧图像数据6。
此外,也可以诸如将帧图像数据6每隔规定张数地或者随机地读入,或者产生丢帧,直到达到图像识别精度保持在允许范围内的限度。
此外,对于读入帧图像数据6的顺序,也能够颠倒。
即,也可以时空间图像数据生成部2设为将从照相机依次送来的帧图像数据6中的从最新的向过去的以时间序列读入规定张数的量。作为该情况的一个例子,成为读入从最新的帧图像数据6f至过去方向的帧图像数据6a的6张帧图像数据6。
时空间图像数据生成部2若读入这些帧图像数据6,则首先,对帧图像数据6a在空间方向(以x轴与y轴扩展的面的面方向)一笔画地设定希尔伯特曲线(后述)。而且,时空间图像数据生成部2沿该希尔伯特曲线扫描(扫描)而读取帧图像数据6a的像素的像素值,将它们以1列展开。该处理被称为希尔伯特扫描,详细内容在后叙述。
通过将帧图像数据6a希尔伯特扫描,从而得到在拍摄出帧图像数据6a的时刻的包含空间信息的空间方向的一维数据亦即一维空间图像数据7a。
时空间图像数据生成部2相同地将帧图像数据6b~6f也转换为未图示的一维空间图像数据7b~7f。
如后述的那样,由于希尔伯特曲线弯曲,因此若着沿其扫描,则能够在极力保持图像的局部性的同时将二维图像一维化。
像这样,时空间图像数据生成部2具备将时间序列空间信息在规定的方向(在该例子中是空间方向,也能够设为时间方向)扫描而获取该规定的方向上的数据值(在该例子中是像素值)的列的数据值获取单元。
而且,该数据值获取单元作为扫描路径设定与该规定的方向上的数据值的局部性对应地重复弯曲的曲线(在该例子中是希尔伯特曲线),沿所设定的该曲线扫描时间序列空间信息而获取该规定的方向上的数据值(在该例子中是像素值)的列。
接下来,时空间图像数据生成部2如图1的(b)所示,将一维空间图像数据7a~7f在时间方向(即以拍摄时间的顺序)以时间序列排列而生成图像识别用的时空间图像数据8。
像这样,时空间图像数据生成部2具备将获取到的数据值的列与时间序列空间信息的其他的方向(在该例子中是时间方向)对应而排列来生成用于对识别对象进行图像识别的图像数据(时空间图像数据8)的图像数据生成单元。
时空间图像数据8是一边的方向表示空间信息(空间成分),与之正交的另一方的边表示时间信息(时间成分)的二维图像数据。
像这样,时空间图像数据生成部2通过将视频数据4在空间方向希尔伯特扫描而展开,从而将三维的时间序列空间数据亦即视频数据4在保持空间信息、以及时间信息的同时,转换为二维的图像数据亦即时空间图像数据8。
此外,虽然在这里将一维空间图像数据7的排列设为时间序列顺序,但也能够在能够图像识别的范围变更顺序。
如以上的那样,时空间图像数据生成部2在视频数据的各帧图像数据设定曲线,而扫描各帧图像数据来将像素值的列作为数据值的列获取,进而,生成将各个帧图像数据的像素值的列与时间方向对应地排列的二维的图像数据。
回到图1的(a),CNN部3是使用卷积神经网络(CNN:Convolutional NeuralNetwork)来进行二维图像数据的图像识别的模块。
CNN部3所使用的算法是作为二维图像数据的图像识别方法得到较高的评价,另外,被广泛地利用的算法。
在本实施方式中,CNN部3预先学习右站立、右步行、左站立、左步行、…等步行者可以采取的各种的形态,读入时空间图像数据生成部2输出的时空间图像数据8,来从其中对步行者的形态属于哪个分类等级进行图像识别,而输出其结果。
像这样,时空间图像数据生成部2具备将生成出的图像数据向CNN部3输出的输出单元。
在这里,使用图1的(c),对CNN部3的结构更详细地进行说明。
CNN部3从输入侧层叠卷积层11、汇合层12、卷积层13、汇合层14、卷积层15、汇合层16、全结合层17的各层而构成。
卷积层11是对输入的二维图像数据(这里是时空间图像数据8)通过使二维过滤器在图像上滑动而抽出过滤图像的特征的灰度构造的层,进行与频率解析对应的处理。
汇合层12保持通过卷积层11抽出的特征并且将数据下取样而缩小。
虽然由于步行者动态地活动,因此帧图像数据6中的拍摄位置偏离,但能够通过汇合层12的处理来吸收表示步行者的空间性的特征的位置的偏离。由此,能够提高对空间性的位置偏移的图像识别精度的顽强性。
卷积层13、15、与汇合层14、16的功能各自与卷积层11、汇合层12相同。
全结合层17是一般的神经网络,是将二维特征映射(经由卷积层11~汇合层16得到的数据)一维地展开,而进行回归分析的那样的处理的层。
像这样,CNN部3在将图像的特征的抽出与位置的偏离的吸收进行3次后,进行回归分析的处理,而对步行者的形态进行图像识别。
此外,卷积层11、13、15的二维过滤器的值、全结合层17的参数经过学习而被调整。
对每个分类等级准备多个时空间图像数据8,而将之向图像识别装置1输入,将其结果反向传播等来进行学习。
图2是用于对时空间图像数据生成部2所进行的希尔伯特扫描进行说明的图。
希尔伯特扫描是在帧图像数据6设定通过各像素的希尔伯特曲线,而通过沿其来扫描,从而横跨帧图像数据6的整体来一笔画地读取像素值的处理。
希尔伯特曲线是组合图2的(a)所示的那样的“コ”字型的曲线而形成的覆盖空间整体的曲线,是被称为空间填充曲线的曲线的一种。在空间填充曲线中,另外还存在皮亚诺曲线等。图中示出的箭头示出扫描的方向。
像这样,时空间图像数据生成部2作为重复弯曲的曲线设定空间填充曲线。
在图2的(b)所示的那样的配置了m×m(m=2)个像素1~4的图像数据20的例子中,设定通过这些像素的希尔伯特曲线21,若将在箭头的方向扫描像素值而读取出的像素值并列为1列,则得到像素1~像素4按顺序并列的一维空间图像数据22。
在图2的(c)所示的那样的配置了m×m(m=4)个像素1~G的图像数据24的例子中,设定通过这些像素的希尔伯特曲线25,若将在箭头的方向扫描像素值而读取出的像素值并列为1列,则得到像素1~像素G按顺序并列的一维空间图像数据26。
进而,像素更多的图像数据也相同地根据希尔伯特曲线扫描。
然而,例如,在图2的(c)的图像数据24中,在区域27局部存在有像素1、2、5、6,但这些像素在一维空间图像数据26中也在区域28中局部存在。
相同地,在图像数据24中局部存在的像素3、4、7、8也在一维空间图像数据26中局部存在而集合。
若像这样使用希尔伯特扫描,则能够在尽可能地保持像素值的局部性的同时将二维数据一维化。
图像识别由于对图像的特征进行图案识别,因此使元图像的局部的特征尽量不损失地生成时空间图像数据8是很重要的。
由此,希尔伯特曲线是适合作为用于扫描帧图像数据6的扫描线的曲线。
此外,这并不将扫描帧图像数据6的曲线限定为希尔伯特曲线,也能够使用皮亚诺曲线等其他的空间填充曲线、非空间填充曲线。
在本实施方式中,使希尔伯特曲线以像素单位弯曲,但例如,也可以增大读取的间隔以便以每隔一个的像素弯曲,并读取每隔一个的像素值。虽然间隔越小精度越提高,但计算成本增大。由此,读取的间隔根据图像识别所需要的局部性的程度来决定即可。
像这样,时空间图像数据生成部2能够将基于视频的三维数据扫描而二维数据化。因此,CNN部3能够将三维的视频数据通过二维过滤器过滤。由此,与对视频数据应用三维过滤器的以往例相比,能够显著地减少计算成本。
图3是用于对裁剪视频数据4的方法进行说明的图。
如上述的那样,能够通过进行希尔伯特扫描从而在尽量保持帧图像数据6中的像素的局部性的同时生成时空间图像数据8。
然而,并不是局部性的全部都被保存,局部存在化的像素分开的情况也一定程度地产生。
例如,在通过图2的(c)进行了说明的图像数据24的例子中,对于在区域27局部存在的像素1、2、5、6,在一维空间图像数据26中也在区域28局部存在。
然而,在注目于由在图像数据24中局部存在的像素5、6,9、A构成的区域的情况下,在一维空间图像数据26中像素5、6与像素9、A分开,而局部性降低。
因此,若将各帧图像数据6以同样条件进行希尔伯特扫描,则在上述的像素5、6与像素9、A之间产生的局部性的降低在全部的帧图像数据6中产生,而以时间序列累积局部性的降低。
作为抑制基于像素的局部性的降低的图像识别精度的降低的方法,对每个帧图像数据6使希尔伯特曲线的设定条件变化,来将局部性降低的像素分散在每个帧图像数据6中为不同是有效的。
因此,时空间图像数据生成部2如接下来叙述的那样,具备为了使每个帧图像数据6的希尔伯特曲线的设定条件变化而随机地裁剪帧图像数据6的功能。
如图3的(a)所示,帧图像数据6a作为一个例子设为由64×32个像素构成。
与此相对的,时空间图像数据生成部2将比该尺寸小的区域在帧图像数据6a随机(任意)地设定,从帧图像数据6a抽出以该区域形成的裁剪图像9a。裁剪图像9a的尺寸作为一个例子设为60×30。
在图像设定希尔伯特曲线的情况下,需要一边的尺寸是2的n次幂(n是自然数)。
因此,时空间图像数据生成部2如图3的(b)所示,在裁剪图像9a的周围进行追加适当的像素的称为填充的处理,而还原64×32的帧图像数据6a。
而且,时空间图像数据生成部2在还原出的帧图像数据6a设定希尔伯特曲线而扫描,而追加的像素的像素值不读入存储器而略过地生成一维空间图像数据7a。
时空间图像数据生成部2相同地将帧图像数据6b~6f以任意的范围裁剪而生成裁剪图像9b~9f,而将它们填充后希尔伯特扫描来生成一维空间图像数据7b~7f。
而且,时空间图像数据生成部2将一维空间图像数据7a~7f按时间序列顺序安排而生成时空间图像数据8。
在以上的例子中,将裁剪图像9a在每个帧图像数据6设定于任意的区域,但也可以根据某些规则性来设定。
能够通过在裁剪后还原出的帧图像数据6设定希尔伯特曲线,而通过希尔伯特曲线的开始点、像素的路径在每个帧图像数据6变化,而将像素的非局部存在化分散于各种像素。
像这样,时空间图像数据生成部2在每个帧图像数据通过使曲线的设定范围变化从而使曲线的设定条件变化。
像这样的从学习图像、帧图像数据6随机地切出小一号的图像,而网罗地进行空间信息的保持的处理被称为数据增强。
数据增强对预先学习用的视频数据与视频数据4的双方进行。
图4是用于对裁剪的变形例进行说明的图。
在该变形例中,时空间图像数据生成部2在从裁剪图像9a的上半部分抽出30×30的裁剪图像后,填充而生成32×32的帧图像数据31a。
相同地,时空间图像数据生成部2从裁剪图像9b~9f生成未图示的帧图像数据31b~31f。
而且,时空间图像数据生成部2通过希尔伯特扫描从帧图像数据31a~31f生成一维空间图像数据7a~7f,而将它们按时间序列顺序安排而生成时空间图像数据8。
通过将裁剪图像9调整尺寸为一半,从而一维空间图像数据7、时空间图像数据8的数据量也变为一半,而能够以小型的图像识别装置1进行处理。
在该例子中,将裁剪图像9的上半分再次裁剪,但也可以裁剪下半分、中间部分。
另外,也可以将帧图像数据6直接裁剪而生成裁剪图像。
图5是示出图像识别装置1的硬件性的结构的一个例子的图。
图像识别装置1构成为车载用,但能够诸如搭载于航空机、船舶等其他的形态的移动体,或是搭载于智能手机等移动终端,进而,搭载于个人计算机等固定型的装置。
通过总线连接CPU41、ROM42、RAM43、存储装置44、照相机45、输入部46、以及输出部47等而构成图像识别装置1。
CPU41是中央处理装置,根据存储装置44所存储的图像识别程序来动作,而进行上述的步行者的图像识别。
ROM42是读出专用的存储器,存储有用于使CPU41动作的基本的程序、参数。
RAM43是可读写的存储器,提供诸如CPU41从视频数据4生成时空间图像数据8,进而,从时空间图像数据8对步行者进行图像识别时的工作存储器。
存储装置44使用硬盘等大容量的存储介质而构成,存储有图像识别程序。
图像识别程序是使CPU41发挥作为时空间图像数据生成部2、CNN部3的功能的程序。
照相机45是对车外拍摄视频的车载照相机,以规定的帧率输出帧图像数据6。
输入部46由用于操作图像识别装置1的操作按钮等构成,输出部47由显示图像识别装置1的设定画面等的显示器等构成。
在本实施方式中,将图像识别装置1设为车载装置,但也能够构成为将照相机45设置于车辆,而通过网络通信来将视频向服务器发送,在服务器进行图像识别而将识别结果向车辆发送。
图6是用于对图像识别装置1所进行的图像识别处理的次序进行说明的流程图。
以下的处理是CPU41根据图像识别程序而进行的。另外,与CPU41的处理对应的功能部以括弧示出。
首先,照相机45拍摄车外而将视频数据4依次地输出。
接下来,CPU41(时空间图像数据生成部2)读入Q张视频帧(步骤5)。即,CPU41将输出的视频数据4中的规定张数Q张(例如6张)的帧图像数据6按输出顺序读入RAM43。
接下来,CPU41(时空间图像数据生成部2)将参数i设置为0而存储于RAM43(步骤10)。
而且,CPU41(时空间图像数据生成部2)从RAM43读出第i个帧图像数据6,从其生成裁剪图像9而存储于RAM43(步骤15)。使随机数产生,而基于其来随机地决定从帧图像数据6生成裁剪图像9的区域。
此外,第i=0个帧图像数据6与Q张中的第1张对应。即,第i个帧图像数据6与Q张内的第i+1张对应。
接下来,CPU41(时空间图像数据生成部2)填充裁剪图像9而还原帧图像数据6,而将之存储于RAM43。
而且,CPU41(时空间图像数据生成部2)在存储于RAM43的该帧图像数据6设定希尔伯特曲线而进行希尔伯特扫描(步骤20),生成一维空间图像数据7(步骤25)。
接下来,CPU41(时空间图像数据生成部2)将生成出的一维空间图像数据7存储于RAM43而生成时空间图像数据8(步骤30)。
此外,在i=0的情况下,首先,将最初的一维空间图像数据7a存储于RAM43,在i=1、2、…的情况下,向已经存储于RAM43的一维空间图像数据7以时间序列追加。
接下来,CPU41(时空间图像数据生成部2)在向存储于RAM43的i自加1后(步骤35),判断i是否不足Q(步骤40)。
在i不足Q的情况下(步骤40;Y),CPU41(时空间图像数据生成部2)回到步骤15,而对接下来的帧图像数据6进行相同的处理。
另一方面,在i未不足Q的情况下(步骤40;N),由于在RAM43时空间图像数据8完成,因此CPU41(CNN部3)从RAM43读出时空间图像数据8,而对其进行图像识别(步骤45)。
而且,CPU41(CNN部3)将图像识别结果向规定的输出目的地输出(步骤50)。
输出目的地例如是车辆的控制系统,在车辆前方存在步行者的情况下诸如进行车速的制动。
接下来,CPU41(CNN部3)判断是否结束图像识别处理(步骤55)。
在不结束处理的情况下(步骤55;N),CPU41(CNN部3)返回步骤5。另一方面,在用户进行选择结束按钮等而处理结束的情况下(步骤55;Y),CPU41(CNN部3)结束处理。
图7是用于对实验结果进行说明的图。
该图是表示将图像识别装置1的图像识别能力通过称为10折交叉验证的评价方法进行评价后的结果的表。
所谓10折交叉检定,是指重复进行在将一个数据集(例如时空间图像数据8的1万套的量)分割为10个(1000套)后,以9个进行学习,而以剩余的一个评价正确率的处理的评价方法。
该表的上部示出使用图像识别装置1的情况,下部示出被称为LSTM(Long ShortTerm Memory)的以往技术(与在背景技术的部分进行了说明的不同)的情况。
评价项目是正确率,图像识别装置1的情况是77.1%,LSTM的情况是74.0%。
像这样,可知图像识别装置1的正确率高于LSTM,而图像识别装置1与以往技术相比较具备较高的图像识别能力。
(变形例1)
在实施方式中,通过裁剪从而使离散化的像素分散,但在本变形例中,通过使希尔伯特扫描的路径,即希尔伯特曲线的形态在每个帧图像数据6变化从而进行离散化的像素的分散。
将希尔伯特曲线的使从起点开始最初的第一步向右侧前进的情况设为形态1,而将向前进下侧的情况设为形态2,将向上侧前进的情况设为形态3,将向左侧前进的情况设为形态4。在初始的第一步的位置在帧图像数据6外的情况下,填充并且关于该填充部分设为在扫描时不进行像素值的读入。
像这样准备多个希尔伯特曲线的形态,而通过将它们适当地分配于帧图像数据6,从而网罗地进行空间信息与时间信息的保持。
考虑各种分配方式,例如,也可以如帧图像数据6a以形态1的希尔伯特曲线进行希尔伯特扫描、帧图像数据6b以形态2的希尔伯特曲线进行希尔伯特扫描、…这样,将形态1至形态4按顺序分配,或者,也可以如将从形态1~形态4任意地选择的形态分配于帧图像数据6a、将从剩余的形态任意地选择的形态分配于帧图像数据6b、…这样,任意地分配形态。
另外,例如,也可以如帧图像数据6a是希尔伯特曲线、帧图像数据6b是皮亚诺曲线、帧图像数据6c是希尔伯特曲线、帧图像数据6d是皮亚诺曲线、…这样,通过种类不同的空间填充曲线来改变曲线的形态。
进而,也可以如帧图像数据6a是形态1的希尔伯特曲线、帧图像数据6b是形态1的皮亚诺曲线、帧图像数据6c是形态2的希尔伯特曲线、帧图像数据6d是形态2的皮亚诺曲线、…这样,改变曲线的种类与曲线的形态的两方。
像这样,该例子的时空间图像数据生成部2作为曲线的设定条件在每个帧图像数据使曲线的设定方式变化。
(变形例2)
在变形例1中,在每个帧图像数据6使希尔伯特曲线的形态变化而进行希尔伯特扫描,但在本变形例中,对一个帧图像数据6设定方式不同的多个希尔伯特曲线。
例如,如将帧图像数据6a以形态1的希尔伯特曲线扫描而生成一维空间图像数据7a1、进而将帧图像数据6a以形态2的希尔伯特曲线扫描而生成一维空间图像数据7a2、…,接下来,将帧图像数据6b以形态1的希尔伯特曲线扫描而生成一维空间图像数据7b1、进而将帧图像数据6b以形态2的希尔伯特曲线扫描而生成一维空间图像数据7b2、…这样,在到帧图像数据6f为止,将各帧图像数据6以形态不同的希尔伯特曲线多次扫描后,将一维空间图像数据7a1、7a2、…、7b1、7b2、…排列而生成时空间图像数据8。
或者,也可以如从一维空间图像数据7a1、7b1、…生成时空间图像数据8a,而从一维空间图像数据7a2、7b2、…生成时空间图像数据8b这样,生成多个时空间图像数据8a,8b、…,而对它们分别独立地进行图像识别,而综合其结果来判断。
另外,也能够通过将同样的帧图像数据6a任意地多次裁剪,而将它们分别在填充后希尔伯特扫描,来生成多个一维空间图像数据7a1、7a2、…。相同地从帧图像数据6b生成一维空间图像数据7b1、7b2、…。
像这样,也能够通过将帧图像数据6多次任意地裁剪从而从同样的帧图像数据6生成多个一维空间图像数据7。
如在以上进行了说明的那样,变形例2的图像识别装置1针对同一帧图像数据使曲线的设定条件变化,来针对每个该设定条件获取数据值。
(变形例3)
在本变形例中,在一个帧图像数据6多次随机地设定裁剪图像9的区域,而从一个帧图像数据6生成多张裁剪图像9。
例如,如从帧图像数据6a生成区域1的裁剪图像9a1、相同地从帧图像数据6a生成区域2的裁剪图像9a2、…,接下来,从帧图像数据6b生成区域1的裁剪图像9b1,相同地从帧图像数据6b生成区域2的裁剪图像9b2、…这样,到帧图像数据6f为止,从各帧图像数据6生成多个剪切区域不同的裁剪图像9。
而且,时空间图像数据生成部2将这些裁剪图像9各自填充而还原帧图像数据6。
由此,从源图像的帧图像数据6a还原多张帧图像数据6a1、6a2、…。帧图像数据6b、6c、…也相同。
时空间图像数据生成部2将这些帧图像数据6a1、6a2、…、6b1、6b2、…希尔伯特扫描而生成一维空间图像数据7,将它们以时间序列排列而生成时空间图像数据8。
或者,也可以从帧图像数据6a1、6b1、…生成时空间图像数据8a而进行图像识别,而从帧图像数据6a2、6b2、…生成时空间图像数据8b而进行图像识别,综合这些图像识别的结果而判断。
(变形例4)
组合变形例2与变形例3。即,将在变形例3中生成出的帧图像数据6a1、6a2、…、6b1、6b2、…以多个种类的形态的曲线扫描。
例如,如帧图像数据6a1以形态1的希尔伯特曲线扫描、帧图像数据6a2以形态1的皮亚诺曲线扫描、…这样进行扫描。
(变形例5)
在实施方式中,将具有空间二维、时间一维的(x、y、t)成分的三维的视频数据4在空间方向(x、y方向)希尔伯特扫描而生成(α、t1)、(α、t2)、…的一维空间图像数据7a、7b、…,将之按t1、t2、…的时间方向的顺序排列而生成出具有(α、t)成分的二维的时空间图像数据8。在这里,α是将像素的位置以沿希尔伯特曲线的长度表示的坐标值。
在本变形例中,在时间坐标(t轴)的方向进行希尔伯特扫描。
例如,能够在(y、t)方向进行希尔伯特扫描而生成(x1、α)、(x2、α)、…的一维空间图像数据7a、7b、…,而将之按x1、x2、…的顺序排列而生成具有(x、α)成分的二维的时空间图像数据8。也能够相同地在(x、t)方向进行希尔伯特扫描而生成具有(y、α)成分的时空间图像数据8。
另外,也能够对同样的视频数据4,生成具有(α、t)、(x、α)、(y、α)的各成分的3个种类的时空间图像数据8,而将它们组合而进行图像识别处理。
例如,能够诸如对(α、t)成分的时空间图像数据8进行图像识别,对(x、α)成分的时空间图像数据8进行图像识别,对(y、α)成分的时空间图像数据8进行图像识别,而将各个结果以全结合层17的输出值加权而取加权平均值,或者,将从(α、t)、(x、α)、(y、α)分别生成的3个时空间图像数据8排列而设为一个时空间图像数据8,对此时空间图像数据8进行图像识别。
预期通过在时间方向扫描,而能够减少视频的帧率。由此减少图像处理的负荷。
(变形例6)
在本变形例中,对更高次的时间序列空间信息进行图像识别。
近年来,正在研究对车辆前方的地形通过使用被称为LiDAR的激光雷达的技术来读取地形,而使车辆自动驾驶的技术。
通过激光雷达得到的时间序列空间信息是具有空间三维与时间一维的(x、y、z、t)成分的4维数据。
若将此时间序列空间信息以在空间三维的(x、y、z)方向弯曲的希尔伯特曲线扫描,则得到(α、t1)、(α、t2)、…这样的一维空间图像数据7。若将之按t1、t2、…的时间序列顺序排列则得到具有二维的(α、t)成分的时空间图像数据8。能够通过对其进行图像识别,来检测步行者、地形等。也能够与变形例5相同地在时间方向扫描。
另外,通过将4维的时间序列空间信息在z方向、t方向固定而在(x、y)方向希尔伯特扫描从而得到由(α、z1、t1)、(α、z2、t1)、(α、z3、t1)、…,(α、z1、t2)、(α、z2、t2)、(α、z3、t2)、…构成的一维空间图像数据7。
将之固定t1而在z方向排列来得到(α、z、t1)、(α、z、t2)、…的二维空间图像数据。
进而,若将它们以时间序列排列则得到(α、z、t)的三维时空间图像数据。
能够作为图像识别装置1的卷积用的过滤器设定三维过滤器,而对上述三维时空间图像数据进行图像识别。
另外,也能够与变形例5相同地在时间方向进行希尔伯特扫描。
像这样,能够将n维(n是2以上的整数)通过希尔伯特扫描来转换为n-1维以下的时空间图像数据。
由此,能够进一步附加颜色信息、各种传感器值等信息而生成高维的时间序列空间信息,而将之低维化来通过图像识别装置1进行图像识别。
(变形例7)
图8是用于对变形例7进行说明的图。在本变形例中,通过光栅扫描来扫描图像数据。
时空间图像数据生成部2检测图8的(a)中示出的帧图像数据6的纵横比,而将短边方向决定为扫描方向(扫描方向)。这是由于如后述的实验结果中叙述的那样,与将长边方向设为扫描方向的情况相比,将短边方向设为扫描方向的情况这一方识别率较高。
而且,时空间图像数据生成部2通过沿短边方向的直线状的扫描路径扫描,来对帧图像数据6的整体进行光栅扫描。
此外,在该例子中,扫描帧图像数据6的整体,但也能够将裁剪帧图像数据6后的图像数据、从帧图像数据6作为興味区域抽出的图像数据、进一步将该抽出的图像数据裁剪后的图像数据设为对象。
像这样,时空间图像数据生成部2作为沿直线状的扫描路径获取数据值的列的数据值获取单元发挥功能,而具备对构成视频数据的帧图像的至少一部分的图像数据决定扫描路径的扫描方向的扫描方向决定单元。
进而,该扫描方向决定单元将扫描方向决定为通过图像数据形成的图像的短边方向。
在图8的(a)的帧图像数据6a的情况下,由于x轴方向是短边方向,而y轴是长边方向,因此时空间图像数据生成部2将x轴方向决定为扫描方向。
而且,时空间图像数据生成部2沿图中示出的实线的箭头,从第1行的像素1至像素4在x轴方向按顺序读取像素值。时空间图像数据生成部2若扫描达到端部的像素4,则如虚线的箭头所示,将扫描开始位置移动至第2行的前端的像素5,而在x轴方向直到端部的像素8为止按顺序读取像素值。
以下,时空间图像数据生成部2重复相同的动作而读取帧图像数据6a的全部的像素值,将之并列为一列来生成一维空间图像数据7a。进而,时空间图像数据生成部2相同地也生成一维空间图像数据7b、7c、…。
而且,时空间图像数据生成部2从生成出的一维空间图像数据7a、7b、…生成时空间图像数据8。对其通过CNN部3进行图像识别的次序与上述的实施方式相同。
以上的光栅扫描方法是一个例子,例如,也可以与实线的箭头方向相反地,在从像素4至像素1的方向进行扫描,也能够以蛇行的直线路径进行光栅扫描以便若从像素1至像素4按顺序读取完第1行的像素,则对于第2行目,从像素8至像素5的方向读取。
对使用在短边方向、以及长边方向进行光栅扫描而将像素展开的一维转换的情况、与使用基于希尔伯特扫描的一维转换的情况进行通过10折交叉检定计算正确率的实验后,在短边方向进行光栅扫描的情况是82.2%,在长边方向进行光栅扫描的情况是77.7%,进行希尔伯特扫描的情况是83.6%。
像这样,短边方向的光栅扫描与长边方向的光栅扫描相比正确率变高,而能够实现接近希尔伯特扫描的值。
认为这是由于短边方向的光栅扫描与长边方向的光栅扫描相比,在图像数据的端点向下一行的像素行移动时的移动距离较小,而不是由于图像的局部性的保存状态比在长边方向进行光栅扫描的情况好。
图8的(b)示出y轴方向成为短边方向的情况。
该情况下,时空间图像数据生成部2如以实线的箭头示出的那样,从像素1至像素D在短边方向,即在y方向按顺序读取像素值,若达到端部的像素D,则如以虚线的箭头示出的那样移动至下一列的前端像素2,而直至像素E为止读取像素值。
以下,时空间图像数据生成部2重复相同的动作而读取帧图像数据6a的全部的像素值,将之并列为一列来生成一维空间图像数据7a。
在以上的例子中,时空间图像数据生成部2判断帧图像数据6的纵横比而将短边方向决定为扫描方向,但在预先决定图像数据的短边方向的情况下,也能够将该方向设定为扫描方向,而省去纵横比的判断处理。
图9是用于对变形例7的图像识别处理的次序进行说明的流程图。
对与上述的实施方式相同的处理标记相同的步骤编号,而省略说明。
在该例子中,通过裁剪帧图像数据6来进行数据增强。
时空间图像数据生成部2在步骤15中若裁剪第i个帧图像数据,则将裁剪后的帧图像数据6的短边方向决定为扫描方向(扫描方向)(步骤80)。
而且,时空间图像数据生成部2在决定出的扫描方向对裁剪后的帧图像数据6进行光栅扫描(步骤85),而生成一维空间图像数据7(步骤25)。其他与上述的实施方式相同。
在以上,在短边方向进行光栅扫描,但例如,也可以根据由于硬件性的重要因素等而优选在长边方向进行光栅扫描这一方的情况等(虽然精度降低但处理速度变快等)用户的情况而在长边方向进行光栅扫描。
(变形例8)
图10是用于对变形例8进行说明的图。
本变形例的时空间图像数据生成部2将帧图像数据6分割为小区域51,而对每个分割出的小区域51进行光栅扫描。
在图10的(a)的例子中,时空间图像数据生成部2将帧图像数据6分割为以粗线示出的正方形的小区域51a1、51a2、…。小区域51内的方块表示像素。
时空间图像数据生成部2如对小区域51a1进行光栅扫描而生成一维空间图像数据7a1(未图示)、接下来对小区域51a2进行光栅扫描而生成一维空间图像数据7a2、…这样,对各小区域51进行光栅扫描。扫描的扫描方向例如设为帧图像数据6a的短边方向。
而且,时空间图像数据生成部2将一维空间图像数据7a1、7a2、…连结为一列而生成帧图像数据6a的一维空间图像数据7a(未图示)。
时空间图像数据生成部2相同地生成一维空间图像数据7b、7c…,而将它们在时间方向排列来生成时空间图像数据8(未图示)。
连结一维空间图像数据7a1、7a2、…的顺序能够是各种各样的,例如,也可以对将小区域51a1、小区域51a2、…在帧图像数据6a的短边方向进行光栅扫描的顺序,或者,也可以是设定连接小区域51a1、小区域51a2、…的希尔伯特曲线,而通过该希尔伯特曲线连接的顺序。在后者的情况下,能够组合光栅扫描与希尔伯特扫描。或者,也能够通过在小区域51a1、51a2、…内进行希尔伯特扫描,将作为其结果而得到的一维空间图像数据7a1、7a2、…以对小区域51a1、51a2、…进行光栅扫描的顺序连结从而组合光栅扫描与希尔伯特扫描。
图10的(b)是对y轴方向成为短边方向的帧图像数据6a设定x轴方向成为短边方向的小区域51a1、51a2、…的例子。
在该情况下,关于小区域51a1、小区域51a2、…,例如,能够构成为优先选择这些小区域51的短边方向而在x轴方向进行光栅扫描。
关于从小区域51a1、小区域51a2、…生成的一维空间图像数据7a1、7a2、…(未图示),与图10的(a)的情况相同地以适当的规定的顺序连结。
通过在以上进行了说明的实施方式、以及变形例能够得到接下来的那样的效果。
(1)能够将视频数据以二维的图像数据表现。
(2)通过使用运用了空间填充曲线的希尔伯特扫描、光栅扫描来对帧图像数据6进行图像转换,从而能够在保持空间信息与时间信息的同时从视频数据4(时间序列图像数据)生成二维的时空间图像数据8。
(3)通过将时空间图像数据8设为输入数据,从而能够以使用二维过滤器的CNN对视频数据进行图像识别。
(4)由于能够使在时空间图像数据8中邻接的像素间的信息具有关系性,因此也可以期待图像识别精度的提高。
(5)由于能够使用运用了一般的二维过滤器的CNN,因此在能够减少CNN的导入所需要的成本、CNN的执行所需要的计算成本的基础上,也期待识别精度的提高。
(6)一般而言,在车载照相机、车载计算机中,由于未搭载高价的硬件,因此使用存储器较少而计算成本较低的图像识别装置1适合安装。
(7)能够通过数据增强等使扫描的曲线的设定条件变化的处理,从而网罗地进行时空间图像数据8的空间信息的保持。
(8)在预先学习阶段、图像识别阶段等中,能够通过进行随机地切出小一号的图像的数据增强从而网罗地进行空间信息与时间信息的保持。
附图标记说明:
1...图像识别装置;2...时空间图像数据生成部;3...CNN部;4...视频数据;6、31...帧图像数据;7...一维空间图像数据;8...时空间图像数据;9...裁剪图像;11、13、15...卷积层;12、14、16...汇合层;17...全结合层;20、24...图像数据;21、25...希尔伯特曲线;22、26...一维空间图像数据;27、28...区域;41...CPU;42...ROM;43...RAM;44...存储装置;45...照相机;46...输入部;47...输出部;51...小区域。

Claims (11)

1.一种图像数据生成装置,其特征在于,具备:
时间序列空间信息获取单元,其获取将在空间内的识别对象的位置按照时间的经过记录的时间序列空间信息;
数据值获取单元,其将所获取的上述时间序列空间信息沿规定的方向扫描来获取该规定的方向上的数据值的列;
图像数据生成单元,其将所获取的上述数据值的列与上述时间序列空间信息的其他的方向对应地排列来生成用于图像识别上述识别对象的图像数据;以及
输出单元,其输出所生成的上述图像数据,
上述规定的方向是上述时间序列空间信息的空间方向,上述其他的方向是上述时间序列空间信息的时间方向,
上述数据值获取单元将与上述规定的方向上的数据值的局部性对应地重复弯曲的空间填充曲线设定为扫描路径,并沿所设定的该扫描路径获取上述数据值的列,
上述时间序列空间信息是拍摄上述识别对象得到的视频数据,
上述数据值获取单元对上述视频数据的各帧图像数据设定上述曲线,并通过扫描上述各帧图像数据来获取像素值的列作为数据值的列,
上述图像数据生成单元生成将每个帧图像数据的像素值的列与时间方向对应地排列的二维的上述图像数据。
2.根据权利要求1所述的图像数据生成装置,其特征在于,
上述数据值获取单元针对每个上述帧图像数据,使上述曲线的设定条件变化。
3.根据权利要求2所述的图像数据生成装置,其特征在于,
上述数据值获取单元使上述曲线的设定范围变化来作为上述设定条件。
4.根据权利要求2所述的图像数据生成装置,其特征在于,
上述数据值获取单元针对每个上述帧图像数据使上述曲线的设定方式变化来作为上述设定条件。
5.根据权利要求2、权利要求3或者权利要求4所述的图像数据生成装置,其特征在于,
上述数据值获取单元针对同一帧图像数据使上述曲线的设定条件变化,来针对每个该设定条件获取数据值。
6.根据权利要求1所述的图像数据生成装置,其特征在于,
上述数据值获取单元沿直线状的扫描路径获取上述数据值的列。
7.根据权利要求6所述的图像数据生成装置,其特征在于,
上述时间序列空间信息是拍摄上述识别对象得到的视频数据,
具备扫描方向决定单元,该扫描方向决定单元针对构成上述视频数据的帧图像的至少一部分静止图像数据决定上述扫描路径的扫描方向,
上述数据值获取单元沿所决定的上述扫描方向获取上述数据值的列,
上述图像数据生成单元生成将每个上述静止图像数据的像素值的列与时间方向对应地排列的二维的上述图像数据。
8.根据权利要求7所述的图像数据生成装置,其特征在于,
上述扫描方向决定单元将上述扫描方向决定为通过上述静止图像数据形成的图像的短边方向。
9.一种图像识别装置,其特征在于,具备:
根据权利要求1至权利要求8中任一项所述的图像数据生成装置;
图像数据获取单元,其获取上述图像数据生成装置输出的图像数据;
学习数据获取单元,其获取用于对识别对象进行图像识别的学习数据;以及
识别单元,其使用所获取的上述学习数据来识别所获取的上述图像数据所包含的上述识别对象。
10.一种记录介质,存储有被计算机读取执行的图像数据生成程序,其中,
该图像数据生成程序使计算机作为权利要求1至权利要求8中任一项所述的图像数据生成装置发挥功能。
11.一种记录介质,存储有被计算机读取执行的图像识别程序,其中,
该图像识别程序使计算机作为权利要求9所述的图像识别装置发挥功能。
CN201880050342.0A 2017-07-31 2018-07-31 图像数据生成装置、图像识别装置、图像数据生成程序、及图像识别程序 Active CN110998597B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2017148011 2017-07-31
JP2017-148011 2017-07-31
JP2018-035744 2018-02-28
JP2018035744A JP7002729B2 (ja) 2017-07-31 2018-02-28 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム
PCT/JP2018/028606 WO2019026890A1 (ja) 2017-07-31 2018-07-31 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム

Publications (2)

Publication Number Publication Date
CN110998597A CN110998597A (zh) 2020-04-10
CN110998597B true CN110998597B (zh) 2023-12-19

Family

ID=65476329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880050342.0A Active CN110998597B (zh) 2017-07-31 2018-07-31 图像数据生成装置、图像识别装置、图像数据生成程序、及图像识别程序

Country Status (4)

Country Link
US (1) US11157724B2 (zh)
EP (1) EP3664020A4 (zh)
JP (1) JP7002729B2 (zh)
CN (1) CN110998597B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
CN110473147A (zh) * 2018-05-09 2019-11-19 腾讯科技(深圳)有限公司 一种视频去模糊方法和装置
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
IL282172B2 (en) 2018-10-11 2024-02-01 Tesla Inc Systems and methods for training machine models with enhanced data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
KR20210024862A (ko) 2019-08-26 2021-03-08 삼성전자주식회사 계층적인 피라미드를 이용하여 객체를 검출하는 객체 검출 시스템 및 이의 객체 검출 방법
KR102297578B1 (ko) * 2019-11-12 2021-09-03 건국대학교 산학협력단 이동체의 자율 주행 제어 방법 및 이를 수행하는 장치들
CN110866509B (zh) * 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
JP7297705B2 (ja) * 2020-03-18 2023-06-26 株式会社東芝 処理装置、処理方法、学習装置およびプログラム
EP3885787B1 (de) * 2020-03-27 2022-05-04 Sick Ag Erfassung von abstandsmessdaten
JP6964372B1 (ja) 2021-05-19 2021-11-10 忠久 片岡 コード生成方法、コード生成装置、プログラム、データ照合方法
CN113887419B (zh) * 2021-09-30 2023-05-12 四川大学 一种基于提取视频时空信息的人体行为识别方法及系统
CN115294342B (zh) * 2022-09-26 2023-02-28 荣耀终端有限公司 图像处理方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000011088A (ja) * 1998-06-22 2000-01-14 Hitachi Ltd 読取り画像の特徴情報抽出方法、画像処理装置および郵便物宛名読取り装置
JP2002123834A (ja) * 2000-08-08 2002-04-26 Ocean Network Co Ltd 画像認識方法及び画像処理装置
JP2007282078A (ja) * 2006-04-11 2007-10-25 Seiko Epson Corp パターンデータ、情報処理装置、ロゴ画像出力装置、音声出力装置、映像出力装置、ロゴ画像出力方法、ロゴ画像出力プログラムおよび記録媒体
JP2008003765A (ja) * 2006-06-21 2008-01-10 Namco Bandai Games Inc 入力された画像データから少なくとも1以上の認識対象画像を抽出するための画像認識装置、方法、プログラム及び情報記録媒体
JP2008258980A (ja) * 2007-04-05 2008-10-23 Ricoh Co Ltd 画像情報処理装置および画像傾斜角度算出方法
WO2015011799A1 (ja) * 2013-07-24 2015-01-29 日本電気株式会社 画像認識装置および記憶媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155451B2 (en) * 2004-11-12 2012-04-10 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
JP4623135B2 (ja) 2008-05-08 2011-02-02 株式会社デンソー 画像認識装置
JP5016073B2 (ja) * 2010-02-12 2012-09-05 株式会社デンソー 白線認識装置
JP2014106685A (ja) * 2012-11-27 2014-06-09 Osaka Univ 車両周辺監視装置
JP6609505B2 (ja) * 2016-04-06 2019-11-20 Kddi株式会社 画像合成装置及びプログラム
JP2019152927A (ja) * 2018-02-28 2019-09-12 株式会社エクォス・リサーチ 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び、画像認識プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000011088A (ja) * 1998-06-22 2000-01-14 Hitachi Ltd 読取り画像の特徴情報抽出方法、画像処理装置および郵便物宛名読取り装置
JP2002123834A (ja) * 2000-08-08 2002-04-26 Ocean Network Co Ltd 画像認識方法及び画像処理装置
JP2007282078A (ja) * 2006-04-11 2007-10-25 Seiko Epson Corp パターンデータ、情報処理装置、ロゴ画像出力装置、音声出力装置、映像出力装置、ロゴ画像出力方法、ロゴ画像出力プログラムおよび記録媒体
JP2008003765A (ja) * 2006-06-21 2008-01-10 Namco Bandai Games Inc 入力された画像データから少なくとも1以上の認識対象画像を抽出するための画像認識装置、方法、プログラム及び情報記録媒体
JP2008258980A (ja) * 2007-04-05 2008-10-23 Ricoh Co Ltd 画像情報処理装置および画像傾斜角度算出方法
WO2015011799A1 (ja) * 2013-07-24 2015-01-29 日本電気株式会社 画像認識装置および記憶媒体

Also Published As

Publication number Publication date
JP7002729B2 (ja) 2022-01-20
US11157724B2 (en) 2021-10-26
JP2019028985A (ja) 2019-02-21
EP3664020A1 (en) 2020-06-10
EP3664020A4 (en) 2021-04-21
US20200160043A1 (en) 2020-05-21
CN110998597A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110998597B (zh) 图像数据生成装置、图像识别装置、图像数据生成程序、及图像识别程序
CN110569702B (zh) 视频流的处理方法和装置
US11151734B2 (en) Method and system for generating synthetic point cloud data using a generative model
Amato et al. Deep learning for decentralized parking lot occupancy detection
WO2019167303A1 (ja) 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び、画像認識プログラム
CN104933414B (zh) 一种基于wld-top的活体人脸检测方法
CN104091171B (zh) 基于局部特征的车载远红外行人检测系统及方法
CN107909026B (zh) 基于小规模卷积神经网络年龄和/或性别评估方法及系统
CN103136516B (zh) 可见光与近红外信息融合的人脸识别方法及系统
US8103091B2 (en) Object identification parameter learning system
KR101872811B1 (ko) 행동 패턴 인식 장치, 행동 패턴 인식 방법 및 행동 패턴 분류기 생성 방법
CN112419233B (zh) 一种数据标注方法、装置、设备以及计算机可读存储介质
WO2019026890A1 (ja) 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム
Advani et al. A multi-resolution saliency framework to drive foveation
WO2018143277A1 (ja) 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム
US9392146B2 (en) Apparatus and method for extracting object
Kawai et al. VAE/WGAN-based image representation learning for pose-preserving seamless identity replacement in facial images
CN114764945A (zh) 动作识别方法、装置及计算机可读存储介质
Gilmore et al. Improved human detection using image fusion
CN115761552B (zh) 面向无人机机载平台的目标检测方法、设备及介质
KR20240072047A (ko) 이기종 센서 융합 처리 방법 및 그 장치
CN103400128B (zh) 一种图像处理方法及装置
Lee et al. Occlusion detector using convolutional neural network for person re-identification
CN113516685A (zh) 目标跟踪方法、装置、设备及存储介质
CN117935196A (zh) 基于单目摄像头的车道线检测的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Kariya City, Aichi Prefecture, Japan

Applicant after: AISIN Co.,Ltd.

Applicant after: KYUSHU INSTITUTE OF TECHNOLOGY

Address before: Kariya City, Aichi Prefecture, Japan

Applicant before: AISIN SEIKI Kabushiki Kaisha

Applicant before: KYUSHU INSTITUTE OF TECHNOLOGY

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220323

Address after: Kariya City, Aichi Prefecture, Japan

Applicant after: AISIN SEIKI Kabushiki Kaisha

Applicant after: KYUSHU INSTITUTE OF TECHNOLOGY

Address before: Tokyo, Japan

Applicant before: EQUOS RESEARCH Co.,Ltd.

Applicant before: KYUSHU INSTITUTE OF TECHNOLOGY

GR01 Patent grant
GR01 Patent grant