JP6964234B2 - 情報処理方法、情報処理装置およびプログラム - Google Patents

情報処理方法、情報処理装置およびプログラム Download PDF

Info

Publication number
JP6964234B2
JP6964234B2 JP2017172459A JP2017172459A JP6964234B2 JP 6964234 B2 JP6964234 B2 JP 6964234B2 JP 2017172459 A JP2017172459 A JP 2017172459A JP 2017172459 A JP2017172459 A JP 2017172459A JP 6964234 B2 JP6964234 B2 JP 6964234B2
Authority
JP
Japan
Prior art keywords
feature map
past
neural network
current
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017172459A
Other languages
English (en)
Other versions
JP2018077829A (ja
Inventor
セネー グレゴリー
宗太郎 築澤
キム ミンヤン
リガッツィオ ルカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JP2018077829A publication Critical patent/JP2018077829A/ja
Application granted granted Critical
Publication of JP6964234B2 publication Critical patent/JP6964234B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Description

本開示は、情報処理方法、情報処理装置およびプログラムに関し、特にニューラルネットワークを用いてコンピュータが行う情報処理方法、情報処理装置およびそのプログラムに関する。
近年、事故などの可能性を事前に検知し回避するシステムである先進運転支援システム(Advanced Driver Assistance System:ADAS)および自動運転車を実用するための取り組みが盛んになっている。これらを実現する重要な機能として、路上の障害物を検出する障害物検出機能がある。
障害物検出機能を実現する技術として、ディープラーニングを用いて動画像に映る複数の物体を検出する物体検出技術が注目されている(例えば非特許文献1)。非特許文献1では、ディープラーニングで用いられるCNN(Convolution Neural Network)としてFaster-RCNNを用いることで、R-CNN(Regions with CNN features)を用いた場合と比較して、認識率の向上と検出速度の高速化とを実現している。
Shaoqing Ren and al.,Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,International Conference on Computer Vision (ICCV), 2015,pages 1440-1448. Iandola F. N., and al., SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< MB model size,arXiv preprint, arXiv: 1602.07360,2016. Kaiming He and al., Deep Residual Learning for Image Recognition,The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016, pp.770-778. Alex Krizhevsky and al.,ImageNet Classification with Deep Convolutional Neural Networks,Part of:Advances in Neural Information Processing Systems 25 (NIPS 2012).
しかしながら、非特許文献1で提案されているFaster-RCNNを用いた物体検出技術は、リアルタイムに検出するまでに至っていない。そのため、ADASおよび自動運転など、リアルタイムでの物体検出が要求されるシステムに適用することは難しいという問題がある。
本開示は、上述の事情を鑑みてなされたもので、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる情報処理方法、情報処理装置およびプログラムを提供することを目的とする。
上記課題を解決するために、本開示の一形態に係る情報処理方法は、ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、1以上の物体が映る映像を、前記ニューラルネットワークに入力する入力ステップと、前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、2以上の特徴マップを1つの特徴マップに結合するための結合部に、前記映像に含まれ、かつ前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、前記ニューラルネットワークが有するRPN(Region Proposal Network)であって物体候補領域を推定するためのRPNに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、前記ニューラルネットワークが有するRoI(Region of Interest)プーリング層であってクラス推定を行うためのRoIプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて、前記現在フレームに映る1以上物体の位置及び識別情報を推定させる処理ステップと、前記処理ステップにおいて推定された前記映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを含む。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の情報処理方法等によれば、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。
図1は、実施の形態における情報処理装置の構成の一例を示すブロック図である。 図2は、図1に示す処理部の詳細構成の一例を示すブロック図である。 図3は、図2に示すCNNの詳細構成の一例を示す図である。 図4Aは、SqueezeNetのネットワークモデルを示す図である。 図4Bは、図4Aに示すFire Moduleの構成を示す図である。 図5は、実施の形態における情報処理装置の物体検出処理を示すフローチャートである。 図6は、実施の形態における情報処理装置の物体検出処理の一例を示す図である。 図7は、図5に示すステップS2の物体検出処理の詳細を示すフローチャートである。 図8は、実施の形態における物体検出処理の詳細を概念的に示す図である。 図9は、変形例1における処理部の詳細構成の一例を示すブロック図である。 図10は、変形例2における処理部の詳細構成の一例を示すブロック図である。 図11は、実施例におけるKITTI MOD Data setを用いた車クラスの認識率を評価した実験結果を示す図である。 図12は、実施例におけるKITTI MOD Data setを用いた歩行者クラスの認識率を評価した実験結果を示す図である。 図13は、実施例におけるKITTI MOD Data setを用いたサイクリストクラスの認識率を評価した実験結果を示す図である。 図14は、実施例におけるKITTI MOD Data setを用いた処理速度の評価結果を示す図である。
(本開示の一態様を得るに至った経緯)
物体検出技術は、画像中の物体の位置と種類とを認識する画像認識技術の一つである。近年では、ディープラーニングを用いた物体検出技術が注目されており、畳み込みニューラルネットワーク(CNN)を用いることで高い認識性能を実現している。しかし、ディープラーニングを用いた物体検出技術は、一般的に膨大な演算量が必要であり、検出速度が遅いという問題がある。
非特許文献1では、ディープラーニングで用いられるCNNとしてFaster-RCNNを用いることで、認識率の向上と検出速度の高速化とを実現している。Faster-RCNNとR-CNNとの性能を評価すると、検出速度が5fpsと0.5fps、認識率が69.9%と66.9%である。これらの結果は、既知の物体検出技術評価データセットであるPascal-VOC(Pattern Analysis,Statistical Modelling and Computational Learning Visual Obect Classes)を用いて評価している。また、認識率は、MAP(Mean Average Precision)として評価している。
このように、非特許文献1で提案されているFaster-RCNNを用いた物体検出技術では、R-CNNを用いた場合と比較して、認識率の向上と検出速度の高速化とを実現している。
しかしながら、例えば自動車が時速100kmで走行している場合には、検出速度が5fpsでも、障害物である物体が出現してから発見するまでに約5.56m進んでしまうことになる。つまり、Faster-RCNNを用いた物体検出技術の検出速度である5fpsは、障害物との衝突回避のために用いるには不十分な速度である。
このように、非特許文献1で提案されている物体検出技術では、リアルタイムに検出するまでに至っていないので、ADASおよび自動運転などリアルタイムな物体検出が要求されるシステムに適用することは難しい。
そこで、本開示の一形態に係る情報処理方法は、ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、1以上の物体が映る映像を、前記ニューラルネットワークに入力する入力ステップと、前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、2以上の特徴マップを1つの特徴マップに結合するための結合部に、前記映像に含まれ、かつ前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、前記ニューラルネットワークが有するRPN(Region Proposal Network)であって物体候補領域を推定するためのRPNに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、前記ニューラルネットワークが有するRoI(Region of Interest)プーリング層であってクラス推定を行うためのRoIプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて、前記現在フレームに映る1以上物体の位置及び識別情報を推定させる処理ステップと、前記処理ステップにおいて推定された前記映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを含む。
これにより、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。
ここで、例えば、前記ニューラルネットワークは、3以上の畳み込み層を有し、前記映像に含まれる前記現在フレームに対して、前記3以上の畳み込み層のうちの一の畳み込み層に畳み込み処理を行わせて、前記現在特徴マップを算出させ、前記映像に含まれる前記過去フレームそれぞれに対して、前記3以上の畳み込み層のうち前記一の畳み込み層を除き、かつ、対応する畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させるとしてもよい。
また、例えば、前記ニューラルネットワークは、1つの畳み込み層を有し、前記映像に含まれる前記過去フレームに対して、前記畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させ、メモリに記憶させ、前記過去特徴マップと前記現在特徴マップとを結合させるとき、前記メモリに記憶された前記過去特徴マップと、前記映像に含まれる前記現在フレームに対して、前記畳み込み層に畳み込み処理を行わせて算出させた前記現在特徴マップとを結合させるとしてもよい。
また、例えば、前記畳み込み層は、所定のネットワークモデルより軽いネットワークモデルからなる。
ここで、前記軽いネットワークモデルは、前記ニューラルネットワークを用いてコンピュータが前記処理ステップを行う処理速度が5fpsよりも速いネットワークモデルである。
さらに、例えば、前記軽いネットワークモデルは、1×1のフィルタであるSqueeze層と1×1のフィルタおよび3×3のフィルタが並列に並ぶExpand層とからなるFire Moduleを複数有するSqueezeNetであるとしてもよい。
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
以下では、図面を参照しながら、実施の形態における情報処理装置10の情報処理方法等の説明を行う。
[情報処理装置10の構成]
図1は、本実施の形態における情報処理装置10の構成の一例を示すブロック図である。図2は、図1に示す処理部12の詳細構成の一例を示すブロック図である。
情報処理装置10は、ニューラルネットワークを用いたコンピュータ等で実現され、図1に示すように入力部11と処理部12と出力部13とで構成されている。情報処理装置10は、1以上の物体が映る映像が入力されると、物体の識別情報および位置情報を含む物体検出結果を出力する。なお、情報処理装置10は、物体検出結果を付与した映像を出力してもよい。
<入力部11>
入力部11は、1以上の物体が映る映像をニューラルネットワークに入力する。より具体的には、入力部11は、それぞれ1以上の物体が映る映像に含まれ、時系列に連続する現在フレームおよび過去フレームを処理部12に入力する。ここで、過去フレームは、現在フレームの時間的に前のフレームであり、映像に含まれている。なお、過去フレームは、1つのフレームに限らず、現在フレームの時間的に前のフレームであって時間的に連続する2つ以上のフレームであってもよい。また、時間的に連続する2つ以上のフレームとは、処理部12が物体検出できる時間的な間隔で時系列に連続したフレームであればよい。そのため、検出したい物体または車載カメラ自身の移動速度などに応じて連続するフレームの時間的な間隔は変更されればよい。
本実施の形態では、入力部11は、時系列に連続した2つの画像である現在フレームおよび過去フレームを処理部12に入力するとして説明する。
<処理部12>
処理部12は、本開示のニューラルネットワークを用いて、映像の現在フレームに映る1以上の物体の位置および識別情報を推定する物体検出処理を行う。本実施の形態では、処理部12は、図2に示すように、CNN121と、CNN122と、結合部124と、RFP125と、ROIプーリング層126とを備える。換言すると、本開示のニューラルネットワークは、CNN121と、CNN122と、結合部124と、RFP125と、ROIプーリング層126とを備える。なお、以下では、本開示のニューラルネットワークを、Temporal Faster-RCNNとも称する。
≪CNN121、CNN122≫
CNN121およびCNN122は、本開示のニューラルネットワークが有する2以上の畳み込み層の一例であり、入力された画像から特徴マップを算出するための畳み込みニューラルネットワーク(CNN)で構成される。CNN121およびCNN122を構成する畳み込みニューラルネットワークは、同一であり、重みを共有する。また、CNN121およびCNN122を構成する畳み込みニューラルネットワークは、事前に学習されている。
CNN121は、映像に含まれる現在フレームに対して畳み込み処理を行い、現在の特徴マップである現在特徴マップを算出する。より具体的には、CNN121は、入力部11により入力された現在フレームに対して畳み込み処理を行い、現在フレームに対する特徴マップを算出する。
CNN122は、映像に含まれ、かつ現在フレームの時間的に前の過去フレームに対して畳み込み処理を行い、過去特徴マップを算出する。より具体的には、CNN121は、入力部11により入力された過去フレームに対して畳み込み処理を行い、過去フレームに対する特徴マップを算出する。
ここで、CNN121およびCNN122を構成する畳み込みニューラルネットワークのネットワークモデルの一例について説明する。図3は、図2に示すCNN121の詳細構成の一例を示す図である。なお、CNN122の詳細構成も図3と同様のため、説明を省略する。図4Aは、SqueezeNetのネットワークモデルを示す図である。図4Bは、図4Aに示すFire Moduleの構成を示す図である。
CNN121を構成する畳み込みニューラルネットワークのネットワークモデルは、1×1のフィルタであるSqueeze層と1×1のフィルタおよび3×3のフィルタが並列に並ぶExpand層とからなるFire Moduleを、複数有するSqueezeNetである。図3に示すCNN121は、例えば図4Aに示すSqueezeNetのうち識別層を除いたCNN部分であるconv1〜fire9からなる。図3に示すように、最後の層であるfire9では出力が512に絞られている。なお、SqueezeNetの詳細は非特許文献2に開示されている。
SqueezeNetは、例えば図4Aに示すように、2つの畳み込み層であるconv1、conv10と、3つMax Pooling層であるmaxpool/2と、8つのFire Moduleとを有する。
Fire Moduleは、例えば図4Bに示すように、3つの畳み込み層CNN1、CNN2、CNN3から構成される。CNN1は、1×1のフィルタであるSqueeze層と呼ばれる。CNN2は3×3のフィルタであり、CNN3は1×1のフィルタであり、並列に並べたCNN2およびCNN3でExpand層を構成する。つまり、Fire Moduleは、Squeeze層とExpand層とからなる。
そして、Fire Moduleでは、Squeeze層であるCNN1によって、Expand層を構成するCNN2に与えるチャンネル数を絞り、CNN2と並列に並べたCNN1によって実質的にチャンネル数を折半して極力チャンネル数を下げることができる。
なお、3つMax Pooling層は、SqueezeNetの精度を保つために、conv1、fire4、fire8、conv10の後に挿入されている。
このように、SqueezeNetでは、Fire Moduleを畳み込み層の代わりに用いることで、パラメータの削減を行い非常に省メモリなネットワークを構成する。また、SqueezeNetは、精度を維持した上で、演算量を下げることができる。
以上から、本実施の形態では、演算量削減のために、特徴マップを算出するために用いられるCNN121に、SqueezeNetを適用する。
なお、SqueezeNetは、画像識別に使用される所定のネットワークモデルより軽いネットワークモデルの一例である。ここで、所定のネットワークモデルは、例えばFaster-RCNNおよびR-CNN等で使用されるVGG(Visual Gemetry Group)などであり、従来、画像識別に使用される畳み込みニューラルネットワークのネットワークモデルである。したがって、CNN121に適用されるネットワークモデルは、SqueezeNetに限らない。本開示のニューラルネットワークを用いてコンピュータが物体検出処理を行う処理速度が5fpsよりも速くなる軽いネットワークモデルであれば、CNN121に適用できる。CNN121に適用されるネットワークモデルとしては、例えば、いわゆるAlexNetでもよいし、いわゆるResidualNetでもよい。AlexNetについては非特許文献3に開示され、ResidualNetについては非特許文献4に開示されている。
≪結合部124≫
結合部124は、2以上の特徴マップを1つの特徴マップに結合する。より具体的には、結合部124は、映像に含まれる現在フレームの時間的に前の過去フレームに対してCNN122が畳み込み処理を行い得た特徴マップである過去特徴マップと現在特徴マップとを結合する。
本実施の形態では、過去特徴マップと現在特徴マップとの領域を連結させて結合する。換言すると、結合部124は、異なる時間のフレームに対して畳み込み処理を行って得た特徴マップのすべての領域を連結させて結合する。
結合部124は、結合して得た1つの特徴マップをRFP125およびROIプーリング層126に出力する。
≪RFP125≫
RFP125は、物体候補領域を推定するためのネットワークであり、Region Proposal Networkとも呼ばれる。具体的には、RFP125は、事前に学習されている。RFP125は、特徴マップに対して、検出ウィンドウをラスタスキャンし、物体らしさを示すスコアと物体の領域の2つを出力する。このように、RFP125は、特徴マップを用いて、物体候補の推定と、その領域の認識を同時に行うことができる。
本実施の形態では、RFP125は、結合部124で結合された過去特徴マップと現在特徴マップとを用いて、物体候補領域を推定する。より具体的には、RFP125は、現在フレームに対する現在特徴マップと過去フレームに対する過去特徴マップとが連結された特徴マップに対して、物体らしさを示すスコアと物体の領域の2つを含む物体候補領域を推定する。
また、RFP125は、推定した物体候補領域をROIプーリング層126に出力する。
≪ROIプーリング層126≫
ROIプーリング層126は、クラス推定を行うために用いられる。より具体的には、ROIプーリング層126は、入力を任意のサイズの出力に変形するROI poolingを用いて、物体候補領域に対するクラス識別を行うことで、物体検出を行う。
本実施の形態では、ROIプーリング層126は、結合部124で結合された過去特徴マップおよび現在特徴マップと、RFP125で推定された物体候補領域とを用いて、現在フレームに映る1以上物体の位置及び識別情報を推定する。
<出力部13>
出力部13は、処理部12において推定された映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する。
このようにして、出力部13は、入力部11に入力された映像に映る1以上の物体の位置および識別情報を、物体検出結果として出力することができる。なお、出力部13は、入力部11に入力された映像に物体検出結果を付与して出力してもよい。
[情報処理装置10の動作]
上述のように構成された情報処理装置10の動作の一例について以下説明する。
図5は、本実施の形態における情報処理装置10の物体検出処理を示すフローチャートである。図6は、本実施の形態における情報処理装置10の物体検出処理の一例を示す図である。
まず、情報処理装置10は、1以上の物体が映る映像を、本開示のニューラルネットワークであるTemporal Faster-RCNNに入力する入力処理を行う(S1)。例えば、図6に示すように、情報処理装置10は、物体501と物体502との物体が映る映像50をTemporal Faster-RCNNに入力する。
次に、情報処理装置10は、映像に映る1以上物体の位置及び識別情報を推定する物体検出処理を行い(S2)、物体検出結果として出力する出力処理を行う(S3)。例えば、図6に示すように、情報処理装置10は、物体501、502の位置を示す枠503、504と、物体501が車両であり、物体502が動物であることを示す識別情報とを付した映像50aを、物体検出結果として出力する。
図7は、図5に示すステップS2の物体検出処理の詳細を示すフローチャートである。図8は、本実施の形態における物体検出処理の詳細を概念的に示す図である。
ステップS2において、まず、情報処理装置10は、映像に含まれる現在フレームに対して、畳み込み処理を行い、現在特徴マップを算出する(S21)。より具体的には、情報処理装置10は、映像に含まれる現在フレームおよび過去フレームそれぞれに対して、畳み込み処理を行い、現在特徴マップおよび過去特徴マップを算出している。図8に示す例では、情報処理装置10は、現在フレーム50に対してCNN121に畳み込み処理を行わせることで現在の特徴マップである現在特徴マップ51を算出させている。また、情報処理装置10は、現在フレーム50の時間的に前の過去フレーム50t−1に対してCNN122に畳み込み処理を行わせることで過去の特徴マップである過去特徴マップ51t−1を算出させている。
次に、情報処理装置10は、過去フレームに対して畳み込み処理を行って得た過去特徴マップと、現在特徴マップとを結合する(S22)。図8に示す例では、情報処理装置10は、結合部124に、現在特徴マップ51と過去特徴マップ51t−1とを連結させることで、現在特徴マップ51と過去特徴マップ51t−1とを結合させている。そして、情報処理装置10は、結合部124に、現在特徴マップ51と過去特徴マップ51t−1と結合させて得た1つの特徴マップをRFP125とROIプーリング層126とに出力させている。
次に、情報処理装置10は、結合した過去特徴マップと現在特徴マップとを用いて、物体候補領域を推定する(S23)。図8に示す例では、情報処理装置10は、RFP125に、過去特徴マップ51t−1と現在特徴マップ51とが結合されて得た1つの特徴マップを用いて、物体らしさを示すスコアと物体の領域の2つを含む物体候補領域52を推定させている。
次に、情報処理装置10は、結合した過去特徴マップおよび現在特徴マップと、推定した物体候補領域とを用いて現在フレームに映る1以上物体の位置及び識別情報を推定する(S24)。図8に示す例では、情報処理装置10は、ROIプーリング層126に、過去特徴マップ51t−1と現在特徴マップ51とが結合されて得た1つの特徴マップを用いて、物体候補領域52に対するクラス識別を行わせることで、現在フレームに映る1以上物体の位置及び識別情報を推定させている。
[効果等]
ディープラーニングを用いた物体検出において、特徴マップの算出は、演算量の観点から最も問題となる。そこで、特徴マップを算出するための畳み込みニューラルネットワークに、画像識別に通常使用されてきたVGGなどの所定のネットワークモデルより軽いネットワークモデルであるSqueezeNetなどを適用することで、特徴マップの算出の演算量を削減する。
一方で、算出した特徴マップには、物体の候補位置および物体の種類に関する情報が含まれるので、認識性能に大きな影響を与える。つまり、特徴マップを算出するための畳み込みニューラルネットワークにSqueezeNetなどを適用することで軽量化すると、認識性能が大きく低下する。そこで、時系列情報、すなわち過去のフレームの情報と現在のフレームの情報を同時に認識に用いることで、演算量を維持しながら認識性能の低下を抑制する。より具体的には、過去のフレームの物体検出で算出した特徴マップを、現在のフレームの物体検出にも利用することで、演算量を維持しながら認識性能の向上を図る。
本実施の形態における情報処理装置10では、SqueezeNetなど軽いネットワークモデルを適用したCNN121およびCNN122を備え、過去フレームに対する過去特徴マップと、現在フレームに対する現在特徴マップとを現在フレームの物体検出に利用する。
学習時には、CNN121およびCNN122に、使用するすべてのフレームに対して都度特徴マップの算出を行わせる。一方、検出時には、現在フレームの特徴マップのみCNN121で算出すればよく、過去フレームの特徴マップは、過去フレームが現在フレームであるときにCNN122が算出し保持しているものを用いればよい。これにより、学習時の演算量は使用する過去フレームの数により大きく増大するが、検出時の演算量はほとんど増大しないようにすることができる。
このように、特徴マップの算出をSqueezeNetなど軽いネットワークモデルを用いて行うことで、演算量を削減するとともに、これにより悪化する認識性能をマルチフレームの特徴マップすなわち現在フレームおよび過去フレームの特徴マップを利用することで向上させることができる。つまり、特徴マップの算出処理を軽量化した場合でも認識率の低下を抑制することができる。
以上のように、本実施の形態における情報処理装置10によれば、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。それにより、本実施の形態における情報処理装置10を、ADASおよび自動運転など、リアルタイムの物体検出が要求されるシステムに適用でき得る。
なお、例えば駐車車両で体の大部分が隠された歩行者などの部分が隠ぺいされた物体は、静止画などシングルフレームの特徴マップを利用する場合には、検出できない。一方、本実施の形態における情報処理装置10では、動画などマルチフレームの特徴マップを利用するので、例えば駐車車両等で体の大部分が隠された歩行者など部分が隠ぺいされた物体の検出もすることができる。
(変形例1)
上記の実施の形態では、処理部12は、CNN121およびCNN122、すなわち入力された画像から特徴マップを算出する畳み込みニューラルネットワークを2つ備えるとしたが、これに限らない。特徴マップを算出する畳み込みニューラルネットワークを1つのみ備えるとしてもよい。以下、この場合を変形例1として、実施の形態と異なるところを中心に説明する。
[処理部12Aの構成]
図9は、変形例1における処理部12Aの詳細構成の一例を示すブロック図である。図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
処理部12Aは、図9に示すように、CNN121aと、メモリ123と、結合部124aと、RFP125と、ROIプーリング層126とを備える。処理部12Aは、実施の形態における処理部12と比較して、メモリ123が追加され、1つの畳み込みネットワークであるCNN121aのみを備える点で構成が異なる。換言すると、本開示のニューラルネットワークは、CNN121aと、メモリ123と、結合部124aと、RFP125と、ROIプーリング層126とを備えるとしてもよい。
<メモリ123>
メモリ123は、ハードディスクまたは半導体メモリ等で構成され、情報を記憶する。本実施の形態では、メモリ123は、CNN121aが算出した過去フレームに対する過去特徴マップを記憶する。
<CNN121a>
CNN121aは、本開示のニューラルネットワークが有する一つの畳み込み層の一例であって入力された画像から特徴マップを算出する。CNN121aは、映像に含まれる過去フレームに対して畳み込み処理を行い、過去特徴マップを算出する。そして、CNN121aは、算出した過去特徴マップを、メモリ123に記憶する。より具体的には、CNN121aは、入力部11により入力された過去フレームに対して畳み込み処理を行い、過去フレームに対する特徴マップを算出し、メモリ123に記憶する。
また、CNN121aは、映像に含まれる現在フレームに対して畳み込み処理を行い、現在の特徴マップである現在特徴マップを算出する。より具体的には、CNN121aは、入力部11により入力された現在フレームに対して畳み込み処理を行い、現在フレームに対する特徴マップを算出する。
また、CNN121aを構成するニューラルネットワークのネットワークモデルは、上述したようにSqueezeNetなど画像識別に使用される所定のネットワークモデルより軽いネットワークモデルである。なお、詳細は上述した通りであるのでここでの説明は省略する。
<結合部124a>
結合部124aは、図9に示すように、メモリ123に記憶された過去特徴マップと、映像に含まれる現在フレームに対して、CNN121aが畳み込み処理を行い算出した現在特徴マップとを結合する。その他については上述した通りであるのでここでの説明は省略する。
なお、本変形例の情報処理装置のその他の構成および動作は、上記の実施の形態の情報処理装置10のその他の構成および動作で説明した通りである。
[効果等]
本変形例における情報処理装置によれば、メモリ123と、SqueezeNetなど軽いネットワークモデルを適用したCNN121aとを備えることで、過去フレームに対する過去特徴マップと、現在フレームに対する現在特徴マップとを現在フレームの物体検出に利用することができる。
このように、時刻T−1での現在フレームに対する特徴マップがメモリ123に保存され、時刻Tで、過去フレームに対する特徴マップとして伝播され、時刻Tでの現在フレームに対する特徴マップとともに利用することができる。
以上のように、本変形例における情報処理装置によれば、特徴マップの算出処理を軽量化した場合でも認識率の低下を抑制することができるので、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。
(変形例2)
上記の実施の形態では、現在フレームの物体検出に利用するマルチフレームの特徴マップの一例として、現在フレームと1つの過去フレームの2つのフレームの特徴マップを用いることを例に挙げて説明したが、これに限らない。現在フレームと2つ以上の過去フレームの特徴マップを用いてもよい。以下、この場合を変形例2として、実施の形態と異なるところを中心に説明する。
[処理部12Bの構成]
図10は、変形例2における処理部12Bの詳細構成の一例を示すブロック図である。図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
処理部12Bは、図10に示すように、CNN121と、CNN122−1…CNN122−nと、結合部124bと、RFP125と、ROIプーリング層126とを備える。ここで、nは2以上の自然数である。処理部12Bは、実施の形態における処理部12と比較して、CNN122が複数すなわちCNN122−1…CNN122−nを備える点で構成が異なる。換言すると、本開示のニューラルネットワークは、CNN121と、CNN122−1…CNN122−nと、結合部124bと、RFP125と、ROIプーリング層126とを備えるとしてもよい。
<CNN121、CNN122−1…CNN122−n>
CNN121およびCNN122−1…CNN122−nは、本開示のニューラルネットワークが有する3以上の畳み込み層の一例であって入力された画像から特徴マップを算出する。
CNN121は、3以上の畳み込み層のうちの一の畳み込み層であり、現在フレームに対して畳み込み処理を行い、現在特徴マップを算出する。
一方、CNN122−1…CNN122−nは、3以上の畳み込み層のうち上記の一の畳み込み層を除く畳み込み層である。CNN122−1…CNN122−nはそれぞれ、対応する過去フレームt−1〜過去フレームt−nに対して畳み込み処理を行い、過去特徴マップを算出する。
なお、CNN121およびCNN122−1…CNN122−nを構成するニューラルネットワークのネットワークモデルは、上述したようにSqueezeNetなど画像識別に使用される所定のネットワークモデルより軽いネットワークモデルである。なお、詳細は上述した通りであるのでここでの説明は省略する。
<結合部124b>
結合部124bは、図10に示すように、CNN122−1…CNN122−nが算出した過去フレームt−1〜過去フレームt−nそれぞれに対する過去特徴マップと、CNN121が算出した現在フレームに対する現在特徴マップとを結合する。その他については上述した通りであるのでここでの説明は省略する。
なお、本変形例の情報処理装置のその他の構成および動作は、上記の実施の形態の情報処理装置10のその他の構成および動作で説明した通りである。
[効果等]
このように、現在特徴マップと結合するために利用する過去特徴マップは、1つの過去フレームのものに限らず、2以上の過去フレームであってもよい。
本変形例における情報処理装置によれば、SqueezeNetなど軽いネットワークモデルを適用したCNN121aおよびCNN122−1…CNN122−nを備えることで、2以上の過去フレームそれぞれに対する過去特徴マップと、現在フレームに対する現在特徴マップとを現在フレームの物体検出に利用することができる。
以上のように、本変形例における情報処理装置によれば、特徴マップの算出処理を軽量化した場合でも認識率の低下を抑制することができるので、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。
(実施例)
情報処理装置10に用いられるニューラルネットワークであるTemporal Faster-RCNNの有効性について検証したので、その実験結果を実施例として説明する。
本実施例では、KITTI MOD Data setを用いて情報処理装置10に用いられるニューラルネットワークの性能を評価したので、その結果について説明する。
<KITTI MOD Data set >
KITTI MOD Data setは、実写映像による複数物体検出ベンチマークデータセットである。映像には、都市部、郊外および高速道路の映像が含まれている。映像中には、最大15大の車両と30人の歩行者が含まれており、7481枚の学習用画像と7518枚のテスト用画像で構成されている。また、全データセット中には80256個のラベル付き物体が含まれている。
本実験は、学習用画像として提供されているデータを分割した3682枚のミニ学習用画像、3799枚のミニテスト画像を用いて行った。また、本実験は、路上の障害物として検出優先度が高い車、歩行者、サイクリストの3種類の物体について行った。
<実験条件>
本実験は、次のパラメータにて行った。すなわち、本実験は、Learning rate:0.005、Learning rate step:30,000 iterations以降、0.1倍、raining input scales:[400,600,800,1000]、Maximum width: 2000、Testing scale: 600にて行った。マルチフレーム使用条件は、すべて現在のフレームと過去3フレームを使用するとした。
本実験では、マルチフレームのSqueezeNetを特徴マップの算出に用いた場合に、演算量削減と高認識率維持との両立が可能かを評価した。
<実験結果>
図11は、本実施例におけるKITTI MOD Data setを用いた車クラスの認識率を評価した実験結果を示す図である。図12は、本実施例におけるKITTI MOD Data setを用いた歩行者クラスの認識率を評価した実験結果を示す図である。図13は、本実施例におけるKITTI MOD Data setを用いたサイクリストクラスの認識率を評価した実験結果を示す図である。認識率は、MAP(Mean Average Precision)であり、単位は%である。
なお、図11〜図13において、Mono Frameは、単フレームを示し、Multi Framesは、マルチフレームを示す。SQNは、SqueezeNetを示し、VGGは、VGG-16を示す。また、Easy、Moderate、Hardは、検出難易度を示すラベルである。これらの検出難易度を示すラベルは、KITTI MOD Data setに予め付与されている。また、図11〜図13において、Multi Frames SQNが、本開示のFaster-RCNNにおいて特徴マップの算出に用いるニューラルネットワークに該当する。また、Mono Frame VGGが、比較例のニューラルネットワークに該当し、Faster-RCNNにおいて特徴マップの算出に用いるニューラルネットワークに該当する。
図11〜図13に示すように、Multi Frames SQNの認識率は、すべての条件下でMono Frame SQNの認識率よりも向上しているのがわかる。例えば、検出難易度がModerateの場合、図12および図13に示すように、歩行者クラスでは+18%、サイクリストクラスでは+9%と大きく認識率が向上している。一方、図11に示すように、車クラスでは+3.86%と認識率の向上が他のクラスよりも低い。これは、歩行者またはサイクリストと比較して、車の移動速度が速いため、10fpsのKITTI MOD Data setではフレーム間の移動量が大きすぎたためと考えられる。
また、図11に示すように、Multi Frames VGGの認識率は、車クラスにおいて検出難易度がModerateの場合に、Mono Frame VGGの認識率と比較して向上している。その他のクラスについては若干低下している。これは、VGG-16が巨大なネットワークであるため、本実験で使用したミニ学習用画像のデータ規模では十分な学習が行えなかったためであると考えられる。
図14は、本実施例におけるKITTI MOD Data setを用いた処理速度の評価結果を示す図である。なお、処理速度は、NVIDIA GeForce GTX1080のGPUを使用して評価した。
図14に示すように、Multi Frames SQNの処理速度は、Mono Frame VGGの処理速度と比較して約2.4倍になっているのがわかる。なお、メモリー消費量は、Mono FrameとMulti Framesとを比較して6%程度の増加にとどまっており、メモリーサイズに関する実用上の大きな影響はなかった。
以上の実験結果から、Multi Frames SQNで示される本開示のニューラルネットワークであるTemporal Faster-RCNNは、Mono Frame VGGで示されるFaster-RCNNと比較して、認識率の低下を3.7%〜10%に抑制した上で、約2.4倍の高速化を実現できるのがわかった。
また、単純な高速化手法であるFaster-RCNNのVGG-16部分をSqueezeNetに置き換えた場合と比較すると、マルチフレームを用いることで、12.9%の演算量の増加で、7.7%〜17.9%の認識率向上が可能であることがわかった。
以上のように、本開示に係る情報処理装置および情報処理方法によれば、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。したがって、本開示に係る情報処理装置および情報処理方法を、ADASまたは自動運転など、リアルタイムな物体検出が要求されるシステムに十分に適用できる。
(他の実施態様の可能性)
以上、実施の形態において本開示の情報処理方法について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサーなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。
なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
また、本開示は、さらに、以下のような場合も含まれる。
(1)上記の装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
(5)また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
本開示は、ディープラーニングを用いた情報処理方法、情報処理装置およびプログラムに利用でき、特にADASおよび自動運転など、リアルタイムな物体検出が要求されるシステムに利用できる。
10 情報処理装置
11 入力部
12、12A、12B 処理部
13 出力部
50、50a 映像
50 現在フレーム
50t−1 過去フレーム
51 現在特徴マップ
51t−1 過去特徴マップ
52 物体候補領域
121、121a、122、122−1・・・122−n CNN
123 メモリ
124、124a、124b 結合部
125 RFP部
126 ROIプーリング層
501、502 物体
503、504 枠

Claims (7)

  1. ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、
    1以上の物体が映る映像を、前記ニューラルネットワークに入力する入力ステップと、
    前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
    2以上の特徴マップを1つの特徴マップに結合するための結合部に、前記映像に含まれ、かつ前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
    前記ニューラルネットワークが有するRPN(Region Proposal Network)であって物
    体候補領域を推定するためのRPNに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
    前記ニューラルネットワークが有するRoI(Region of Interest)プーリング層であってクラス推定を行うためのRoIプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて、前記現在フレームに映る1以上物体の位置及び識別情報を推定させる処理ステップと、
    前記処理ステップにおいて推定された前記映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを含む、
    情報処理方法。
  2. 前記ニューラルネットワークは、3以上の畳み込み層を有し、
    前記映像に含まれる前記現在フレームに対して、前記3以上の畳み込み層のうちの一の畳み込み層に畳み込み処理を行わせて、前記現在特徴マップを算出させ、
    前記映像に含まれる前記過去フレームそれぞれに対して、前記3以上の畳み込み層のうち前記一の畳み込み層を除き、かつ、対応する畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させる、
    請求項1に記載の情報処理方法。
  3. 前記ニューラルネットワークは、1つの畳み込み層を有し、
    前記映像に含まれる前記過去フレームに対して、前記畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させ、メモリに記憶させ、
    前記過去特徴マップと前記現在特徴マップとを結合させるとき、前記メモリに記憶された前記過去特徴マップと、前記映像に含まれる前記現在フレームに対して、前記畳み込み層に畳み込み処理を行わせて算出させた前記現在特徴マップとを結合させる、
    請求項1に記載の情報処理方法。
  4. 前記畳み込み層は、所定のネットワークモデルより軽いネットワークモデルからなり、
    前記軽いネットワークモデルは、前記ニューラルネットワークを用いてコンピュータが前記処理ステップを行う処理速度が5fpsよりも速いネットワークモデルである、
    請求項1〜3のいずれか1項に記載の情報処理方法。
  5. 前記畳み込み層は、所定のネットワークモデルより軽いネットワークモデルからなり、
    前記軽いネットワークモデルは、1×1のフィルタであるSqueeze層と1×1のフィルタおよび3×3のフィルタが並列に並ぶExpand層とからなるFire Moduleを複数有するSqueezeNetである、
    請求項1〜4のいずれか1項に記載の情報処理方法。
  6. 1以上の物体が映る映像を、ニューラルネットワークに入力する入力ステップと、
    前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
    2以上の特徴マップを1つの特徴マップに結合するための結合部に、前記映像に含まれる前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
    前記ニューラルネットワークが有するRPNであって物体候補領域を推定するためのRPNに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
    前記ニューラルネットワークが有するRoIプーリング層であってクラス推定を行うためのRoIプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて前記現在フレームに映る1以上物体の位置及び識別情報を推定させる処理ステップと、
    前記処理ステップにおいて推定された前記映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを、
    コンピュータに実行させるプログラム。
  7. ニューラルネットワークを用いてコンピュータが行う情報処理装置であって、
    1以上の物体が映る映像を、前記ニューラルネットワークに入力する入力部と、
    前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
    2以上の特徴マップを1つの特徴マップに結合するための結合部に、前記映像に含まれる前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
    前記ニューラルネットワークが有するRPNであって物体候補領域を推定するためのRPNに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
    前記ニューラルネットワークが有するRoIプーリング層であってクラス推定を行うためのRoIプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて前記現在フレームに映る1以上物体の位置及び識別情報を推定させる処理部と、
    前記処理部において推定された前記映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する出力部とを備える、
    情報処理装置。
JP2017172459A 2016-11-09 2017-09-07 情報処理方法、情報処理装置およびプログラム Active JP6964234B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662419659P 2016-11-09 2016-11-09
US62/419,659 2016-11-09

Publications (2)

Publication Number Publication Date
JP2018077829A JP2018077829A (ja) 2018-05-17
JP6964234B2 true JP6964234B2 (ja) 2021-11-10

Family

ID=62109731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017172459A Active JP6964234B2 (ja) 2016-11-09 2017-09-07 情報処理方法、情報処理装置およびプログラム

Country Status (5)

Country Link
US (1) US10796184B2 (ja)
EP (1) EP3540687A4 (ja)
JP (1) JP6964234B2 (ja)
CN (1) CN108307660B (ja)
WO (1) WO2018088170A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198655B2 (en) * 2017-01-24 2019-02-05 Ford Global Technologies, Llc Object detection using recurrent neural network and concatenated feature map
KR102425578B1 (ko) * 2017-08-08 2022-07-26 삼성전자주식회사 객체를 인식하는 방법 및 장치
US20190065878A1 (en) * 2017-08-22 2019-02-28 GM Global Technology Operations LLC Fusion of radar and vision sensor systems
CN111480169B (zh) * 2017-10-10 2024-05-10 诺基亚技术有限公司 用于模式识别的方法、系统和装置
US10769485B2 (en) * 2018-06-19 2020-09-08 Himax Technologies Limited Framebuffer-less system and method of convolutional neural network
US20190385073A1 (en) * 2018-06-19 2019-12-19 Microsoft Technology Licensing, Llc Visual recognition via light weight neural network
KR20200010640A (ko) * 2018-06-27 2020-01-31 삼성전자주식회사 모션 인식 모델을 이용한 자체 운동 추정 장치 및 방법, 모션 인식 모델 트레이닝 장치 및 방법
CN108921840A (zh) * 2018-07-02 2018-11-30 北京百度网讯科技有限公司 显示屏外围电路检测方法、装置、电子设备及存储介质
JP7166108B2 (ja) * 2018-08-31 2022-11-07 株式会社小松製作所 画像処理システム、表示装置、画像処理方法、学習済みモデルの生成方法、および学習用データセット
KR101969550B1 (ko) * 2018-09-12 2019-04-16 한국지질자원연구원 사용자 생활 공간의 내진 취약성 분석 시스템 및 이를 이용한 사용자 생활 공간의 내진 취약성 분석 방법
JP7311310B2 (ja) * 2018-10-18 2023-07-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理装置、情報処理方法及びプログラム
CN109508715B (zh) * 2018-10-30 2022-11-08 南昌大学 一种基于深度学习的车牌定位和识别方法
CN111382764B (zh) * 2018-12-29 2024-02-13 新方正控股发展有限责任公司 人脸识别或手势识别的神经网络模型建立方法、装置及计算机可读存储介质
US10430691B1 (en) * 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US10339424B1 (en) * 2019-01-22 2019-07-02 StradVision, Inc. Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles
US10311336B1 (en) * 2019-01-22 2019-06-04 StradVision, Inc. Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles
US10726303B1 (en) * 2019-01-30 2020-07-28 StradVision, Inc. Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same
US10633007B1 (en) * 2019-01-31 2020-04-28 StradVision, Inc. Autonomous driving assistance glasses that assist in autonomous driving by recognizing humans' status and driving environment through image analysis based on deep neural network
US10540572B1 (en) * 2019-01-31 2020-01-21 StradVision, Inc. Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
US10713815B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for supporting administrators to processes of object detectors to provide logical driving
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
JP6965298B2 (ja) 2019-03-18 2021-11-10 株式会社東芝 物体検出装置、物体検出方法、プログラム、および移動体
JP6965299B2 (ja) 2019-03-18 2021-11-10 株式会社東芝 物体検出装置、物体検出方法、プログラム、および移動体
TWI738009B (zh) * 2019-06-20 2021-09-01 和碩聯合科技股份有限公司 物件偵測系統及物件偵測方法
US12046000B2 (en) 2019-06-25 2024-07-23 Nec Corporation Learning device, object detection device, learning method, and recording medium
JP7202995B2 (ja) * 2019-10-10 2023-01-12 株式会社日立製作所 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム
JP7478960B2 (ja) 2019-12-02 2024-05-08 パナソニックIpマネジメント株式会社 情報処理方法、情報処理システム及びプログラム
KR20210116953A (ko) 2020-03-18 2021-09-28 삼성전자주식회사 타겟 트래킹 방법 및 장치
JP6896306B1 (ja) 2020-04-13 2021-06-30 LeapMind株式会社 ニューラルネットワーク回路、エッジデバイスおよびニューラルネットワーク演算方法
CN112639821B (zh) * 2020-05-11 2021-12-28 华为技术有限公司 一种车辆可行驶区域检测方法、系统以及采用该系统的自动驾驶车辆
US20230245423A1 (en) * 2020-07-02 2023-08-03 Sony Semiconductor Solutions Corporation Information processing apparatus, information processing method, and program
KR20220025600A (ko) 2020-08-24 2022-03-03 삼성전자주식회사 영상 생성 방법 및 장치
CN113781440B (zh) * 2020-11-25 2022-07-29 北京医准智能科技有限公司 超声视频病灶检测方法及装置
CN112861803A (zh) * 2021-03-16 2021-05-28 厦门博海中天信息科技有限公司 一种图像识别方法、装置、服务器以及计算机可读存储介质
WO2023243040A1 (ja) * 2022-06-16 2023-12-21 日本電信電話株式会社 画像処理装置、画像処理方法、及び画像処理プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101187A (ja) * 1991-10-09 1993-04-23 Kawasaki Steel Corp 画像認識装置及びその学習方法
CN1242848A (zh) * 1996-11-20 2000-01-26 罗伯特·J·詹恩阿罗尼 多内核神经网络并行学习、监视和预报系统
JP4093026B2 (ja) * 2002-11-18 2008-05-28 日本電気株式会社 道路環境情報通知装置、車載報知装置、情報センタ内装置、及び道路環境情報通知プログラム
KR100571834B1 (ko) * 2004-02-27 2006-04-17 삼성전자주식회사 청소 로봇의 바닥 먼지 검출 방법 및 장치
JP2005311691A (ja) * 2004-04-21 2005-11-04 Toyota Central Res & Dev Lab Inc 物体検出装置及び方法
JP4438795B2 (ja) * 2006-12-28 2010-03-24 株式会社日立製作所 映像変換装置、映像表示装置、映像変換方法
US9740949B1 (en) * 2007-06-14 2017-08-22 Hrl Laboratories, Llc System and method for detection of objects of interest in imagery
US8774517B1 (en) * 2007-06-14 2014-07-08 Hrl Laboratories, Llc System for identifying regions of interest in visual imagery
US8369652B1 (en) * 2008-06-16 2013-02-05 Hrl Laboratories, Llc Visual attention system for salient regions in imagery
JP4577410B2 (ja) * 2008-06-18 2010-11-10 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
JP2010266983A (ja) * 2009-05-13 2010-11-25 Sony Corp 情報処理装置及び方法、学習装置および方法、プログラム、並びに情報処理システム
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN103116746B (zh) * 2013-03-08 2016-08-03 中国科学技术大学 一种基于多特征融合技术的视频火焰探测方法
CN103679154A (zh) * 2013-12-26 2014-03-26 中国科学院自动化研究所 基于深度图像的三维手势动作的识别方法
CN105654130A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种基于递归神经网络的复杂图像文字序列识别系统
US9830709B2 (en) * 2016-03-11 2017-11-28 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US9779492B1 (en) * 2016-03-15 2017-10-03 International Business Machines Corporation Retinal image quality assessment, error identification and automatic quality correction

Also Published As

Publication number Publication date
CN108307660B (zh) 2023-08-22
JP2018077829A (ja) 2018-05-17
EP3540687A1 (en) 2019-09-18
CN108307660A (zh) 2018-07-20
WO2018088170A1 (ja) 2018-05-17
US10796184B2 (en) 2020-10-06
EP3540687A4 (en) 2019-11-27
US20190251383A1 (en) 2019-08-15

Similar Documents

Publication Publication Date Title
JP6964234B2 (ja) 情報処理方法、情報処理装置およびプログラム
CN112771548B (zh) 用于获取训练数据的系统和方法
CN110909587B (zh) 场景分类
Ma et al. Artificial intelligence applications in the development of autonomous vehicles: A survey
JP7218805B2 (ja) ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション
US10796201B2 (en) Fusing predictions for end-to-end panoptic segmentation
CN108256506B (zh) 一种视频中物体检测方法及装置、计算机存储介质
Zakaria et al. Lane detection in autonomous vehicles: A systematic review
US11687773B2 (en) Learning method and recording medium
WO2023207742A1 (zh) 一种交通异常行为检测方法与系统
CN104463903A (zh) 一种基于目标行为分析的行人图像实时检测方法
US12072678B2 (en) Systems and methods for providing future object localization
John et al. So-net: Joint semantic segmentation and obstacle detection using deep fusion of monocular camera and radar
CN113168520A (zh) 跟踪场景中的对象的方法
Yebes et al. Learning to automatically catch potholes in worldwide road scene images
CN113723170A (zh) 危险检测整合架构系统和方法
CN111079634B (zh) 车辆行驶中检测障碍物的方法、装置、系统及车辆
Al Mamun et al. Efficient lane marking detection using deep learning technique with differential and cross-entropy loss.
Dunna et al. A Deep Learning based system for fast detection of obstacles using rear-view camera under parking scenarios
Liu et al. Virtual world bridges the real challenge: Automated data generation for autonomous driving
Hoang et al. Lane Road Segmentation Based on Improved UNet Architecture for Autonomous Driving
KR20240128835A (ko) 경계 추정 장치 및 방법
CN115082867A (zh) 用于对象检测的方法和系统
KR102405472B1 (ko) 난잡한 환경에서 시맨틱 차선을 결정하기 위한 방법 및 장치
EP4375953A1 (en) Perceptual load determination method, computer program, computer readable medium, perceptual load determination system and advanced driving assistance system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190830

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210929

R151 Written notification of patent or utility model registration

Ref document number: 6964234

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151