JP6964234B2 - 情報処理方法、情報処理装置およびプログラム - Google Patents
情報処理方法、情報処理装置およびプログラム Download PDFInfo
- Publication number
- JP6964234B2 JP6964234B2 JP2017172459A JP2017172459A JP6964234B2 JP 6964234 B2 JP6964234 B2 JP 6964234B2 JP 2017172459 A JP2017172459 A JP 2017172459A JP 2017172459 A JP2017172459 A JP 2017172459A JP 6964234 B2 JP6964234 B2 JP 6964234B2
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- past
- neural network
- current
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 72
- 238000003672 processing method Methods 0.000 title claims description 20
- 238000001514 detection method Methods 0.000 claims description 67
- 238000012545 processing Methods 0.000 claims description 61
- 238000013528 artificial neural network Methods 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 38
- 238000011176 pooling Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 18
- 230000008878 coupling Effects 0.000 description 16
- 238000010168 coupling process Methods 0.000 description 16
- 238000005859 coupling reaction Methods 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 13
- 238000012986 modification Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 102100033591 Calponin-2 Human genes 0.000 description 5
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 102100033620 Calponin-1 Human genes 0.000 description 4
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 102100033592 Calponin-3 Human genes 0.000 description 3
- 101000945410 Homo sapiens Calponin-3 Proteins 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30261—Obstacle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Description
物体検出技術は、画像中の物体の位置と種類とを認識する画像認識技術の一つである。近年では、ディープラーニングを用いた物体検出技術が注目されており、畳み込みニューラルネットワーク(CNN)を用いることで高い認識性能を実現している。しかし、ディープラーニングを用いた物体検出技術は、一般的に膨大な演算量が必要であり、検出速度が遅いという問題がある。
以下では、図面を参照しながら、実施の形態における情報処理装置10の情報処理方法等の説明を行う。
図1は、本実施の形態における情報処理装置10の構成の一例を示すブロック図である。図2は、図1に示す処理部12の詳細構成の一例を示すブロック図である。
入力部11は、1以上の物体が映る映像をニューラルネットワークに入力する。より具体的には、入力部11は、それぞれ1以上の物体が映る映像に含まれ、時系列に連続する現在フレームおよび過去フレームを処理部12に入力する。ここで、過去フレームは、現在フレームの時間的に前のフレームであり、映像に含まれている。なお、過去フレームは、1つのフレームに限らず、現在フレームの時間的に前のフレームであって時間的に連続する2つ以上のフレームであってもよい。また、時間的に連続する2つ以上のフレームとは、処理部12が物体検出できる時間的な間隔で時系列に連続したフレームであればよい。そのため、検出したい物体または車載カメラ自身の移動速度などに応じて連続するフレームの時間的な間隔は変更されればよい。
処理部12は、本開示のニューラルネットワークを用いて、映像の現在フレームに映る1以上の物体の位置および識別情報を推定する物体検出処理を行う。本実施の形態では、処理部12は、図2に示すように、CNN121と、CNN122と、結合部124と、RFP125と、ROIプーリング層126とを備える。換言すると、本開示のニューラルネットワークは、CNN121と、CNN122と、結合部124と、RFP125と、ROIプーリング層126とを備える。なお、以下では、本開示のニューラルネットワークを、Temporal Faster-RCNNとも称する。
CNN121およびCNN122は、本開示のニューラルネットワークが有する2以上の畳み込み層の一例であり、入力された画像から特徴マップを算出するための畳み込みニューラルネットワーク(CNN)で構成される。CNN121およびCNN122を構成する畳み込みニューラルネットワークは、同一であり、重みを共有する。また、CNN121およびCNN122を構成する畳み込みニューラルネットワークは、事前に学習されている。
結合部124は、2以上の特徴マップを1つの特徴マップに結合する。より具体的には、結合部124は、映像に含まれる現在フレームの時間的に前の過去フレームに対してCNN122が畳み込み処理を行い得た特徴マップである過去特徴マップと現在特徴マップとを結合する。
RFP125は、物体候補領域を推定するためのネットワークであり、Region Proposal Networkとも呼ばれる。具体的には、RFP125は、事前に学習されている。RFP125は、特徴マップに対して、検出ウィンドウをラスタスキャンし、物体らしさを示すスコアと物体の領域の2つを出力する。このように、RFP125は、特徴マップを用いて、物体候補の推定と、その領域の認識を同時に行うことができる。
ROIプーリング層126は、クラス推定を行うために用いられる。より具体的には、ROIプーリング層126は、入力を任意のサイズの出力に変形するROI poolingを用いて、物体候補領域に対するクラス識別を行うことで、物体検出を行う。
出力部13は、処理部12において推定された映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する。
上述のように構成された情報処理装置10の動作の一例について以下説明する。
ディープラーニングを用いた物体検出において、特徴マップの算出は、演算量の観点から最も問題となる。そこで、特徴マップを算出するための畳み込みニューラルネットワークに、画像識別に通常使用されてきたVGGなどの所定のネットワークモデルより軽いネットワークモデルであるSqueezeNetなどを適用することで、特徴マップの算出の演算量を削減する。
上記の実施の形態では、処理部12は、CNN121およびCNN122、すなわち入力された画像から特徴マップを算出する畳み込みニューラルネットワークを2つ備えるとしたが、これに限らない。特徴マップを算出する畳み込みニューラルネットワークを1つのみ備えるとしてもよい。以下、この場合を変形例1として、実施の形態と異なるところを中心に説明する。
図9は、変形例1における処理部12Aの詳細構成の一例を示すブロック図である。図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
メモリ123は、ハードディスクまたは半導体メモリ等で構成され、情報を記憶する。本実施の形態では、メモリ123は、CNN121aが算出した過去フレームに対する過去特徴マップを記憶する。
CNN121aは、本開示のニューラルネットワークが有する一つの畳み込み層の一例であって入力された画像から特徴マップを算出する。CNN121aは、映像に含まれる過去フレームに対して畳み込み処理を行い、過去特徴マップを算出する。そして、CNN121aは、算出した過去特徴マップを、メモリ123に記憶する。より具体的には、CNN121aは、入力部11により入力された過去フレームに対して畳み込み処理を行い、過去フレームに対する特徴マップを算出し、メモリ123に記憶する。
結合部124aは、図9に示すように、メモリ123に記憶された過去特徴マップと、映像に含まれる現在フレームに対して、CNN121aが畳み込み処理を行い算出した現在特徴マップとを結合する。その他については上述した通りであるのでここでの説明は省略する。
本変形例における情報処理装置によれば、メモリ123と、SqueezeNetなど軽いネットワークモデルを適用したCNN121aとを備えることで、過去フレームに対する過去特徴マップと、現在フレームに対する現在特徴マップとを現在フレームの物体検出に利用することができる。
上記の実施の形態では、現在フレームの物体検出に利用するマルチフレームの特徴マップの一例として、現在フレームと1つの過去フレームの2つのフレームの特徴マップを用いることを例に挙げて説明したが、これに限らない。現在フレームと2つ以上の過去フレームの特徴マップを用いてもよい。以下、この場合を変形例2として、実施の形態と異なるところを中心に説明する。
図10は、変形例2における処理部12Bの詳細構成の一例を示すブロック図である。図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
CNN121およびCNN122−1…CNN122−nは、本開示のニューラルネットワークが有する3以上の畳み込み層の一例であって入力された画像から特徴マップを算出する。
結合部124bは、図10に示すように、CNN122−1…CNN122−nが算出した過去フレームt−1〜過去フレームt−nそれぞれに対する過去特徴マップと、CNN121が算出した現在フレームtに対する現在特徴マップとを結合する。その他については上述した通りであるのでここでの説明は省略する。
このように、現在特徴マップと結合するために利用する過去特徴マップは、1つの過去フレームのものに限らず、2以上の過去フレームであってもよい。
情報処理装置10に用いられるニューラルネットワークであるTemporal Faster-RCNNの有効性について検証したので、その実験結果を実施例として説明する。
KITTI MOD Data setは、実写映像による複数物体検出ベンチマークデータセットである。映像には、都市部、郊外および高速道路の映像が含まれている。映像中には、最大15大の車両と30人の歩行者が含まれており、7481枚の学習用画像と7518枚のテスト用画像で構成されている。また、全データセット中には80256個のラベル付き物体が含まれている。
本実験は、次のパラメータにて行った。すなわち、本実験は、Learning rate:0.005、Learning rate step:30,000 iterations以降、0.1倍、raining input scales:[400,600,800,1000]、Maximum width: 2000、Testing scale: 600にて行った。マルチフレーム使用条件は、すべて現在のフレームと過去3フレームを使用するとした。
図11は、本実施例におけるKITTI MOD Data setを用いた車クラスの認識率を評価した実験結果を示す図である。図12は、本実施例におけるKITTI MOD Data setを用いた歩行者クラスの認識率を評価した実験結果を示す図である。図13は、本実施例におけるKITTI MOD Data setを用いたサイクリストクラスの認識率を評価した実験結果を示す図である。認識率は、MAP(Mean Average Precision)であり、単位は%である。
以上、実施の形態において本開示の情報処理方法について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサーなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。
11 入力部
12、12A、12B 処理部
13 出力部
50、50a 映像
50t 現在フレーム
50t−1 過去フレーム
51t 現在特徴マップ
51t−1 過去特徴マップ
52 物体候補領域
121、121a、122、122−1・・・122−n CNN
123 メモリ
124、124a、124b 結合部
125 RFP部
126 ROIプーリング層
501、502 物体
503、504 枠
Claims (7)
- ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、
1以上の物体が映る映像を、前記ニューラルネットワークに入力する入力ステップと、
前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
2以上の特徴マップを1つの特徴マップに結合するための結合部に、前記映像に含まれ、かつ前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
前記ニューラルネットワークが有するRPN(Region Proposal Network)であって物
体候補領域を推定するためのRPNに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
前記ニューラルネットワークが有するRoI(Region of Interest)プーリング層であってクラス推定を行うためのRoIプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて、前記現在フレームに映る1以上物体の位置及び識別情報を推定させる処理ステップと、
前記処理ステップにおいて推定された前記映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを含む、
情報処理方法。 - 前記ニューラルネットワークは、3以上の畳み込み層を有し、
前記映像に含まれる前記現在フレームに対して、前記3以上の畳み込み層のうちの一の畳み込み層に畳み込み処理を行わせて、前記現在特徴マップを算出させ、
前記映像に含まれる前記過去フレームそれぞれに対して、前記3以上の畳み込み層のうち前記一の畳み込み層を除き、かつ、対応する畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させる、
請求項1に記載の情報処理方法。 - 前記ニューラルネットワークは、1つの畳み込み層を有し、
前記映像に含まれる前記過去フレームに対して、前記畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させ、メモリに記憶させ、
前記過去特徴マップと前記現在特徴マップとを結合させるとき、前記メモリに記憶された前記過去特徴マップと、前記映像に含まれる前記現在フレームに対して、前記畳み込み層に畳み込み処理を行わせて算出させた前記現在特徴マップとを結合させる、
請求項1に記載の情報処理方法。 - 前記畳み込み層は、所定のネットワークモデルより軽いネットワークモデルからなり、
前記軽いネットワークモデルは、前記ニューラルネットワークを用いてコンピュータが前記処理ステップを行う処理速度が5fpsよりも速いネットワークモデルである、
請求項1〜3のいずれか1項に記載の情報処理方法。 - 前記畳み込み層は、所定のネットワークモデルより軽いネットワークモデルからなり、
前記軽いネットワークモデルは、1×1のフィルタであるSqueeze層と1×1のフィルタおよび3×3のフィルタが並列に並ぶExpand層とからなるFire Moduleを複数有するSqueezeNetである、
請求項1〜4のいずれか1項に記載の情報処理方法。 - 1以上の物体が映る映像を、ニューラルネットワークに入力する入力ステップと、
前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
2以上の特徴マップを1つの特徴マップに結合するための結合部に、前記映像に含まれる前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
前記ニューラルネットワークが有するRPNであって物体候補領域を推定するためのRPNに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
前記ニューラルネットワークが有するRoIプーリング層であってクラス推定を行うためのRoIプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて前記現在フレームに映る1以上物体の位置及び識別情報を推定させる処理ステップと、
前記処理ステップにおいて推定された前記映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを、
コンピュータに実行させるプログラム。 - ニューラルネットワークを用いてコンピュータが行う情報処理装置であって、
1以上の物体が映る映像を、前記ニューラルネットワークに入力する入力部と、
前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
2以上の特徴マップを1つの特徴マップに結合するための結合部に、前記映像に含まれる前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
前記ニューラルネットワークが有するRPNであって物体候補領域を推定するためのRPNに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
前記ニューラルネットワークが有するRoIプーリング層であってクラス推定を行うためのRoIプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて前記現在フレームに映る1以上物体の位置及び識別情報を推定させる処理部と、
前記処理部において推定された前記映像の現在フレームに映る1以上の物体の位置および識別情報を、物体検出結果として出力する出力部とを備える、
情報処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662419659P | 2016-11-09 | 2016-11-09 | |
US62/419,659 | 2016-11-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018077829A JP2018077829A (ja) | 2018-05-17 |
JP6964234B2 true JP6964234B2 (ja) | 2021-11-10 |
Family
ID=62109731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017172459A Active JP6964234B2 (ja) | 2016-11-09 | 2017-09-07 | 情報処理方法、情報処理装置およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10796184B2 (ja) |
EP (1) | EP3540687A4 (ja) |
JP (1) | JP6964234B2 (ja) |
CN (1) | CN108307660B (ja) |
WO (1) | WO2018088170A1 (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10198655B2 (en) * | 2017-01-24 | 2019-02-05 | Ford Global Technologies, Llc | Object detection using recurrent neural network and concatenated feature map |
KR102425578B1 (ko) * | 2017-08-08 | 2022-07-26 | 삼성전자주식회사 | 객체를 인식하는 방법 및 장치 |
US20190065878A1 (en) * | 2017-08-22 | 2019-02-28 | GM Global Technology Operations LLC | Fusion of radar and vision sensor systems |
CN111480169B (zh) * | 2017-10-10 | 2024-05-10 | 诺基亚技术有限公司 | 用于模式识别的方法、系统和装置 |
US10769485B2 (en) * | 2018-06-19 | 2020-09-08 | Himax Technologies Limited | Framebuffer-less system and method of convolutional neural network |
US20190385073A1 (en) * | 2018-06-19 | 2019-12-19 | Microsoft Technology Licensing, Llc | Visual recognition via light weight neural network |
KR20200010640A (ko) * | 2018-06-27 | 2020-01-31 | 삼성전자주식회사 | 모션 인식 모델을 이용한 자체 운동 추정 장치 및 방법, 모션 인식 모델 트레이닝 장치 및 방법 |
CN108921840A (zh) * | 2018-07-02 | 2018-11-30 | 北京百度网讯科技有限公司 | 显示屏外围电路检测方法、装置、电子设备及存储介质 |
JP7166108B2 (ja) * | 2018-08-31 | 2022-11-07 | 株式会社小松製作所 | 画像処理システム、表示装置、画像処理方法、学習済みモデルの生成方法、および学習用データセット |
KR101969550B1 (ko) * | 2018-09-12 | 2019-04-16 | 한국지질자원연구원 | 사용자 생활 공간의 내진 취약성 분석 시스템 및 이를 이용한 사용자 생활 공간의 내진 취약성 분석 방법 |
JP7311310B2 (ja) * | 2018-10-18 | 2023-07-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理装置、情報処理方法及びプログラム |
CN109508715B (zh) * | 2018-10-30 | 2022-11-08 | 南昌大学 | 一种基于深度学习的车牌定位和识别方法 |
CN111382764B (zh) * | 2018-12-29 | 2024-02-13 | 新方正控股发展有限责任公司 | 人脸识别或手势识别的神经网络模型建立方法、装置及计算机可读存储介质 |
US10430691B1 (en) * | 2019-01-22 | 2019-10-01 | StradVision, Inc. | Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring |
US10339424B1 (en) * | 2019-01-22 | 2019-07-02 | StradVision, Inc. | Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles |
US10311336B1 (en) * | 2019-01-22 | 2019-06-04 | StradVision, Inc. | Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles |
US10726303B1 (en) * | 2019-01-30 | 2020-07-28 | StradVision, Inc. | Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same |
US10633007B1 (en) * | 2019-01-31 | 2020-04-28 | StradVision, Inc. | Autonomous driving assistance glasses that assist in autonomous driving by recognizing humans' status and driving environment through image analysis based on deep neural network |
US10540572B1 (en) * | 2019-01-31 | 2020-01-21 | StradVision, Inc. | Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same |
US10713815B1 (en) * | 2019-01-31 | 2020-07-14 | StradVision, Inc. | Method and device for supporting administrators to processes of object detectors to provide logical driving |
CN111666960B (zh) * | 2019-03-06 | 2024-01-19 | 南京地平线机器人技术有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
JP6965298B2 (ja) | 2019-03-18 | 2021-11-10 | 株式会社東芝 | 物体検出装置、物体検出方法、プログラム、および移動体 |
JP6965299B2 (ja) | 2019-03-18 | 2021-11-10 | 株式会社東芝 | 物体検出装置、物体検出方法、プログラム、および移動体 |
TWI738009B (zh) * | 2019-06-20 | 2021-09-01 | 和碩聯合科技股份有限公司 | 物件偵測系統及物件偵測方法 |
US12046000B2 (en) | 2019-06-25 | 2024-07-23 | Nec Corporation | Learning device, object detection device, learning method, and recording medium |
JP7202995B2 (ja) * | 2019-10-10 | 2023-01-12 | 株式会社日立製作所 | 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム |
JP7478960B2 (ja) | 2019-12-02 | 2024-05-08 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理システム及びプログラム |
KR20210116953A (ko) | 2020-03-18 | 2021-09-28 | 삼성전자주식회사 | 타겟 트래킹 방법 및 장치 |
JP6896306B1 (ja) | 2020-04-13 | 2021-06-30 | LeapMind株式会社 | ニューラルネットワーク回路、エッジデバイスおよびニューラルネットワーク演算方法 |
CN112639821B (zh) * | 2020-05-11 | 2021-12-28 | 华为技术有限公司 | 一种车辆可行驶区域检测方法、系统以及采用该系统的自动驾驶车辆 |
US20230245423A1 (en) * | 2020-07-02 | 2023-08-03 | Sony Semiconductor Solutions Corporation | Information processing apparatus, information processing method, and program |
KR20220025600A (ko) | 2020-08-24 | 2022-03-03 | 삼성전자주식회사 | 영상 생성 방법 및 장치 |
CN113781440B (zh) * | 2020-11-25 | 2022-07-29 | 北京医准智能科技有限公司 | 超声视频病灶检测方法及装置 |
CN112861803A (zh) * | 2021-03-16 | 2021-05-28 | 厦门博海中天信息科技有限公司 | 一种图像识别方法、装置、服务器以及计算机可读存储介质 |
WO2023243040A1 (ja) * | 2022-06-16 | 2023-12-21 | 日本電信電話株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05101187A (ja) * | 1991-10-09 | 1993-04-23 | Kawasaki Steel Corp | 画像認識装置及びその学習方法 |
CN1242848A (zh) * | 1996-11-20 | 2000-01-26 | 罗伯特·J·詹恩阿罗尼 | 多内核神经网络并行学习、监视和预报系统 |
JP4093026B2 (ja) * | 2002-11-18 | 2008-05-28 | 日本電気株式会社 | 道路環境情報通知装置、車載報知装置、情報センタ内装置、及び道路環境情報通知プログラム |
KR100571834B1 (ko) * | 2004-02-27 | 2006-04-17 | 삼성전자주식회사 | 청소 로봇의 바닥 먼지 검출 방법 및 장치 |
JP2005311691A (ja) * | 2004-04-21 | 2005-11-04 | Toyota Central Res & Dev Lab Inc | 物体検出装置及び方法 |
JP4438795B2 (ja) * | 2006-12-28 | 2010-03-24 | 株式会社日立製作所 | 映像変換装置、映像表示装置、映像変換方法 |
US9740949B1 (en) * | 2007-06-14 | 2017-08-22 | Hrl Laboratories, Llc | System and method for detection of objects of interest in imagery |
US8774517B1 (en) * | 2007-06-14 | 2014-07-08 | Hrl Laboratories, Llc | System for identifying regions of interest in visual imagery |
US8369652B1 (en) * | 2008-06-16 | 2013-02-05 | Hrl Laboratories, Llc | Visual attention system for salient regions in imagery |
JP4577410B2 (ja) * | 2008-06-18 | 2010-11-10 | ソニー株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP2010266983A (ja) * | 2009-05-13 | 2010-11-25 | Sony Corp | 情報処理装置及び方法、学習装置および方法、プログラム、並びに情報処理システム |
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
CN103116746B (zh) * | 2013-03-08 | 2016-08-03 | 中国科学技术大学 | 一种基于多特征融合技术的视频火焰探测方法 |
CN103679154A (zh) * | 2013-12-26 | 2014-03-26 | 中国科学院自动化研究所 | 基于深度图像的三维手势动作的识别方法 |
CN105654130A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 一种基于递归神经网络的复杂图像文字序列识别系统 |
US9830709B2 (en) * | 2016-03-11 | 2017-11-28 | Qualcomm Incorporated | Video analysis with convolutional attention recurrent neural networks |
US9779492B1 (en) * | 2016-03-15 | 2017-10-03 | International Business Machines Corporation | Retinal image quality assessment, error identification and automatic quality correction |
-
2017
- 2017-09-07 JP JP2017172459A patent/JP6964234B2/ja active Active
- 2017-10-20 EP EP17870205.6A patent/EP3540687A4/en active Pending
- 2017-10-20 WO PCT/JP2017/037937 patent/WO2018088170A1/ja active Application Filing
- 2017-10-20 CN CN201780003739.XA patent/CN108307660B/zh active Active
-
2019
- 2019-04-25 US US16/394,062 patent/US10796184B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN108307660B (zh) | 2023-08-22 |
JP2018077829A (ja) | 2018-05-17 |
EP3540687A1 (en) | 2019-09-18 |
CN108307660A (zh) | 2018-07-20 |
WO2018088170A1 (ja) | 2018-05-17 |
US10796184B2 (en) | 2020-10-06 |
EP3540687A4 (en) | 2019-11-27 |
US20190251383A1 (en) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6964234B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
CN112771548B (zh) | 用于获取训练数据的系统和方法 | |
CN110909587B (zh) | 场景分类 | |
Ma et al. | Artificial intelligence applications in the development of autonomous vehicles: A survey | |
JP7218805B2 (ja) | ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション | |
US10796201B2 (en) | Fusing predictions for end-to-end panoptic segmentation | |
CN108256506B (zh) | 一种视频中物体检测方法及装置、计算机存储介质 | |
Zakaria et al. | Lane detection in autonomous vehicles: A systematic review | |
US11687773B2 (en) | Learning method and recording medium | |
WO2023207742A1 (zh) | 一种交通异常行为检测方法与系统 | |
CN104463903A (zh) | 一种基于目标行为分析的行人图像实时检测方法 | |
US12072678B2 (en) | Systems and methods for providing future object localization | |
John et al. | So-net: Joint semantic segmentation and obstacle detection using deep fusion of monocular camera and radar | |
CN113168520A (zh) | 跟踪场景中的对象的方法 | |
Yebes et al. | Learning to automatically catch potholes in worldwide road scene images | |
CN113723170A (zh) | 危险检测整合架构系统和方法 | |
CN111079634B (zh) | 车辆行驶中检测障碍物的方法、装置、系统及车辆 | |
Al Mamun et al. | Efficient lane marking detection using deep learning technique with differential and cross-entropy loss. | |
Dunna et al. | A Deep Learning based system for fast detection of obstacles using rear-view camera under parking scenarios | |
Liu et al. | Virtual world bridges the real challenge: Automated data generation for autonomous driving | |
Hoang et al. | Lane Road Segmentation Based on Improved UNet Architecture for Autonomous Driving | |
KR20240128835A (ko) | 경계 추정 장치 및 방법 | |
CN115082867A (zh) | 用于对象检测的方法和系统 | |
KR102405472B1 (ko) | 난잡한 환경에서 시맨틱 차선을 결정하기 위한 방법 및 장치 | |
EP4375953A1 (en) | Perceptual load determination method, computer program, computer readable medium, perceptual load determination system and advanced driving assistance system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190716 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190830 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210929 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6964234 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |