JP2018156640A - 学習方法およびプログラム - Google Patents
学習方法およびプログラム Download PDFInfo
- Publication number
- JP2018156640A JP2018156640A JP2018022308A JP2018022308A JP2018156640A JP 2018156640 A JP2018156640 A JP 2018156640A JP 2018022308 A JP2018022308 A JP 2018022308A JP 2018022308 A JP2018022308 A JP 2018022308A JP 2018156640 A JP2018156640 A JP 2018156640A
- Authority
- JP
- Japan
- Prior art keywords
- image
- neural network
- movement amount
- learning
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/18—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/31—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
一般的に、移動中の自動車で得られる画像からモーションフローの推定を精度よく行うことは、専用のハードウェアを必要とする複雑な処理を必要とすることが知られている。一方で、近年では、モーションフローを推定することを目的としたアルゴリズムの開発が盛んになってきている。しかしながら、モーションフローの推定させるために使える、公に利用可能なデータセットは欠如しており、重大な問題となっている。
以下では、図面を参照しながら、実施の形態における推定器10の情報処理方法等の説明を行う。
図1は、実施の形態における推定器10の構成の一例を示すブロック図である。図2は、図1に示す推定器10が用いるニューラルネットワークの構成の一例を示すブロック図である。
図2は、図1に示す推定器10が用いるニューラルネットワーク10aの構成の一例を示すブロック図である。
H−net11は、第1ニューラルネットワークの一例であり、第1画像51中の全画素に対して用いる変換行列Hであって第1画像51を第2画像52に変換する変換行列Hを出力する。より具体的には、H−net11は、1以上の畳み込み層と、1以上の全結合層とで構成され、変換行列Hを構成する3×3の9つの係数となる9つのパラメータを出力する。つまり、全結合層は、変換行列Hを構成する9つの係数となる9つパラメータを出力するように構成されている。なお、全結合層は、変換行列Hを構成する9つの係数となる9つパラメータのうちの少なくとも8つのパラメータを出力するように構成されていてもよい。8つのパラメータから9つ目のパラメータを算出できるからである。
STLH12は、H−net11より出力された変換行列Hを用いて、第1画像51の各画素の所定時間後までの第1移動量を表現した第1移動量画像61を、第1画像51および第2画像52の間の動きの推定結果として出力する。STLH12は、例えば非特許文献2に開示されている空間的不変性を保てる完全に微分可能な空間変換ネットワーク(Spatial Transformer Network:STN)で構成された空間変換層(Spatial transformer Layer)である。非特許文献2では、同一物体のある角度から撮影された画像を、同一物体を別の角度で撮影された他の画像にワープ(変形などの変換)を行わせる変換行列の出力するためのパラメータをSTNに学習させることが開示されている。そして、例えばニューラルネットワークなどの一般的なパラメトリック関数によって2つのフレームUt、Ut+1から推定された射影変換Tφが与えられると、STNは、Tφ(Ut)を計算することで、Ut+1を得ることができる。
図4は、図1に示す推定器10が用いるニューラルネットワーク10bの構成の一例を示すブロック図である。図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
F−net13は、ニューラルネットワーク10bを構成する第1ニューラルネットワークと異なる第2ニューラルネットワークの一例であり、refinement networkと称することもある。F−net13は、第1画像51、第2画像52および第1移動量を表現した第1移動量画像61が入力され、第1画像51の各画素の所定時間後までの第2移動量を表現した第2移動量画像62を出力する。より具体的には、F−net13は、1以上の畳み込み層からなる圧縮層と、圧縮層の後に位置し、1以上の逆畳み込み層からなる展開層と、展開層の後に位置する1つの畳み込み層とで構成され、第2移動量を表現した第2移動量画像62を構成する各画素の移動量を示す2つパラメータを出力する。つまり、展開層の後に位置する1つの畳み込み層は、第2移動量を構成する画素の移動量を示す2つのパラメータを出力するように構成されている。
図6は、実施の形態における推定器10の推定処理結果を概念的に示す図である。図6には、推定器10が図4に示すニューラルネットワーク10bを用いた場合の推定処理結果の一例が示されている。
以下、このような推定器10を実現するための学習処理について説明する。推定器10として機能する前の、学習処理が行われるものをニューラルネットワーク10cと称して説明する。
図7は、実施の形態における学習方法を示すフローチャートである。
以下、図7に示すステップS12の詳細処理について説明する。
図8は、実施の形態の学習処理で用いられるニューラルネットワーク10cの構成の一例を示す図である。図8には、学習後のニューラルネットワーク10cが図4を用いて説明したニューラルネットワーク10bになるとした場合のニューラルネットワーク10cの構成が示されている。なお、図4と同様の要素には同一の符号を付しており、詳細な説明は省略する。
図9は、図7に示すステップS12の詳細処理の一例を示すフローチャートである。図9では、一例として、図8に示したニューラルネットワーク10cを用いてステップS12の学習処理を行うとして説明する。
ニューラルネットワークを用いたオプティカルフローの推定は、最も活発な研究分野の一つである。しかし、車載カメラで撮影された動画像を構成する時間的に隣接する2つの画像間の密なモーションフローを推定することは困難であり、ニューラルネットワークに、オプティカルフローの推定を精度よく短時間に行わせることは難しいとされてきた。
つまり、第1移動量画像は、連続した2つ画像間のオプティカルフローの推定を粗く行ったことに該当する。
以下、本開示の推定器10に用いられるニューラルネットワークの有効性について検証したので、その実験結果を実施例として説明する。
本実験では、学習率を10−4、ミニバッチサイズを16、β1を0.5に設定し、それ以外のパラメータをデフォルト(初期値)としてAdam optimizerを用いて学習を行った。また、学習は、それぞれ1000個のミニバッチで構成された250epoch後に終了するとした。また、H-netおよびF-netの第1誤差および第2誤差を評価するため結合誤差は、上述した(式2)を用いて、αを0.5、βを1とした。
図11は、本開示の学習方法の学習効果を示す図である。なお、図11では最初の50個のミニバッチ分はプロットスケールをより読みやすくするために省略している。また、図11において、細線のデータは、比較例であり、Virtual Kitti Data setの正解データを教師データとして用いて学習させた場合のバッチ数とAverage Point Errorとの関係を示している。一方、太線のデータは、本開示のニューラルネットワークをVirtual Kitti Data setを用いて教師なしで学習させた場合のバッチ数とReconstruction Errorとの関係を示している。Reconstruction Errorは、(式2)の結合誤差の値に該当する。
以上、実施の形態において本開示の学習方法について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサーなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。
10a、10b、10c ニューラルネットワーク
11、11c H−net
11a Ego-motion Network
12 STLH
13、13c F−net
14 STLF
15 第1誤差算出部
16 第2誤差算出部
51 第1画像
52 第2画像
61、61c 第1移動量画像
62、62c 第2移動量画像
63c 第1推定画像
64c 第2推定画像
111、112、113、114、115、116、141 Conv
117、118、119 FC
131、132、133、134、135 C−block
136、137、138、139、140 T−block
Claims (9)
- 動画像を構成する時間的に隣接する第1画像および第2画像であって、前記第1画像および前記第1画像から所定時間後の画像である前記第2画像をニューラルネットワークに入力する入力ステップと、
前記第1画像および前記第2画像を用いて、前記ニューラルネットワークに、前記第1画像中の全画素に対して用いる変換行列であって前記第1画像を前記第2画像に変換する変換行列を出力することを学習させる学習ステップと、
前記変換行列より生成される前記第1画像の各画素の前記所定時間後までの移動量を表現した移動量画像を、前記第1画像および前記第2画像の間の動きの推定結果として出力する出力ステップとを含む、
学習方法。 - 動画像を構成する時間的に隣接する第1画像および第2画像であって、前記第1画像および前記第1画像から所定時間後の画像である前記第2画像を、ニューラルネットワークに入力する入力ステップと、
i)前記ニューラルネットワークを構成する第1ニューラルネットワークに、前記第1画像および前記第2画像を用いて、前記第1画像の各画素の前記所定時間後までの第1移動量を表現した第1移動量画像を出力することを学習させ、ii)前記ニューラルネットワークを構成する前記第1ニューラルネットワークと異なる第2ニューラルネットワークに、前記第1画像、前記第2画像および前記第1移動量画像を用いて、前記第1画像の各画素の前記所定時間後までの第2移動量を表現した第2移動量画像を出力することを学習させる学習ステップと、
前記第2移動量画像を、前記第1画像および前記第2画像の間の動きの推定結果として出力する出力ステップとを含む、
学習方法。 - 前記学習ステップでは、
前記第1画像および前記第2画像を用いて、前記第1ニューラルネットワークに、前記第1画像中の全画素に対して用いる変換行列であって前記第1画像を前記第2画像に変換する変換行列を出力することを学習させることにより、前記変換行列から生成される前記第1移動量画像を出力することを学習させる、
請求項2に記載の学習方法。 - 前記学習ステップでは、
前記変換行列と前記第1画像とにより生成される、前記第1画像から前記所定時間後の画像である第1推定画像と前記第2画像との誤差である第1誤差、および、前記第2移動量画像と前記第1画像とにより生成される、前記第1画像から前記所定時間後の画像である第2推定画像と前記第2画像との誤差である第2誤差を結合した結合誤差を算出し、
算出した前記結合誤差が最小になった場合に、前記結合誤差が最小になった前記第1ニューラルネットワークおよび前記第2ニューラルネットワークの重みを、学習させた前記第1ニューラルネットワークおよび前記第2ニューラルネットワークの重みとして決定する決定ステップとを含む、
請求項3に記載の学習方法。 - 前記ニューラルネットワークを構成する第1ニューラルネットワークは、
1以上の畳み込み層と、
1以上の全結合層とで構成され、
前記全結合層は、前記変換行列を構成する9つの係数となる9つパラメータのうちの少なくとも8つのパラメータを出力するように構成されている、
請求項1、3または4に記載の学習方法。 - 前記ニューラルネットワークを構成する第1ニューラルネットワークは、
2以上の畳み込み層とで構成され、
前記2以上の畳み込み層のうちの最終層は、前記変換行列を構成する9つの係数となる9つパラメータのうちの少なくとも8つのパラメータを出力するように構成されている、
請求項1、3または4に記載の学習方法。 - 前記ニューラルネットワークを構成する第2ニューラルネットワークは、
1以上の畳み込み層からなる圧縮層と、
前記圧縮層の後に位置し、1以上の逆畳み込み層からなる展開層と、
前記展開層の後に位置する1つの畳み込み層とで構成され、
前記1つの畳み込み層は、前記第2移動量画像を構成する画素の移動量を示す2つのパラメータを出力するように構成されている、
請求項5または6に記載の学習方法。 - 動画像を構成する時間的に隣接する第1画像および第2画像であって、前記第1画像および前記第1画像から所定時間後の画像である前記第2画像をニューラルネットワークに入力する入力ステップと、
前記第1画像および前記第2画像を用いて、前記ニューラルネットワークに、前記第1画像中の全画素に対して用いる変換行列であって前記第1画像を前記第2画像に変換する変換行列を出力することを学習させる学習ステップと、
前記変換行列より生成される前記第1画像の各画素の前記所定時間後までの移動量を表現した移動量画像を、前記第1画像および前記第2画像の間の動きの推定結果として出力する出力ステップとを、
コンピュータに実行させるプログラム。 - 動画像を構成する時間的に隣接する第1画像および第2画像であって、前記第1画像および前記第1画像から所定時間後の画像である前記第2画像を、ニューラルネットワークに入力する入力ステップと、
i)前記ニューラルネットワークを構成する第1ニューラルネットワークに、前記第1画像および前記第2画像を用いて、前記第1画像の各画素の前記所定時間後までの第1移動量を表現した第1移動量画像を出力することを学習させ、ii)前記ニューラルネットワークを構成する前記第1ニューラルネットワークと異なる第2ニューラルネットワークに、前記第1画像、前記第2画像および前記第1移動量画像を用いて、前記第1画像の各画素の前記所定時間後までの第2移動量を表現した第2移動量画像を出力することを学習させる学習ステップと、
前記第2移動量画像を、前記第1画像および前記第2画像の間の動きの推定結果として出力する出力ステップとを、
コンピュータに実行させるプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762472151P | 2017-03-16 | 2017-03-16 | |
US62/472,151 | 2017-03-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018156640A true JP2018156640A (ja) | 2018-10-04 |
JP7036610B2 JP7036610B2 (ja) | 2022-03-15 |
Family
ID=63522380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018022308A Active JP7036610B2 (ja) | 2017-03-16 | 2018-02-09 | 学習方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11687773B2 (ja) |
EP (1) | EP3598387B1 (ja) |
JP (1) | JP7036610B2 (ja) |
CN (1) | CN109564687B (ja) |
WO (1) | WO2018168539A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021132566A1 (ja) * | 2019-12-26 | 2021-07-01 | パナソニックIpマネジメント株式会社 | 表示制御装置、表示システム、表示制御方法 |
JP2023127389A (ja) * | 2022-03-01 | 2023-09-13 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11008000B2 (en) * | 2017-06-20 | 2021-05-18 | Motional Ad Llc | Risk processing for vehicles having autonomous driving capabilities |
JP7345236B2 (ja) * | 2017-11-10 | 2023-09-15 | 株式会社小松製作所 | 作業車両の動作を推定するための方法、システム、学習済みの分類モデルの製造方法、学習データ、及び学習データの製造方法 |
KR20200010640A (ko) * | 2018-06-27 | 2020-01-31 | 삼성전자주식회사 | 모션 인식 모델을 이용한 자체 운동 추정 장치 및 방법, 모션 인식 모델 트레이닝 장치 및 방법 |
JP2020095428A (ja) | 2018-12-12 | 2020-06-18 | 株式会社東芝 | モデル学習システム、モデル学習方法、プログラム、及び記憶媒体 |
CN111627051B (zh) * | 2019-02-27 | 2023-12-15 | 中强光电股份有限公司 | 电子装置及用以估计光流的方法 |
US11120582B2 (en) * | 2019-07-31 | 2021-09-14 | Z2Sky Technologies Inc. | Unified dual-domain network for medical image formation, recovery, and analysis |
CN114450965A (zh) * | 2019-09-20 | 2022-05-06 | 交互数字Vc控股公司 | 基于长范围端对端深度学习的视频压缩 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04241077A (ja) * | 1991-01-24 | 1992-08-28 | Mitsubishi Electric Corp | 移動物体認識方法 |
JPH11283040A (ja) * | 1998-01-29 | 1999-10-15 | Mitsubishi Electric Corp | 操作制御装置および動作解析プログラムを記録したコンピュ―タ読み取り可能な記録媒体 |
KR20000011728A (ko) * | 1998-07-15 | 2000-02-25 | 이데이 노부유끼 | 움직임 벡터 검출 방법, 움직임 벡터 산출 프로그램이 기록된 기록 매체, 움직임 검출 장치, 움직임 검출 방법, 화상 엔코딩 장치, 화상 엔코딩 방법, 움직임 벡터 산출 방법, 움직임 벡터 산출 프로그램이 기록된 기록 매체 |
JP3963424B2 (ja) * | 2000-10-23 | 2007-08-22 | 株式会社エッチャンデス | 視覚装置 |
JP4102318B2 (ja) * | 2004-03-03 | 2008-06-18 | 日本電信電話株式会社 | 道具動作認識装置および道具動作認識方法 |
EP1780672A1 (en) * | 2005-10-25 | 2007-05-02 | Bracco Imaging, S.P.A. | Method of registering images, algorithm for carrying out the method of registering images, a program for registering images using the said algorithm and a method of treating biomedical images to reduce imaging artefacts caused by object movement |
JP4615594B2 (ja) * | 2008-10-17 | 2011-01-19 | シャープ株式会社 | 画像表示装置及び方法、画像処理装置及び方法 |
US9008363B1 (en) * | 2013-01-02 | 2015-04-14 | Google Inc. | System and method for computing optical flow |
JP2016217842A (ja) * | 2015-05-19 | 2016-12-22 | 株式会社小野測器 | 回転速度計測装置 |
US20170109584A1 (en) * | 2015-10-20 | 2017-04-20 | Microsoft Technology Licensing, Llc | Video Highlight Detection with Pairwise Deep Ranking |
-
2018
- 2018-02-09 JP JP2018022308A patent/JP7036610B2/ja active Active
- 2018-03-05 WO PCT/JP2018/008230 patent/WO2018168539A1/ja unknown
- 2018-03-05 CN CN201880003113.3A patent/CN109564687B/zh active Active
- 2018-03-05 EP EP18768055.8A patent/EP3598387B1/en active Active
-
2019
- 2019-07-11 US US16/509,451 patent/US11687773B2/en active Active
Non-Patent Citations (2)
Title |
---|
ANURAG RANJAN ET AL.: "Optical Flow Estimation using a Spatial Pyramid Network", ARXIV, JPN6021038877, 2016, pages 1 - 10, ISSN: 0004607332 * |
EDDY ILG ET AL: "FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks", ARXIV, JPN6021038879, 2016, pages 1 - 10, ISSN: 0004607331 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021132566A1 (ja) * | 2019-12-26 | 2021-07-01 | パナソニックIpマネジメント株式会社 | 表示制御装置、表示システム、表示制御方法 |
US11987122B2 (en) | 2019-12-26 | 2024-05-21 | Panasonic Automotive Systems Co., Ltd. | Display control device, display system, and display control method for controlling display of alert |
JP2023127389A (ja) * | 2022-03-01 | 2023-09-13 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7405379B2 (ja) | 2022-03-01 | 2023-12-26 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3598387A4 (en) | 2020-01-22 |
US11687773B2 (en) | 2023-06-27 |
US20190332939A1 (en) | 2019-10-31 |
CN109564687A (zh) | 2019-04-02 |
WO2018168539A1 (ja) | 2018-09-20 |
JP7036610B2 (ja) | 2022-03-15 |
EP3598387B1 (en) | 2023-09-20 |
CN109564687B (zh) | 2023-10-13 |
EP3598387A1 (en) | 2020-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018168539A1 (ja) | 学習方法およびプログラム | |
AU2017324923B2 (en) | Predicting depth from image data using a statistical model | |
US11176381B2 (en) | Video object segmentation by reference-guided mask propagation | |
Yang et al. | Dense depth posterior (ddp) from single image and sparse range | |
Wong et al. | Bilateral cyclic constraint and adaptive regularization for unsupervised monocular depth prediction | |
WO2021164731A1 (zh) | 图像增强方法以及图像增强装置 | |
US11663733B2 (en) | Depth determination for images captured with a moving camera and representing moving features | |
JP5960513B2 (ja) | 映像処理装置及び方法 | |
KR20210025942A (ko) | 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법 | |
EP3076364A1 (en) | Image filtering based on image gradients | |
CN110782490A (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
US11113832B2 (en) | Aperture supervision for single-view depth prediction | |
CN111402146A (zh) | 图像处理方法以及图像处理装置 | |
KR102311796B1 (ko) | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 | |
CN108491763A (zh) | 三维场景识别网络的无监督训练方法、装置及存储介质 | |
US20210158098A1 (en) | A method and a system training a model to perform semantic segmentation on foggy images | |
US11869172B2 (en) | Kernel reshaping-powered splatting-based efficient image space lens blur | |
KR102162451B1 (ko) | 학습네트워크 기반의 비디오 보간 방법 및 비디오 보외 방법 | |
CN110827341A (zh) | 一种图片深度估计方法、装置和存储介质 | |
CN113139567B (zh) | 信息处理装置及其控制方法、车辆、记录介质、信息处理服务器、信息处理方法 | |
Haji-Esmaeili et al. | Large-scale monocular depth estimation in the wild | |
CN117956130A (zh) | 视频处理方法、装置、设备、系统及可读取存储介质 | |
Marcus et al. | A lightweight machine learning pipeline for LiDAR-simulation | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN115315722A (zh) | 训练多幅图像的对齐 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200821 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7036610 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |