JP7143263B2 - 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム - Google Patents

符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム Download PDF

Info

Publication number
JP7143263B2
JP7143263B2 JP2019161826A JP2019161826A JP7143263B2 JP 7143263 B2 JP7143263 B2 JP 7143263B2 JP 2019161826 A JP2019161826 A JP 2019161826A JP 2019161826 A JP2019161826 A JP 2019161826A JP 7143263 B2 JP7143263 B2 JP 7143263B2
Authority
JP
Japan
Prior art keywords
image
candidate
candidate image
area
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019161826A
Other languages
English (en)
Other versions
JP2021039642A (ja
Inventor
和之 田坂
勝 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019161826A priority Critical patent/JP7143263B2/ja
Publication of JP2021039642A publication Critical patent/JP2021039642A/ja
Application granted granted Critical
Publication of JP7143263B2 publication Critical patent/JP7143263B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、所定の対象を画像内に含み得る画像データから、当該対象を識別する技術に関する。
現在、監視やマーケティング等の目的をもって、さらには自動運転車や自律ロボット等の「視覚系」として、カメラによって生成された画像データを解析し、撮影された対象を識別する技術の開発が盛んに進められている。
ここで、この対象識別処理は多くの場合、対象検出用に学習を行った物体検出器を用いて実施される。このような物体検出器を利用した例として、非特許文献1は、畳み込みニューラルネットワーク(CNN,Convolutional Neural Network)を用いて、画像に含まれる対象における存在位置やその種別を推定する技術を開示している。
また、特許文献1には、CNNを用い、特定物体の検出処理の高速化を図った物体検出装置が開示されている。この装置は具体的に、畳み込み計算を行うニューラルネットワークを1層以上備えており特徴マップを出力する特徴抽出部と、この特徴マップに対しスライディングウィンドウ処理を実行して複数の特徴マップウィンドウを出力するスライディングウィンドウ部と、これらの特徴マップウィンドウ内に特定の物体が含まれるか否かを判定する識別部とを備えている。
さらにこの物体検出装置においては、例えば画像サイズが1280×448である画像について物体検出を行う場合、この画像を、互いに画質の異なる複数の画像、例えば320×112、640×224、及び1280×448の画像に変換し、これらの画像を用いて物体検出を行っている。
特開2018-005520号公報
Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, "SSD: single shot multibox detector", European Conference on Computer Vision, Computer Vision-ECCV 2016, 2016年, 21~37頁
以上に説明したような画像識別技術が実施される状況として、多くの場合、撮影され生成された画像データは、車載装置や監視カメラ装置等から圧縮符号化された映像ストリームの形で画像識別装置へ送信されることになる。
ここで、特許文献1や非特許文献1に記載されたような従来技術においては、対象識別処理の前提となる、対象に係る画像領域の推定処理を行うため、このストリームデータを一先ず画像データの形に変換して、機械学習モデルへ入力する必要が生じてしまう。
そのため、ストリームデータを受けた対象識別装置における処理負担が多大なものとなり、特に、対象識別処理のリアルタイム性が要求される場面においては、この大きな処理負担は重大な問題となってきた。
そこで、本発明は、処理対象である画像データを受信する側における対象識別処理の処理負担を低減可能な対象識別方法、装置及びプログラムを提供することを目的とする。
本発明によれば、所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段
を有し
候補領域決定手段は、複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n(nは2からN(≧2)までの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別装置が提供される。
この本発明による対象識別装置においては、第nの候補画像領域は、第(n-1)の候補画像領域よりも大きい面積を有するように設定されることも好ましい。さらに、第1の候補画像領域及び第Nの候補画像領域の間となる候補画像領域がm個存在している場合に、m個の候補画像領域の各々における面積値は、第1の候補画像領域の面積値と第Nの候補画像領域の面積値との間を(m+1)等分した際の各等分位置の値に設定されることも好ましい。
また具体的に1つの実施形態として、第nの候補画像領域は、第(n-1)の候補画像領域を自らの中央に配し、且つ第(n-1)の候補画像領域の全体を包含するように決定されることも好ましい。さらに他の実施形態として、第1の候補画像領域は、当該単位画像区域の画像内での位置が、自らの下部又は下端となるように決定されることも好ましい。
また、上述したような実施形態において、第1の候補画像領域は、当該単位画像区域の画像内での位置における画像下端からの距離が小さいほど、より大きな面積を有するように決定されることも好ましい。さらに、第1の候補画像領域は、当該単位画像区域の画像内での位置における消失点からの距離が大きいほど、より大きな面積を有するように決定されることも好ましい。
また、本発明による対象識別装置では具体的に、当該映像データの符号化はMPEG(Moving Picture Experts Group)による符号化であり、所定条件を満たす符号化パラメータは、
(a)所定以上の大きさと、基準向きに対し所定以上の角度をなす向きとを有する順方向予測の動きベクトル、
(b)所定以上の大きさを有する画面内予測の符号量、及び
(c)所定以下の大きさを有する量子化ステップサイズ
のうちの少なくとも1つであって、当該単位画像区域はマクロブロックであることも好ましい。
さらに、本発明による対象識別装置における当該識別器は、
当該少なくとも1つの候補画像領域のそれぞれを入力とし、当該候補画像領域の特徴に係る特徴情報をそれぞれ出力する少なくとも1つの畳み込み層部(Convolutional Layers)と、
上記の少なくとも1つの畳み込み層部から出力される特徴情報を取りまとめて入力とし、当該対象のクラスに係る情報を出力する全結合層部(Fully-Connected Layers)と
を含むことも好ましい。
本発明によれば、また、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータによって実施される方法であって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定するステップと、
決定された複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別するステップ
を有し
上記の複数の候補画像領域を決定するステップでは、複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n(nは2からN(≧2)までの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別方法が提供される。
本発明によれば、さらに、クライアントで生成された、所定の対象を画像内に含み得る画像データを取得し、当該対象を識別するサーバであって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報であって、クライアントから当該画像データとともに取得された位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
を有し
候補領域決定手段は、複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n(nは2からN(≧2)までの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別サーバが提供される。
本発明によれば、さらにまた、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータを機能させるプログラムであって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
してコンピュータを機能させ
候補領域決定手段は、複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n(nは2からN(≧2)までの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別プログラムが提供される。
本発明の対象識別方法、装置及びプログラムによれば、処理対象である画像データを受信する側における対象識別処理の処理負担を低減することができる。
本発明による対象識別装置(サーバ)及びクライアントを備えた対象識別システムの一実施形態を説明するための模式図及び機能ブロック図である。 本発明に係る候補領域決定部における候補画像領域決定処理の一実施例を説明するための模式図である。 本発明に係る候補領域決定部における候補画像領域決定処理についての種々の実施形態を説明するための模式図である。 本発明に係る対象識別部における対象識別処理の一実施例を説明するための模式図である。 本発明に係るマクロブロック選別部におけるマクロブロック選別処理の実施例を説明するための模式図である 本発明に係る有意映像ストリーム生成部における有意映像ストリームを構成するフレームの生成に係る一実施形態を説明するための模式図である。 本発明に係る有意映像ストリーム生成部における有意映像ストリーム生成処理の一実施形態を説明するための模式図である。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
[対象識別システム]
図1は、本発明による対象識別装置(サーバ)及びクライアントを備えた対象識別システムの一実施形態を説明するための模式図及び機能ブロック図である。
図1に示した本実施形態の対象識別システムは、
(a)移動可能なクライアントである少なくとも1つの端末20と、
(b)端末20から、所定の対象を画像内に含み得る画像データを取得可能なサーバであるクラウドサーバ1と
を有し、クラウドサーバ1において、当該画像データから所定の対象が識別されるのである。
また上記(a)の端末20は、本実施形態において通信機能を有するドライブレコーダであり自動車2に設置されている。ここで、その設置場所は任意に設定可能であり、例えば自動車2のフロントガラス越しに車両前方を撮影可能な位置(例えばダッシュボード上部)とすることができる。勿論、車両側方や後方を撮影可能な位置に端末20を設置してもよく、異なる複数の位置の各々に端末20を設置することも可能である。
さらに本実施形態において、端末20(ドライブレコーダ)は、例えば自動車2の進行方向の状況をカメラで撮影して画像(映像)データを生成し、自身に設けられたメモリやストレージに保存することができる。また、端末20は、例えば携帯電話通信網やインターネット等を介してクラウドサーバ1と無線通信接続が可能となっており、保存した画像(映像)データの一部又は全部を、適宜又は要求に応じてクラウドサーバ1へ送信することもできるのである。
ここで、端末20からクラウドサーバ1へ画像(映像)データを送信する際、端末20は通常、当該画像(映像)データに対し圧縮符号化処理を行い、伝送負担の小さい圧縮映像ストリームを生成して送信することになる。本実施形態では、この圧縮符号化処理として、MPEG(Moving Picture Experts Group)規格におけるH.264やH.265といった標準フォーマットによる処理が実施されるが、非標準のフォーマットによるものとすることも可能である。また勿論、空間解像度、フレームレートや、ビットレートは任意に設定可能となっている。
さらに、後に図5~7を用いて詳細に説明するが、端末20は、後述する「符号化パラメータマップ」フレームに同期した符号化フレームによって構成される「有意映像ストリーム」(図7)を、クラウドサーバ1へ送信することも好ましい。
ここで、「有意映像ストリーム」は、クラウドサーバ1における対象識別処理に必要となるであろう(当該処理上有意となるであろう)フレームによって構成されており、実際には、カメラ202によって撮影される自動車2の周囲の状況の中で、撮影範囲において急に現れたり消滅したり、その位置や形状が所定以上の急激さで変化したりした対象を捉えたフレームを選別して含んでいる。またその結果、「有意映像ストリーム」は、符号化された原映像ストリームと比較しても、伝送容量のより低減した映像データとなっているのである。
一方、上記(b)のクラウドサーバ1は、具体的にその構成として、
(A)識別処理対象である画像データを含む映像データを符号化した際に決定される「符号化パラメータ」が所定条件を満たすことになる「単位画像区域」の画像内での位置に係る情報に基づき、当該画像データにおいて、所定の対象に係る少なくとも1つの「候補画像領域」を決定する候補領域決定部112と、
(B)決定された少なくとも1つの「候補画像領域」を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから所定の対象を識別する対象識別部113と
を有することを特徴としている。
ここで、上記(A)において「候補画像領域」を決定する画像データは、受信された圧縮符号化画像(映像)データを伸張(デコード)したものとすることができ、または、「有意映像ストリーム」を構成する画像データであってもよい。
また、上記(A)の「符号化パラメータ」は、本実施形態においてMPEGにおける、順方向予測の動きベクトル、画面内予測の符号量、及び量子化ステップサイズのうちの少なくとも1つとすることができ、さらに、「符号化パラメータ」が所定条件を満たすことになる「単位画像区域」は、
(a)順方向予測の動きベクトルが、所定以上の大きさと、基準向き(例えば、消失点(画像内地平線上の収束点)へ向かう向き)に対し所定以上の角度をなす向きとを有している、
(b)画面内予測の符号量が、所定以上の大きさを有する、及び
(c)量子化ステップサイズが、所定以下の大きさを有する
との3つの条件のうちの1つ、2つ又は全部が満たされる「マクロブロック」であることも好ましい。
なお、このような条件を満たす「マクロブロック(単位画像区域)」の情報は、端末20から「有意映像ストリーム」とともに送信されてきた「符号化パラメータマップ」によって取得してもよい。「符号化パラメータマップ」は、後に詳細に説明するが、順方向予測の動きベクトル、画面内予測の符号量、及び/又は量子化ステップサイズが所定条件を満たす度合いが高いほど、対応するマクロブロックの部分の画素値をより大きくしたマップデータである。
例えば「符号化パラメータマップ」は、順方向予測の動きベクトルの大きさが大きいほど、また、基準向きに対してその向きのなす角度が大きいほど、そのマクロブロックの部分における色合いの階調を高く(濃く)したものであってもよい。また、画面内予測の符号量が大きいほど、そのマクロブロックの部分における色合いの階調を高く(濃く)したものとすることもできる。さらに、量子化ステップサイズが小さいほど、そのマクロブロックの部分における色合いの階調を高く(濃く)したものであってもよい。
いずれにしても、このような「符号化パラメータマップ」を用いることによって、「符号化パラメータ」が所定条件を満たすことになる「単位画像区域」の画像内での位置に係る情報を取得・決定し、これにより「候補画像領域」を決定することができるのである。
ちなみに、端末20は、「符号化パラメータマップ」ではなく、所定条件を満たす「マクロブロック」の画像内における位置情報(例えばマクロブロックのアドレスや画像内位置座標値)をクラウドサーバ1へ通知し、クラウドサーバ1は、この位置情報に基づいて、「候補画像領域」を決定することも可能である。
さらに、「符号化パラメータマップ」や上記のマクロブロック位置情報は、端末20から取得されるのではなく、クラウドサーバ1において生成されてもよい。すなわちクラウドサーバ1が、受信した圧縮符号化映像ストリームを一先ず簡易的に伸張(デコード)して、ビットストリームを解釈(パース)し、符号化パラメータを抽出することによって、「符号化パラメータマップ」や上記のマクロブロック位置情報を生成してもよい。
いずれにしても、クラウドサーバ1は、「符号化パラメータ」が所定条件を満たすことになる「単位画像区域」の画像内での位置に係る情報に基づいて、少なくとも1つの「候補画像領域」を決定することができる。すなわち、対象識別処理を実施するにあたり、最初に検出器を用いて画像内において所定の対象を検出する処理を行い、予めその候補位置を決定するといった負担の大きい処理を実施する必要がないのである。
これは言い換えると、クライアントである端末20側において送信映像データを圧縮符号化する段階で、対象検出処理相当の処理結果が生成されると捉えることもできる。これにより、処理対象である画像データを受信する側(すなわちクラウドサーバ1)における対象識別処理の処理負担を低減することができるのである。またその実施態様によってはクラウドサーバ1において、本来、対象検出処理を実施するにあたり必要となるデータの蓄積が不要となり、結果的に、サーバ側でのデータ蓄積量を低減することも可能となるのである。
なお、端末20は当然に、自動車2に設置された車載装置(ドライブレコーダ)に限定されるものではなく、例えば自転車や鉄道車両、さらにはロボットやドローン等の他の移動体に設置された又は搭乗した装置であってもよい。また、端末20は、例えばHMD(Head Mounted Display)やグラス型端末等のウェアラブル端末であってもよい。この場合、例えばユーザが歩きながら撮影し生成した画像データがクラウドサーバ1へ上げられることになる。さらに、画像データ生成・送信元のクライアントは、端末20とは異なり移動可能ではない端末であってもよく、例えば通信機能を備えた固定カメラ装置とすることもできる。
[対象識別サーバの機能構成]
図1に示した機能ブロック図によれば、クラウドサーバ1は、通信インタフェース101と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明による対象識別プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この対象識別プログラムを実行することによって、対象識別処理を実施する。
またこのことから、本発明による対象識別サーバとして、本クラウドサーバ1に代えて、本発明による対象識別プログラムを搭載した、例えば非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等を採用することも可能となる。
また例えば、端末20に本発明による対象識別プログラムを搭載し、当該端末20を本発明による対象識別サーバとすることもできる。さらに、本発明による対象識別サーバを、端末20とともに自動車2に設置する実施形態も可能となるのである。
また、上記のプロセッサ・メモリは、画像取得部111と、候補領域決定部112と、対象識別部113と、学習データ生成部114と、学習モデル生成部115と、送受信制御部116とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された対象識別プログラムの機能と捉えることができる。また、図1におけるクラウドサーバ1の機能構成部間を矢印で接続して示した処理の流れは、本発明による対象識別方法の一実施形態としても理解される。
同じく図1の機能ブロック図において、画像取得部111は、端末20から通信インタフェース101及び送受信制御部116を介して受信された、圧縮符号化された映像ストリームを取得し、管理する。ここで画像取得部111は、当該映像ストリームを伸張(デコード)し、原映像ストリームを構成する画像データ群として管理することも好ましい。また上述したように一変更態様として、ビットストリームを解釈(パース)し、符号化パラメータを抽出することによって「符号化パラメータマップ」を生成するようにすることも可能である。
候補領域決定部112は、端末20から上記の映像ストリームとともに受信された「マクロブロック位置情報」に基づき、画像取得部111から取り込んだ画像データにおいて、所定の対象に係る少なくとも1つの候補画像領域を決定する。ここで「マクロブロック位置情報」は、
(a)符号化パラメータが所定条件を満たすことになるマクロブロックの画像内における位置情報、例えばマクロブロックアドレスや、マクロブロックの画像内位置座標値、又は
(b)符号化パラメータマップ
とすることができる。
具体的に本実施形態における「マクロブロック位置情報」は、上述したように、
(a)順方向予測の動きベクトルが、所定以上の大きさと、消失点へ向かう基準向きに対し所定以上の角度をなす向きとを有している、
(b)画面内予測の符号量が、所定以上の大きさを有する、及び
(c)量子化ステップサイズが、所定以下の大きさを有する
との3つの条件のうちの1つ、2つ又は全部(いずれを採用するかは予め設定される)が満たされるマクロブロックの画像内位置情報となっている。
候補領域決定部112は、このような「マクロブロック位置情報」で指定された画像内位置を基準として、対象識別処理に使用すべき候補画像領域を決定するのである。
図2は、候補領域決定部112における候補画像領域決定処理の一実施例を説明するための模式図である。
図2によれば、候補領域決定部112は、識別対象である画像データと、当該画像データに対応する符号化パラメータマップとを取得し、この符号化パラメータマップから、上記の所定条件を満たすマクロブロックの画像内位置座標を抽出して、候補画像領域を決める際の基準となる基準対象位置(図2における黒丸)を決定している。
ここで、所定条件を満たすマクロブロックが複数の固まりとなって分布している場合、例えば各固まりの重心座標を、基準対象位置に決定することができる。本実施例においても、実際には複数の基準対象位置が決定されているが、図2では、そのうちの1つを示している。
次いで、候補領域決定部112は本実施例において、決定した基準対象位置に基づき3つの候補画像領域を決定している。具体的には、図2に示すように、
(a)この基準対象位置(所定条件を満たすマクロブロックの画像内位置)を含む第1の候補画像領域と、
(b)第1の候補画像領域の全体(又は所定以上の部分)を含む第2の候補画像領域と、
(c)第2の候補画像領域の全体(又は所定以上の部分)を含む第3の候補画像領域と
を決定しているのである。
ここで勿論、候補領域決定部112は、3つの候補画像領域に限定されず、予め設定されたN(2以上の整数)個の候補画像領域を決定することができる。この場合、基準対象位置(所定条件を満たすマクロブロックの画像内位置)を含む第1の候補画像領域と、第n(nは2からNまでの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定することも好ましい。
図3は、候補領域決定部112における候補画像領域決定処理についての種々の実施形態を説明するための模式図である。
最初に候補領域決定部112は、図3(A)に示すように、識別対象の画像データにおいて1つの基準対象位置を決定しているものとする。ここで、基準対象位置は、例えば同図のように画像内に自動車が含まれている場合、この自動車における平坦な地面(路面)と接する足元、すなわちタイヤ付近となることが多い。
次いで一実施形態として、候補領域決定部112は、図3(B)に示すように、
(a)決定された基準対象位置を含む第1の候補画像領域と、
(b)第1の候補画像領域を自らの中央に配し、且つ第1の候補画像領域の全体を包含する第2の候補画像領域と、
(c)第2の候補画像領域を自らの中央に配し、且つ第2の候補画像領域の全体を包含する第3の候補画像領域と
を決定することができる。
ここで勿論、候補領域決定部112は、3つの候補画像領域に限定されず、予め設定されたN(2以上の整数)個の候補画像領域を決定してもよい。この場合、第n(nは2からNまでの各整数)の候補画像領域は、第(n-1)の候補画像領域を自らの中央に配し、且つ第(n-1)の候補画像領域の全体を包含するように決定されるのである。
以上説明したような処理によって、所定の対象が存在する可能性のある基準対象位置を確実に含み、且つ(少なくとも最大である第Nの候補画像領域において)当該対象の全体を含み得る(含む可能性が高い)複数の候補画像領域を決定することができる。またこの後、このような候補画像領域を用いることによって、より確実に当該対象を識別することが可能となるのである。
また、候補領域決定部112は他の実施形態として、図3(C)に示すように、第1の候補画像領域を、基準対象位置がこの第1の候補画像領域の下部又は下端となるように決定することも好ましい。この場合、同じく図3(C)に示すように、
(a)基準対象位置が自らの下部又は下端となっており、且つ第1の候補画像領域の全体を包含する第2の候補画像領域と、同じく基準対象位置が自らの下部又は下端となっており、且つ第2の候補画像領域の全体を包含する第3の候補画像領域と
を決定してもよく、または、
(b)第1の候補画像領域を自らの中央に配し、且つ第1の候補画像領域の全体を包含する第2の候補画像領域と、第2の候補画像領域を自らの中央に配し、且つ第2の候補画像領域の全体を包含する第3の候補画像領域と
を決定することも可能である。
ここで勿論、候補領域決定部112は、3つの候補画像領域に限定されず、上記と同様にして、予め設定されたN(2以上の整数)個の候補画像領域を決定してもよい。
いずれにしても、以上説明したような処理によって、所定の対象が存在する可能性のある基準対象位置を確実に含み、且つ(少なくとも最大である第Nの候補画像領域において)当該対象の全体を含み得る(含む可能性が高い)複数の候補画像領域を決定することができる。特に上述したように、自動車等の移動体が所定の対象である場合、基準対象位置は通常、この移動体における平坦な地面(路面)と接する足元となる。したがってこの場合、基準対象位置の上方に展開する候補画像領域の中に、当該対象がより包含され易くなる。またこの後、このような候補画像領域を用いることによって、より確実に当該対象を識別することが可能となるのである。
さらに、図3(B)及び(C)に示したいずれの実施形態においても、第1の候補画像領域は、(a)基準対象位置(所定条件を満たすマクロブロックの画像内位置)における画像下端からの距離aが小さいほど、より大きな面積を有するように決定されることも好ましい。この場合、第1の候補画像領域の面積(画素数)S1は、fsを距離aの単調減少関数として、次式
(1) S1=fs(a)
で表すことができる。
また、同じく図3(B)及び(C)のいずれの実施形態においても、第1の候補画像領域は、(b)基準対象位置(所定条件を満たすマクロブロックの画像内位置)における消失点(図3(A))からの距離が大きいほど、より大きな面積を有するように決定されることも好ましい。
以上説明したように第1の候補画像領域の面積を決定することによって、例えば前方を走行している自動車を撮影した画像データから、当該自動車を所定の対象として識別する場合において、当該自動車の位置が近いほど、第1の候補画像領域の面積、ひいては残りの候補画像領域の面積をより大きく設定することが可能となり、結果的に、当該自動車の全体を含み得る(含む可能性が高い)候補画像領域が決定され易くなる。
また一方、当該自動車の位置が遠いほど、第1の候補画像領域の面積、ひいては残りの候補画像領域の面積をより小さく設定することも可能となり、その結果、対象識別上不要となる当該自動車以外の画像領域を、できるだけ含まないような候補画像領域が決定され易くなるのである。
さらに好適な実施形態として、第Nの候補画像領域についても、(a)基準対象位置(所定条件を満たすマクロブロックの画像内位置)における画像下端からの距離aが小さいほど、より大きな面積を有するように決定されることも好ましく、さらに、(b)基準対象位置(所定条件を満たすマクロブロックの画像内位置)における消失点(図3(A))からの距離が大きいほど、より大きな面積を有するように決定されることも好ましい。
いずれにしても、このように面積を設定することによって、最も大きくなる第Nの候補画像領域の大きさが、基準対象位置に係る対象(例えば自動車)の想定される大きさに合わせ、当該対象に係る画像領域をより確実に包含し得るように調整可能となるのである。
ちなみに、第1及び第Nの候補画像領域の間となる候補画像領域がm個存在している場合、これらの候補画像領域の面積は、第1の候補画像領域の面積値と第Nの候補画像領域の面積値との間を(m+1)等分した際の各等分位置の面積値に設定することができる。
図1の機能ブロック図に戻って、対象識別部113は、決定された少なくとも1つの候補画像領域を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、画像データから当該対象を識別する。
ここで、対象識別処理を実施する識別器は、画像認識用に広く使用されているディープニューラルネットワーク(DNN,Deep Neural Network)や、SVM(Support Vector machine)、さらにはランダムフォレスト(Random Forest)等、少なくとも1つの候補画像領域が入力されて識別結果が出力される様々な種別の機械学習アルゴリズムによって構成することができる。以下、複数の候補画像領域を受け入れて対象識別を実施可能な識別器の例を説明する。
図4は、対象識別部113における対象識別処理の一実施例を説明するための模式図である。
図4に示した実施例では、対象識別部113は、図2の実施例で決定された3つの候補画像領域を入力とし、所定の対象のクラスとしての"自動車"と、その確からしさ(スコア)とを出力する識別器を用いて、識別処理を行っている。
ここで、この識別器は、
(a)複数の(本実施例では3つの)候補画像領域のそれぞれを入力とし、当該候補画像領域の特徴に係る特徴情報をそれぞれ出力する複数の畳み込み層部(Convolutional Layers)と、
(b)上記(a)の複数の畳み込み層部から出力される特徴情報を取りまとめて入力とし、所定の対象(本実施例では自動車)のクラスに係る情報(例えばクラス"自動車"とそのスコア)を出力する全結合層部(Fully-Connected Layers)と
を含む構成となっている。
ここで、上記(a)の畳み込み層部は、画像データに対しカーネル(重み付け行列フィルタ)をスライドさせて特徴マップを生成する畳み込み処理を実行する。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジや勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。例えばこの畳み込み層部として、複数の畳み込み層を用いた公知のAlexNetを用いることが可能である。
このAlexNetでは、各畳み込み層はプーリング層と対になっており、畳み込み処理とプーリング処理とが繰り返される。ここでプーリング処理とは、畳み込み層から出力される特徴マップ(一定領域内の畳み込みフィルタの反応)を最大値や平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。
なお、更なる他の実施態様として、対象識別部113は、上記(a)の複数の畳み込み層部の出力側に、判別すべきクラス毎に設けられたサポートベクタマシン(SVM)を接続した構成の識別器を用い、これに対し学習を行わせた上で対象識別処理を実施させることも可能である。
いずれにしても、対象識別部113で生成された対象識別結果(対象のクラスに係る情報,例えばクラス"自動車"とそのスコア)は、送受信制御部116及び通信インタフェース101を介し、外部の情報処理装置、例えば端末20へ送信されることも好ましい。また、クラウドサーバ1内で、所定のアプリケーション・プログラムによって利用されるようにしてもよい。
図1の機能ブロック図に戻って、学習データ生成部114は、対象識別部113の識別器を構成する学習モデルを構築するための学習データを生成し管理する。ここで、学習データは具体的に、候補領域決定部112で決定された候補画像領域に対し、元の画像データについての正解ラベル(例えば"自動車")を付与することによって生成される。次いで、学習モデル生成部115は、この学習データ生成部114で生成され管理されている(十分な量の)学習データを用いて、対象識別処理用の学習モデルを生成するのである。
ここで勿論、複数の対象(例えば自動車や人間等)に対応すべく、学習データ生成部114は当該対象毎の学習データを生成し、さらに、学習モデル生成部115はこれらの学習データを使用して当該対象毎の学習モデルを生成することも好ましい。この場合、対象識別部113は、複数の対象のそれぞれを識別可能な複数の識別器を取得し、各対象についての識別結果を並行して出力することも可能となるのである。
[画像データ提供クライアントの機能構成]
同じく図1に示した機能ブロック図によれば、端末20は、通信インタフェース201と、カメラ202と、ディスプレイ(DP)203と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明に係る画像データ提供プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この画像データ提供プログラムを実行することによって、画像データ提供処理を実施する。
またこのことから、本発明に係る画像データ提供クライアントとして、ドライブレコーダである本端末20に代えて、本発明に係る画像データ提供プログラムを搭載した他の車載情報処理装置や、さらにはカメラを備えたスマートフォン、ノート型若しくはタブレット型コンピュータ、又はパーソナル・コンピュータ(PC)等を採用することも可能となる。また、ドライブレコーダとWi-Fi(登録商標)やBluetooth(登録商標)等で通信接続された端末、例えばスマートフォンを本画像データ提供クライアントとしてもよい。
さらに、プロセッサ・メモリは、映像生成部211と、符号化パラメータ抽出部212と、マクロブロック選別部213と、有意映像ストリーム生成部214と、提示情報生成部215と、送受信制御部216とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された画像データ提供プログラムの機能と捉えることができる。また、図1における端末20の機能構成部間を矢印で接続して示した処理の流れは、本発明に係る画像データ提供方法の一実施形態としても理解される。
なお本実施形態では、端末20はこの後説明するように、符号化パラメータマップフレームに同期した符号化フレームによって構成される有意映像ストリーム(図7)を、クラウドサーバ1へ送信することになるが、勿論、通常の圧縮符号化映像ストリームを送信するようにしてもよい。
同じく図1の機能ブロック図において、映像生成部211は、カメラ202から出力された撮影データに基づいて画像(映像)データを生成する。本実施形態において端末20はドライブレコーダであり、映像生成部211はデフォルトの設定として、少なくとも自動車2の走行時は常に、車外の状況を撮影した撮影データをカメラ202から取得し、画像(映像)データを生成し保存している。
また本実施形態において、映像生成部211は、MPEG規格におけるH.264やH.265といった標準フォーマットによって、生成した画像(映像)データに対し圧縮符号化処理を行い、圧縮符号化映像ストリーム(原画像ストリーム)を生成する。
符号化パラメータ抽出部212は、生成された圧縮符号化映像ストリームを簡易的に伸張(デコード)して、ビットストリームを解釈(パース)し、各マクロブロックにおける符号化パラメータを抽出する。ここで、符号化パラメータは、(a)順方向予測の動きベクトル、(b)画面内予測の符号量、及び(c)量子化ステップサイズのうちの予め設定された少なくとも1つとすることができる。
マクロブロック選別部213は、各マクロブロックから抽出された符号化パラメータに基づき、
(a)順方向予測の動きベクトルが、所定以上の大きさと、消失点へ向かう基準向きに対し所定以上の角度をなす向きとを有している、
(b)画面内予測の符号量が、所定以上の大きさを有する、及び
(c)量子化ステップサイズが、所定以下の大きさを有する
との3つの条件のうちの1つ、2つ又は全部(いずれを採用するかは予め設定される)が満たされるマクロブロックを選別する。ちなみにこのような条件を満たす符号化パラメータは、おしなべて言えば画像の時間的変動が所定以上に大きいことを示すものとなっている。
ここで、上記の条件(a)について、動きベクトルは、2フレーム以上前の1フレームを参照して算出してもよく、直前の1フレームを参照して算出することもでき、また、複数のフレームを参照して算出してもよい。いずれにしても、このような算出の方法に応じて、所定以上の大きさの基準(閾値)が適宜調整されることも好ましい。
また、上記の条件(b)について、画面内予測の符号量は通常、画像内にエッジ(対象の輪郭)が存在すれば大きくなり、画像が平坦な場合には小さくなる。したがって、例えば所定の対象が自動車の場合、特に、自動車と平坦な路面との境界に相当するタイヤ位置付近での符号量が大きくなり、そのあたりのマクロブロックが選別され易くなる。
さらに、上記の条件(c)について、量子化ステップサイズは、適応量子化(adaptive quantization)方式の下、圧縮効率を高めるために、変化の少ない画像領域では小さい値に設定され、一方、変化の大きい領域では、人間の視覚の鈍感さに合わせて大きな値に設定される。したがって、例えば所定の対象が自動車の場合、画像内で急激にその位置を変化させる自動車に係る量子化ステップサイズはより小さく設定され、そのあたりのマクロブロックが選別され易くなるのである。
マクロブロック選別部213は、次いで「マクロブロック位置情報」として、
(a)符号化パラメータが所定条件を満たすことになるマクロブロックの画像内における位置情報、例えばマクロブロックアドレスや、マクロブロックの画像内位置座標値、又は
(b)符号化パラメータマップ
を生成し、この「マクロブロック位置情報」をクラウドサーバ1へ通知するのである。
ここで、このように生成されたマクロブロック位置情報は、端的に言えば所定以上の急激さをもって変化した画像領域を示すものとなっており、例えば自動車2の周囲に存在する識別・監視すべき対象(例えば他の自動車や歩行者)の画像内位置に係る情報となっている可能性が高いのである。
図5は、マクロブロック選別部213におけるマクロブロック選別処理の実施例を説明するための模式図である。
最初に、図5(A)に示した(カメラ202によって生成された)原映像フレーム(カメラ画像データ)には、概ね一定の速度で変化している物体が含まれている。また、この原映像フレームにおける各マクロブロックの動きベクトルは、消失点から遠ざかるほど大きくなる傾向にあるが、いずれにしても概ね消失点に向かう向きを有している。したがってこの場合、動きベクトルについて所定条件を満たすマクロブロックは選別されない。
次に、図5(B)に示した(カメラ202によって生成された)原映像フレーム(カメラ画像データ)には、その画像の右下あたりに、急激にその位置を変化させる対象が含まれている。また、この画像の右下あたりのマクロブロックの動きベクトルは、所定以上の大きさを有し、さらに消失点へ向かう向きに対し所定以上の角度をなす向きを有している。その結果、動きベクトルについて、この画像の右下あたりのマクロブロック群が所定条件を満たすものとして選別されることになる。
なお、上述したように選別されたマクロブロック群の位置には、例えば、(カメラ202を搭載した自動車2の)前方を走行していて急な車線変更を行ったり、急な減速を行ったりする自動車(移動体)の写っていることが見込まれるのである。
最後に、図5(C)に示した(カメラ202によって生成された)原映像フレーム(カメラ画像データ)には、その画像の右下あたりに、急激にその位置を変化させる対象が含まれている。また、この画像の右下あたりの画面内予測の符号量は、所定以上の大きさを有している。その結果、画面内予測の符号量について、この画像の右下あたりのマクロブロック群が所定条件を満たすものとして選別されることになる。
なお以下に説明する実施形態においては、上述したような所定条件を満たす符号化パラメータをマッピングしたフレーム(符号化パラメータマップのフレーム)は、GOP(Group Of Pictures)単位で生成されることになる(後に説明する図7を参照)。
図1の機能ブロック図に戻って、有意映像ストリーム生成部214は、符号化パラメータマップのフレームと同期した原映像ストリームのフレームを、時系列にして結合した有意映像ストリームを生成する。ここで本実施形態において、生成された有意映像ストリームは、生成された対応する「マクロブロック位置情報」と紐づけて、送受信制御部216及び通信インタフェース201を介し、クラウドサーバ1へ送信されることになる。
図6は、有意映像ストリーム生成部214における有意映像ストリームを構成するフレームの生成に係る一実施形態を説明するための模式図である。
図6(A)に示した原映像フレームにおける、所定条件を満たすマクロブロックの分布範囲が、図6(B)に示されている。本実施形態において、有意映像ストリーム生成部214は、この図6(B)に示されたマクロブロックの分布範囲に対応する部分だけを抽出した原映像フレーム(図6(C))を生成し、有意映像ストリームを構成するフレームとするのである。これにより、最終的に生成される有意映像ストリームのデータ量を大幅に低減させることも可能となる。
図7は、有意映像ストリーム生成部214における有意映像ストリーム生成処理の一実施形態を説明するための模式図である。
図7によれば、有意映像ストリーム生成部214は、符号化された原映像フレーム群から、GOP毎に生成された符号化パラメータマップのフレームに同期したフレームを抽出し、抽出したこれらのフレームを時系列に結合させて有意映像ストリームを生成する。
また、有意映像ストリーム生成部214は、同じく図7に示したように、I(イントラ)フレームの符号量が所定の符号量閾値(例えば1メガビット)以上となる場合、自らに係る自動車2が停止中であると判定して、この時間区間のフレームを、有意映像ストリームの構成フレームから除外する。これにより、有意映像ストリームのデータ量(フレーム数)をより低減させることが可能となる。ここで、判定基準となる所定の符号量閾値は、CBR(固定ビットレート)による符号化の場合とVBR(可変ビットレート)による符号化の場合とで、異なる値に設定されることも好ましい。
ちなみに、Iフレームの符号量によって自動車2の走行/停止の判定が可能となるのは以下の理由による。すなわち、例えば原映像ストリームにおいて画像内の対象が一定の速度で変化し、且つ急峻な変化がない場合、画像内に一定の動きは存在するので、順方向予測のマクロブロックが増加する。一方、画面内予測のマクロブロックは減少し、その結果、フレーム全体の符号量は小さくなる傾向となる。例えば毎秒6メガビット程度の固定ビットレートで符号化処理を行うH.264では、走行中の原映像ストリームにおけるIフレームの符号量は通常、0.5~0.8メガビットで推移する。
一方、原映像ストリームにおいて画像内に急峻な変化がある場合、画面内予測のマクロブロックは増加し、一方で、順方向予測のマクロブロックが減少して、結局、フレーム全体の符号量は大きくなる傾向となる。
さらに、原映像ストリームにおいて画像内に動きが存在しない場合、すなわち自動車2が停止中の場合、順方向予測のマクロブロックが減少し、一方で、画面内予測のマクロブロックが増加して、結果的にフレーム全体の符号量が大きくなる傾向となる。例えば停止中で変化のない原映像ストリームでは、Iフレームの符号量は1メガビットを超えることになる。このように、Iフレームの符号量を観測することによって、走行/停止の判定が可能となるのである。
図1の機能ブロック図に戻って、提示情報生成部215は、クラウドサーバ1から配信された対象識別結果を、通信インタフェース201及び送受信制御部216を介して取得し、端末20がユーザへ提示するサービス情報の生成に利用してもよい。
例えば提示情報生成部215は、当該対象識別結果を、搭載している運転支援プログラムに取り込ませ、ディスプレイ203に表示されたカメラ202による進行方向のリアルタイムの映像において、突然の車線変更、幅寄せや追い越し等の急な動きを行っている自動車の画像部分を強調表示し、併せてアラームを鳴らしてユーザに警告することも可能となる。
以上詳細に説明したように、本発明によれば、符号化パラメータが所定条件を満たすことになる単位画像区域(例えばマクロブロック)の画像内での位置に係る情報に基づいて、少なくとも1つの候補画像領域を決定することができる。すなわち、対象識別処理を実施するにあたり、最初に検出器を用いて画像内において所定の対象を検出する処理を行い、予めその候補位置を決定するといった負担の大きい処理を実施する必要がないのである。その結果、処理対象である画像データを受信する側における対象識別処理の処理負担を低減することが可能となる。
ちなみに、本発明の構成及び方法は、膨大な量の映像データ伝送が可能となる5G(第5世代移動通信システム)を利用し、多数のクライアントから圧縮符号化された映像ストリームをサーバへアップロードする場面において、サーバにおける画像解析・対象識別処理の効率を向上させ、その負担を軽減すること等、予想される重要課題の解決に大いに貢献するものと考えられる。例えば本発明の実施形態によっては、自動運転車、ドローンや、各種ロボットが撮影した高解像度映像を5Gによって収集し、収集した映像を効率良く確実に識別処理して、新サービスの創出・提供につなげることも可能となるのである。
以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。
1 クラウドサーバ(対象識別装置)
101、201 通信インタフェース
111 画像取得部
112 候補領域決定部
113 対象識別部
114 学習データ生成部
115 学習モデル生成部
116 送受信制御部
2 自動車
20 端末(クライアント)
202 カメラ
203 ディスプレイ(DP)
211 映像生成部
212 符号化パラメータ抽出部
213 マクロブロック選別部
214 有意映像ストリーム生成部
215 提示情報生成部
216 送受信制御部

Claims (12)

  1. 所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
    当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
    決定された前記複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
    を有し
    前記候補領域決定手段は、前記複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n(nは2からN(≧2)までの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
    とを特徴とする対象識別装置。
  2. 当該識別器は、
    前記複数の候補画像領域のそれぞれを入力とし、該複数の候補画像領域の特徴に係る特徴情報をそれぞれ出力する複数の畳み込み層部と
    前記複数の畳み込み層部から出力される特徴情報を取りまとめて入力とし、当該対象のクラスに係る情報を出力する全結合層部と
    を含むことを特徴とする請求項に記載の対象識別装置
  3. 第nの候補画像領域は、第(n-1)の候補画像領域よりも大きい面積を有するように設定されることを特徴とする請求項1又は2に記載の対象識別装置。
  4. 第1の候補画像領域及び第Nの候補画像領域の間となる候補画像領域がm個存在している場合に、m個の候補画像領域の各々における面積値は、第1の候補画像領域の面積値と第Nの候補画像領域の面積値との間を(m+1)等分した際の各等分位置の値に設定されることを特徴とする請求項1から3のいずれか1項に記載の対象識別装置。
  5. 第nの候補画像領域は、第(n-1)の候補画像領域を自らの中央に配し、且つ第(n-1)の候補画像領域の全体を包含するように決定されることを特徴とする請求項1から4のいずれか1項に記載の対象識別装置
  6. 第1の候補画像領域は、当該単位画像区域の画像内での位置が、自らの下部又は下端となるように決定されることを特徴とする請求項1から5のいずれか1項に記載の対象識別装置
  7. 第1の候補画像領域は、当該単位画像区域の画像内での位置における画像下端からの距離が小さいほど、より大きな面積を有するように決定されることを特徴とする請求項からのいずれか1項に記載の対象識別装置
  8. 第1の候補画像領域は、当該単位画像区域の画像内での位置における消失点からの距離が大きいほど、より大きな面積を有するように決定されることを特徴とする請求項からのいずれか1項に記載の対象識別装置
  9. 当該映像データの符号化はMPEG(Moving Picture Experts Group)による符号化であり、所定条件を満たす符号化パラメータは、
    (a)所定以上の大きさと、基準向きに対し所定以上の角度をなす向きとを有する順方向予測の動きベクトル、
    (b)所定以上の大きさを有する画面内予測の符号量、及び
    (c)所定以下の大きさを有する量子化ステップサイズ
    のうちの少なくとも1つであって、当該単位画像区域はマクロブロックであることを特徴とする請求項1からのいずれか1項に記載の対象識別装置
  10. クライアントで生成された、所定の対象を画像内に含み得る画像データを取得し、当該対象を識別するサーバであって、
    当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報であって、前記クライアントから当該画像データとともに取得された位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
    決定された前記複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
    を有し
    前記候補領域決定手段は、前記複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n(nは2からN(≧2)までの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
    とを特徴とする対象識別サーバ。
  11. 所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータを機能させるプログラムであって、
    当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
    決定された前記複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
    してコンピュータを機能させ
    前記候補領域決定手段は、前記複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n(nは2からN(≧2)までの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
    とを特徴とする対象識別プログラム。
  12. 所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータによって実施される方法であって、
    当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定するステップと、
    決定された前記複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別するステップと
    を有し
    前記複数の候補画像領域を決定するステップでは、前記複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n(nは2からN(≧2)までの各整数)の候補画像領域であって、第(n-1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
    とを特徴とする対象識別方法。
JP2019161826A 2019-09-05 2019-09-05 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム Active JP7143263B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019161826A JP7143263B2 (ja) 2019-09-05 2019-09-05 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019161826A JP7143263B2 (ja) 2019-09-05 2019-09-05 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021039642A JP2021039642A (ja) 2021-03-11
JP7143263B2 true JP7143263B2 (ja) 2022-09-28

Family

ID=74847184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019161826A Active JP7143263B2 (ja) 2019-09-05 2019-09-05 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7143263B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861330A (zh) * 2023-03-03 2023-03-28 深圳市小辉智驾智能有限公司 摄像头图像数据传输方法、识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011134207A (ja) 2009-12-25 2011-07-07 Konica Minolta Holdings Inc 運転記録装置および地図作成システム
JP2013114596A (ja) 2011-11-30 2013-06-10 Kddi Corp 画像認識装置及び方法
JP2015215868A (ja) 2014-04-25 2015-12-03 本田技研工業株式会社 対象物認識装置
JP2018517972A (ja) 2015-05-08 2018-07-05 クゥアルコム・インコーポレイテッドQualcomm Incorporated 複数の境界領域を減らすためのシステムおよび方法
JP2018124689A (ja) 2017-01-31 2018-08-09 株式会社日立製作所 移動物体検出装置、移動物体検出システム、及び移動物体検出方法
JP2018147431A (ja) 2017-03-09 2018-09-20 コニカミノルタ株式会社 画像認識装置及び画像認識方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6282193B2 (ja) * 2014-07-28 2018-02-21 クラリオン株式会社 物体検出装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011134207A (ja) 2009-12-25 2011-07-07 Konica Minolta Holdings Inc 運転記録装置および地図作成システム
JP2013114596A (ja) 2011-11-30 2013-06-10 Kddi Corp 画像認識装置及び方法
JP2015215868A (ja) 2014-04-25 2015-12-03 本田技研工業株式会社 対象物認識装置
JP2018517972A (ja) 2015-05-08 2018-07-05 クゥアルコム・インコーポレイテッドQualcomm Incorporated 複数の境界領域を減らすためのシステムおよび方法
JP2018124689A (ja) 2017-01-31 2018-08-09 株式会社日立製作所 移動物体検出装置、移動物体検出システム、及び移動物体検出方法
JP2018147431A (ja) 2017-03-09 2018-09-20 コニカミノルタ株式会社 画像認識装置及び画像認識方法

Also Published As

Publication number Publication date
JP2021039642A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
EP3722992B1 (en) System and method for pre-processing images captured by a vehicle
US20230336754A1 (en) Video compression using deep generative models
US10349060B2 (en) Encoding video frames using generated region of interest maps
US10582196B2 (en) Generating heat maps using dynamic vision sensor events
US20200329233A1 (en) Hyperdata Compression: Accelerating Encoding for Improved Communication, Distribution & Delivery of Personalized Content
WO2016173277A9 (zh) 视频编码方法、解码方法及其装置
US11727255B2 (en) Systems and methods for edge assisted real-time object detection for mobile augmented reality
CN112771859A (zh) 基于感兴趣区域的视频数据编码方法、装置和存储介质
JP7213662B2 (ja) 画像処理装置、画像処理方法
EP3975133A1 (en) Processing of images captured by vehicle mounted cameras
JP7143263B2 (ja) 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
WO2020230385A1 (ja) 原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法
US20200327332A1 (en) Moving image analysis apparatus, system, and method
JP5801614B2 (ja) 画像処理装置、画像処理方法
JP7145830B2 (ja) 符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム
EP4120684A1 (en) Method and system for optimizing image and video compression for machine vision
CN113507611B (zh) 图像存储方法、装置、计算机设备和存储介质
KR102178952B1 (ko) 압축영상에 대한 신택스 기반의 mrpn-cnn을 이용한 객체 분류 방법
JP7269134B2 (ja) 映像ストリームに影響した外的要因情報を推定するプログラム、サーバ、システム、端末及び方法
US20200252637A1 (en) Moving image processor, moving image processing system, and moving image processing method
WO2023132163A1 (ja) 映像圧縮方法、映像圧縮装置、コンピュータプログラム、及び映像処理システム
WO2023199696A1 (ja) 映像圧縮方法、映像圧縮装置、及びコンピュータプログラム
EP4195166A1 (en) Apparatus and method for transmitting images and apparatus and method for receiving images
CN115499650A (zh) 图像块的划分方法、装置、系统、编解码方法、电子设备
Tan et al. on Computer and Information Technology Volume 5, No. 2, November 2011

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220914

R150 Certificate of patent or registration of utility model

Ref document number: 7143263

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150