JP7145830B2 - 符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム - Google Patents

符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム Download PDF

Info

Publication number
JP7145830B2
JP7145830B2 JP2019166117A JP2019166117A JP7145830B2 JP 7145830 B2 JP7145830 B2 JP 7145830B2 JP 2019166117 A JP2019166117 A JP 2019166117A JP 2019166117 A JP2019166117 A JP 2019166117A JP 7145830 B2 JP7145830 B2 JP 7145830B2
Authority
JP
Japan
Prior art keywords
image
feature amount
image data
target
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019166117A
Other languages
English (en)
Other versions
JP2021043773A (ja
Inventor
和之 田坂
勝 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019166117A priority Critical patent/JP7145830B2/ja
Publication of JP2021043773A publication Critical patent/JP2021043773A/ja
Application granted granted Critical
Publication of JP7145830B2 publication Critical patent/JP7145830B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、所定の対象を画像内に含み得る画像データから、当該対象を識別する技術に関する。
現在、監視やマーケティング等の目的をもって、さらには自動運転車や自律ロボット等の「視覚系」として、カメラによって生成された画像データを解析し、撮影された対象を識別する技術の開発が盛んに進められている。
ここで特に、動きや向き・姿勢等の変化を伴う自動車や人間といった移動体を当該対象とし、その動きや変化を認識し識別する技術が大いに注目されている。
このような技術として例えば、非特許文献1には、識別対象である画像データにおける色(画素値)とオプティカルフローとによって、より高い精度で人物の行動を認識する技術が提案されている。ここで、オプティカルフローとは、オプティカルフロー方程式を用いて画像内におけるパターンの特徴点が移動する方向を推定し、画像中の対象の動きをベクトル場、すなわち各画素に付与されたベクトル量で表現したものである。
また、特許文献1には、車両内を撮影した車内画像やセンサ検出結果を用いて対象部位の奥行き情報を算出し、その結果を用いて車両乗車員の行動を識別する技術が開示されている。具体的に、この技術による行動認識装置は、車内画像における車両内の人物の,人体の複数の部位の位置を検出し、当該部位間の距離の大きさの順位に基づく特徴量である順位特徴量を算出し、あらかじめ学習された識別器と、算出された順位特徴量とを用いて車両内乗員の行動を識別している。
特許文献1は、このような技術を用いることによって、車両内乗員による所定の行動を、車両内の環境的要因による変動に対して頑健に認識することができるとしているのである。
特開2017-215861号公報
Karen Simonyan and Andrew Zisserman, "Two-Stream Convolutional Networks for Action Recognition in Videos" Computer Vision and Pattern Recognition (cs.CV), arXiv:1406.2199 [cs.CV], 2014年
しかしながら、以上に説明したような従来技術では、自動車や人間といった対象の動きや変化を識別するのに相当の計算処理量を要してしまい、その結果、迅速に対象識別結果を得るとの課題については、なお十分に解決できていないのが現状である。
例えば、非特許文献1に記載された技術で利用されているオプティカルフローは、一般にその計算処理量が大きくなってしまう。また、特許文献1に係る技術においても、センサ検出結果を処理し、さらに人体における複数の部位の位置に係る順位特徴量を算出せねばならず、同じく相当の計算処理量が必要となってしまうのである。
そのため例えば、対象識別装置が、カメラ装置から映像ストリームデータを受信して対象識別処理を行う典型的なケースにおいて、その処理負担が多大なものとなり、特に、対象識別処理のリアルタイム性が要求される場面においては、この大きな処理負担は重大な問題となってしまうのである。
そこで、本発明は、より少ない処理負担で、動きや変化を伴う対象を識別可能な対象識別方法、装置及びプログラムを提供することを目的とする。
本発明によれば、所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報であって、当該符号化パラメータに応じた値を画像内に分布する情報として包含する画像情報としてのマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段
を有する対象識別装置が提供される。
発明によれば、また、所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
を有し、
特徴量生成手段は、当該符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置を含む画像領域を識別用画像領域として、当該符号化パラメータ画像特徴量及び当該画像特徴量を、当該識別用画像領域についての特徴量として生成す
ことを特徴とする対象識別装置が提供される
また、本発明による対象識別装置では具体的に、当該映像データの符号化はMPEG(Moving Picture Experts Group)による符号化であり、当該所定条件を満たす符号化パラメータは、
(a)所定以上の大きさと、基準向きに対し所定以上の角度をなす向きとを有する順方向予測の動きベクトル、
(b)所定以上の大きさを有する画面内予測の符号量、及び
(c)所定以下の大きさを有する量子化ステップサイズ
のうちの予め設定された1つ、2つ又は全部であって、当該単位画像区域はマクロブロックであることも好ましい。
さらに、本発明に係る当該符号化パラメータ画像特徴量は、当該マッピング情報を入力とし当該符号化パラメータ画像特徴量を出力する第1の畳み込み層部(Convolutional Layers)を用いて生成され、当該画像特徴量は、当該画像データを入力とし当該画像特徴量を出力する第2の畳み込み層部を用いて生成され、また、本発明に係る当該識別器は、第1の畳み込み層部及び第2の畳み込み層部からの出力を取りまとめて入力とし、当該対象のクラスに係る情報を出力する全結合層部(Fully-Connected Layers)を含むことも好ましい。
ここで上記のような特徴量生成の構成を用いた1つの実施形態として、当該画像特徴量は、互いに異なる時点に係る複数の画像データのそれぞれを入力とし当該画像データに係る画像特徴量をそれぞれ出力する複数の第2の畳み込み層部を用いて生成され、
当該対象のクラスに係る情報は、当該対象における時間的変化に係る情報であることも好ましい。
また、上記のような特徴量生成の構成を用いた他の実施形態として、当該符号化パラメータ画像特徴量は、互いに異なる時点に係る複数のマッピング情報のそれぞれを入力とし当該マッピング情報に係る符号化パラメータ画像特徴量をそれぞれ出力する複数の第1の畳み込み層部を用いて生成され、
当該画像特徴量は、互いに異なる時点であって、それぞれ上記の複数のマッピング情報に係る時点に相当する複数の時点に係る複数の画像データのそれぞれを入力とし当該画像データに係る画像特徴量をそれぞれ出力する複数の第2の畳み込み層部を用いて生成され、
当該対象のクラスに係る情報は、当該対象における時間的変化に係る情報である
ことも好ましい。
また、これらの実施形態において具体的に、当該対象は移動体であり、当該対象における時間的変化に係る情報は、右折、左折、他の移動体との間で生じる接近、他の移動体との間で生じる割り込み、他の移動体との間で生じる追い越し、及び急な横方向の変化のうちの少なくとも1つであることも好ましい。
本発明によれば、また、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータによって実施される方法であって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報であって、当該符号化パラメータに応じた値を画像内に分布する情報として包含する画像情報としてのマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成するステップと、
生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別するステップ
を有する対象識別方法が提供される。
本発明によれば、さらに、クライアントで生成された、所定の対象を画像内に含み得る画像データを取得し、当該対象を識別するサーバであって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせた、前記クライアントから当該画像データとともに取得されマッピング情報であって、当該符号化パラメータに応じた値を画像内に分布する情報として包含する画像情報としてのマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別部を用いて、当該画像データから当該対象を識別する対象識別手段と
を有する対象識別サーバが提供される。
本発明によれば、さらにまた、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータを機能させるプログラムであって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報であって、当該符号化パラメータに応じた値を画像内に分布する情報として包含する画像情報としてのマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
してコンピュータを機能させる対象識別プログラムが提供される。
本発明の対象識別方法、装置及びプログラムによれば、より少ない処理負担で、動きや変化を伴う対象を識別することができる。
本発明による対象識別装置(サーバ)及びクライアントを備えた対象識別システムの一実施形態を説明するための模式図及び機能ブロック図である。 本発明に係る対象領域決定部における対象領域決定処理の一実施例を説明するための模式図である。 本発明に係る特徴量生成部及び対象識別部における特徴量生成処理及び対象識別処理の一実施例を説明するための模式図である。 本発明に係る符号化マップ生成部におけるマクロブロック選別処理の実施例を説明するための模式図である。 本発明に係る有意映像ストリーム生成部における有意映像ストリームを構成するフレームの生成に係る一実施形態を説明するための模式図である。 本発明に係る有意映像ストリーム生成部における有意映像ストリーム生成処理の一実施形態を説明するための模式図である。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
[対象識別システム]
図1は、本発明による対象識別装置(サーバ)及びクライアントを備えた対象識別システムの一実施形態を説明するための模式図及び機能ブロック図である。
図1に示した本実施形態の対象識別システムは、
(a)移動可能なクライアントである少なくとも1つの端末20と、
(b)端末20から、所定の対象を画像内に含み得る画像データを取得可能なサーバであるクラウドサーバ1と
を有し、クラウドサーバ1において、当該画像データから、動きや変化を伴う所定の対象が識別されるのである。
また上記(a)の端末20は、本実施形態において通信機能を有するドライブレコーダであり自動車2に設置されている。ここで、その設置場所は任意に設定可能であり、例えば自動車2のフロントガラス越しに車両前方を撮影可能な位置(例えばダッシュボード上部)とすることができる。勿論、車両側方や後方を撮影可能な位置に端末20を設置してもよく、異なる複数の位置の各々に端末20を設置することも可能である。
さらに本実施形態において、端末20(ドライブレコーダ)は、例えば自動車2の進行方向の状況をカメラで撮影して画像(映像)データを生成し、自身に設けられたメモリやストレージに保存することができる。また、端末20は、例えば携帯電話通信網やインターネット等を介してクラウドサーバ1と無線通信接続が可能となっており、保存した画像(映像)データの一部又は全部を、適宜又は要求に応じてクラウドサーバ1へ送信することもできるのである。
ここで、端末20からクラウドサーバ1へ画像(映像)データを送信する際、端末20は通常、当該画像(映像)データに対し圧縮符号化処理を行い、伝送負担の小さい圧縮映像ストリームを生成して送信することになる。本実施形態では、この圧縮符号化処理として、MPEG(Moving Picture Experts Group)規格におけるH.264やH.265といった標準フォーマットによる処理が実施されるが、非標準のフォーマットによるものとすることも可能である。また勿論、空間解像度、フレームレートや、ビットレートは任意に設定可能となっている。
さらに、後に図4~6を用いて詳細に説明するが、端末20は、後述する「符号化パラメータマップ」フレームに同期した符号化フレームによって構成される「有意映像ストリーム」(図6)を、クラウドサーバ1へ送信することも好ましい。
ここで、「有意映像ストリーム」は、クラウドサーバ1における対象識別処理に必要となるであろう(当該処理上有意となるであろう)フレームによって構成されており、実際には、カメラ202によって撮影される自動車2の周囲の状況の中で、撮影範囲において急に現れたり消滅したり、その位置や形状が所定以上の急激さで変化したりした対象を捉えたフレームを選別して含んでいる。またその結果、「有意映像ストリーム」は、符号化された原映像ストリームと比較しても、伝送容量のより低減した映像データとなっているのである。
一方、上記(b)のクラウドサーバ1は、所定の対象を画像内に含み得る(有意)映像ストリーム、すなわち画像データから当該対象を識別する対象識別装置であり、具体的にその構成として、
(A)当該画像データを含む映像データを符号化した際に、「単位画像区域」毎に決定される「符号化パラメータ」を「単位画像区域」にマッピングさせた「マッピング情報」についての特徴量である「符号化パラメータ特徴量」と、当該画像データの画素値に係る特徴量である「画像特徴量」とを生成する特徴量生成部113と、
(B)生成された「符号化パラメータ特徴量」及び「画像特徴量」を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから所定の対象を識別する対象識別部114と
を有することを特徴としている。
ここで、上記(A)において、「画像特徴量」を生成する対象である画像データは、受信された圧縮符号化画像(映像)データを伸張(デコード)したものとすることができ、または、「有意映像ストリーム」を構成する画像データであってもよい。
また、上記(A)の「符号化パラメータ」は、本実施形態においてMPEGにおける、
(a)順方向予測の動きベクトル、
(b)画面内予測の符号量、及び
(c)量子化ステップサイズ
のうちの設定された少なくとも1つとすることができる。
さらに、上記(A)の「マッピング情報」は、「単位画像区域」をマクロブロックとした「符号化パラメータマップ」であってもよい。「符号化パラメータマップ」は、設定された符号化パラメータの値に応じて、対応するマクロブロックの部分の画素値を決定したマップデータであり、具体的には、
(a)順方向予測の動きベクトルの大きさが大きいほど、また、基準向き(例えば、消失点(画像内地平線上の収束点)へ向かう向き)に対して当該動きベクトルの向きのなす角度が大きいほど、そのマクロブロックの部分における色合いの階調を高く(濃く)したものとすることができ、
(b)画面内予測の符号量が大きいほど、そのマクロブロックの部分における色合いの階調を高く(濃く)したものであってもよく、さらに、
(c)量子化ステップサイズが小さいほど、そのマクロブロックの部分における色合いの階調を高く(濃く)したものとすることもできる。
ここで、上述したように生成された「符号化パラメータマップ」における大きな画素値の部分(色合いの階調が高い部分)は、端的に言えばより高い急激さをもって変化した対象に係る画像領域を示しており、例えば自動車2の周囲に存在する識別・監視すべき対象(例えば、急な相対的動きを見せた他の自動車や歩行者)に係る画像領域となっている可能性が高いのである。
なお、クラウドサーバ1は、このような「マッピング情報(例えば符号化パラメータマップ)」を、圧縮符号化元である端末20から(映像)映像ストリームとともに合わせて受信することができる。また変更態様として、クラウドサーバ1自身が、受信された圧縮符号化映像ストリームを一先ず簡易的に伸張(デコード)して、ビットストリームを解釈(パース)し、符号化パラメータを抽出することにより「マッピング情報(例えば符号化パラメータマップ)」を生成してもよい。
いずれにしても、クラウドサーバ1は、上述したような特徴を有する「マッピング情報」に基づき、所定の対象の動きや変化に係る情報を包含し得る「符号化パラメータ特徴量」を、比較的小さい処理負担で予め生成することができる。さらに、所定の対象を識別する際には、識別処理対象である画像データの画素値に係る特徴量である「画像特徴量」だけでなく、この予め生成された「符号化パラメータ特徴量」も用いて対象識別処理を実施することが可能となる。その結果、例えばオプティカルフロー等の処理負担の大きな解析手法に依らずに、より少ない処理負担で、動きや変化を伴う対象を識別することができるのである。
さらに、「画像特徴量」だけでなく、所定の対象の動きや変化に係る情報を包含し得る「符号化パラメータ特徴量」も利用して対象識別処理を実施するので、特に、動きや変化を伴う対象については、その識別精度のより向上することが見込まれる。
なお、端末20は当然に、自動車2に設置された車載装置(ドライブレコーダ)に限定されるものではなく、例えば自転車や鉄道車両、さらにはロボットやドローン等の他の移動体に設置された又は搭乗した装置であってもよい。また、端末20は、例えばHMD(Head Mounted Display)やグラス型端末等のウェアラブル端末であってもよい。この場合、例えばユーザが歩きながら撮影し生成した画像データがクラウドサーバ1へ上げられることになる。さらに、画像データ生成・送信元のクライアントは、端末20とは異なり移動可能ではない端末であってもよく、例えば通信機能を備えた固定カメラ装置とすることもできる。
[対象識別サーバの機能構成]
図1に示した機能ブロック図によれば、クラウドサーバ1は、通信インタフェース101と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明による対象識別プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この対象識別プログラムを実行することによって、対象識別処理を実施する。
またこのことから、本発明による対象識別サーバとして、本クラウドサーバ1に代えて、本発明による対象識別プログラムを搭載した、例えば非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等を採用することも可能となる。
また例えば、端末20に本発明による対象識別プログラムを搭載し、当該端末20を本発明による対象識別サーバとすることもできる。さらに、本発明による対象識別サーバを、端末20とともに自動車2に設置する実施形態も可能となるのである。
また、上記のプロセッサ・メモリは、画像取得部111と、対象領域決定部112と、画像特徴量生成部113a及び符号化パラメータ特徴量生成部113bを有する特徴量生成部113と、対象識別部114と、学習データ・モデル生成部115と、送受信制御部116とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された対象識別プログラムの機能と捉えることができる。また、図1におけるクラウドサーバ1の機能構成部間を矢印で接続して示した処理の流れは、本発明による対象識別方法の一実施形態としても理解される。
同じく図1の機能ブロック図において、画像取得部111は、端末20から通信インタフェース101及び送受信制御部116を介して受信された、圧縮符号化された映像ストリームを取得し、管理する。ここで画像取得部111は、当該映像ストリームを伸張(デコード)し、原映像ストリームを構成する画像データ群として管理することも好ましい。また上述したように変更態様として、圧縮符号化映像ストリームを一先ず簡易的に伸張してビットストリームを解釈(パース)し、符号化パラメータを抽出することによって「符号化パラメータマップ」を生成するようにすることも可能である。
対象領域決定部112は、符号化パラメータが所定条件を満たすことになる単位画像区域(マクロブロック)の画像内での位置を含む画像領域を識別用画像領域として決定する。例えば、端末20から(有意)映像ストリームと併せて送られてくる「符号化パラメータマップ」において、符号化パラメータが所定条件を満たすマクロブロック(群)の画像内位置を決定し、当該画像内位置を(a)中央に包含するような、又は(b)下部若しくは下端とするような所定の大きさの矩形(若しくは他の形状)の画像領域を、識別用画像領域として決定することも好ましい。
ちなみに、この後生成される画像特徴量も符号化パラメータ特徴量も、この決定された識別用画像領域内での特徴量として生成されることになるのである。
ここで、符号化パラメータが所定条件を満たすことになるマクロブロック(群)は、
(a)順方向予測の動きベクトルが、所定以上の大きさと、基準向き(例えば、消失点(画像内地平線上の収束点)へ向かう向き)に対し所定以上の角度をなす向きとを有している、
(b)画面内予測の符号量が、所定以上の大きさを有する、及び
(c)量子化ステップサイズが、所定以下の大きさを有する
との3つの条件のうちの予め設定された1つ、2つ又は全部が満たされるマクロブロック(群)とすることができる。
このような所定条件を満たすマクロブロック(群)を包含するような画像領域は、動きや変化を伴う対象をその画像中に含む可能性が高いので、このような画像領域を識別用画像領域に決定し、当該領域に係る特徴量を生成して識別処理に用いることによって、動きや変化を伴う当該対象を、より高い精度で識別することも可能となるのである、
またさらに、所定の対象の識別処理を実施するにあたり、最初に検出器を用いて画像内において所定の対象を検出する処理を行い、予めその候補位置を決定するといった負担の大きい処理を実施する手間を省くことができる。言い換えると、処理対象である画像データを受信する側(すなわちクラウドサーバ1)における対象識別処理の処理負担を低減することが可能となるのである。
ちなみに1つの好適な実施形態として、後に詳細に説明するように、対象領域決定部112は、符号化パラメータが所定条件を満たすマクロブロック(群)の画像内位置に係る情報を、端末20から取得して利用してもよい。この場合、クラウドサーバ1側の対象識別処理の計算負担は、より低減することになる。
図2は、対象領域決定部112における対象領域決定処理の一実施例を説明するための模式図である。
図2に示した実施例において、対象領域決定部112は、画像取得部111から画像データを取得し、さらに端末20から通信インタフェース101及び送受信制御部116を介し、対応する(例えば画像データのいずれかと同期した)符号化パラメータマップを取得している。
対象領域決定部112は、次いで、取得した符号化パラメータマップから、符号化パラメータが所定条件を満たすマクロブロック(群)を特定し、取得した画像データにおいて、当該マクロブロック(群)の画像内位置を自らの下端とするような所定サイズの矩形の画像対象領域(識別用の画像領域)を決定している。
ここで本実施例では、当該マクロブロック(群)の画像内位置は、左前方に存在する自動車のタイヤあたりの位置となっており、また、決定された画像対象領域は、この自動車の全体を概ね包含している。実際、画像内に自動車が含まれているケースでは、所定条件を満たすマクロブロック(群)の位置は、この自動車における平坦な地面(路面)と接する足元、すなわちタイヤ付近となることが多い。この場合、画像対象領域を、当該位置を下端又は下部とするような領域に決定することによって、識別対象の全体を包含する可能性の高い画像対象領域を得ることが可能となるのである。
対象領域決定部112はさらに、取得した符号化パラメータマップにおいて、決定した画像対象領域(の画像内範囲に対応するマップ内範囲)に相当する符号化マップ対象領域(識別用のマップ画像領域)を決定している。
以上、本実施例に示したように、対象領域決定部112は、取得した画像データ及び符号化パラメータマップから、この後の対象識別処理に使用される画像対象領域と、対応する符号化マップ対象領域とを抽出することができるのである。
同じく図1の機能ブロック図において、特徴量生成部113は、
(a)取得された画像データの画素値に係る特徴量である画像特徴量を生成する画像特徴量生成部113aと、
(b)取得された符号化パラメータマップ(マッピング情報)についての特徴量である符号化パラメータ特徴量を生成する符号化パラメータ特徴量生成部113bと
を有する。
ここで好適な実施形態として、
(a)画像特徴量生成部113aは、対象領域決定部112で決定された画像対象領域(識別用の画像領域)についての画像特徴量を生成し、一方、
(b)符号化パラメータ特徴量生成部113bは、対象領域決定部112で決定された符号化マップ対象領域(識別用のマップ画像領域)についての符号化パラメータ特徴量を生成する
ことも好ましい。なお、以上の特徴量生成処理については、この後、図3に示した実施例を用いて具体的に説明を行う。
対象識別部114は、特徴量生成部113で生成された符号化パラメータ特徴量及び画像特徴量を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、取得された画像データから当該対象を識別する。
ここで、対象識別処理を実施する識別器は、画像認識用に広く使用されているディープニューラルネットワーク(DNN,Deep Neural Network)や、SVM(Support Vector machine)、さらにはランダムフォレスト(Random Forest)等、画像(マップ)に係る特徴量が入力されて識別結果が出力される様々な種別の機械学習アルゴリズムによって構成することができる。以下、画像(マップ)に係る複数の特徴量を受け入れて対象識別処理を実施可能な識別器の例を説明する。
図3は、特徴量生成部113及び対象識別部114における特徴量生成処理及び対象識別処理の一実施例を説明するための模式図である。
図3に示した実施例では、
(a)符号化パラメータ特徴量生成部113bは、符号化マップ対象領域(マッピング情報の一部)を入力とし符号化パラメータ特徴量を出力する、DNNで構成される第1の畳み込み層部(Convolutional Layers)であるCL1を用いて、符号化パラメータ特徴量を生成し、
(b)画像特徴量生成部113aは、画像対象領域(画像データの一部)を入力とし画像特徴量を出力する、DNNで構成される第2の畳み込み層部であるCL2を用いて、画像特徴量を生成し、
(c)対象識別部114は、CL1及びCL2からの出力を取りまとめて入力とし、所定の対象のクラスに係る情報(例えば、"クラス"とその確からしさを示すスコア)を出力する、DNNで構成される全結合層部(Fully-Connected Layers)であるFCLを含む識別器を用いて、対象識別結果(例えば、"クラス"とスコア)を生成している。
ここで、上記(a)の符号化マップ対象領域と上記(b)の画像対象領域とは、互いに同期した又は時間的に近傍にあるものが使用されている。特に本実施例では、上記(a)の符号化マップ対象領域は時刻Tに係るものであって、上記(b)の画像対象領域は、
時刻T,時刻T+1,時刻T+2,・・・,時刻T+(N-1)
に係るN(Nは2以上の整数)個の画像領域となっている。ここで、時刻T+pは、時刻Tから所定単位時間のp(pは1以上の整数)倍だけ経過した時刻であり、また、この所定単位時間として、画像取得部111から取得される時系列画像データにおける隣接する画像フレームの時間間隔、又はその整数倍の時間を設定することができる。
またこのような複数の画像対象領域に対応して、それぞれの時刻の画像対象領域を入力とする、
CL2-0,CL2-1,・・・,CL2-(N-1)
のN個の畳み込み層部が使用されているのである。すなわち本実施例では、画像特徴量は、互いに異なる時点に係る複数の画像対象領域(画像データの一部)のそれぞれを入力とし当該画像対象領域に係る画像特徴量をそれぞれ出力する複数のCL2を用いて生成されるのである。
また、このように複数の時系列の画像対象領域の画像特徴量と、対象の動きや変化を反映した符号化マップ対象領域の符号化パラメータ特徴量とを入力とした上記(c)のFCLは、所定の対象のクラスに係る情報として、当該対象における時間的変化に係る情報を出力する(ように学習させておく)ことができる。この点、本実施例では、所定の対象は自動車であって、出力されたクラスは、"左折する自動車"となっている。
すなわち、本実施例のような特徴量生成処理・識別処理の構成を用いれば、例えば所定の対象として、自動車、二輪車、又は自転車等の移動体を採用し、さらに、当該移動体における時間的変化に係る情報(すなわち識別結果としてのクラス)として、右折、左折、他の移動体との間で生じる接近、他の移動体との間で生じる割り込み、他の移動体との間で生じる追い越し、及び急な横方向の変化のうちの少なくとも1つを設定することもできるのである。また勿論、このような構成を用いれば、当該移動体のように動きを伴う対象だけではなく、形状、向き、姿勢や、色、さらには柄の変化等、自身の状態の変化を伴う対象も、より確実に識別することも可能となるのである。
なお、変更態様として、時刻T~時刻T+(N-1)に係るN個の画像対象領域に対し、符号化マップ対象領域は、(本実施例のように時刻Tではなく)時刻T+1~時刻T+(N-1)のうちのいずれか1つの時刻に係るものになるように設定されていてもよい。
さらに、時刻T~時刻T+(N-1)に係るN個の画像対象領域に対し、符号化マップ対象領域も時刻T~時刻T+(N-1)に係るN個が使用されることも好ましい。すなわちこの場合、符号化パラメータ特徴量は、互いに異なる時点に係る複数の符号化マップ対象領域(マッピング情報の一部)のそれぞれを入力とし当該符号化マップ対象領域に係る符号化パラメータ特徴量をそれぞれ出力する複数のCL1を用いて生成され、一方、画像特徴量は、互いに異なる時点であって、それぞれ上記の複数の符号化マップ対象領域に係る時点に相当する複数の時点に係る複数の画像対象領域(画像データの一部)のそれぞれを入力とし当該画像対象領域に係る画像特徴量をそれぞれ出力する複数のCL2を用いて生成されるのである。
さらにこの場合、各時刻に係る符号化マップ対象領域及び画像対象領域のN個のペアをそれぞれ、N個の「CL1及びCL2のセット」へ取り込ませ、それらからの2N個の出力(特徴量)をFCLにまとめて取り込ませて、対象識別処理を行うことも好ましい。
例えば、後に詳細に説明するが、端末20から、GOP(Group Of Pictures)毎に符号化パラメータマップ及び有意映像フレームのペアが受信される場合、これらのペアから、上記の符号化マップ対象領域及び画像対象領域のN個のペアを生成することも可能となる。
また更なる変更態様として、時刻T~時刻T+(N-1)に係るN個の符号化マップ対象領域に対し、時刻T+1~時刻T+(N-1)のうちのいずれか1つの時刻に係る画像対象領域を採用することも可能である。さらに勿論、時刻Tに係る1つの符号化マップ対象領域と同じ時刻Tに係る1つの画像対象領域とのペアをもって識別する実施態様も可能である。
ここで、上記(a)のCL1及び上記(b)のCL2の具体的構成について説明しておく。これらのCL1及びCL2は、入力された画像(マップ)領域に対しカーネル(重み付け行列フィルタ)をスライドさせて特徴マップを生成する畳み込み処理を実行する。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジや勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。例えばこのようなCL1やCL2として、複数の畳み込み層を用いた公知のAlexNetを用いることが可能である。
このAlexNetでは、各畳み込み層はプーリング層と対になっており、畳み込み処理とプーリング処理とが繰り返される。ここでプーリング処理とは、畳み込み層から出力される特徴マップ(一定領域内の畳み込みフィルタの反応)を最大値や平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。
なお、更なる他の実施態様として、対象識別部114は、上記(a)のCL1及び上記(b)のCL2の出力側に、判別すべきクラス毎に設けられたサポートベクタマシン(SVM)を接続した構成の識別器を用い、これに対し学習を行わせた上で対象識別処理を実施させることも可能である。
いずれにしても、対象識別部114で生成された対象識別結果(対象のクラスに係る情報,例えばクラス"左折する自動車"とそのスコア)は、送受信制御部116及び通信インタフェース101を介し、外部の情報処理装置、例えば端末20へ送信されることも好ましい。また、クラウドサーバ1内で、所定のアプリケーション・プログラムによって利用されるようにしてもよい。
図1の機能ブロック図に戻って、学習データ・モデル生成部115は、対象識別部114の識別器を構成する学習モデルを構築するための学習データを生成・管理し、次いで管理している(十分な量の)学習データを用いて、対象識別処理用の学習モデルを生成するのである。ここで、学習データは具体的に、例えば特徴量生成部113で生成された画像特徴量及び符号化パラメータ特徴量に対し、元の画像データ(群)についての正解ラベル(例えば"左折する自動車")を付与することによって生成される。
ここで勿論、複数の対象(例えば自動車、人力移動体や人間等)に対応すべく、学習データ・モデル生成部115は当該対象毎の学習データを生成し、さらに、これらの学習データを使用して当該対象毎の学習モデルを生成することも好ましい。この場合、対象識別部114は、複数の対象のそれぞれを識別可能な複数の識別器を取得し、各対象についての識別結果を並行して出力することも可能となるのである。
またさらに、学習データ・モデル生成部115は、対象識別部114の識別器に加えて、特徴量生成部113を構成する学習モデルを構築するための学習データを生成・管理し、次いで当該学習データを用いて、特徴量生成用且つ対象識別処理用の学習モデルを生成してもよい。
[画像データ提供クライアントの機能構成]
同じく図1に示した機能ブロック図によれば、端末20は、通信インタフェース201と、カメラ202と、ディスプレイ(DP)203と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明に係る画像データ提供プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この画像データ提供プログラムを実行することによって、画像データ提供処理を実施する。
またこのことから、本発明に係る画像データ提供クライアントとして、ドライブレコーダである本端末20に代えて、本発明に係る画像データ提供プログラムを搭載した他の車載情報処理装置や、さらにはカメラを備えたスマートフォン、ノート型若しくはタブレット型コンピュータ、又はパーソナル・コンピュータ(PC)等を採用することも可能となる。また、ドライブレコーダとWi-Fi(登録商標)やBluetooth(登録商標)等で通信接続された端末、例えばスマートフォンを本画像データ提供クライアントとしてもよい。
さらに、プロセッサ・メモリは、映像生成部211と、符号化パラメータ抽出部212と、符号化マップ生成部213と、有意映像ストリーム生成部214と、提示情報生成部215と、送受信制御部216とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された画像データ提供プログラムの機能と捉えることができる。また、図1における端末20の機能構成部間を矢印で接続して示した処理の流れは、本発明に係る画像データ提供方法の一実施形態としても理解される。
なお本実施形態では、端末20はこの後説明するように、符号化パラメータマップフレームに同期した符号化フレームによって構成される有意映像ストリーム(図6)を、クラウドサーバ1へ送信することになるが、勿論、通常の圧縮符号化映像ストリームを送信するようにしてもよい。
同じく図1の機能ブロック図において、映像生成部211は、カメラ202から出力された撮影データに基づいて画像(映像)データを生成する。本実施形態において端末20はドライブレコーダであり、映像生成部211はデフォルトの設定として、少なくとも自動車2の走行時は常に、車外の状況を撮影した撮影データをカメラ202から取得し、画像(映像)データを生成し保存している。
また本実施形態において、映像生成部211は、MPEG規格におけるH.264やH.265といった標準フォーマットによって、生成した画像(映像)データに対し圧縮符号化処理を行い、圧縮符号化映像ストリーム(原画像ストリーム)を生成する。
符号化パラメータ抽出部212は、生成された圧縮符号化映像ストリームを簡易的に伸張(デコード)して、ビットストリームを解釈(パース)し、各マクロブロックにおける符号化パラメータを抽出する。ここで、符号化パラメータは、(a)順方向予測の動きベクトル、(b)画面内予測の符号量、及び(c)量子化ステップサイズのうちの予め設定された少なくとも1つとすることができる。
次いで、符号化マップ生成部213は、抽出されたマクロブロック毎の符号化パラメータに基づき、すでに説明を行った「マッピング情報」として符号化パラメータマップを生成し、クラウドサーバ1へ送信するのである。
符号化マップ生成部213は、さらに、好適な1つの実施形態として、符号化パラメータが所定条件を満たすマクロブロック(群)を選別し、当該マクロブロック(群)の画像内位置に係る情報を生成してもよい。この場合、当該情報は、紐づけた符号化パラメータマップとともに、送受信制御部116及び通信インタフェース201を介し、クラウドサーバ1へ送信されることになる。
具体的には、符号化マップ生成部213は、各マクロブロックから抽出された符号化パラメータに基づき、
(a)順方向予測の動きベクトルが、所定以上の大きさと、消失点へ向かう基準向きに対し所定以上の角度をなす向きとを有している、
(b)画面内予測の符号量が、所定以上の大きさを有する、及び
(c)量子化ステップサイズが、所定以下の大きさを有する
との3つの条件のうちの1つ、2つ又は全部(いずれを採用するかは予め設定される)が満たされるマクロブロックを選別する。ちなみにこのような条件を満たす符号化パラメータは、おしなべて言えば画像の時間的変動が所定以上に大きいことを示すものとなっている。
ここで、上記の条件(a)について、動きベクトルは、2フレーム以上前の1フレームを参照して算出してもよく、直前の1フレームを参照して算出することもでき、また、複数のフレームを参照して算出してもよい。いずれにしても、このような算出の方法に応じて、所定以上の大きさの基準(閾値)が適宜調整されることも好ましい。
また、上記の条件(b)について、画面内予測の符号量は通常、画像内にエッジ(対象の輪郭)が存在すれば大きくなり、画像が平坦な場合には小さくなる。したがって、例えば所定の対象が自動車の場合、特に、自動車と平坦な路面との境界に相当するタイヤ位置付近での符号量が大きくなり、そのあたりのマクロブロックが選別され易くなる。
さらに、上記の条件(c)について、量子化ステップサイズは、適応量子化(adaptive quantization)方式の下、圧縮効率を高めるために、変化の少ない画像領域では小さい値に設定され、一方、変化の大きい領域では、人間の視覚の鈍感さに合わせて大きな値に設定される。したがって、例えば所定の対象が自動車の場合、画像内で急激にその位置を変化させる自動車に係る量子化ステップサイズはより小さく設定され、そのあたりのマクロブロックが選別され易くなるのである。
符号化マップ生成部213は、次いで、符号化パラメータが所定条件を満たすことになるマクロブロック(群)の画像内位置に係る情報、例えばマクロブロックアドレスや、マクロブロックの画像内位置座標値を決定し、クラウドサーバ1へ通知するのである。
ここで、このように決定されたマクロブロック(群)の画像内位置情報は、端的に言えば所定以上の急激さをもって変化した画像領域を示すものとなっており、例えば自動車2の周囲に存在する識別・監視すべき対象(例えば他の自動車や歩行者)の画像内位置に係る情報となっている可能性が高いのである。
図4は、符号化マップ生成部213におけるマクロブロック選別処理の実施例を説明するための模式図である。
最初に、図4(A)に示した(カメラ202によって生成された)原映像フレーム(カメラ画像データ)には、概ね一定の速度で変化している物体が含まれている。また、この原映像フレームにおける各マクロブロックの動きベクトルは、消失点から遠ざかるほど大きくなる傾向にあるが、いずれにしても概ね消失点に向かう向きを有している。したがってこの場合、動きベクトルについて所定条件を満たすマクロブロックは選別されない。
次に、図4(B)に示した(カメラ202によって生成された)原映像フレーム(カメラ画像データ)には、その画像の右下あたりに、急激にその位置を変化させる対象が含まれている。また、この画像の右下あたりのマクロブロックの動きベクトルは、所定以上の大きさを有し、さらに消失点へ向かう向きに対し所定以上の角度をなす向きを有している。その結果、動きベクトルについて、この画像の右下あたりのマクロブロック群が所定条件を満たすものとして選別されることになる。
なお、上述したように選別されたマクロブロック群の位置には、例えば、(カメラ202を搭載した自動車2の)前方を走行していて急な車線変更を行ったり、急な減速を行ったりする自動車(移動体)の写っていることが見込まれるのである。
最後に、図4(C)に示した(カメラ202によって生成された)原映像フレーム(カメラ画像データ)には、その画像の右下あたりに、急激にその位置を変化させる対象が含まれている。また、この画像の右下あたりの画面内予測の符号量は、所定以上の大きさを有している。その結果、画面内予測の符号量について、この画像の右下あたりのマクロブロック群が所定条件を満たすものとして選別されることになる。
なお以下に説明する実施形態においては、上述したような所定条件を満たす符号化パラメータをマッピングしたフレーム(符号化パラメータマップのフレーム)は、GOP(Group Of Pictures)単位で生成されることになる(後に説明する図6を参照)。
図1の機能ブロック図に戻って、有意映像ストリーム生成部214は、符号化パラメータマップのフレームと同期した原映像ストリームのフレームを、時系列にして結合した有意映像ストリームを生成する。ここで本実施形態において、生成された有意映像ストリームは、生成された対応する「マクロブロック位置情報」と紐づけて、送受信制御部216及び通信インタフェース201を介し、クラウドサーバ1へ送信されることになる。
図5は、有意映像ストリーム生成部214における有意映像ストリームを構成するフレームの生成に係る一実施形態を説明するための模式図である。
図5(A)には、原映像フレームにおける所定条件を満たすマクロブロックの分布範囲が示されている。本実施形態において、有意映像ストリーム生成部214は、この図6(A)に示されたマクロブロックの分布範囲に対応する部分だけを抽出した原映像フレーム(図5(B))を生成し、有意映像ストリームを構成するフレームとするのである。これにより、最終的に生成される有意映像ストリームのデータ量を大幅に低減させることも可能となる。
ただし勿論、このような有意部分だけを抽出する処理を行わずに、有意映像ストリームのフレームを生成していってもよい。すなわち、フレーム内における画像領域の決定は、クラウドサーバ1(の対象領域決定部112)に全て任せることも好ましい。
図6は、有意映像ストリーム生成部214における有意映像ストリーム生成処理の一実施形態を説明するための模式図である。
図6によれば、有意映像ストリーム生成部214は、符号化された原映像フレーム群から、GOP毎に生成された符号化パラメータマップのフレームに同期したフレームを抽出し、抽出したこれらのフレームを時系列に結合させて有意映像ストリームを生成する。
また、有意映像ストリーム生成部214は、同じく図6に示したように、I(イントラ)フレームの符号量が所定の符号量閾値(例えば1メガビット)以上となる場合、自らに係る自動車2が停止中であると判定して、この時間区間のフレームを、有意映像ストリームの構成フレームから除外する。これにより、有意映像ストリームのデータ量(フレーム数)をより低減させることが可能となる。ここで、判定基準となる所定の符号量閾値は、CBR(固定ビットレート)による符号化の場合とVBR(可変ビットレート)による符号化の場合とで、異なる値に設定されることも好ましい。
ちなみに、Iフレームの符号量によって自動車2の走行/停止の判定が可能となるのは以下の理由による。すなわち、例えば原映像ストリームにおいて画像内の対象が一定の速度で変化し、且つ急峻な変化がない場合、画像内に一定の動きは存在するので、順方向予測のマクロブロックが増加する。一方、画面内予測のマクロブロックは減少し、その結果、フレーム全体の符号量は小さくなる傾向となる。例えば毎秒6メガビット程度の固定ビットレートで符号化処理を行うH.264では、走行中の原映像ストリームにおけるIフレームの符号量は通常、0.5~0.8メガビットで推移する。
一方、原映像ストリームにおいて画像内に急峻な変化がある場合、画面内予測のマクロブロックは増加し、一方で、順方向予測のマクロブロックが減少して、結局、フレーム全体の符号量は大きくなる傾向となる。
さらに、原映像ストリームにおいて画像内に動きが存在しない場合、すなわち自動車2が停止中の場合、順方向予測のマクロブロックが減少し、一方で、画面内予測のマクロブロックが増加して、結果的にフレーム全体の符号量が大きくなる傾向となる。例えば停止中で変化のない原映像ストリームでは、Iフレームの符号量は1メガビットを超えることになる。このように、Iフレームの符号量を観測することによって、走行/停止の判定が可能となるのである。
図1の機能ブロック図に戻って、提示情報生成部215は、クラウドサーバ1から配信された対象識別結果を、通信インタフェース201及び送受信制御部216を介して取得し、端末20がユーザへ提示するサービス情報の生成に利用してもよい。
例えば提示情報生成部215は、当該対象識別結果を、搭載している運転支援プログラムに取り込ませ、ディスプレイ203に表示されたカメラ202による進行方向のリアルタイムの映像において、突然の車線変更、幅寄せや追い越し等の急な動きを行っている自動車の画像部分を強調表示し、併せてアラームを鳴らしてユーザに警告することも可能となる。
以上詳細に説明したように、本発明によれば、「マッピング情報(例えば符号化パラメータマップ)」に基づき、所定の対象の動きや変化に係る情報を包含し得る「符号化パラメータ特徴量」を、比較的小さい処理負担で予め生成することができる。さらに、所定の対象を識別する際には、識別処理対象である画像データの画素値に係る特徴量である「画像特徴量」だけでなく、この予め生成された「符号化パラメータ特徴量」も用いて対象識別処理を実施することが可能となる。その結果、例えばオプティカルフロー等の処理負担の大きな解析手法に依らずに、より少ない処理負担で、動きや変化を伴う対象を識別することができるのである。
さらに、「画像特徴量」だけでなく、所定の対象の動きや変化に係る情報を包含し得る「符号化パラメータ特徴量」も利用して対象識別処理を実施するので、特に、動きや変化を伴う対象については、その識別精度のより向上することが見込まれる。
ちなみに、本発明の構成及び方法は、膨大な量の映像データ伝送が可能となる5G(第5世代移動通信システム)を利用し、膨大な数のクライアントから圧縮符号化された映像ストリームをサーバへアップロードする場面において、サーバにおける画像解析・対象識別処理の効率を向上させ、その負担を軽減すること等、予想される重要課題の解決に大いに貢献するものと考えられる。例えば本発明の実施形態によっては、自動運転車、ドローンや、各種ロボットが撮影した高解像度映像を5Gによって収集し、収集した映像を効率良く確実に識別処理して、新サービスの創出・提供につなげることも可能となるのである。
以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。
1 クラウドサーバ(対象識別装置)
101、201 通信インタフェース
111 画像取得部
112 対象領域決定部
113 特徴量生成部
113a 画像特徴量生成部
113b 符号化パラメータ特徴量生成部
114 対象識別部
115 学習データ・モデル生成部
116、216 送受信制御部
2 自動車
20 端末(クライアント)
202 カメラ
203 ディスプレイ(DP)
211 映像生成部
212 符号化パラメータ抽出部
213 符号化マップ生成部
214 有意映像ストリーム生成部
215 提示情報生成部

Claims (10)

  1. 所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
    当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報であって、当該符号化パラメータに応じた値を画像内に分布する情報として包含する画像情報としてのマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
    生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
    を有することを特徴とする対象識別装置。
  2. 所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
    当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
    生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
    を有し、
    前記特徴量生成手段は、当該符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置を含む画像領域を識別用画像領域として、当該符号化パラメータ画像特徴量及び当該画像特徴量を、当該識別用画像領域についての特徴量として生成す
    とを特徴とする対象識別装置
  3. 当該映像データの符号化はMPEG(Moving Picture Experts Group)による符号化であり、当該所定条件を満たす符号化パラメータは、
    (a)所定以上の大きさと、基準向きに対し所定以上の角度をなす向きとを有する順方向予測の動きベクトル、
    (b)所定以上の大きさを有する画面内予測の符号量、及び
    (c)所定以下の大きさを有する量子化ステップサイズ
    のうちの予め設定された1つ、2つ又は全部であって、当該単位画像区域はマクロブロックであることを特徴とする請求項2に記載の対象識別装置
  4. 当該符号化パラメータ画像特徴量は、当該マッピング情報を入力とし当該符号化パラメータ画像特徴量を出力する第1の畳み込み層部(Convolutional Layers)を用いて生成され、当該画像特徴量は、当該画像データを入力とし当該画像特徴量を出力する第2の畳み込み層部を用いて生成され、
    当該識別器は、第1の畳み込み層部及び第2の畳み込み層部からの出力を取りまとめて入力とし、当該対象のクラスに係る情報を出力する全結合層部(Fully-Connected Layers)を含む
    ことを特徴とする請求項1から3のいずれか1項に記載の対象識別装置
  5. 当該画像特徴量は、互いに異なる時点に係る複数の画像データのそれぞれを入力とし当該画像データに係る画像特徴量をそれぞれ出力する複数の第2の畳み込み層部を用いて生成され、
    当該対象のクラスに係る情報は、当該対象における時間的変化に係る情報である
    ことを特徴とする請求項4に記載の対象識別装置
  6. 当該符号化パラメータ画像特徴量は、互いに異なる時点に係る複数のマッピング情報のそれぞれを入力とし当該マッピング情報に係る符号化パラメータ画像特徴量をそれぞれ出力する複数の第1の畳み込み層部を用いて生成され、
    当該画像特徴量は、互いに異なる時点であって、それぞれ前記複数のマッピング情報に係る時点に相当する複数の時点に係る複数の画像データのそれぞれを入力とし当該画像データに係る画像特徴量をそれぞれ出力する複数の第2の畳み込み層部を用いて生成され、
    当該対象のクラスに係る情報は、当該対象における時間的変化に係る情報である
    ことを特徴とする請求項4に記載の対象識別装置
  7. 当該対象は移動体であり、当該対象における時間的変化に係る情報は、右折、左折、他の移動体との間で生じる接近、他の移動体との間で生じる割り込み、他の移動体との間で生じる追い越し、及び急な横方向の変化のうちの少なくとも1つであることを特徴とする請求項5又は6に記載の対象識別装置
  8. クライアントで生成された、所定の対象を画像内に含み得る画像データを取得し、当該対象を識別するサーバであって、
    当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせた、前記クライアントから当該画像データとともに取得されマッピング情報であって、当該符号化パラメータに応じた値を画像内に分布する情報として包含する画像情報としてのマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
    生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別部を用いて、当該画像データから当該対象を識別する対象識別手段と
    を有することを特徴とする対象識別サーバ。
  9. 所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータを機能させるプログラムであって、
    当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報であって、当該符号化パラメータに応じた値を画像内に分布する情報として包含する画像情報としてのマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
    生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
    してコンピュータを機能させることを特徴とする対象識別プログラム。
  10. 所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータによって実施される方法であって、
    当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報であって、当該符号化パラメータに応じた値を画像内に分布する情報として包含する画像情報としてのマッピング情報についての特徴量である符号化パラメータ画像特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成するステップと、
    生成された当該符号化パラメータ画像特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別するステップと
    を有することを特徴とする対象識別方法。
JP2019166117A 2019-09-12 2019-09-12 符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム Active JP7145830B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019166117A JP7145830B2 (ja) 2019-09-12 2019-09-12 符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019166117A JP7145830B2 (ja) 2019-09-12 2019-09-12 符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021043773A JP2021043773A (ja) 2021-03-18
JP7145830B2 true JP7145830B2 (ja) 2022-10-03

Family

ID=74864094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019166117A Active JP7145830B2 (ja) 2019-09-12 2019-09-12 符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7145830B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115567465A (zh) * 2022-10-27 2023-01-03 苏州盛科通信股份有限公司 一种灵活扩展网络交换芯片关联数据的可编程方法及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124689A (ja) 2017-01-31 2018-08-09 株式会社日立製作所 移動物体検出装置、移動物体検出システム、及び移動物体検出方法
JP2018149990A (ja) 2017-03-14 2018-09-27 オムロン株式会社 運転者の着座判定装置
JP2018185724A (ja) 2017-04-27 2018-11-22 Kddi株式会社 画素変更処理画像を用いて対象を追跡する装置、プログラム及び方法
JP2018203169A (ja) 2017-06-08 2018-12-27 トヨタ自動車株式会社 運転意識推定装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6282193B2 (ja) * 2014-07-28 2018-02-21 クラリオン株式会社 物体検出装置
JP6657731B2 (ja) * 2015-10-01 2020-03-04 日産自動車株式会社 走行支援システム及び走行支援方法
JP6888950B2 (ja) * 2016-12-16 2021-06-18 フォルシアクラリオン・エレクトロニクス株式会社 画像処理装置、外界認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124689A (ja) 2017-01-31 2018-08-09 株式会社日立製作所 移動物体検出装置、移動物体検出システム、及び移動物体検出方法
JP2018149990A (ja) 2017-03-14 2018-09-27 オムロン株式会社 運転者の着座判定装置
JP2018185724A (ja) 2017-04-27 2018-11-22 Kddi株式会社 画素変更処理画像を用いて対象を追跡する装置、プログラム及び方法
JP2018203169A (ja) 2017-06-08 2018-12-27 トヨタ自動車株式会社 運転意識推定装置

Also Published As

Publication number Publication date
JP2021043773A (ja) 2021-03-18

Similar Documents

Publication Publication Date Title
EP3722992B1 (en) System and method for pre-processing images captured by a vehicle
US11729406B2 (en) Video compression using deep generative models
US11488398B2 (en) Detecting illegal use of phone to prevent the driver from getting a fine
JP6282193B2 (ja) 物体検出装置
WO2016173277A9 (zh) 视频编码方法、解码方法及其装置
US11109152B2 (en) Optimize the audio capture during conference call in cars
US11112791B2 (en) Selective compression of image data during teleoperation of a vehicle
US20210110191A1 (en) Systems and Methods for Edge Assisted Real-Time Object Detection for Mobile Augmented Reality
US11659154B1 (en) Virtual horizontal stereo camera
US11586843B1 (en) Generating training data for speed bump detection
US11645779B1 (en) Using vehicle cameras for automatically determining approach angles onto driveways
JP4577153B2 (ja) 環境認識装置
EP3975133A1 (en) Processing of images captured by vehicle mounted cameras
US20240027604A1 (en) Extrinsic parameter calibration for 4d millimeter-wave radar and camera based on adaptive projection error
JP7145830B2 (ja) 符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム
JP7143263B2 (ja) 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
US11531197B1 (en) Cleaning system to remove debris from a lens
US11840253B1 (en) Vision based, in-vehicle, remote command assist
CN112383778B (zh) 一种视频编码方法、装置及解码方法、装置
CN110944895A (zh) 用于根据由车辆的摄像机所拍摄的图像序列来求取光流的方法和设备
Khan et al. Data rate estimation based on scene complexity for dynamic vision sensors on unmanned vehicles
JP7533601B2 (ja) 情報処理装置、情報処理システム、情報処理方法
JP7211373B2 (ja) 動画像解析装置、動画像解析システム、動画像解析方法、及びプログラム
US11951833B1 (en) Infotainment system permission control while driving using in-cabin monitoring
KR102178952B1 (ko) 압축영상에 대한 신택스 기반의 mrpn-cnn을 이용한 객체 분류 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220920

R150 Certificate of patent or registration of utility model

Ref document number: 7145830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150