JP2021043773A

JP2021043773A - 符号化パラメータ特徴量を利用した対象識別方法、装置及びプログラム

Info

Publication number: JP2021043773A
Application number: JP2019166117A
Authority: JP
Inventors: 和之田坂; Kazuyuki Tasaka; 菅野　勝; Masaru Sugano; 勝菅野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-03-18
Anticipated expiration: 2039-09-12
Also published as: JP7145830B2

Abstract

【課題】より少ない処理負担で、動きや変化を伴う対象を識別可能な対象識別方法を提供する。【解決手段】本対象識別方法は、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータにおける対象識別方法であり、画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ特徴量と、画像データの画素値に係る特徴量である画像特徴量とを生成するステップと、生成された符号化パラメータ特徴量及び画像特徴量を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、画像データから当該対象を識別するステップとを有する。ここで、当該画像データを含む映像データの符号化はＭＰＥＧによる符号化であってもよく、また、単位画像区域はマクロブロックとすることができる。【選択図】図１

Description

本発明は、所定の対象を画像内に含み得る画像データから、当該対象を識別する技術に関する。

現在、監視やマーケティング等の目的をもって、さらには自動運転車や自律ロボット等の「視覚系」として、カメラによって生成された画像データを解析し、撮影された対象を識別する技術の開発が盛んに進められている。

ここで特に、動きや向き・姿勢等の変化を伴う自動車や人間といった移動体を当該対象とし、その動きや変化を認識し識別する技術が大いに注目されている。

このような技術として例えば、非特許文献１には、識別対象である画像データにおける色（画素値）とオプティカルフローとによって、より高い精度で人物の行動を認識する技術が提案されている。ここで、オプティカルフローとは、オプティカルフロー方程式を用いて画像内におけるパターンの特徴点が移動する方向を推定し、画像中の対象の動きをベクトル場、すなわち各画素に付与されたベクトル量で表現したものである。

また、特許文献１には、車両内を撮影した車内画像やセンサ検出結果を用いて対象部位の奥行き情報を算出し、その結果を用いて車両乗車員の行動を識別する技術が開示されている。具体的に、この技術による行動認識装置は、車内画像における車両内の人物の，人体の複数の部位の位置を検出し、当該部位間の距離の大きさの順位に基づく特徴量である順位特徴量を算出し、あらかじめ学習された識別器と、算出された順位特徴量とを用いて車両内乗員の行動を識別している。

特許文献１は、このような技術を用いることによって、車両内乗員による所定の行動を、車両内の環境的要因による変動に対して頑健に認識することができるとしているのである。

特開２０１７−２１５８６１号公報

Karen Simonyan and Andrew Zisserman, "Two-Stream Convolutional Networks for Action Recognition in Videos" Computer Vision and Pattern Recognition (cs.CV), arXiv:1406.2199 [cs.CV], ２０１４年

しかしながら、以上に説明したような従来技術では、自動車や人間といった対象の動きや変化を識別するのに相当の計算処理量を要してしまい、その結果、迅速に対象識別結果を得るとの課題については、なお十分に解決できていないのが現状である。

例えば、非特許文献１に記載された技術で利用されているオプティカルフローは、一般にその計算処理量が大きくなってしまう。また、特許文献１に係る技術においても、センサ検出結果を処理し、さらに人体における複数の部位の位置に係る順位特徴量を算出せねばならず、同じく相当の計算処理量が必要となってしまうのである。

そのため例えば、対象識別装置が、カメラ装置から映像ストリームデータを受信して対象識別処理を行う典型的なケースにおいて、その処理負担が多大なものとなり、特に、対象識別処理のリアルタイム性が要求される場面においては、この大きな処理負担は重大な問題となってしまうのである。

そこで、本発明は、より少ない処理負担で、動きや変化を伴う対象を識別可能な対象識別方法、装置及びプログラムを提供することを目的とする。

本発明によれば、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータにおける対象識別方法であって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成するステップと、
生成された当該符号化パラメータ特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別するステップと
を有する対象識別方法が提供される。

この本発明による対象識別方法の好適な一実施形態として、上記の当該符号化パラメータ特徴量及び当該画像特徴量を生成するステップにおいて、当該符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置を含む画像領域を識別用画像領域として、当該符号化パラメータ特徴量及び当該画像特徴量を、当該識別用画像領域についての特徴量として生成することも好ましい。

また、本発明による対象識別方法では具体的に、当該映像データの符号化はＭＰＥＧ（Moving Picture Experts Group）による符号化であり、当該所定条件を満たす符号化パラメータは、
（ａ）所定以上の大きさと、基準向きに対し所定以上の角度をなす向きとを有する順方向予測の動きベクトル、
（ｂ）所定以上の大きさを有する画面内予測の符号量、及び
（ｃ）所定以下の大きさを有する量子化ステップサイズ
のうちの予め設定された１つ、２つ又は全部であって、当該単位画像区域はマクロブロックであることも好ましい。

さらに、本発明に係る当該符号化パラメータ特徴量は、当該マッピング情報を入力とし当該符号化パラメータ特徴量を出力する第１の畳み込み層部（Convolutional Layers）を用いて生成され、当該画像特徴量は、当該画像データを入力とし当該画像特徴量を出力する第２の畳み込み層部を用いて生成され、また、本発明に係る当該識別器は、第１の畳み込み層部及び第２の畳み込み層部からの出力を取りまとめて入力とし、当該対象のクラスに係る情報を出力する全結合層部（Fully-Connected Layers）を含むことも好ましい。

ここで上記のような特徴量生成の構成を用いた１つの実施形態として、当該画像特徴量は、互いに異なる時点に係る複数の画像データのそれぞれを入力とし当該画像データに係る画像特徴量をそれぞれ出力する複数の第２の畳み込み層部を用いて生成され、
当該対象のクラスに係る情報は、当該対象における時間的変化に係る情報であることも好ましい。

また、上記のような特徴量生成の構成を用いた他の実施形態として、当該符号化パラメータ特徴量は、互いに異なる時点に係る複数のマッピング情報のそれぞれを入力とし当該マッピング情報に係る符号化パラメータ特徴量をそれぞれ出力する複数の第１の畳み込み層部を用いて生成され、
当該画像特徴量は、互いに異なる時点であって、それぞれ上記の複数のマッピング情報に係る時点に相当する複数の時点に係る複数の画像データのそれぞれを入力とし当該画像データに係る画像特徴量をそれぞれ出力する複数の第２の畳み込み層部を用いて生成され、
当該対象のクラスに係る情報は、当該対象における時間的変化に係る情報である
ことも好ましい。

また、これらの実施形態において具体的に、当該対象は移動体であり、当該対象における時間的変化に係る情報は、右折、左折、他の移動体との間で生じる接近、他の移動体との間で生じる割り込み、他の移動体との間で生じる追い越し、及び急な横方向の変化のうちの少なくとも１つであることも好ましい。

本発明によれば、また、所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別部を用いて、当該画像データから当該対象を識別する対象識別手段と
を有する対象識別装置が提供される。

本発明によれば、さらに、クライアントで生成された、所定の対象を画像内に含み得る画像データを取得し、当該対象を識別するサーバであって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報であって、クライアントから当該画像データとともに取得されたマッピング情報についての特徴量である符号化パラメータ特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別部を用いて、当該画像データから当該対象を識別する対象識別手段と
を有する対象識別サーバが提供される。

本発明によれば、さらにまた、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータを機能させるプログラムであって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別部を用いて、当該画像データから当該対象を識別する対象識別手段と
してコンピュータを機能させる対象識別プログラムが提供される。

本発明の対象識別方法、装置及びプログラムによれば、より少ない処理負担で、動きや変化を伴う対象を識別することができる。

本発明による対象識別装置（サーバ）及びクライアントを備えた対象識別システムの一実施形態を説明するための模式図及び機能ブロック図である。本発明に係る対象領域決定部における対象領域決定処理の一実施例を説明するための模式図である。本発明に係る特徴量生成部及び対象識別部における特徴量生成処理及び対象識別処理の一実施例を説明するための模式図である。本発明に係る符号化マップ生成部におけるマクロブロック選別処理の実施例を説明するための模式図である。本発明に係る有意映像ストリーム生成部における有意映像ストリームを構成するフレームの生成に係る一実施形態を説明するための模式図である。本発明に係る有意映像ストリーム生成部における有意映像ストリーム生成処理の一実施形態を説明するための模式図である。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

［対象識別システム］
図１は、本発明による対象識別装置（サーバ）及びクライアントを備えた対象識別システムの一実施形態を説明するための模式図及び機能ブロック図である。

図１に示した本実施形態の対象識別システムは、
（ａ）移動可能なクライアントである少なくとも１つの端末２０と、
（ｂ）端末２０から、所定の対象を画像内に含み得る画像データを取得可能なサーバであるクラウドサーバ１と
を有し、クラウドサーバ１において、当該画像データから、動きや変化を伴う所定の対象が識別されるのである。

また上記（ａ）の端末２０は、本実施形態において通信機能を有するドライブレコーダであり自動車２に設置されている。ここで、その設置場所は任意に設定可能であり、例えば自動車２のフロントガラス越しに車両前方を撮影可能な位置（例えばダッシュボード上部）とすることができる。勿論、車両側方や後方を撮影可能な位置に端末２０を設置してもよく、異なる複数の位置の各々に端末２０を設置することも可能である。

さらに本実施形態において、端末２０（ドライブレコーダ）は、例えば自動車２の進行方向の状況をカメラで撮影して画像（映像）データを生成し、自身に設けられたメモリやストレージに保存することができる。また、端末２０は、例えば携帯電話通信網やインターネット等を介してクラウドサーバ１と無線通信接続が可能となっており、保存した画像（映像）データの一部又は全部を、適宜又は要求に応じてクラウドサーバ１へ送信することもできるのである。

ここで、端末２０からクラウドサーバ１へ画像（映像）データを送信する際、端末２０は通常、当該画像（映像）データに対し圧縮符号化処理を行い、伝送負担の小さい圧縮映像ストリームを生成して送信することになる。本実施形態では、この圧縮符号化処理として、ＭＰＥＧ（Moving Picture Experts Group）規格におけるＨ．２６４やＨ．２６５といった標準フォーマットによる処理が実施されるが、非標準のフォーマットによるものとすることも可能である。また勿論、空間解像度、フレームレートや、ビットレートは任意に設定可能となっている。

さらに、後に図４〜６を用いて詳細に説明するが、端末２０は、後述する「符号化パラメータマップ」フレームに同期した符号化フレームによって構成される「有意映像ストリーム」（図６）を、クラウドサーバ１へ送信することも好ましい。

ここで、「有意映像ストリーム」は、クラウドサーバ１における対象識別処理に必要となるであろう（当該処理上有意となるであろう）フレームによって構成されており、実際には、カメラ２０２によって撮影される自動車２の周囲の状況の中で、撮影範囲において急に現れたり消滅したり、その位置や形状が所定以上の急激さで変化したりした対象を捉えたフレームを選別して含んでいる。またその結果、「有意映像ストリーム」は、符号化された原映像ストリームと比較しても、伝送容量のより低減した映像データとなっているのである。

一方、上記（ｂ）のクラウドサーバ１は、所定の対象を画像内に含み得る（有意）映像ストリーム、すなわち画像データから当該対象を識別する対象識別装置であり、具体的にその構成として、
（Ａ）当該画像データを含む映像データを符号化した際に、「単位画像区域」毎に決定される「符号化パラメータ」を「単位画像区域」にマッピングさせた「マッピング情報」についての特徴量である「符号化パラメータ特徴量」と、当該画像データの画素値に係る特徴量である「画像特徴量」とを生成する特徴量生成部１１３と、
（Ｂ）生成された「符号化パラメータ特徴量」及び「画像特徴量」を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから所定の対象を識別する対象識別部１１４と
を有することを特徴としている。

ここで、上記（Ａ）において、「画像特徴量」を生成する対象である画像データは、受信された圧縮符号化画像（映像）データを伸張（デコード）したものとすることができ、または、「有意映像ストリーム」を構成する画像データであってもよい。

また、上記（Ａ）の「符号化パラメータ」は、本実施形態においてＭＰＥＧにおける、
（ａ）順方向予測の動きベクトル、
（ｂ）画面内予測の符号量、及び
（ｃ）量子化ステップサイズ
のうちの設定された少なくとも１つとすることができる。

さらに、上記（Ａ）の「マッピング情報」は、「単位画像区域」をマクロブロックとした「符号化パラメータマップ」であってもよい。「符号化パラメータマップ」は、設定された符号化パラメータの値に応じて、対応するマクロブロックの部分の画素値を決定したマップデータであり、具体的には、
（ａ）順方向予測の動きベクトルの大きさが大きいほど、また、基準向き（例えば、消失点（画像内地平線上の収束点）へ向かう向き）に対して当該動きベクトルの向きのなす角度が大きいほど、そのマクロブロックの部分における色合いの階調を高く（濃く）したものとすることができ、
（ｂ）画面内予測の符号量が大きいほど、そのマクロブロックの部分における色合いの階調を高く（濃く）したものであってもよく、さらに、
（ｃ）量子化ステップサイズが小さいほど、そのマクロブロックの部分における色合いの階調を高く（濃く）したものとすることもできる。

ここで、上述したように生成された「符号化パラメータマップ」における大きな画素値の部分（色合いの階調が高い部分）は、端的に言えばより高い急激さをもって変化した対象に係る画像領域を示しており、例えば自動車２の周囲に存在する識別・監視すべき対象（例えば、急な相対的動きを見せた他の自動車や歩行者）に係る画像領域となっている可能性が高いのである。

なお、クラウドサーバ１は、このような「マッピング情報（例えば符号化パラメータマップ）」を、圧縮符号化元である端末２０から（映像）映像ストリームとともに合わせて受信することができる。また変更態様として、クラウドサーバ１自身が、受信された圧縮符号化映像ストリームを一先ず簡易的に伸張（デコード）して、ビットストリームを解釈（パース）し、符号化パラメータを抽出することにより「マッピング情報（例えば符号化パラメータマップ）」を生成してもよい。

いずれにしても、クラウドサーバ１は、上述したような特徴を有する「マッピング情報」に基づき、所定の対象の動きや変化に係る情報を包含し得る「符号化パラメータ特徴量」を、比較的小さい処理負担で予め生成することができる。さらに、所定の対象を識別する際には、識別処理対象である画像データの画素値に係る特徴量である「画像特徴量」だけでなく、この予め生成された「符号化パラメータ特徴量」も用いて対象識別処理を実施することが可能となる。その結果、例えばオプティカルフロー等の処理負担の大きな解析手法に依らずに、より少ない処理負担で、動きや変化を伴う対象を識別することができるのである。

さらに、「画像特徴量」だけでなく、所定の対象の動きや変化に係る情報を包含し得る「符号化パラメータ特徴量」も利用して対象識別処理を実施するので、特に、動きや変化を伴う対象については、その識別精度のより向上することが見込まれる。

なお、端末２０は当然に、自動車２に設置された車載装置（ドライブレコーダ）に限定されるものではなく、例えば自転車や鉄道車両、さらにはロボットやドローン等の他の移動体に設置された又は搭乗した装置であってもよい。また、端末２０は、例えばＨＭＤ（Head Mounted Display）やグラス型端末等のウェアラブル端末であってもよい。この場合、例えばユーザが歩きながら撮影し生成した画像データがクラウドサーバ１へ上げられることになる。さらに、画像データ生成・送信元のクライアントは、端末２０とは異なり移動可能ではない端末であってもよく、例えば通信機能を備えた固定カメラ装置とすることもできる。

［対象識別サーバの機能構成］
図１に示した機能ブロック図によれば、クラウドサーバ１は、通信インタフェース１０１と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明による対象識別プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この対象識別プログラムを実行することによって、対象識別処理を実施する。

またこのことから、本発明による対象識別サーバとして、本クラウドサーバ１に代えて、本発明による対象識別プログラムを搭載した、例えば非クラウドのサーバ装置、パーソナル・コンピュータ（ＰＣ）、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等を採用することも可能となる。

また例えば、端末２０に本発明による対象識別プログラムを搭載し、当該端末２０を本発明による対象識別サーバとすることもできる。さらに、本発明による対象識別サーバを、端末２０とともに自動車２に設置する実施形態も可能となるのである。

また、上記のプロセッサ・メモリは、画像取得部１１１と、対象領域決定部１１２と、画像特徴量生成部１１３ａ及び符号化パラメータ特徴量生成部１１３ｂを有する特徴量生成部１１３と、対象識別部１１４と、学習データ・モデル生成部１１５と、送受信制御部１１６とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された対象識別プログラムの機能と捉えることができる。また、図１におけるクラウドサーバ１の機能構成部間を矢印で接続して示した処理の流れは、本発明による対象識別方法の一実施形態としても理解される。

同じく図１の機能ブロック図において、画像取得部１１１は、端末２０から通信インタフェース１０１及び送受信制御部１１６を介して受信された、圧縮符号化された映像ストリームを取得し、管理する。ここで画像取得部１１１は、当該映像ストリームを伸張（デコード）し、原映像ストリームを構成する画像データ群として管理することも好ましい。また上述したように変更態様として、圧縮符号化映像ストリームを一先ず簡易的に伸張してビットストリームを解釈（パース）し、符号化パラメータを抽出することによって「符号化パラメータマップ」を生成するようにすることも可能である。

対象領域決定部１１２は、符号化パラメータが所定条件を満たすことになる単位画像区域（マクロブロック）の画像内での位置を含む画像領域を識別用画像領域として決定する。例えば、端末２０から（有意）映像ストリームと併せて送られてくる「符号化パラメータマップ」において、符号化パラメータが所定条件を満たすマクロブロック（群）の画像内位置を決定し、当該画像内位置を（ａ）中央に包含するような、又は（ｂ）下部若しくは下端とするような所定の大きさの矩形（若しくは他の形状）の画像領域を、識別用画像領域として決定することも好ましい。

ちなみに、この後生成される画像特徴量も符号化パラメータ特徴量も、この決定された識別用画像領域内での特徴量として生成されることになるのである。

ここで、符号化パラメータが所定条件を満たすことになるマクロブロック（群）は、
（ａ）順方向予測の動きベクトルが、所定以上の大きさと、基準向き（例えば、消失点（画像内地平線上の収束点）へ向かう向き）に対し所定以上の角度をなす向きとを有している、
（ｂ）画面内予測の符号量が、所定以上の大きさを有する、及び
（ｃ）量子化ステップサイズが、所定以下の大きさを有する
との３つの条件のうちの予め設定された１つ、２つ又は全部が満たされるマクロブロック（群）とすることができる。

このような所定条件を満たすマクロブロック（群）を包含するような画像領域は、動きや変化を伴う対象をその画像中に含む可能性が高いので、このような画像領域を識別用画像領域に決定し、当該領域に係る特徴量を生成して識別処理に用いることによって、動きや変化を伴う当該対象を、より高い精度で識別することも可能となるのである、

またさらに、所定の対象の識別処理を実施するにあたり、最初に検出器を用いて画像内において所定の対象を検出する処理を行い、予めその候補位置を決定するといった負担の大きい処理を実施する手間を省くことができる。言い換えると、処理対象である画像データを受信する側（すなわちクラウドサーバ１）における対象識別処理の処理負担を低減することが可能となるのである。

ちなみに１つの好適な実施形態として、後に詳細に説明するように、対象領域決定部１１２は、符号化パラメータが所定条件を満たすマクロブロック（群）の画像内位置に係る情報を、端末２０から取得して利用してもよい。この場合、クラウドサーバ１側の対象識別処理の計算負担は、より低減することになる。

図２は、対象領域決定部１１２における対象領域決定処理の一実施例を説明するための模式図である。

図２に示した実施例において、対象領域決定部１１２は、画像取得部１１１から画像データを取得し、さらに端末２０から通信インタフェース１０１及び送受信制御部１１６を介し、対応する（例えば画像データのいずれかと同期した）符号化パラメータマップを取得している。

対象領域決定部１１２は、次いで、取得した符号化パラメータマップから、符号化パラメータが所定条件を満たすマクロブロック（群）を特定し、取得した画像データにおいて、当該マクロブロック（群）の画像内位置を自らの下端とするような所定サイズの矩形の画像対象領域（識別用の画像領域）を決定している。

ここで本実施例では、当該マクロブロック（群）の画像内位置は、左前方に存在する自動車のタイヤあたりの位置となっており、また、決定された画像対象領域は、この自動車の全体を概ね包含している。実際、画像内に自動車が含まれているケースでは、所定条件を満たすマクロブロック（群）の位置は、この自動車における平坦な地面（路面）と接する足元、すなわちタイヤ付近となることが多い。この場合、画像対象領域を、当該位置を下端又は下部とするような領域に決定することによって、識別対象の全体を包含する可能性の高い画像対象領域を得ることが可能となるのである。

対象領域決定部１１２はさらに、取得した符号化パラメータマップにおいて、決定した画像対象領域（の画像内範囲に対応するマップ内範囲）に相当する符号化マップ対象領域（識別用のマップ画像領域）を決定している。

以上、本実施例に示したように、対象領域決定部１１２は、取得した画像データ及び符号化パラメータマップから、この後の対象識別処理に使用される画像対象領域と、対応する符号化マップ対象領域とを抽出することができるのである。

同じく図１の機能ブロック図において、特徴量生成部１１３は、
（ａ）取得された画像データの画素値に係る特徴量である画像特徴量を生成する画像特徴量生成部１１３ａと、
（ｂ）取得された符号化パラメータマップ（マッピング情報）についての特徴量である符号化パラメータ特徴量を生成する符号化パラメータ特徴量生成部１１３ｂと
を有する。

ここで好適な実施形態として、
（ａ）画像特徴量生成部１１３ａは、対象領域決定部１１２で決定された画像対象領域（識別用の画像領域）についての画像特徴量を生成し、一方、
（ｂ）符号化パラメータ特徴量生成部１１３ｂは、対象領域決定部１１２で決定された符号化マップ対象領域（識別用のマップ画像領域）についての符号化パラメータ特徴量を生成する
ことも好ましい。なお、以上の特徴量生成処理については、この後、図３に示した実施例を用いて具体的に説明を行う。

対象識別部１１４は、特徴量生成部１１３で生成された符号化パラメータ特徴量及び画像特徴量を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、取得された画像データから当該対象を識別する。

ここで、対象識別処理を実施する識別器は、画像認識用に広く使用されているディープニューラルネットワーク（ＤＮＮ，Deep Neural Network）や、ＳＶＭ（Support Vector machine）、さらにはランダムフォレスト（Random Forest）等、画像（マップ）に係る特徴量が入力されて識別結果が出力される様々な種別の機械学習アルゴリズムによって構成することができる。以下、画像（マップ）に係る複数の特徴量を受け入れて対象識別処理を実施可能な識別器の例を説明する。

図３は、特徴量生成部１１３及び対象識別部１１４における特徴量生成処理及び対象識別処理の一実施例を説明するための模式図である。

図３に示した実施例では、
（ａ）符号化パラメータ特徴量生成部１１３ｂは、符号化マップ対象領域（マッピング情報の一部）を入力とし符号化パラメータ特徴量を出力する、ＤＮＮで構成される第１の畳み込み層部（Convolutional Layers）であるＣＬ１を用いて、符号化パラメータ特徴量を生成し、
（ｂ）画像特徴量生成部１１３ａは、画像対象領域（画像データの一部）を入力とし画像特徴量を出力する、ＤＮＮで構成される第２の畳み込み層部であるＣＬ２を用いて、画像特徴量を生成し、
（ｃ）対象識別部１１４は、ＣＬ１及びＣＬ２からの出力を取りまとめて入力とし、所定の対象のクラスに係る情報（例えば、"クラス"とその確からしさを示すスコア）を出力する、ＤＮＮで構成される全結合層部（Fully-Connected Layers）であるＦＣＬを含む識別器を用いて、対象識別結果（例えば、"クラス"とスコア）を生成している。

ここで、上記（ａ）の符号化マップ対象領域と上記（ｂ）の画像対象領域とは、互いに同期した又は時間的に近傍にあるものが使用されている。特に本実施例では、上記（ａ）の符号化マップ対象領域は時刻Tに係るものであって、上記（ｂ）の画像対象領域は、
時刻T，時刻T+1，時刻T+2，・・・，時刻T+(N-1)
に係るN（Nは2以上の整数）個の画像領域となっている。ここで、時刻T+pは、時刻Tから所定単位時間のp（pは1以上の整数）倍だけ経過した時刻であり、また、この所定単位時間として、画像取得部１１１から取得される時系列画像データにおける隣接する画像フレームの時間間隔、又はその整数倍の時間を設定することができる。

またこのような複数の画像対象領域に対応して、それぞれの時刻の画像対象領域を入力とする、
ＣＬ２-０，ＣＬ２-１，・・・，ＣＬ２-(N-1)
のN個の畳み込み層部が使用されているのである。すなわち本実施例では、画像特徴量は、互いに異なる時点に係る複数の画像対象領域（画像データの一部）のそれぞれを入力とし当該画像対象領域に係る画像特徴量をそれぞれ出力する複数のＣＬ２を用いて生成されるのである。

また、このように複数の時系列の画像対象領域の画像特徴量と、対象の動きや変化を反映した符号化マップ対象領域の符号化パラメータ特徴量とを入力とした上記（ｃ）のＦＣＬは、所定の対象のクラスに係る情報として、当該対象における時間的変化に係る情報を出力する（ように学習させておく）ことができる。この点、本実施例では、所定の対象は自動車であって、出力されたクラスは、"左折する自動車"となっている。

すなわち、本実施例のような特徴量生成処理・識別処理の構成を用いれば、例えば所定の対象として、自動車、二輪車、又は自転車等の移動体を採用し、さらに、当該移動体における時間的変化に係る情報（すなわち識別結果としてのクラス）として、右折、左折、他の移動体との間で生じる接近、他の移動体との間で生じる割り込み、他の移動体との間で生じる追い越し、及び急な横方向の変化のうちの少なくとも１つを設定することもできるのである。また勿論、このような構成を用いれば、当該移動体のように動きを伴う対象だけではなく、形状、向き、姿勢や、色、さらには柄の変化等、自身の状態の変化を伴う対象も、より確実に識別することも可能となるのである。

なお、変更態様として、時刻T〜時刻T+(N-1)に係るN個の画像対象領域に対し、符号化マップ対象領域は、（本実施例のように時刻Tではなく）時刻T+1〜時刻T+(N-1)のうちのいずれか１つの時刻に係るものになるように設定されていてもよい。

さらに、時刻T〜時刻T+(N-1)に係るN個の画像対象領域に対し、符号化マップ対象領域も時刻T〜時刻T+(N-1)に係るN個が使用されることも好ましい。すなわちこの場合、符号化パラメータ特徴量は、互いに異なる時点に係る複数の符号化マップ対象領域（マッピング情報の一部）のそれぞれを入力とし当該符号化マップ対象領域に係る符号化パラメータ特徴量をそれぞれ出力する複数のＣＬ１を用いて生成され、一方、画像特徴量は、互いに異なる時点であって、それぞれ上記の複数の符号化マップ対象領域に係る時点に相当する複数の時点に係る複数の画像対象領域（画像データの一部）のそれぞれを入力とし当該画像対象領域に係る画像特徴量をそれぞれ出力する複数のＣＬ２を用いて生成されるのである。

さらにこの場合、各時刻に係る符号化マップ対象領域及び画像対象領域のN個のペアをそれぞれ、N個の「ＣＬ１及びＣＬ２のセット」へ取り込ませ、それらからの2N個の出力（特徴量）をＦＣＬにまとめて取り込ませて、対象識別処理を行うことも好ましい。

例えば、後に詳細に説明するが、端末２０から、ＧＯＰ（Group Of Pictures）毎に符号化パラメータマップ及び有意映像フレームのペアが受信される場合、これらのペアから、上記の符号化マップ対象領域及び画像対象領域のN個のペアを生成することも可能となる。

また更なる変更態様として、時刻T〜時刻T+(N-1)に係るN個の符号化マップ対象領域に対し、時刻T+1〜時刻T+(N-1)のうちのいずれか１つの時刻に係る画像対象領域を採用することも可能である。さらに勿論、時刻Tに係る１つの符号化マップ対象領域と同じ時刻Tに係る１つの画像対象領域とのペアをもって識別する実施態様も可能である。

ここで、上記（ａ）のＣＬ１及び上記（ｂ）のＣＬ２の具体的構成について説明しておく。これらのＣＬ１及びＣＬ２は、入力された画像（マップ）領域に対しカーネル（重み付け行列フィルタ）をスライドさせて特徴マップを生成する畳み込み処理を実行する。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジや勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。例えばこのようなＣＬ１やＣＬ２として、複数の畳み込み層を用いた公知のAlexNetを用いることが可能である。

このAlexNetでは、各畳み込み層はプーリング層と対になっており、畳み込み処理とプーリング処理とが繰り返される。ここでプーリング処理とは、畳み込み層から出力される特徴マップ（一定領域内の畳み込みフィルタの反応）を最大値や平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。

なお、更なる他の実施態様として、対象識別部１１４は、上記（ａ）のＣＬ１及び上記（ｂ）のＣＬ２の出力側に、判別すべきクラス毎に設けられたサポートベクタマシン（ＳＶＭ）を接続した構成の識別器を用い、これに対し学習を行わせた上で対象識別処理を実施させることも可能である。

いずれにしても、対象識別部１１４で生成された対象識別結果（対象のクラスに係る情報，例えばクラス"左折する自動車"とそのスコア）は、送受信制御部１１６及び通信インタフェース１０１を介し、外部の情報処理装置、例えば端末２０へ送信されることも好ましい。また、クラウドサーバ１内で、所定のアプリケーション・プログラムによって利用されるようにしてもよい。

図１の機能ブロック図に戻って、学習データ・モデル生成部１１５は、対象識別部１１４の識別器を構成する学習モデルを構築するための学習データを生成・管理し、次いで管理している（十分な量の）学習データを用いて、対象識別処理用の学習モデルを生成するのである。ここで、学習データは具体的に、例えば特徴量生成部１１３で生成された画像特徴量及び符号化パラメータ特徴量に対し、元の画像データ（群）についての正解ラベル（例えば"左折する自動車"）を付与することによって生成される。

ここで勿論、複数の対象（例えば自動車、人力移動体や人間等）に対応すべく、学習データ・モデル生成部１１５は当該対象毎の学習データを生成し、さらに、これらの学習データを使用して当該対象毎の学習モデルを生成することも好ましい。この場合、対象識別部１１４は、複数の対象のそれぞれを識別可能な複数の識別器を取得し、各対象についての識別結果を並行して出力することも可能となるのである。

またさらに、学習データ・モデル生成部１１５は、対象識別部１１４の識別器に加えて、特徴量生成部１１３を構成する学習モデルを構築するための学習データを生成・管理し、次いで当該学習データを用いて、特徴量生成用且つ対象識別処理用の学習モデルを生成してもよい。

［画像データ提供クライアントの機能構成］
同じく図１に示した機能ブロック図によれば、端末２０は、通信インタフェース２０１と、カメラ２０２と、ディスプレイ（ＤＰ）２０３と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明に係る画像データ提供プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この画像データ提供プログラムを実行することによって、画像データ提供処理を実施する。

またこのことから、本発明に係る画像データ提供クライアントとして、ドライブレコーダである本端末２０に代えて、本発明に係る画像データ提供プログラムを搭載した他の車載情報処理装置や、さらにはカメラを備えたスマートフォン、ノート型若しくはタブレット型コンピュータ、又はパーソナル・コンピュータ（ＰＣ）等を採用することも可能となる。また、ドライブレコーダとＷｉ-Ｆｉ（登録商標）やBluetooth（登録商標）等で通信接続された端末、例えばスマートフォンを本画像データ提供クライアントとしてもよい。

さらに、プロセッサ・メモリは、映像生成部２１１と、符号化パラメータ抽出部２１２と、符号化マップ生成部２１３と、有意映像ストリーム生成部２１４と、提示情報生成部２１５と、送受信制御部２１６とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された画像データ提供プログラムの機能と捉えることができる。また、図１における端末２０の機能構成部間を矢印で接続して示した処理の流れは、本発明に係る画像データ提供方法の一実施形態としても理解される。

なお本実施形態では、端末２０はこの後説明するように、符号化パラメータマップフレームに同期した符号化フレームによって構成される有意映像ストリーム（図６）を、クラウドサーバ１へ送信することになるが、勿論、通常の圧縮符号化映像ストリームを送信するようにしてもよい。

同じく図１の機能ブロック図において、映像生成部２１１は、カメラ２０２から出力された撮影データに基づいて画像（映像）データを生成する。本実施形態において端末２０はドライブレコーダであり、映像生成部２１１はデフォルトの設定として、少なくとも自動車２の走行時は常に、車外の状況を撮影した撮影データをカメラ２０２から取得し、画像（映像）データを生成し保存している。

また本実施形態において、映像生成部２１１は、ＭＰＥＧ規格におけるＨ．２６４やＨ．２６５といった標準フォーマットによって、生成した画像（映像）データに対し圧縮符号化処理を行い、圧縮符号化映像ストリーム（原画像ストリーム）を生成する。

符号化パラメータ抽出部２１２は、生成された圧縮符号化映像ストリームを簡易的に伸張（デコード）して、ビットストリームを解釈（パース）し、各マクロブロックにおける符号化パラメータを抽出する。ここで、符号化パラメータは、（ａ）順方向予測の動きベクトル、（ｂ）画面内予測の符号量、及び（ｃ）量子化ステップサイズのうちの予め設定された少なくとも１つとすることができる。

次いで、符号化マップ生成部２１３は、抽出されたマクロブロック毎の符号化パラメータに基づき、すでに説明を行った「マッピング情報」として符号化パラメータマップを生成し、クラウドサーバ１へ送信するのである。

符号化マップ生成部２１３は、さらに、好適な１つの実施形態として、符号化パラメータが所定条件を満たすマクロブロック（群）を選別し、当該マクロブロック（群）の画像内位置に係る情報を生成してもよい。この場合、当該情報は、紐づけた符号化パラメータマップとともに、送受信制御部１１６及び通信インタフェース２０１を介し、クラウドサーバ１へ送信されることになる。

具体的には、符号化マップ生成部２１３は、各マクロブロックから抽出された符号化パラメータに基づき、
（ａ）順方向予測の動きベクトルが、所定以上の大きさと、消失点へ向かう基準向きに対し所定以上の角度をなす向きとを有している、
（ｂ）画面内予測の符号量が、所定以上の大きさを有する、及び
（ｃ）量子化ステップサイズが、所定以下の大きさを有する
との３つの条件のうちの１つ、２つ又は全部（いずれを採用するかは予め設定される）が満たされるマクロブロックを選別する。ちなみにこのような条件を満たす符号化パラメータは、おしなべて言えば画像の時間的変動が所定以上に大きいことを示すものとなっている。

ここで、上記の条件（ａ）について、動きベクトルは、２フレーム以上前の１フレームを参照して算出してもよく、直前の１フレームを参照して算出することもでき、また、複数のフレームを参照して算出してもよい。いずれにしても、このような算出の方法に応じて、所定以上の大きさの基準（閾値）が適宜調整されることも好ましい。

また、上記の条件（ｂ）について、画面内予測の符号量は通常、画像内にエッジ（対象の輪郭）が存在すれば大きくなり、画像が平坦な場合には小さくなる。したがって、例えば所定の対象が自動車の場合、特に、自動車と平坦な路面との境界に相当するタイヤ位置付近での符号量が大きくなり、そのあたりのマクロブロックが選別され易くなる。

さらに、上記の条件（ｃ）について、量子化ステップサイズは、適応量子化（adaptive quantization）方式の下、圧縮効率を高めるために、変化の少ない画像領域では小さい値に設定され、一方、変化の大きい領域では、人間の視覚の鈍感さに合わせて大きな値に設定される。したがって、例えば所定の対象が自動車の場合、画像内で急激にその位置を変化させる自動車に係る量子化ステップサイズはより小さく設定され、そのあたりのマクロブロックが選別され易くなるのである。

符号化マップ生成部２１３は、次いで、符号化パラメータが所定条件を満たすことになるマクロブロック（群）の画像内位置に係る情報、例えばマクロブロックアドレスや、マクロブロックの画像内位置座標値を決定し、クラウドサーバ１へ通知するのである。

ここで、このように決定されたマクロブロック（群）の画像内位置情報は、端的に言えば所定以上の急激さをもって変化した画像領域を示すものとなっており、例えば自動車２の周囲に存在する識別・監視すべき対象（例えば他の自動車や歩行者）の画像内位置に係る情報となっている可能性が高いのである。

図４は、符号化マップ生成部２１３におけるマクロブロック選別処理の実施例を説明するための模式図である。

最初に、図４（Ａ）に示した（カメラ２０２によって生成された）原映像フレーム（カメラ画像データ）には、概ね一定の速度で変化している物体が含まれている。また、この原映像フレームにおける各マクロブロックの動きベクトルは、消失点から遠ざかるほど大きくなる傾向にあるが、いずれにしても概ね消失点に向かう向きを有している。したがってこの場合、動きベクトルについて所定条件を満たすマクロブロックは選別されない。

次に、図４（Ｂ）に示した（カメラ２０２によって生成された）原映像フレーム（カメラ画像データ）には、その画像の右下あたりに、急激にその位置を変化させる対象が含まれている。また、この画像の右下あたりのマクロブロックの動きベクトルは、所定以上の大きさを有し、さらに消失点へ向かう向きに対し所定以上の角度をなす向きを有している。その結果、動きベクトルについて、この画像の右下あたりのマクロブロック群が所定条件を満たすものとして選別されることになる。

なお、上述したように選別されたマクロブロック群の位置には、例えば、（カメラ２０２を搭載した自動車２の）前方を走行していて急な車線変更を行ったり、急な減速を行ったりする自動車（移動体）の写っていることが見込まれるのである。

最後に、図４（Ｃ）に示した（カメラ２０２によって生成された）原映像フレーム（カメラ画像データ）には、その画像の右下あたりに、急激にその位置を変化させる対象が含まれている。また、この画像の右下あたりの画面内予測の符号量は、所定以上の大きさを有している。その結果、画面内予測の符号量について、この画像の右下あたりのマクロブロック群が所定条件を満たすものとして選別されることになる。

なお以下に説明する実施形態においては、上述したような所定条件を満たす符号化パラメータをマッピングしたフレーム（符号化パラメータマップのフレーム）は、ＧＯＰ（Group Of Pictures）単位で生成されることになる（後に説明する図６を参照）。

図１の機能ブロック図に戻って、有意映像ストリーム生成部２１４は、符号化パラメータマップのフレームと同期した原映像ストリームのフレームを、時系列にして結合した有意映像ストリームを生成する。ここで本実施形態において、生成された有意映像ストリームは、生成された対応する「マクロブロック位置情報」と紐づけて、送受信制御部２１６及び通信インタフェース２０１を介し、クラウドサーバ１へ送信されることになる。

図５は、有意映像ストリーム生成部２１４における有意映像ストリームを構成するフレームの生成に係る一実施形態を説明するための模式図である。

図５（Ａ）には、原映像フレームにおける所定条件を満たすマクロブロックの分布範囲が示されている。本実施形態において、有意映像ストリーム生成部２１４は、この図６（Ａ）に示されたマクロブロックの分布範囲に対応する部分だけを抽出した原映像フレーム（図５（Ｂ））を生成し、有意映像ストリームを構成するフレームとするのである。これにより、最終的に生成される有意映像ストリームのデータ量を大幅に低減させることも可能となる。

ただし勿論、このような有意部分だけを抽出する処理を行わずに、有意映像ストリームのフレームを生成していってもよい。すなわち、フレーム内における画像領域の決定は、クラウドサーバ１（の対象領域決定部１１２）に全て任せることも好ましい。

図６は、有意映像ストリーム生成部２１４における有意映像ストリーム生成処理の一実施形態を説明するための模式図である。

図６によれば、有意映像ストリーム生成部２１４は、符号化された原映像フレーム群から、ＧＯＰ毎に生成された符号化パラメータマップのフレームに同期したフレームを抽出し、抽出したこれらのフレームを時系列に結合させて有意映像ストリームを生成する。

また、有意映像ストリーム生成部２１４は、同じく図６に示したように、Ｉ（イントラ）フレームの符号量が所定の符号量閾値（例えば1メガビット）以上となる場合、自らに係る自動車２が停止中であると判定して、この時間区間のフレームを、有意映像ストリームの構成フレームから除外する。これにより、有意映像ストリームのデータ量（フレーム数）をより低減させることが可能となる。ここで、判定基準となる所定の符号量閾値は、ＣＢＲ（固定ビットレート）による符号化の場合とＶＢＲ（可変ビットレート）による符号化の場合とで、異なる値に設定されることも好ましい。

ちなみに、Ｉフレームの符号量によって自動車２の走行／停止の判定が可能となるのは以下の理由による。すなわち、例えば原映像ストリームにおいて画像内の対象が一定の速度で変化し、且つ急峻な変化がない場合、画像内に一定の動きは存在するので、順方向予測のマクロブロックが増加する。一方、画面内予測のマクロブロックは減少し、その結果、フレーム全体の符号量は小さくなる傾向となる。例えば毎秒6メガビット程度の固定ビットレートで符号化処理を行うＨ．２６４では、走行中の原映像ストリームにおけるＩフレームの符号量は通常、0.5〜0.8メガビットで推移する。

一方、原映像ストリームにおいて画像内に急峻な変化がある場合、画面内予測のマクロブロックは増加し、一方で、順方向予測のマクロブロックが減少して、結局、フレーム全体の符号量は大きくなる傾向となる。

さらに、原映像ストリームにおいて画像内に動きが存在しない場合、すなわち自動車２が停止中の場合、順方向予測のマクロブロックが減少し、一方で、画面内予測のマクロブロックが増加して、結果的にフレーム全体の符号量が大きくなる傾向となる。例えば停止中で変化のない原映像ストリームでは、Ｉフレームの符号量は1メガビットを超えることになる。このように、Ｉフレームの符号量を観測することによって、走行／停止の判定が可能となるのである。

図１の機能ブロック図に戻って、提示情報生成部２１５は、クラウドサーバ１から配信された対象識別結果を、通信インタフェース２０１及び送受信制御部２１６を介して取得し、端末２０がユーザへ提示するサービス情報の生成に利用してもよい。

例えば提示情報生成部２１５は、当該対象識別結果を、搭載している運転支援プログラムに取り込ませ、ディスプレイ２０３に表示されたカメラ２０２による進行方向のリアルタイムの映像において、突然の車線変更、幅寄せや追い越し等の急な動きを行っている自動車の画像部分を強調表示し、併せてアラームを鳴らしてユーザに警告することも可能となる。

以上詳細に説明したように、本発明によれば、「マッピング情報（例えば符号化パラメータマップ）」に基づき、所定の対象の動きや変化に係る情報を包含し得る「符号化パラメータ特徴量」を、比較的小さい処理負担で予め生成することができる。さらに、所定の対象を識別する際には、識別処理対象である画像データの画素値に係る特徴量である「画像特徴量」だけでなく、この予め生成された「符号化パラメータ特徴量」も用いて対象識別処理を実施することが可能となる。その結果、例えばオプティカルフロー等の処理負担の大きな解析手法に依らずに、より少ない処理負担で、動きや変化を伴う対象を識別することができるのである。

ちなみに、本発明の構成及び方法は、膨大な量の映像データ伝送が可能となる５Ｇ（第５世代移動通信システム）を利用し、膨大な数のクライアントから圧縮符号化された映像ストリームをサーバへアップロードする場面において、サーバにおける画像解析・対象識別処理の効率を向上させ、その負担を軽減すること等、予想される重要課題の解決に大いに貢献するものと考えられる。例えば本発明の実施形態によっては、自動運転車、ドローンや、各種ロボットが撮影した高解像度映像を５Ｇによって収集し、収集した映像を効率良く確実に識別処理して、新サービスの創出・提供につなげることも可能となるのである。

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。

１クラウドサーバ（対象識別装置）
１０１、２０１通信インタフェース
１１１画像取得部
１１２対象領域決定部
１１３特徴量生成部
１１３ａ画像特徴量生成部
１１３ｂ符号化パラメータ特徴量生成部
１１４対象識別部
１１５学習データ・モデル生成部
１１６、２１６送受信制御部
２自動車
２０端末（クライアント）
２０２カメラ
２０３ディスプレイ（ＤＰ）
２１１映像生成部
２１２符号化パラメータ抽出部
２１３符号化マップ生成部
２１４有意映像ストリーム生成部
２１５提示情報生成部

Claims

所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータにおける対象識別方法であって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成するステップと、
生成された当該符号化パラメータ特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別するステップと
を有することを特徴とする対象識別方法。
当該符号化パラメータ特徴量及び当該画像特徴量を生成するステップにおいて、当該符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置を含む画像領域を識別用画像領域として、当該符号化パラメータ特徴量及び当該画像特徴量を、当該識別用画像領域についての特徴量として生成することを特徴とする請求項１に記載の対象識別方法。
当該映像データの符号化はＭＰＥＧ（Moving Picture Experts Group）による符号化であり、当該所定条件を満たす符号化パラメータは、
（ａ）所定以上の大きさと、基準向きに対し所定以上の角度をなす向きとを有する順方向予測の動きベクトル、
（ｂ）所定以上の大きさを有する画面内予測の符号量、及び
（ｃ）所定以下の大きさを有する量子化ステップサイズ
のうちの予め設定された１つ、２つ又は全部であって、当該単位画像区域はマクロブロックであることを特徴とする請求項２に記載の対象識別方法。
当該符号化パラメータ特徴量は、当該マッピング情報を入力とし当該符号化パラメータ特徴量を出力する第１の畳み込み層部（Convolutional Layers）を用いて生成され、当該画像特徴量は、当該画像データを入力とし当該画像特徴量を出力する第２の畳み込み層部を用いて生成され、
当該識別器は、第１の畳み込み層部及び第２の畳み込み層部からの出力を取りまとめて入力とし、当該対象のクラスに係る情報を出力する全結合層部（Fully-Connected Layers）を含む
ことを特徴とする請求項１から３のいずれか１項に記載の対象識別方法。
当該画像特徴量は、互いに異なる時点に係る複数の画像データのそれぞれを入力とし当該画像データに係る画像特徴量をそれぞれ出力する複数の第２の畳み込み層部を用いて生成され、
当該対象のクラスに係る情報は、当該対象における時間的変化に係る情報である
ことを特徴とする請求項４に記載の対象識別方法。
当該符号化パラメータ特徴量は、互いに異なる時点に係る複数のマッピング情報のそれぞれを入力とし当該マッピング情報に係る符号化パラメータ特徴量をそれぞれ出力する複数の第１の畳み込み層部を用いて生成され、
当該画像特徴量は、互いに異なる時点であって、それぞれ前記複数のマッピング情報に係る時点に相当する複数の時点に係る複数の画像データのそれぞれを入力とし当該画像データに係る画像特徴量をそれぞれ出力する複数の第２の畳み込み層部を用いて生成され、
当該対象のクラスに係る情報は、当該対象における時間的変化に係る情報である
ことを特徴とする請求項４に記載の対象識別方法。
当該対象は移動体であり、当該対象における時間的変化に係る情報は、右折、左折、他の移動体との間で生じる接近、他の移動体との間で生じる割り込み、他の移動体との間で生じる追い越し、及び急な横方向の変化のうちの少なくとも１つであることを特徴とする請求項５又は６に記載の対象識別方法。
所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別部を用いて、当該画像データから当該対象を識別する対象識別手段と
を有することを特徴とする対象識別装置。
クライアントで生成された、所定の対象を画像内に含み得る画像データを取得し、当該対象を識別するサーバであって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報であって、前記クライアントから当該画像データとともに取得されたマッピング情報についての特徴量である符号化パラメータ特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別部を用いて、当該画像データから当該対象を識別する対象識別手段と
を有することを特徴とする対象識別サーバ。
所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータを機能させるプログラムであって、
当該画像データを含む映像データを符号化した際に、単位画像区域毎に決定される符号化パラメータを当該単位画像区域にマッピングさせたマッピング情報についての特徴量である符号化パラメータ特徴量と、当該画像データの画素値に係る特徴量である画像特徴量とを生成する特徴量生成手段と、
生成された当該符号化パラメータ特徴量及び当該画像特徴量を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別部を用いて、当該画像データから当該対象を識別する対象識別手段と
してコンピュータを機能させることを特徴とする対象識別プログラム。