JP2019097066A - 動画像圧縮装置及び動画像圧縮方法 - Google Patents

動画像圧縮装置及び動画像圧縮方法 Download PDF

Info

Publication number
JP2019097066A
JP2019097066A JP2017225931A JP2017225931A JP2019097066A JP 2019097066 A JP2019097066 A JP 2019097066A JP 2017225931 A JP2017225931 A JP 2017225931A JP 2017225931 A JP2017225931 A JP 2017225931A JP 2019097066 A JP2019097066 A JP 2019097066A
Authority
JP
Japan
Prior art keywords
stage
layer
outputs
moving image
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017225931A
Other languages
English (en)
Other versions
JP6889653B2 (ja
Inventor
彰夫 石川
Akio Ishikawa
彰夫 石川
菅谷 史昭
Fumiaki Sugaya
史昭 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017225931A priority Critical patent/JP6889653B2/ja
Publication of JP2019097066A publication Critical patent/JP2019097066A/ja
Application granted granted Critical
Publication of JP6889653B2 publication Critical patent/JP6889653B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

【課題】動画像の圧縮率を向上する装置及び方法を提供する。【解決手段】動画像圧縮装置1は、動画像を取得する動画像取得部131と、基準フレーム画像及び特定用フレーム画像のそれぞれに、入力された動画像に基づいて動画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部132と、複数の処理層から選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、一以上の特定用出力と一以上の基準出力とを抽出する抽出部133と、一以上の特定用特徴点を検出し、かつ一以上の基準特徴点を検出する特徴点検出部137と、一以上の特定用特徴点と一以上の基準特徴点とを比較することにより、フレーム画像間で被写体が移動するベクトルを推定するベクトル推定部139と、ベクトル推定部が推定した結果に基づいて、動画像を圧縮した圧縮動画像を生成する圧縮部140と、を有する。【選択図】図3

Description

本発明は、機械学習モデルを用いて動画像を圧縮する動画像圧縮装置及び動画像圧縮方法に関する。
動画像に写っている被写体の動きを予測することにより、動画像を圧縮する装置が知られている。特許文献1には、変形を考慮した被写体の動きを予測することにより、動画像を圧縮する技術が開示されている。
特開2012−080151号公報
MPEG(Moving Picture Experts Group)をはじめとする国際標準化された動画像圧縮符号化方法は、動画像のフレームを所定の単位で分割した矩形ブロックの単位で被写体の動きを予測して動き補償を行っている。この場合、被写体が変形すると予測誤差が大きくなり、動画像の圧縮率が低下してしまうという問題が生じる。予測誤差は、基準となるフレーム画像に動き予測を適用した画像と、動き補償の対象であるフレーム画像との差分である。従来の技術を用いることにより、ブロックごとに算出された幾何変換(例えば、アフィン変換及び共一次変換等)のパラメータに基づいて、変形を考慮したブロックの動きを予測することができる。しかし、一般的に被写体の変形は不規則であるため、幾何変換を用いた動き補償では近似にしかならない。また、異なるフレーム画像に写っている異なる被写体を、対応する被写体であると誤検出する可能性がある。その結果、予測誤差が大きくなり、動画像の圧縮率が低下してしまう。
そこで、本発明はこれらの点に鑑みてなされたものであり、動画像の圧縮率を向上させることができる動画像圧縮装置及び動画像圧縮方法を提供することを目的とする。
本発明の第1の態様に係る動画像圧縮装置は、撮像装置で生成された動画像を取得する動画像取得部と、前記動画像に含まれるフレーム画像である基準フレーム画像及び前記動画像に含まれる前記基準フレーム画像以外のフレーム画像である特定用フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記特定用フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の特定用出力と前記基準フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の基準出力とを抽出する抽出部と、前記一以上の特定用出力に基づいて一以上の特定用特徴点を検出し、かつ前記一以上の基準出力に基づいて一以上の基準特徴点を検出する特徴点検出部と、前記一以上の特定用特徴点と前記一以上の基準特徴点とを比較することにより、前記フレーム画像間で被写体が移動するベクトルを推定するベクトル推定部と、前記ベクトル推定部が推定した結果に基づいて、前記動画像を圧縮した圧縮動画像を生成する圧縮部と、を有する。
前記抽出部は、前記特定用フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段特定用出力、及び前記基準フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段基準出力から、共通に活性化している一以上の後段特定用出力及び一以上の後段基準出力を抽出する後段抽出部と、前記一以上の後段特定用出力及び前記一以上の後段基準出力を活性化させる要因となった前記前段処理層から出力された複数の前段特定用出力、及び前記前段処理層から出力された複数の前段基準出力のうち、共通に活性化している一以上の前段特定用出力及び一以上の前段基準出力を抽出する前段抽出部と、を有してもよい。
前記前段抽出部は、前記複数の前段特定用出力及び前記複数の前段基準出力のうち、活性化している大きさに基づいて、前記一以上の前段特定用出力及び前記一以上の前段基準出力を抽出してもよい。
前記機械学習モデルは、畳み込みニューラルネットワークを含み、前記後段処理層は、出力層、全結合層、正規化層、プーリング層、及び畳み込み層のうちのいずれかの層であってもよい。
前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層であってもよい。
前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の特定用出力及び前記一以上の基準出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の特定用出力及び前記一以上の基準出力を抽出してもよい。
前記動画像圧縮装置は、前記特徴点検出部が特定した前記一以上の特定用特徴点及び前記一以上の基準特徴点から、相互の対応関係に基づいて一部の特定用特徴点及び一部の基準特徴点を選択する選択部をさらに有し、前記ベクトル推定部は、前記一部の特定用特徴点と前記一部の基準特徴点とを比較することにより、前記被写体が移動するベクトルを推定してもよい。
前記選択部は、前記ベクトル推定部が、前記被写体に含まれる前記一部の特定用特徴点それぞれが移動するベクトルを推定した場合において、一の特定用特徴点と当該一の特定用特徴点の周囲にある特定用特徴点との移動するベクトルが所定の範囲を超える場合に、前記一の特定用特徴点及び前記一の特定用特徴点に対応する基準特徴点を、前記一部の特定用特徴点及び前記一部の基準特徴点から除去してもよい。
前記ベクトル推定部は、前記特定用フレーム画像における前記一部の特定用特徴点の位置と、前記基準フレーム画像における前記一部の基準特徴点の位置との関係に基づいて、前記ベクトルを推定してもよい。
前記動画像圧縮装置は、前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用してもよい。
前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の特定用出力及び前記一以上の基準出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の特定用出力及び前記一以上の基準出力を抽出してもよい。
本発明の第2の態様に係る動画像圧縮方法は、撮像装置で生成された動画像を取得するステップと、前記動画像に含まれるフレーム画像である基準フレーム画像及び前記動画像に含まれる前記基準フレーム画像以外のフレーム画像である特定用フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記特定用フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の特定用出力と前記基準フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の基準出力とを抽出するステップと、前記一以上の特定用出力に基づいて一以上の特定用特徴点を検出し、かつ前記一以上の基準出力に基づいて一以上の基準特徴点を検出するステップと、前記一以上の特定用特徴点と前記一以上の基準特徴点とを比較することにより、前記フレーム画像間で被写体が移動するベクトルを推定するステップと、前記被写体が移動するベクトルを推定するステップにおいて推定した結果に基づいて、前記動画像を圧縮した圧縮動画像を生成するステップと、を有する。
前記抽出するステップは、前記特定用フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段特定用出力、及び前記基準フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段基準出力から、共通に活性化している一以上の後段特定用出力及び一以上の後段基準出力を抽出する前段抽出ステップと、前記一以上の後段特定用出力及び前記一以上の後段基準出力を活性化させる要因となった前記前段処理層から出力された複数の前段特定用出力、及び前記前段処理層から出力された複数の前段基準出力のうち、共通に活性化している一以上の前段特定用出力及び一以上の前段基準出力を抽出する後段抽出ステップと、を有してもよい。
前記動画像圧縮方法は、前記前段抽出ステップを実行した後に、前記一以上の前段特定用出力及び前記一以上の前段基準出力を、前記複数の後段特定用出力及び前記複数の後段基準出力として、前記後段抽出ステップを実行してもよい。
前記動画像圧縮方法は、前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行してもよい。
本発明によれば、動画像の圧縮率を向上させることができるという効果を奏する。
動画像を圧縮する処理の概要を説明するための図である。 機械学習モデルの構成の一例を示す図である。 動画像圧縮装置の構成を示す図である。 抽出部が行う抽出処理について説明するための図である。 抽出部が行う抽出処理について説明するための図である。 抽出部が行う抽出処理について説明するための図である。 抽出部が行う抽出処理について説明するための図である。 抽出部が行う抽出処理について説明するための図である。 抽出部が行う抽出処理について説明するための図である。 動画像圧縮装置が行う処理の流れを示すフローチャートである。 抽出部が行う処理の流れを示すフローチャートである。
[動画像圧縮装置1の概要]
図1は、動画像を圧縮する処理の概要を説明するための図である。動画像圧縮装置1は、例えばPC(Personal Computer)である。動画像圧縮装置1は、機械学習モデルMを用いて基準フレーム画像に基づいて、特定用フレーム画像に写っている被写体が移動するベクトルを推定することにより、動画像を圧縮する装置である。基準フレーム画像は、動画像に含まれる複数のフレーム画像から選択された一のフレーム画像である。特定用フレーム画像は、基準フレーム画像以外のフレーム画像であって、基準フレーム画像の前後にある一以上のフレーム画像である。ベクトルは、基準フレーム画像に基づいて、被写体が移動する向き及び移動量を示す動きベクトルである。
動画像圧縮装置1は、撮像装置で生成された動画像を取得する(図1の(1))。撮像装置は、動画像を撮像することができるカメラ又はスマートフォン等である。図1に示す動画像Aは、被写体Tとする人が左側から右側に走る様子を写した画像である。図1に示す動画像Aに含まれる1フレーム目のフレーム画像A1を基準フレーム画像とし、2フレーム目から5フレーム目までのフレーム画像A2、A3、A4、A5を特定用フレーム画像とする。
動画像圧縮装置1は、取得した動画像Aを機械学習モデルMに入力し、当該機械学習モデルMに含まれる複数の処理層を伝搬させる(図1の(2))。機械学習モデルMは、入力された動画像に基づいて当該動画像に含まれる被写体の種別を出力するように学習されたモデルである。具体的には、機械学習モデルMは、入力された動画像に基づいて、当該動画像のフレーム画像それぞれに写っている被写体の種別をフレーム画像ごとに出力する。
図2は、機械学習モデルMの構成の一例を示す図である。機械学習モデルMは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を含む。この場合において、機械学習モデルMは、入力層M1、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、第2の全結合層M9、及び出力層M10を有する。本明細書においては、隣接する2つの処理層のうち、特定用フレーム画像及び基準フレーム画像が伝搬する際の上流側の処理層を前段処理層と称し、下流側の処理層を後段処理層と称する。
後段処理層となり得る処理層は、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、第2の全結合層M9、及び出力層M10のうちのいずれかの層である。また、前段処理層となり得る処理層は、入力層M1、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、及び第2の全結合層M9のうちのいずれかの層である。動画像圧縮装置1は、取得した動画像を機械学習モデルMに入力し、入力層M1から出力層M10までの各処理層を順伝搬させる、すなわち、推論させることにより、動画像に写っている被写体Tの種別を出力させる。
図1に戻り、動画像圧縮装置1は、機械学習モデルMが被写体Tの種別(例えば、人間、男性又は女性等)を出力するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、特定用フレーム画像及び基準フレーム画像に共通する特徴点を検出する(図1の(3))。動画像圧縮装置1は、動画像Aに含まれる複数のフレーム画像のうち、少なくとも種別が同一である被写体が連続して写っているフレーム画像群を、特定用フレーム画像及び基準フレーム画像として選択する。ここで、動画像圧縮装置1は、共通する特徴点の検出を、各フレーム画像を順伝搬させた順序とは逆の順序で行う。このようにすることで、動画像圧縮装置1は、抽象度が高い特徴量に基づく特徴点を検出することができる。
動画像圧縮装置1は、共通する特徴点(例えば、顔、体、手足等に含まれる特徴点)を検出することにより、特定用フレーム画像に写っている被写体Tに含まれる特徴点及び基準フレーム画像に写っている被写体Tに含まれる特徴点に対応関係があることを検出する。対応関係は、特徴点が示す特定用フレーム画像に含まれる画素と、特徴点が示す基準フレーム画像に含まれる画素とが一致又は近似した関係である。
動画像圧縮装置1は、検出した対応関係にある特定用フレーム画像及び基準フレーム画像それぞれの特徴点を比較することにより、フレーム画像間における被写体Tの動きベクトルを推定する(図1の(4))。そして、動画像圧縮装置1は、推定した被写体Tの動きベクトルに基づいて特定フレーム画像に対する動き補償を行うことにより、動画像Aを圧縮する(図1の(5))。このようにすることで、動画像圧縮装置1は、動画像の圧縮率を向上させることができる。
以下、動画像圧縮装置1の詳細について説明する。
[動画像圧縮装置1の構成]
図3は、動画像圧縮装置1の構成を示す図である。動画像圧縮装置1は、操作部11、記憶部12、及び制御部13を有する。
操作部11は、ユーザの操作を受け付ける入力デバイスである。
記憶部12は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体である。記憶部12は、制御部13が実行する各種のプログラムを記憶する。記憶部12は、動画像を記憶する。
制御部13は、例えばCPU(Central Processing Unit)である。制御部13は、記憶部12に記憶されているプログラムを実行することにより、動画像圧縮装置1に係る機能を制御する。制御部13は、プログラムを実行することにより、動画像取得部131、伝搬制御部132、抽出部133、指示受付部136、特徴点検出部137、選択部138、ベクトル推定部139、及び圧縮部140として機能する。
動画像取得部131は、記憶部12に記憶されている撮像装置で生成された動画像を取得する。動画像取得部131は、取得した動画像を、伝搬制御部132に入力する。
伝搬制御部132は、動画像取得部131から入力された動画像に含まれる特定用フレーム画像及び基準フレーム画像のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。図2に示す例において、伝搬制御部132は、まず、動画像に含まれる複数のフレーム画像それぞれに、機械学習モデルMに含まれる入力層M1から出力層M10までの各処理層を、順に伝搬させる。そして、伝搬制御部132は、機械学習モデルMから出力されたフレーム画像ごとの被写体の種別に基づいて、特定用フレーム画像及び基準フレーム画像を選択する。伝搬制御部132は、例えば、動画像に含まれる複数のフレーム画像のうち、種別が同一である被写体が連続して写っているフレーム画像群を、特定用フレーム画像及び基準フレーム画像として選択する。伝搬制御部132は、選択した特定用フレーム画像及び基準フレーム画像を示す情報を抽出部133に入力する。
抽出部133は、複数の処理層から選択した後段処理層、及び後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、特定用フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の特定用出力と基準フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の基準出力とを抽出する。抽出部133が行う抽出処理の詳細については後述するが、抽出部133は、後段処理層で共通に活性化している特定用出力の一部である後段特定用出力及び基準出力の一部である後段基準出力を抽出する後段抽出部134と、前段処理層で共通に活性化している特定用出力の一部である前段特定用出力及び基準出力の一部である前段基準出力を抽出する前段抽出部135とを有する。
抽出部133が抽出する特定用出力及び基準出力は、処理層に含まれる複数のユニットのうち、活性化しているユニットを示す情報である。ユニットは、フレーム画像に含まれる一以上の画素である。活性化の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。チャンネルは、フィルタ毎に畳み込み演算した出力である。
抽出部133は、複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択することが好ましい。しかし、最後尾層において共通に活性化している特定用出力及び基準出力がない場合がある。そこで、抽出部133は、複数の処理層のうち、最後尾層を後段処理層として選択した場合において、最後尾層において共通に活性化している一以上の特定用出力及び一以上の基準出力がない場合、最後尾層より前の処理層において共通に活性化している一以上の特定用出力及び一以上の基準出力を抽出してもよい。
例えば、抽出部133が、最後尾層である出力層M10を後段処理層として選択した場合において、出力層M10において共通に活性化している一以上の特定用出力及び一以上の基準出力がないとする。この場合において、抽出部133は、出力層M10より前の各処理層に対して、共通に活性化している一以上の特定用出力及び一以上の基準出力を繰り返し探索する。抽出部133は、例えば、出力層M10の直前の処理層である第2の全結合層M9において共通に活性化している一以上の特定用出力及び一以上の基準出力があった場合、第2の全結合層M9を後段処理層として選択する。そして、抽出部133は、後段処理層として選択した第2の全結合層M9において共通に活性化している一以上の特定用出力及び一以上の基準出力を抽出する。このようにすることで、抽出部133は、特定用フレーム画像と基準フレーム画像とで一致する領域が少ない場合であっても、それぞれに写る被写体を対応付けることができる。
抽出部133は、ユーザによって指定された処理層を後段処理層として選択してもよい。具体的には、指示受付部136が、操作部11を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付ける。そして、抽出部133は、指示受付部136が受け付けた指示が示す処理層を、後段処理層として使用する。抽出部133は、図2に示す例において、ユーザが第2の全結合層M9を選択した場合に、指示受付部136が受け付けた指示が示す第2の全結合層M9を、後段処理層として使用する。抽出部133は、抽出した特定用出力と基準出力とを特徴点検出部137に入力する。
特徴点検出部137は、一以上の特定用出力に基づいて一以上の特定用特徴点を検出し、かつ一以上の基準出力に基づいて一以上の基準特徴点を検出する。具体的には、特徴点検出部137は、まず、一以上の特定用出力及び一以上の基準出力に基づいて、対応する特徴点を探索する。そして、特徴点検出部137は、対応関係にある一以上の特定用出力に基づく一以上の特定用特徴点と、一以上の基準出力に基づく一以上の基準特徴点とを検出する。特徴点検出部137は、検出した特定用特徴点及び基準特徴点を選択部138に入力する。
選択部138は、特徴点検出部137が特定した一以上の特定用特徴点及び一以上の基準特徴点から、相互の対応関係に基づいて一部の特定用特徴点及び一部の基準特徴点を選択する。具体的には、選択部138は、誤検出した対応関係を除去し、除去した後の対応関係に基づく一以上の特定用特徴点及び一以上の基準特徴点を選択する。対応関係の誤検出は、特定用特徴点及び基準特徴点の対応関係に矛盾が生じている状態であり、例えば幾何変換の変換式が算出できない場合である。選択部138は、例えば、RANSAC(Random Sampling Consensus)法又は最小2乗メディアン(LMedS:Least Median of Square)法に基づいて絞り込みを行うことにより対応関係を除去する。
選択部138は、ベクトル推定部139が、被写体に含まれる一部の特定用特徴点それぞれが移動するベクトルを推定した場合において、一の特定用特徴点と当該一の特定用特徴点の周囲にある特定用特徴点との移動するベクトルが所定の範囲を超える場合に、一の特定用特徴点及び一の特定用特徴点に対応する基準特徴点を、一部の特定用特徴点及び一部の基準特徴点から除去してもよい。例えば、中央に位置する一の基準特徴点と対応関係にある一の特定用特徴点の動きベクトルが、当該一の基準特徴点の周囲にある複数の基準特徴点と対応関係にある複数の特定用特徴点それぞれの動きベクトルと一致又は近似していないとする。この場合において、選択部138は、一の特定用特徴点の動きベクトルが所定の範囲を超えていると判定し、一の特定用特徴点及び一の特定用特徴点に対応する基準特徴点を除去する。このようにすることで、選択部138は、対応関係の誤検出によって予測誤差が大きくなることを抑えることができる。
ベクトル推定部139は、一以上の特定用特徴点と一以上の基準特徴点とを比較することにより、フレーム画像間で被写体が移動するベクトルを推定する。具体的には、ベクトル推定部139は、選択部138が誤検出を除去した後の対応関係に基づく一部の特定用特徴点と一部の基準特徴点とを比較することにより、被写体が移動するベクトルを推定する。ベクトル推定部139は、例えば、隣接する複数の対応関係にある特定用特徴点及び基準特徴点に基づいて、特定用フレーム画像に写っている被写体に含まれる画素の座標から基準フレーム画像に写っている被写体に含まれる画素の座標への幾何変換を算出することにより被写体の動きベクトルを推定してもよい。動きベクトルの計算方法は、公知の技術を使用できる。
ベクトル推定部139は、特定用フレーム画像における一部の特定用特徴点の位置と、基準フレーム画像における一部の基準特徴点の位置との関係に基づいて、ベクトルを推定してもよい。例えば、動きベクトルを推定した複数の推定済み特定用特徴点と、動きベクトルを推定していない未推定特定用特徴点とがあるとする。また、複数の推定済み特定用特徴点と対応関係にある基準特徴点それぞれと、未推定特定用特徴点と対応関係にある基準特徴点とが基準フレーム画像において隣接しているとする。この場合において、ベクトル推定部139は、複数の推定済み特定用特徴点に隣接するように、未推定特定用特徴点の動きベクトルを推定する。このようにすることで、ベクトル推定部139は、対応関係の誤検出を未然に防ぎ、予測誤差が大きくなることを抑えることができる。ベクトル推定部139は、推定した動きベクトルを圧縮部140に入力する。
圧縮部140は、ベクトル推定部139が推定した結果に基づいて、動画像を圧縮した圧縮動画像を生成する。具体的には、圧縮部140は、まず、ベクトル推定部139から入力された動きベクトルを基準フレーム画像に適用させた予測画像と、動きベクトルの対象である特定フレーム画像との差分である差分画像を生成する。そして、圧縮部140は、基準フレーム画像、動きベクトル、及び差分画像に基づいて、圧縮動画像を生成する。圧縮部140は、生成した圧縮動画像を記憶部12に記憶させる。
[抽出処理]
続いて、抽出部133が行う抽出処理について説明する。上述のとおり、抽出部133は、後段抽出部134及び前段抽出部135を有する。後段抽出部134は、特定用フレーム画像が複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段特定用出力、及び基準フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段基準出力から、共通に活性化している一以上の後段特定用出力及び一以上の後段基準出力を抽出する。
前段抽出部135は、一以上の後段特定用出力及び一以上の後段基準出力を活性化させる要因となった前段処理層から出力された複数の前段特定用出力、及び前段処理層から出力された複数の前段基準出力のうち、共通に活性化している一以上の前段特定用出力及び一以上の前段基準出力を抽出する。
図4から図9は、抽出部133が行う抽出処理について説明するための図である。図4から図9においては、説明の便宜上、特定用フレーム画像が1つであるとして説明する。図4から図9は、前段処理層から後段処理層に伝搬させた状態を示している。図4から図9において、実線で示すユニットを結合する結合線は、結合するユニットから出力があったことを示し、破線で示す結合線は、結合するユニットから出力が無かったことを示す。また、結合線を示す線の太さは、結合するユニットからの出力の大きさを示す。
図4の場合において、後段処理層は、最後尾層(例えば、出力層又は全結合層等)又は抽出部133が選択した最後尾層より前の処理層(全結合層又はプーリング層等)であり、前段処理層は、後段処理層の直前の処理層(例えば、全結合層又はプーリング層等)である。図4においては、後段処理層が出力層M20であり、前段処理層が全結合層M19であるとして説明する。
図4(a)は、抽出前の状態であり、図4(b)は抽出後の状態である。特定用フレーム画像において、出力層M20は、ユニットU5、U8が活性化しており、全結合層M19は、ユニットU2、U5、U6、U7、U8が活性化している。基準フレーム画像において、出力層M20は、ユニットU3、U5が活性化しており、全結合層M19は、ユニットU2、U4、U5、U8が活性化している。
この場合において、後段抽出部134は、後段処理層である出力層M20から出力された後段特定用出力であるユニットU5、U8、及び出力層M20から出力された後段基準出力であるユニットU3、U5を比較する。そして、後段抽出部134は、共通に活性化している後段特定用出力のユニットU5及び後段基準出力のユニットU5を抽出する。
続いて、前段抽出部135は、後段特定用出力のユニットU5を活性化させる要因となった前段処理層である全結合層M19から出力された前段特定用出力であるユニットU2、U5、U6、及び後段基準出力のユニットU5を活性化させる要因となった全結合層M19から出力された前段基準出力であるユニットU2、U5、U8を比較する。そして、前段抽出部135は、共通に活性化している前段特定用出力のユニットU2、U5、及び前段基準出力のユニットU2、U5を抽出する。
抽出部133は、出力層M20から全結合層M19までの出力を抽出すると、次の処理層に対する出力を抽出する。具体的には、抽出部133は、処理層ごとに、共通に活性化している特定用出力及び基準出力を抽出する処理を、伝搬制御部132が伝搬させた順序とは逆の順序で繰り返し行う。より具体的には、抽出部133は、複数の処理層のうち一つの層を後段処理層として選択して一以上の特定用出力及び一以上の基準出力を抽出した後に、前段処理層として選択した処理層を後段処理層として選択して、別の一以上の特定用出力及び一以上の基準出力を抽出する。このようにすることで、抽出部133は、特定用フレーム画像及び基準フレーム画像に対する比較の精度を高めることができる。
図5は、特定用フレーム画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図6は、基準フレーム画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図5及び図6の場合において、後段処理層は、全結合層M18であり、前段処理層は、全結合層以外の処理層(例えば、プーリング層又は畳み込み層等)である。図5及び図6においては、前段処理層がプーリング層M17であるとして説明する。また、図5及び図6において、前段処理層は、3つのチャンネルを有する。上段の第1チャンネルは、ユニットU11、U12、U13、U14、及びU15を含む。中段の第2チャンネルは、ユニットU21、U22、U23、U24、及びU25を含む。下段の第3チャンネルは、ユニットU31、U32、U33、U34、及びU35を含む。
特定用フレーム画像において、プーリング層M17は、第1チャンネルに含まれるユニットU13及び第2チャンネルに含まれるユニットU21、U24が活性化している。基準フレーム画像において、全結合層M18は、第2チャンネルに含まれるユニットU22、U24、U25及び第3チャンネルに含まれるユニットU32、U33が活性化している。
前段抽出部135は、後段特定用出力のユニットU5を活性化させる要因となった前段処理層であるプーリング層M17から出力された前段特定用出力、及び後段基準出力のユニットU5を活性化させる要因となったプーリング層M17から出力された前段基準出力を比較する。前段抽出部135は、活性化しているユニットの有無を調べ、活性化している前段特定用出力の第1チャンネルに含まれるユニットU13及び第2チャンネルに含まれるU21、U24と、前段基準出力の第2チャンネルに含まれるユニットU22、U24、U25及び第3チャンネルに含まれるU32、U33とに着目する。
そして、前段抽出部135は、前段特定用出力と前段基準出力との両方において活性化しているユニットが存在しているチャンネルが第2チャンネルであることから、前段特定用出力の第2チャンネルに含まれるユニットU21、U24及び前段基準出力の第2チャンネルに含まれるユニットU22、U24、U25を抽出する。
図7の場合において、後段処理層は、プーリング層M16であり、前段処理層は、プーリング層以外の処理層(例えば、畳み込み層又は正規化層等)である。図7においては、前段処理層が畳み込み層M15であるとして説明する。また、図7において、前段処理層は、チャンネルが1つであるとして説明する。特定用フレーム画像において、プーリング層M16は、ユニットU5が活性化しており、畳み込み層M15は、ユニットU3、U5が活性化している。基準フレーム画像において、プーリング層M16は、ユニットU3が活性化しており、畳み込み層M15は、ユニットU3、U4が活性化している。
ここで、抽出部133は、画像の圧縮を行うプーリング層においては、直前の処理層からプーリング層に結合している複数のユニットのうち、チャンネルごとに活性化している程度に基づいて出力を抽出する。具体的には、前段抽出部135は、複数の前段特定用出力及び複数の前段基準出力のうち、活性化している大きさに基づいて、一以上の前段特定用出力及び一以上の前段基準出力を抽出する。前段抽出部135は、例えば、複数の前段特定用出力及び複数の前段基準出力のうち、チャンネルごとに最も大きく活性化している一以上の前段特定用出力及び一以上の前段基準出力を抽出する。
この場合において、後段抽出部134は、直前の抽出処理において前段処理層として選択したプーリング層M16を選択して、プーリング層M16から出力された後段特定用出力のユニットU5、及びプーリング層M16から出力された後段基準出力のユニットU3を抽出する。そして、前段抽出部135は、後段特定用出力のユニットU3、U5及び後段基準出力のユニットU3、U4のうち、チャンネルごとに最も大きく活性化している前段特定用出力のユニットU5、及び前段基準出力のユニットU4を抽出する。このようにすることで、前段抽出部135は、画像の中で特徴となる領域を特定することができる。
図8の場合において、後段処理層は、畳み込み層M14であり、前段処理層は、畳み込み層を含む他の処理層(例えば、正規化層又はプーリング層等)である。図8においては、前段処理層が正規化層M13であるとして説明する。また、図8において、前段処理層は、チャンネルが1つであるとして説明する。特定用フレーム画像において、畳み込み層M14は、ユニットU5が活性化しており、正規化層M13は、ユニットU3、U5、U6が活性化している。基準フレーム画像において、畳み込み層M14は、ユニットU3が活性化しており、正規化層M13は、ユニットU3、U4、U5が活性化している。
この場合において、後段抽出部134は、直前の抽出処理において前段処理層として選択した畳み込み層M14を選択して、畳み込み層M14から出力された後段特定用出力のユニットU5、及び畳み込み層M14から出力された後段基準出力のユニットU3を抽出する。
続いて、前段抽出部135は、後段特定用出力のユニットU5を活性化させる要因となった前段処理層である正規化層M13から出力された前段特定用出力、及び後段基準出力のユニットU4を活性化させる要因となった前段処理層である正規化層M13から出力された前段基準出力を比較する。ここで、前段抽出部135は、後段処理層が畳み込み層である場合、後段抽出部134が後段処理層から抽出したユニットに結合する前段処理層の複数のユニットのうち、前段特定用出力と前段基準出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットを抽出する。この場合、前段抽出部135は、前段特定用出力と前段基準出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットとして、前段特定用出力のユニットU5、U6、及び前段基準出力のユニットU3、U4を抽出する。
図9の場合において、後段処理層は、正規化層M12であり、前段処理層は、正規化層以外の処理層(例えば、畳み込み層又はプーリング層等)である。図9においては、前段処理層がプーリング層M11であるとして説明する。また、図9において、前段処理層は、チャンネルが1つであるとして説明する。特定用フレーム画像において、正規化層M12は、ユニットU5が活性化している。基準フレーム画像において、正規化層M12は、ユニットU3が活性化している。
ここで、抽出部133は、画像に対して前処理を行う正規化層においては、後段処理層において活性化しているユニットに結合している前段処理層に含まれる複数のユニットのうち、中心のユニットを抽出する。この場合において、後段抽出部134は、後段処理層として選択した正規化層M12から出力された後段特定用出力のユニットU5、及び正規化層M12から出力された後段基準出力のユニットU3を抽出する。
そして、前段抽出部135は、正規化層M5から出力された後段特定用出力のユニットU5に結合しているプーリング層M11のユニットのうち、中心のユニットU5を抽出する。同様に、前段抽出部135は、正規化層M12から出力された後段基準出力のユニットU3に結合しているプーリング層M11のユニットのうち、中心のユニットU3を抽出する。
抽出部133は、上述の抽出処理を入力層まで繰り返し行うことが好ましい。しかし、抽出部133は、抽出処理を最初の処理層まで行わずに、途中の処理層(例えば、プーリング層又は正規化層等)で終了してもよい。このように、抽出部133は、伝搬制御部132が伝搬させた順序とは逆の順序で抽出処理を行うことにより、抽象度が高い出力を抽出することができる。
[動画像圧縮装置1の処理]
続いて、動画像圧縮装置1が行う処理の流れを説明する。図10は、動画像圧縮装置1が行う処理の流れを示すフローチャートである。本フローチャートは、動画像圧縮装置1が、記憶部12に動画像が格納され、ユーザによる動画像を圧縮する処理を実行する操作を受け付けたことを契機として開始する。
動画像取得部131は、記憶部12に記憶されている動画像を取得する(S1)。動画像取得部131は、取得した動画像を伝搬制御部132に入力する。伝搬制御部132は、動画像取得部131から入力された動画像に含まれるフレーム画像である特定用フレーム画像及び基準フレーム画像のそれぞれに、機械学習モデルMに含まれる入力層M1から出力層M10までの複数の処理層を、入力層M1から順に伝搬させる(S2)。
抽出部133は、後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の特定用出力及び一以上の基準出力を抽出する処理を行う(S3)。図11は、抽出部133が行う処理の流れを示すフローチャートである。抽出部133は、指示受付部136が、操作部11を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付けたか否かを判定する(S31)。
抽出部133は、指示受付部136が指示を受け付けたと判定した場合、指示受付部136が受け付けた指示が示す処理層を、後段処理層として選択する(S32)。抽出部133は、例えば、指示受付部136が第1の全結合層M8を示す指示を受け付けたと判定した場合、指示受付部136が受け付けた指示が示す第1の全結合層M8を、後段処理層として使用する。一方、抽出部133は、指示受付部136が指示を受け付けていないと判定した場合、最後尾層(例えば、出力層M10)で共通に活性化している一以上の特定用出力及び一以上の基準出力があるか否かを判定する(S33)。
抽出部133は、出力層M10で共通に活性化している一以上の特定用出力及び一以上の基準出力があると判定した場合、最後尾層である出力層M10を、後段処理層として使用する(S34)。一方、抽出部133は、出力層M10で共通に活性化している一以上の特定用出力及び一以上の基準出力がないと判定した場合、出力層M10より前の各処理層に対して、共通に活性化している一以上の特定用出力及び一以上の基準出力を繰り返し探索する。そして、抽出部133は、共通に活性化している一以上の特定用出力及び一以上の基準出力がある処理層(例えば、第2の全結合層M9)を、後段処理層として使用する(S35)。抽出部133は、選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、特定用フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の特定用出力と基準フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の基準出力とを抽出する。
具体的には、まず、後段抽出部134は、選択した後段処理層から出力された複数の後段特定用出力、及び選択した後段処理層から出力された複数の後段基準出力から、共通に活性化している一以上の後段特定用出力及び一以上の後段基準出力を抽出する(S36)。そして、前段抽出部135は、後段抽出部134が抽出した一以上の後段特定用出力及び一以上の後段基準出力を活性化させる要因となった前段処理層から出力された複数の前段特定用出力、及び前段処理層から出力された複数の前段基準出力のうち、共通に活性化している一以上の前段特定用出力及び一以上の前段基準出力を抽出する(S37)。
続いて、抽出部133は、前段処理層より前に別の処理層があるか否かを判定する(S38)。抽出部133は、前段処理層(例えば、第2のプーリング層M7)より前に別の処理層(例えば、第3の畳み込み層M6)があると判定した場合、第2のプーリング層M7を後段処理層として選択し(S39)、処理をS36に戻す。一方、抽出部133は、前段処理層(例えば、入力層M1)より前に別の処理層がないと判定した場合、抽出した一以上の特定用出力及び一以上の基準出力を特徴点検出部137に入力し、抽出処理を終了する。
図10に戻り、特徴点検出部137は、一以上の特定用出力及び一以上の基準出力に基づいて、対応する特徴点を探索し、対応関係にある一以上の特定用出力に基づく一以上の特定用特徴点と、一以上の基準出力に基づく一以上の基準特徴点とを検出する(S4)。続いて、選択部138は、特徴点検出部137が検出した特定用特徴点及び基準特徴点に不適切な特徴点があるか否かを判定する(S5)。選択部138は、例えば、RANSAC法に基づいて絞り込みを行う。
選択部138は、特定用特徴点及び基準特徴点に不適切な特徴点があると判定した場合、不適切な特徴点、すなわち、誤検出した対応関係にある特定用特徴点及び基準特徴点を除去し(S6)、除去した後の対応関係に基づく一部の特定用特徴点及び一部の基準特徴点を選択する。ベクトル推定部139は、選択部138が、特定用特徴点及び基準特徴点に不適切な特徴点がないと判定した場合、又は誤検出した対応関係を除去した後に、一以上の特定用特徴点と一以上の基準特徴点とを比較することにより、フレーム画像間で被写体が移動するベクトルを推定する(S7)。
そして、圧縮部140は、ベクトル推定部139が推定した結果に基づいて、動画像を圧縮した圧縮動画像を生成する(S8)。具体的には、圧縮部140は、差分画像を生成し、基準フレーム画像、動きベクトル、及び生成した差分画像に基づいて、圧縮動画像を生成する。圧縮部140は、生成した圧縮動画像を記憶部12に記憶させる。
[実施形態における効果]
以上説明したとおり、動画像圧縮装置1は、取得した動画像に含まれる特定用フレーム画像及び基準フレーム画像のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。動画像圧縮装置1は、伝搬させた順とは逆の順序で後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の特定用出力及び一以上の基準出力を、処理層ごとに抽出し、対応関係にある特定用特徴点及び基準特徴点をそれぞれ検出する。そして、動画像圧縮装置1は、誤検出した対応関係を除去した一以上の特定用特徴点と一以上の基準特徴点とを比較することにより、被写体の動きベクトルを推定し、推定した動きベクトルに基づいて、動画像を圧縮した圧縮動画像を生成する。
このようにすることで、動画像圧縮装置1は、畳み込みニューラルネットワークを含む機械学習モデルMを使用し、深層学習による抽象度が高い特徴量を求めることにより、フレーム画像間における被写体の動きベクトルを推定することができる。その結果、動画像圧縮装置1は、動画像の圧縮率を向上させることができる。
動画像圧縮装置1は、フレーム画像間において検出した対応関係にある特徴点の変位を動きベクトルとして符号化することにより、任意の幾何変換を行うことができる。動画像圧縮装置1は、例えば、最近傍の特徴点の動きベクトルを用いて、MPEGと同様に矩形領域の動き補償を行うことができる。また、動画像圧縮装置1は、例えば、周囲の3つ以上の特徴点の動きベクトルを用いて、矩形以外の形状(例えば、三角形等)の領域に対する動き補償を行うことができる。また、動画像圧縮装置1は、例えば、周囲の8つ以上の特徴点の動きベクトルを用いて任意の幾何変換を行うことにより、被写体の変形に対応して予測誤差を低減することができる。
MPEGをはじめとする国際標準化された動画像圧縮符号化方法では、動き補償を行うのは矩形領域に限定されているため、矩形領域の中に動きの少ない領域(例えば背景)と、動きの多い領域(例えば前景)とが混在すると圧縮率が低下してしまう。これに対して、動画像圧縮装置1は、矩形以外の領域に対する動き補償を行うことができるため、動きの少ない領域と、動きの多い領域とを分離して、それぞれの領域に対して動き補償を行うことにより、圧縮率を向上することができる。
また、動画像圧縮装置1は、複数のフレーム画像間において共通の特徴点を有する移動物体の領域を抽出することにより、動画像に写っている移動物体の追尾をすることができる。これにより、動画像圧縮装置1は、例えば、サッカーの試合において、個々のサッカー選手を追尾することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
1 動画像圧縮装置
11 操作部
12 記憶部
13 制御部
131 動画像取得部
132 伝搬制御部
133 抽出部
134 後段抽出部
135 前段抽出部
136 指示受付部
137 特徴点検出部
138 選択部
139 ベクトル推定部
140 圧縮部

Claims (15)

  1. 撮像装置で生成された動画像を取得する動画像取得部と、
    前記動画像に含まれるフレーム画像である基準フレーム画像及び前記動画像に含まれる前記基準フレーム画像以外のフレーム画像である特定用フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、
    前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記特定用フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の特定用出力と前記基準フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の基準出力とを抽出する抽出部と、
    前記一以上の特定用出力に基づいて一以上の特定用特徴点を検出し、かつ前記一以上の基準出力に基づいて一以上の基準特徴点を検出する特徴点検出部と、
    前記一以上の特定用特徴点と前記一以上の基準特徴点とを比較することにより、前記フレーム画像間で被写体が移動するベクトルを推定するベクトル推定部と、
    前記ベクトル推定部が推定した結果に基づいて、前記動画像を圧縮した圧縮動画像を生成する圧縮部と、
    を有する動画像圧縮装置。
  2. 前記抽出部は、
    前記特定用フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段特定用出力、及び前記基準フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段基準出力から、共通に活性化している一以上の後段特定用出力及び一以上の後段基準出力を抽出する後段抽出部と、
    前記一以上の後段特定用出力及び前記一以上の後段基準出力を活性化させる要因となった前記前段処理層から出力された複数の前段特定用出力、及び前記前段処理層から出力された複数の前段基準出力のうち、共通に活性化している一以上の前段特定用出力及び一以上の前段基準出力を抽出する前段抽出部と、
    を有する、
    請求項1に記載の動画像圧縮装置。
  3. 前記前段抽出部は、前記複数の前段特定用出力及び前記複数の前段基準出力のうち、活性化している大きさに基づいて、前記一以上の前段特定用出力及び前記一以上の前段基準出力を抽出する、
    請求項2に記載の動画像圧縮装置。
  4. 前記機械学習モデルは、畳み込みニューラルネットワークを含み、
    前記後段処理層は、出力層、全結合層、正規化層、プーリング層、及び畳み込み層のうちのいずれかの層である、
    請求項2又は3に記載の動画像圧縮装置。
  5. 前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層である、
    請求項4に記載の動画像圧縮装置。
  6. 前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の特定用出力及び前記一以上の基準出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の特定用出力及び前記一以上の基準出力を抽出する、
    請求項1又は5に記載の動画像圧縮装置。
  7. 前記特徴点検出部が特定した前記一以上の特定用特徴点及び前記一以上の基準特徴点から、相互の対応関係に基づいて一部の特定用特徴点及び一部の基準特徴点を選択する選択部をさらに有し、
    前記ベクトル推定部は、前記一部の特定用特徴点と前記一部の基準特徴点とを比較することにより、前記被写体が移動するベクトルを推定する、
    請求項1から6のいずれか一項に記載の動画像圧縮装置。
  8. 前記選択部は、前記ベクトル推定部が、前記被写体に含まれる前記一部の特定用特徴点それぞれが移動するベクトルを推定した場合において、一の特定用特徴点と当該一の特定用特徴点の周囲にある特定用特徴点との移動するベクトルが所定の範囲を超える場合に、前記一の特定用特徴点及び前記一の特定用特徴点に対応する基準特徴点を、前記一部の特定用特徴点及び前記一部の基準特徴点から除去する、
    請求項7に記載の動画像圧縮装置。
  9. 前記ベクトル推定部は、前記特定用フレーム画像における前記一部の特定用特徴点の位置と、前記基準フレーム画像における前記一部の基準特徴点の位置との関係に基づいて、前記ベクトルを推定する、
    請求項8に記載の動画像圧縮装置。
  10. 前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、
    前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用する、
    請求項1から9のいずれか一項に記載の動画像圧縮装置。
  11. 前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の特定用出力及び前記一以上の基準出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の特定用出力及び前記一以上の基準出力を抽出する、
    請求項1から10のいずれか一項に記載の動画像圧縮装置。
  12. 撮像装置で生成された動画像を取得するステップと、
    前記動画像に含まれるフレーム画像である基準フレーム画像及び前記動画像に含まれる前記基準フレーム画像以外のフレーム画像である特定用フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、
    前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記特定用フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の特定用出力と前記基準フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の基準出力とを抽出するステップと、
    前記一以上の特定用出力に基づいて一以上の特定用特徴点を検出し、かつ前記一以上の基準出力に基づいて一以上の基準特徴点を検出するステップと、
    前記一以上の特定用特徴点と前記一以上の基準特徴点とを比較することにより、前記フレーム画像間で被写体が移動するベクトルを推定するステップと、
    前記被写体が移動するベクトルを推定するステップにおいて推定した結果に基づいて、前記動画像を圧縮した圧縮動画像を生成するステップと、
    を有する動画像圧縮方法。
  13. 前記抽出するステップは、
    前記特定用フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段特定用出力、及び前記基準フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段基準出力から、共通に活性化している一以上の後段特定用出力及び一以上の後段基準出力を抽出する前段抽出ステップと、
    前記一以上の後段特定用出力及び前記一以上の後段基準出力を活性化させる要因となった前記前段処理層から出力された複数の前段特定用出力、及び前記前段処理層から出力された複数の前段基準出力のうち、共通に活性化している一以上の前段特定用出力及び一以上の前段基準出力を抽出する後段抽出ステップと、
    を有する、請求項12に記載の動画像圧縮方法。
  14. 前記前段抽出ステップを実行した後に、前記一以上の前段特定用出力及び前記一以上の前段基準出力を、前記複数の後段特定用出力及び前記複数の後段基準出力として、前記後段抽出ステップを実行する、
    請求項13に記載の動画像圧縮方法。
  15. 前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行する、
    請求項13又は14に記載の動画像圧縮方法。
JP2017225931A 2017-11-24 2017-11-24 動画像圧縮装置及び動画像圧縮方法 Active JP6889653B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017225931A JP6889653B2 (ja) 2017-11-24 2017-11-24 動画像圧縮装置及び動画像圧縮方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017225931A JP6889653B2 (ja) 2017-11-24 2017-11-24 動画像圧縮装置及び動画像圧縮方法

Publications (2)

Publication Number Publication Date
JP2019097066A true JP2019097066A (ja) 2019-06-20
JP6889653B2 JP6889653B2 (ja) 2021-06-18

Family

ID=66972114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017225931A Active JP6889653B2 (ja) 2017-11-24 2017-11-24 動画像圧縮装置及び動画像圧縮方法

Country Status (1)

Country Link
JP (1) JP6889653B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307605A (ja) * 1991-09-12 1993-11-19 Fuji Photo Film Co Ltd 被写体抽出方法
JPH06162197A (ja) * 1991-12-12 1994-06-10 Nippon Hoso Kyokai <Nhk> ニューラルネットワークを用いた動画像処理装置
JPH08241294A (ja) * 1994-08-18 1996-09-17 Nikon Syst:Kk カオスニューラルネットワークを用いた運動制御方法及びカオス計算機と群運動制御方法。
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
JP2017191608A (ja) * 2016-04-15 2017-10-19 株式会社リコー 対象識別方法、対象識別装置、及び分類器訓練方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307605A (ja) * 1991-09-12 1993-11-19 Fuji Photo Film Co Ltd 被写体抽出方法
JPH06162197A (ja) * 1991-12-12 1994-06-10 Nippon Hoso Kyokai <Nhk> ニューラルネットワークを用いた動画像処理装置
JPH08241294A (ja) * 1994-08-18 1996-09-17 Nikon Syst:Kk カオスニューラルネットワークを用いた運動制御方法及びカオス計算機と群運動制御方法。
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
JP2017191608A (ja) * 2016-04-15 2017-10-19 株式会社リコー 対象識別方法、対象識別装置、及び分類器訓練方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
三井 政明 他: "ニューラルネットワークの学習による画像の動き場推定法 A Method for Estimation of Motion Fields by Neu", 電子情報通信学会技術研究報告, vol. 96, no. 584, JPN6020042178, 18 March 1997 (1997-03-18), JP, pages 283 - 290, ISSN: 0004380285 *
久保 博紀 他: "画像からの曲面推定問題におけるネットワークインバージョンの適用 Curved Shape Estimation From Single-E", 電子情報通信学会技術研究報告, vol. 97, no. 624, JPN6020042174, 20 March 1998 (1998-03-20), JP, pages 233 - 240, ISSN: 0004380284 *

Also Published As

Publication number Publication date
JP6889653B2 (ja) 2021-06-18

Similar Documents

Publication Publication Date Title
JP4766495B2 (ja) 対象物追跡装置および対象物追跡方法
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
US20140177944A1 (en) Method and System for Modeling Subjects from a Depth Map
US9734612B2 (en) Region detection device, region detection method, image processing apparatus, image processing method, program, and recording medium
US10146992B2 (en) Image processing apparatus, image processing method, and storage medium that recognize an image based on a designated object type
JP2019071050A5 (ja)
JP6946231B2 (ja) 物体追跡装置及び物体追跡方法
JP2017162409A (ja) 顔の表情と動作の認識装置及び方法
Urabe et al. Cooking activities recognition in egocentric videos using combining 2DCNN and 3DCNN
JP2012073971A (ja) 動画オブジェクト検出装置、方法、及びプログラム
CN111079567B (zh) 采样方法、模型生成方法、视频行为识别方法及装置
Makris et al. Robust 3d human pose estimation guided by filtered subsets of body keypoints
Rodrigues et al. A simple approach for biometrics: Finger-knuckle prints recognition based on a Sobel filter and similarity measures
JP2019097066A (ja) 動画像圧縮装置及び動画像圧縮方法
JP6924128B2 (ja) モーフィング画像生成装置及びモーフィング画像生成方法
US20220207261A1 (en) Method and apparatus for detecting associated objects
JP7010780B2 (ja) 物体領域抽出装置及び物体領域抽出方法
KR20160000533A (ko) 증강 현실에서 물체의 정보 제공을 위한 지역 특징점을 이용한 오브젝트 다중 검출, 추적 방법 및 그 시스템
JP6603123B2 (ja) 動物体の検出装置、検出方法及びプログラム
CN108121963B (zh) 视频数据的处理方法、装置及计算设备
JP6783742B2 (ja) パラメータ特定装置及びパラメータ特定方法
CN111353334A (zh) 烟雾检测方法和装置
Kim et al. A fast and accurate face tracking scheme by using depth information in addition to texture information
Talu et al. A novel object recognition method based on improved edge tracing for binary images
Shih et al. Hand segmentation with skin color fine-tuning using kinect depth sensor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210521

R150 Certificate of patent or registration of utility model

Ref document number: 6889653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150