JP7510789B2

JP7510789B2 - 映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラム

Info

Publication number: JP7510789B2
Application number: JP2020097180A
Authority: JP
Inventors: 貴裕望月; 真綱藤森; 桃子前澤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2024-07-04
Anticipated expiration: 2040-06-03
Also published as: JP2021189967A

Description

本発明は、映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラムに関する。

近年、ソーシャルメディアサービスの発達等により、放送番組や自主制作した映像をＰＲすることを主な目的として、要約映像をネットワーク上で配信するケースが増えている。しかし、要約映像の編集作業は大きな労力を要するため、自動で要約映像を生成する技術が求められている。

従来、要約映像を自動的に生成する技術として、例えば、特許文献１～４にその手法が提案されている。
特許文献１に記載の手法は、ユーザの視聴履歴に基づいて、放送番組から重要度の高い映像区間の映像を抽出して要約映像を生成する手法である。
特許文献２に記載の手法は、映像を分割した分割映像のキーフレームの画像特徴に基づいて、映像から重要度の高い映像区間を抽出して要約映像を生成する手法である。
特許文献３に記載の手法は、映像区間をノードとし、ノード間の映像特徴の類似度をエッジとするグラフを解析し、映像から重要度の高い映像区間の映像を抽出して要約映像を生成する手法である。
特許文献４に記載の手法は、まず、映像を複数のカット映像に分割し、複数の要素に関するスコアを算出する。そして、この手法は、ユーザが設定した各要素の重み配分に基づいてカット映像の総合スコアを算出し、総合スコアの高いカット映像を抽出して要約映像を生成する手法である。

特許第４２９９８４３号公報特許第５５３７２８５号公報特許第５８９８１１７号公報特開２０１８－２０６２９２号公報

特許文献１に記載の手法は、元映像以外に視聴履歴のような特殊なデータを必要とするため、放送番組の映像からしか要約映像を生成することができないという問題がある。
また、特許文献１～３に記載の手法は、元映像から単に映像特徴のみで要約映像を生成するもので、映像編集者が行うような映像の抽出手法、例えば、元映像のどの要素に重点をおいて映像を抽出するか等を学習する仕組みがない。そのため、これらの手法に対しては、要約映像の品質を向上させたいという要望がある。
特許文献４に記載の手法は、視聴履歴のような特殊なデータを用いず、映像を抽出する要素の重み配分をユーザが設定できるため、要約映像の品質を向上させることができる点で他の手法よりも優れている。しかし、この手法は、ユーザが必ず重み配分を設定しなければならないため、重み配分を設定しなくても簡易に最適化した要約映像を生成したいという要望がある。

本発明は、このような従来の問題点、要望に鑑みてなされたもので、映像以外の特殊なデータを必要とせず、簡易に要約映像を生成することが可能な映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る映像区間重要度算出モデル学習装置は、映像の所定区間ごとの重要度を算出するためのニューラルネットワークのモデルを学習する映像区間重要度算出モデル学習装置であって、特徴ベクトル生成手段と、ニューラルネットワーク学習手段と、を備える構成とした。

かかる構成において、映像区間重要度算出モデル学習装置は、特徴ベクトル生成手段によって、要約映像に使用された映像である正例区間映像とその要約映像に使用されなかった映像である負例区間映像とをペアとする学習映像から、それぞれ予め定めた要素ごとの特徴ベクトルとして、正例の要素別特徴ベクトルと負例の要素別特徴ベクトルとを生成する。
このように、要約映像に使用された映像とその要約映像に使用されなかった映像とを用いることで、特徴ベクトル生成手段は、人物、動き等の特徴ベクトルの基準となる要素ごとに、要素画像の特徴および非要素画像の特徴を数値化することができる。

そして、映像区間重要度算出モデル学習装置は、ニューラルネットワーク学習手段によって、学習対象であるニューラルネットワークのモデルを用いて、正例の要素別特徴ベクトルを入力して演算した重要度から負例の要素別特徴ベクトルを入力して演算した重要度を減じた値が大きくなるようにモデルのパラメータを学習する。
これによって、このモデルは、要約映像として重要度が高い映像については、より大きい値を出力するように学習されることになる。

また、前記課題を解決するため、本発明に係る映像区間重要度算出モデル学習プログラムは、コンピュータを、前記した各手段として機能させるためのプログラムとして実現することができる。

また、前記課題を解決するため、本発明に係る要約映像生成装置は、入力映像から要約映像を生成する要約映像生成装置であって、映像分割手段と、特徴ベクトル生成手段と、ニューラルネットワーク演算手段と、区間選択手段と、選択区間連結手段と、を備える構成とした。

かかる構成において、要約映像生成装置は、映像分割手段によって、入力映像を個数、時間間隔等の予め定めた基準で時間方向に分割する。
そして、要約映像生成装置は、特徴ベクトル生成手段によって、映像分割手段で分割された区間映像ごとに、人物、動き等の予め定めた要素ごとの特徴ベクトルである要素別特徴ベクトルを生成する。
さらに、要約映像生成装置は、ニューラルネットワーク演算手段によって、要素別特徴ベクトルを入力して要約映像としての重要度を出力する予め学習したニューラルネットワークのモデルを用いて、区間映像ごとに重要度を演算する。

そして、要約映像生成装置は、区間選択手段によって、ニューラルネットワーク演算手段で演算された重要度の高い方から順に、予め定めた時間長内で区間映像の区間を選択する。
そして、要約映像生成装置は、選択区間連結手段によって、区間選択手段で選択された区間の映像を入力映像から抽出し連結することで要約映像を生成する。
これによって、入力映像内の区間映像の中で、要約映像としての重要度が高い映像を抽出した要約映像が生成されることになる。

また、前記課題を解決するため、本発明に係る要約映像生成プログラムは、コンピュータを、前記した各手段として機能させるためのプログラムとして実現することができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、従来の要約映像の生成手法をニューラルネットワークのモデルとして学習することができる。
これによって、本発明は、入力映像以外の特殊なデータを用いず、簡易に要約映像を生成することができる。

本発明の要約映像生成手法の概要を説明するための説明図である。本発明の実施形態に係る映像区間重要度算出モデル学習装置の構成を示すブロック構成図である。本発明において、学習映像（学習データ）である正例区間映像および負例区間映像を説明するための説明図である。本発明において、映像区間重要度算出モデルのニューラルネットワークの構造を示すネットワーク図である。本発明の実施形態に係る映像区間重要度算出モデル学習装置の動作を示すフローチャートである。本発明の実施形態に係る要約映像生成装置の構成を示すブロック構成図である。本発明において、映像区間重要度に基づく要約映像の生成手法を説明するための説明図である。本発明の実施形態に係る要約映像生成装置の動作を示すフローチャートである。本発明の実施形態に係る要約映像生成装置の変形例の構成を示すブロック構成図である。

＜要約映像生成手法の概要＞
最初に、図１を参照して、本発明に係る要約映像生成手法（以下、本手法）の概要について説明する。
図１に示すように、本手法は、映像区間重要度算出モデル学習装置１と、要約映像生成装置２とで実現することができる。

映像区間重要度算出モデル学習装置１は、学習映像を用いて、映像の所定区間ごとの重要度を算出するためのニューラルネットワークのモデル（映像区間重要度算出モデル）を学習するものである。
学習映像は、ニューラルネットワークを学習するための学習データである。学習映像は、要約映像に使用された映像と、その要約映像に使用されなかった映像とをペアとする複数のペア映像である。
映像区間重要度算出モデル学習装置１は、映像区間重要度算出モデルのパラメータとして、ニューラルネットワークの内部パラメータＰと、映像のどの要素（人物、動き等）に重点をおいて要素映像を生成するかを示す重み配分（学習重み配分Ｗ）とを学習する。

要約映像生成装置２は、映像区間重要度算出モデル学習装置１で学習した映像区間重要度算出モデルのパラメータを用いて、入力映像から要約映像を生成するものである。
なお、要約映像生成装置２は、映像区間重要度算出モデルのパラメータとして学習した学習重み配分Ｗに代えて、外部から設定される設定重み配分Ｗ′を用いて、要素の重み配分を変更して要素画像を生成する機能を有する。
これによって、要約映像生成装置２は、映像以外のデータを用いずに、要素の重み配分をユーザが設定し要約映像を生成することができる。
また、要約映像生成装置２は、ユーザが要素の重み配分を設定しなくても予め学習した重み配分を用いることができるため、簡易に最適化した要約映像を生成することができる。
以下、映像区間重要度算出モデル学習装置１および要約映像生成装置２の構成および動作について説明する。

＜映像区間重要度算出モデル学習装置の構成＞
まず、図２を参照して、映像区間重要度算出モデル学習装置１の構成について説明する。
図２に示すように、映像区間重要度算出モデル学習装置１は、特徴ベクトル生成手段１０と、ニューラルネットワーク学習手段１１と、パラメータ記憶手段１２と、を備える。

特徴ベクトル生成手段１０は、学習データである学習映像ＬＶから、予め定めた複数の要素ごとに特徴ベクトル（要素別特徴ベクトル）を生成するものである。
この特徴ベクトル生成手段１０は、要約映像に使用された映像である正例区間映像ＬＶ_Ｐとその要約映像に使用されなかった映像である負例区間映像ＬＶ_Ｎとをペアとする学習映像ＬＶから、それぞれ予め定めた要素ごとの特徴ベクトルとして、正例要素別特徴ベクトルＶ_Ｐと負例要素別特徴ベクトルＶ_Ｎとを生成する。

学習映像ＬＶは、例えば、自作映像とそれを編集した要約映像、放送波から取得した番組映像と通信回線で配信されたその要約映像等を用いて、要約映像を正例区間映像ＬＶ_Ｐとし、要約映像に類似するフレーム画像を元の映像（自作映像、番組映像）から削除した映像を負例区間映像ＬＶ_Ｎとして生成することができる。もちろん、要約映像が元の映像のどの区間を使用したのかが既知であれば、負例区間映像ＬＶ_Ｎは、元の映像から要約映像の区間を削除して生成してもよい。

ここで、図３を参照して、学習映像ＬＶについて模式的に説明する。なお、図３に示す四角形は、映像のフレームを示しているが、図示を簡略化するためフレームを間引いて図示している。
図３に示すように、元映像Ｖ_ＯＲＧから要約映像Ｖ_ＳＵＭを生成した場合、抽出した区間映像ＬＶ_Ｐ１，ＬＶ_Ｐ２，…を、学習映像ＬＶの正例区間映像ＬＶ_Ｐとする。
また、元映像Ｖ_ＯＲＧから要約映像Ｖ_ＳＵＭで使用した区間映像ＬＶ_Ｐ１，ＬＶ_Ｐ２，…を削除した区間映像ＬＶ_Ｎ１，ＬＶ_Ｎ２，ＬＶ_Ｎ３，…を、学習映像ＬＶの負例区間映像ＬＶ_Ｎとする。

図２に戻って、映像区間重要度算出モデル学習装置１の構成について説明を続ける。
特徴ベクトル生成手段１０が生成する要素別特徴ベクトルの要素とは、要約映像を生成する際の演出を特定する項目である。例えば、要素は、映像内の被写体（人物等）の種類、被写体の顔領域、動き情報等である。

特徴ベクトル生成手段１０は、要素として、映像内の被写体の種類を用いる場合、例えば、映像を入力し複数の分類の値（確率値）を出力する予め学習済のニューラルネットワーク（ＶＧＧ畳み込みニューラルネットワーク等）によって、分類の数に対応する特徴ベクトルを生成する。
また、特徴ベクトル生成手段１０は、要素として、被写体の顔領域を用いる場合、一般的な顔領域検出技術によって、映像から顔領域を検出し、勾配ヒストグラム、色・テクスチャ特徴量等の特徴ベクトルを生成する。なお、映像から顔領域の特徴ベクトルを生成する手法は、例えば、特開２０１７－３３３７２号公報に記載の手法を用いることができる。
また、特徴ベクトル生成手段１０は、要素として、動き情報を用いる場合、映像の予め定めた大きさのブロックごとに動きベクトルを求め、移動量ごとのヒストグラムを特徴ベクトルとして生成する。

なお、特徴ベクトル生成手段１０が生成する特徴ベクトルの要素は、これらに限定されるものではない。例えば、特許文献４（特開２０１８－２０６２９２号公報）に記載の要素であるテロップや顔領域の面積比率、ＣＧ映像らしさの確率等、映像の演出に関連するものであればどのような要素を用いてもよい。
特徴ベクトル生成手段１０は、正例区間映像ＬＶ_Ｐと負例区間映像ＬＶ_Ｎとについてそれぞれ特徴ベクトルを生成する。

ここで、正例区間映像ＬＶ_Ｐを構成する区間映像の数をＮ_Ｐ、負例区間映像ＬＶ_Ｎを構成する区間映像の数をＮ_Ｎ、要素の数をＫとしたとき、特徴ベクトル生成手段１０は、正例区間映像ＬＶ_Ｐから、要素Ｅ_１に関する特徴ベクトルＶ_Ｅ１，１，…，Ｖ_{Ｅ１，ＮＰ}、要素Ｅ_２に関する特徴ベクトルＶ_Ｅ２，１，…，Ｖ_{Ｅ２，ＮＰ}、…、要素Ｅ_Ｋに関する特徴ベクトルＶ_ＥＫ，１，…，Ｖ_{ＥＫ，ＮＰ}を、正例要素別特徴ベクトルＶ_Ｐとして生成する。
また、特徴ベクトル生成手段１０は、負例区間映像ＬＶ_Ｎから、要素Ｅ_１に関する特徴ベクトルＶ_Ｅ１，１，…，Ｖ_{Ｅ１，ＮＮ}、要素Ｅ_２に関する特徴ベクトルＶ_Ｅ２，１，…，Ｖ_{Ｅ２，ＮＮ}、…、要素Ｅ_Ｋに関する特徴ベクトルＶ_ＥＫ，１，…，Ｖ_{ＥＫ，ＮＮ}を、負例要素別特徴ベクトルＶ_Ｎとして生成する。
特徴ベクトル生成手段１０は、生成したペアとなる正例要素別特徴ベクトルＶ_Ｐおよび負例要素別特徴ベクトルＶ_Ｎを、ニューラルネットワーク学習手段１１に出力する。

ニューラルネットワーク学習手段１１は、特徴ベクトル生成手段１０で生成された要素別特徴ベクトル（正例要素別特徴ベクトル，負例要素別特徴ベクトル）を用いて、映像区間重要度算出モデルのパラメータとして、ニューラルネットワークの内部パラメータと、要素の重み配分（学習重み配分）とを学習するものである。
このニューラルネットワーク学習手段１１は、映像区間重要度算出モデルを用いて、正例要素別特徴ベクトルを入力して演算した重要度から負例要素別特徴ベクトルを入力して演算した重要度を減じた値が大きくなるように映像区間重要度算出モデルのパラメータを学習する。

ここで、図４を参照して、ニューラルネットワーク学習手段１１が内部パラメータと、要素の重み配分とを学習する対象となる映像区間重要度算出モデルの構造について説明する。
図４に示すように、映像区間重要度算出モデルＭは、複数の要素別ニューラルネットワークＮＥ_１，…，ＮＥ_Ｋと、重み付き加算部ＮＡと、統合ニューラルネットワークＮＭと、で構成される。
要素別ニューラルネットワークＮＥ_１，…，ＮＥ_Ｋは、要素別に複数のニューラルネットワークで構成される。要素別ニューラルネットワークＮＥ_１，…，ＮＥ_Ｋは、要素別特徴ベクトルＶＥ_１，…，ＶＥ_Ｋの要素数を入力ノード数として要素別特徴ベクトルを入力し、予め定めた出力ノード数の出力値を演算するニューラルネットワークである。
要素別ニューラルネットワークＮＥ_１は、要素Ｅ_１に関するノード数Ｄ_１の数値列である要素別特徴ベクトルＶＥ_１を入力し、ノード数Ｄの数値を出力する。
要素別ニューラルネットワークＮＥ_２，…，ＮＥ_Ｋは、ＮＥ_１と同じニューラルネットワークであるが、入力ノード数は、それぞれの要素に対応する数であり、出力ノード数は、ＮＥ_１と同じノード数Ｄである。
要素別ニューラルネットワークＮＥ_１，…，ＮＥ_Ｋは、ノード数Ｄの演算結果をそれぞれ重み付き加算部ＮＡに出力する。

重み付き加算部ＮＡは、要素別ニューラルネットワークＮＥ_１，…，ＮＥ_Ｋの演算結果を、重み配分Ｗ_１，…，Ｗ_Ｋに応じて重み付け加算する。
この重み付き加算部ＮＡは、要素別ニューラルネットワークごとの出力値に対して、重み配分Ｗ_１，…，Ｗ_Ｋをそれぞれ乗算してノードごとに加算することで重み付け加算を行い、ノード数Ｄの数値列である統合特徴ベクトルＶ_Ｍを生成する。
重み付き加算部ＮＡは、生成した統合特徴ベクトルＶ_Ｍを統合ニューラルネットワークＮＭに出力する。

統合ニューラルネットワークＮＭは、ノード数Ｄの統合特徴ベクトルＶ_Ｍを入力し、単一のノード数“１”の出力値を演算するニューラルネットワークである。
この映像区間重要度算出モデルＭにおいて、学習対象は、要素別ニューラルネットワークＮＥ_１，…，ＮＥ_Ｋおよび統合ニューラルネットワークＮＭの内部パラメータと、重み配分Ｗ_１，…，Ｗ_Ｋである。

図２に戻って、映像区間重要度算出モデル学習装置１の構成について説明を続ける。
ニューラルネットワーク学習手段１１は、正例ＮＮ演算手段１１０と、負例ＮＮ演算手段１１１と、パラメータ更新手段１１２と、を備える。

正例ＮＮ（ニューラルネットワーク）演算手段１１０は、特徴ベクトル生成手段１０で生成された正例要素別特徴ベクトルＶ_Ｐを入力して、映像区間重要度算出モデルＭ（図４参照）を演算するものである。
正例ＮＮ演算手段１１０は、パラメータ記憶手段１２に記憶されているＮＮ内部パラメータＰおよび学習重み配分Ｗの値を用いて、映像区間重要度算出モデルＭの演算を行う。
なお、正例ＮＮ演算手段１１０は、パラメータ更新手段１１２から、再計算の指示があった場合、再度、同一の正例要素別特徴ベクトルＶ_Ｐを入力して演算を行う。
正例ＮＮ演算手段１１０は、演算結果をパラメータ更新手段１１２に出力する。

負例ＮＮ（ニューラルネットワーク）演算手段１１１は、特徴ベクトル生成手段１０で生成された負例要素別特徴ベクトルＶ_Ｎを入力して、映像区間重要度算出モデルＭ（図４参照）を演算するものである。
負例ＮＮ演算手段１１１は、パラメータ記憶手段１２に記憶されているＮＮ内部パラメータＰおよび学習重み配分Ｗの値を用いて、映像区間重要度算出モデルＭの演算を行う。
なお、負例ＮＮ演算手段１１１は、パラメータ更新手段１１２から、再計算の指示があった場合、再度、同一の負例要素別特徴ベクトルＶ_Ｎを入力して演算を行う。
負例ＮＮ演算手段１１１は、演算結果をパラメータ更新手段１１２に出力する。

パラメータ更新手段１１２は、正例ＮＮ演算手段１１０および負例ＮＮ演算手段１１１の演算結果に基づいて、映像区間重要度算出モデルＭの内部パラメータ（ＮＮ内部パラメータＰ）、重み配分（学習重み配分Ｗ）を更新するものである。
このパラメータ更新手段１１２は、正例ＮＮ演算手段１１０の演算結果（重要度）から負例ＮＮ演算手段１１１の演算結果（重要度）を減じた値が大きくなるように、パラメータ（ＮＮ内部パラメータＰおよび学習重み配分Ｗ）を更新する。
パラメータ更新手段１１２は、更新後のパラメータ（ＮＮ内部パラメータＰおよび学習重み配分Ｗ）をパラメータ記憶手段１２に記憶する。

このパラメータ更新手段１１２によるパラメータの更新は、一般的な誤差逆伝播法を用いて行うことできる。
このパラメータ更新手段１１２は、パラメータ更新後、正例ＮＮ演算手段１１０および負例ＮＮ演算手段１１１に再計算の指示を行う。
そして、パラメータ更新手段１１２は、予め定めた回数、あるいは、パラメータ更新の変動量が予め定めた閾値を下回った場合、正例ＮＮ演算手段１１０および負例ＮＮ演算手段１１１に、新たな要素別特徴ベクトルによる演算を指示する。

これによって、ニューラルネットワーク学習手段１１は、図４の映像区間重要度算出モデルＭにおいて、正例要素別特徴ベクトルＶ_Ｐ（要素別特徴ベクトルＶ）を入力した場合の出力値が、負例要素別特徴ベクトルＶ_Ｎ（要素別特徴ベクトルＶ）を入力した場合の出力値に比べて大きくなるように、パラメータを学習することができる。
このように学習された映像区間重要度算出モデルによって、ある区間映像の要素別特徴ベクトルを入力された場合、その出力値によって、その区間映像が要約映像として重要か否かを示す重要度を算出することができる。

パラメータ記憶手段１２は、ニューラルネットワーク学習手段１１で学習されるパラメータ（ＮＮ内部パラメータＰおよび学習重み配分Ｗ）を記憶するものである。
このパラメータ記憶手段１２は、ハードディスク等の一般的な記憶媒体で構成することができる。

以上説明したように、映像区間重要度算出モデル学習装置１は、正例区間映像ＬＶ_Ｐと負例区間映像ＬＶ_Ｎとを学習映像として、映像内の区間映像の要素別特徴ベクトルから、当該区間映像が要約映像として重要か否かを判定するための重要度を算出するニューラルネットワークのモデルを学習することができる。
なお、映像区間重要度算出モデル学習装置１は、図示を省略したコンピュータを、前記した各手段として機能させるための映像区間重要度算出モデル学習プログラムで動作させることができる。

＜映像区間重要度算出モデル学習装置の動作＞
次に、図５を参照（構成については適宜図２参照）して、映像区間重要度算出モデル学習装置１の動作について説明する。なお、学習映像ＬＶとして、予め要約映像として使用した正例区間映像ＬＶ_Ｐと、その要約映像として使用されなかった負例区間映像ＬＶ_Ｎとをペアとする複数のペア映像が準備されているものとする。
また、ここでは、一組のペア映像についての学習動作について説明するが、映像区間重要度算出モデル学習装置１は、ペア映像の数だけ以下の動作を繰り返す。

ステップＳ１において、特徴ベクトル生成手段１０は、要約映像に使用された映像である正例区間映像ＬＶ_Ｐと、その要約映像に使用されなかった映像である負例区間映像ＬＶ_Ｎと、をペアとするペア映像から、それぞれ予め定めた要素ごとの生成手法により、正例および負例のそれぞれで要素別特徴ベクトル（正例要素別特徴ベクトルＶ_Ｐおよび負例要素別特徴ベクトルＶ_Ｎ）を生成する。

ステップＳ２において、ニューラルネットワーク学習手段１１の正例ＮＮ演算手段１１０は、ステップＳ１で生成された正例要素別特徴ベクトルＶ_Ｐを入力して、映像区間重要度算出モデルＭ（図４参照）を演算する。
ステップＳ３において、ニューラルネットワーク学習手段１１の負例ＮＮ演算手段１１１は、ステップＳ１で生成された負例要素別特徴ベクトルＶ_Ｎを入力して、映像区間重要度算出モデルＭ（図４参照）を演算する。
なお、ステップＳ２，Ｓ３の順番はどちらを先に行ってもよいが、ここでは並列で行う例を示している。

ステップＳ４において、ニューラルネットワーク学習手段１１のパラメータ更新手段１１２は、ステップＳ２の演算結果（重要度）から、ステップＳ３の演算結果（重要度）を減じた値が大きくなるように、パラメータ（ＮＮ内部パラメータＰおよび学習重み配分Ｗ）を更新する。
ステップＳ５において、パラメータ更新手段１１２は、学習が完了したか否かを判定する。例えば、パラメータ更新手段１１２は、予め定めた回数、あるいは、パラメータ更新の変動量が予め定めた閾値を下回った場合、一組の学習映像における学習が完了したと判定する。

ここで、まだ、学習が完了していないと判定した場合（ステップＳ５でＮｏ）、映像区間重要度算出モデル学習装置１は、ステップＳ２，Ｓ３に戻って動作を続ける。
一方、学習が完了したと判定した場合（ステップＳ５でＹｅｓ）、映像区間重要度算出モデル学習装置１は、一組のペア映像を用いた学習を終了する。

以上の動作をペア映像の数だけ繰り返すことによって、映像区間重要度算出モデル学習装置１は、正例区間映像ＬＶ_Ｐと負例区間映像ＬＶ_Ｎとをペアとするペア映像から、映像区間重要度算出モデルのパラメータを学習することができる。

＜要約映像生成装置の構成＞
次に、図６を参照して、要約映像生成装置２の構成について説明する。
図６に示すように、要約映像生成装置２は、パラメータ記憶手段２０と、映像区間重要度算出手段２１と、映像要約手段２２と、を備える。

パラメータ記憶手段２０は、映像区間重要度算出モデル学習装置１で学習されたパラメータ（ＮＮ内部パラメータＰおよび学習重み配分Ｗ）を予め記憶するものである。
このパラメータ記憶手段２０は、ハードディスク等の一般的な記憶媒体で構成することができる。
また、パラメータ記憶手段２０は、学習重み配分Ｗに代わる重み配分として、図示を省略した入力手段を介して、ユーザが設定した重み配分（設定重み配分Ｗ′）を記憶することもできる。

映像区間重要度算出手段２１は、要約映像を生成するための元映像（入力映像）を入力し、予め定めた基準で分割した映像が要約映像として重要か否かの度合いを示す重要度を算出するものである。
映像区間重要度算出手段２１は、映像分割手段２１０と、特徴ベクトル生成手段２１１と、ＮＮ演算手段２１２と、を備える。

映像分割手段２１０は、入力映像を予め定めた基準で時間方向に分割するものである。
この映像分割手段２１０における映像分割手法は、一般的な手法を用いればよい。例えば、映像分割手段２１０は、ショットの切り替え点であるカット点を基準として、カット点ごとに分割してもよいし、予め定めた時間間隔を基準として、その時間間隔で分割してもよい。なお、カット点の検出は、例えば、特開２００８－３３７４９号公報に記載の手法を用いることができる。
映像分割手段２１０は、分割した区間映像Ｓｖを特徴ベクトル生成手段２１１に出力する。

特徴ベクトル生成手段２１１は、映像分割手段２１０で分割された区間映像Ｓｖから、予め定めた複数の要素ごとに特徴ベクトル（要素別特徴ベクトル）を生成するものである。この特徴ベクトル生成手段２１１は、図２の特徴ベクトル生成手段１０と同じ要素ごとに、特徴ベクトルを生成する。なお、要素およびその要素に対応する特徴ベクトルについては、特徴ベクトル生成手段１０で説明した内容と同じであるため、ここでは、説明を省略する。
特徴ベクトル生成手段２１１は、区間映像Ｓｖごとに生成した要素別特徴ベクトルＶをＮＮ演算手段２１２に出力する。

ＮＮ（ニューラルネットワーク）演算手段２１２は、特徴ベクトル生成手段２１１で生成された要素別特徴ベクトルＶを入力して、映像区間重要度算出モデルＭ（図４参照）を演算するものである。
ＮＮ演算手段２１２は、パラメータ記憶手段２０に記憶されているＮＮ内部パラメータＰおよび学習重み配分Ｗの値を用いて、映像区間重要度算出モデルＭの演算を行う。なお、ＮＮ演算手段２１２は、パラメータ記憶手段２０に設定重み配分Ｗ′が記憶されている場合、学習重み配分Ｗの代わりに設定重み配分Ｗ′を用いて、映像区間重要度算出モデルＭの演算を行う。
この映像区間重要度算出モデルＭの演算結果である出力値は、その値が大きいほど、要素別特徴ベクトルＶを有する区間映像Ｓｖの要約映像として重要度が高いことを示す。
ＮＮ演算手段２１２は、演算結果である重要度（映像区間重要度Ｓ）を映像要約手段２２に出力する。なお、映像区間重要度Ｓには、重要度を算出した区間映像Ｓｖの区間を特定する区間データ、例えば、時間情報、フレーム番号等を含む。

映像要約手段２２は、映像区間重要度算出手段２１で算出された映像区間重要度Ｓに基づいて、入力映像から重要度の高い映像を抽出して要約映像を生成するものである。
映像要約手段２２は、区間選択手段２２０と、選択区間連結手段２２１と、を備える。

区間選択手段２２０は、映像区間重要度算出手段２１で算出された映像区間重要度Ｓにおいて、重要度の高い方から順に予め定めた時間長内で区間映像の時間区間（映像区間）を選択するものである。
ここでは、区間選択手段２２０は、重要度の高い方から順に区間データをソートして、重要度の高い予め定めた個数の映像区間を選択する。なお、この個数は、外部からユーザによって設定されることとしてもよい。また、区間選択手段２２０は、予め定めた、あるいは、ユーザによって設定された時間長まで、映像区間を選択することとしてもよい。
区間選択手段２２０は、選択した映像区間の区間データ（選択区間データＳ_Ｓ）を、選択区間連結手段２２１に出力する。

選択区間連結手段２２１は、区間選択手段２２０で選択された映像区間の映像を入力映像から抽出し、連結することで要約映像を生成するものである。
この選択区間連結手段２２１は、選択区間データＳ_Ｓで特定される映像を入力映像から抽出する。そして、選択区間連結手段２２１は、抽出した区間映像を入力映像の時系列に連結して、要約映像を生成する。

ここで、図７を参照して、映像要約手段２２の処理を模式的に説明する。なお、図７は、映像のフレームを示しているが、図示を簡略化するためフレームを間引いて図示している。
図７に示すように、入力映像Ｉｖは、映像区間重要度算出手段２１によって、区間映像Ｓ_Ｖ１，…，Ｓ_Ｖ７，…に分割され、それぞれの区間映像に対して重要度（映像区間重要度Ｓ）が“０．３”，…，“０．７”，…のように算出されているものとする。
ここで、映像要約手段２２は、区間選択手段２２０によって、映像区間重要度Ｓの高い順に区間をソートし、映像区間重要度Ｓの高い方から予め定めた個数の映像区間（ここでは、区間映像Ｓ_Ｖ５，Ｓ_Ｖ２，Ｓ_Ｖ７の区間）を選択する。
そして、映像要約手段２２は、選択区間連結手段２２１によって、選択され区間に対応する区間映像（ここでは、区間映像Ｓ_Ｖ５，Ｓ_Ｖ２，Ｓ_Ｖ７）を入力映像Ｉｖから抽出し、入力映像Ｉｖの時系列に並べ替えて（ここでは、区間映像Ｓ_Ｖ２，Ｓ_Ｖ５，Ｓ_Ｖ７）連結することで、要約映像Ｖ_ＳＵＭを生成する。

以上説明したように、要約映像生成装置２は、映像区間重要度算出モデル学習装置１で学習したニューラルネットワークの映像区間重要度算出モデルを用いて、入力映像から、簡易に、品質の高い要約映像を生成することができる。
また、要約映像生成装置２は、ユーザによって、要素の重み配分を変更することができるため、品質を保持したままで、ユーザ好みの調整を行った要素映像を生成することができる。
なお、要約映像生成装置２は、図示を省略したコンピュータを、前記した各手段として機能させるための要約映像生成プログラムで動作させることができる。

＜要約映像生成装置の動作＞
次に、図８を参照（構成については適宜図６参照）して、要約映像生成装置２の動作について説明する。なお、パラメータ記憶手段２０には、予め映像区間重要度算出モデル学習装置１で学習されたパラメータ（ＮＮ内部パラメータＰおよび学習重み配分Ｗ）が記憶されているものとする。また、パラメータ記憶手段２０には、ユーザの設定によって、設定重み配分Ｗ′が記憶されている場合がある。

ステップＳ１０において、映像区間重要度算出手段２１の映像分割手段２１０は、予め定めた基準、例えば、カット点、等間隔で、入力映像を区間映像に分割する。
ステップＳ１１において、映像区間重要度算出手段２１の特徴ベクトル生成手段２１１は、ステップＳ１０で分割された区間映像ごとに、予め定めた複数の要素ごとの特徴ベクトル（要素別特徴ベクトル）を生成する。

ステップＳ１２において、映像区間重要度算出手段２１のＮＮ演算手段２１２は、パラメータ記憶手段２０に設定重み配分Ｗ′が記憶されているか否かを判定する。
ここで、パラメータ記憶手段２０に設定重み配分Ｗ′が記憶されている場合（ステップＳ１２でＹｅｓ）、ステップＳ１３において、ＮＮ演算手段２１２は、ＮＮ内部パラメータＰおよび設定重み配分Ｗ′の値を用いて、映像区間重要度算出モデルＭの演算を行うことで、映像区間重要度を算出する。

一方、パラメータ記憶手段２０に設定重み配分Ｗ′が記憶されていない場合（ステップＳ１２でＮｏ）、ステップＳ１４において、ＮＮ演算手段２１２は、ＮＮ内部パラメータＰおよび学習重み配分Ｗの値を用いて、映像区間重要度算出モデルＭの演算を行うことで、映像区間重要度を算出する。

ステップＳ１５において、ＮＮ演算手段２１２は、ステップＳ１０で分割されたすべての区間映像について映像区間重要度を算出したか否かを判定する。
ここで、すべての区間映像についての処理が完了していない場合（ステップＳ１５でＮｏ）、映像区間重要度算出手段２１は、ステップＳ１１に戻って、次の区間映像を選択して動作を続ける。

一方、すべての区間映像についての処理が完了した場合（ステップＳ１５でＹｅｓ）、ステップＳ１６において、映像要約手段２２の区間選択手段２２０は、ステップＳ１３またはＳ１４で算出された映像区間重要度の高い順に映像区間を選択する。
ステップＳ１７において、映像要約手段２２の選択区間連結手段２２１は、ステップＳ１６で選択された映像区間の映像を入力映像から抽出し、入力映像の時系列に連結することで要約映像を生成する。

以上の動作によって、要約映像生成装置２は、映像区間重要度算出モデル学習装置１で学習した映像区間重要度算出モデルのパラメータを用いて、入力映像から、簡易に、品質の高い要約映像を生成することができる。
以上、本発明の実施形態に係る映像区間重要度算出モデル学習装置１および要約映像生成装置２の構成および動作について説明したが、本発明はこの実施形態に限定されるものではない。
例えば、ここでは、映像区間重要度算出モデル学習装置１と要約映像生成装置２とを、独立した装置として構成した。しかし、要約映像生成装置２は、内部に映像区間重要度算出モデル学習装置１の構成を備えて一体化した装置としてもよい。
図９に、映像区間重要度算出モデル学習装置１の構成を備えた要約映像生成装置２Ｂの構成例を示す。図９に示す要約映像生成装置２Ｂの各構成は、図２，図６で説明した構成と同じであるため、説明を省略する。
これによって、要約映像生成装置２Ｂは、映像区間重要度算出モデルの学習結果を素早く要約映像の生成に反映させることができる。

１映像区間重要度算出モデル学習装置
１０特徴ベクトル生成手段
１１ニューラルネットワーク学習手段
１１０正例ＮＮ演算手段
１１１負例ＮＮ演算手段
１１２パラメータ更新手段
１２パラメータ記憶手段
２，２Ｂ要約映像生成装置
２０パラメータ記憶手段
２１映像区間重要度算出手段
２１０映像分割手段
２１１特徴ベクトル生成手段
２１２ＮＮ演算手段
２２映像要約手段
２２０区間選択手段
２２１選択区間連結手段

Claims

映像の所定区間ごとの重要度を算出するためのニューラルネットワークのモデルを学習する映像区間重要度算出モデル学習装置であって、
要約映像に使用された映像である正例区間映像と前記要約映像に使用されなかった映像である負例区間映像とをペアとする学習映像から、それぞれ予め定めた要素ごとの特徴ベクトルとして、正例の要素別特徴ベクトルと負例の要素別特徴ベクトルとを生成する特徴ベクトル生成手段と、
前記モデルを用いて、前記正例の要素別特徴ベクトルを入力して演算した重要度から前記負例の要素別特徴ベクトルを入力して演算した重要度を減じた値が大きくなるように前記モデルのパラメータを学習するニューラルネットワーク学習手段と、
を備えることを特徴とする映像区間重要度算出モデル学習装置。
前記モデルは、
前記要素別特徴ベクトルの要素数を入力ノード数として前記要素別特徴ベクトルを入力し、予め定めた出力ノード数の出力値を演算する複数の要素別ニューラルネットワークと、
前記複数の要素別ニューラルネットワークの出力値を重み付き加算して統合特徴ベクトルを生成する重み付き加算部と、
前記統合特徴ベクトルを入力し、単一のノード数の出力値を演算する統合ニューラルネットワークと、で構成され、
前記ニューラルネットワーク学習手段は、前記パラメータとして、前記要素別ニューラルネットワークおよび前記統合ニューラルネットワークの内部パラメータと、前記重み付き加算部における重み配分と、を学習することを特徴とする請求項１に記載の映像区間重要度算出モデル学習装置。
コンピュータを、請求項１または請求項２に記載の映像区間重要度算出モデル学習装置として機能させるための映像区間重要度算出モデル学習プログラム。
入力映像から要約映像を生成する要約映像生成装置であって、
前記入力映像を予め定めた基準で時間方向に分割する映像分割手段と、
前記映像分割手段で分割された区間映像ごとに、予め定めた要素ごとの特徴ベクトルである要素別特徴ベクトルを生成する特徴ベクトル生成手段と、
前記要素別特徴ベクトルを入力して要約映像としての重要度を出力する予め学習したニューラルネットワークのモデルを用いて、前記区間映像ごとに前記重要度を演算するニューラルネットワーク演算手段と、
前記ニューラルネットワーク演算手段で演算された重要度の高い方から順に予め定めた時間長内で前記区間映像の区間を選択する区間選択手段と、
前記区間選択手段で選択された区間の映像を前記入力映像から抽出し連結することで要約映像を生成する選択区間連結手段と、を備え、
前記モデルは、
前記要素別特徴ベクトルの要素数を入力ノード数として前記要素別特徴ベクトルを入力し、予め定めた出力ノード数の出力値を演算する複数の要素別ニューラルネットワークと、
前記複数の要素別ニューラルネットワークの出力値を重み付き加算して統合特徴ベクトルを生成する重み付き加算部と、
前記統合特徴ベクトルを入力し、単一のノード数の出力値を演算する統合ニューラルネットワークと、で構成され、
前記ニューラルネットワーク演算手段は、予め学習したパラメータである前記要素別ニューラルネットワークおよび前記統合ニューラルネットワークの内部パラメータと、前記重み付き加算部における重み配分と、を用いて前記重要度を演算することを特徴とする要約映像生成装置。
前記ニューラルネットワーク演算手段は、
予め学習した前記重み配分の代わりに、外部から設定された重み配分を用いて、前記重要度を演算することを特徴とする請求項４に記載の要約映像生成装置。
コンピュータを、請求項４または請求項５に記載の要約映像生成装置として機能させるための要約映像生成プログラム。