JP7510789B2 - 映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラム - Google Patents

映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラム Download PDF

Info

Publication number
JP7510789B2
JP7510789B2 JP2020097180A JP2020097180A JP7510789B2 JP 7510789 B2 JP7510789 B2 JP 7510789B2 JP 2020097180 A JP2020097180 A JP 2020097180A JP 2020097180 A JP2020097180 A JP 2020097180A JP 7510789 B2 JP7510789 B2 JP 7510789B2
Authority
JP
Japan
Prior art keywords
video
section
feature vector
importance
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020097180A
Other languages
English (en)
Other versions
JP2021189967A (ja
Inventor
貴裕 望月
真綱 藤森
桃子 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2020097180A priority Critical patent/JP7510789B2/ja
Publication of JP2021189967A publication Critical patent/JP2021189967A/ja
Application granted granted Critical
Publication of JP7510789B2 publication Critical patent/JP7510789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラムに関する。
近年、ソーシャルメディアサービスの発達等により、放送番組や自主制作した映像をPRすることを主な目的として、要約映像をネットワーク上で配信するケースが増えている。しかし、要約映像の編集作業は大きな労力を要するため、自動で要約映像を生成する技術が求められている。
従来、要約映像を自動的に生成する技術として、例えば、特許文献1~4にその手法が提案されている。
特許文献1に記載の手法は、ユーザの視聴履歴に基づいて、放送番組から重要度の高い映像区間の映像を抽出して要約映像を生成する手法である。
特許文献2に記載の手法は、映像を分割した分割映像のキーフレームの画像特徴に基づいて、映像から重要度の高い映像区間を抽出して要約映像を生成する手法である。
特許文献3に記載の手法は、映像区間をノードとし、ノード間の映像特徴の類似度をエッジとするグラフを解析し、映像から重要度の高い映像区間の映像を抽出して要約映像を生成する手法である。
特許文献4に記載の手法は、まず、映像を複数のカット映像に分割し、複数の要素に関するスコアを算出する。そして、この手法は、ユーザが設定した各要素の重み配分に基づいてカット映像の総合スコアを算出し、総合スコアの高いカット映像を抽出して要約映像を生成する手法である。
特許第4299843号公報 特許第5537285号公報 特許第5898117号公報 特開2018-206292号公報
特許文献1に記載の手法は、元映像以外に視聴履歴のような特殊なデータを必要とするため、放送番組の映像からしか要約映像を生成することができないという問題がある。
また、特許文献1~3に記載の手法は、元映像から単に映像特徴のみで要約映像を生成するもので、映像編集者が行うような映像の抽出手法、例えば、元映像のどの要素に重点をおいて映像を抽出するか等を学習する仕組みがない。そのため、これらの手法に対しては、要約映像の品質を向上させたいという要望がある。
特許文献4に記載の手法は、視聴履歴のような特殊なデータを用いず、映像を抽出する要素の重み配分をユーザが設定できるため、要約映像の品質を向上させることができる点で他の手法よりも優れている。しかし、この手法は、ユーザが必ず重み配分を設定しなければならないため、重み配分を設定しなくても簡易に最適化した要約映像を生成したいという要望がある。
本発明は、このような従来の問題点、要望に鑑みてなされたもので、映像以外の特殊なデータを必要とせず、簡易に要約映像を生成することが可能な映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る映像区間重要度算出モデル学習装置は、映像の所定区間ごとの重要度を算出するためのニューラルネットワークのモデルを学習する映像区間重要度算出モデル学習装置であって、特徴ベクトル生成手段と、ニューラルネットワーク学習手段と、を備える構成とした。
かかる構成において、映像区間重要度算出モデル学習装置は、特徴ベクトル生成手段によって、要約映像に使用された映像である正例区間映像とその要約映像に使用されなかった映像である負例区間映像とをペアとする学習映像から、それぞれ予め定めた要素ごとの特徴ベクトルとして、正例の要素別特徴ベクトルと負例の要素別特徴ベクトルとを生成する。
このように、要約映像に使用された映像とその要約映像に使用されなかった映像とを用いることで、特徴ベクトル生成手段は、人物、動き等の特徴ベクトルの基準となる要素ごとに、要素画像の特徴および非要素画像の特徴を数値化することができる。
そして、映像区間重要度算出モデル学習装置は、ニューラルネットワーク学習手段によって、学習対象であるニューラルネットワークのモデルを用いて、正例の要素別特徴ベクトルを入力して演算した重要度から負例の要素別特徴ベクトルを入力して演算した重要度を減じた値が大きくなるようにモデルのパラメータを学習する。
これによって、このモデルは、要約映像として重要度が高い映像については、より大きい値を出力するように学習されることになる。
また、前記課題を解決するため、本発明に係る映像区間重要度算出モデル学習プログラムは、コンピュータを、前記した各手段として機能させるためのプログラムとして実現することができる。
また、前記課題を解決するため、本発明に係る要約映像生成装置は、入力映像から要約映像を生成する要約映像生成装置であって、映像分割手段と、特徴ベクトル生成手段と、ニューラルネットワーク演算手段と、区間選択手段と、選択区間連結手段と、を備える構成とした。
かかる構成において、要約映像生成装置は、映像分割手段によって、入力映像を個数、時間間隔等の予め定めた基準で時間方向に分割する。
そして、要約映像生成装置は、特徴ベクトル生成手段によって、映像分割手段で分割された区間映像ごとに、人物、動き等の予め定めた要素ごとの特徴ベクトルである要素別特徴ベクトルを生成する。
さらに、要約映像生成装置は、ニューラルネットワーク演算手段によって、要素別特徴ベクトルを入力して要約映像としての重要度を出力する予め学習したニューラルネットワークのモデルを用いて、区間映像ごとに重要度を演算する。
そして、要約映像生成装置は、区間選択手段によって、ニューラルネットワーク演算手段で演算された重要度の高い方から順に、予め定めた時間長内で区間映像の区間を選択する。
そして、要約映像生成装置は、選択区間連結手段によって、区間選択手段で選択された区間の映像を入力映像から抽出し連結することで要約映像を生成する。
これによって、入力映像内の区間映像の中で、要約映像としての重要度が高い映像を抽出した要約映像が生成されることになる。
また、前記課題を解決するため、本発明に係る要約映像生成プログラムは、コンピュータを、前記した各手段として機能させるためのプログラムとして実現することができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、従来の要約映像の生成手法をニューラルネットワークのモデルとして学習することができる。
これによって、本発明は、入力映像以外の特殊なデータを用いず、簡易に要約映像を生成することができる。
本発明の要約映像生成手法の概要を説明するための説明図である。 本発明の実施形態に係る映像区間重要度算出モデル学習装置の構成を示すブロック構成図である。 本発明において、学習映像(学習データ)である正例区間映像および負例区間映像を説明するための説明図である。 本発明において、映像区間重要度算出モデルのニューラルネットワークの構造を示すネットワーク図である。 本発明の実施形態に係る映像区間重要度算出モデル学習装置の動作を示すフローチャートである。 本発明の実施形態に係る要約映像生成装置の構成を示すブロック構成図である。 本発明において、映像区間重要度に基づく要約映像の生成手法を説明するための説明図である。 本発明の実施形態に係る要約映像生成装置の動作を示すフローチャートである。 本発明の実施形態に係る要約映像生成装置の変形例の構成を示すブロック構成図である。
<要約映像生成手法の概要>
最初に、図1を参照して、本発明に係る要約映像生成手法(以下、本手法)の概要について説明する。
図1に示すように、本手法は、映像区間重要度算出モデル学習装置1と、要約映像生成装置2とで実現することができる。
映像区間重要度算出モデル学習装置1は、学習映像を用いて、映像の所定区間ごとの重要度を算出するためのニューラルネットワークのモデル(映像区間重要度算出モデル)を学習するものである。
学習映像は、ニューラルネットワークを学習するための学習データである。学習映像は、要約映像に使用された映像と、その要約映像に使用されなかった映像とをペアとする複数のペア映像である。
映像区間重要度算出モデル学習装置1は、映像区間重要度算出モデルのパラメータとして、ニューラルネットワークの内部パラメータPと、映像のどの要素(人物、動き等)に重点をおいて要素映像を生成するかを示す重み配分(学習重み配分W)とを学習する。
要約映像生成装置2は、映像区間重要度算出モデル学習装置1で学習した映像区間重要度算出モデルのパラメータを用いて、入力映像から要約映像を生成するものである。
なお、要約映像生成装置2は、映像区間重要度算出モデルのパラメータとして学習した学習重み配分Wに代えて、外部から設定される設定重み配分W′を用いて、要素の重み配分を変更して要素画像を生成する機能を有する。
これによって、要約映像生成装置2は、映像以外のデータを用いずに、要素の重み配分をユーザが設定し要約映像を生成することができる。
また、要約映像生成装置2は、ユーザが要素の重み配分を設定しなくても予め学習した重み配分を用いることができるため、簡易に最適化した要約映像を生成することができる。
以下、映像区間重要度算出モデル学習装置1および要約映像生成装置2の構成および動作について説明する。
<映像区間重要度算出モデル学習装置の構成>
まず、図2を参照して、映像区間重要度算出モデル学習装置1の構成について説明する。
図2に示すように、映像区間重要度算出モデル学習装置1は、特徴ベクトル生成手段10と、ニューラルネットワーク学習手段11と、パラメータ記憶手段12と、を備える。
特徴ベクトル生成手段10は、学習データである学習映像LVから、予め定めた複数の要素ごとに特徴ベクトル(要素別特徴ベクトル)を生成するものである。
この特徴ベクトル生成手段10は、要約映像に使用された映像である正例区間映像LVとその要約映像に使用されなかった映像である負例区間映像LVとをペアとする学習映像LVから、それぞれ予め定めた要素ごとの特徴ベクトルとして、正例要素別特徴ベクトルVと負例要素別特徴ベクトルVとを生成する。
学習映像LVは、例えば、自作映像とそれを編集した要約映像、放送波から取得した番組映像と通信回線で配信されたその要約映像等を用いて、要約映像を正例区間映像LVとし、要約映像に類似するフレーム画像を元の映像(自作映像、番組映像)から削除した映像を負例区間映像LVとして生成することができる。もちろん、要約映像が元の映像のどの区間を使用したのかが既知であれば、負例区間映像LVは、元の映像から要約映像の区間を削除して生成してもよい。
ここで、図3を参照して、学習映像LVについて模式的に説明する。なお、図3に示す四角形は、映像のフレームを示しているが、図示を簡略化するためフレームを間引いて図示している。
図3に示すように、元映像VORGから要約映像VSUMを生成した場合、抽出した区間映像LVP1,LVP2,…を、学習映像LVの正例区間映像LVとする。
また、元映像VORGから要約映像VSUMで使用した区間映像LVP1,LVP2,…を削除した区間映像LVN1,LVN2,LVN3,…を、学習映像LVの負例区間映像LVとする。
図2に戻って、映像区間重要度算出モデル学習装置1の構成について説明を続ける。
特徴ベクトル生成手段10が生成する要素別特徴ベクトルの要素とは、要約映像を生成する際の演出を特定する項目である。例えば、要素は、映像内の被写体(人物等)の種類、被写体の顔領域、動き情報等である。
特徴ベクトル生成手段10は、要素として、映像内の被写体の種類を用いる場合、例えば、映像を入力し複数の分類の値(確率値)を出力する予め学習済のニューラルネットワーク(VGG畳み込みニューラルネットワーク等)によって、分類の数に対応する特徴ベクトルを生成する。
また、特徴ベクトル生成手段10は、要素として、被写体の顔領域を用いる場合、一般的な顔領域検出技術によって、映像から顔領域を検出し、勾配ヒストグラム、色・テクスチャ特徴量等の特徴ベクトルを生成する。なお、映像から顔領域の特徴ベクトルを生成する手法は、例えば、特開2017-33372号公報に記載の手法を用いることができる。
また、特徴ベクトル生成手段10は、要素として、動き情報を用いる場合、映像の予め定めた大きさのブロックごとに動きベクトルを求め、移動量ごとのヒストグラムを特徴ベクトルとして生成する。
なお、特徴ベクトル生成手段10が生成する特徴ベクトルの要素は、これらに限定されるものではない。例えば、特許文献4(特開2018-206292号公報)に記載の要素であるテロップや顔領域の面積比率、CG映像らしさの確率等、映像の演出に関連するものであればどのような要素を用いてもよい。
特徴ベクトル生成手段10は、正例区間映像LVと負例区間映像LVとについてそれぞれ特徴ベクトルを生成する。
ここで、正例区間映像LVを構成する区間映像の数をN、負例区間映像LVを構成する区間映像の数をN、要素の数をKとしたとき、特徴ベクトル生成手段10は、正例区間映像LVから、要素Eに関する特徴ベクトルVE1,1,…,VE1,NP、要素Eに関する特徴ベクトルVE2,1,…,VE2,NP、…、要素Eに関する特徴ベクトルVEK,1,…,VEK,NPを、正例要素別特徴ベクトルVとして生成する。
また、特徴ベクトル生成手段10は、負例区間映像LVから、要素Eに関する特徴ベクトルVE1,1,…,VE1,NN、要素Eに関する特徴ベクトルVE2,1,…,VE2,NN、…、要素Eに関する特徴ベクトルVEK,1,…,VEK,NNを、負例要素別特徴ベクトルVとして生成する。
特徴ベクトル生成手段10は、生成したペアとなる正例要素別特徴ベクトルVおよび負例要素別特徴ベクトルVを、ニューラルネットワーク学習手段11に出力する。
ニューラルネットワーク学習手段11は、特徴ベクトル生成手段10で生成された要素別特徴ベクトル(正例要素別特徴ベクトル,負例要素別特徴ベクトル)を用いて、映像区間重要度算出モデルのパラメータとして、ニューラルネットワークの内部パラメータと、要素の重み配分(学習重み配分)とを学習するものである。
このニューラルネットワーク学習手段11は、映像区間重要度算出モデルを用いて、正例要素別特徴ベクトルを入力して演算した重要度から負例要素別特徴ベクトルを入力して演算した重要度を減じた値が大きくなるように映像区間重要度算出モデルのパラメータを学習する。
ここで、図4を参照して、ニューラルネットワーク学習手段11が内部パラメータと、要素の重み配分とを学習する対象となる映像区間重要度算出モデルの構造について説明する。
図4に示すように、映像区間重要度算出モデルMは、複数の要素別ニューラルネットワークNE,…,NEと、重み付き加算部NAと、統合ニューラルネットワークNMと、で構成される。
要素別ニューラルネットワークNE,…,NEは、要素別に複数のニューラルネットワークで構成される。要素別ニューラルネットワークNE,…,NEは、要素別特徴ベクトルVE,…,VEの要素数を入力ノード数として要素別特徴ベクトルを入力し、予め定めた出力ノード数の出力値を演算するニューラルネットワークである。
要素別ニューラルネットワークNEは、要素Eに関するノード数Dの数値列である要素別特徴ベクトルVEを入力し、ノード数Dの数値を出力する。
要素別ニューラルネットワークNE,…,NEは、NEと同じニューラルネットワークであるが、入力ノード数は、それぞれの要素に対応する数であり、出力ノード数は、NEと同じノード数Dである。
要素別ニューラルネットワークNE,…,NEは、ノード数Dの演算結果をそれぞれ重み付き加算部NAに出力する。
重み付き加算部NAは、要素別ニューラルネットワークNE,…,NEの演算結果を、重み配分W,…,Wに応じて重み付け加算する。
この重み付き加算部NAは、要素別ニューラルネットワークごとの出力値に対して、重み配分W,…,Wをそれぞれ乗算してノードごとに加算することで重み付け加算を行い、ノード数Dの数値列である統合特徴ベクトルVを生成する。
重み付き加算部NAは、生成した統合特徴ベクトルVを統合ニューラルネットワークNMに出力する。
統合ニューラルネットワークNMは、ノード数Dの統合特徴ベクトルVを入力し、単一のノード数“1”の出力値を演算するニューラルネットワークである。
この映像区間重要度算出モデルMにおいて、学習対象は、要素別ニューラルネットワークNE,…,NEおよび統合ニューラルネットワークNMの内部パラメータと、重み配分W,…,Wである。
図2に戻って、映像区間重要度算出モデル学習装置1の構成について説明を続ける。
ニューラルネットワーク学習手段11は、正例NN演算手段110と、負例NN演算手段111と、パラメータ更新手段112と、を備える。
正例NN(ニューラルネットワーク)演算手段110は、特徴ベクトル生成手段10で生成された正例要素別特徴ベクトルVを入力して、映像区間重要度算出モデルM(図4参照)を演算するものである。
正例NN演算手段110は、パラメータ記憶手段12に記憶されているNN内部パラメータPおよび学習重み配分Wの値を用いて、映像区間重要度算出モデルMの演算を行う。
なお、正例NN演算手段110は、パラメータ更新手段112から、再計算の指示があった場合、再度、同一の正例要素別特徴ベクトルVを入力して演算を行う。
正例NN演算手段110は、演算結果をパラメータ更新手段112に出力する。
負例NN(ニューラルネットワーク)演算手段111は、特徴ベクトル生成手段10で生成された負例要素別特徴ベクトルVを入力して、映像区間重要度算出モデルM(図4参照)を演算するものである。
負例NN演算手段111は、パラメータ記憶手段12に記憶されているNN内部パラメータPおよび学習重み配分Wの値を用いて、映像区間重要度算出モデルMの演算を行う。
なお、負例NN演算手段111は、パラメータ更新手段112から、再計算の指示があった場合、再度、同一の負例要素別特徴ベクトルVを入力して演算を行う。
負例NN演算手段111は、演算結果をパラメータ更新手段112に出力する。
パラメータ更新手段112は、正例NN演算手段110および負例NN演算手段111の演算結果に基づいて、映像区間重要度算出モデルMの内部パラメータ(NN内部パラメータP)、重み配分(学習重み配分W)を更新するものである。
このパラメータ更新手段112は、正例NN演算手段110の演算結果(重要度)から負例NN演算手段111の演算結果(重要度)を減じた値が大きくなるように、パラメータ(NN内部パラメータPおよび学習重み配分W)を更新する。
パラメータ更新手段112は、更新後のパラメータ(NN内部パラメータPおよび学習重み配分W)をパラメータ記憶手段12に記憶する。
このパラメータ更新手段112によるパラメータの更新は、一般的な誤差逆伝播法を用いて行うことできる。
このパラメータ更新手段112は、パラメータ更新後、正例NN演算手段110および負例NN演算手段111に再計算の指示を行う。
そして、パラメータ更新手段112は、予め定めた回数、あるいは、パラメータ更新の変動量が予め定めた閾値を下回った場合、正例NN演算手段110および負例NN演算手段111に、新たな要素別特徴ベクトルによる演算を指示する。
これによって、ニューラルネットワーク学習手段11は、図4の映像区間重要度算出モデルMにおいて、正例要素別特徴ベクトルV(要素別特徴ベクトルV)を入力した場合の出力値が、負例要素別特徴ベクトルV(要素別特徴ベクトルV)を入力した場合の出力値に比べて大きくなるように、パラメータを学習することができる。
このように学習された映像区間重要度算出モデルによって、ある区間映像の要素別特徴ベクトルを入力された場合、その出力値によって、その区間映像が要約映像として重要か否かを示す重要度を算出することができる。
パラメータ記憶手段12は、ニューラルネットワーク学習手段11で学習されるパラメータ(NN内部パラメータPおよび学習重み配分W)を記憶するものである。
このパラメータ記憶手段12は、ハードディスク等の一般的な記憶媒体で構成することができる。
以上説明したように、映像区間重要度算出モデル学習装置1は、正例区間映像LVと負例区間映像LVとを学習映像として、映像内の区間映像の要素別特徴ベクトルから、当該区間映像が要約映像として重要か否かを判定するための重要度を算出するニューラルネットワークのモデルを学習することができる。
なお、映像区間重要度算出モデル学習装置1は、図示を省略したコンピュータを、前記した各手段として機能させるための映像区間重要度算出モデル学習プログラムで動作させることができる。
<映像区間重要度算出モデル学習装置の動作>
次に、図5を参照(構成については適宜図2参照)して、映像区間重要度算出モデル学習装置1の動作について説明する。なお、学習映像LVとして、予め要約映像として使用した正例区間映像LVと、その要約映像として使用されなかった負例区間映像LVとをペアとする複数のペア映像が準備されているものとする。
また、ここでは、一組のペア映像についての学習動作について説明するが、映像区間重要度算出モデル学習装置1は、ペア映像の数だけ以下の動作を繰り返す。
ステップS1において、特徴ベクトル生成手段10は、要約映像に使用された映像である正例区間映像LVと、その要約映像に使用されなかった映像である負例区間映像LVと、をペアとするペア映像から、それぞれ予め定めた要素ごとの生成手法により、正例および負例のそれぞれで要素別特徴ベクトル(正例要素別特徴ベクトルVおよび負例要素別特徴ベクトルV)を生成する。
ステップS2において、ニューラルネットワーク学習手段11の正例NN演算手段110は、ステップS1で生成された正例要素別特徴ベクトルVを入力して、映像区間重要度算出モデルM(図4参照)を演算する。
ステップS3において、ニューラルネットワーク学習手段11の負例NN演算手段111は、ステップS1で生成された負例要素別特徴ベクトルVを入力して、映像区間重要度算出モデルM(図4参照)を演算する。
なお、ステップS2,S3の順番はどちらを先に行ってもよいが、ここでは並列で行う例を示している。
ステップS4において、ニューラルネットワーク学習手段11のパラメータ更新手段112は、ステップS2の演算結果(重要度)から、ステップS3の演算結果(重要度)を減じた値が大きくなるように、パラメータ(NN内部パラメータPおよび学習重み配分W)を更新する。
ステップS5において、パラメータ更新手段112は、学習が完了したか否かを判定する。例えば、パラメータ更新手段112は、予め定めた回数、あるいは、パラメータ更新の変動量が予め定めた閾値を下回った場合、一組の学習映像における学習が完了したと判定する。
ここで、まだ、学習が完了していないと判定した場合(ステップS5でNo)、映像区間重要度算出モデル学習装置1は、ステップS2,S3に戻って動作を続ける。
一方、学習が完了したと判定した場合(ステップS5でYes)、映像区間重要度算出モデル学習装置1は、一組のペア映像を用いた学習を終了する。
以上の動作をペア映像の数だけ繰り返すことによって、映像区間重要度算出モデル学習装置1は、正例区間映像LVと負例区間映像LVとをペアとするペア映像から、映像区間重要度算出モデルのパラメータを学習することができる。
<要約映像生成装置の構成>
次に、図6を参照して、要約映像生成装置2の構成について説明する。
図6に示すように、要約映像生成装置2は、パラメータ記憶手段20と、映像区間重要度算出手段21と、映像要約手段22と、を備える。
パラメータ記憶手段20は、映像区間重要度算出モデル学習装置1で学習されたパラメータ(NN内部パラメータPおよび学習重み配分W)を予め記憶するものである。
このパラメータ記憶手段20は、ハードディスク等の一般的な記憶媒体で構成することができる。
また、パラメータ記憶手段20は、学習重み配分Wに代わる重み配分として、図示を省略した入力手段を介して、ユーザが設定した重み配分(設定重み配分W′)を記憶することもできる。
映像区間重要度算出手段21は、要約映像を生成するための元映像(入力映像)を入力し、予め定めた基準で分割した映像が要約映像として重要か否かの度合いを示す重要度を算出するものである。
映像区間重要度算出手段21は、映像分割手段210と、特徴ベクトル生成手段211と、NN演算手段212と、を備える。
映像分割手段210は、入力映像を予め定めた基準で時間方向に分割するものである。
この映像分割手段210における映像分割手法は、一般的な手法を用いればよい。例えば、映像分割手段210は、ショットの切り替え点であるカット点を基準として、カット点ごとに分割してもよいし、予め定めた時間間隔を基準として、その時間間隔で分割してもよい。なお、カット点の検出は、例えば、特開2008-33749号公報に記載の手法を用いることができる。
映像分割手段210は、分割した区間映像Svを特徴ベクトル生成手段211に出力する。
特徴ベクトル生成手段211は、映像分割手段210で分割された区間映像Svから、予め定めた複数の要素ごとに特徴ベクトル(要素別特徴ベクトル)を生成するものである。この特徴ベクトル生成手段211は、図2の特徴ベクトル生成手段10と同じ要素ごとに、特徴ベクトルを生成する。なお、要素およびその要素に対応する特徴ベクトルについては、特徴ベクトル生成手段10で説明した内容と同じであるため、ここでは、説明を省略する。
特徴ベクトル生成手段211は、区間映像Svごとに生成した要素別特徴ベクトルVをNN演算手段212に出力する。
NN(ニューラルネットワーク)演算手段212は、特徴ベクトル生成手段211で生成された要素別特徴ベクトルVを入力して、映像区間重要度算出モデルM(図4参照)を演算するものである。
NN演算手段212は、パラメータ記憶手段20に記憶されているNN内部パラメータPおよび学習重み配分Wの値を用いて、映像区間重要度算出モデルMの演算を行う。なお、NN演算手段212は、パラメータ記憶手段20に設定重み配分W′が記憶されている場合、学習重み配分Wの代わりに設定重み配分W′を用いて、映像区間重要度算出モデルMの演算を行う。
この映像区間重要度算出モデルMの演算結果である出力値は、その値が大きいほど、要素別特徴ベクトルVを有する区間映像Svの要約映像として重要度が高いことを示す。
NN演算手段212は、演算結果である重要度(映像区間重要度S)を映像要約手段22に出力する。なお、映像区間重要度Sには、重要度を算出した区間映像Svの区間を特定する区間データ、例えば、時間情報、フレーム番号等を含む。
映像要約手段22は、映像区間重要度算出手段21で算出された映像区間重要度Sに基づいて、入力映像から重要度の高い映像を抽出して要約映像を生成するものである。
映像要約手段22は、区間選択手段220と、選択区間連結手段221と、を備える。
区間選択手段220は、映像区間重要度算出手段21で算出された映像区間重要度Sにおいて、重要度の高い方から順に予め定めた時間長内で区間映像の時間区間(映像区間)を選択するものである。
ここでは、区間選択手段220は、重要度の高い方から順に区間データをソートして、重要度の高い予め定めた個数の映像区間を選択する。なお、この個数は、外部からユーザによって設定されることとしてもよい。また、区間選択手段220は、予め定めた、あるいは、ユーザによって設定された時間長まで、映像区間を選択することとしてもよい。
区間選択手段220は、選択した映像区間の区間データ(選択区間データS)を、選択区間連結手段221に出力する。
選択区間連結手段221は、区間選択手段220で選択された映像区間の映像を入力映像から抽出し、連結することで要約映像を生成するものである。
この選択区間連結手段221は、選択区間データSで特定される映像を入力映像から抽出する。そして、選択区間連結手段221は、抽出した区間映像を入力映像の時系列に連結して、要約映像を生成する。
ここで、図7を参照して、映像要約手段22の処理を模式的に説明する。なお、図7は、映像のフレームを示しているが、図示を簡略化するためフレームを間引いて図示している。
図7に示すように、入力映像Ivは、映像区間重要度算出手段21によって、区間映像SV1,…,SV7,…に分割され、それぞれの区間映像に対して重要度(映像区間重要度S)が“0.3”,…,“0.7”,…のように算出されているものとする。
ここで、映像要約手段22は、区間選択手段220によって、映像区間重要度Sの高い順に区間をソートし、映像区間重要度Sの高い方から予め定めた個数の映像区間(ここでは、区間映像SV5,SV2,SV7の区間)を選択する。
そして、映像要約手段22は、選択区間連結手段221によって、選択され区間に対応する区間映像(ここでは、区間映像SV5,SV2,SV7)を入力映像Ivから抽出し、入力映像Ivの時系列に並べ替えて(ここでは、区間映像SV2,SV5,SV7)連結することで、要約映像VSUMを生成する。
以上説明したように、要約映像生成装置2は、映像区間重要度算出モデル学習装置1で学習したニューラルネットワークの映像区間重要度算出モデルを用いて、入力映像から、簡易に、品質の高い要約映像を生成することができる。
また、要約映像生成装置2は、ユーザによって、要素の重み配分を変更することができるため、品質を保持したままで、ユーザ好みの調整を行った要素映像を生成することができる。
なお、要約映像生成装置2は、図示を省略したコンピュータを、前記した各手段として機能させるための要約映像生成プログラムで動作させることができる。
<要約映像生成装置の動作>
次に、図8を参照(構成については適宜図6参照)して、要約映像生成装置2の動作について説明する。なお、パラメータ記憶手段20には、予め映像区間重要度算出モデル学習装置1で学習されたパラメータ(NN内部パラメータPおよび学習重み配分W)が記憶されているものとする。また、パラメータ記憶手段20には、ユーザの設定によって、設定重み配分W′が記憶されている場合がある。
ステップS10において、映像区間重要度算出手段21の映像分割手段210は、予め定めた基準、例えば、カット点、等間隔で、入力映像を区間映像に分割する。
ステップS11において、映像区間重要度算出手段21の特徴ベクトル生成手段211は、ステップS10で分割された区間映像ごとに、予め定めた複数の要素ごとの特徴ベクトル(要素別特徴ベクトル)を生成する。
ステップS12において、映像区間重要度算出手段21のNN演算手段212は、パラメータ記憶手段20に設定重み配分W′が記憶されているか否かを判定する。
ここで、パラメータ記憶手段20に設定重み配分W′が記憶されている場合(ステップS12でYes)、ステップS13において、NN演算手段212は、NN内部パラメータPおよび設定重み配分W′の値を用いて、映像区間重要度算出モデルMの演算を行うことで、映像区間重要度を算出する。
一方、パラメータ記憶手段20に設定重み配分W′が記憶されていない場合(ステップS12でNo)、ステップS14において、NN演算手段212は、NN内部パラメータPおよび学習重み配分Wの値を用いて、映像区間重要度算出モデルMの演算を行うことで、映像区間重要度を算出する。
ステップS15において、NN演算手段212は、ステップS10で分割されたすべての区間映像について映像区間重要度を算出したか否かを判定する。
ここで、すべての区間映像についての処理が完了していない場合(ステップS15でNo)、映像区間重要度算出手段21は、ステップS11に戻って、次の区間映像を選択して動作を続ける。
一方、すべての区間映像についての処理が完了した場合(ステップS15でYes)、ステップS16において、映像要約手段22の区間選択手段220は、ステップS13またはS14で算出された映像区間重要度の高い順に映像区間を選択する。
ステップS17において、映像要約手段22の選択区間連結手段221は、ステップS16で選択された映像区間の映像を入力映像から抽出し、入力映像の時系列に連結することで要約映像を生成する。
以上の動作によって、要約映像生成装置2は、映像区間重要度算出モデル学習装置1で学習した映像区間重要度算出モデルのパラメータを用いて、入力映像から、簡易に、品質の高い要約映像を生成することができる。
以上、本発明の実施形態に係る映像区間重要度算出モデル学習装置1および要約映像生成装置2の構成および動作について説明したが、本発明はこの実施形態に限定されるものではない。
例えば、ここでは、映像区間重要度算出モデル学習装置1と要約映像生成装置2とを、独立した装置として構成した。しかし、要約映像生成装置2は、内部に映像区間重要度算出モデル学習装置1の構成を備えて一体化した装置としてもよい。
図9に、映像区間重要度算出モデル学習装置1の構成を備えた要約映像生成装置2Bの構成例を示す。図9に示す要約映像生成装置2Bの各構成は、図2,図6で説明した構成と同じであるため、説明を省略する。
これによって、要約映像生成装置2Bは、映像区間重要度算出モデルの学習結果を素早く要約映像の生成に反映させることができる。
1 映像区間重要度算出モデル学習装置
10 特徴ベクトル生成手段
11 ニューラルネットワーク学習手段
110 正例NN演算手段
111 負例NN演算手段
112 パラメータ更新手段
12 パラメータ記憶手段
2,2B 要約映像生成装置
20 パラメータ記憶手段
21 映像区間重要度算出手段
210 映像分割手段
211 特徴ベクトル生成手段
212 NN演算手段
22 映像要約手段
220 区間選択手段
221 選択区間連結手段

Claims (6)

  1. 映像の所定区間ごとの重要度を算出するためのニューラルネットワークのモデルを学習する映像区間重要度算出モデル学習装置であって、
    要約映像に使用された映像である正例区間映像と前記要約映像に使用されなかった映像である負例区間映像とをペアとする学習映像から、それぞれ予め定めた要素ごとの特徴ベクトルとして、正例の要素別特徴ベクトルと負例の要素別特徴ベクトルとを生成する特徴ベクトル生成手段と、
    前記モデルを用いて、前記正例の要素別特徴ベクトルを入力して演算した重要度から前記負例の要素別特徴ベクトルを入力して演算した重要度を減じた値が大きくなるように前記モデルのパラメータを学習するニューラルネットワーク学習手段と、
    を備えることを特徴とする映像区間重要度算出モデル学習装置。
  2. 前記モデルは、
    前記要素別特徴ベクトルの要素数を入力ノード数として前記要素別特徴ベクトルを入力し、予め定めた出力ノード数の出力値を演算する複数の要素別ニューラルネットワークと、
    前記複数の要素別ニューラルネットワークの出力値を重み付き加算して統合特徴ベクトルを生成する重み付き加算部と、
    前記統合特徴ベクトルを入力し、単一のノード数の出力値を演算する統合ニューラルネットワークと、で構成され、
    前記ニューラルネットワーク学習手段は、前記パラメータとして、前記要素別ニューラルネットワークおよび前記統合ニューラルネットワークの内部パラメータと、前記重み付き加算部における重み配分と、を学習することを特徴とする請求項1に記載の映像区間重要度算出モデル学習装置。
  3. コンピュータを、請求項1または請求項2に記載の映像区間重要度算出モデル学習装置として機能させるための映像区間重要度算出モデル学習プログラム。
  4. 入力映像から要約映像を生成する要約映像生成装置であって、
    前記入力映像を予め定めた基準で時間方向に分割する映像分割手段と、
    前記映像分割手段で分割された区間映像ごとに、予め定めた要素ごとの特徴ベクトルである要素別特徴ベクトルを生成する特徴ベクトル生成手段と、
    前記要素別特徴ベクトルを入力して要約映像としての重要度を出力する予め学習したニューラルネットワークのモデルを用いて、前記区間映像ごとに前記重要度を演算するニューラルネットワーク演算手段と、
    前記ニューラルネットワーク演算手段で演算された重要度の高い方から順に予め定めた時間長内で前記区間映像の区間を選択する区間選択手段と、
    前記区間選択手段で選択された区間の映像を前記入力映像から抽出し連結することで要約映像を生成する選択区間連結手段と、を備え
    前記モデルは、
    前記要素別特徴ベクトルの要素数を入力ノード数として前記要素別特徴ベクトルを入力し、予め定めた出力ノード数の出力値を演算する複数の要素別ニューラルネットワークと、
    前記複数の要素別ニューラルネットワークの出力値を重み付き加算して統合特徴ベクトルを生成する重み付き加算部と、
    前記統合特徴ベクトルを入力し、単一のノード数の出力値を演算する統合ニューラルネットワークと、で構成され、
    前記ニューラルネットワーク演算手段は、予め学習したパラメータである前記要素別ニューラルネットワークおよび前記統合ニューラルネットワークの内部パラメータと、前記重み付き加算部における重み配分と、を用いて前記重要度を演算することを特徴とする要約映像生成装置。
  5. 前記ニューラルネットワーク演算手段は、
    予め学習した前記重み配分の代わりに、外部から設定された重み配分を用いて、前記重要度を演算することを特徴とする請求項に記載の要約映像生成装置。
  6. コンピュータを、請求項4または請求項5に記載の要約映像生成装置として機能させるための要約映像生成プログラム。
JP2020097180A 2020-06-03 2020-06-03 映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラム Active JP7510789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020097180A JP7510789B2 (ja) 2020-06-03 2020-06-03 映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020097180A JP7510789B2 (ja) 2020-06-03 2020-06-03 映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2021189967A JP2021189967A (ja) 2021-12-13
JP7510789B2 true JP7510789B2 (ja) 2024-07-04

Family

ID=78849682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020097180A Active JP7510789B2 (ja) 2020-06-03 2020-06-03 映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP7510789B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7193663B1 (ja) 2022-01-18 2022-12-20 株式会社エクサウィザーズ 情報処理装置、情報処理プログラム、及び情報処理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012044390A (ja) 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 映像要約装置および映像要約プログラム
US20170109584A1 (en) 2015-10-20 2017-04-20 Microsoft Technology Licensing, Llc Video Highlight Detection with Pairwise Deep Ranking
JP2018113661A (ja) 2017-01-13 2018-07-19 キヤノン株式会社 映像監視装置及びその制御方法及びシステム
JP2018206292A (ja) 2017-06-09 2018-12-27 日本放送協会 要約映像生成装置及びプログラム
JP2019186689A (ja) 2018-04-06 2019-10-24 キヤノン株式会社 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012044390A (ja) 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 映像要約装置および映像要約プログラム
US20170109584A1 (en) 2015-10-20 2017-04-20 Microsoft Technology Licensing, Llc Video Highlight Detection with Pairwise Deep Ranking
JP2018113661A (ja) 2017-01-13 2018-07-19 キヤノン株式会社 映像監視装置及びその制御方法及びシステム
JP2018206292A (ja) 2017-06-09 2018-12-27 日本放送協会 要約映像生成装置及びプログラム
JP2019186689A (ja) 2018-04-06 2019-10-24 キヤノン株式会社 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松井 淳,マルチモーダルなコンテンツ解析に基づいた放送映像の自動要約,電子情報通信学会技術研究報告 Vol.117 No.106,日本,一般社団法人電子情報通信学会,2017年,Vol.117 No.106,p.7-p.12

Also Published As

Publication number Publication date
JP2021189967A (ja) 2021-12-13

Similar Documents

Publication Publication Date Title
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
WO2021037113A1 (zh) 一种图像描述的方法及装置、计算设备和存储介质
CN109919221B (zh) 基于双向双注意力机制图像描述方法
Moore et al. Deep collective inference
CN112488055B (zh) 一种基于渐进图注意力网络的视频问答方法
CN110390017A (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
CN111461004A (zh) 基于图注意力神经网络的事件检测方法、装置和电子设备
US20220366257A1 (en) Small and Fast Video Processing Networks via Neural Architecture Search
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Seyedhosseini et al. Fast adaboost training using weighted novelty selection
CN112632984A (zh) 基于描述文本词频的图模型移动应用分类方法
CN111984820A (zh) 一种基于双自注意力胶囊网络的视频摘要方法
CN113051468A (zh) 一种基于知识图谱和强化学习的电影推荐方法及系统
JP7510789B2 (ja) 映像区間重要度算出モデル学習装置およびそのプログラム、ならびに、要約映像生成装置およびそのプログラム
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN114444515A (zh) 一种基于实体语义融合的关系抽取方法
CN112348571A (zh) 基于销售预测系统的组合模型销售预测方法
CN113297387A (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN112364852A (zh) 融合全局信息的动作视频段提取方法
JP2021081930A (ja) 学習装置、情報分類装置、及びプログラム
CN114861004A (zh) 一种社交事件检测方法、装置及系统
JP7261661B2 (ja) 畳み込みニューラルネットワーク学習装置およびそのプログラム
JP3266106B2 (ja) 文章自動分類装置及び方法
CN111104552A (zh) 一种基于电影结构化信息和简介预测电影评分类别的方法
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240624