JP6846216B2 - シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム - Google Patents

シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム Download PDF

Info

Publication number
JP6846216B2
JP6846216B2 JP2017010651A JP2017010651A JP6846216B2 JP 6846216 B2 JP6846216 B2 JP 6846216B2 JP 2017010651 A JP2017010651 A JP 2017010651A JP 2017010651 A JP2017010651 A JP 2017010651A JP 6846216 B2 JP6846216 B2 JP 6846216B2
Authority
JP
Japan
Prior art keywords
change point
scene change
model
scene
image analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017010651A
Other languages
English (en)
Other versions
JP2018120362A (ja
Inventor
松井 淳
淳 松井
貴裕 望月
貴裕 望月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2017010651A priority Critical patent/JP6846216B2/ja
Publication of JP2018120362A publication Critical patent/JP2018120362A/ja
Application granted granted Critical
Publication of JP6846216B2 publication Critical patent/JP6846216B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像コンテンツのシーン変化点を検出するためのシーン変化点モデルを学習するシーン変化点モデル学習装置、映像コンテンツからシーン変化点を検出するシーン変化点検出装置およびそれらのプログラムに関する。
従来、大量に蓄積された放送番組等の映像コンテンツを二次活用する動画サービスが提供されている。このような動画サービスには、放送番組単位での提供以外に、例えば、映像コンテンツをシーン変化点ごとに分割して提供したり、目的の映像をシーン単位で検索して提供したり、映像コンテンツからシーン単位で映像を取り出して提供したりするサービスが考えられる。
このような映像コンテンツからシーン変化点を自動検出する手法としては、カメラの切り替わり点をシーン変化点として検出する手法が一般的である。
しかし、カメラの切り替わり点は、映像コンテンツ内の物理的な変化点であって、映像の内容や話題の区切りを意味したものではない。そのため、このような変化点は、映像コンテンツ内に多数存在し、映像コンテンツをシーン単位で提供するサービスには不向きである。
そこで、近年、映像コンテンツからシーンの内容やシーンごとの話題の変化点を検出する手法(以下、従来手法)が提案されている(特許文献1、非特許文献1参照)。
この従来手法は、放送番組の字幕テキストを利用し、同一番組内の各放送回にわたって繰り返し出現する反復句(キーフレーズ)の統計量に基づいて定義したスコアにより順位付けするとともに、この反復句の出現頻度の時間軸上における分布に関する絞り込み(スクリーニング)を行う。
そして、この従来手法は、順序付けの上位で、かつ、絞り込みを通過した反復句の出現時点をシーン変化点としていた。
特開2010−44614号公報
三浦菊佳,山田一郎,小早川健,松井淳,後藤淳,住吉英樹,柴田正啓,"番組分割に向けたクローズドキャプション中の反復句抽出",電子情報通信学会技術研究報告,NLC,言語理解とコミュニケーション,vol.108,no.408,pp.53-58,2009-01-19
このような従来手法は、シーン変化点を検出する対象となる映像コンテンツを、進行や演出のパターンがほぼ固定化された放送番組(例えば、レギュラー番組)としており、放送回をまたがって繰り返し出現する反復句と、番組の場面や話題が変化する時点であるシーン変化点との間に、普遍的な対応関係が存在していることを前提としている。さらに、従来手法は、その対応関係が比較的単純なスコア算出法、ならびに、スクリーニングによって抽出可能であることを前提としている。
しかしながら、このような対応関係は、処理対象の番組の編成ならびに演出に依存する番組依存の性質であり、必ずしもすべての映像コンテンツに適用可能であるとは限らない。さらに、従来手法は、反復句を抽出するために、映像コンテンツに付随する言語的情報源として字幕テキストを利用しているが、このような言語的情報源が常に利用可能であるという保証はないため、汎用性に欠けるという問題がある。
そこで、本発明は、言語的情報源を利用することなく、反復句のような言語的特徴とシーン変化点との間に普遍的な関係が自明でない映像コンテンツからでも、映像コンテンツの映像情報の特徴からシーン変化点を検出することが可能なシーン変化点モデルを学習するシーン変化点モデル学習装置、映像コンテンツからシーン変化点を検出するシーン変化点検出装置およびそれらのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係るシーン変化点モデル学習装置は、映像のシーンが切替るシーン変化点が既知の映像コンテンツである変化点既知映像から、前記シーン変化点が未知の映像コンテンツのシーン変化点を検出するための再帰型ニューラルネットワークのシーン変化点モデルを学習するシーン変化点モデル学習装置であって、画像解析モデル記憶手段と、画像解析手段と、変化点検出手段と、モデル更新手段と、を備える構成とした。
かかる構成において、シーン変化点モデル学習装置は、映像コンテンツにおけるフレームごとの画像特徴量を抽出し、当該フレーム内の被写体対象を認識する畳み込みニューラルネットワークの画像解析モデルを予め画像解析モデル記憶手段に記憶しておく。このような画像解析モデルを用いることで、フレームの画像から、被写体を認識するために有効な画像特徴量を抽出することが可能になる。
そして、シーン変化点モデル学習装置は、画像解析手段によって、変化点既知映像を時系列で入力し、画像解析モデルを用いてフレームごとに畳み込みニューラルネットワークにおける複数の層の出力を画像特徴量として抽出する
そして、シーン変化点モデル学習装置は、変化点検出手段において、シーン変化点モデルを用いて、画像解析手段で抽出したフレームごとの画像特徴量からシーン変化点を検出する処理と、モデル更新手段において、シーン変化点モデルのパラメータを更新する処理とを、シーン変化点モデルのパラメータが予め定めた閾値内で収束するまで繰り返すことで、シーン変化点モデルを学習する。
これによって、シーン変化点モデル学習装置は、任意の映像コンテンツからシーン変化点を検出するためのシーン変化点モデルを学習することができる。
なお、シーン変化点モデル学習装置は、コンピュータを、前記した各手段として機能させるためのシーン変化点モデル学習プログラムで動作させることができる。
また、前記課題を解決するため、本発明に係るシーン変化点検出装置は、シーン変化点モデル学習装置で学習した再帰型ニューラルネットワークのシーン変化点モデルを用いて、シーン変化点が未知の映像コンテンツである変化点未知映像からシーン変化点を検出するシーン変化点検出装置であって、画像解析モデル記憶手段と、画像解析手段と、変化点検出手段と、を備える構成とした。
かかる構成において、シーン変化点検出装置は、映像コンテンツにおけるフレームごとの画像特徴量を抽出し、当該フレーム内の被写体対象を認識する畳み込みニューラルネットワークの画像解析モデルを予め画像解析モデル記憶手段に記憶しておく。
そして、シーン変化点検出装置は、画像解析手段によって、変化点未知映像を時系列で入力し、画像解析モデルを用いてフレームごとに畳み込みニューラルネットワークにおける複数の層の出力を画像特徴量として抽出する。
そして、シーン変化点検出装置は、変化点検出手段によって、シーン変化点モデルを用いて、画像解析手段で抽出したフレームごとの画像特徴量からシーン変化点を検出する。
また、前記課題を解決するため、本発明に係るシーン変化点検出装置は、映像のシーンが切替るシーン変化点が既知の映像コンテンツである変化点既知映像から、映像コンテンツのシーン変化点を検出する再帰型ニューラルネットワークのシーン変化点モデルを学習し、前記シーン変化点モデルを用いて、シーン変化点が未知の映像コンテンツである変化点未知映像からシーン変化点を検出するシーン変化点検出装置であって、画像解析モデル記憶手段と、画像解析手段と、変化点検出手段と、モデル更新手段と、を備える構成とした。
かかる構成において、シーン変化点検出装置は、映像コンテンツにおけるフレームごとの画像特徴量を抽出し、当該フレーム内の被写体対象を認識する畳み込みニューラルネットワークの画像解析モデルを予め画像解析モデル記憶手段に記憶しておく。
そして、シーン変化点検出装置は、画像解析手段によって、シーン変化点モデルの学習段階においては変化点既知映像を、シーン変化点の検出段階においては変化点未知映像をそれぞれ時系列で入力し、画像解析モデルを用いてフレームごとに畳み込みニューラルネットワークにおける複数の層の出力を画像特徴量として抽出する。
そして、シーン変化点検出装置は、学習段階において、変化点検出手段において、シーン変化点モデルを用いて、画像解析手段で抽出したフレームごとの画像特徴量からシーン変化点を検出する処理と、モデル更新手段において、シーン変化点モデルのパラメータを更新する処理とを、シーン変化点モデルのパラメータが予め定めた閾値内で収束するまで繰り返すことで、シーン変化点モデルを学習する。
また、シーン変化点検出装置は、検出段階において、変化点検出手段が、学習済みのシーン変化点モデルを用いて、画像解析手段で抽出したフレームごとの画像特徴量からシーン変化点を検出する。
なお、シーン変化点検出装置は、コンピュータを、前記した各手段として機能させるためのシーン変化点検出プログラムで動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、映像コンテンツのシーンの切り替わりに有効な映像の特徴から、シーン変化点モデルを学習し構築することができる。
これによって、本発明は、言語的情報源を利用することなく、言語的特徴とシーン変化点との間に普遍的な関係が自明でない映像コンテンツからでも、シーン変化点モデルを用いて、映像の特徴からシーン変化点を検出することが可能になる。
本発明の実施形態に係るシーン変化点検出装置の構成を示すブロック構成図である。 シーン変化点モデルのモデル学習時に使用する変化点既知データの例であって、(a)は時刻に対応付けた映像(変化点既知映像)、(b)はシーン変化点リストを示す図である。 本発明の実施形態に係るシーン変化点検出装置のモデル学習時におけるデータの流れを付加した構成図である。 本発明の実施形態に係るシーン変化点検出装置の変化点検出時におけるデータの流れを付加した構成図である。 画像解析手段が利用する畳み込みニューラルネットワークの概要を説明するための説明図である。 変化点検出手段およびモデル更新手段が利用する再帰型ニューラルネットワークの概要を説明するための説明図である。 本発明の実施形態に係るシーン変化点検出装置のモデル学習時の動作を示すフローチャートである。 本発明の実施形態に係るシーン変化点検出装置の変化点検出時の動作を示すフローチャートである。 本発明の他の実施形態に係るシーン変化点モデル学習装置の構成を示すブロック構成図である。 本発明の他の実施形態に係るシーン変化点検出装置の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
[シーン変化点検出装置の構成]
まず、図1を参照して、本発明の実施形態に係るシーン変化点検出装置1の構成について説明する。
シーン変化点検出装置1は、画像解析モデル記憶手段10と、画像解析手段11と、変化点検出手段12と、モデル更新手段13と、シーン変化点モデル記憶手段14と、を備える。このシーン変化点検出装置1は、予めシーンの切り替わりとなる変化点の時間情報(以下、「シーン変化点」と呼ぶ)が既知の映像コンテンツ(変化点既知映像)からシーン変化点の特徴を学習し、シーン変化点が未知の映像コンテンツ(変化点未知映像)からシーン変化点を検出するものである。ここで、シーンとは、同一の場面あるいは話題についての連続した映像区間である。
シーン変化点検出装置1は、多層の人工神経回路網(以下、「ニューラルネットワーク」と呼ぶ)を、各種パラメータを最適化するように更新(学習)し、そのパラメータを適用したニューラルネットワークにより、シーン変化点を検出する。このシーン変化点検出装置1は、パラメータを更新(学習)するモード(以下、「モデル学習時」と呼ぶ)と、シーン変化点を検出するモード(以下、「変化点検出時」と呼ぶ)の2つの異なる動作モードを有する。
モデル学習時において、シーン変化点検出装置1は、シーン変化点が既知の変化点既知データを入力する。この変化点既知データは、図2(a)に示す時刻(タイムコード:例えば、「時:分:秒:フレーム」)が付された映像コンテンツ(変化点既知映像)と、図2(b)に示すシーン変化点の時刻をリスト化したシーン変化点リストとからなる。
また、変化点検出時において、シーン変化点検出装置1は、シーン変化点が未知の新規の映像コンテンツ(変化点未知映像)を入力し、シーン変化点リストを出力する。ここで、変化点検出時において入力する映像コンテンツは、図2(a)に示す時刻が付された映像コンテンツであり、出力するシーン変化点リストは、図2(b)と同様のリストである。
以下、この2つの動作モードで動作するシーン変化点検出装置1の構成を詳細に説明する。なお、シーン変化点検出装置1を構成する各手段間のデータの流れについては、2つの動作モードで異なるため、モデル学習時においては図3、変化点検出時においては図4を、それぞれ参照することとする。
画像解析モデル記憶手段10は、映像コンテンツにおける画像(フレーム)ごとの画像特徴量を抽出し、抽出した画像内の被写体対象(主被写体、場面等)を認識する予め学習したニューラルネットワークを画像解析モデルとして記憶するものである。この画像解析モデル記憶手段10は、ハードディスク、半導体メモリ等の一般的な記憶装置を用いることができる。
画像解析モデル記憶手段10に記憶するニューラルネットワークは、畳み込みニューラルネットワーク(Convolutional Neural Network:以下、CNNと呼ぶ)を用いることができる。
ここで、図5を参照して、CNNの一例についてその概要を説明する。CNNは、例えば、図5に示すように、複数の畳み込み層Cおよびプーリング層Pと、全結合層Fとを介して、入力画像を認識した認識結果を出力する。なお、図5ではCNNの説明を簡易にするため、各層の数を少なくし、入力画像の大きさを小さくして説明している。実際には、畳み込み層C等の各層の数は、100以上の数であり、入力画像の大きさは、シーン変化点検出装置1に入力される映像コンテンツの画像(フレーム)の大きさである。
畳み込み層Cは、入力画像、あるいは、前層の出力となる特徴マップに対して、複数のフィルタによって画像の畳み込み演算を行うものである。例えば、図5では、24×24画素の入力画像に対して、4つのフィルタによって畳み込み演算を行うことで、4つの20×20画素の特徴量である特徴マップM(4@20×20)が生成された例を示している。
プーリング層Pは、畳み込み層Cで生成される特徴マップMをサブサンプリングするものである。例えば、図5では、4つ20×20画像の特徴マップM(4@20×20)に対して、水平垂直にそれぞれ1/2のサブサンプリングを行うことで、4つの10×10画像の特徴マップM(4@10×10)が生成された例を示している。
全結合層Fは、複数の畳み込み層Cおよびプーリング層Pを介して生成される特徴マップから、予め定めた複数の認識対象ごとに入力画像内に存在する確率を算出するものである。この全結合層Fは、入力層L、隠れ層Lおよび出力層Lからなり、各層のノード間で重み付き加算を行い、活性化関数によって、各対象の確率を算出する。
図1に戻って、シーン変化点検出装置1の構成について説明を続ける。
画像解析モデル記憶手段10は、図5で説明したCNNのモデルパラメータ(例えば、畳み込み層のフィルタの数、大きさ、移動幅、全結合層の層間の重み〔重み行列〕等)を画像解析モデルとして記憶する。なお、画像内の内容を認識するためのCNNは、公知の手法によって学習したものを用いることができる。例えば、以下の参考文献1に記載されている手法により学習したCNNを用いることができる。ここでは、詳細な説明を省略する。
参考文献1:Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton,“ImageNet Classification with Deep Convolutional Neural Networks,”In Proc, NIPS, 2012年
画像解析手段11は、CNN画像認識手段11aと、特徴ベクトルリスト生成手段11bと、を備え、映像コンテンツを構成する画像(フレーム)を解析し、画像特徴量である特徴ベクトルリストを生成するものである。
CNN画像認識手段11aは、画像解析モデル記憶手段10に記憶されている画像解析モデルを用いて、映像コンテンツを解析するものである。CNN画像認識手段11aは、映像コンテンツの時刻(例えば、フレーム番号、タイムコード)が付されたフレームごとに、画像解析モデル記憶手段10に記憶されているCNN(画像解析モデル)で、画像内に存在する被写体対象を認識する。例えば、CNN画像認識手段11aは、画像解析モデルを用いて、予め被写体対象に付されているラベルを認識結果として取得する。このとき、CNN画像認識手段11aは、その認識過程において生成する各層の特徴マップM(図5参照)を、時刻ともに特徴ベクトルリスト生成手段11bに出力する。
なお、CNN画像認識手段11aは、モデル学習時においては、映像コンテンツとして変化点既知データを入力し、変化点検出時においては、シーン変化点が未知の映像コンテンツ(新規映像コンテンツ〔変化点未知映像〕)を入力する。
特徴ベクトルリスト生成手段11bは、CNN画像認識手段11aでフレームごとに生成される特徴マップを特徴ベクトル(1次元)として、フレームの時刻に対応付けた特徴ベクトルリストを生成するものである。この特徴ベクトルリスト生成手段11bは、生成した特徴ベクトルリストを変化点検出手段12に出力する。
これによって、画像解析手段11は、映像コンテンツ内に存在する対象を認識する際の画像特徴量をフレームの時刻ごとに抽出する。
変化点検出手段12は、シーン変化点モデルを用いて、画像解析手段11で生成される特徴ベクトルリストから、シーン変化点を検出するものである。このシーン変化点モデルとして、ニューラルネットワーク、具体的には、再帰型ニューラルネットワーク(Recurrent Neural Network:以下、RNNと呼ぶ)を用いることができる。
ここで、図6を参照して、RNNの一例についてその概要を説明する。RNNは、例えば、図6に示すように、入力層Lと、隠れ層Lと、出力層Lとを介して、時刻tにおける入力データw(t)(ここでは、特徴ベクトルx,x,x,…)から、入力画像がシーン変化点の画像であるか否かの結果を出力する。なお、RNNは、図6に示すように、時刻(t−1)における隠れ層Lの値(内部状態)を、時刻tの入力層Lの一部として再帰的に利用する。そして、RNNは、入力層Lの各値(ノード)に対して重み付け加算を行い、活性化関数(入力値がある値以上で“0”以上の値を返す区分線形関数等)により、隠れ層Lの各値s(t)を計算する。また、RNNは、出力層Lの値として、隠れ層Lの各値に対して重み付け加算を行い、ソフトマックス関数により、時刻tの画像がシーン変化点であるか否かの確率値y(t)を計算する。
後記するモデル更新手段13は、モデル学習時において、この各演算に用いる重み(シーン変化点モデルパラメータ)を、最適解に更新し、シーン変化点モデル記憶手段14に書き込み記憶する。また、変化点検出手段12は、変化点検出時において、シーン変化点を抽出する際に、シーン変化点モデル記憶手段14に記憶されているシーン変化点モデルパラメータの最適解を使用する。
図1に戻って、シーン変化点検出装置1の構成について説明を続ける。
変化点検出手段12は、RNN変化点判定手段12aと、変化点リスト生成手段12bと、内部状態リスト生成手段12cと、を備える。
RNN変化点判定手段12aは、画像解析手段11で生成される特徴ベクトルリストの時刻ごとの特徴ベクトルから、当該時刻がシーン変化点であるか否かを判定するものである。具体的には、RNN変化点判定手段12aは、RNN(シーン変化点モデル)のパラメータであるシーン変化点モデルパラメータを用いて、時刻ごとの特徴ベクトルから、RNNの出力値(確率値)を演算する。そして、RNN変化点判定手段12aは、その出力値と予め定めた閾値との比較により、当該時刻がシーン変化点であるか否かを判定する。
RNN変化点判定手段12aは、モデル学習時においては、モデル更新手段13からシーン変化点モデルパラメータを入力するたびに、特徴ベクトルリストから、時刻ごとにその時刻がシーン変化点であるか否かを判定する。
また、RNN変化点判定手段12aは、シーン変化点モデル記憶手段14に記憶されているシーン変化点モデルパラメータを用いて、特徴ベクトルリストから、変化点検出時の時刻ごとにその時刻がシーン変化点であるか否かを判定する。
このRNN変化点判定手段12aは、フレームの時刻ごとに算出されるRNNの内部状態(図6参照)を、モデル学習時のみ、変化点リスト生成手段12bに出力する。また、RNN変化点判定手段12aは、フレームの時刻ごとのシーン変化点の判定結果を内部状態リスト生成手段12cに出力する。
なお、RNNを用いて、時刻ごとのデータ系列から、逐次的に事象を予測する手法は、一般的な手法である。例えば、以下の参考文献2に記載されている手法によりRNNを用いて逐次的に事象の予測を行うことができる。ここでは、詳細な説明を省略する。
参考文献2:Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, Sanjeev Khudanpur,“Recurrent neural network based language model,”In Proc. INTERSPEECH, pp. 1045-1048, 2010年
変化点リスト生成手段12bは、RNN変化点判定手段12aでシーン変化点と判定された時刻を、図2(b)と同様のシーン変化点リストとして生成するものである。変化点リスト生成手段12bは、モデル学習時においては、生成したシーン変化点リストをモデル更新手段13に出力する。
また、変化点リスト生成手段12bは、変化点検出時においては、生成したシーン変化点リストを、シーン変化点検出装置1の検出結果として外部に出力する。
内部状態リスト生成手段12cは、RNN変化点判定手段12aで時刻ごとに演算される内部状態をその時刻ごとに対応付けた内部状態リストを生成するものである。内部状態リスト生成手段12cは、生成した内部状態リストをモデル更新手段13に出力する。
モデル更新手段13は、RNNパラメータ更新手段13aと、更新終了判定手段13bと、を備え、シーン変化点モデルのパラメータを更新するものである。モデル更新手段13は、モデル学習時においてのみ動作する。
RNNパラメータ更新手段13aは、RNN(シーン変化点モデル)のパラメータ(シーン変化点モデルパラメータ)を更新するものである。具体的には、RNNパラメータ更新手段13aは、図6で説明したRNNにおいて、各層間の重み等を更新する。
このRNNパラメータ更新手段13aは、起動時、あるいは、変化点既知データが入力された段階で、変化点検出手段12にシーン変化点モデルパラメータの初期値を出力する。この初期値は、例えば、疑似乱数等によって求めた値である。
このRNNパラメータ更新手段13aは、変化点検出手段12に出力したシーン変化点モデルパラメータに対応して、変化点検出手段12から、内部状態リストおよびシーン変化点リストを入力する。また、RNNパラメータ更新手段13aは、更新終了判定手段13bから、RNNの更新終了の判定結果を取得する。
RNNパラメータ更新手段13aは、更新終了判定手段13bから、更新が終了したことを示す判定結果を取得した場合、更新後(最新)のシーン変化点モデルパラメータをシーン変化点モデル記憶手段14に書き込み記憶する。
また、RNNパラメータ更新手段13aは、更新終了判定手段13bから、更新が終了していないことを示す判定結果を取得した場合、シーン変化点モデルパラメータを更新する。
具体的には、RNNパラメータ更新手段13aは、変化点既知データのシーン変化点リストにおいてシーン変化点である時刻の値を“1”、それ以外の時刻の値を“0”とした時刻ごとの正解値と、変化点検出手段12で生成されたシーン変化点リストにおいてシーン変化点である時刻の値を“1”、それ以外の時刻の値を“0”とした時刻ごとの推定値との時刻ごとの差から、例えば、確率的勾配降下法を用いて、各層の誤差をなくす方向(“0”に漸近するよう)に、シーン変化点モデルパラメータを更新する。このRNNのパラメータの更新は、以下の参考文献3に記載されているように、一般的な手法であるため、ここでは詳細な説明を省略する。
参考文献3:人工知能学会監修,神嶌敏弘編集,麻生英樹・安田宗樹・前田新一・岡野原大輔・岡谷貴之・久保陽太郎・ボレガラダヌシカ共著,「深層学習」,近代科学社発行,第4.4.2節 確率的勾配降下法,pp.128-129,2015年
RNNパラメータ更新手段13aは、シーン変化点モデルパラメータを更新した場合、更新したシーン変化点モデルパラメータを変化点検出手段12に出力し、変化点検出手段12から、内部状態リストおよびシーン変化点リストを入力する動作を繰り返す。
更新終了判定手段13bは、シーン変化点モデルパラメータの更新を終了するか否かの判定を行うものである。
具体的には、更新終了判定手段13bは、更新前のシーン変化点モデルパラメータと、更新後のシーン変化点モデルパラメータとの差(更新値:例えば、各値を並べたベクトルのユークリッドノルム)が、予め定めた閾値を下回るか否かにより、シーン変化点モデルパラメータの更新の判定を行う。
ここで、更新終了判定手段13bは、更新前後のシーン変化点モデルパラメータの差が予め定めた閾値を下回っている場合、更新が終了したことを示す判定結果をRNNパラメータ更新手段13aに通知する。
また、更新終了判定手段13bは、更新前後のシーン変化点モデルパラメータの差が予め定めた閾値以上の場合、更新が終了していないことを示す判定結果をRNNパラメータ更新手段13aに通知する。
シーン変化点モデル記憶手段14は、シーン変化点モデルパラメータを記憶するものである。このシーン変化点モデル記憶手段14は、ハードディスク、半導体メモリ等の一般的な記憶装置を用いることができる。
パラメータ更新時には、モデル更新手段13が、シーン変化点モデルパラメータの最適解をシーン変化点モデル記憶手段14に記憶する。
また、変化点検出時には、変化点検出手段12が、シーン変化点モデル記憶手段14に記憶されるシーン変化点モデルパラメータを参照する。
以上、本発明の実施形態に係るシーン変化点検出装置1の構成について説明したが、シーン変化点検出装置1は、コンピュータを前記した各手段として機能させるためのプログラム(シーン変化点検出プログラム)で動作させることができる。
以上説明したようにシーン変化点検出装置1を構成することで、シーン変化点検出装置1は、字幕テキストのような映像コンテンツに付随した言語的情報源を必要とせずに、映像コンテンツのシーン変化点を検出することができる。
[シーン変化点検出装置の動作]
次に、図7,図8を参照して、本発明の実施形態に係るシーン変化点検出装置1の動作について説明する。ここでは、シーン変化点検出装置1の動作を、モデル学習時(学習段階)と、変化点検出時(検出段階)とに分けて説明する。
(モデル学習時)
図7を参照(適宜図1,図3参照)して、シーン変化点検出装置1のモデル学習時の動作について説明する。なお、画像解析モデル記憶手段10には、予め画像から当該画像内の主被写体や場面を認識するために学習した畳み込みニューラルネットワーク(CNN)である画像解析モデルを記憶しておくものとする。
ステップS1において、シーン変化点検出装置1のRNNパラメータ更新手段13aは、シーン変化点モデル(RNN)パラメータを初期化する。このとき、RNNパラメータ更新手段13aは、疑似乱数等によってシーン変化点モデルパラメータの初期値を生成し、変化点検出手段12に出力する。なお、このステップS1は、後記するステップS6より前であれば、どのタイミングで行ってもよい。
そして、ステップS2において、シーン変化点検出装置1のCNN画像認識手段11aは、シーン変化点が既知である変化点既知データの映像コンテンツ(変化点既知映像)を時刻ごとにフレーム単位の画像として入力する。
そして、ステップS3において、シーン変化点検出装置1のCNN画像認識手段11aは、ステップS2で入力した時刻ごとの画像から、画像解析モデル記憶手段10に記憶されている画像解析モデル(CNN)を用いて、その画像に存在する主被写体、場面等の被写体対象を認識する。なお、このステップS3において、CNN画像認識手段11aは、CNNによる認識過程における複数の特徴マップを生成する。
ここで、変化点既知データの映像コンテンツの入力が終了していない場合(ステップS4でNo)、シーン変化点検出装置1は、ステップS2に戻って、特徴マップの生成を繰り返す。
一方、変化点既知データの映像コンテンツの入力が終了した場合(ステップS4でYes)、ステップS5において、シーン変化点検出装置1の特徴ベクトルリスト生成手段11bは、ステップS3で生成した時刻ごとの特徴マップを1次元の特徴ベクトルとし、それぞれの時刻に対応付けた特徴ベクトルリストを生成する。
そして、ステップS6において、シーン変化点検出装置1のRNN変化点判定手段12aは、シーン変化点モデルパラメータを用いて、RNNの出力を演算し、その出力値に応じて、時刻ごとにシーン変化点であるか否かを判定する。なお、RNN変化点判定手段12aは、当初、ステップS1で初期化されたシーン変化点モデルパラメータを用いてRNNの演算を行い、それ以降は、ステップS9で順次更新されるシーン変化点モデルパラメータを用いてRNNの演算を行う。
そして、ステップS7において、シーン変化点検出装置1の変化点リスト生成手段12bは、ステップS6でシーン変化点と判定された時刻をリスト化したシーン変化点リストを生成する。
さらに、ステップS8において、シーン変化点検出装置1の内部状態リスト生成手段12cは、ステップS6の演算におけるRNNの時刻ごとの内部状態をリスト化した内部状態リストを生成する。
そして、ステップS9において、シーン変化点検出装置1のRNNパラメータ更新手段13aは、変化点既知データのシーン変化点リストと、ステップS7で生成したシーン変化点を推定したシーン変化点リストと、ステップS8で生成したRNNの内部状態のリスト(内部状態リスト)とから、確率的勾配降下法を用いて、RNNの各層の誤差を“0”に漸近するように、シーン変化点モデルパラメータを更新する。
そして、ステップS10において、シーン変化点検出装置1の更新終了判定手段13bは、ステップS9で更新したシーン変化点モデルパラメータと更新前のシーン変化点モデルパラメータとの差である更新値を算出し、更新値が閾値未満であるか否かを判定する。
ここで、更新値が閾値以上であれば(ステップS10でNo)、シーン変化点検出装置1は、ステップS6に戻って、シーン変化点モデルパラメータの更新を継続する。
一方、更新値が閾値未満であれば(ステップS10でYes)、ステップS11において、シーン変化点検出装置1のRNNパラメータ更新手段13aは、更新後(最新)のシーン変化点モデルパラメータをシーン変化点モデル記憶手段14に書き込み記憶する。
以上の動作によって、シーン変化点検出装置1は、学習により最適化したシーン変化点モデル(RNN)のパラメータを生成し、シーン変化点モデル記憶手段14に記憶する。
(変化点検出時)
次に、図8を参照(適宜図1,図4参照)して、シーン変化点検出装置1の変化点検出時の動作について説明する。なお、シーン変化点モデル記憶手段14には、図7で説明したモデル学習時の動作によって、シーン変化点モデルパラメータが記憶されているものとする。
ステップS20において、シーン変化点検出装置1のCNN画像認識手段11aは、シーン変化点が未知である新規の映像コンテンツを時刻ごとにフレーム単位の画像として入力する。
そして、ステップS21において、シーン変化点検出装置1のCNN画像認識手段11aは、ステップS20で入力した時刻ごとの画像から、画像解析モデル記憶手段10に記憶されている画像解析モデル(CNN)を用いて、その画像に存在する主被写体、場面等の被写体対象を認識する。なお、このステップS21において、CNN画像認識手段11aは、CNNによる認識過程における複数の特徴マップを生成する。
ここで、映像コンテンツの入力が終了していない場合(ステップS22でNo)、シーン変化点検出装置1は、ステップS20に戻って、特徴マップの生成を繰り返す。
一方、映像コンテンツの入力が終了した場合(ステップS22でYes)、ステップS23において、シーン変化点検出装置1の特徴ベクトルリスト生成手段11bは、ステップS21で生成した時刻ごとの特徴マップを1次元の特徴ベクトルとして、それぞれの時刻に対応付けた特徴ベクトルリストを生成する。
そして、ステップS24において、シーン変化点検出装置1のRNN変化点判定手段12aは、シーン変化点モデル記憶手段14に記憶されているシーン変化点モデルパラメータを用いて、RNNの出力を演算し、その出力値に応じて、時刻ごとにシーン変化点であるか否かを判定する。
そして、ステップS25において、シーン変化点検出装置1の変化点リスト生成手段12bは、ステップS24でシーン変化点と判定された時刻をリスト化したシーン変化点リストを生成する。
そして、ステップS26において、シーン変化点検出装置1の変化点リスト生成手段12bは、ステップS25で生成したシーン変化点リストを、検出結果として外部に出力する。
以上の動作によって、シーン変化点検出装置1は、字幕テキスト等の言語的情報源を必要とせずに、映像コンテンツの時系列の映像特徴から、シーン変化点を検出することができる。
以上、本発明の実施形態に係るシーン変化点検出装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
シーン変化点検出装置1は、シーン変化点モデルを学習する学習動作と、シーン変化点モデルを用いて、映像コンテンツからシーン変化点を検出する検出動作との2つの動作を1つの装置で行うものである。しかし、これらの動作は、別々の装置で動作させても構わない。
具体的には、シーン変化点モデルを学習する学習動作を実現する装置は、図9に示すシーン変化点モデル学習装置2として構成することができる。
シーン変化点モデル学習装置2は、図9に示すように画像解析モデル記憶手段10と、画像解析手段11と、変化点検出手段12と、モデル更新手段13と、シーン変化点モデル記憶手段14と、を備える。この構成は、図1で説明したシーン変化点検出装置1の構成と同じであるが、シーン変化点モデルを学習する学習動作のみを行う。なお、シーン変化点モデル学習装置2の動作は、図7で説明した動作と同じである。
このシーン変化点モデル学習装置2は、コンピュータを前記した各手段として機能させるためのプログラム(シーン変化点モデル学習プログラム)で動作させることができる。
また、シーン変化点モデルを用いて、映像コンテンツからシーン変化点を検出する検出動作を実現する装置は、図10に示すシーン変化点検出装置1Bとして構成することができる。
シーン変化点検出装置1Bは、画像解析モデル記憶手段10と、画像解析手段11と、変化点検出手段12Bと、シーン変化点モデル記憶手段14と、を備える。この構成は、図1で説明したシーン変化点検出装置1の構成から、モデル更新手段13と、変化点検出手段12の内部状態リスト生成手段12cとを削除したものである。また、シーン変化点モデル記憶手段14に記憶するシーン変化点モデルは、図9のシーン変化点モデル学習装置2で学習されたものである。
このシーン変化点検出装置1Bは、映像コンテンツからシーン変化点を検出する検出動作のみを行う。なお、シーン変化点検出装置1Bの動作は、図8で説明した動作と同じである。
このシーン変化点検出装置1Bは、コンピュータを前記した各手段として機能させるためのプログラム(シーン変化点検出プログラム)で動作させることができる。
このように、シーン変化点モデルを学習する学習動作と、シーン変化点モデルを用いて、映像コンテンツからシーン変化点を検出する検出動作とを、異なる装置で動作させることで、1つのシーン変化点モデル学習装置2で学習したシーン変化点モデルを、複数のシーン変化点検出装置1Bで利用することが可能になる。
1,1B シーン変化点検出装置
2 シーン変化点モデル学習装置
10 画像解析モデル記憶手段
11 画像解析手段
11a CNN画像認識手段
11b 特徴ベクトルリスト生成手段
12 変化点検出手段
12a RNN変化点判定手段
12b 変化点リスト生成手段
12c 内部状態リスト生成手段
13 モデル更新手段
13a RNNパラメータ更新手段
13b 更新終了判定手段
14 シーン変化点モデル記憶手段

Claims (5)

  1. 映像のシーンが切替るシーン変化点が既知の映像コンテンツである変化点既知映像から、前記シーン変化点が未知の映像コンテンツのシーン変化点を検出するための再帰型ニューラルネットワークのシーン変化点モデルを学習するシーン変化点モデル学習装置であって、
    映像コンテンツにおけるフレームごとの画像特徴量を抽出し、当該フレーム内の被写体対象を認識する畳み込みニューラルネットワークの画像解析モデルを予め記憶する画像解析モデル記憶手段と、
    前記変化点既知映像を時系列で入力し、前記画像解析モデルを用いてフレームごとに前記畳み込みニューラルネットワークにおける複数の層の出力を前記画像特徴量として抽出する画像解析手段と、
    前記シーン変化点モデルを用いて、前記画像解析手段で抽出した前記フレームごとの画像特徴量から前記シーン変化点を検出する変化点検出手段と、
    前記シーン変化点モデルのパラメータを更新するモデル更新手段と、を備え、
    前記変化点検出手段におけるシーン変化点の検出と、前記モデル更新手段における前記パラメータの更新とを、前記パラメータが予め定めた閾値内で収束するまで繰り返して前記シーン変化点モデルを学習することを特徴とするシーン変化点モデル学習装置。
  2. 請求項1に記載のシーン変化点モデル学習装置で学習した再帰型ニューラルネットワークのシーン変化点モデルを用いて、シーン変化点が未知の映像コンテンツである変化点未知映像からシーン変化点を検出するシーン変化点検出装置であって、
    映像コンテンツにおけるフレームごとの画像特徴量を抽出し、当該フレーム内の被写体対象を認識する畳み込みニューラルネットワークの画像解析モデルを予め記憶する画像解析モデル記憶手段と、
    前記変化点未知映像を時系列で入力し、前記画像解析モデルを用いてフレームごとに前記畳み込みニューラルネットワークにおける複数の層の出力を前記画像特徴量として抽出する画像解析手段と、
    前記シーン変化点モデルを用いて、前記画像解析手段で抽出した前記フレームごとの画像特徴量から前記シーン変化点を検出する変化点検出手段と、
    を備えることを特徴とするシーン変化点検出装置。
  3. 映像のシーンが切替るシーン変化点が既知の映像コンテンツである変化点既知映像から、映像コンテンツのシーン変化点を検出する再帰型ニューラルネットワークのシーン変化点モデルを学習し、前記シーン変化点モデルを用いて、シーン変化点が未知の映像コンテンツである変化点未知映像からシーン変化点を検出するシーン変化点検出装置であって、
    映像コンテンツにおけるフレームごとの画像特徴量を抽出し、当該フレーム内の被写体対象を認識する畳み込みニューラルネットワークの画像解析モデルを予め記憶する画像解析モデル記憶手段と、
    前記シーン変化点モデルの学習段階においては前記変化点既知映像を、前記シーン変化点の検出段階においては前記変化点未知映像をそれぞれ時系列で入力し、前記画像解析モデルを用いてフレームごとに前記畳み込みニューラルネットワークにおける複数の層の出力を前記画像特徴量として抽出する画像解析手段と、
    前記シーン変化点モデルを用いて、前記画像解析手段で抽出した前記フレームごとの画像特徴量から前記シーン変化点を検出する変化点検出手段と、
    前記シーン変化点モデルのパラメータを更新するモデル更新手段と、を備え、
    前記学習段階において、前記変化点検出手段におけるシーン変化点の検出と、前記モデル更新手段における前記パラメータの更新とを、前記パラメータが予め定めた閾値内で収束するまで繰り返して前記シーン変化点モデルを学習し、
    前記検出段階において、前記変化点検出手段が、学習済みの前記シーン変化点モデルを用いて、前記画像解析手段で抽出した前記フレームごとの画像特徴量から前記シーン変化点を検出することを特徴とするシーン変化点検出装置。
  4. コンピュータを、請求項1に記載のシーン変化点モデル学習装置として機能させるためのシーン変化点モデル学習プログラム。
  5. コンピュータを、請求項または請求項に記載のシーン変化点検出装置として機能させるためのシーン変化点検出プログラム。
JP2017010651A 2017-01-24 2017-01-24 シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム Active JP6846216B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017010651A JP6846216B2 (ja) 2017-01-24 2017-01-24 シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017010651A JP6846216B2 (ja) 2017-01-24 2017-01-24 シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム

Publications (2)

Publication Number Publication Date
JP2018120362A JP2018120362A (ja) 2018-08-02
JP6846216B2 true JP6846216B2 (ja) 2021-03-24

Family

ID=63044389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017010651A Active JP6846216B2 (ja) 2017-01-24 2017-01-24 シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム

Country Status (1)

Country Link
JP (1) JP6846216B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797875B (zh) * 2019-04-09 2023-12-01 Oppo广东移动通信有限公司 场景建模方法、装置、存储介质及电子设备
CN110333999B (zh) * 2019-05-06 2021-02-23 盛威时代科技集团有限公司 一种用于手机客户端进行测试环境切换的方法
CN112954453B (zh) * 2021-02-07 2023-04-28 北京有竹居网络技术有限公司 视频配音方法和装置、存储介质和电子设备
CN114332716B (zh) * 2021-12-30 2024-06-21 北京爱奇艺科技有限公司 视频中场景的聚类方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014241457A (ja) * 2011-10-04 2014-12-25 シャープ株式会社 シーンチェンジ検出装置、表示装置、シーンチェンジ検出方法およびシーンチェンジ検出プログラム
JP2014110020A (ja) * 2012-12-04 2014-06-12 Samsung R&D Institute Japan Co Ltd 画像処理装置、画像処理方法および画像処理プログラム
JP2016197389A (ja) * 2015-04-03 2016-11-24 株式会社デンソーアイティーラボラトリ 学習システム、学習プログラムおよび学習方法

Also Published As

Publication number Publication date
JP2018120362A (ja) 2018-08-02

Similar Documents

Publication Publication Date Title
US10242289B2 (en) Method for analysing media content
JP6755849B2 (ja) 人工ニューラルネットワークのクラスに基づく枝刈り
CN109086873B (zh) 递归神经网络的训练方法、识别方法、装置及处理设备
JP6846216B2 (ja) シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム
US11966831B2 (en) Feedback mechanisms in sequence learning systems with temporal processing capability
EP2548096B1 (en) Temporal memory using sparse distributed representation
CN110096938B (zh) 一种视频中的动作行为的处理方法和装置
US12093843B2 (en) Inferencing and learning based on sensorimotor input data
CN112101207B (zh) 一种目标跟踪方法、装置、电子设备及可读存储介质
KR102293791B1 (ko) 반도체 소자의 시뮬레이션을 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
CN114450746A (zh) 用于基于连接机制时间分类的自动语音识别的软遗忘
KR102541660B1 (ko) 음성 신호에 기반한 감정 인식 장치 및 방법
US9436912B1 (en) Symmetric schema instantiation method for use in a case-based reasoning system
CN112527959B (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
WO2015011521A1 (en) An incremental learner via an adaptive mixture of weak learners distributed on a non-rigid binary tree
CN114818864A (zh) 一种基于小样本的手势识别方法
CN112948155A (zh) 模型训练方法、状态预测方法、装置、设备及存储介质
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN111557010A (zh) 学习装置和方法以及程序
CA2997888A1 (en) Method and system for mapping attributes of entities
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
CN116340763A (zh) 一种基于决策树的模型的训练及分类方法
CN116227603A (zh) 一种事件推理任务的处理方法、设备及介质
CN112742026B (zh) 游戏控制方法、装置、存储介质和电子设备
Maraghi et al. Class‐Incremental Learning on Video‐Based Action Recognition by Distillation of Various Knowledge

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210301

R150 Certificate of patent or registration of utility model

Ref document number: 6846216

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150