JP7486337B2

JP7486337B2 - 映像抽出装置及びプログラム

Info

Publication number: JP7486337B2
Application number: JP2020073124A
Authority: JP
Inventors: 真央 ▲高▼橋; 善久太田
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2024-05-17
Anticipated expiration: 2040-04-15
Also published as: JP2021170724A

Description

本発明は、区間映像を抽出する映像抽出装置及びプログラムに関する。

従来、映像を短くまとめた要約映像を生成する映像要約装置が知られている（例えば、非特許文献１を参照）。例えば放送局においては、番組映像から生成された要約映像は、番組の視聴誘導を行うために用いられる。より詳細には、要約映像は、番組の放送前の番組ＰＲに用いられ、また、放送後の番組ダイジェストとしても用いられ、例えばインターネットを介して視聴者へ提示される。

また、ＡＩを用いて要約映像を生成する手法も提案されている（例えば、非特許文献２を参照）。この手法は、ニュース番組等の５～１０分のＶＴＲシーンから３０秒～１分の要約映像を生成する際に、ＶＴＲシーンに入る前の導入部分である前説シーンを用いて、ＶＴＲシーンから、要約映像に使用する区間映像を抽出するものである。

具体的には、この手法を実現する映像抽出装置は、画像認識モデルを用いて、元の映像を前説シーンとＶＴＲシーンとに分離し、分離したＶＴＲシーンを、切り替わり点を境にして複数のシーンに分割する。そして、映像抽出装置は、音声認識モデルを用いて、分離した前説シーン及び分割した複数のシーンについてテキストデータを生成する。

映像抽出装置は、前説シーンと複数のシーンのそれぞれとの間の類似度を、テキストデータに基づいて算出し、複数のシーンから類似度の高いシーンを区間映像として抽出する。そして、抽出された区間映像を用いて要約映像が生成される。

"要約映像自動生成技術"、［online］、一般財団法人ＮＨＫエンジニアリングシステム、［令和２年３月１２日検索］、インターネット＜ＵＲＬ：www.nes.or.jp/transfer/catalog/2016/01/52b/＞宮原駿太、"ＡＩを用いた動画要約システム"、放送技術、兼六館出版、２０１８年１１月、pp.107-109

しかしながら、前述の非特許文献２の映像抽出装置では、実際の番組制作の知見が反映された区間映像を抽出することができず、結果として、利用者のニーズに合う要約映像を生成することができないという問題があった。

一般に、要約映像を生成する際には、番組映像の各カット（カット映像）から切り出された区間映像、及びカット全体の映像であるカット映像のうちのいずれか一方が用いられる。このため、いずれか一方の映像から生成された要約映像を番組の視聴誘導のために用いた場合には、効果を十分に得ることができない。

また、要約映像を生成する際に、「短めの区間映像を多めにしたい」「長い区間映像を多用してじっくり見せたい」「短い区間映像と長い区間映像を適度に混ぜて変化のある映像にしたい」等の利用者の多様なニーズに対応することができないという問題もあった。

一方で、要約映像は、前述のとおり番組の視聴誘導を目的として、番組の放送前には番組ＰＲとして用いられ、インターネットを介して視聴者へ提示される。

しかしながら、視聴者は、要約映像を視聴し、それが番組ＰＲ用であると認識すると、その視聴を止めてしまう傾向がある。なぜならば、要約映像を視聴したとしても、得られる情報が少なく、番組ＰＲ用の要約映像では内容が不十分であり、面白みが感じられないからである。

このため、視聴者が要約映像の視聴を途中で止めることのないように、それ自体に内容があり、かつ面白い要約映像が作成されることが所望されていた。このような要約映像が作成されることにより、番組の視聴誘導を一層実現することができるからである。これを実現するためには、面白い要約映像、すなわち画力のある要約映像が作成できるように、番組映像から画力のある区間映像を抽出する必要がある。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、要約映像を生成するために、画力のある区間映像を元の映像から抽出可能な映像抽出装置及びプログラムを提供することにある。

前記課題を解決するために、請求項１の映像抽出装置は、映像から区間映像を抽出する映像抽出装置において、前記映像を所定の分割点にて分割し、複数のサブカット映像を抽出する分割部と、前記分割部により分割された前記複数のサブカット映像のそれぞれを、複数のフレーム画像にサンプリングするサンプリング部と、前記サンプリング部によりサンプリングされた前記複数のフレーム画像のそれぞれについて、予め学習されたニューラルネットワークを用いてフレームスコアを求めるニューラルネットワーク部と、前記分割部により分割された前記複数のサブカット映像のそれぞれについて、前記ニューラルネットワーク部により求めた前記フレームスコアに基づきサブカットスコアを算出するサブカットスコア算出部と、前記複数のサブカット映像のそれぞれに対応する前記複数のフレーム画像のうち、最大の前記フレームスコアを有するフレーム画像を特定し、特定した前記フレーム画像を含む所定時間のサブカット映像の切り出し区間から、切り出し映像を抽出する切り出し部と、前記切り出し部により抽出された前記切り出し映像、前記サブカット映像、並びに前記サブカットスコア算出部により算出された前記サブカットスコアを組として、前記複数のサブカット映像のそれぞれに対応する組のうち、所定のしきい値以上の前記サブカットスコアを有する前記組を抽出し、抽出した前記組の前記切り出し映像を前記区間映像として出力する抽出部と、を備えたことを特徴とする。

また、請求項２の映像抽出装置は、請求項１に記載の映像抽出装置において、前記抽出部が、前記複数のサブカット映像のそれぞれに対応する組のうち、所定のしきい値以上の前記サブカットスコアを有する前記組を抽出し、抽出した前記組の前記切り出し映像及び前記サブカット映像を前記区間映像として出力する、ことを特徴とする。

また、請求項３の映像抽出装置は、請求項１または２に記載の映像抽出装置において、前記分割部が、前記分割点から所定時間後の時点を基準点とし、前記基準点から順番にそれ以降のフレーム画像を第１フレーム画像としてそれぞれ抽出し、前記分割点のフレーム画像と前記第１フレーム画像との間の類似性の程度を示す類似性評価値を算出し、前記類似性評価値が所定のしきい値よりも小さいと判定した最初の前記第１フレーム画像の時点を新しい分割点に設定し、前記分割点と前記新しい分割点との間の映像をサブカット映像として抽出する、ことを特徴とする。

また、請求項４の映像抽出装置は、請求項１または２に記載の映像抽出装置において、前記切り出し部が、前記サブカット映像の前記切り出し区間から前記切り出し映像を抽出する際に、前記切り出し区間が隣のサブカット映像に跨っている場合、前記切り出し区間が前記サブカット映像の区間に含まれ、かつ前記切り出し区間の端が前記サブカット映像の端に接するように、前記切り出し区間をシフトし、シフト後の前記切り出し区間から前記切り出し映像を抽出する、ことを特徴とする。

さらに、請求項５のプログラムは、コンピュータを、請求項１から４までのいずれか一項に記載の映像抽出装置として機能させることを特徴とする。

以上のように、本発明によれば、要約映像を生成するために、画力のある区間映像を元の映像から抽出することができる。

本発明の実施形態による映像抽出装置の構成例を示すブロック図である。分割部の処理例（類似性評価による分割処理）を示すフローチャートである。図２の説明を補充する図である。切り出し部の処理例を示すフローチャートである。図４の説明を補充する図である。切り出し区間が終端の分割点を跨ぐ場合の処理を説明する図である。抽出部の処理例を示すフローチャートである。図７の説明を補充する図である。学習装置の構成例を示すブロック図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、元の映像を複数のサブカット映像ＳＢに分割し、ニューラルネットワークを用いて、サブカット映像ＳＢを構成するフレーム画像Ｆ毎にスコア（フレームスコアＦＳ）を求め、フレームスコアＦＳに基づいて切り出し映像ＫＩを抽出し、サブカット映像ＳＢ及び切り出し映像ＫＩを区間映像ＫＵとして特定することを特徴とする。ニューラルネットワークとしては、画力の有無が付与されたフレーム画像Ｆを学習データとし、当該学習データにより学習されたモデルが用いられる。

これにより、要約映像を生成するために、画力のある区間映像ＫＵを元の映像から抽出することができる。

〔映像抽出装置〕
まず、本発明の実施形態による映像抽出装置について説明する。図１は、本発明の実施形態による映像抽出装置の構成例を示すブロック図である。この映像抽出装置１は、分割部１０、サンプリング部１１、ＮＮ（ニューラルネットワーク）部１２、サブカットスコア算出部１３、切り出し部１４及び抽出部１５を備えている。

（分割部１０）
分割部１０は、番組映像等の映像を入力し、映像に対し、所定の手法を用いて分割点を検出し、映像を分割点にて分割することで、複数のサブカット映像ＳＢを抽出する。そして、分割部１０は、サブカット映像ＳＢをサンプリング部１１及び切り出し部１４に出力する。「サブカット」は、分割部１０により映像が分割される単位（分割単位）をいう。

所定の手法として、例えばカット点検出処理、及び類似性評価による分割処理がある。分割部１０は、カット点検出処理を用いる場合、映像を構成する複数のフレーム映像において、連続するフレーム画像間で大きく画が変化した時点を分割点として検出し、サブカット映像ＳＢを抽出する。カット点検出処理は既知であり、詳細については、例えば特許第４７１４６４７号公報または特許第５０２６１５２号公報を参照されたい。

また、分割部１０は、類似性評価による分割処理を用いる場合、検出済みの分割点のフレーム画像と所定時間以降のフレーム画像との間の類似性を評価し、画が大きく変化した時点を新しい分割点とし、サブカット映像ＳＢを抽出する。

尚、分割部１０は、カット点検出処理により、映像からカット映像を抽出し、類似性評価による分割処理により、カット映像からサブカット映像ＳＢを抽出するようにしてもよい。

図２は、分割部１０の処理例（類似性評価による分割処理）を示すフローチャートであり、図３は、図２の説明を補充する図である。分割部１０は、映像を入力し（ステップＳ２０１）、直近に検出済みの分割点を前の分割点（初期の場合は、映像の先頭の時点）として、前の分割点のフレーム画像ＦＢを抽出する。

分割部１０は、前の分割点から所定時間Ｔ１後の時点を基準点とし、映像から基準点のフレーム画像ＦＡを抽出する（ステップＳ２０２）。

所定時間Ｔ１は、サブカット映像ＳＢが細かく分割されないようにするための時間期間であり、予め設定される。例えば７秒である。この所定時間Ｔ１の区間においては、サブカット映像ＳＢは分割されない。

分割部１０は、前の分割点のフレーム画像ＦＢとフレーム画像ＦＡとの間の類似性評価値Ｓを算出する（ステップＳ２０３）。類似性評価値Ｓは、両画像が類似していればいるほど高い値となり、両画像が類似していなければいないほど低い値となる。

例えば、分割部１０は、フレーム画像ＦＢのＲＧＢ値の平均値を算出すると共に、フレーム画像ＦＡのＲＧＢ値の平均値を算出し、両平均値の差の絶対値を算出する。そして、分割部１０は、差の絶対値が小さいほど類似性が高く、差の絶対値が大きいほど類似性が低いものと判断し、例えば差の絶対値に反比例する類似性評価値Ｓを算出する。

分割部１０は、類似性評価値Ｓが予め設定されたしきい値ＴＨ１よりも小さいか否かを判定する（ステップＳ２０４）。分割部１０は、ステップＳ２０４において、類似性評価値Ｓがしきい値ＴＨ１よりも小さくないと判定した場合（ステップＳ２０４：Ｎ）、すなわち両画像が類似していると判定した場合、映像から次の順番のフレーム画像ＦＡを抽出する（ステップＳ２０５）。そして、分割部１０は、ステップＳ２０３，Ｓ２０４の処理を行う。

次の順番のフレーム画像ＦＡとは、前の分割点から時間的に離れる方向のフレーム画像ＦＡであって、ステップＳ２０３，Ｓ２０４の処理が行われたフレーム画像ＦＡに対し、その次にサンプリングされたフレーム画像ＦＡをいう。

一方、分割部１０は、ステップＳ２０４において、類似性評価値Ｓがしきい値ＴＨ１よりも小さいと判定した場合（ステップＳ２０４：Ｙ）、すなわち両画像が類似していないと判定した場合、当該フレーム画像ＦＡに対応する時点を新しい分割点に設定する（ステップＳ２０６）。

分割部１０は、映像から、前の分割点と新しい分割点との間の区間の映像をサブカット映像ＳＢ（図３の例ではサブカット映像ＳＢ₂）として抽出し、サブカット映像ＳＢをサンプリング部１１及び切り出し部１４に出力する（ステップＳ２０７）。そして、分割部１０は、新しい分割点を前の分割点に設定し、図２に示す処理を行う。

このように、分割部１０の類似性評価による分割処理にて、前の分割点のフレーム画像ＦＢと所定時間Ｔ１後の時点以降のフレーム画像ＦＡとの間の類似性が順次評価され、類似していないと判定したフレーム画像ＦＡが特定される。そして、特定されたフレーム画像ＦＡの時点を新しい分割点とし、サブカット映像ＳＢが抽出される。

（サンプリング部１１）
図１に戻って、サンプリング部１１は、分割部１０からサブカット映像ＳＢを入力し、サブカット映像ＳＢを複数のフレーム画像Ｆにサンプリングする。そして、サンプリング部１１は、フレーム画像ＦをＮＮ部１２及び切り出し部１４に出力する。

例えば、サンプリング部１１は、映像を１秒毎に等間隔にサンプリングし、映像から１秒毎のフレーム画像Ｆを抽出する。

このように、サンプリング部１１により、サブカット映像ＳＢからサンプリングした複数のフレーム画像Ｆが抽出される。

（ＮＮ部１２）
ＮＮ部１２は、後述する学習装置１００により学習されたＮＮであり、後述する学習装置１００により得られた最適なパラメータ（重み係数等）が予め設定される。ＮＮとしては、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）等が用いられる。

ＮＮ部１２は、サンプリング部１１からフレーム画像Ｆを入力し、ＮＮを用いて、フレーム画像Ｆから当該フレーム画像Ｆのスコア（フレームスコアＦＳ）を求め、フレームスコアＦＳをサブカットスコア算出部１３及び切り出し部１４に出力する。

ＮＮは、後述する学習装置１００により、画力の有無が付与されたフレーム画像を学習データとして学習されるため、フレームスコアＦＳは、フレーム画像Ｆの画力の程度を表すスコアであるといえる。

ここで、画力とは、利用者に与えるインパクトまたは注目度をいう。つまり、画力が有るとは、利用者に対して短時間でインパクトを与える程度が高いこと、注目度が高いことを意味し、画力が無いとは、利用者に対して短時間でインパクトを与える程度が低いこと、注目度が低いことを意味する。

このように、ＮＮ部１２により、フレーム画像Ｆについて画力の程度を示すフレームスコアＦＳが求められる。

（サブカットスコア算出部１３）
サブカットスコア算出部１３は、ＮＮ部１２からフレームスコアＦＳを入力する。そして、サブカットスコア算出部１３は、サブカット映像ＳＢに対応する（を構成する）複数のフレーム画像ＦのフレームスコアＦＳを用いて、１つのフレーム画像ＦあたりのフレームスコアＦＳの平均値をサブカットスコアＳＳとして算出する。サブカットスコアＳＳは、サブカット映像ＳＢのスコアであり、サブカット映像ＳＢの画力の程度を表すスコアである。サブカットスコア算出部１３は、サブカットスコアＳＳを抽出部１５に出力する。

このように、サブカットスコア算出部１３により、サブカット映像ＳＢのサブカットスコアＳＳが算出される。

（切り出し部１４）
切り出し部１４は、分割部１０からサブカット映像ＳＢを入力すると共に、サンプリング部１１から、サブカット映像ＳＢに対応する複数のフレーム画像Ｆを入力する。また、切り出し部１４は、ＮＮ部１２から、サブカット映像ＳＢに対応する複数のフレーム画像ＦにおけるそれぞれのフレームスコアＦＳを入力する。

切り出し部１４は、サブカット映像ＳＢ内において、フレームスコアＦＳの最も高いフレーム画像Ｆを中心として、所定時間Ｔ２の映像を切り出し映像ＫＩとして抽出する。

切り出し部１４は、切り出し映像ＫＩ及びサブカット映像ＳＢを区間映像ＫＵとして抽出部１５に出力する。切り出し映像ＫＩは、サブカット映像ＳＢ内において、最も画力の強いフレーム画像Ｆを含む映像であり、１つのサブカット映像ＳＢ内で１つの切り出し映像ＫＩが存在する。

図４は、切り出し部１４の処理例を示すフローチャートであり、図５は、図４の説明を補充する図である。

切り出し部１４は、分割部１０からサブカット映像ＳＢを入力する（ステップＳ４０１）。また、切り出し部１４は、サンプリング部１１からサブカット映像ＳＢに対応する複数のフレーム画像Ｆ₁，・・・，Ｆ_Nを入力する（ステップＳ４０２）。Ｎは２以上の整数である。フレーム画像Ｆ₁，・・・，Ｆ_Nは、サンプリング部１１によりサブカット映像ＳＢから得られた画像である。

切り出し部１４は、ＮＮ部１２から、サブカット映像ＳＢに対応する複数のフレーム画像Ｆ₁，・・・，Ｆ_NにおけるそれぞれのフレームスコアＦＳ₁，・・・，ＦＳ_Nを入力する（ステップＳ４０３）。

切り出し部１４は、Ｎ個のフレームスコアＦＳ₁，・・・，ＦＳ_Nのうち最大のフレームスコアＦＳを特定することで、Ｎ個のフレーム画像Ｆ₁，・・・，Ｆ_Nのうち、フレームスコアＦＳが最大のフレーム画像Ｆ（図５の場合、フレーム画像Ｆ₄）を特定する（ステップＳ４０４）。

切り出し部１４は、サブカット映像ＳＢから、フレーム画像Ｆ₄の時点（図５のα）を中心に、前後の所定時間Ｔ２を切り出し区間とした映像を、切り出し映像ＫＩとして抽出する（ステップＳ４０５）。

尚、切り出し映像ＫＩの中心は、必ずしもフレーム画像Ｆ₄の時点である必要はない。切り出し部１４は、ステップＳ４０５において、サブカット映像ＳＢから、フレーム画像Ｆ₄の時点を含む所定時間Ｔ２の映像を、切り出し映像ＫＩとして抽出すればよい。

所定時間Ｔ２は、切り出し区間であり予め設定される。尚、時間Ｔ２としては、実際の番組制作スタッフへのインタビューから得られた知見により、例えばＴ２＝３．５秒が望ましいが、利用者のユーザ操作により変更できるようにしてもよい。

切り出し部１４は、切り出し映像ＫＩ及びサブカット映像ＳＢを区間映像ＫＵとして抽出部１５に出力する（ステップＳ４０６）。

このように、切り出し部１４により、サブカット映像ＳＢ内において、画力のあるフレーム画像Ｆを含む切り出し映像ＫＩが抽出され、切り出し映像ＫＩ及びサブカット映像ＳＢが区間映像ＫＵとして出力される。

図６は、切り出し区間が終端の分割点を跨ぐ場合の処理を説明する図である。前述のとおり、切り出し部１４は、ステップＳ４０５において、サブカット映像ＳＢから、所定時間Ｔ２の切り出し区間の切り出し映像ＫＩを抽出する。

しかしながら、図６に示すとおり、サブカット映像ＳＢ₁，ＳＢ₂が連続しており、サブカット映像ＳＢ₁から抽出される切り出し映像ＫＩの切り出し区間が、サブカット映像ＳＢ₁の終端の分割点を跨ぐ場合もあり得る。この場合、切り出し映像ＫＩは、サブカット映像ＳＢ₁の後方部分及びサブカット映像ＳＢ₂の前方部分から構成されることとなる。切り出し映像ＫＩは、本来的に、サブカット映像ＳＢ₁内において画力のある映像として抽出されるべきである。

そこで、切り出し区間の全てがサブカット映像ＳＢ₁の区間に含まれるように、かつ切り出し区間の終端がサブカット映像ＳＢ₁の終端の分割点に接するように、切り出し区間をサブカット映像ＳＢ₁の方向へずらす（シフトする）ようにした。

具体的には、切り出し部１４は、フレームスコアＦＳが最大のフレーム画像Ｆの時点を中心に、前後の所定時間Ｔ２を切り出し区間に設定する。そして、切り出し部１４は、切り出し区間がサブカット映像ＳＢ₁の終端の分割点を跨いでいると判断した場合、跨いでいる区間の時間長（跨ぎ時間長）を求める。

切り出し部１４は、切り出し区間の全てがサブカット映像ＳＢ₁の区間に含まれ、かつ切り出し区間の終端がサブカット映像ＳＢ₁の終端の分割点に接するように、切り出し区間を、跨ぎ時間長の区間だけサブカット映像ＳＢ₁の方向へシフトする。そして、切り出し部１４は、サブカット映像ＳＢ₁から、シフト後の切り出し区間の切り出し映像ＫＩを抽出する。

尚、切り出し区間が始端の分割点を跨ぐ場合も同様である。具体的には、切り出し部１４は、切り出し区間がサブカット映像ＳＢ₁の始端の分割点を跨いでいると判断した場合、跨ぎ時間長を求める。そして、切り出し部１４は、切り出し区間の全てがサブカット映像ＳＢ₁の区間に含まれ、かつ切り出し区間の始端がサブカット映像ＳＢ₁の始端の分割点に接するように、切り出し区間を、跨ぎ時間長の区間だけサブカット映像ＳＢ₁の方向へシフトする。そして、切り出し部１４は、サブカット映像ＳＢ₁から、シフト後の切り出し区間の切り出し映像ＫＩを抽出する。

このように、切り出し区間が端（始端または終端）の分割点を跨ぐ場合には、切り出し区間は、その全てがサブカット映像ＳＢ₁の区間に含まれるように、かつ切り出し区間の端がサブカット映像ＳＢ₁の端の分割点に接するように、サブカット映像ＳＢ₁の方向へシフトする。これにより、切り出し映像ＫＩは、１つのサブカット映像ＳＢ内において画力のある映像として抽出され、隣り合う２つのサブカット映像ＳＢから抽出されることはない。

（抽出部１５）
図１に戻って、抽出部１５は、切り出し部１４から、映像に対応する（を構成する）複数のサブカット映像ＳＢのそれぞれについて、区間映像ＫＵ（切り出し映像ＫＩ及びサブカット映像ＳＢ）を入力する。また、抽出部１５は、サブカットスコア算出部１３から、映像に対応する複数のサブカット映像ＳＢにおけるそれぞれのサブカットスコアＳＳを入力する。

ここで、区間映像ＫＵ及びサブカットスコアＳＳを組とする。組の数は、映像に対応する複数のサブカット映像ＳＢの数である。

抽出部１５は、サブカットスコアＳＳを降順に（サブカットスコアＳＳが降順となるように）組をソートし、上位の（所定のしきい値ＴＨ２以上のサブカットスコアＳＳに対応する）組を特定し、特定した組の区間映像ＫＵを区間映像ＫＵ’（切り出し映像ＫＩ’及びサブカット映像ＳＢ’）として特定し、これを出力する。そして、利用者は、抽出部１５から出力された区間映像ＫＵ’を用いて要約映像を生成する。しきい値ＴＨ２は、予め設定される。

図７は、抽出部１５の処理例を示すフローチャートであり、図８は、図７の説明を補充する図である。抽出部１５は、区間映像ＫＵ（切り出し映像ＫＩ及びサブカット映像ＳＢ）及びサブカットスコアＳＳの組（ＫＵ，ＳＳ）の全てを入力する（ステップＳ７０１）。組（ＫＵ，ＳＳ）の全てとは、映像に対応する複数のサブカット映像ＳＢの数分の組である。

抽出部１５は、図８の上部に示すように、映像に対応する複数のサブカット映像ＳＢの数分の区間映像ＫＵである切り出し映像ＫＩ₁，・・・，ＫＩ_M及びサブカット映像ＳＢ₁，・・・，ＳＢ_Mを入力する。また、抽出部１５は、図８には図示しないサブカットスコアＳＳ₁，・・・，ＳＳ_Mを入力する。つまり、抽出部１５は、映像に対応する複数のサブカット映像ＳＢの数分の組（ＫＵ₁，ＳＳ₁），・・・，（ＫＵ_M，ＳＳ_M）を入力する。Ｍは２以上の整数である。

映像に対応する複数のサブカット映像ＳＢを、サブカット映像ＳＢ₁，・・・，ＳＢ_Mとする。また、複数のサブカット映像ＳＢのそれぞれに対応する切り出し映像ＫＩを、切り出し映像ＫＩ₁，・・・，ＫＩ_Mとする。

抽出部１５は、組（ＫＵ₁，ＳＳ₁），・・・，（ＫＵ_M，ＳＳ_M）をサブカットスコアＳＳの降順にソートする（ステップＳ７０２）。これにより、図８の中央部に示すように、サブカットスコアＳＳが降順となるように、例えば切り出し映像ＫＩ₁₀及びサブカット映像ＳＢ₁₀、切り出し映像ＫＩ₂₁及びサブカット映像ＳＢ₂₁、切り出し映像ＫＩ₁及びサブカット映像ＳＢ₁、・・・の順番に配列される。

抽出部１５は、サブカットスコアＳＳがしきい値ＴＨ２以上であることを満たす組（ＫＵ’，ＳＳ’）を特定する（ステップＳ７０３）。そして、抽出部１５は、ステップＳ７０３にて特定した組（ＫＵ’，ＳＳ’）の区間映像ＫＵ’（切り出し映像ＫＩ’及びサブカット映像ＳＢ’）を出力する（ステップＳ７０４）。

これにより、図８の下部に示すように、例えば切り出し映像ＫＩ₁₀及びサブカット映像ＳＢ₁₀、切り出し映像ＫＩ₂₁及びサブカット映像ＳＢ₂₁、切り出し映像ＫＩ₁及びサブカット映像ＳＢ₁、・・・、並びに切り出し映像ＫＩ₁₉及びサブカット映像ＳＢ₁₉が出力される。

このように、切り出し部１４により、映像に対応する複数のサブカット映像ＳＢの数分の区間映像ＫＵのうち、しきい値ＴＨ２以上の区間映像ＫＵ’が特定され、区間映像ＫＵ’が出力される。

以上のように、本発明の実施形態による映像抽出装置１によれば、分割部１０は、映像から分割点を検出し、映像を分割点にて分割することで、複数のサブカット映像ＳＢを抽出する。サンプリング部１１は、サブカット映像ＳＢを複数のフレーム画像Ｆにサンプリングする。

ＮＮ部１２は、ＮＮを用いて、フレーム画像ＦのスコアであるフレームスコアＦＳを求める。ＮＮ部１２は、インパクトの有無を表す画力の有無が付与されたフレーム画像を学習データとして学習されたモデルであり、後述する学習装置１００により、ＮＮ部１２にて用いるパラメータが最適化される。

サブカットスコア算出部１３は、サブカット映像ＳＢにおけるフレーム画像ＦあたりのフレームスコアＦＳの平均値を、サブカットスコアＳＳとして算出する。

切り出し部１４は、サブカット映像ＳＢ内において、フレームスコアＦＳの最も高いフレーム画像Ｆを中心として、所定時間Ｔ２の映像を切り出し映像ＫＩとして抽出し、切り出し映像ＫＩ及びサブカット映像ＳＢを区間映像ＫＵとして出力する。

抽出部１５は、サブカットスコアＳＳを降順に、映像に対応する複数のサブカット映像ＳＢの数分の区間映像ＫＵをソートし、上位の区間映像ＫＵ’を特定し、特定した区間映像ＫＵ’の切り出し映像ＫＩ’及びサブカット映像ＳＢ’を出力する。

これにより、要約映像を生成するために、画力のある区間映像ＫＵ’を元の映像から抽出することができる。そして、利用者は、実際の番組制作の知見である画力を反映した要約映像、すなわち１つのコンテンツとして完結し、視聴者が見てそれだけで楽しめる要約映像を作成することができる。

また、サブカット映像ＳＢに対する２種類の区間映像ＫＵ’である切り出し映像ＫＩ’及びサブカット映像ＳＢ’を利用者へ提示することで、「短めの区間動画を多めにしたい」「長い区間動画を多用してじっくり見せたい」「短い区間と長い区間を適度に混ぜて変化のある映像にしたい」等の、利用者の多様なニーズに対応することができる。

〔学習装置〕
次に、本発明の実施形態による映像抽出装置１に備えたＮＮ部１２を学習する学習装置について説明する。図９は、学習装置の構成例を示すブロック図である。この学習装置１００は、サンプリング部１１０、画力付与部１１１、メモリ１１２及び学習部１１３を備えている。学習装置１００は、図１に示した映像抽出装置１のＮＮ部１２が用いるパラメータを最適化する装置である。

サンプリング部１１０は、番組映像等の映像を入力し、図１に示したサンプリング部１１と同様に、映像をフレーム画像Ｆにサンプリングし、フレーム画像Ｆを画力付与部１１１に出力する。例えば５０本程度の映像から、等間隔でサンプリングされた数千枚程度のフレーム画像Ｆからなる画像集合が生成される。

画力付与部１１１は、サンプリング部１１０からフレーム画像Ｆを入力し、フレーム画像Ｆを利用者である実際の番組制作スタッフへ提示することで、利用者の操作により、フレーム画像Ｆに対する画力の有無の情報を入力する。

画力の有無は、インパクトのある画像であるか否か、すなわち番組の代表画像に適しているか否かにより設定される。利用者は、フレーム画像Ｆについて、番組の代表画像に適していると判断した場合、画力付与部１１１は、利用者の操作により、画力有りを入力する。一方、利用者は、フレーム画像Ｆについて、番組の代表画像に適していないと判断した場合、画力付与部１１１は、利用者の操作により、画力無しを入力する。

画力付与部１１１は、番組の代表画像に適していると判断された画力有りを入力した場合、当該フレーム画像Ｆに正例を付与する。一方、画力付与部１１１は、番組の代表画像に適していないと判断された画力無しを入力した場合、当該フレーム画像Ｆに負例を付与する。

画力付与部１１１は、正例または負例が付与されたフレーム画像Ｆを学習データとして、メモリ１１２に格納する。

学習部１１３は、ＮＮ部１２０及びパラメータ更新部１２１を備えている。ＮＮ部１２０は、図１に示したＮＮ部１２に対応する。学習部１１３は、メモリ１１２から正例または負例が付与されたフレーム画像Ｆを入力し、正例または負例が付与されたフレーム画像Ｆを用いて、ＮＮ部１２０のパラメータを最適化する。

具体的には、ＮＮ部１２０は、フレーム画像Ｆを入力し、ＮＮを用いて、フレーム画像ＦからフレームスコアＦＳを求め、フレームスコアＦＳをパラメータ更新部１２１に出力する。

パラメータ更新部１２１は、ＮＮ部１２０からフレームスコアＦＳを入力すると共に、フレーム画像Ｆに付与された正例または負例を入力する。そして、パラメータ更新部１２１は、フレームスコアＦＳ及び正例または負例に基づいて誤差を求め、誤差に基づいて、ＮＮ部１２０が使用するパラメータを更新する。パラメータ更新部１２１は、例えば誤差伝播法によりパラメータを最適化する。最適化されたパラメータは、図１に示したＮＮ部１２に設定される。

ＮＮとしては、図１に示したＮＮ部１２と同様に、畳み込みニューラルネットワーク等が用いられる。

以上のように、図９に示した学習装置１００によれば、画力の有無が付与されたフレーム画像Ｆを学習データとして、ＮＮ部１２０が学習され、最適なパラメータが生成される。そして、最適なパラメータは、図１に示したＮＮ部１２に用いられる。

これにより、映像抽出装置１は、学習装置１００により生成されたパラメータを用いることで、画力の強いフレーム画像Ｆについては高いフレームスコアＦＳを求め、画力の弱いフレーム画像Ｆについては低いフレームスコアＦＳを求める。そして、映像抽出装置１は、要約映像を生成するために、画力のある区間映像ＫＵ’を元の映像から抽出することができる。

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。

尚、本発明の実施形態による映像抽出装置１のハードウェア構成としては、通常のコンピュータを使用することができる。映像抽出装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。学習装置１００についても同様である。

映像抽出装置１に備えた分割部１０、サンプリング部１１、ＮＮ部１２、サブカットスコア算出部１３、切り出し部１４及び抽出部１５の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

また、学習装置１００に備えたサンプリング部１１０、画力付与部１１１、メモリ１１２及び学習部１１３の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１映像抽出装置
１０分割部
１１サンプリング部
１２ＮＮ（ニューラルネットワーク）部
１３サブカットスコア算出部
１４切り出し部
１５抽出部
１００学習装置
１１０サンプリング部
１１１画力付与部
１１２メモリ
１１３学習部
１２０ＮＮ部
１２１パラメータ更新部
ＳＢ，ＳＢ’ サブカット映像
ＦＳフレームスコア
ＫＩ，ＫＩ’ 切り出し映像
ＦＡ基準点のフレーム画像
ＦＢ前の分割点のフレーム画像
ＫＵ，ＫＵ’ 区間映像
Ｓ類似性評価値
ＳＳ，ＳＳ’ サブカットスコア
ＴＨ１，ＴＨ２しきい値

Claims

映像から区間映像を抽出する映像抽出装置において、
前記映像を所定の分割点にて分割し、複数のサブカット映像を抽出する分割部と、
前記分割部により分割された前記複数のサブカット映像のそれぞれを、複数のフレーム画像にサンプリングするサンプリング部と、
前記サンプリング部によりサンプリングされた前記複数のフレーム画像のそれぞれについて、予め学習されたニューラルネットワークを用いてフレームスコアを求めるニューラルネットワーク部と、
前記分割部により分割された前記複数のサブカット映像のそれぞれについて、前記ニューラルネットワーク部により求めた前記フレームスコアに基づきサブカットスコアを算出するサブカットスコア算出部と、
前記複数のサブカット映像のそれぞれに対応する前記複数のフレーム画像のうち、最大の前記フレームスコアを有するフレーム画像を特定し、特定した前記フレーム画像を含む所定時間のサブカット映像の切り出し区間から、切り出し映像を抽出する切り出し部と、
前記切り出し部により抽出された前記切り出し映像、前記サブカット映像、並びに前記サブカットスコア算出部により算出された前記サブカットスコアを組として、
前記複数のサブカット映像のそれぞれに対応する組のうち、所定のしきい値以上の前記サブカットスコアを有する前記組を抽出し、抽出した前記組の前記切り出し映像を前記区間映像として出力する抽出部と、
を備えたことを特徴とする映像抽出装置。
請求項１に記載の映像抽出装置において、
前記抽出部は、
前記複数のサブカット映像のそれぞれに対応する組のうち、所定のしきい値以上の前記サブカットスコアを有する前記組を抽出し、抽出した前記組の前記切り出し映像及び前記サブカット映像を前記区間映像として出力する、ことを特徴とする映像抽出装置。
請求項１または２に記載の映像抽出装置において、
前記分割部は、
前記分割点から所定時間後の時点を基準点とし、前記基準点から順番にそれ以降のフレーム画像を第１フレーム画像としてそれぞれ抽出し、前記分割点のフレーム画像と前記第１フレーム画像との間の類似性の程度を示す類似性評価値を算出し、前記類似性評価値が所定のしきい値よりも小さいと判定した最初の前記第１フレーム画像の時点を新しい分割点に設定し、前記分割点と前記新しい分割点との間の映像をサブカット映像として抽出する、ことを特徴とする映像抽出装置。
請求項１または２に記載の映像抽出装置において、
前記切り出し部は、
前記サブカット映像の前記切り出し区間から前記切り出し映像を抽出する際に、前記切り出し区間が隣のサブカット映像に跨っている場合、前記切り出し区間が前記サブカット映像の区間に含まれ、かつ前記切り出し区間の端が前記サブカット映像の端に接するように、前記切り出し区間をシフトし、シフト後の前記切り出し区間から前記切り出し映像を抽出する、ことを特徴とする映像抽出装置。
コンピュータを、請求項１から４までのいずれか一項に記載の映像抽出装置として機能させるためのプログラム。