JP6557592B2

JP6557592B2 - 映像シーン分割装置及び映像シーン分割プログラム

Info

Publication number: JP6557592B2
Application number: JP2015244026A
Authority: JP
Inventors: 住吉　英樹; 英樹住吉; 吉彦河合
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2019-08-07
Anticipated expiration: 2035-12-15
Also published as: JP2017112448A

Description

本発明は、映像コンテンツをシーンに分割するための装置及びプログラムに関する。

従来、統計的な手法を用いて、画像の中の被写体をソフトウェアにより認識してメタデータを付与することにより、画像検索等のアプリケーションが実現されてきた。

ところで、テレビ番組等の映像コンテンツは、図７にイメージを示すように、階層構造で表現されることが多い。具体的には、より小さな単位から、フレーム、ショット、シーン、コンテンツ（番組映像）と呼ばれる。

ショットは、撮影時のカメラの切り替わり点を境界とし、長さは数秒〜数十秒と短い。一般的な１時間程度の番組では、ショット数は１００〜１０００程度と多くなるので、ショットの羅列から番組全体の構造を把握することは容易ではない。例えば、ドラマ等、複数のショットの組み合わせにより映像の意味を表現する番組の場合、単一のショットだけでは映像の意味が理解できないことが多い。このため、映像検索の利用者は、映像分割の単位としてショットは細かすぎると感じることが多い。
また、映像検索において検索結果を提示する場合、コンテンツの内容を構造的に示したり、必要な映像を意味的な単位で再生したりする機能が望まれている。

このような状況において、例えば、色、模様又は音の連続性に着目し、この連続性の途切れた点を境界として映像を分割する手法が提案されている（例えば、特許文献１及び２参照）。

特開２００４−２８０６６９号公報特開２００８−５１６７号公報

ところで、シーンは、映像編集者によって意味付けされた複数のショットにより構成される区間であり、コンテンツ内で表現されている場所又は時を同じくすることが多い。このため、従来手法で用いられる映像又は音声信号の連続性が示す区間と、人の考える意味区間とは乖離が大きく、利用者の希望する境界で分割されないことが多かった。
このように、意味的な映像内容の境界であるシーン境界を自動的に検出することは難しかった。

本発明は、映像コンテンツを適切にシーンに分割できる映像シーン分割装置及び映像シーン分割プログラムを提供することを目的とする。

本発明に係る映像シーン分割装置は、映像のフレーム間の画像データの差分に基づいて、当該映像の不連続点であるショット境界を検出するショット境界検出部と、前記ショット境界により分割されたショット毎に複数の静止画像を抽出する静止画像抽出部と、前記静止画像毎の被写体を認識する被写体認識部と、前記ショットそれぞれについて、前記被写体の出現頻度を示すヒストグラムを生成するヒストグラム生成部と、前記ヒストグラムの類似度に基づいて、当該ヒストグラムの不連続点であるシーン境界を判定するシーン境界判定部と、を備える。

前記被写体認識部は、前記静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の前記被写体を識別してもよい。

前記ヒストグラム生成部は、前記ショットの期間において前記被写体が認識された前記静止画像の数を正規化した度数、又は前記被写体が認識された前記静止画像に対応する前記ショットの期間内の時間を正規化した度数の分布を、前記ヒストグラムとして生成してもよい。

前記ヒストグラム生成部は、前記被写体のグループに対して前記ヒストグラムを生成してもよい。

前記シーン境界判定部は、前記ヒストグラムにおける度数が上位所定数の前記被写体のみからなる部分ヒストグラムに基づいて、前記シーン境界を判定してもよい。

前記シーン境界判定部は、シーンにおける前記被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、前記シーン境界の判定結果を調整してもよい。

本発明に係る映像シーン分割プログラムは、コンピュータを、前記映像シーン分割装置として機能させる。

本発明によれば、映像コンテンツを適切にシーンに分割できる。

実施形態に係る映像シーン分割装置の機能構成を示すブロック図である。実施形態に係るショット境界の検出及び静止画像の抽出の具体例を示す図である。実施形態に係るシーン分割の手順を示す概略図である。実施形態に係る制御部による処理を示すフローチャートである。実施形態に係る番組ジャンルに基づいた被写体への重み付けの例を示す図である。実施形態に係る映像編集の知見に基づくシーン分割の例を示す図である。映像コンテンツの階層的な単位のイメージを示す図である。

以下、本発明の実施形態の一例について説明する。
図１は、本実施形態に係る映像シーン分割装置１の機能構成を示すブロック図である。

映像シーン分割装置１は、ショット境界検出部１１と、静止画像抽出部１２と、被写体認識部１３と、ヒストグラム生成部１４と、シーン境界判定部１５とを含む制御部１０、及び記憶部２０を備えた情報処理装置（コンピュータ）である。

制御部１０は、映像シーン分割装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、前述のハードウェアと協働し、本実施形態における各種機能を実現している。制御部１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってよい。

記憶部２０は、ハードウェア群を映像シーン分割装置１として機能させるための各種プログラム、本実施形態の各種機能を制御部１０に実行させるためのプログラム、及び各種データ等を記憶する。記憶部２０が記憶するデータには、処理対象である映像データ、及び処理後のシーン分割データの他、シーン分割に関する後述の判断基準のデータが含まれる。

ショット境界検出部１１は、映像データを構成するフレーム間の画像データの差分に基づいて、連続して収録された映像が途切れる不連続点であるショット境界を検出する。
具体的には、ショット境界検出部１１は、１フレーム毎に、直前のフレームとの間で画像データの差分を求める。そして、この差分値が第１閾値を超えた場合に、ショット境界検出部１１は、この第１閾値を超えた前後のフレームの間を、ショット境界として検出する。なお、画像データの差分は、画像データに含まれる画素値の変化量の合計又は平均、あるいは輝度ヒストグラムの変化量等、フレーム間での画像の変化の度合いを評価する値として適宜設定される。

静止画像抽出部１２は、ショット境界により分割されたショット毎に、１以上の静止画像を抽出する。
具体的には、静止画像抽出部１２は、画像データの差分の累積が第２閾値を超える度に、この第２閾値を超えたフレームを、静止画像として抽出する。

図２は、本実施形態に係るショット境界の検出及び静止画像の抽出の具体例を示す図である。
ショット境界検出部１１は、映像コンテンツを構成する時間的に連続するフレームを順に比較し、画像データの差分を算出する。

ショット境界検出部１１は、算出した差分値がショット境界の閾値（第１閾値）Ｘを超えた場合に、直前のフレームとの間をショット境界として検出する。

静止画像抽出部１２は、ショット境界の前後のフレーム、すなわちショット内の最初と最後のフレームＰ１及びＰ２を、ショットを代表する静止画像（サムネイル）として抽出する。

また、静止画像抽出部１２は、例えば、ショット境界検出部１１により計算されたフレーム間の差分値をショット毎に累積しており、累積値がサムネイル出力の閾値（第２閾値）Ｙ１、Ｙ２、Ｙ３、Ｙ４、・・・を超える度に、この時のフレームＰ３、Ｐ４、Ｐ５、Ｐ６、・・・を、ショット内で比較的大きく変動した静止画像として、さらに抽出してもよい。
なお、静止画像抽出部１２は、一定時間間隔（例えば、１０フレーム毎、１秒毎等）で静止画像を抽出してもよい。

このとき、静止画像抽出部１２は、抽出した静止画像を、映像の先頭から順に付与されるショット番号、及びフレームを識別する時刻情報と共に、記憶部２０に記憶する。

被写体認識部１３は、抽出された静止画像毎に、画像内の被写体を認識する。
具体的には、被写体認識部１３は、予め想定されている特定の複数の被写体を学習しておき、これらの被写体が静止画像に含まれているか否かを判定する。

事前に学習する被写体は、対象となる映像コンテンツの内容又は分野等により適宜選択される。例えば、ドラマであれば登場人物の顔というように、処理対象とする映像コンテンツに頻繁に登場する被写体が予め学習される。
このとき、映像コンテンツに登場する広範囲な被写体を認識できるように多数の被写体が学習されることが望ましいが、認識可能な被写体が限定される場合には、番組内での登場頻度が高いと想定される被写体が選択される。

被写体認識部１３は、例えばＢａｇ−ｏｆ−ｖｉｓｕａｌ−ｗｏｒｄｓ法等の画像データ内の特徴量に基づく個人の識別を可能とする技術を用い、映像コンテンツ中に登場する人物（Ａさん、Ｂさん、・・・）を特定する。
あるいは、被写体認識部１３は、静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の被写体それぞれを特定することなく、仮のラベル（Ａクラスタ、Ｂクラスタ、・・・）によって識別してもよい。

ヒストグラム生成部１４は、ショットそれぞれについて、被写体毎に出現数、すなわち被写体が含まれる静止画像の数をカウントし、被写体の出現頻度を示すヒストグラムを生成する。
このとき、ヒストグラム生成部１４は、例えば次の（１）又は（２）のように正規化した度数の分布として、ショットの期間内に各被写体が出現した信頼度を表現する。これにより、ショット毎のヒストグラムにおける度数の最大は一定値に揃えられる。

（１）ヒストグラム生成部１４は、ショットの期間において被写体が認識された静止画像の数を正規化した度数の分布を、ヒストグラムとして生成する。
（２）ヒストグラム生成部１４は、被写体が認識された静止画像に対応するショットの期間内の時間を正規化した度数の分布を、ヒストグラムとして生成する。

また、ヒストグラム生成部１４は、映像コンテンツの種類に応じて、複数の被写体からなるグループに対してヒストグラムを生成してもよい。例えば、ドラマでは、登場人物を家族又はサークル等のグループとして扱ったり、人物が被写体の中心とならない紀行番組では、人物を１グループにまとめ、「人物」を山、海等の他の被写体と同じレベルとして扱ったりできる。

シーン境界判定部１５は、生成されたヒストグラムの類似度に基づいて、一連のヒストグラムの不連続点であるシーン境界を判定する。
具体的には、シーン境界判定部１５は、シーンに出現する被写体の連続性を判定するために、ショット単位に生成したヒストグラム間の類似度を求め、例えば類似度が一定以下の場合に連続性が途切れ場面が切り替わったと判定する。
なお、ヒストグラム間の類似度の判定には、ヒストグラムインターセクション等の手法が利用されてよい。また、例えば、上位一定数の被写体が同時に変化した、又は一定の割合以上が変化した点を場面の分割点と判定する等、簡易的な手法が利用されてもよい。

図３は、本実施形態に係るシーン分割の手順を示す概略図である。
映像シーン分割装置１は、入力された映像をショット１〜４に分割すると、それぞれのショットから複数の静止画像（サムネイル）を抽出する。

続いて、映像シーン分割装置１は、各静止画像から被写体Ａ〜Ｄを認識し、出現回数に基づく正規化されたヒストグラムを生成する。
映像シーン分割装置１は、生成されたヒストグラムについて、時系列に前後の類似度を算出し、類似度が閾値に満たないショット３とショット４との境界を、シーン境界として判定する。

ここで、連続性の判定を単一の被写体で行うと過剰に分割されやすい。また、認識数（登場回数）が少ない被写体を選択すると、被写体認識処理による誤検出の影響を受けることが多い。
そこで、シーン境界判定部１５は、ヒストグラムにおける度数が上位所定数の被写体のみからなる部分ヒストグラムに基づいて、シーン境界を判定する。例えば、ヒストグラムに現れている上位所定数（例えば３）の被写体、又は一定の割合（例えば５０％）に注目して類似度を計算する方法が採用される。

図４は、本実施形態に係る制御部１０による処理を示すフローチャートである。
ステップＳ１において、ショット境界検出部１１は、映像コンテンツに含まれる一連のフレームから、ショット境界を検出し、映像を複数のショットに分割する。

ステップＳ２において、静止画像抽出部１２は、ステップＳ１で分割されたショット毎に、複数の静止画像（サムネイル）を抽出する。

ステップＳ３において、被写体認識部１３は、ステップＳ２で抽出された静止画像毎に、被写体を認識する。

ステップＳ４において、ヒストグラム生成部１４は、ステップＳ３で認識された被写体の出現頻度を表すヒストグラムを生成する。

ステップＳ５において、シーン境界判定部１５は、ステップＳ４で生成されたヒストグラムを、時系列に順に選択していく。

ステップＳ６において、シーン境界判定部１５は、ステップＳ５で選択したヒストグラムと、直前に選択されたヒストグラムとの類似度を算出する。

ステップＳ７において、シーン境界判定部１５は、ステップＳ６で算出した類似度が所定の閾値より小さいか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ８に移り、判定がＮＯの場合、処理はステップＳ９に移る。

ステップＳ８において、シーン境界判定部１５は、ステップＳ７で類似度が小さいと判定されたショット境界を、シーン境界として判定する。

ステップＳ９において、シーン境界判定部１５は、ヒストグラムが最後まで選択され映像が終了したか否かを判定する。この判定がＹＥＳの場合、処理は終了し、判定がＮＯの場合、処理はステップＳ５に戻る。

＜変形例＞
前述の統計に基づいたヒストグラムの類似度による連続性の判断基準は、映像コンテンツ制作・編集のセオリーに基づいて、例えば、以下の（Ａ）又は（Ｂ）の判断基準が用いられてもよい。あるいは、前述の手法により判定されたシーン境界がこれらの判断基準によって調整されてもよい。
シーンは、人手により作られた構造であるが、番組映像の編集には、一定のセオリーもあり、番組映像に関する知識を利用することで、シーン検出の誤りが低減される。

（Ａ）番組ジャンルを考慮した連続性の判断基準
ヒストグラム生成部１４及びシーン境界判定部１５は、番組ジャンルに基づいて、被写体に対する重みづけを調整してもよい。
例えば、ドラマ等、人物が被写体の中心となり、個人が重要な被写体である場合と、紀行系番組等、特定個人よりも、人物と他の被写体との変化がシーンを分割する要因となる場合とでは、人物と自然物との重みを変化させ、連続性の判断基準を別に設ける。

具体的には、ドラマ等では、個人を認識した上で、登場人物をセット（ＡＢグループ、ＢＣＤグループ等）で扱い、セット毎の分布であるヒストグラムが用いられる。一方、紀行等の人物が被写体の中心とならない映像コンテンツでは、人物は全て１グループにまとめ、他の被写体（山、海等）との境界に、より重みが付けられる。

図５は、本実施形態に係る番組ジャンルに基づいた被写体への重み付けの例を示す図である。
ドラマの場合（ａ）、人物Ａ及びＢが登場するショットと、人物Ｃ及びＤが登場するショットとの境界がシーン境界として判定されている。
また、人物Ｃ及びＤが同一グループの場合、人物Ｃ及びＤが登場するショットと、人物Ｄのみが登場するショットとは、被写体が同一グループであるため、同一のシーンとして判定されている。

なお、シーン境界判定部１５は、グループに属する被写体の全員が登場しているショットを同一のシーンと判定してもよいし、一定以上、又はいずれかが登場しているショットを同一のシーンと判定してもよい。これらの判断基準は、番組ジャンル及びグループの種類等により適宜設定されてよい。

紀行の場合（ｂ）、被写体が風景のショットから被写体が人物Ｅのショットへの遷移を、シーン境界として判定されている。同様に、被写体が人物Ｇのショットから被写体が動物のショットへの遷移を、シーン境界として判定されている。
また、人物Ｅ、Ｆ又はＧが登場する複数のショットは、被写体が同一グループであると判断され、同一のシーンとして判定されている。

（Ｂ）映像編集の知見を利用した連続性の判断基準
シーン境界判定部１５は、シーンにおける被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、シーン境界の判定結果を調整してもよい。
例えば、人の顔が交互に映されるようなドラマ等の番組では、個人の顔に注目した場合、シーンが細切れになってしまう場合がある。そこで、一般的な編集技法である、２人の人物を交互に映すモンタージュ技法と呼ばれる対話シーンの知識を組み込むことで、顔が交互に被写体となるショットの連続は、１つの対話シーンとして適切に判定される。これにより、シーンの過分割が抑制される。

図６は、本実施形態に係る映像編集の知見に基づくシーン分割の例を示す図である。
ヒストグラムの類似度に基づく統計的な手法のみの場合（ａ）、人物Ａが登場するショットと、人物Ｂが登場するショットとがシーン境界として判定され、複数のシーン１〜４に細かく分割されている。

対話シーンの人物が交互に登場する特徴を判断基準とする場合（ｂ）、人物Ａ又はＢのいずれかが交互に登場する複数のショットが１つのシーンとして判定され、人物Ａ及びＢが登場するショットとの間がシーン境界と判定されている。

ここで、被写体認識部１３は、人物の顔を認識した際に、顔の位置（例えば、中心位置）も、ショット番号、フレーム時刻、人物ＩＤ等と共に保存することが好ましい。これにより、シーン境界判定部１５は、例えば、前述の対話のシーン（図６）において、人物Ａ及び人物Ｂが映されている位置の特徴（人物Ａは画面左寄り、人物Ｂは画面右寄り等）を加味して、精度よくシーン分割を行える。

以上のように、本実施形態によれば、映像シーン分割装置１は、ショット毎に抽出された静止画像の被写体について、出現頻度を示すヒストグラムの類似度に基づいて、ショット間での被写体の出現の連続性を判断し、不連続点におけるシーンの切り替えを判定する。
したがって、映像シーン分割装置１は、映像の内容を表す被写体の認識結果を用い、より意味内容に近い形で、映像コンテンツを意味的な区間の切れ目であるシーンに適切に分割できる。
この結果、映像の検索又は再利用時に、人の感覚により近い意味的な単位であるシーンの単位で表示及び再生が可能になる。また、映像検索の結果をコンテンツ単位で提示する場合、意味区間であるシーン毎に整理して提示することで、コンテンツ全体の概要が把握しやすくなるので、映像検索又はメタデータの付与等の２次利用が容易になる。

また、映像シーン分割装置１は、ショットの期間から抽出された複数の静止画像から被写体毎のヒストグラムを生成するので、被写体認識における誤認識又は見落とし等によるノイズを低減でき、シーン分割の精度が向上する。

映像シーン分割装置１は、フレーム間の差分が第１の閾値を超えた場合にショット境界を検出し、ショット毎にフレーム間の差分の累積値が第２閾値を超えた場合に静止画像（サムネイル）を抽出する。
したがって、映像シーン分割装置１は、簡易なルールに基づいて効率的に映像をショットに分割し、ショットそれぞれの内容を特徴づける静止画像を抽出できる。

映像シーン分割装置１は、静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の被写体を識別できる。これにより、映像シーン分割装置１は、被写体を特定するために予め学習することなく、未知の被写体それぞれを識別できる。

映像シーン分割装置１は、ショットの期間において被写体が認識された静止画像の数を正規化した度数の分布を、又は被写体が認識された静止画像に対応するショットの期間内の時間を正規化した度数の分布を、ヒストグラムとして生成する。
これらの正規化の手法により、映像シーン分割装置１は、ショットの期間内に各被写体が出現した信頼度を表現する。これにより、ショット毎のヒストグラムにおける度数の最大は一定値に揃えられ、ショット間でのヒストグラムの比較がより正確に行える。

映像シーン分割装置１は、被写体のグループに対して前記ヒストグラムを生成することで、番組ジャンルに応じて、より適切なヒストグラムを用いることができ、適切なシーン境界を判定でき、シーン境界の過分割が低減される。

映像シーン分割装置１は、ヒストグラムにおける度数が上位所定数の被写体のみからなる部分ヒストグラムを比較することにより、シーン境界を判定する。これにより、出現頻度が低い被写体、又は誤認識等によるノイズを低減し、精度よくシーン分割できる。

映像シーン分割装置１は、シーンにおける被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、番組映像の編集に関する知識を利用した判断基準によりシーン境界を判定できる。これにより、被写体認識の誤りによる影響や、シーン境界の過分割が低減される。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。

本実施形態では、映像シーン分割装置の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、映像をシーンに分割するための方法、又はプログラムとして構成されてもよい。

さらに、映像シーン分割装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。

ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１映像シーン分割装置
１０制御部
１１ショット境界検出部
１２静止画像抽出部
１３被写体認識部
１４ヒストグラム生成部
１５シーン境界判定部
２０記憶部

Claims

映像のフレーム間の画像データの差分に基づいて、当該映像の不連続点であるショット境界を検出するショット境界検出部と、
前記ショット境界により分割されたショット毎に複数の静止画像を抽出する静止画像抽出部と、
前記静止画像毎の被写体を認識する被写体認識部と、
前記ショットそれぞれについて、前記被写体の出現頻度を示すヒストグラムを生成するヒストグラム生成部と、
前記ヒストグラムの類似度に基づいて、当該ヒストグラムの不連続点であるシーン境界を判定するシーン境界判定部と、を備える映像シーン分割装置。
前記被写体認識部は、前記静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の前記被写体を識別する請求項１に記載の映像シーン分割装置。
前記ヒストグラム生成部は、前記ショットの期間において前記被写体が認識された前記静止画像の数を正規化した度数、又は前記被写体が認識された前記静止画像に対応する前記ショットの期間内の時間を正規化した度数の分布を、前記ヒストグラムとして生成する請求項１又は請求項２に記載の映像シーン分割装置。
前記ヒストグラム生成部は、前記被写体のグループに対して前記ヒストグラムを生成する請求項１から請求項３のいずれかに記載の映像シーン分割装置。
前記シーン境界判定部は、前記ヒストグラムにおける度数が上位所定数の前記被写体のみからなる部分ヒストグラムに基づいて、前記シーン境界を判定する請求項１から請求項４のいずれかに記載の映像シーン分割装置。
前記シーン境界判定部は、シーンにおける前記被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、前記シーン境界の判定結果を調整する請求項１から請求項５のいずれかに記載の映像シーン分割装置。
コンピュータを、請求項１から請求項６のいずれかに記載の映像シーン分割装置として機能させるための映像シーン分割プログラム。