JP2017112448A - Video scene division device and video scene division program - Google Patents
Video scene division device and video scene division program Download PDFInfo
- Publication number
- JP2017112448A JP2017112448A JP2015244026A JP2015244026A JP2017112448A JP 2017112448 A JP2017112448 A JP 2017112448A JP 2015244026 A JP2015244026 A JP 2015244026A JP 2015244026 A JP2015244026 A JP 2015244026A JP 2017112448 A JP2017112448 A JP 2017112448A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- video
- histogram
- boundary
- shot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、映像コンテンツをシーンに分割するための装置及びプログラムに関する。 The present invention relates to an apparatus and a program for dividing video content into scenes.
従来、統計的な手法を用いて、画像の中の被写体をソフトウェアにより認識してメタデータを付与することにより、画像検索等のアプリケーションが実現されてきた。 Conventionally, an application such as an image search has been realized by using a statistical technique and recognizing a subject in an image by software and adding metadata.
ところで、テレビ番組等の映像コンテンツは、図7にイメージを示すように、階層構造で表現されることが多い。具体的には、より小さな単位から、フレーム、ショット、シーン、コンテンツ(番組映像)と呼ばれる。 By the way, video contents such as television programs are often expressed in a hierarchical structure as shown in FIG. Specifically, it is called a frame, a shot, a scene, and content (program video) from a smaller unit.
ショットは、撮影時のカメラの切り替わり点を境界とし、長さは数秒〜数十秒と短い。一般的な1時間程度の番組では、ショット数は100〜1000程度と多くなるので、ショットの羅列から番組全体の構造を把握することは容易ではない。例えば、ドラマ等、複数のショットの組み合わせにより映像の意味を表現する番組の場合、単一のショットだけでは映像の意味が理解できないことが多い。このため、映像検索の利用者は、映像分割の単位としてショットは細かすぎると感じることが多い。
また、映像検索において検索結果を提示する場合、コンテンツの内容を構造的に示したり、必要な映像を意味的な単位で再生したりする機能が望まれている。
A shot has a short point of several seconds to several tens of seconds with a camera switching point at the time of shooting as a boundary. In a general program of about 1 hour, the number of shots increases to about 100 to 1000, so it is not easy to grasp the structure of the entire program from a sequence of shots. For example, in the case of a program that expresses the meaning of a video by combining a plurality of shots, such as a drama, the meaning of the video is often not understood only by a single shot. For this reason, a user of video search often feels that a shot is too fine as a unit of video division.
In addition, when presenting a search result in video search, a function of structurally showing the contents and reproducing a necessary video in a semantic unit is desired.
このような状況において、例えば、色、模様又は音の連続性に着目し、この連続性の途切れた点を境界として映像を分割する手法が提案されている(例えば、特許文献1及び2参照)。
In such a situation, for example, paying attention to the continuity of the color, pattern, or sound, a method of dividing the video using the point where the continuity is interrupted as a boundary has been proposed (see, for example,
ところで、シーンは、映像編集者によって意味付けされた複数のショットにより構成される区間であり、コンテンツ内で表現されている場所又は時を同じくすることが多い。このため、従来手法で用いられる映像又は音声信号の連続性が示す区間と、人の考える意味区間とは乖離が大きく、利用者の希望する境界で分割されないことが多かった。
このように、意味的な映像内容の境界であるシーン境界を自動的に検出することは難しかった。
By the way, a scene is a section composed of a plurality of shots given meaning by a video editor, and often has the same place or time expressed in content. For this reason, the section indicated by the continuity of the video or audio signal used in the conventional method and the meaning section considered by the person are largely different, and are often not divided at the boundary desired by the user.
As described above, it is difficult to automatically detect a scene boundary that is a boundary of semantic video content.
本発明は、映像コンテンツを適切にシーンに分割できる映像シーン分割装置及び映像シーン分割プログラムを提供することを目的とする。 It is an object of the present invention to provide a video scene division apparatus and a video scene division program that can appropriately divide video content into scenes.
本発明に係る映像シーン分割装置は、映像のフレーム間の画像データの差分に基づいて、当該映像の不連続点であるショット境界を検出するショット境界検出部と、前記ショット境界により分割されたショット毎に複数の静止画像を抽出する静止画像抽出部と、前記静止画像毎の被写体を認識する被写体認識部と、前記ショットそれぞれについて、前記被写体の出現頻度を示すヒストグラムを生成するヒストグラム生成部と、前記ヒストグラムの類似度に基づいて、当該ヒストグラムの不連続点であるシーン境界を判定するシーン境界判定部と、を備える。 A video scene division device according to the present invention includes a shot boundary detection unit that detects a shot boundary that is a discontinuous point of the video based on a difference in image data between video frames, and a shot divided by the shot boundary. A still image extraction unit that extracts a plurality of still images every time, a subject recognition unit that recognizes a subject for each still image, a histogram generation unit that generates a histogram indicating the appearance frequency of the subject for each of the shots, A scene boundary determining unit that determines a scene boundary that is a discontinuous point of the histogram based on the similarity of the histogram.
前記被写体認識部は、前記静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の前記被写体を識別してもよい。 The subject recognition unit may identify the plurality of subjects by clustering based on a predetermined feature amount included in the still image.
前記ヒストグラム生成部は、前記ショットの期間において前記被写体が認識された前記静止画像の数を正規化した度数、又は前記被写体が認識された前記静止画像に対応する前記ショットの期間内の時間を正規化した度数の分布を、前記ヒストグラムとして生成してもよい。 The histogram generation unit normalizes a frequency obtained by normalizing the number of the still images in which the subject is recognized in the shot period, or a time in the shot period corresponding to the still image in which the subject is recognized. The normalized frequency distribution may be generated as the histogram.
前記ヒストグラム生成部は、前記被写体のグループに対して前記ヒストグラムを生成してもよい。 The histogram generation unit may generate the histogram for the group of subjects.
前記シーン境界判定部は、前記ヒストグラムにおける度数が上位所定数の前記被写体のみからなる部分ヒストグラムに基づいて、前記シーン境界を判定してもよい。 The scene boundary determination unit may determine the scene boundary based on a partial histogram including only the predetermined number of subjects whose frequency in the histogram is higher.
前記シーン境界判定部は、シーンにおける前記被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、前記シーン境界の判定結果を調整してもよい。 The scene boundary determination unit may adjust the determination result of the scene boundary based on an appearance pattern stored in advance regarding the time axis and position of the subject in the scene.
本発明に係る映像シーン分割プログラムは、コンピュータを、前記映像シーン分割装置として機能させる。 The video scene division program according to the present invention causes a computer to function as the video scene division device.
本発明によれば、映像コンテンツを適切にシーンに分割できる。 According to the present invention, video content can be appropriately divided into scenes.
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る映像シーン分割装置1の機能構成を示すブロック図である。
Hereinafter, an example of an embodiment of the present invention will be described.
FIG. 1 is a block diagram showing a functional configuration of a video scene dividing
映像シーン分割装置1は、ショット境界検出部11と、静止画像抽出部12と、被写体認識部13と、ヒストグラム生成部14と、シーン境界判定部15とを含む制御部10、及び記憶部20を備えた情報処理装置(コンピュータ)である。
The video
制御部10は、映像シーン分割装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、前述のハードウェアと協働し、本実施形態における各種機能を実現している。制御部10は、CPU(Central Processing Unit)であってよい。
The
記憶部20は、ハードウェア群を映像シーン分割装置1として機能させるための各種プログラム、本実施形態の各種機能を制御部10に実行させるためのプログラム、及び各種データ等を記憶する。記憶部20が記憶するデータには、処理対象である映像データ、及び処理後のシーン分割データの他、シーン分割に関する後述の判断基準のデータが含まれる。
The
ショット境界検出部11は、映像データを構成するフレーム間の画像データの差分に基づいて、連続して収録された映像が途切れる不連続点であるショット境界を検出する。
具体的には、ショット境界検出部11は、1フレーム毎に、直前のフレームとの間で画像データの差分を求める。そして、この差分値が第1閾値を超えた場合に、ショット境界検出部11は、この第1閾値を超えた前後のフレームの間を、ショット境界として検出する。なお、画像データの差分は、画像データに含まれる画素値の変化量の合計又は平均、あるいは輝度ヒストグラムの変化量等、フレーム間での画像の変化の度合いを評価する値として適宜設定される。
The shot
Specifically, the shot
静止画像抽出部12は、ショット境界により分割されたショット毎に、1以上の静止画像を抽出する。
具体的には、静止画像抽出部12は、画像データの差分の累積が第2閾値を超える度に、この第2閾値を超えたフレームを、静止画像として抽出する。
The still
Specifically, the still
図2は、本実施形態に係るショット境界の検出及び静止画像の抽出の具体例を示す図である。
ショット境界検出部11は、映像コンテンツを構成する時間的に連続するフレームを順に比較し、画像データの差分を算出する。
FIG. 2 is a diagram showing a specific example of shot boundary detection and still image extraction according to the present embodiment.
The shot
ショット境界検出部11は、算出した差分値がショット境界の閾値(第1閾値)Xを超えた場合に、直前のフレームとの間をショット境界として検出する。
When the calculated difference value exceeds the threshold (first threshold) X of the shot boundary, the shot
静止画像抽出部12は、ショット境界の前後のフレーム、すなわちショット内の最初と最後のフレームP1及びP2を、ショットを代表する静止画像(サムネイル)として抽出する。
The still
また、静止画像抽出部12は、例えば、ショット境界検出部11により計算されたフレーム間の差分値をショット毎に累積しており、累積値がサムネイル出力の閾値(第2閾値)Y1、Y2、Y3、Y4、・・・を超える度に、この時のフレームP3、P4、P5、P6、・・・を、ショット内で比較的大きく変動した静止画像として、さらに抽出してもよい。
なお、静止画像抽出部12は、一定時間間隔(例えば、10フレーム毎、1秒毎等)で静止画像を抽出してもよい。
The still
The still
このとき、静止画像抽出部12は、抽出した静止画像を、映像の先頭から順に付与されるショット番号、及びフレームを識別する時刻情報と共に、記憶部20に記憶する。
At this time, the still
被写体認識部13は、抽出された静止画像毎に、画像内の被写体を認識する。
具体的には、被写体認識部13は、予め想定されている特定の複数の被写体を学習しておき、これらの被写体が静止画像に含まれているか否かを判定する。
The
Specifically, the
事前に学習する被写体は、対象となる映像コンテンツの内容又は分野等により適宜選択される。例えば、ドラマであれば登場人物の顔というように、処理対象とする映像コンテンツに頻繁に登場する被写体が予め学習される。
このとき、映像コンテンツに登場する広範囲な被写体を認識できるように多数の被写体が学習されることが望ましいが、認識可能な被写体が限定される場合には、番組内での登場頻度が高いと想定される被写体が選択される。
The subject to be learned in advance is appropriately selected depending on the content or field of the target video content. For example, in the case of a drama, a subject that frequently appears in video content to be processed is learned in advance, such as the face of a character.
At this time, it is desirable to learn a large number of subjects so that a wide range of subjects appearing in the video content can be recognized, but when the recognizable subjects are limited, it is assumed that the frequency of appearance in the program is high. The subject to be selected is selected.
被写体認識部13は、例えばBag−of−visual−words法等の画像データ内の特徴量に基づく個人の識別を可能とする技術を用い、映像コンテンツ中に登場する人物(Aさん、Bさん、・・・)を特定する。
あるいは、被写体認識部13は、静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の被写体それぞれを特定することなく、仮のラベル(Aクラスタ、Bクラスタ、・・・)によって識別してもよい。
The
Alternatively, the
ヒストグラム生成部14は、ショットそれぞれについて、被写体毎に出現数、すなわち被写体が含まれる静止画像の数をカウントし、被写体の出現頻度を示すヒストグラムを生成する。
このとき、ヒストグラム生成部14は、例えば次の(1)又は(2)のように正規化した度数の分布として、ショットの期間内に各被写体が出現した信頼度を表現する。これにより、ショット毎のヒストグラムにおける度数の最大は一定値に揃えられる。
The
At this time, the
(1)ヒストグラム生成部14は、ショットの期間において被写体が認識された静止画像の数を正規化した度数の分布を、ヒストグラムとして生成する。
(2)ヒストグラム生成部14は、被写体が認識された静止画像に対応するショットの期間内の時間を正規化した度数の分布を、ヒストグラムとして生成する。
(1) The
(2) The
また、ヒストグラム生成部14は、映像コンテンツの種類に応じて、複数の被写体からなるグループに対してヒストグラムを生成してもよい。例えば、ドラマでは、登場人物を家族又はサークル等のグループとして扱ったり、人物が被写体の中心とならない紀行番組では、人物を1グループにまとめ、「人物」を山、海等の他の被写体と同じレベルとして扱ったりできる。
The
シーン境界判定部15は、生成されたヒストグラムの類似度に基づいて、一連のヒストグラムの不連続点であるシーン境界を判定する。
具体的には、シーン境界判定部15は、シーンに出現する被写体の連続性を判定するために、ショット単位に生成したヒストグラム間の類似度を求め、例えば類似度が一定以下の場合に連続性が途切れ場面が切り替わったと判定する。
なお、ヒストグラム間の類似度の判定には、ヒストグラムインターセクション等の手法が利用されてよい。また、例えば、上位一定数の被写体が同時に変化した、又は一定の割合以上が変化した点を場面の分割点と判定する等、簡易的な手法が利用されてもよい。
The scene
Specifically, the scene
Note that a technique such as histogram intersection may be used to determine the similarity between histograms. In addition, for example, a simple method may be used, such as determining a point at which a certain number of subjects at the same time have changed at the same time or at a certain rate or more as a scene division point.
図3は、本実施形態に係るシーン分割の手順を示す概略図である。
映像シーン分割装置1は、入力された映像をショット1〜4に分割すると、それぞれのショットから複数の静止画像(サムネイル)を抽出する。
FIG. 3 is a schematic diagram showing a procedure of scene division according to the present embodiment.
The video
続いて、映像シーン分割装置1は、各静止画像から被写体A〜Dを認識し、出現回数に基づく正規化されたヒストグラムを生成する。
映像シーン分割装置1は、生成されたヒストグラムについて、時系列に前後の類似度を算出し、類似度が閾値に満たないショット3とショット4との境界を、シーン境界として判定する。
Subsequently, the video
The video
ここで、連続性の判定を単一の被写体で行うと過剰に分割されやすい。また、認識数(登場回数)が少ない被写体を選択すると、被写体認識処理による誤検出の影響を受けることが多い。
そこで、シーン境界判定部15は、ヒストグラムにおける度数が上位所定数の被写体のみからなる部分ヒストグラムに基づいて、シーン境界を判定する。例えば、ヒストグラムに現れている上位所定数(例えば3)の被写体、又は一定の割合(例えば50%)に注目して類似度を計算する方法が採用される。
Here, if determination of continuity is performed on a single subject, excessive division is likely to occur. Also, if a subject with a small number of recognitions (appearance count) is selected, it is often affected by erroneous detection by subject recognition processing.
Therefore, the scene
図4は、本実施形態に係る制御部10による処理を示すフローチャートである。
ステップS1において、ショット境界検出部11は、映像コンテンツに含まれる一連のフレームから、ショット境界を検出し、映像を複数のショットに分割する。
FIG. 4 is a flowchart showing processing by the
In step S1, the shot
ステップS2において、静止画像抽出部12は、ステップS1で分割されたショット毎に、複数の静止画像(サムネイル)を抽出する。
In step S2, the still
ステップS3において、被写体認識部13は、ステップS2で抽出された静止画像毎に、被写体を認識する。
In step S3, the
ステップS4において、ヒストグラム生成部14は、ステップS3で認識された被写体の出現頻度を表すヒストグラムを生成する。
In step S4, the
ステップS5において、シーン境界判定部15は、ステップS4で生成されたヒストグラムを、時系列に順に選択していく。
In step S5, the scene
ステップS6において、シーン境界判定部15は、ステップS5で選択したヒストグラムと、直前に選択されたヒストグラムとの類似度を算出する。
In step S6, the scene
ステップS7において、シーン境界判定部15は、ステップS6で算出した類似度が所定の閾値より小さいか否かを判定する。この判定がYESの場合、処理はステップS8に移り、判定がNOの場合、処理はステップS9に移る。
In step S7, the scene
ステップS8において、シーン境界判定部15は、ステップS7で類似度が小さいと判定されたショット境界を、シーン境界として判定する。
In step S8, the scene
ステップS9において、シーン境界判定部15は、ヒストグラムが最後まで選択され映像が終了したか否かを判定する。この判定がYESの場合、処理は終了し、判定がNOの場合、処理はステップS5に戻る。
In step S9, the scene
<変形例>
前述の統計に基づいたヒストグラムの類似度による連続性の判断基準は、映像コンテンツ制作・編集のセオリーに基づいて、例えば、以下の(A)又は(B)の判断基準が用いられてもよい。あるいは、前述の手法により判定されたシーン境界がこれらの判断基準によって調整されてもよい。
シーンは、人手により作られた構造であるが、番組映像の編集には、一定のセオリーもあり、番組映像に関する知識を利用することで、シーン検出の誤りが低減される。
<Modification>
As the continuity determination criterion based on the histogram similarity based on the above-described statistics, for example, the following determination criterion (A) or (B) may be used based on the theory of video content production / editing. Alternatively, the scene boundary determined by the above-described method may be adjusted according to these determination criteria.
Although a scene is a manually created structure, there is a certain theory for editing a program video. By using knowledge about the program video, errors in scene detection are reduced.
(A)番組ジャンルを考慮した連続性の判断基準
ヒストグラム生成部14及びシーン境界判定部15は、番組ジャンルに基づいて、被写体に対する重みづけを調整してもよい。
例えば、ドラマ等、人物が被写体の中心となり、個人が重要な被写体である場合と、紀行系番組等、特定個人よりも、人物と他の被写体との変化がシーンを分割する要因となる場合とでは、人物と自然物との重みを変化させ、連続性の判断基準を別に設ける。
(A) Criteria for determining continuity considering program genre The
For example, when a person is the center of a subject, such as a drama, and an individual is an important subject, and when a change between a person and another subject becomes a factor that divides a scene rather than a specific individual, such as a travel program Then, the weight of a person and a natural object is changed, and a criterion for determining continuity is provided separately.
具体的には、ドラマ等では、個人を認識した上で、登場人物をセット(ABグループ、BCDグループ等)で扱い、セット毎の分布であるヒストグラムが用いられる。一方、紀行等の人物が被写体の中心とならない映像コンテンツでは、人物は全て1グループにまとめ、他の被写体(山、海等)との境界に、より重みが付けられる。 Specifically, in a drama or the like, after recognizing an individual, characters are handled as a set (AB group, BCD group, etc.), and a histogram that is a distribution for each set is used. On the other hand, in video content in which a person such as a journey is not the center of a subject, all the people are grouped together, and the boundary with other subjects (mountains, seas, etc.) is more weighted.
図5は、本実施形態に係る番組ジャンルに基づいた被写体への重み付けの例を示す図である。
ドラマの場合(a)、人物A及びBが登場するショットと、人物C及びDが登場するショットとの境界がシーン境界として判定されている。
また、人物C及びDが同一グループの場合、人物C及びDが登場するショットと、人物Dのみが登場するショットとは、被写体が同一グループであるため、同一のシーンとして判定されている。
FIG. 5 is a diagram showing an example of weighting on the subject based on the program genre according to the present embodiment.
In the case of a drama (a), a boundary between a shot in which persons A and B appear and a shot in which persons C and D appear is determined as a scene boundary.
When the persons C and D are in the same group, the shot in which the persons C and D appear and the shot in which only the person D appears are determined as the same scene because the subjects are in the same group.
なお、シーン境界判定部15は、グループに属する被写体の全員が登場しているショットを同一のシーンと判定してもよいし、一定以上、又はいずれかが登場しているショットを同一のシーンと判定してもよい。これらの判断基準は、番組ジャンル及びグループの種類等により適宜設定されてよい。
Note that the scene
紀行の場合(b)、被写体が風景のショットから被写体が人物Eのショットへの遷移を、シーン境界として判定されている。同様に、被写体が人物Gのショットから被写体が動物のショットへの遷移を、シーン境界として判定されている。
また、人物E、F又はGが登場する複数のショットは、被写体が同一グループであると判断され、同一のシーンとして判定されている。
In the case of travel (b), a transition from a shot of a landscape to a shot of a person E is determined as a scene boundary. Similarly, a transition from a shot of a person G as a subject to a shot of an animal as a subject is determined as a scene boundary.
In addition, a plurality of shots in which persons E, F, or G appear are determined to have the same group of subjects and are determined to be the same scene.
(B)映像編集の知見を利用した連続性の判断基準
シーン境界判定部15は、シーンにおける被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、シーン境界の判定結果を調整してもよい。
例えば、人の顔が交互に映されるようなドラマ等の番組では、個人の顔に注目した場合、シーンが細切れになってしまう場合がある。そこで、一般的な編集技法である、2人の人物を交互に映すモンタージュ技法と呼ばれる対話シーンの知識を組み込むことで、顔が交互に被写体となるショットの連続は、1つの対話シーンとして適切に判定される。これにより、シーンの過分割が抑制される。
(B) Criteria for determining continuity using knowledge of video editing The scene
For example, in a program such as a drama where people's faces are shown alternately, the scene may be shredded when attention is paid to the individual's face. Therefore, by incorporating the knowledge of a conversation scene called a montage technique that alternately reflects two people, which is a general editing technique, a series of shots in which faces alternately become subjects are appropriately used as one conversation scene. Determined. Thereby, the excessive division | segmentation of a scene is suppressed.
図6は、本実施形態に係る映像編集の知見に基づくシーン分割の例を示す図である。
ヒストグラムの類似度に基づく統計的な手法のみの場合(a)、人物Aが登場するショットと、人物Bが登場するショットとがシーン境界として判定され、複数のシーン1〜4に細かく分割されている。
FIG. 6 is a diagram illustrating an example of scene division based on the knowledge of video editing according to the present embodiment.
In the case of only a statistical method based on histogram similarity (a), a shot in which person A appears and a shot in which person B appears are determined as scene boundaries, and are divided into a plurality of
対話シーンの人物が交互に登場する特徴を判断基準とする場合(b)、人物A又はBのいずれかが交互に登場する複数のショットが1つのシーンとして判定され、人物A及びBが登場するショットとの間がシーン境界と判定されている。 When the feature that the characters in the conversation scene appear alternately is used as the criterion (b), a plurality of shots in which either the characters A or B appear alternately are determined as one scene, and the characters A and B appear. A scene boundary is determined between shots.
ここで、被写体認識部13は、人物の顔を認識した際に、顔の位置(例えば、中心位置)も、ショット番号、フレーム時刻、人物ID等と共に保存することが好ましい。これにより、シーン境界判定部15は、例えば、前述の対話のシーン(図6)において、人物A及び人物Bが映されている位置の特徴(人物Aは画面左寄り、人物Bは画面右寄り等)を加味して、精度よくシーン分割を行える。
Here, when the
以上のように、本実施形態によれば、映像シーン分割装置1は、ショット毎に抽出された静止画像の被写体について、出現頻度を示すヒストグラムの類似度に基づいて、ショット間での被写体の出現の連続性を判断し、不連続点におけるシーンの切り替えを判定する。
したがって、映像シーン分割装置1は、映像の内容を表す被写体の認識結果を用い、より意味内容に近い形で、映像コンテンツを意味的な区間の切れ目であるシーンに適切に分割できる。
この結果、映像の検索又は再利用時に、人の感覚により近い意味的な単位であるシーンの単位で表示及び再生が可能になる。また、映像検索の結果をコンテンツ単位で提示する場合、意味区間であるシーン毎に整理して提示することで、コンテンツ全体の概要が把握しやすくなるので、映像検索又はメタデータの付与等の2次利用が容易になる。
As described above, according to the present embodiment, the video
Therefore, the video
As a result, at the time of video search or reuse, display and playback can be performed in scene units, which are semantic units closer to human senses. In addition, when presenting video search results in units of content, it is easier to grasp the outline of the entire content by organizing and presenting it for each scene that is a semantic section. The next use becomes easy.
また、映像シーン分割装置1は、ショットの期間から抽出された複数の静止画像から被写体毎のヒストグラムを生成するので、被写体認識における誤認識又は見落とし等によるノイズを低減でき、シーン分割の精度が向上する。
Further, since the video
映像シーン分割装置1は、フレーム間の差分が第1の閾値を超えた場合にショット境界を検出し、ショット毎にフレーム間の差分の累積値が第2閾値を超えた場合に静止画像(サムネイル)を抽出する。
したがって、映像シーン分割装置1は、簡易なルールに基づいて効率的に映像をショットに分割し、ショットそれぞれの内容を特徴づける静止画像を抽出できる。
The video
Therefore, the video
映像シーン分割装置1は、静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の被写体を識別できる。これにより、映像シーン分割装置1は、被写体を特定するために予め学習することなく、未知の被写体それぞれを識別できる。
The video
映像シーン分割装置1は、ショットの期間において被写体が認識された静止画像の数を正規化した度数の分布を、又は被写体が認識された静止画像に対応するショットの期間内の時間を正規化した度数の分布を、ヒストグラムとして生成する。
これらの正規化の手法により、映像シーン分割装置1は、ショットの期間内に各被写体が出現した信頼度を表現する。これにより、ショット毎のヒストグラムにおける度数の最大は一定値に揃えられ、ショット間でのヒストグラムの比較がより正確に行える。
The video
By these normalization methods, the video
映像シーン分割装置1は、被写体のグループに対して前記ヒストグラムを生成することで、番組ジャンルに応じて、より適切なヒストグラムを用いることができ、適切なシーン境界を判定でき、シーン境界の過分割が低減される。
The video
映像シーン分割装置1は、ヒストグラムにおける度数が上位所定数の被写体のみからなる部分ヒストグラムを比較することにより、シーン境界を判定する。これにより、出現頻度が低い被写体、又は誤認識等によるノイズを低減し、精度よくシーン分割できる。
The video
映像シーン分割装置1は、シーンにおける被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、番組映像の編集に関する知識を利用した判断基準によりシーン境界を判定できる。これにより、被写体認識の誤りによる影響や、シーン境界の過分割が低減される。
The video
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. Further, the effects described in the present embodiment are merely a list of the most preferable effects resulting from the present invention, and the effects of the present invention are not limited to those described in the present embodiment.
本実施形態では、映像シーン分割装置の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、映像をシーンに分割するための方法、又はプログラムとして構成されてもよい。 In the present embodiment, the configuration and operation of the video scene dividing device has been described. However, the present invention is not limited to this, and each of the components may be configured as a method or program for dividing a video into scenes. .
さらに、映像シーン分割装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。 Further, the present invention may be realized by recording a program for realizing the function of the video scene dividing device on a computer-readable recording medium, causing the computer system to read and execute the program recorded on the recording medium. Good.
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 The “computer system” here includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a hard disk built in the computer system.
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。 Furthermore, “computer-readable recording medium” means that a program is dynamically held for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It is also possible to include one that holds a program for a certain time, such as a volatile memory inside a computer system that becomes a server or client in that case. Further, the program may be for realizing a part of the above-described functions, and may be capable of realizing the above-described functions in combination with a program already recorded in the computer system. .
1 映像シーン分割装置
10 制御部
11 ショット境界検出部
12 静止画像抽出部
13 被写体認識部
14 ヒストグラム生成部
15 シーン境界判定部
20 記憶部
DESCRIPTION OF
Claims (7)
前記ショット境界により分割されたショット毎に複数の静止画像を抽出する静止画像抽出部と、
前記静止画像毎の被写体を認識する被写体認識部と、
前記ショットそれぞれについて、前記被写体の出現頻度を示すヒストグラムを生成するヒストグラム生成部と、
前記ヒストグラムの類似度に基づいて、当該ヒストグラムの不連続点であるシーン境界を判定するシーン境界判定部と、を備える映像シーン分割装置。 A shot boundary detection unit that detects a shot boundary that is a discontinuous point of the video based on a difference in image data between frames of the video;
A still image extraction unit that extracts a plurality of still images for each shot divided by the shot boundary;
A subject recognition unit for recognizing the subject for each still image;
For each of the shots, a histogram generation unit that generates a histogram indicating the appearance frequency of the subject;
And a scene boundary determining unit that determines a scene boundary that is a discontinuous point of the histogram based on the similarity of the histogram.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015244026A JP6557592B2 (en) | 2015-12-15 | 2015-12-15 | Video scene division apparatus and video scene division program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015244026A JP6557592B2 (en) | 2015-12-15 | 2015-12-15 | Video scene division apparatus and video scene division program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017112448A true JP2017112448A (en) | 2017-06-22 |
JP6557592B2 JP6557592B2 (en) | 2019-08-07 |
Family
ID=59081023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015244026A Active JP6557592B2 (en) | 2015-12-15 | 2015-12-15 | Video scene division apparatus and video scene division program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6557592B2 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657096A (en) * | 2019-01-11 | 2019-04-19 | 杭州师范大学 | A kind of ancillary statistics report-generating method based on teaching of low school age audio-video |
WO2019187107A1 (en) * | 2018-03-30 | 2019-10-03 | 日本電気株式会社 | Information processing device, control method, and program |
CN110879952A (en) * | 2018-09-06 | 2020-03-13 | 阿里巴巴集团控股有限公司 | Method and device for processing video frame sequence |
CN111541912A (en) * | 2020-04-30 | 2020-08-14 | 北京奇艺世纪科技有限公司 | Video splitting method and device, electronic equipment and storage medium |
CN111757170A (en) * | 2020-07-01 | 2020-10-09 | 三星电子(中国)研发中心 | Method and device for segmenting and marking video |
JP2021132281A (en) * | 2020-02-19 | 2021-09-09 | Jcc株式会社 | Metadata generating system and metadata generating method |
CN115022711A (en) * | 2022-04-28 | 2022-09-06 | 之江实验室 | System and method for ordering lens videos in movie scene |
KR102633528B1 (en) * | 2022-10-27 | 2024-02-05 | 주식회사 일만백만 | Scene data generation method based on video data and apparatus performing thereof |
CN115022711B (en) * | 2022-04-28 | 2024-05-31 | 之江实验室 | System and method for ordering shot videos in movie scene |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006254486A (en) * | 2002-07-09 | 2006-09-21 | Samsung Electronics Co Ltd | Scene change detecting apparatus and method therefor |
JP2007134986A (en) * | 2005-11-10 | 2007-05-31 | Kddi Corp | Shot boundary detection device |
JP2008083894A (en) * | 2006-09-27 | 2008-04-10 | Sony Corp | Program, detection method, and detection device |
JP2010251913A (en) * | 2009-04-13 | 2010-11-04 | Panasonic Corp | Contents reproducing device, program, and semiconductor integrated circuit |
JP2011008509A (en) * | 2009-06-25 | 2011-01-13 | Kddi Corp | Important information extraction method and device |
KR20130061865A (en) * | 2011-12-02 | 2013-06-12 | 엘지디스플레이 주식회사 | Device for detecting scene change and method for detecting scene change |
JP2014137637A (en) * | 2013-01-15 | 2014-07-28 | Nippon Hoso Kyokai <Nhk> | Image processor and image processing program |
JP2014225118A (en) * | 2013-05-16 | 2014-12-04 | 日本放送協会 | Image processing apparatus and image processing program |
-
2015
- 2015-12-15 JP JP2015244026A patent/JP6557592B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006254486A (en) * | 2002-07-09 | 2006-09-21 | Samsung Electronics Co Ltd | Scene change detecting apparatus and method therefor |
JP2007134986A (en) * | 2005-11-10 | 2007-05-31 | Kddi Corp | Shot boundary detection device |
JP2008083894A (en) * | 2006-09-27 | 2008-04-10 | Sony Corp | Program, detection method, and detection device |
JP2010251913A (en) * | 2009-04-13 | 2010-11-04 | Panasonic Corp | Contents reproducing device, program, and semiconductor integrated circuit |
JP2011008509A (en) * | 2009-06-25 | 2011-01-13 | Kddi Corp | Important information extraction method and device |
KR20130061865A (en) * | 2011-12-02 | 2013-06-12 | 엘지디스플레이 주식회사 | Device for detecting scene change and method for detecting scene change |
JP2014137637A (en) * | 2013-01-15 | 2014-07-28 | Nippon Hoso Kyokai <Nhk> | Image processor and image processing program |
JP2014225118A (en) * | 2013-05-16 | 2014-12-04 | 日本放送協会 | Image processing apparatus and image processing program |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019187107A1 (en) * | 2018-03-30 | 2019-10-03 | 日本電気株式会社 | Information processing device, control method, and program |
JPWO2019187107A1 (en) * | 2018-03-30 | 2021-02-25 | 日本電気株式会社 | Information processing equipment, control methods, and programs |
JP7070665B2 (en) | 2018-03-30 | 2022-05-18 | 日本電気株式会社 | Information processing equipment, control methods, and programs |
CN110879952B (en) * | 2018-09-06 | 2023-06-16 | 阿里巴巴集团控股有限公司 | Video frame sequence processing method and device |
CN110879952A (en) * | 2018-09-06 | 2020-03-13 | 阿里巴巴集团控股有限公司 | Method and device for processing video frame sequence |
CN109657096A (en) * | 2019-01-11 | 2019-04-19 | 杭州师范大学 | A kind of ancillary statistics report-generating method based on teaching of low school age audio-video |
CN109657096B (en) * | 2019-01-11 | 2021-06-08 | 杭州师范大学 | Auxiliary statistical report generation method based on low school age teaching audio and video |
JP2021132281A (en) * | 2020-02-19 | 2021-09-09 | Jcc株式会社 | Metadata generating system and metadata generating method |
CN111541912A (en) * | 2020-04-30 | 2020-08-14 | 北京奇艺世纪科技有限公司 | Video splitting method and device, electronic equipment and storage medium |
CN111541912B (en) * | 2020-04-30 | 2022-04-22 | 北京奇艺世纪科技有限公司 | Video splitting method and device, electronic equipment and storage medium |
CN111757170A (en) * | 2020-07-01 | 2020-10-09 | 三星电子(中国)研发中心 | Method and device for segmenting and marking video |
CN115022711A (en) * | 2022-04-28 | 2022-09-06 | 之江实验室 | System and method for ordering lens videos in movie scene |
CN115022711B (en) * | 2022-04-28 | 2024-05-31 | 之江实验室 | System and method for ordering shot videos in movie scene |
KR102633528B1 (en) * | 2022-10-27 | 2024-02-05 | 주식회사 일만백만 | Scene data generation method based on video data and apparatus performing thereof |
WO2024091085A1 (en) * | 2022-10-27 | 2024-05-02 | 주식회사 일만백만 | Reference scene generation method and reference scene generation device, which are based on image |
KR20240059602A (en) | 2022-10-27 | 2024-05-07 | 주식회사 일만백만 | Video recommendation method and apparatus performing thereof |
Also Published As
Publication number | Publication date |
---|---|
JP6557592B2 (en) | 2019-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6557592B2 (en) | Video scene division apparatus and video scene division program | |
AU2022252799B2 (en) | System and method for appearance search | |
US10452919B2 (en) | Detecting segments of a video program through image comparisons | |
US8358837B2 (en) | Apparatus and methods for detecting adult videos | |
US20090290791A1 (en) | Automatic tracking of people and bodies in video | |
US20100104261A1 (en) | Brief and high-interest video summary generation | |
Truong et al. | Scene extraction in motion pictures | |
US11503375B2 (en) | Systems and methods for displaying subjects of a video portion of content | |
CN113766330A (en) | Method and device for generating recommendation information based on video | |
JP5096259B2 (en) | Summary content generation apparatus and summary content generation program | |
JP2019003585A (en) | Summary video creation device and program of the same | |
Carbonneau et al. | Real-time visual play-break detection in sport events using a context descriptor | |
KR102277929B1 (en) | Real time face masking system based on face recognition and real time face masking method using the same | |
Zwicklbauer et al. | Video analysis for interactive story creation: the sandmännchen showcase | |
JP2014229092A (en) | Image processing device, image processing method and program therefor | |
KR102179591B1 (en) | Apparatus of character area extraction in video | |
US9135509B2 (en) | Determining representative images for a video | |
KR102179590B1 (en) | Extraction apparatus of character conflict information in video | |
Zhang et al. | You Talkin'to Me? Recognizing Complex Human Interactions in Unconstrained Videos | |
CN112019923B (en) | Video cutting processing method | |
JP2013093667A (en) | Image reproducing device, program and method for optimizing reproduction time for each photographic image | |
US20150139541A1 (en) | Apparatus and method for detecting harmful videos | |
Li et al. | Ultra high definition video saliency database | |
KR20210136564A (en) | Device and method for generating video synopsis of sports game | |
KR20230070585A (en) | Method for recognizing main characters and background people in videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6557592 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |