JP2005252859A - Scene-splitting device for dynamic image data - Google Patents

Scene-splitting device for dynamic image data Download PDF

Info

Publication number
JP2005252859A
JP2005252859A JP2004062866A JP2004062866A JP2005252859A JP 2005252859 A JP2005252859 A JP 2005252859A JP 2004062866 A JP2004062866 A JP 2004062866A JP 2004062866 A JP2004062866 A JP 2004062866A JP 2005252859 A JP2005252859 A JP 2005252859A
Authority
JP
Japan
Prior art keywords
shot
image data
scene
moving image
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004062866A
Other languages
Japanese (ja)
Other versions
JP4349574B2 (en
Inventor
Masaru Sugano
勝 菅野
Yasuyuki Nakajima
康之 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2004062866A priority Critical patent/JP4349574B2/en
Publication of JP2005252859A publication Critical patent/JP2005252859A/en
Application granted granted Critical
Publication of JP4349574B2 publication Critical patent/JP4349574B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a scene-splitting device for classifying non-compressed or compressed dynamic image data into various kinds of shots through the use of image characteristics or audio characteristics, to split a scene based on the classified results. <P>SOLUTION: A single or a plurality of consecutive shots, in which scenery is recorded to describe a scene after transition, are frequently inserted at a point where scenes change in the dynamic image data, such as a movie or a drama. A scenery shot determining section 4 is provided in addition to a motion information analysis section 2 and an audio analysis section 3. The scenery shot determining section 4 detects the scenery shot, by using at least motion information in a screen. A scene-splitting section 5 can detect the splitting point of the scene, based on the determination results of the determining section 4. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は動画像データのシーン分割装置に関し、特に非圧縮または圧縮された動画像データを解析し、それらを様々なショット種別に分類した結果に基づいて、ショットよりも意味的に上位の概念を持つシーン分割を行う動画像データのシーン分割装置に関する。また、非圧縮または圧縮された動画像データを、様々なシーン種別へ分割することにより、動画像データの効率的な検索、分類や閲覧を提供することが可能な、動画像データのシーン分割装置に関する   The present invention relates to a scene segmentation device for moving image data, and in particular, analyzes uncompressed or compressed moving image data and classifies them into various shot types, and then presents a concept that is semantically higher than shots. The present invention relates to a scene dividing device for moving image data that performs scene division. Also, a moving image data scene dividing device capable of providing efficient search, classification and browsing of moving image data by dividing uncompressed or compressed moving image data into various scene types. About

動画像データのショット分類に関する従来技術としては、本出願人の特許出願である特願2003-51514において、ショットを「アクション」クラス、「ドラマチック」クラス、「会話」クラス、「汎用」クラスなどに分類する手段、スローシーン、ズームシーン、パンシーンなどの意味的な概念を持たないシーン種別、及びコマーシャルシーンやハイライトシーンなどの意味的な概念を持つシーン種別に分類する手段が開示されている。   As conventional technology related to shot classification of moving image data, in Japanese Patent Application No. 2003-51514, which is a patent application of the present applicant, shots are classified into “action” class, “dramatic” class, “conversation” class, “general purpose” class, etc. Means for classifying, means for classifying a scene type having no semantic concept such as a slow scene, zoom scene, pan scene, etc., and means for classifying a scene type having a semantic concept such as a commercial scene or a highlight scene are disclosed. .

また、シーン分割手法としては、特開平10-257436号公報や特開2000-56420号公報において、分割されたショット毎の類似度を用いてシーンに統合する装置が開示されている。また、特開平9-44639号公報や特開2002-125178号公報においては、ショットの特徴量として色情報のヒストグラムを用い、また前記特開平10-257436号公報においては、ショットの代表フレームを用いてファジィ推論により類似度を求めている。更に、特開2000-69420号公報では、CM検出によるシーン区切り判定と、音声の類似度やカメラの動き情報に基づくシーン統合する装置を開示している。   As scene division methods, Japanese Patent Application Laid-Open No. 10-257436 and Japanese Patent Application Laid-Open No. 2000-56420 disclose an apparatus that integrates scenes using similarity for each divided shot. In JP-A-9-44639 and JP-A-2002-125178, a histogram of color information is used as a feature amount of a shot. In JP-A-10-257436, a representative frame of a shot is used. The similarity is obtained by fuzzy reasoning. Furthermore, Japanese Patent Laid-Open No. 2000-69420 discloses a device for scene separation based on CM detection and scene integration based on audio similarity and camera motion information.

ここで、ショットとは1つのカメラワークで撮影された、連続するフレームの集合であり、シーンとは意味的につながりのある、連続するショットの集合であるとする。
特開平10-257436号公報 特開2000-56420号公報 特開平9-44639公報 特開2002-125178号公報 特開2000-69420号公報
Here, it is assumed that a shot is a set of continuous frames shot by one camera work, and a scene is a set of continuous shots that are semantically connected.
Japanese Patent Laid-Open No. 10-257436 JP 2000-56420 A JP-A-9-44639 JP 2002-125178 A JP 2000-69420 A

従来技術はショット単位に分類を行っており、あるショット種別に属するショットを検索、閲覧しようとした場合に、分類の粒度が細かいため用途によっては検索・閲覧結果が膨大になるため、検索、閲覧効率が低下する可能性がある。また、ショット単位で分類した際、隣接または周辺のショットにおけるショット種別を考慮していなかったため、時間的に孤立したショットが孤立ショット(周辺のショット種別と異なるショット種別)に分類される可能性があり、分類精度の低下を招いていた。   The conventional technology classifies by shot unit, and when searching and browsing for shots belonging to a certain shot type, the granularity of the classification makes the search / view result enormous depending on the application. Efficiency can be reduced. In addition, when classifying by shot unit, shot types in adjacent or neighboring shots are not taken into consideration, so that temporally isolated shots may be classified as isolated shots (shot types different from the surrounding shot types). There was a drop in classification accuracy.

また、従来のシーン分割技術としては、色や動き、音声といったいずれも信号レベルの特徴値を判定要素として用いているため、例えば同一シーンに複数の色特性が存在する場合や、同一シーンで異なるカメラワークが含まれたり、会話シーン中に効果音が入るなど異なる音声特徴が含まれたりする場合には、正確にシーンが分割できない可能性がある。   In addition, since conventional scene division techniques use signal level feature values as determination elements for all colors, movements, and sounds, for example, when there are multiple color characteristics in the same scene, or different in the same scene If camera work is included or different audio features are included such as sound effects in a conversation scene, the scene may not be accurately divided.

本発明は、前記した従来技術に鑑みてなされたものであり、その目的は、非圧縮または圧縮された動画像データを、画像特徴やオーディオ特徴を用いて様々なショット種別へ分類し、その分類結果に基づいてシーン分割する装置を提供することにある。また、他の目的は、ショット単位の信号レベルの特徴を評価するのではなく、より高度な概念(ショット種別)に分類してからショットを集約することにより、従来技術よりも正確なシーン分割を可能とする動画像データのシーン分割装置を提供することにある。   The present invention has been made in view of the above-described prior art, and an object of the present invention is to classify uncompressed or compressed moving image data into various shot types using image characteristics and audio characteristics, and classify the classification. An object of the present invention is to provide an apparatus for scene division based on the result. Another purpose is not to evaluate the characteristics of the signal level of each shot, but to classify the shots after classifying them into a more advanced concept (shot type), so that more accurate scene division than the conventional technology can be achieved. An object of the present invention is to provide a scene dividing device for moving image data that is made possible.

前記した目的を達成するために、本発明は、非圧縮または圧縮された動画像データのシーン分割装置において、動画像データのショット分割を行うショット分割手段と、動画像データの動き情報および動画像データに付随するオーディオデータを解析する動き情報・オーディオデータ解析手段と、動画像データのショット長、画像内の動き情報、オーディオデータの少なくとも一つを用いてカメラが風景を撮影しているショットを判定する風景ショット判定手段と、該風景ショットをシーンの分割点とみなし、動画像データをシーンに分割するシーン分割手段とを具備した点に第1の特徴がある。   In order to achieve the above-described object, the present invention provides a shot dividing means for performing shot division of moving image data, motion information of moving image data, and moving images in an uncompressed or compressed moving image data scene dividing device. A motion information / audio data analysis means for analyzing audio data attached to the data, and a shot in which the camera is shooting a landscape using at least one of the shot length of the moving image data, the movement information in the image, and the audio data The first feature is that it includes a landscape shot determination unit for determining and a scene division unit that regards the landscape shot as a scene division point and divides moving image data into scenes.

また、動画像データのショット分割を行うショット分割手段と、動画像データを複数の意味的なショット種別に分類するショット種別分類手段と、同一のショット種別が連続する区間をシーンと見なし、同一種別を持つショットを統合することにより動画像データをシーンに分割するショット統合手段を具備した点に第2の特徴がある。   In addition, a shot division unit that performs shot division of moving image data, a shot type classification unit that classifies moving image data into a plurality of semantic shot types, and a section in which the same shot type continues is regarded as a scene, and the same type A second feature is that a shot integration unit that divides moving image data into scenes by integrating the shots having the above is provided.

本発明によれば、映画やドラマなどの動画像データにおいてはシーンとシーンの変化点に風景のシーンが表れることが多いことに着目して、動画像から風景ショットを検出し、該風景ショットをシーンの分割点とするようにしたので、動画像データのシーン分割を簡単かつ正確に行うことができるようになる。また、このため、動画像データの中から所望のシーンを簡単にかつ精度良く検索・閲覧したり、多数の動画像データを効果的に分類したりすることが可能になる。   According to the present invention, focusing on the fact that landscape scenes often appear at scenes and scene change points in moving image data such as movies and dramas, landscape shots are detected from the moving images, and the landscape shots are detected. Since scene division points are used, scene division of moving image data can be performed easily and accurately. For this reason, it is possible to easily and accurately search and view a desired scene from the moving image data, and to effectively classify a large number of moving image data.

また、本発明によれば、動画像データを複数の意味的なショット種別に分類し、同一のショット種別が連続する区間をシーンと見なし、同一種別を持つショットを統合するようにしたので、単一のショットから構成されるシーンは回避され、動画像データのシーン分割が正確になる。また、該統合により同一ショット種別が連続するようになった区間はシーンと判定され、ショット種別が変化する点はシーン分割点とされるようになる。   In addition, according to the present invention, since moving image data is classified into a plurality of semantic shot types, a section in which the same shot type continues is regarded as a scene, and shots having the same type are integrated. A scene composed of one shot is avoided, and the scene division of the moving image data becomes accurate. In addition, a section in which the same shot type continues due to the integration is determined as a scene, and a point where the shot type changes is set as a scene division point.

また、本発明によれば、非圧縮または圧縮された動画像データの信号的な特徴を利用して、入力された動画像データを様々なショット種別へ自動かつ正確に分類できるほか、シーン分割することが可能となる。   In addition, according to the present invention, by using the signal characteristics of uncompressed or compressed moving image data, the input moving image data can be automatically and accurately classified into various shot types, and the scene is divided. It becomes possible.

以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図1を参照して説明する。図1は、動画像データシーン分割装置の構成図である。   Hereinafter, the present invention will be described in detail with reference to the drawings. First, an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a configuration diagram of a moving image data scene dividing apparatus.

まず、非圧縮または圧縮された動画像データはショット分割部1でショット単位に分割され、ショット長Lsが取得される。次いで、動き情報解析部2において、ショットの動画像データから動き情報(動き強度、動き方向統一性など)が抽出され、またオーディオ解析部3において、付随するオーディオデータからオーディオ情報が抽出される。これらの処理については、特願2003-51514で開示されている手段などを用いることができる。したがって、その詳細な説明は省略するが、簡単に説明すると、下記のようになる。   First, uncompressed or compressed moving image data is divided into shot units by the shot dividing unit 1 to obtain a shot length Ls. Next, the motion information analysis unit 2 extracts motion information (motion intensity, motion direction uniformity, etc.) from the shot moving image data, and the audio analysis unit 3 extracts audio information from the accompanying audio data. For these processes, means disclosed in Japanese Patent Application No. 2003-51514 can be used. Therefore, a detailed description thereof is omitted, but a brief description is as follows.

すなわち、動き情報解析部2は、圧縮された動画像データに対しては、ショット内に存在する予測符号化画像が持つ動きベクトル値を用いて、ショットにおける動き強度の値MIsを計算する。動き強度MIsについては、MPEG-7で定義されている「動きアクティビティ記述子」の要素である「動き強度(Motion Intensity)」などを用いることができる。「動きアクティビティ記述子」の「動き強度」要素は、1から5までの整数で表現される(1が最低、5が最高)。   That is, for the compressed moving image data, the motion information analysis unit 2 calculates the motion intensity value MIs in the shot using the motion vector value of the predictive encoded image existing in the shot. For the motion intensity MIs, “Motion Intensity” that is an element of “Motion Activity Descriptor” defined in MPEG-7 can be used. The “motion intensity” element of the “motion activity descriptor” is expressed by an integer from 1 to 5 (1 is the lowest, 5 is the highest).

一方、非圧縮の動画像データに対しては、ブロックマッチング法などを用いて前画面からの動きを推定し、得られた値を動きベクトルとして表現し、上記と同様に動き強度MIsの値を計算する。この時、ショットとしての動き強度MIsは、対象とした予測符号化画像における動き強度の値をショット内で平均したものや、それらの最大値、中間値などを用いることができる。また、動き情報解析の対象とする予測符号化画像および動きベクトルとしては、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。   On the other hand, for uncompressed moving image data, the motion from the previous screen is estimated using a block matching method or the like, and the obtained value is expressed as a motion vector. calculate. At this time, as the motion intensity MIs as a shot, a value obtained by averaging the motion intensity values in the target predictive encoded image within the shot, or a maximum value or an intermediate value thereof can be used. In addition, as a prediction encoded image and a motion vector to be subjected to motion information analysis, a forward prediction encoded image, a bidirectional predictive encoded image, and a forward motion vector and a backward motion vector in a bidirectional predictive encoded image Any combination of these can be used.

オーディオ解析部3は、オーディオパワー計算部を含み、該オーディオパワー計算部は入力されたショット内のオーディオデータのオーディオ信号のパワーPsあるいは帯域毎のオーディオパワーPsbを計算する。帯域毎のオーディオパワーPsbを計算する場合は、任意の帯域幅を選択することができる外、帯域毎に重み付けを行うことができる。これらの総和を、ショット内のオーディオパワーPsとする。該Psは以下のように表される。   The audio analysis unit 3 includes an audio power calculation unit, and the audio power calculation unit calculates the power Ps of the audio signal of the audio data in the input shot or the audio power Psb for each band. When calculating the audio power Psb for each band, an arbitrary bandwidth can be selected, and weighting can be performed for each band. The sum of these is the audio power Ps in the shot. The Ps is expressed as follows.

Figure 2005252859
Figure 2005252859

ここで、Isbはオーディオパワーを計算する最低帯域の帯域番号、hsbは最高帯域の帯域番号、w[i]は帯域iにおけるオーディオパワーPsb[i]に対する重み付けである。該オーディオパワーPsを基に、サブバンドエネルギーSEsを求めることができる。 Here, Isb is a band number of the lowest band for calculating the audio power, hsb is a band number of the highest band, and w [i] is a weight for the audio power Psb [i] in the band i. The subband energy SEs can be obtained based on the audio power Ps.

映画やドラマなどの動画像データにおいては、シーンとシーンの変化点に、遷移後のシーンの情景を説明するために風景を撮影した単数または連続した複数のショットが挿入されることが多い。従って、前記動き情報解析部2およびオーディオ解析部3に加えて、風景ショット判定部4を設ける。該風景ショット判定部4においては、画面内の動き情報を少なくとも用いて風景ショットを検出する。次に、該風景ショット判定部4の判定結果を用いることにより、シーン分割部5において、シーンの分割点を検出することができる。該シーン分割部5ではシーン情報が決定される。   In moving image data such as movies and dramas, a single shot or a plurality of continuous shots are often inserted at scene and scene change points in order to explain the scene scene after the transition. Accordingly, a landscape shot determination unit 4 is provided in addition to the motion information analysis unit 2 and the audio analysis unit 3. The landscape shot determination unit 4 detects a landscape shot using at least the motion information in the screen. Next, by using the determination result of the landscape shot determination unit 4, the scene division unit 5 can detect scene division points. The scene division unit 5 determines scene information.

前記動き情報解析部2は、前記動き強度に加え、動きの統一性を抽出する。これは、画面内の動き(カメラ、オブジェクト)の方向がどの程度一定であるかを示す指標である。動き方向の統一性を評価することにより、カメラが風景をゆっくりパン/チルトしているショットを識別することが可能となる。すなわち、画面内の動き方向が、ある評価尺度により統一性を有することが識別できれば、オブジェクト(被写体)の動きが少なく、カメラが比較的静止した風景をゆっくりとしたカメラワークで撮影していることが分かる。その他、パンシーンの判定には本発明者などの特許出願である特願2002-285667で開示されている手段などを用いることもできる。   The motion information analysis unit 2 extracts motion uniformity in addition to the motion intensity. This is an index indicating how constant the direction of movement (camera, object) in the screen is. By evaluating the uniformity of the direction of motion, it is possible to identify shots in which the camera is slowly panning / tilting the landscape. In other words, if the direction of movement in the screen can be identified by a certain evaluation scale, the object (subject) has little movement and the camera is shooting a relatively stationary scene with slow camerawork. I understand. In addition, the means disclosed in Japanese Patent Application No. 2002-285667, which is a patent application by the present inventors, can also be used for determining the pan scene.

次に、図2のフローチャートを参照して、前記風景ショット判定部4の動作を説明する。該風景ショット判定部4は、入力されたショット長Ls、動き情報としての動き強度MIs、動き方向の統一性MDCs、およびオーディオ情報としてのサブバンドエネルギーSEsなどを評価する。ここで、動き方向の統一性MDCsは、MPEG−7で定義されている動きアクティビティ記述子(Motion Activity)の支配的方向属性(Dominant Direction)などを用いることができるが、ここでは以下の式のように、画面内に存在する動きベクトルを任意数方向に分類し、その最も頻度が高い方向が全ての動きベクトルに占める割合として定義することもできる。   Next, the operation of the landscape shot determination unit 4 will be described with reference to the flowchart of FIG. The landscape shot determination unit 4 evaluates the input shot length Ls, motion intensity MIs as motion information, motion direction uniformity MDCs, subband energy SEs as audio information, and the like. Here, the motion direction unity MDCs can use the dominant direction attribute (Dominant Direction) of the motion activity descriptor (Motion Activity) defined in MPEG-7. As described above, the motion vectors existing in the screen can be classified into an arbitrary number of directions, and the direction with the highest frequency can be defined as the ratio of all the motion vectors.

MDCs=最頻方向に一致する動きベクトル数/動きベクトルの総数    MDCs = number of motion vectors matching the most frequent direction / total number of motion vectors

ここでは、動きベクトルの方向を8方向(45度単位)などとすることができる。   Here, the direction of the motion vector can be 8 directions (in units of 45 degrees).

前述の通り、動き方向の統一性MDCsはカメラが風景を撮影するようなショットで大きくなり、被写体を大きく写したショットや被写体の動きが早いショットでは小さくなる。従って、ショット長Lsがある閾値THL(例えば、1.5秒)よりも大きく(ショット長Ls>THL)、動き強度MIsがある閾値THI(例えば、1.1)よりも小さく(動き強度MIs<THI)、動き方向の統一性MDCsがある閾値THMDC(例えば、0.2)よりも大きく(動き方向の統一性MDCs>THMDC)、かつサブバンドエネルギーSEsがある閾値THSE(例えば、2.2)よりも小さい場合(サブバンドエネルギーSEs<THSE)、ステップS2に進んで、該当するショットを風景ショットであると判定する。   As described above, the uniformity MDCs in the direction of movement increases with shots where the camera captures a landscape, and decreases with shots in which the subject is photographed greatly or shots with fast movement of the subject. Accordingly, the shot length Ls is larger than a certain threshold value THL (for example, 1.5 seconds) (shot length Ls> THL), and the motion intensity MIs is smaller than a certain threshold value THI (for example, 1.1) (motion intensity MIs < THI), motion direction uniformity MDCs is greater than a certain threshold value THMDC (eg, 0.2) (motion direction uniformity MDCs> THMDC), and subband energy SEs is a threshold value THSE (eg, 2.2). If it is smaller than (subband energy SEs <THSE), the process proceeds to step S2 to determine that the corresponding shot is a landscape shot.

なお、前記のようにショット長、動き情報、オーディオ情報を閾値処理することもできるが、予めこれらを特徴ベクトルとして入力した分類器(決定木など)を学習させ、入力されたショットを各種ショット種別に分類することもできる。   Although it is possible to perform threshold processing on shot length, motion information, and audio information as described above, a classifier (such as a decision tree) that has been previously input as a feature vector is learned, and the input shot is classified into various shot types. Can also be classified.

次に、本発明の第2の実施形態を、図3を参照して説明する。この実施形態は、従来装置の次の問題を解消するものである。すなわち、従来装置では、各ショットにおけるショット種別の判定のみを行っており、隣接または周辺のショットのショット種別を考慮していないため、例えば「アクション」クラスが連続する区間に単一の「会話」クラスが判定される場合があったため、分類精度が低下していたことが問題として挙げられる。また、この実施形態は、前記風景ショットを加味して、ショット種別補正およびショット統合を行うようにしたものである。なお、図3中の図1と同一または同等物には、同じ符号が付されている。   Next, a second embodiment of the present invention will be described with reference to FIG. This embodiment solves the following problems of the conventional apparatus. In other words, the conventional apparatus only determines the shot type for each shot, and does not consider the shot types of adjacent or neighboring shots. For example, a single “conversation” in a section where “action” classes are continuous. Since the class is sometimes judged, the problem is that the classification accuracy is lowered. In this embodiment, the shot type correction and shot integration are performed in consideration of the landscape shot. 3 that are the same as or equivalent to those in FIG. 1 are denoted by the same reference numerals.

図において、11はショット種別分類処理部、12はショット種別補正処理部、13はショット統合部である。   In the figure, 11 is a shot type classification processing unit, 12 is a shot type correction processing unit, and 13 is a shot integration unit.

ここで、前記ショット種別補正処理部12の動作を、図4のフローチャートを参照して説明する。該ショット種別補正処理部12は、以下の処理により、誤分類されたショットを補正する。ここで、Stype(n)は、n番目のショットのショット種別を表す。   Here, the operation of the shot type correction processing unit 12 will be described with reference to the flowchart of FIG. The shot type correction processing unit 12 corrects misclassified shots by the following processing. Here, Type (n) represents the shot type of the nth shot.

ステップS10では、まずiを初期化(i=1)し、ステップS11では、第i番目のショットiの種別Stype(i)が入力する。ステップS12では、該ショットiが、風景ショットではなく、Stype(i)≠Stype(i−1)かつStype(i−1)=Stype(i+1)であるか否かを判断する。該判断が肯定であればステップS13に進んで、Stype(i)=Stype(i−1)と修正する。一方、該ステップS12の判断が否定であれば、ステップS13をスキップしてステップS14に進む。ステップS14では、全部のショットの処理が終了したか否かの判断を行い、この判断が否定の時にはステップS15に進んで,iを1インクリメントする。以下、前記と同じ動作を、ステップS14の判断が肯定になるまで、すなわち動画像データが終了するまで行う。   In step S10, i is first initialized (i = 1), and in step S11, the type Stype (i) of the i-th shot i is input. In step S12, it is determined whether or not the shot i is not a landscape shot, but Type (i) ≠ Type (i-1) and Type (i-1) = Type (i + 1). If the determination is affirmative, the process proceeds to step S13 to correct Type (i) = Type (i-1). On the other hand, if the determination in step S12 is negative, step S13 is skipped and the process proceeds to step S14. In step S14, it is determined whether or not all shots have been processed. If this determination is negative, the process proceeds to step S15, and i is incremented by one. Thereafter, the same operation as described above is performed until the determination in step S14 becomes affirmative, that is, until the moving image data ends.

該ステップS14の判断が肯定になると、ステップS16でiを初期化(i=1)し、ステップS17に進み、再度第i番目のショットiの種別が入力する。ステップS18では、該ショットiが風景ショットではなく、Stype(i)≠Stype(i−1)かつStype(i)≠Stype(i+1)であるか否かを判断する。この判断が肯定の場合にはステップS19に進み、Stype(i)=Stype(i−1)と修正する。一方、前記ステップS18の判断が否定の時にはステップS20に進む。ステップS20では、全ショットの処理が終了したか否かの判断がなされ、この判断が否定の時にはステップS21に進んで、iを1インクリメントする。次いで、ステップS17に戻り、前記した処理を再度行う。以上の処理が繰り返し行われ、前記ステップS20の判断が肯定になると、ショット種別補正処理は終了する。   If the determination in step S14 is affirmative, i is initialized (i = 1) in step S16, the process proceeds to step S17, and the type of the i-th shot i is input again. In step S18, it is determined whether the shot i is not a landscape shot, but whether Type (i) ≠ Type (i−1) and Type (i) ≠ Type (i + 1). If this determination is affirmative, the process proceeds to step S19 to correct Type (i) = Type (i-1). On the other hand, if the determination in step S18 is negative, the process proceeds to step S20. In step S20, it is determined whether or not all shots have been processed. If this determination is negative, the process proceeds to step S21, and i is incremented by one. Next, the process returns to step S17, and the above-described processing is performed again. When the above process is repeated and the determination in step S20 becomes affirmative, the shot type correction process ends.

また、前記ショット種別補正処理部12は、多数決処理により、隣接するショット種別と異なるショット種別を補正するようにしてもよい。   Further, the shot type correction processing unit 12 may correct a shot type different from an adjacent shot type by a majority process.

図5は、図3のショット種別分類処理部11、ショット種別補正処理部12、およびショット統合部13により処理されるショットの具体例を示す。   FIG. 5 shows a specific example of shots processed by the shot type classification processing unit 11, the shot type correction processing unit 12, and the shot integration unit 13 of FIG.

図5(a)はシーン分割される動画像データを示し、同図(b)はショット分割されたショットを示す。同図(c)は前記ショット種別分類処理部11でショット分類されたショットを示す。図示の例では、「会話、アクション、会話」という系列のショット、「アクション、会話、アクション」という系列のショット、「アクション、風景、アクション」という系列のショット等が示されている。   FIG. 5A shows moving image data divided into scenes, and FIG. 5B shows shots divided into shots. FIG. 3C shows shots that have been shot classified by the shot type classification processing unit 11. In the illustrated example, a series of shots “conversation, action, conversation”, a series of shots “action, conversation, action”, a series of shots “action, landscape, action”, and the like are shown.

同図(d)は前記ショット種別補正処理部12でショット種別補正されたショットを示す。該ショット種別補正処理部12の動作により、前記「会話、アクション、会話」という系列のショットは「会話、会話、会話」と補正される。また、「アクション、会話、アクション」という系列のショットは、「アクション、アクション、アクション」と補正される。   FIG. 4D shows a shot that has been shot type corrected by the shot type correction processing unit 12. By the operation of the shot type correction processing unit 12, the series of shots “conversation, action, conversation” is corrected as “conversation, conversation, conversation”. In addition, a series of shots of “action, conversation, action” is corrected as “action, action, action”.

すなわち、対象となるショットが前後のショット種別と異なり、かつ前後のショット種別が同一の場合に、全て同一のショット種別に補正する。また、対象となるショットが前後のショット種別と異なり、かつ前後のショット種別も同一でない場合に、対象となるショットのショット種別を時間的に前のショット種別に補正する。   That is, when the target shot is different from the preceding and following shot types and the preceding and following shot types are the same, all are corrected to the same shot type. Also, when the target shot is different from the preceding and following shot types and the preceding and following shot types are not the same, the shot type of the target shot is corrected to the previous shot type in terms of time.

一方、「アクション、風景、アクション」という系列のショットは、風景ショットはシーンの分割点であるのでそのままに保持される。   On the other hand, the series of shots “action, landscape, action” are held as they are because the landscape shot is a scene division point.

次に、同図(e)は前記ショット統合部13でショット統合されたシーンを示す。図示から分かるように、同じ種別のショットは統合されて、一つのシーンとされる。なお、単独または連続して複数で出現する風景ショットはシーン分割点であるとし、該シーンの統合処理は行わない。風景ショットの開始時が、シーン分割点とされる。   Next, FIG. 4E shows a scene that has been shot-integrated by the shot integration unit 13. As can be seen from the figure, shots of the same type are integrated into one scene. Note that landscape shots that appear alone or in succession are assumed to be scene division points, and the scene integration processing is not performed. The start point of the landscape shot is set as a scene division point.

以上の処理によって、補正されたジャンル種別の集合において、同一ショット種別が連続する区間はシーンと判定され、ショット種別が変化する点はシーン分割点とされる。また、単一のショットから構成されるシーンは回避される。   With the above processing, in the corrected set of genre types, a section where the same shot type continues is determined as a scene, and a point where the shot type changes is a scene division point. Also, a scene composed of a single shot is avoided.

次に、図6を参照して、本発明の第3実施形態を説明する。なお、図6中の図3と同一または同等物には、同じ符号が付されている。この実施形態では、ショット種別分類処理部11への入力として、ショット分割部1からのショット長Ls、オーディオ解析部3からのオーディオ種別ACLSおよびサブバンドエネルギーSEsを入力する。   Next, a third embodiment of the present invention will be described with reference to FIG. 6 that are the same as or equivalent to those in FIG. 3 are given the same reference numerals. In this embodiment, as the input to the shot type classification processing unit 11, the shot length Ls from the shot division unit 1, the audio type ACLS and the subband energy SEs from the audio analysis unit 3 are input.

オーディオ種別ACLSの取得手段としては、特開平10-247093号公報で開示されている手段などを用いることができる。ショット種別分類処理部11で得られたショット種別Stypeは、ショット種別系列解析部21によりショット種別の系列を決定する。ショット種別系列解析部21では、HMM(隠れマルコフモデル)などの時系列シンボルを表現するモデルなどを用いて、ショット種別Stypeの確からしさを調べることができる。これにより、孤立したショット種別の補正を行う。ショット統合部13は、前記図5の(d)から(e)への過程と同様の処理により、ショット統合を行ってシーン情報を出力する。   As means for acquiring the audio type ACLS, means disclosed in Japanese Patent Laid-Open No. 10-247093 can be used. The shot type sequence obtained by the shot type classification processing unit 11 is determined by the shot type series analysis unit 21 as a shot type series. The shot type series analysis unit 21 can check the probability of the shot type Type using a model that represents a time series symbol such as HMM (Hidden Markov Model). Thereby, the isolated shot type is corrected. The shot integration unit 13 performs shot integration and outputs scene information by the same processing as the process from (d) to (e) of FIG.

ショット統合部13で得られたシーン情報は、シーン情報記述部22で少なくとも時間情報と共に記述され、MPEG−7などの記述フォーマットを用いることにより、シーン記述ファイルとして出力される。   The scene information obtained by the shot integration unit 13 is described together with at least time information by the scene information description unit 22, and is output as a scene description file by using a description format such as MPEG-7.

本発明は、入力動画像データが映画コンテンツであってもよい。この場合、分類されるショット種別が、少なくともアクション、会話、風景、その他であり、風景ショット種別をシーンの分割点とし、アクション、会話、その他ショット種別のショットを前記ショット種別補正手段により補正し、少なくともアクションシーン、会話シーンおよびその他シーンに統合することができる。   In the present invention, the input moving image data may be movie content. In this case, the shot types to be classified are at least actions, conversations, landscapes, etc., landscape shot types are set as scene division points, and shots of actions, conversations, other shot types are corrected by the shot type correction means, It can be integrated into at least an action scene, a conversation scene, and other scenes.

本発明の第1の実施形態の概略の構成を示すブロック図である。It is a block diagram which shows the structure of the outline of the 1st Embodiment of this invention. 風景ショット判定部の処理を示すフローチャートである。It is a flowchart which shows the process of a landscape shot determination part. 本発明の第2の実施形態の概略の構成を示すブロック図である。It is a block diagram which shows the schematic structure of the 2nd Embodiment of this invention. ショット種別補正処理部の処理を示すフローチャートである。It is a flowchart which shows the process of a shot classification correction process part. 該第2の実施形態の処理の要部の具体例の説明図である。It is explanatory drawing of the specific example of the principal part of the process of this 2nd Embodiment. 本発明の第3の実施形態の概略の構成を示すブロック図である。It is a block diagram which shows the structure of the outline of the 3rd Embodiment of this invention.

符号の説明Explanation of symbols

1・・・ショット分割部、2・・・動き情報解析部、3・・・オーディオ解析部、4・・・風景ショット判定部、5・・・シーン分割部、11・・・ショット種別分類処理部、12・・・ショット種別補正処理部、13・・・ショット統合部、21・・・ショット種別系列解析部、22・・・シーン情報記述部。
DESCRIPTION OF SYMBOLS 1 ... Shot division part, 2 ... Motion information analysis part, 3 ... Audio analysis part, 4 ... Scenery shot determination part, 5 ... Scene division part, 11 ... Shot classification classification process , 12 ... Shot type correction processing unit, 13 ... Shot integration unit, 21 ... Shot type series analysis unit, 22 ... Scene information description unit.

Claims (10)

非圧縮または圧縮された動画像データのシーン分割装置において、
動画像データのショット分割を行うショット分割手段と、
動画像データの動き情報および動画像データに付随するオーディオデータを解析する動き情報・オーディオデータ解析手段と、
動画像データのショット長、画像内の動き情報、オーディオデータの少なくとも一つを用いてカメラが風景を撮影しているショットを判定する風景ショット判定手段と、
該風景ショットをシーンの分割点とみなし、動画像データをシーンに分割するシーン分割手段とを具備したことを特徴とする動画像データのシーン分割装置。
In a scene dividing device for uncompressed or compressed moving image data,
Shot dividing means for performing shot division of moving image data;
Motion information / audio data analyzing means for analyzing motion information of moving image data and audio data accompanying the moving image data;
Landscape shot determination means for determining a shot in which the camera is shooting a landscape using at least one of shot length of moving image data, motion information in the image, and audio data;
A scene dividing device for moving image data, comprising scene dividing means for regarding the landscape shot as a scene dividing point and dividing the moving image data into scenes.
請求項1に記載された動画像データのシーン分割装置において、
前記動き情報として、動き方向の統一性を用いることを特徴とする動画像データのシーン分割装置。
In the scene dividing device for moving image data according to claim 1,
A moving image data scene dividing apparatus using uniformity of a moving direction as the movement information.
請求項2に記載された動画像データのシーン分割装置において、
前記動き方向の統一性は、画面内に存在する動きベクトルを任意数方向に分類し、その最も頻度が高い方向が全ての動きベクトルに占める割合として求められることを特徴とする動画像データのシーン分割装置。
In the scene dividing apparatus for moving image data according to claim 2,
The motion direction uniformity is obtained by classifying motion vectors existing in a screen into an arbitrary number of directions, and the direction with the highest frequency is obtained as a ratio of all motion vectors. Splitting device.
非圧縮または圧縮された動画像データのシーン分割装置において、
動画像データのショット分割を行うショット分割手段と、
動画像データを複数の意味的なショット種別に分類するショット種別分類手段と、
同一のショット種別が連続する区間をシーンと見なし、同一種別を持つショットを統合することにより動画像データをシーンに分割するショット統合手段を具備したことを特徴とする動画像データのシーン分割装置。
In a scene dividing device for uncompressed or compressed moving image data,
Shot dividing means for performing shot division of moving image data;
Shot type classification means for classifying moving image data into a plurality of semantic shot types;
A scene dividing device for moving image data, comprising shot integrating means for dividing a moving image data into scenes by considering sections having the same shot type as a scene and integrating shots having the same type.
請求項4に記載された動画像データのシーン分割装置において、
さらに、
動画像データのショット長、画像内の動き情報、オーディオデータの少なくとも一つを用いてカメラが風景を撮影しているショットを判定する風景ショット判定手段と、
該風景ショットをシーンの分割点とみなし、動画像データをシーンに分割する動画像データのシーン分割装置。
The scene dividing device for moving image data according to claim 4,
further,
Landscape shot determination means for determining a shot in which the camera is shooting a landscape using at least one of shot length of moving image data, motion information in the image, and audio data;
A scene dividing apparatus for moving image data, which regards the landscape shot as a scene dividing point and divides moving image data into scenes.
請求項4または5に記載された動画像データのシーン分割装置において、
前記ショット種別分類手段において得られたショット種別の時間的な連続性を考慮して、隣接するショット種別と異なるショット種別を補正するショット種別補正手段を具備したことを特徴とする動画像データのシーン分割装置。
In the scene dividing device for moving image data according to claim 4 or 5,
A scene of moving image data, comprising shot type correction means for correcting a shot type different from an adjacent shot type in consideration of temporal continuity of shot types obtained by the shot type classification means Splitting device.
請求項6に記載された動画像データのシーン分割装置において、
前記ショット種別補正手段として、ある区間内に存在するショット種別の多数決処理により、隣接するショット種別と異なるショット種別を補正することを特徴とする動画像データのシーン分割装置。
In the scene dividing device for moving image data according to claim 6,
An apparatus for dividing a scene of moving image data, wherein the shot type correction unit corrects a shot type different from an adjacent shot type by a majority process of shot types existing in a certain section.
請求項6に記載された動画像データのシーン分割装置において、
前記ショット種別補正手段として、予め学習されたショット種別の系列モデルとの照合により対象となるショット種別を補正することを特徴とする動画像データのシーン分割装置。
In the scene dividing device for moving image data according to claim 6,
An apparatus for dividing a scene of moving image data, wherein the shot type correction unit corrects a target shot type by collating with a series model of shot types learned in advance.
請求項7または8に記載された動画像データのシーン分割装置において、
入力動画像データが映画コンテンツであり、分類されるショット種別が、少なくともアクション、会話、風景、その他であり、風景ショット種別をシーンの分割点とし、アクション、会話、その他ショット種別のショットを前記ショット種別補正手段により補正し、少なくともアクションシーン、会話シーンおよびその他シーンに統合することを特徴とする動画像データのシーン分割装置。
In the scene dividing device for moving image data according to claim 7 or 8,
The input moving image data is movie content, and the shot types to be classified are at least action, conversation, landscape, and others, the landscape shot type is a scene dividing point, and the shots of action, conversation, and other shot types are shot. A scene dividing apparatus for moving image data, wherein the scene dividing device is corrected by type correction means and integrated into at least an action scene, a conversation scene, and other scenes.
請求項1ないし請求項9のいずれかに記載された動画像データのシーン分割装置において、
前記シーンに分割された情報を、少なくとも時間情報と共に記述するシーン情報記述手段を具備したことを特徴とする動画像データのシーン分割装置。
In the scene dividing device for moving image data according to any one of claims 1 to 9,
A scene division apparatus for moving image data, comprising scene information description means for describing information divided into scenes together with at least time information.
JP2004062866A 2004-03-05 2004-03-05 Scene segmentation apparatus for moving image data Expired - Fee Related JP4349574B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004062866A JP4349574B2 (en) 2004-03-05 2004-03-05 Scene segmentation apparatus for moving image data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004062866A JP4349574B2 (en) 2004-03-05 2004-03-05 Scene segmentation apparatus for moving image data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009133053A Division JP4979029B2 (en) 2009-06-02 2009-06-02 Scene segmentation apparatus for moving image data

Publications (2)

Publication Number Publication Date
JP2005252859A true JP2005252859A (en) 2005-09-15
JP4349574B2 JP4349574B2 (en) 2009-10-21

Family

ID=35032905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004062866A Expired - Fee Related JP4349574B2 (en) 2004-03-05 2004-03-05 Scene segmentation apparatus for moving image data

Country Status (1)

Country Link
JP (1) JP4349574B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009116582A1 (en) * 2008-03-19 2009-09-24 国立大学法人 北海道大学 Dynamic image search device and dynamic image search program
US8849063B2 (en) 2010-06-25 2014-09-30 Kddi Corporation Apparatus and method for optimizing on-screen location of additional content overlay on video content
CN107408197A (en) * 2015-03-11 2017-11-28 西门子公司 The system and method for the classification of cell image and video based on deconvolution network
CN111717217A (en) * 2020-06-30 2020-09-29 重庆大学 Driver intention identification method based on probability correction

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009116582A1 (en) * 2008-03-19 2009-09-24 国立大学法人 北海道大学 Dynamic image search device and dynamic image search program
JP5339303B2 (en) * 2008-03-19 2013-11-13 国立大学法人北海道大学 Video search device and video search program
US8849063B2 (en) 2010-06-25 2014-09-30 Kddi Corporation Apparatus and method for optimizing on-screen location of additional content overlay on video content
CN107408197A (en) * 2015-03-11 2017-11-28 西门子公司 The system and method for the classification of cell image and video based on deconvolution network
JP2018514844A (en) * 2015-03-11 2018-06-07 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft System and method for deep convolution network-based classification of cellular images and video
CN111717217A (en) * 2020-06-30 2020-09-29 重庆大学 Driver intention identification method based on probability correction

Also Published As

Publication number Publication date
JP4349574B2 (en) 2009-10-21

Similar Documents

Publication Publication Date Title
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
US7359440B2 (en) Method and system for extracting key frames from video using a triangle model of motion based on perceived motion energy
JP4381310B2 (en) Media processing system
US8442384B2 (en) Method and apparatus for video digest generation
US7336830B2 (en) Face detection
US7336890B2 (en) Automatic detection and segmentation of music videos in an audio/video stream
KR100957902B1 (en) Video summarization device
US6940910B2 (en) Method of detecting dissolve/fade in MPEG-compressed video environment
JP2006508463A (en) Face detection
JP2006508461A (en) Face detection and face tracking
JP2006508601A (en) Video camera
JP2006508601A5 (en)
US20060198554A1 (en) Face detection
JP2006031678A (en) Image processing
JP6557592B2 (en) Video scene division apparatus and video scene division program
Bae et al. Dual-dissimilarity measure-based statistical video cut detection
JP5096259B2 (en) Summary content generation apparatus and summary content generation program
Iwan et al. Temporal video segmentation: detecting the end-of-act in circus performance videos
US7734096B2 (en) Method and device for discriminating obscene video using time-based feature value
Zhu et al. Video scene segmentation and semantic representation using a novel scheme
JP4979029B2 (en) Scene segmentation apparatus for moving image data
JP4349574B2 (en) Scene segmentation apparatus for moving image data
JP4999015B2 (en) Moving image data classification device
JP5054608B2 (en) Content evaluation method and apparatus, program, and computer-readable recording medium
JP4730813B2 (en) Moving image data classification device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090716

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees