JP2006277232A - Classification device for dynamic image data - Google Patents

Classification device for dynamic image data Download PDF

Info

Publication number
JP2006277232A
JP2006277232A JP2005094491A JP2005094491A JP2006277232A JP 2006277232 A JP2006277232 A JP 2006277232A JP 2005094491 A JP2005094491 A JP 2005094491A JP 2005094491 A JP2005094491 A JP 2005094491A JP 2006277232 A JP2006277232 A JP 2006277232A
Authority
JP
Japan
Prior art keywords
shot
image data
moving image
color
explosion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005094491A
Other languages
Japanese (ja)
Other versions
JP4730813B2 (en
Inventor
Masaru Sugano
勝 菅野
Yasuhiro Takishima
康弘 滝嶋
Yasuyuki Nakajima
康之 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2005094491A priority Critical patent/JP4730813B2/en
Publication of JP2006277232A publication Critical patent/JP2006277232A/en
Application granted granted Critical
Publication of JP4730813B2 publication Critical patent/JP4730813B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a classification device for non-compressed or compressed dynamic image data, capable of determining a further detailed shot type. <P>SOLUTION: This device comprises a shot classification part 5 including an explosion shot determination part 51 for determining a shot including explosion in dynamic image data; a chase shot determination part 52 for determining a shot including chase, and a close-up shot determination part 53 for determining a shot including a close-up of a face. The explosion shot determination part 51, the chase shot determination part 52, and the close-up shot determination part 53 perform the determination of explosion, chase and close-up using at least one of analysis information from a color information analysis part 2, a motion information analysis part 3 and an audio analysis part 4. An action shot determination part and a conversation shot determination part may be provided in the front stage of the explosion shot determination part 51 and the chase shot determination part 52 and in the front stage of the close-up shot determination part 53, respectively. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、非圧縮または圧縮された動画像データを解析し、それらを予め定義されたショット種別に分類する動画像データの分類装置に関し、特に意味的なショット種別に分類することによって動画像データの効率的な検索、閲覧、あるいは動画像の内容や文脈の推定をすることが可能な、動画像データの分類装置に関する。   The present invention relates to an apparatus for classifying moving image data by analyzing uncompressed or compressed moving image data and classifying them into predefined shot types, and in particular moving image data by classifying them into meaningful shot types. The present invention relates to an apparatus for classifying moving image data capable of efficiently searching, browsing, and estimating the contents and context of moving images.

動画像データのショット分類に関する従来技術としては、本発明者等による特開2004−260734号公報において、ショットを「アクション」クラス、「ドラマチック」クラス、「会話」クラス、「汎用」クラスなどに分類する手段、スローシーン、ズームシーン、パンシーンなどの意味的な概念を持たないシーン種別、及びコマーシャルシーンやハイライトシーンなどの意味的な概念を持つシーン種別に分類する装置が開示されている。   As a conventional technique related to shot classification of moving image data, in Japanese Patent Application Laid-Open No. 2004-260734 by the present inventors, shots are classified into “action” class, “dramatic” class, “conversation” class, “general purpose” class, and the like. An apparatus for classifying a scene type having no semantic concept such as a slow scene, a zoom scene, and a pan scene, and a scene type having a semantic concept such as a commercial scene and a highlight scene is disclosed.

また、本発明者等による特願2004−62866号においては、ショット種別として「風景」クラスを導入し、同一クラスのショットの集合をシーンとして判定する装置が開示されている。
特開2004−260734号公報
In addition, Japanese Patent Application No. 2004-62866 by the present inventors discloses a device that introduces a “landscape” class as a shot type and determines a set of shots of the same class as a scene.
JP 2004-260734 A

前記した既存技術では、動画像データを予め定義されたショット種別に分類することができるが、これらは比較的大まかな分類であり、ショットのラベル付けという観点ではより詳細なショット種別が必要となる。例えば「アクション」クラスは比較的広義であり、実際には「爆発」や「カーチェイス」などの従属クラスが存在する。また、このようなショット種別を用いて動画像の内容や文脈を推定しようとした場合、詳細なショット種別を定義することにより動画像の内容や文脈を適切に捉えることができる。   In the above-described existing technology, moving image data can be classified into predefined shot types, but these are relatively rough classifications, and more detailed shot types are required in terms of shot labeling. . For example, the “action” class is relatively broad, and actually there are subordinate classes such as “explosion” and “car chase”. Further, when trying to estimate the content and context of a moving image using such a shot type, it is possible to appropriately grasp the content and context of the moving image by defining a detailed shot type.

本発明は、前記した従来技術に鑑みてなされたものであり、その目的は、より詳細なショット種別を判定することのできる非圧縮または圧縮された動画像データの分類装置を提供することにある。   The present invention has been made in view of the above-described prior art, and an object of the present invention is to provide an uncompressed or compressed moving image data classification device capable of determining a more detailed shot type. .

本発明は、非圧縮または圧縮された動画像データの分類装置において、 前記動画像データのショット分割を行うショット分割部と、前記動画像データにおける色情報を解析する色情報解析部と動き情報を解析する動き情報解析部と、前記動画像データに付随するオーディオデータを解析するオーディオ解析部と、前記色情報解析部、動き情報解析部およびオーディオ解析部からの解析情報の少なくとも一つを用いて、動画像データにおける爆発を含むショットを判定する爆発ショット判定部、チェイスを含むショットを判定するチェイスショット判定部、および顔のクローズアップを含むクローズアップショット判定部の少なくとも一つを具備した点に特徴がある。   The present invention relates to a classification apparatus for uncompressed or compressed moving image data, a shot dividing unit that performs shot division of the moving image data, a color information analysis unit that analyzes color information in the moving image data, and motion information. Using at least one of analysis information from a motion information analysis unit to analyze, an audio analysis unit to analyze audio data accompanying the moving image data, the color information analysis unit, the motion information analysis unit, and the audio analysis unit And at least one of an explosion shot determination unit for determining shots including explosion in moving image data, a chase shot determination unit for determining shots including chase, and a close-up shot determination unit including face close-up. There are features.

また、前記動画像データの動き情報とオーディオデータからアクションを含むショットを判定するアクションショット判定部をさらに具備し、該アクションからさらにチェイスを含むショットを判定し、階層的なショット種別の分類を行うようにした点に他の特徴がある。   Further, an action shot determination unit for determining a shot including an action from the motion information of the moving image data and the audio data is further provided, and a shot including a chase is further determined from the action, and hierarchical shot type classification is performed. There are other features in this way.

さらに、前記動画像データから会話を含むショットを判定する会話ショット判定部を具備し、該会話ショット判定部から得られた会話ショットからクローズアップを含むショットを判定し、クローズアップを含む会話ショットを判定するようにした点に他の特徴がある。   Furthermore, a conversation shot determination unit that determines a shot including conversation from the moving image data is determined, a shot including a close-up is determined from a conversation shot obtained from the conversation shot determination unit, and a conversation shot including a close-up is determined. There is another feature in the point of determination.

本発明によれば、非圧縮または圧縮された動画像データを、爆発ショット、チェイスショット、またはクローズアップショット等の意味的なショット種別に分類することができる。   According to the present invention, uncompressed or compressed moving image data can be classified into semantic shot types such as explosion shots, chase shots, and close-up shots.

また、アクションからさらにチェイスを含むショットを判定し、あるいは会話ショット判定部から得られた会話ショットからクローズアップを含むショットを判定し、階層的なショット種別の分類を行うことができるようになる。   Further, it is possible to classify hierarchical shot types by determining shots further including chase from actions or determining shots including close-up from conversation shots obtained from the conversation shot determination unit.

また、本発明を用いれば、動画像データの検索、閲覧や、動画像の内容や文脈の推定を、効率的に行えるようになる。   Further, by using the present invention, it becomes possible to efficiently search and browse moving image data and estimate the content and context of moving images.

以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図1を参照して説明する。図1は、動画像データの分割装置の構成図である。   Hereinafter, the present invention will be described in detail with reference to the drawings. First, an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a configuration diagram of a moving image data dividing device.

まず、非圧縮または圧縮された動画像データはショット分割部でショット単位に分割され、その後各々のショットから色情報解析部2において色情報が、動き情報解析部3において動き情報が、さらに付随するオーディオデータからオーディオ解析部4においてオーディオ情報が抽出される。これらの処理については、前記特許文献1で開示されている手法などを用いることができる。   First, uncompressed or compressed moving image data is divided into shot units by a shot division unit, and then color information is further attached from each shot to color information analysis unit 2 and motion information analysis unit 3 is further accompanied with motion information. Audio information is extracted from the audio data in the audio analysis unit 4. About these processes, the method etc. which are indicated by the above-mentioned patent documents 1 can be used.

色情報を抽出する対象は、ショットの先頭フレームやショットを代表するキーフレーム、またはショット内の全てのフレームなど、任意のフレームを選択することができる。また、オーディオ情報としては、オーディオエネルギーやオーディオ種別などを用いることができるが、ここではサブバンドに分割されて符号化されているオーディオデータを対象として、サブバンドエネルギーの重み付け平均を用いるものとして説明する。   As a target for extracting color information, an arbitrary frame such as the first frame of the shot, the key frame representing the shot, or all the frames in the shot can be selected. As audio information, audio energy, audio type, and the like can be used, but here, it is assumed that weighted average of subband energy is used for audio data divided into subbands and encoded. To do.

このとき、入力動画像データがMPEG形式など離散コサイン変換を用いて圧縮符号化されたデータである場合には、直流成分のみから構成される画像(DC画像)を用いて色情報を解析することができる。色情報としては、画像内の画素値のデータ、画像内の任意の色ヒストグラム、または画像内の色配置情報などを用いることができる。   At this time, if the input moving image data is data that is compression-encoded using discrete cosine transform such as MPEG format, color information is analyzed using an image (DC image) composed only of DC components. Can do. As the color information, pixel value data in the image, an arbitrary color histogram in the image, or color arrangement information in the image can be used.

また、予測符号化を用いて圧縮されている場合には、動き情報を抽出する対象は、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。これらを対象として抽出した動き情報に対し、ショット内の平均値や中間値、最大値など任意の値を動き情報として利用することができる。   In addition, when compression is performed using predictive coding, the target of motion information extraction is a forward predictive encoded image, a bidirectional predictive encoded image, and a forward motion vector in the bidirectional predictive encoded image. Any combination of reverse motion vectors can be used. Arbitrary values such as an average value, an intermediate value, and a maximum value in a shot can be used as the motion information for the motion information extracted for these.

色情報解析部3、動き情報解析部2、オーディオ情報解析部4の後段にはショット分類部5が配置される。このショット分類部5は、爆発ショット判定部51、チェイスショット判定部52、およびクローズアップショット判定部53から少なくとも構成される。ショット分類部5の出力は、ショット種別登録部6に登録される。   A shot classification unit 5 is arranged following the color information analysis unit 3, the motion information analysis unit 2, and the audio information analysis unit 4. The shot classification unit 5 includes at least an explosion shot determination unit 51, a chase shot determination unit 52, and a close-up shot determination unit 53. The output of the shot classification unit 5 is registered in the shot type registration unit 6.

爆発ショット判定部51は色情報とオーディオ情報を、チェイスショット判定部52は動き情報を、クローズアップショット判定部53は色情報(または、必要に応じてオーディオ情報)を、それぞれ少なくとも入力とし、以降の判定処理を行う。   The explosion shot determination unit 51 receives at least color information and audio information, the chase shot determination unit 52 inputs movement information, and the close-up shot determination unit 53 receives at least color information (or audio information as necessary). The determination process is performed.

まず、爆発ショット判定部51における処理を、図2を参照して説明する。爆発ショット判定部51では、下記の(1)、(2)の少なくともいずれかを評価するとともに、爆発音に伴うオーディオ情報の特性を評価する。
(1)色情報を画素値データとしたときの、炎に該当する画素値を持つ画素数
(2)色情報を色ヒストグラムとしたときの、炎に該当する色範囲の頻度
First, processing in the explosion shot determination unit 51 will be described with reference to FIG. The explosion shot determination unit 51 evaluates at least one of the following (1) and (2), and also evaluates the characteristics of audio information accompanying explosion sound.
(1) Number of pixels with pixel values corresponding to flames when color information is pixel value data
(2) Frequency of color range corresponding to flame when color information is color histogram

具体的には、ステップS1で、爆発ショット判定部51にフレームFNが入力される。ステップS2では、爆発ショット判定部51に入力されたショット内の任意のフレームFNの色情報について、予め規定された炎に該当する色を持つ画素数P_flameを計数し、この値が予め定められた閾値THP_flameよりも大きい場合、もしくは予め規定された炎に該当する色範囲の頻度H_flameが予め定められた閾値THH_flameよりも大きい場合に、もしくは共に大きい場合にステップS3に進み、フレームFNに爆発が含まれると判定する。ステップS4では、このフレームを含むショットに爆発が含まれると判定する。   Specifically, the frame FN is input to the explosion shot determination unit 51 in step S1. In step S2, the number of pixels P_flame having a color corresponding to a predetermined flame is counted for the color information of an arbitrary frame FN in the shot input to the explosion shot determination unit 51, and this value is determined in advance. If it is larger than the threshold value THP_flame, or if the frequency H_flame of the color range corresponding to the predetermined flame is larger than the predetermined threshold value THH_flame, or both are larger, the process proceeds to step S3, and the frame FN includes an explosion. It is determined that In step S4, it is determined that the shot including this frame includes an explosion.

ここで、画像の特徴だけを用いた場合には例えば太陽の色などによる誤判定が生じる可能性があるため、前記の判定に対してさらにショット内のサブバンドエネルギーの重み付け平均SBEがある閾値THA_explosionよりも大きいという条件を追加することにより、精度を向上させることができる。さらに、急激な明るさの変化などによる誤判定にも対応するため、炎に該当する色を持つフレームが連続して出現すると同時に、その画素数が時間的に変動している場合に、これらのフレーム群を含むショットに爆発が含まれると判定することもできる。   Here, when only the image feature is used, for example, there is a possibility that an erroneous determination due to the color of the sun or the like may occur. The accuracy can be improved by adding the condition that it is larger than the above. Furthermore, in order to cope with misjudgment due to a sudden change in brightness, etc., when frames with colors that correspond to flames appear continuously and the number of pixels fluctuates over time, these It can also be determined that the shot including the frame group includes an explosion.

次に、チェイスショット判定部52における処理を、図3を参照して説明する。カーチェイスなどのチェイスショットでは、車や戦闘機などのオブジェクトが高速に動いているほか、そのオブジェクトを撮影するカメラも規則的な動きをすることが多い。従って、チェイスショットに含まれる動きは比較的大きく、それらの方向は均一的である。そこで、チェイスショット判定部52では、ショット内に含まれる動きの大きさと動きの方向を評価する。   Next, processing in the chase shot determination unit 52 will be described with reference to FIG. In a chase shot such as a car chase, an object such as a car or a fighter plane moves at high speed, and a camera that shoots the object often moves regularly. Therefore, the movements included in the chase shot are relatively large and their directions are uniform. Therefore, the chase shot determination unit 52 evaluates the magnitude and direction of movement included in the shot.

具体的には、ステップS11では、チェイスショット判定部52にショットSNが入力する。ステップS12では、チェイスショット判定部52に入力されたショットSNにおける動き情報について、動きベクトルから算出される動きの大きさのショット内平均MV_magと、動きの最頻方向の割合MV_dirがそれぞれある閾値THM_magとTHM_dirよりも大きいかどうか判断する。大きいと判断された場合に、ステップS13に進み、ショットSN内にチェイスが含まれると判定する。動き方向は任意数を選択することができ、例えば8方向などに設定できる。   Specifically, in step S <b> 11, the shot SN is input to the chase shot determination unit 52. In step S12, with respect to the motion information in the shot SN input to the chase shot determination unit 52, the threshold THM_mag having the in-shot average MV_mag of the magnitude of the motion calculated from the motion vector and the ratio MV_dir in the most frequent direction of motion, respectively. And whether it is greater than THM_dir. When it is determined that the size is larger, the process proceeds to step S13, and it is determined that the chase is included in the shot SN. Any number of movement directions can be selected, for example, eight directions can be set.

なお、通常チェイスショットは連続的に出現することが多いため、チェイスショット判定部52の後段にチェイスシーン判定部(図示されていない)を設けることができ、チェイスショットが連続して判定される場合に、チェイスシーンと判定する。このとき、隣接するチェイスショットの間には他のショット種別が挿入されることもあるため、完全に隣接している必要はなく、ある既定数のショット間隔だけ離れていてもよい。   Since normal chase shots often appear continuously, a chase scene determination unit (not shown) can be provided after the chase shot determination unit 52, and the chase shots are determined continuously. Then, the chase scene is determined. At this time, since another shot type may be inserted between adjacent chase shots, it is not necessary to be completely adjacent, and may be separated by a predetermined number of shot intervals.

さらに、クローズアップショット判定部53における処理を、図4を参照して説明する。クローズアップショット判定部53では、次の(3)、(4)の少なくともいずれかを評価する。
(3)色情報を画素値データとしたときの、顔に該当する肌色の画素値を持つ画素数
(4)色情報を色ヒストグラムとしたときの、顔に該当する肌色の色範囲の頻度
Further, the processing in the close-up shot determination unit 53 will be described with reference to FIG. The close-up shot determination unit 53 evaluates at least one of the following (3) and (4).
(3) Number of pixels with skin color pixel values corresponding to the face when color information is pixel value data
(4) Frequency of skin color range corresponding to face when color information is color histogram

具体的には、ステップS21で、クローズアップショット判定部53にフレームFNが入力する。ステップS22では、該クローズアップショット判定部53に入力されたショット内の任意のフレームFNにおける色情報について、予め規定された肌色に該当する色を持つ画素数P_skinを計数し、この値が予め定められた閾値THP_skinよりも大きい場合、もしくは予め規定された肌色に該当する色範囲の頻度H_skinが予め定められた閾値THH_skinよりも大きい場合に、もしくは共に大きい場合にステップS23に進み、フレームFNに顔のクローズアップが含まれると判定する。ステップS24では、このフレームを含むショットに顔のクローズアップが含まれると判定する。   Specifically, the frame FN is input to the close-up shot determination unit 53 in step S21. In step S22, for the color information in an arbitrary frame FN in the shot input to the close-up shot determination unit 53, the number of pixels P_skin having a color corresponding to a predetermined skin color is counted, and this value is determined in advance. If the threshold value THP_skin is greater than the predetermined threshold value TTH_skin, or if the frequency H_skin of the color range corresponding to the predefined skin color is greater than the predetermined threshold value THH_skin, or if both are larger, the process proceeds to step S23, Is determined to be included. In step S24, it is determined that a face close-up is included in a shot including this frame.

ここで、肌色の画素数だけを用いた場合に体のほかの部位などによる誤判定が生じる可能性があるため、前記の判定に対してさらに肌色画素の領域の形状を評価したり、顔テンプレートなどにより、画像中に顔が含まれるかどうかを高精度に判定することもできる。   Here, when only the number of skin color pixels is used, an erroneous determination may occur due to other parts of the body. Therefore, the shape of the skin color pixel region may be further evaluated for the above determination, or the face template Thus, it can be determined with high accuracy whether or not a face is included in the image.

図5に、クローズアップショット判定部53の他の処理例を示す。この処理フローのように、オーディオ解析部から得られたオーディオ種別を用いて、ショットSNにおいてオーディオ種別が「音声」である秒数またはフレーム数のショット内での割合ACLが予め定められた閾値THA_voiceよりも大きいという条件を付加することもできる。オーディオ種別ACLの取得手段としては、特開平10-247093で開示されている手段などを用いることができる。   FIG. 5 shows another processing example of the close-up shot determination unit 53. As in this processing flow, using the audio type obtained from the audio analysis unit, a ratio ACL within a shot of the number of seconds or frames in which the audio type is “voice” in the shot SN is a predetermined threshold THA_voice It is also possible to add a condition that it is larger than the above. As the audio type ACL acquisition means, means disclosed in Japanese Patent Laid-Open No. 10-247093 can be used.

具体的には、ステップS31でショットSNを入力し、顔のクローズアップを含む事を示すフラグFFを0に置く。ステップS32では、フレームFNを入力する。ステップS33とS34では、前記ステップS22とS23と同様の処理を行い、ステップS35では、フレームFNはショットSNの最終フレームであるか否かの判断がされる。なお、ステップS34では、前記フラグFFを1にする。ステップS35の判断が否定の時にはステップS36に進んで、FNを1インクリメントする。   Specifically, in step S31, a shot SN is input, and a flag FF indicating that a face close-up is included is set to 0. In step S32, the frame FN is input. In steps S33 and S34, the same processing as in steps S22 and S23 is performed. In step S35, it is determined whether or not the frame FN is the last frame of the shot SN. In step S34, the flag FF is set to 1. If the determination in step S35 is negative, the process proceeds to step S36 and FN is incremented by one.

ステップS32〜S36の処理が繰り返し行われ、ステップS35の判断が肯定になると、ステップS37に進んで、フラグFF=1でかつACL>THA_voiceであるか否かの判断がなされる。この判断が肯定であれば、ステップS38に進んで、前記ショットSNの種別が、顔を含むクローズアップであると判定される。   When the processes of steps S32 to S36 are repeatedly performed and the determination in step S35 is affirmative, the process proceeds to step S37 to determine whether or not the flag FF = 1 and ACL> THA_voice. If this determination is affirmative, the process proceeds to step S38, and it is determined that the type of the shot SN is a close-up including a face.

図6は本発明の第2の実施形態を示す図である。この実施形態では、爆発ショット判定部51とチェイスショット判定部52の前段にアクションショット判定部54を設け、さらにクローズアップショット判定部53の前段に会話ショット判定部55を設けたものである。なお、他の符号は図1と同一または同等物を示す。   FIG. 6 is a diagram showing a second embodiment of the present invention. In this embodiment, an action shot determination unit 54 is provided before the explosion shot determination unit 51 and the chase shot determination unit 52, and a conversation shot determination unit 55 is further provided before the close-up shot determination unit 53. Other reference numerals are the same as or equivalent to those in FIG.

爆発ショット、チェイスショットは「アクション」クラスの従属クラス、クローズアップショットは「会話」クラスの従属クラスとみなすことができる。従って、階層的なショット種別の分類を行うことができるほか、予め判定対象とするショットを主クラスに属するショットに絞り込むことにより、判定に要する処理量を低減することができる。   Explosion shots and chase shots can be regarded as subordinate classes of the “action” class, and close-up shots can be regarded as subordinate classes of the “conversation” class. Therefore, it is possible to classify hierarchical shot types, and it is possible to reduce the processing amount required for determination by narrowing down the shots to be determined to those belonging to the main class in advance.

アクションショット判定部54や会話ショット判定部55の処理については、前記特許文献1に示されている方法または手段を適用することができる。   For the processing of the action shot determination unit 54 and the conversation shot determination unit 55, the method or means disclosed in Patent Document 1 can be applied.

本発明の一実施形態の動画像データ分類装置の構成を示すブロック図である。It is a block diagram which shows the structure of the moving image data classification device of one Embodiment of this invention. 爆発ショット判定部の処理を示すフローチャートである。It is a flowchart which shows the process of an explosion shot determination part. チェイスショット判定部の処理を示すフローチャートである。It is a flowchart which shows the process of a chase shot determination part. クローズアップショット判定部の処理を示すフローチャートである。It is a flowchart which shows the process of a close-up shot determination part. クローズアップショット判定部の他の処理を示すフローチャートである。It is a flowchart which shows the other process of a close-up shot determination part. 本発明の他の実施形態の動画像データ分類装置の構成を示すブロック図である。It is a block diagram which shows the structure of the moving image data classification device of other embodiment of this invention.

符号の説明Explanation of symbols

1・・・ショット分割部、2・・・色情報解析部、3・・・動き情報解析部、4・・・オーディオ解析部、5・・・ショット分類部、6・・・ショット種別登録部、51・・・爆発ショット判定部、52・・・チェイスショット判定部、53・・・クローズアップショット判定部、54・・・アクションショット判定部、55・・・会話ショット判定部。   DESCRIPTION OF SYMBOLS 1 ... Shot division part, 2 ... Color information analysis part, 3 ... Motion information analysis part, 4 ... Audio analysis part, 5 ... Shot classification part, 6 ... Shot classification registration part , 51 ... Explosion shot determination unit, 52 ... Chase shot determination unit, 53 ... Close-up shot determination unit, 54 ... Action shot determination unit, 55 ... Conversation shot determination unit.

Claims (22)

非圧縮または圧縮された動画像データの分類装置において、 前記動画像データのショット分割を行うショット分割部と、
前記動画像データにおける色情報を解析する色情報解析部と動き情報を解析する動き情報解析部と、
前記動画像データに付随するオーディオデータを解析するオーディオ解析部と、
前記色情報解析部、動き情報解析部およびオーディオ解析部からの解析情報の少なくとも一つを用いて、動画像データにおける爆発を含むショットを判定する爆発ショット判定部、チェイスを含むショットを判定するチェイスショット判定部、および顔のクローズアップを含むクローズアップショット判定部の少なくとも一つを具備したことを特徴とする動画像データの分類装置。
In a classification apparatus for uncompressed or compressed moving image data, a shot dividing unit that performs shot division of the moving image data;
A color information analysis unit that analyzes color information in the moving image data, and a motion information analysis unit that analyzes motion information;
An audio analysis unit for analyzing audio data accompanying the moving image data;
An explosion shot determination unit that determines a shot including an explosion in moving image data using at least one of the analysis information from the color information analysis unit, the motion information analysis unit, and the audio analysis unit, and a chase that determines a shot including a chase An apparatus for classifying moving image data, comprising at least one of a shot determination unit and a close-up shot determination unit including a close-up of a face.
請求項1に記載の動画像データの分類装置において、
前記動画像データは離散コサイン変換を用いて圧縮符号化されたデータであり、
前記色情報は、前記動画像データの輝度成分および色差成分に関する直流成分のみから構成される画像上で解析することを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 1,
The moving image data is data that has been compression-encoded using discrete cosine transform,
The apparatus for classifying moving image data, wherein the color information is analyzed on an image composed only of a direct current component relating to a luminance component and a color difference component of the moving image data.
請求項1または2に記載の動画像データの分類装置において、
前記色情報は、画像内の画素データ、画像内の色ヒストグラム、および画像内の色配置情報の少なくとも一つであることを特徴とする動画像データの分類装置。
The apparatus for classifying moving image data according to claim 1 or 2,
The apparatus for classifying moving image data, wherein the color information is at least one of pixel data in an image, a color histogram in the image, and color arrangement information in the image.
請求項1に記載の動画像データの分類装置において、
前記爆発ショット判定部は、画像内の色情報と、オーディオデータのレベルとの少なくとも一つにより判定することを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 1,
The apparatus for classifying moving image data, wherein the explosion shot determination unit determines based on at least one of color information in an image and a level of audio data.
請求項4に記載の動画像データの分類装置において、
前記爆発ショット判定部は、前記画像内の色情報として画像内の画素データを用い、炎に該当する色を持つ画素数を計数して、爆発を判定することを特徴とする動画像データの分類装置。
The apparatus for classifying moving image data according to claim 4.
The explosion shot determination unit uses pixel data in an image as color information in the image, counts the number of pixels having a color corresponding to a flame, and determines explosion, moving image data classification apparatus.
請求項4に記載の動画像データの分類装置において、
前記爆発ショット判定部は、前記画像内の色情報として、画像内の色ヒストグラムを用い、炎に該当する色範囲の頻度を測定して、爆発を判定することを特徴とする動画像データの分類装置。
The apparatus for classifying moving image data according to claim 4.
The explosion shot determination unit uses a color histogram in an image as color information in the image, measures frequency of a color range corresponding to a flame, and determines explosion, moving image data classification apparatus.
請求項1に記載の動画像データの分類装置において、
前記オーディオ解析部は、前記ショット内におけるサブバンドエネルギーの重み付け平均を用いて判定することを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 1,
The apparatus for classifying moving image data, wherein the audio analysis unit performs determination using a weighted average of subband energy in the shot.
請求項1または4ないし7のいずれかに記載の動画像データの分類装置において、
前記爆発ショット判定部は、ショット内の任意のフレームにおいて、前記炎に該当する画素数または色範囲の頻度と、前記サブバンドエネルギーの重み付け平均がそれぞれある規定値よりも大きい場合に、該フレームを爆発を含むフレームと見なし、該フレームを含むショットを爆発を含むショットと判定することを特徴とする動画像データの分類装置。
The moving image data classification device according to any one of claims 1 and 4 to 7,
The explosive shot determination unit, in an arbitrary frame in the shot, if the number of pixels corresponding to the flame or the frequency of the color range and the weighted average of the subband energy are larger than a predetermined value, respectively, An apparatus for classifying moving image data, characterized by regarding a frame including an explosion and determining a shot including the frame as a shot including an explosion.
請求項8に記載の動画像データの分類装置において、
前記爆発ショット判定部は、さらに爆発を含むと見なされたフレームが連続して出現し、かつその画素数または色範囲の頻度が時間的に変動している場合に、該フレーム群を爆発を含むフレーム群と見なし、該フレーム群を含むショットを爆発を含むショットと判定することを特徴とする動画像データの分類装置。
The apparatus for classifying moving image data according to claim 8.
The explosion shot determination unit further includes an explosion in the frame group when frames considered to contain an explosion appear continuously and the frequency of the number of pixels or the color range fluctuates with time. An apparatus for classifying moving image data, characterized by regarding a group of frames and determining a shot including the group of frames as a shot including an explosion.
請求項1に記載の動画像データの分類装置において、
前記動画像データの動き情報とオーディオデータからアクションを含むショットを判定するアクションショット判定部をさらに具備し、該アクションから前記爆発を含むショットを判定し、階層的なショット種別の分類を行うことを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 1,
An action shot determination unit for determining a shot including an action from the motion information of the moving image data and the audio data; determining a shot including the explosion based on the action; and performing hierarchical shot type classification. An apparatus for classifying moving image data as a feature.
請求項1に記載の動画像データの分類装置において、
前記チェイスショット判定部は、ショット内の動き情報を解析する手段から少なくとも構成されることを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 1,
The moving image data classification device, wherein the chase shot determining unit includes at least means for analyzing motion information in a shot.
請求項11に記載の動画像データの分類装置において、
前記動き情報は、ショット内における動きの最頻方向および動きの大きさのショット平均の少なくとも一つであることを特徴とする動画像データの分類装置。
The apparatus for classifying moving image data according to claim 11,
The apparatus for classifying moving image data, wherein the movement information is at least one of a shot average of a mode of movement and a magnitude of movement in a shot.
請求項12に記載の動画像データの分類装置において、
前記動画像データは予測符号化を用いて圧縮符号化されたデータであり、前記ショット内における動きの最頻方向および動きの大きさのショット平均は、ショット内における順方向動き予測画像と双方向動き予測画像の少なくとも一つにおける動き情報から算出されることを特徴とする動画像データの分類装置。
In the moving image data classification device according to claim 12,
The moving image data is data that has been compression-encoded using predictive encoding, and a shot average of the mode of motion and the magnitude of the motion in the shot is bidirectional with the forward motion predicted image in the shot. An apparatus for classifying moving image data, wherein the apparatus is calculated from motion information in at least one of the motion predicted images.
請求項1または11ないし13のいずれかに記載の動画像データの分類装置において、
前記チェイスショット判定部は、ショット内における動きの最頻方向の割合および動きの大きさのショット平均がそれぞれある規定値よりも大きい場合に、該ショットをチェイスを含むショットと判定することを特徴とする動画像データの分類装置。
The moving image data classification device according to any one of claims 1 and 11 to 13,
The chase shot determining unit determines that the shot is a shot including a chase when the ratio of the mode of movement in the shot and the shot average of the magnitude of the movement are each greater than a predetermined value. Classification device for moving image data.
請求項11ないし14のいずれかに記載の動画像データの分類装置において、
前記チェイスショット判定部によりチェイスを含むと判定されたショットを複数集約してチェイスシーンを判定することを特徴とする動画像データの分類装置。
The moving image data classification device according to any one of claims 11 to 14,
An apparatus for classifying moving image data, wherein a chase scene is determined by aggregating a plurality of shots determined to include a chase by the chase shot determining unit.
請求項1に記載の動画像データの分類装置において、
前記動画像データの動き情報とオーディオデータからアクションを含むショットを判定するアクションショット判定部をさらに具備し、該アクションからさらに前記チェイスを含むショットを判定し、階層的なショット種別の分類を行うことを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 1,
An action shot determination unit for determining a shot including an action from the motion information and audio data of the moving image data, further determining a shot including the chase from the action, and performing hierarchical shot type classification; An apparatus for classifying moving image data.
請求項1に記載の動画像データの分類装置において、
前記クローズアップショット判定部は、画面内の色情報から少なくとも判定されることを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 1,
The apparatus for classifying moving image data, wherein the close-up shot determination unit is determined at least from color information in a screen.
請求項17に記載の動画像データの分類装置において、
前記クローズアップショット判定部は、前記色情報として画像内の画素データを用い、肌色に該当する色を持つ画素数を計数することを特徴とする動画像データの分類装置。
The apparatus for classifying moving image data according to claim 17,
The apparatus for classifying moving image data, wherein the close-up shot determination unit uses pixel data in an image as the color information and counts the number of pixels having a color corresponding to a skin color.
請求項17に記載の動画像データの分類装置において、
前記クローズアップ判定部は、前記色情報として画像内の色ヒストグラムを用い、肌色に該当する色範囲の頻度を測定することを特徴とする動画像データの分類装置。
The apparatus for classifying moving image data according to claim 17,
The close-up determination unit uses a color histogram in an image as the color information, and measures the frequency of a color range corresponding to skin color, and classifies moving image data.
請求項18または19に記載の動画像データの分類装置において、
前記クローズアップ判定部は、ショット内の任意のフレームにおいて、前記肌色に該当する画素数または色範囲の頻度の少なくともいずれかがある規定値よりも大きい場合に、該フレームをクローズアップを含むフレームと見なし、該フレームを含むショットをクローズアップを含むショットと判定することを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 18 or 19,
The close-up determination unit, in an arbitrary frame in a shot, if at least one of the number of pixels corresponding to the flesh color and / or the frequency of the color range is greater than a specified value, An apparatus for classifying moving image data, characterized in that a shot including the frame is determined as a shot including a close-up.
請求項17ないし20のいずれかに記載の動画像データの分類装置において、
前記クローズアップ判定部は、さらにオーディオ情報としてオーディオ種別を用い、ショット内のオーディオ種別が音声である割合がある規定値よりも大きい場合に、該ショットをクローズアップショットと判定することを特徴とする動画像データの分類装置。
The moving image data classification device according to any one of claims 17 to 20,
The close-up determination unit further uses an audio type as the audio information, and determines that the shot is a close-up shot when the ratio of the audio type in the shot is greater than a predetermined value. A classification device for moving image data.
請求項1に記載の動画像データの分類装置において、
前記動画像データから会話を含むショットを判定する会話ショット判定部をさらに具備し、該会話ショット判定部から得られた会話ショットからクローズアップを含むショットを判定し、クローズアップを含む会話ショットを判定することを特徴とする動画像データの分類装置。
The moving image data classification device according to claim 1,
A conversation shot determining unit that determines a shot including a conversation from the moving image data is further provided, a shot including a close-up is determined from a conversation shot obtained from the conversation shot determining unit, and a conversation shot including a close-up is determined. An apparatus for classifying moving image data.
JP2005094491A 2005-03-29 2005-03-29 Moving image data classification device Expired - Fee Related JP4730813B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005094491A JP4730813B2 (en) 2005-03-29 2005-03-29 Moving image data classification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005094491A JP4730813B2 (en) 2005-03-29 2005-03-29 Moving image data classification device

Publications (2)

Publication Number Publication Date
JP2006277232A true JP2006277232A (en) 2006-10-12
JP4730813B2 JP4730813B2 (en) 2011-07-20

Family

ID=37211945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005094491A Expired - Fee Related JP4730813B2 (en) 2005-03-29 2005-03-29 Moving image data classification device

Country Status (1)

Country Link
JP (1) JP4730813B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186343A (en) * 2009-02-12 2010-08-26 Kddi Corp Content identification method and device
WO2021171900A1 (en) 2020-02-27 2021-09-02 パナソニックIpマネジメント株式会社 Estimation device, estimation method, and estimation system
WO2022190446A1 (en) 2021-03-11 2022-09-15 パナソニックIpマネジメント株式会社 Control device, control method, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343900A (en) * 2000-05-31 2001-12-14 Matsushita Electric Ind Co Ltd Illumination system and illumination control data preparing method
JP2004128550A (en) * 2002-09-30 2004-04-22 Kddi R & D Laboratories Inc Scene classification apparatus for moving picture data
JP2004260734A (en) * 2003-02-27 2004-09-16 Kddi R & D Laboratories Inc Classification apparatus for moving image data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343900A (en) * 2000-05-31 2001-12-14 Matsushita Electric Ind Co Ltd Illumination system and illumination control data preparing method
JP2004128550A (en) * 2002-09-30 2004-04-22 Kddi R & D Laboratories Inc Scene classification apparatus for moving picture data
JP2004260734A (en) * 2003-02-27 2004-09-16 Kddi R & D Laboratories Inc Classification apparatus for moving image data

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186343A (en) * 2009-02-12 2010-08-26 Kddi Corp Content identification method and device
WO2021171900A1 (en) 2020-02-27 2021-09-02 パナソニックIpマネジメント株式会社 Estimation device, estimation method, and estimation system
WO2022190446A1 (en) 2021-03-11 2022-09-15 パナソニックIpマネジメント株式会社 Control device, control method, and program

Also Published As

Publication number Publication date
JP4730813B2 (en) 2011-07-20

Similar Documents

Publication Publication Date Title
US10062412B2 (en) Hierarchical segmentation and quality measurement for video editing
JP4426966B2 (en) Scalable video summarization and navigation system and method
AU2012211249B2 (en) Encoding of video stream based on scene type
US10452713B2 (en) Video analysis techniques for improved editing, navigation, and summarization
EP1986128B1 (en) Image processing apparatus, imaging apparatus, image processing method, and computer program
JP4725690B2 (en) Video identifier extraction device
US20090022472A1 (en) Method and Apparatus for Video Digest Generation
KR100687732B1 (en) Method for filtering malicious video using content-based multi-modal features and apparatus thereof
JP3569800B2 (en) Image processing apparatus and image processing method
CN104994426B (en) Program video identification method and system
ITVI20120104A1 (en) METHOD AND APPARATUS TO GENERATE A VISUAL STORYBOARD IN REAL TIME
KR101435778B1 (en) Method for classifying objectionable movies using visual features based on video and multi-level statistical combination and apparatus for the same
JP2010503006A5 (en)
JP4730813B2 (en) Moving image data classification device
JP5096259B2 (en) Summary content generation apparatus and summary content generation program
JP5644505B2 (en) Collation weight information extraction device
JP2003061038A (en) Video contents edit aid device and video contents video aid method
JP4240098B2 (en) Image processing apparatus and image processing method
JP4979029B2 (en) Scene segmentation apparatus for moving image data
JP4349574B2 (en) Scene segmentation apparatus for moving image data
JP2004248312A (en) Image processing apparatus and image processing method
JP2004260734A (en) Classification apparatus for moving image data
WO2018042959A1 (en) Video data analysis device and video data analysis method
KR101747705B1 (en) graphic shot detection method and apparatus in documentary video
Liu et al. Camera motion classification based on SVM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110414

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees