JP2010015588A - Apparatus for classifying dynamic image data - Google Patents
Apparatus for classifying dynamic image data Download PDFInfo
- Publication number
- JP2010015588A JP2010015588A JP2009196734A JP2009196734A JP2010015588A JP 2010015588 A JP2010015588 A JP 2010015588A JP 2009196734 A JP2009196734 A JP 2009196734A JP 2009196734 A JP2009196734 A JP 2009196734A JP 2010015588 A JP2010015588 A JP 2010015588A
- Authority
- JP
- Japan
- Prior art keywords
- shot
- image data
- moving image
- similar
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、動画像データの分類装置に関し、特に、非圧縮または圧縮された動画像データを、予め定義されたクラスに分類することにより、動画像データの効率的な検索、分類あるいは閲覧を提供することが可能な動画像データの分類装置に関する。 The present invention relates to a moving image data classification device, and in particular, provides efficient search, classification or browsing of moving image data by classifying uncompressed or compressed moving image data into a predefined class. The present invention relates to an apparatus for classifying moving image data.
動画像データのシーン分類に関する従来技術としては、例えばテレビ放送の動画像データを入力として、それをニュース、スポーツ、コマーシャルなど、比較的大きい単位で分類を行う方式が検討されている。また、いくつかの関連する動画区間を論理的ストーリー単位(Logical Story Unit)に分割する方式も検討されている。ここでは、動画像データとしての特徴のほかに、動画像データに付随するオーディオデータの特徴を用いるものも提案されている。 As a conventional technique related to scene classification of moving image data, for example, a method is considered in which moving image data of a television broadcast is input and classified into relatively large units such as news, sports, and commercials. In addition, a method of dividing several related video sections into logical story units is also being studied. Here, in addition to the characteristics as moving image data, there has been proposed one that uses the characteristics of audio data associated with moving image data.
また、要約情報としてのハイライトシーンの検出については、圧縮動画像データの圧縮領域において、それに付随するオーディオの特性を用いて、スポーツ映像などのハイライトシーンを抽出する技術が提案されている。 For the detection of highlight scenes as summary information, a technique has been proposed in which highlight scenes such as sports videos are extracted using compressed audio characteristics in a compressed area of compressed moving image data.
さらに、本出願人による特願2002−285667号では、ショット単位の分類技術として、動的/静的シーンへの分類や、スローシーン、パンやズームなどのカメラ操作といった比較的抽象レベルの低いシーンから、スポーツ映像のハイライトシーンといった比較的抽象レベルの高いシーンへの分類方式が提案されている。 Furthermore, in Japanese Patent Application No. 2002-285667 by the present applicant, scenes with a relatively low abstract level such as classification into dynamic / static scenes, slow scenes, camera operations such as panning and zooming, etc. Therefore, a method for classifying a scene with a relatively high level of abstraction such as a highlight scene of a sports video has been proposed.
従来技術は主に非圧縮データ領域で動画像データやそれに付随するオーディオデータの解析を行うものが多く、圧縮された動画像データについては一度復号処理を行う必要があったり、処理コストが多くかかったりすることが問題であった。また、分類の単位についても、番組ごとや論理的ストーリー単位など、比較的大きい単位での分類が主流であるため、より詳細な単位での分類技術については例えば特願2002−285667で示された技術などが必要である。 詳細な単位での分類は、例えば動画像データにおける特定シーンの閲覧や、動画像データベースにおける分類などには重要かつ効果的である。特願2002−285667で示された技術では、動的/静的なシーンやカメラ操作の抽出など、意味的に低いレベルでのシーン分類が主流であるため、より抽象レベルの高いシーン閲覧やコンテンツフィルタリングには対応できないという問題があった。例えば、映画コンテンツから暴力的なシーンを除外するといったフィルタリングはできないという問題があった。 Many of the prior arts mainly analyze moving image data and accompanying audio data in the uncompressed data area, and it is necessary to perform decoding processing once on the compressed moving image data, resulting in a high processing cost. Was a problem. As for the unit of classification, classification in a relatively large unit such as each program or logical story unit is mainstream, and therefore, a more detailed classification technique is disclosed in, for example, Japanese Patent Application No. 2002-285667. Technology is required. Classification in detailed units is important and effective for browsing a specific scene in moving image data, classification in a moving image database, and the like. In the technique shown in Japanese Patent Application No. 2002-285667, scene classification at a lower level, such as dynamic / static scenes and camera operation extraction, is the mainstream. There was a problem that filtering could not be supported. For example, there is a problem that filtering such as excluding violent scenes from movie content cannot be performed.
本発明は前記した従来技術に鑑みてなされたものであり、その目的は、非圧縮または圧縮された動画像データを、動画像としての特徴や、必要に応じて動画像に付随するオーディオの特徴を用いて、低コストかつ高精度で様々なクラス(ショットクラス)へ分類する、動画像データの分類装置を提供することにある。 The present invention has been made in view of the above-described prior art, and an object of the present invention is to convert uncompressed or compressed moving image data as a moving image, and, as necessary, audio characteristics associated with the moving image. It is an object to provide a moving image data classification device that classifies various classes (shot classes) with low cost and high accuracy.
前記の目的を達成するために、本発明は、非圧縮または圧縮された動画像データの分類装置において、動画像データを時間軸上でショット単位に分割する動画像データ分割手段と、該ショット単位内の画像から得られるMPEG−7で定義された色配置記述子などの画像特徴値を抽出する特徴値抽出手段と、該画像特徴値を用いて最も出現頻度の高い類似ショット単位を検出する類似単位検出手段を具備し、前記類似単位検出手段は、ショット先頭またはショット内代表のフレームにおいて、前記特徴値の複数の係数をヒストグラム化し、要素数が最も多くなったビンを順次絞り込んでいくことにより最頻の類似ショットを検出する点に特徴がある。 To achieve the above object, the present invention provides an apparatus for classifying uncompressed or compressed moving image data, moving image data dividing means for dividing moving image data into shot units on a time axis, and the shot units. A feature value extracting means for extracting an image feature value such as a color arrangement descriptor defined in MPEG-7 obtained from an image in the image, and a similarity for detecting a similar shot unit having the highest appearance frequency using the image feature value The similar unit detection means comprises a histogram of a plurality of coefficients of the feature value in a shot head or a representative frame in a shot, and sequentially narrows down bins having the largest number of elements. It is characterized in that the most similar shots are detected.
この特徴によれば、非圧縮または圧縮された動画像データにおいて、最頻の類似ショットを効率よく検出することができるようになる。また、本発明を適用することによって、テレビスポーツ映像から、ハイライトシーンを高精度に検出することができ、またテレビニュース映像からアナウンサーショットを高精度で検出することができるようになる。 According to this feature, the most frequent similar shots can be efficiently detected in uncompressed or compressed moving image data. Further, by applying the present invention, a highlight scene can be detected with high accuracy from a television sports video, and an announcer shot can be detected with high accuracy from a television news video.
以上の説明から明らかなように、請求項1〜7の発明によれば、非圧縮または圧縮された動画像データにおいて、そのショットを様々な種別に分類することによって、動画像データの中から所望のシーンを検索・閲覧したり、多数の動画像データを効果的に分類したりすることが可能になる。 As is apparent from the above description, according to the first to seventh aspects of the present invention, in the uncompressed or compressed moving image data, the shots are classified into various types to obtain desired ones from the moving image data. It is possible to search / browse scenes and effectively classify a large number of moving image data.
特に、請求項1、2の発明によれば、非圧縮または圧縮された動画像データにおいて、最頻の類似ショットを効率よく検出することができる。 In particular, according to the first and second aspects of the present invention, the most frequent similar shot can be efficiently detected in uncompressed or compressed moving image data.
また、請求項3〜5の発明によれば、テレビスポーツ映像から、ハイライトシーンを高精度に検出することができ、また請求項6、7の発明によれば、テレビニュース映像からアナウンサーショットを高精度で検出することができるようになる。
According to the inventions of
以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図1を参照して説明する。図1は、動画像データの分類装置の要部の構成を示すブロック図である。ここでは、入力された動画像データをショット分割部1でショット単位に分割する例を用いて説明するが、分割の単位は動画像を撮像する際のカメラ操作あるいは撮像された動画像の内容に関して、一貫性のある単位であれば任意である。例えば、カメラのスタートボタンが押されてから停止ボタンが押されるまで(この間に例えばズーム操作などがなされてもよい)の動画像を1分割単位と考えることができる。
Hereinafter, the present invention will be described in detail with reference to the drawings. First, an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram illustrating a configuration of a main part of a moving image data classification device. Here, the input moving image data will be described using an example in which the
まず、非圧縮または圧縮された動画像データおよびこれに付随するオーディオデータまたはこれと多重化されているオーディオデータが入力されると、ショット分割部1において動画像データはショットに分割される。ショット分割部1においては、入力された動画像データの各ショットのショット長Lsを保持しておく。ショット分割部で分割された各ショットの動画像データは、動き情報解析部2に渡される。
First, when uncompressed or compressed moving image data and accompanying audio data or audio data multiplexed therewith are input, the
またこれと並行して、動画像データに付随するオーディオデータまたは動画像データと多重化されているオーディオデータを逆多重化して得られるオーディオデータが、オーディオ解析部3に渡される。
In parallel with this, audio data obtained by demultiplexing audio data accompanying the moving image data or audio data multiplexed with the moving image data is passed to the
動き情報解析部2においては、圧縮された動画像データに対して、ショット内に存在する予測符号化画像が持つ動きベクトルの値を用いて、ショットにおける動き強度の値Isを計算する。動き強度Isについては、MPEG-7で定義されている「動きアクティビティ記述子」の要素である「動き強度(Motion Intensity)」などを用いることができる。「動きアクティビティ記述子」の「動き強度」要素は、1から5までの整数で表現される(1が最低、5が最高)。
The motion
一方、非圧縮の動画像データに対しては、ブロックマッチング法などを用いて前画面からの動きを推定し、得られた値を動きベクトルとして表現し、上記と同様に動き強度Isの値を計算する。このとき、ショットとしての動き強度Isは、対象とした予測符号化画像における動き強度Ipの値をショット内で平均したものや、それらの最大値、中間値などを用いることができる。また、動き情報解析の対象とする予測符号化画像および動きベクトルとしては、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。 On the other hand, for uncompressed video data, the motion from the previous screen is estimated using a block matching method, etc., and the obtained value is expressed as a motion vector. calculate. At this time, as the motion intensity Is as a shot, a value obtained by averaging the values of the motion intensity Ip in the target predictive encoded image within the shot, or a maximum value or an intermediate value thereof can be used. In addition, as a prediction encoded image and a motion vector to be subjected to motion information analysis, a forward prediction encoded image, a bidirectional predictive encoded image, and a forward motion vector and a backward motion vector in a bidirectional predictive encoded image Any combination of these can be used.
オーディオ解析部3は、基本的にはオーディオパワー計算部31を含むが、オーディオ種別解析部32を含むこともできる。オーディオパワー計算部31においては、入力されたショット内のオーディオデータのオーディオ信号のパワーPsあるいは帯域ごとのオーディオパワーPsbを計算する。帯域ごとのオーディオパワーPsbを計算する場合は、任意の帯域幅を選択することができるほか、帯域ごとに重み付けを行うこともでき、これらの総和をショット内のオーディオパワーPsとする。従って、Psは以下のように表される。
The
ここで、lsbはオーディオパワーを計算する最低帯域の帯域番号、hsbは最高帯域の帯域番号、w[i]は帯域iにおけるオーディオパワーPsb[i]に対する重み付けである。 Here, lsb is a band number of the lowest band for calculating the audio power, hsb is a band number of the highest band, and w [i] is a weight for the audio power Psb [i] in the band i.
さらに、オーディオ種別解析部32が利用できる場合には、例えば入力されたショット内のオーディオデータが「無音」、「音声」、「音楽」、「歓声」などのオーディオ種別に分類される。オーディオ種別解析部32の処理としては、特開平10−247093号公報に述べられた方法などを用いることができる。単位時間辺りでこのオーディオ種別が決定される場合には、ショット内の最頻のクラスをショットの代表オーディオ種別Csと見なす。
Further, when the audio
ここで、本発明における分類装置で扱うショットクラスについて定義する。
「アクション」クラス…映画などで、銃撃や爆発など、オーディオの音量および動きなどが大きく、ショット長も短いショット、
「ドラマチック」クラス…映画などで、「アクション」クラスに先立つことが多く、何らかの重要なイベントが起こるまたは起ころうとしているショット、
「会話」クラス…映画などで、二人以上の登場人物が会話を交わしているショット、
「ハイライト」クラス…テレビスポーツ映像において、得点シーンなどの重要なイベントを含むショット、
「アナウンサー」クラス…テレビニュース映像において、アナウンサーがニュースを読み上げているショット、
Here, a shot class handled by the classification device according to the present invention is defined.
“Action” class… In movies, shots and explosions, such as high audio volume and movement, short shot length,
"Dramatic" class ... Such as a movie, often precedes an "action" class, and some important events happen or are going to happen,
"Conversation" class ... A shot of two or more characters in a movie, etc.
“Highlight” class… In TV sports video, shots including important events such as scoring scenes,
"Announcer" class ... In the TV news video, the shot of the announcer reading the news,
アクションクラス判別部4、ドラマチッククラス判別部5においては、ショット分割部1から入力されるショット長Ls、動き情報解析部から得られるショット内動き強度Is、及びショット内オーディオパワーPsを入力とする。また、会話クラス判別部6においては、さらにショット内の代表オーディオ種別Csを入力とする。
In the action
次に、図1に示した、アクションクラス判別部4,ドラマチッククラス判別部5,および会話クラス判別部6の機能を詳細に説明する。
Next, functions of the action
アクションクラス判別部4での判定処理は、図2に示されているように行われる。ステップS1では、ショット長Lsがある閾値THL1(例えば2秒など)よりも小さく(Ls<THL1)、ショット内動き強度Isがある閾値THI1(例えば2.3など)よりも大きく(Is>THI1)、さらにショット内オーディオパワーPsがある閾値THP1よりも大きい場合に(Ps>THP1)、該当するショットが「アクション」クラスであると判定する。そして、ステップS2において、ショットクラスとして「アクション」を付与する。
The determination process in the action
ドラマチッククラス判別部5での判定処理は、図3に示されているように行われる。ステップS3では、ショット長Lsが前記閾値THL1よりも大きく(Ls>THL1)、かつ別の閾値THL2(例えば5秒)よりも小さく(Ls<THL2)、ショット内動き強度Isが前記閾値THI1よりも小さく(Is<THI1)、且つ別の閾値THI2(例えば1.2など)よりも大きく(Is>THI2)、さらにショット内オーディオパワーPsがある閾値THP2よりも大きい場合に(Ps>THP2)、該当するショットが「ドラマチック」クラスであると判定する。そして、ステップS4において、ショットクラスとして「ドラマチック」を付与する。
The determination process in the dramatic
会話クラス判別部6での判定処理は、図4に示されているように行われる。ステップS5では、ショット長Lsがある閾値THL3(THL3>THL2、例えば6秒など)よりも大きく(Ls>THL3)、ショット内動き強度Isがある閾値THI3(好ましくはTHI3≧THI2、例えば1.5など、なお場合によっては、THI3<THI2であってもよい)よりも小さく(Is<THI3)、ショット内オーディオパワーPsがある閾値THP3(THP3<THP2)よりも小さく(Ps<THP3)、さらにショット内代表オーディオ種別Csが「音声」である場合該当するショットが「会話」クラスであると判定する。そしてステップS6において、ショットクラスとして「会話」を付与する。
The determination process in the conversation
上記アクションクラス判別部4、ドラマチッククラス判別部5、および会話クラス判別部6においていずれのショットクラスにも属さないと判定されたショットは、「汎用」クラスであると判定し、ショットクラスとして「汎用」を付与する。
Shots that are determined not to belong to any shot class in the action
なお、前記実施形態では、前記アクションクラス判別部4、ドラマチッククラス判別部5、および会話クラス判別部6は、分割区間長LS、動き情報IS、およびオーディオデータPSを用いて各クラスを判別したが、本発明はこれに限定されず、上記のうちの少なくとも一つを用いて判別するようにしてもよい。
In the above embodiment, the action
次に、本発明の第2実施形態を、図5を参照して説明する。図5において、図1と同一または同等物には同じ符号が付されている。この実施形態では、ショット分割部1でショット分割された動画像データは、特徴値抽出部11に送られ、ショットの画像特徴値が抽出される。次いで、最頻ショット検出部12は、該画像特徴値を基に最頻ショットを検出する。
Next, a second embodiment of the present invention will be described with reference to FIG. In FIG. 5, the same or equivalent parts as in FIG. In this embodiment, the moving image data shot-divided by the
前記画像特徴値としては、例えばショット分割部でショット分割点と判定された画像、すなわちショット先頭画面の画像データそのものを保持したり、その画像の縮小画像の画像データや、その画像から得られる、MPEG-7で定義された「色配置記述子(Color Layout Descriptor)」などを用いることができる。また、対象とする画像についても、前記ショット先頭画面だけでなく、ショットの中心画面や、ショットを代表する画面(キーフレーム)などを用いることができる。 As the image feature value, for example, an image determined as a shot division point by a shot division unit, that is, image data itself of a shot start screen is held, image data of a reduced image of the image, or obtained from the image, The “Color Layout Descriptor” defined in MPEG-7 can be used. Further, not only the shot head screen but also a shot center screen, a screen representing a shot (key frame), or the like can be used for the target image.
ここでは、色配置記述子を用いた例について述べる。色配置記述子は、原画像を縮小した画像(8×8画素)の輝度成分、色差成分に8×8のDCTを施したものであり、各成分のDCT係数を値として持つ。 Here, an example using a color arrangement descriptor will be described. The color arrangement descriptor is obtained by applying 8 × 8 DCT to the luminance component and the color difference component of an image (8 × 8 pixels) obtained by reducing the original image, and has the DCT coefficient of each component as a value.
最頻ショット検出部12の動作(最頻ショット検出処理1)を、図6のフローチャートを参照して説明する。ここに、最頻ショットとは、データ内に最も頻度が高く出現する類似ショットSfを意味する。まず、図7に示されているような入力動画像データ21を一旦全て読み込み、ステップS11で各ショット(1,2,3,・・・,n)の先頭画面から画像特徴値、例えば色配置記述子(a1,a2,a3,・・・,an)を抽出する。ステップS12では、ある置き数m=1とし、ステップS13で該色配置記述子の第m係数、例えば原画像を縮小した画像の輝度成分に8×8のDCTを施したものの第m係数でヒストグラムを作成する。図7の例では、まず第1係数(m=1)Y1(1),Y1(2),Y1(3),・・・,Y1(n)でヒストグラムを作成する。 The operation of the mode shot detector 12 (mode shot detection process 1) will be described with reference to the flowchart of FIG. Here, the most frequent shot means a similar shot Sf that appears most frequently in the data. First, all the input moving image data 21 as shown in FIG. 7 is read once, and in step S11, image feature values, for example, color arrangement, are displayed from the top screen of each shot (1, 2, 3,..., N). Descriptors (a1, a2, a3,..., An) are extracted. In step S12, a certain number m is set to 1, and in step S13, the mth coefficient of the color arrangement descriptor, for example, the histogram of the mth coefficient of the luminance component of the image obtained by reducing the original image and 8 × 8 DCT. Create In the example of FIG. 7, first, a histogram is created with the first coefficients (m = 1) Y 1 (1), Y 1 (2), Y 1 (3),..., Y 1 (n).
ステップS14では、ある置き数n=2とし、ステップS15で第1最頻ビンの要素数と、第2最頻ビン(n=2)の要素数の差は予め定めた基準より小であるか否かの判断が行われる。例えば(第1の最頻ビンの要素数)×0.85<(第2の最頻ビンの要素数)を満たすか否かの判断をする。ここに、前記第1最頻ビンの要素数は、データ内に最も頻度が高く出現する類似ショットを意味する。したがって、ステップS15では、出現頻度の最も大きいショットと次に出現頻度の大きいショットとの差が小さいか否かの判断がなされる。 In step S14, a certain number n = 2, and in step S15, is the difference between the number of elements of the first mode bin and the number of elements of the second mode bin (n = 2) smaller than a predetermined criterion? A determination is made whether or not. For example, it is determined whether or not (number of elements of the first mode bin) × 0.85 <(number of elements of the second mode bin) is satisfied. Here, the number of elements of the first mode bin means a similar shot that appears most frequently in the data. Therefore, in step S15, it is determined whether or not the difference between the shot with the highest appearance frequency and the shot with the next highest appearance frequency is small.
この判断が肯定であれば、ステップS16に進みnが1インクリメントされて、ステップS15で第1最頻ビンの要素数と、第(n+1)最頻ビンの要素数の差は予め定めた基準より小であるか否かの判断が行われる。この判断が肯定になると、第(n+1)最頻ビンも出現頻度の大きいショットになる。 If this determination is affirmative, the process proceeds to step S16, where n is incremented by 1, and in step S15, the difference between the number of elements of the first mode bin and the number of elements of the (n + 1) mode bin is based on a predetermined criterion. A determination is made as to whether it is small. If this determination is affirmative, the (n + 1) most frequent bin also becomes a shot with a high appearance frequency.
上記の処理が行われ、ステップS15の判断が否定になると、ステップS17に進んで、第1〜(n−1)最頻ビンを最頻ショットに採用する。以上により、第1係数による最頻ショットの絞り込みが終了する。次に、ステップS18では、mを1インクリメントする。ステップS19では、第1〜(n−1)最頻ビンは収束したか否かの判断がなされる。すなわち、データ内に最も頻度が高く出現する類似ショットが十分に絞れたか否かの判断がなされる。 When the above process is performed and the determination in step S15 is negative, the process proceeds to step S17, and the first to (n-1) mode bins are adopted for the mode shot. Thus, the narrowing down of the most frequent shots by the first coefficient is completed. Next, in step S18, m is incremented by one. In step S19, it is determined whether or not the first to (n-1) most frequent bins have converged. That is, it is determined whether similar shots that appear most frequently in the data are sufficiently narrowed down.
収束していない場合にはステップS13に戻って、前記第1〜(n−1)最頻ビンのショットの第(m+1)係数でのヒストグラム作成を行い、続いて前記したのと同様の処理を行い、類似ショットを絞る処理をする。この処理により、第2係数Y2による最頻ショットの絞り込みが行われる。以下、同様の処理を行い、第3係数Y3等の絞り込みを行い、類似ショットが十分に絞れたと判断される(ステップS19の判断が肯定)と、最頻ショット検出処理は終了する。 If not converged, the process returns to step S13 to create a histogram with the (m + 1) th coefficient of the shots of the first to (n-1) most frequent bins, and then perform the same processing as described above. And perform processing to narrow down similar shots. This process, narrowing of the most frequent shots is performed by the second coefficient Y 2. Hereinafter, the same process is performed a third coefficient Y 3 such options in a similar shots is determined to have sufficiently narrowed down (the determination in step S19 is affirmative), the modal shot detection process ends.
なお、前記第1,2,3,・・・係数Y1,Y2,Y3,・・・の順序付けは、図7の順序付けに限定されず、他の順序であってもよい。また、使用する成分は輝度成分のみ、色差成分のみ、または両者を用いることができ、各成分において使用できる係数も任意である。また、前記ステップS15の処理により、色配置記述子の値の僅かな差で、あるショットが類似ショット検出から漏れてしまうのを防ぐことができる。このように色配置記述子を用いて類似ショットの絞込みを行い、最終的に最も要素数の多いビンに属するショットを最頻ショットSfとして決定する。 The ordering of the first, second, third,... Coefficients Y1, Y2, Y3,... Is not limited to the ordering shown in FIG. In addition, only a luminance component, only a color difference component, or both can be used as components to be used, and coefficients that can be used in each component are also arbitrary. Further, the process of step S15 can prevent a certain shot from being leaked from similar shot detection due to a slight difference in the values of the color arrangement descriptors. In this way, similar shots are narrowed down using the color arrangement descriptor, and a shot belonging to the bin having the largest number of elements is finally determined as the most frequent shot Sf.
次に、さらに類似ショット検出の精度を高めるための処理(処理2)を、図8のフローチャートを参照して説明する。図8のステップS20では、最頻ショットとして決定されたショットの色配置記述子の値の代表値(または参照値)を求め、ステップS21では、この値を用いて全ショットにおける色配置記述子との距離Dの計算を行う。代表値としては、各成分・各係数の平均値や中間値などを用いることができる。距離Dの計算の結果、十分に小さい閾値THD以下の距離を持つショットを、最頻ショットとして検出することもできる。 Next, processing (processing 2) for further improving the accuracy of similar shot detection will be described with reference to the flowchart of FIG. In step S20 of FIG. 8, a representative value (or reference value) of the color arrangement descriptor value of the shot determined as the most frequent shot is obtained, and in step S21, the color arrangement descriptor in all shots is obtained using this value. The distance D is calculated. As the representative value, an average value or an intermediate value of each component / coefficient can be used. As a result of calculating the distance D, a shot having a sufficiently small distance below the threshold THD can be detected as the most frequent shot.
距離Dの計算は、MPEG-7の検証モデルで推奨されている以下の式などを用いることができる。 For the calculation of the distance D, the following formula recommended in the MPEG-7 verification model can be used.
ここで、Yr[i]、Cbr[i]、Crr[i]はそれぞれ輝度Y成分、色差Cb成分、色差Cr成分の第i係数の代表値、Y[i]、Cb[i]、Cr[i]はそれぞれの成分の低周波側からの第i係数、NY、NCb、NCrはそれぞれ距離Dの計算に用いる各成分の係数の数である。 Here, Yr [i], Cbr [i], and Crr [i] are the representative values of the i-th coefficient of the luminance Y component, the color difference Cb component, and the color difference Cr component, respectively Y [i], Cb [i], Cr [ i] is the i-th coefficient from the low frequency side of each component, and NY, NCb, and NCr are the numbers of coefficients of each component used for calculating the distance D, respectively.
図5に示すハイライトシーン判別部13では、例えば野球中継などのテレビスポーツ映像を入力として、ヒットやホームランなどのハイライトシーンを検出する。ここで「シーン」とは、意味的に連続した一つ以上の「ショット」から構成される区間であることを示す。
The highlight
ハイライトシーン判別部13では、図6、図8の処理により得られた例えばテレビスポーツ映像における最頻ショットSfに対して、隣接する最頻ショットSf間のショット数Nsf、時間Tsfを求める。例えば野球中継の場合、ピッチャーがバッターに対してボールを投げるショット(以下、投球ショット)は、野球中継映像における最頻ショットであると考えられる。投球の結果がストライク、ボール、ファウルなどハイライトシーンとは見なせない場合には、次の投球ショットまでのショット数Nsfまたは時間Tsfは、それぞれ少ないまたは短いと考えられる。これに対して投球の結果がヒットやホームランなどハイライトシーンと認められる場合には、次の投球ショットまでのショット数Nsfまたは時間Tsfは、ある一定以上の値を取ると考えられる。
The highlight
そこで、これらのいずれか若しくは両者がそれぞれある閾値THNsf(例えば30ショット)、THTsf(例えば60秒)以上の場合に(Nsf≧THNsf、Tsf≧THTsf)、これらの隣接する最頻ショットSf間の区間にハイライトシーンが存在すると判定する。ただし、野球中継の場合には主に攻守交替時にCMが挿入されることがあるため、投球ショット間のショット数Nsfおよび時間Tsfを併用することによって、効果的にハイライトシーンを抽出することができる。さらに、該区間含まれるショットにおけるショット内代表オーディオ種別Csに対して「歓声」が支配的であることを利用して、該区間がハイライトシーンであるとする判定の精度を向上させることができる。 Therefore, when either or both of these are the threshold THNsf (for example, 30 shots) and THTsf (for example, 60 seconds) or more (Nsf ≧ THNsf, Tsf ≧ THTsf), the interval between these adjacent mode shots Sf It is determined that there is a highlight scene. However, in the case of baseball broadcasts, CMs may be inserted mainly when changing offense and defense, so by using the shot number Nsf between pitch shots and time Tsf together, it is possible to extract highlight scenes effectively. it can. Furthermore, it is possible to improve the accuracy of determination that the section is a highlight scene by using the fact that “cheer” is dominant with respect to the in-shot representative audio type Cs in the shot included in the section. .
また、該当する区間に存在する全てのショットをハイライトシーンとして判定することもできるが、上記オーディオ種別Csが「歓声」であり、且つオーディオパワーPsが最大であるショットを中心とした前後任意数のショットをハイライトシーンとして判定することもできる。これにより、例えば投球ショットが正常に検出されなかったり、投球の結果がアウトとなる場合など、ハイライトシーンではないが次の投球ショットまでのショット数Nsfまたは時間Tsfが大きくなってしまった場合の誤検出を抑えることができる。ハイライトシーンとして判定されたショット群に対して、それぞれショットクラス「ハイライト」を付与する。 It is also possible to determine all shots existing in the corresponding section as highlight scenes, but any number before and after centering on shots where the audio type Cs is “cheer” and the audio power Ps is maximum. Can be determined as a highlight scene. As a result, for example, when the pitch shot is not detected normally or the pitch result is out, the shot number Nsf or time Tsf until the next pitch shot is not a highlight scene but the time Tsf has increased. False detection can be suppressed. A shot class “highlight” is assigned to each shot group determined as a highlight scene.
また、図5に示すアナウンサークラス判別部14においては、前記最頻ショット検出部12で得られた最頻ショットを用いて、例えばテレビニュース映像からアナウンサークラスを検出する。該最頻ショットをテレビニュース映像に適用する場合、通常ニュース映像はアナウンサーショットに続き現場からの報告や資料映像、会見、解説などの映像が挿入され、これがニュース項目毎に繰り返される。アナウンサーショットは一つのニュース項目に対して一つ以上出現することが多いため、ニュース番組全体ではアナウンサーショットが最頻ショットであると考えられる。
Further, the announcer
ただし、解説などに使用される画面は背景色などが同一であるなど、最頻ショットと誤認識される可能性がある。これを防ぐために、色配置記述子の特に輝度成分について高い周波数成分の係数Ynを解析する(例えばn>6など)。解説画面は特に縮小画像にするとテクスチャが目立たなくなり、比較的平坦な画面となることが予想されるため、高い周波数成分Ynの値は小さくなる。これに対してアナウンサーショットではアナウンサーが映っていることによりテクスチャが存在するため、高い周波数成分においても値は小さくならないと考えられる。この性質を利用して、最頻ショットとしてアナウンサーショットのみを抽出することができる。アナウンサーショットとして判定されたショットに対して、ショットクラス「アナウンサー」を付与する。 However, there is a possibility that the screen used for explanation etc. is misrecognized as the most frequent shot because the background color is the same. In order to prevent this, the coefficient Y n of the high frequency component is analyzed (for example, n> 6) for the luminance component in the color arrangement descriptor. In particular, when the explanation screen is a reduced image, the texture becomes inconspicuous and a relatively flat screen is expected. Therefore, the value of the high frequency component Y n becomes small. On the other hand, since an announcer is reflected in the announcer shot, texture is present. Therefore, it is considered that the value does not decrease even at high frequency components. Using this property, only the announcer shot can be extracted as the most frequent shot. The shot class “announcer” is assigned to the shot determined as the announcer shot.
上記の「ハイライト」クラスのショットや、「アナウンサー」クラスのショットを集約して再生することにより、テレビスポーツ映像のハイライトや、テレビニュース映像のダイジェストなどを構成することができる。 By collecting and reproducing the above-mentioned “highlight” class shots and “announcer” class shots, it is possible to configure highlights of television sports videos, digests of television news videos, and the like.
次に、図9に本発明の第3の実施形態を示す。ここでは、入力動画像データがショット分割部1でショット分割され、図1と図5の処理を受ける。図1の処理により、ショットジャンル判別の処理41、すなわち前記アクションクラス判別、ドラマチッククラス判別、および会話クラス判別の処理がなされる。一方、図5の処理により、サマリショット判別の処理42、すなわちハイライトシーン判別と、アナウンサークラス判別の処理がなされる。
Next, FIG. 9 shows a third embodiment of the present invention. Here, the input moving image data is shot divided by the
ショットジャンル判別部41において決定されたショットクラスは、ショットジャンル記述部43において、例えばMPEG-7で規定されている「分類スキーム(Classification Scheme)」で定義したショットのジャンルとして、各ショットの付属情報として記述することができる。
The shot class determined by the shot
また、サマリショット判別部42において、スポーツ映像のハイライトやニュース映像のダイジェストとして判定されたショットは、サマリショット記述部44においてその時間情報などを記述することができる。サマリショット記述のフォーマットとしては、例えばMPEG-7で定義されている「階層的要約記述スキーム」などを用いることができる。記述された情報は、MPEG-7記述ファイルとして出力する。
Further, the summary shot
1・・・ショット分割部、2・・・動き情報解析部、3・・・オーディオ解析部、4・・・アクションクラス判別部、5・・・ドラマチッククラス判別部、6・・・会話クラス判別部、11・・・特徴値抽出部、12・・・最頻ショット検出部、13・・・ハイライトシーン判別部、14・・・アナウンサークラス判別部、31・・・オーディオパワー計算部、32・・・オーディオ種別解析部、41・・・ショットジャンル判別部、42・・・サマリショット判別部、43・・・ショットジャンル記述部、44・・・サマリショット記述部。
DESCRIPTION OF
Claims (7)
動画像データを時間軸上でショット単位に分割する動画像データ分割手段と、
該ショット単位内の画像から得られるMPEG−7で定義された色配置記述子などの画像特徴値を抽出する特徴値抽出手段と、
該画像特徴値を用いて最も出現頻度の高い類似ショット単位を検出する類似単位検出手段を具備し、
前記類似単位検出手段は、ショット先頭またはショット内代表のフレームにおいて、前記特徴値の複数の係数をヒストグラム化し、要素数が最も多くなったビンを順次絞り込んでいくことにより最頻の類似ショットを検出することを特徴とする動画像データの分類装置。 In an apparatus for classifying uncompressed or compressed video data,
Moving image data dividing means for dividing moving image data into shot units on the time axis;
Feature value extracting means for extracting image feature values such as color arrangement descriptors defined in MPEG-7 obtained from images in the shot unit;
Similar unit detection means for detecting a similar shot unit having the highest appearance frequency using the image feature value,
The similar unit detection means detects the most frequent similar shots by making a histogram of a plurality of coefficients of the feature value in the shot head or the representative frame in the shot and sequentially narrowing down bins having the largest number of elements. An apparatus for classifying moving image data.
前記画像特徴値の複数の係数として、縮小画像の輝度および色差成分の少なくとも一つに離散コサイン変換を施した、各成分の係数を用いることを特徴とする動画像データの分類装置。 The moving image data classification device according to claim 1,
An apparatus for classifying moving image data, wherein coefficients of each component obtained by performing discrete cosine transform on at least one of luminance and color difference components of a reduced image are used as the plurality of coefficients of the image feature value.
ハイライトシーン判別手段を具備し、
該ハイライトシーン判別手段は、前記類似単位検出手段から抽出された最頻の類似ショット間のある区間のショット数および時間の少なくとも一つがある定められた閾値以上の場合に、該区間にハイライトシーンが存在すると判定することを特徴とする動画像データの分類装置。 The moving image data classification device according to claim 1 or 2, wherein the moving image data is known in advance as a television sports video.
Equipped with highlight scene discrimination means,
The highlight scene discriminating unit highlights the section when at least one of the number of shots and the time of the section between the most frequent similar shots extracted from the similar unit detecting section exceeds a predetermined threshold. An apparatus for classifying moving image data, characterized in that a scene is determined to exist.
前記ハイライトシーン判別手段は、前記類似単位検出手段から抽出された最頻の類似ショット間のある区間のショット数がある定められた別の閾値以上の場合に、テレビスポーツ映像の該区間にコマーシャルシーンが存在すると判定し、ハイライトシーンの候補から除外することを特徴とする動画像データの分類装置。 In the moving image data classification device according to claim 3,
The highlight scene discriminating unit is configured to display a commercial in a section of a television sports video when the number of shots in a section between the most frequent similar shots extracted from the similar unit detection section is equal to or greater than a predetermined threshold. An apparatus for classifying moving image data, characterized in that it determines that a scene exists and excludes it from a candidate for a highlight scene.
前記ハイライトシーン判別手段は、さらにオーディオ種別が「歓声」である、オーディオパワーが最大であるショットをハイライトシーンの判定に用い、該オーディオパワーが最大であるショットまたは該ショットを含む前後のショットをハイライトシーンと判定することを特徴とする動画像データの分類装置。 The moving image data classification device according to claim 3 or 4,
The highlight scene discriminating means further uses a shot having the maximum audio power whose audio type is “cheers” for the determination of the highlight scene, and the shot having the maximum audio power or the preceding and following shots including the shot. Is a highlight scene.
アナウンサークラス判別手段を具備し、
該アナウンサークラス判別手段は、前記類似単位検出手段から抽出された最頻の類似ショットをテレビニュース映像のアナウンサーショットと判定することを特徴とする動画像データの分類装置。 The moving image data classification apparatus according to claim 1 or 2, wherein the moving image data is known in advance as television news video.
An announcer class discriminating means is provided,
An apparatus for classifying moving image data, wherein the announcer class discriminating means judges the most frequent similar shot extracted from the similar unit detecting means as an announcer shot of a television news video.
前記アナウンサークラス判別手段は、前記色配置記述子の高周波成分が予め定めた周波数より高い場合に画像としてのテクスチャが存在すると判定し、前記最頻の類似ショットに該テクスチャが存在する場合にアナウンサーショットと判定することを特徴とする動画像データの分類装置。 The moving image data classification device according to claim 6,
The announcer class determining means determines that a texture as an image exists when a high frequency component of the color arrangement descriptor is higher than a predetermined frequency, and an announcer shot when the texture exists in the most similar shot A moving image data classification device characterized by the above-described determination.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009196734A JP4999015B2 (en) | 2009-08-27 | 2009-08-27 | Moving image data classification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009196734A JP4999015B2 (en) | 2009-08-27 | 2009-08-27 | Moving image data classification device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003051514A Division JP4396914B2 (en) | 2003-02-27 | 2003-02-27 | Moving image data classification device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010015588A true JP2010015588A (en) | 2010-01-21 |
JP4999015B2 JP4999015B2 (en) | 2012-08-15 |
Family
ID=41701587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009196734A Expired - Fee Related JP4999015B2 (en) | 2009-08-27 | 2009-08-27 | Moving image data classification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4999015B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5516720B2 (en) * | 2010-03-26 | 2014-06-11 | 富士通株式会社 | Category generation program, category generation apparatus, and category generation method |
KR20150088121A (en) * | 2014-01-23 | 2015-07-31 | 세종대학교산학협력단 | Method and Apparatus for Image filtering in Processing of MPEG-7 description |
WO2021190606A1 (en) * | 2020-03-27 | 2021-09-30 | 京东方科技集团股份有限公司 | Image drawing method, display apparatus, and storage medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0729007A (en) * | 1993-07-07 | 1995-01-31 | Nippon Telegr & Teleph Corp <Ntt> | Video feature processing method |
JPH11239322A (en) * | 1997-11-24 | 1999-08-31 | Hewlett Packard Co <Hp> | Video browsing and viewing system |
JP2001256245A (en) * | 2000-03-09 | 2001-09-21 | Kddi Corp | Feature picture extracting device for moving image, storage medium therefor and feature information describing method for moving image |
JP2001527344A (en) * | 1997-12-23 | 2001-12-25 | サーノフ コーポレイション | Conversion detection in Videokens |
WO2002089490A1 (en) * | 2001-04-27 | 2002-11-07 | Mitsubishi Denki Kabushiki Kaisha | Method for summarizing a video using motion descriptors |
JP2003032583A (en) * | 2001-03-23 | 2003-01-31 | Lg Electronics Inc | Anchor shot detection method for news video browsing system |
-
2009
- 2009-08-27 JP JP2009196734A patent/JP4999015B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0729007A (en) * | 1993-07-07 | 1995-01-31 | Nippon Telegr & Teleph Corp <Ntt> | Video feature processing method |
JPH11239322A (en) * | 1997-11-24 | 1999-08-31 | Hewlett Packard Co <Hp> | Video browsing and viewing system |
JP2001527344A (en) * | 1997-12-23 | 2001-12-25 | サーノフ コーポレイション | Conversion detection in Videokens |
JP2001256245A (en) * | 2000-03-09 | 2001-09-21 | Kddi Corp | Feature picture extracting device for moving image, storage medium therefor and feature information describing method for moving image |
JP2003032583A (en) * | 2001-03-23 | 2003-01-31 | Lg Electronics Inc | Anchor shot detection method for news video browsing system |
WO2002089490A1 (en) * | 2001-04-27 | 2002-11-07 | Mitsubishi Denki Kabushiki Kaisha | Method for summarizing a video using motion descriptors |
JP2004520760A (en) * | 2001-04-27 | 2004-07-08 | 三菱電機株式会社 | Video Summarization Using Motion Descriptors |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5516720B2 (en) * | 2010-03-26 | 2014-06-11 | 富士通株式会社 | Category generation program, category generation apparatus, and category generation method |
US9047916B2 (en) | 2010-03-26 | 2015-06-02 | Fujitsu Limited | Recording medium, category creating apparatus, and category creating method |
KR20150088121A (en) * | 2014-01-23 | 2015-07-31 | 세종대학교산학협력단 | Method and Apparatus for Image filtering in Processing of MPEG-7 description |
KR101583903B1 (en) | 2014-01-23 | 2016-01-22 | 세종대학교산학협력단 | Method and Apparatus for Image filtering in Processing of MPEG-7 description |
WO2021190606A1 (en) * | 2020-03-27 | 2021-09-30 | 京东方科技集团股份有限公司 | Image drawing method, display apparatus, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4999015B2 (en) | 2012-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4036328B2 (en) | Scene classification apparatus for moving image data | |
US7761491B2 (en) | Method for detecting a commercial in a video data stream by evaluating descriptor information | |
KR100957902B1 (en) | Video summarization device | |
JP4424590B2 (en) | Sports video classification device | |
US7327885B2 (en) | Method for detecting short term unusual events in videos | |
TWI399973B (en) | Methods, apparatus and machine readable medium storing instructions to distinguish a signal originating from a local device from a boradcast signal | |
JP4559935B2 (en) | Image storage apparatus and method | |
US20030061612A1 (en) | Key frame-based video summary system | |
US20030131362A1 (en) | Method and apparatus for multimodal story segmentation for linking multimedia content | |
JP2005513663A (en) | Family histogram based techniques for detection of commercial and other video content | |
JP5537285B2 (en) | Summary video generation device and summary video generation program | |
KR20030031961A (en) | Video content analysis method and system leveraging data-compression parameters | |
KR20020075081A (en) | Anchor shot detecting method of news video browsing system | |
JP2004528790A (en) | Extended EPG for detecting program start and end breaks | |
CN101303695A (en) | Method for processing a sports video and apparatus thereof | |
US20100259688A1 (en) | method of determining a starting point of a semantic unit in an audiovisual signal | |
Zhang et al. | Detecting sound events in basketball video archive | |
JP4999015B2 (en) | Moving image data classification device | |
KR100779074B1 (en) | Method for discriminating a obscene video using characteristics in time flow and apparatus thereof | |
CN112653918B (en) | Preview video generation method and device, electronic equipment and storage medium | |
JP4396914B2 (en) | Moving image data classification device | |
JP2010081531A (en) | Video processor and method of processing video | |
Kim et al. | Real-time highlight detection in baseball video for TVs with time-shift function | |
JP2005252859A (en) | Scene-splitting device for dynamic image data | |
JP2005269015A (en) | Moving image extracting apparatus utilizing a plurality of algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111109 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120509 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120510 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150525 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |