JP2005332206A - Video event discrimination device, program thereof, learning data generation device for video event discrimination, and program thereof - Google Patents
Video event discrimination device, program thereof, learning data generation device for video event discrimination, and program thereof Download PDFInfo
- Publication number
- JP2005332206A JP2005332206A JP2004149902A JP2004149902A JP2005332206A JP 2005332206 A JP2005332206 A JP 2005332206A JP 2004149902 A JP2004149902 A JP 2004149902A JP 2004149902 A JP2004149902 A JP 2004149902A JP 2005332206 A JP2005332206 A JP 2005332206A
- Authority
- JP
- Japan
- Prior art keywords
- video
- scene
- event
- feature quantity
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、映像内で発生するイベントを判別する映像イベント判別装置及びそのプログラム、並びに、映像イベント判別用学習データ生成装置及びそのプログラムに関する。 The present invention relates to a video event discriminating apparatus and program for discriminating an event occurring in a video, and a video event discriminating learning data generating apparatus and program thereof.
近年、放送番組等の映像から、その映像内で発生するイベント(事象)を判別するイベント判別技術が種々提案されている。例えば、第一のイベント判別技術として、画面の特定の位置に表示される文字情報が変更されることを検出することで、映像のイベントの発生を検出するとともに、当該イベントの種類の判別を行う技術が開示されている(特許文献1参照)。この技術では、野球中継の映像において、「イニング」、「得点」、「アウト数」等の試合の進行状況を示す文字情報が画面の特定の位置に表示されることを利用し、その文字情報の変化を検出することで、イニングの変わり目、得点の取得時等のイベントを判別している。 In recent years, various event discriminating techniques have been proposed for discriminating events occurring in video from video such as broadcast programs. For example, as a first event discrimination technique, the occurrence of a video event is detected and the type of the event is discriminated by detecting that character information displayed at a specific position on the screen is changed. A technique is disclosed (see Patent Document 1). This technology uses the fact that character information indicating the progress of the game, such as “inning”, “score”, “number of outs”, etc., is displayed at a specific position on the screen in a baseball broadcast video. By detecting this change, it is possible to discriminate events such as the turning point of inning and the acquisition of scores.
また、例えば、第二のイベント判別技術として、スポーツ中継映像におけるイベントを、インターネットを介して配信される中継データ(得点情報等)によって判別する技術が開示されている(特許文献2参照)。この技術では、野球中継の映像を逐次記録し、インターネットを介して配信される得点情報によって得点シーンを認識した段階で、一定時間(例えば10分)遡って、記録されている映像を再生する。このように、第二のイベント判別技術では、映像に連動した中継データに基づいて、野球中継のイベントとなる得点シーンの判別を行っている。
前記した第一のイベント判別技術では、映像上の固有の文字情報に基づいて、イベントの判別を行うため、文字情報が画面上に提示されなければ、イベントの判別を行うことができないという問題がある。
また、前記した第二のイベント判別技術では、インターネット等から映像に連動した情報(中継データ)を取得することで、当該映像で発生するイベントの判別を行うため、映像以外の情報を取得する手段が必要となり、装置構成が複雑になってしまうという問題がある。さらに、第二のイベント判別技術では、リアルタイムで放送される映像においては、それに対応する中継データを取得することで、イベントを判別することができるが、録画等によって蓄積されている映像からは、イベントを判別することができないという問題もある。
In the first event discriminating technique described above, the event is discriminated based on the unique character information on the video, so that the event cannot be discriminated unless the character information is presented on the screen. is there.
Further, in the second event discrimination technique, means for acquiring information other than video in order to discriminate events occurring in the video by acquiring information (relay data) linked to the video from the Internet or the like. There is a problem that the apparatus configuration becomes complicated. Furthermore, in the second event determination technology, in the video broadcast in real time, the event can be determined by acquiring the corresponding relay data, but from the video accumulated by recording or the like, There is also a problem that the event cannot be determined.
このように、前記した第一及び第二のイベント判別技術では、映像に付加された情報(文字情報、中継データ)に基づいて、映像内のイベントの判別を行うため、その付加された情報が取得できない状況では、イベントの判別を行うことができない。そこで、映像のシーンそのものから、イベントを判別することが可能な技術開発への要求が高まっている。 As described above, in the first and second event discriminating technologies described above, since the event in the video is discriminated based on the information (character information, relay data) added to the video, the added information is In a situation where it cannot be obtained, the event cannot be determined. Therefore, there is an increasing demand for technology development that can discriminate events from video scenes themselves.
本発明は、以上のような課題を解決するためになされたものであり、付加情報を用いることなく、映像の各シーンから当該映像内で発生するイベントを判別する映像イベント判別装置及びそのプログラム、並びに、映像イベント判別用学習データ生成装置及びそのプログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems, and a video event discriminating apparatus and a program for discriminating an event occurring in the video from each scene of the video without using additional information, It is another object of the present invention to provide a video event discrimination learning data generation apparatus and a program thereof.
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の映像イベント判別装置は、入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別する映像イベント判別装置であって、特徴量分類データベース記憶手段と、イベントデータベース記憶手段と、シーン分割手段と、特徴量抽出手段と、特徴量数値化手段と、イベント特定手段とを備える構成とした。
The present invention has been developed to achieve the above object, and first, the video event determination device according to
かかる構成によれば、映像イベント判別装置は、シーン分割手段によって、入力された映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、映像をシーン毎に分割する。そして、映像イベント判別装置は、特徴量抽出手段によって、シーン分割手段で分割されたシーンに含まれる複数のフレーム画像から、当該シーンにおける映像の特徴を示す映像特徴量を抽出する。 According to such a configuration, the video event determination device detects a point (scene change) where the screen configuration of the input video is largely switched by the scene dividing unit, and divides the video for each scene. Then, the video event discriminating apparatus extracts the video feature amount indicating the video feature in the scene from the plurality of frame images included in the scene divided by the scene dividing unit by the feature amount extracting unit.
さらに、映像イベント判別装置は、特徴量数値化手段によって、特徴量抽出手段で抽出された映像特徴量を、その映像特徴量を予め分類(クラスタリング)したクラスを特定する数値データ(クラスタ値)に変換する。なお、この映像特徴量を分類した数値データは、予め映像特徴量と対応付けた特徴量分類データベースとして特徴量分類データベース記憶手段に記憶しておく。この特徴量分類データベースを参照することで、特徴量数値化手段は、映像のシーンを簡易化した数値データで表すことが可能になる。 Further, the video event discriminating apparatus converts the video feature amount extracted by the feature amount extraction unit by the feature amount digitizing unit into numerical data (cluster value) for specifying a class in which the video feature amount is classified (clustered) in advance. Convert. Note that the numerical data obtained by classifying the video feature quantity is stored in advance in the feature quantity classification database storage unit as a feature quantity classification database associated with the video feature quantity. By referring to the feature quantity classification database, the feature quantity digitizing means can represent the video scene with simplified numeric data.
そして、映像イベント判別装置は、イベント特定手段によって、特徴量数値化手段で変換された数値データのデータ列に対応するイベントの種類を特定する。なお、イベントの種類は、予めイベントの種類と、連続する複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベースとして、イベントデータベース記憶手段に記憶しておく。このイベントデータベースを参照することで、イベント特定手段は、シーン数値化列からイベントの種類を特定することが可能になる。 Then, the video event discriminating device specifies the type of event corresponding to the data string of the numerical data converted by the feature value digitizing means by the event specifying means. The event type is stored in advance in the event database storage unit as an event database in which the event type is associated with a scene digitization sequence in which a plurality of continuous scenes are represented by a data sequence of numerical data. By referring to this event database, the event specifying means can specify the type of event from the scene digitization sequence.
また、請求項2に記載の映像イベント判別装置は、請求項1に記載の映像イベント判別装置において、基準画像記憶手段を備え、さらに、シーン分割手段がイベント開始検出手段を備える構成とした。 According to a second aspect of the present invention, there is provided the video event determination device according to the first aspect, wherein the video event determination device includes a reference image storage unit, and the scene division unit includes an event start detection unit.
かかる構成によれば、映像イベント判別装置は、イベントの開始を示す基準の画像(基準画像)を基準画像記憶手段に予め記憶しておく。そして、シーン分割手段におけるイベント開始検出手段が、入力された映像のフレーム画像で、基準画像に類似するフレーム画像を、イベントの開始として検出する。これによって、シーンの切り替わり以外に、判別したいイベントが開始されるフレーム画像をシーンの開始とする。 According to this configuration, the video event determination device stores a reference image (reference image) indicating the start of an event in the reference image storage unit in advance. Then, the event start detecting means in the scene dividing means detects a frame image similar to the reference image in the input video frame image as the start of the event. As a result, in addition to scene switching, a frame image in which an event to be discriminated starts is set as the start of the scene.
この基準画像としては、例えば、野球中継映像において、バッターが打席に立った以降の動作をイベントとして判別したい場合、バッターが打席に立ったときの画像とする。この基準画像を基準画像記憶手段に記憶しておくことで、イベント開始検出手段は、同一シーンにおいて、バッターが打席に立った場面から、別シーンになったと判定することができる。 As the reference image, for example, in a baseball broadcast video, when it is desired to determine an operation after the batter is standing at the bat as an event, the reference image is an image when the batter is standing at the bat. By storing this reference image in the reference image storage means, the event start detection means can determine that the scene is a different scene from the scene where the batter stands in the same scene.
さらに、請求項3に記載の映像イベント判別プログラムは、入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別するために、コンピュータを、シーン分割手段、特徴量抽出手段、特徴量数値化手段、イベント特定手段として機能させる構成とした。
Furthermore, the video event determination program according to
かかる構成によれば、映像イベント判別プログラムは、シーン分割手段によって、入力された映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、映像をシーン毎に分割する。そして、映像イベント判別プログラムは、特徴量抽出手段によって、シーン分割手段で分割されたシーンに含まれる複数のフレーム画像から、当該シーンにおける映像の特徴を示す映像特徴量を抽出する。 According to this configuration, the video event determination program detects a point (scene change) where the screen configuration of the input video is largely switched by the scene dividing unit, and divides the video for each scene. Then, the video event determination program extracts the video feature amount indicating the video feature in the scene from the plurality of frame images included in the scene divided by the scene dividing unit by the feature amount extracting unit.
さらに、映像イベント判別プログラムは、特徴量数値化手段によって、予め類似する映像特徴量の代表値と、その代表値を分類する数値データとを対応付けた特徴量分類データベースを参照することで、特徴量抽出手段で抽出された映像特徴量を、分類(クラスタリング)したクラスを特定する数値データ(クラスタ値)に変換する。 Furthermore, the video event determination program refers to a feature quantity classification database in which representative values of similar video feature quantities and numerical data for classifying the representative values are associated in advance by the feature quantity quantification unit. The video feature quantity extracted by the quantity extraction means is converted into numerical data (cluster value) that identifies the classified (clustered) class.
そして、映像イベント判別プログラムは、イベント特定手段によって、予めイベントの種類と、連続する複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベースを参照することで、特徴量数値化手段で変換された数値データのデータ列に対応するイベントの種類を特定する。 Then, the video event determination program refers to an event database in which event types are associated in advance with event types and scene digitization sequences in which a plurality of continuous scenes are represented by a data sequence of numerical data. The event type corresponding to the data string of the numerical data converted by the feature value digitizing means is specified.
また、請求項4に記載の映像イベント判別用学習データ生成装置は、請求項1又は請求項2に記載の映像イベント判別装置で使用する学習データである特徴量分類データベース及びイベントデータベースを生成する映像イベント判別用学習データ生成装置であって、シーン分割手段と、特徴量抽出手段と、特徴量分類手段と、シーン数値化手段と、シーン映像再生手段と、イベント設定手段とを備える構成とした。 According to a fourth aspect of the present invention, there is provided a video event discriminating learning data generating apparatus for generating a feature quantity classification database and an event database, which are learning data used in the video event discriminating apparatus according to the first or second aspect. The event discrimination learning data generating apparatus is configured to include a scene dividing unit, a feature amount extracting unit, a feature amount classifying unit, a scene digitizing unit, a scene video reproducing unit, and an event setting unit.
かかる構成によれば、映像イベント判別用学習データ生成装置は、シーン分割手段によって、入力された映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、映像をシーン毎に分割する。そして、映像イベント判別用学習データ生成装置は、特徴量抽出手段によって、シーン分割手段で分割されたシーンに含まれる複数のフレーム画像から、当該シーンにおける映像の特徴を示す映像特徴量を抽出する。 According to such a configuration, the video event determination learning data generation apparatus detects a point (scene change) where the screen configuration of the input video is largely switched by the scene dividing unit, and divides the video for each scene. Then, the video event determination learning data generation apparatus extracts a video feature amount indicating a video feature in the scene from a plurality of frame images included in the scene divided by the scene division unit by the feature amount extraction unit.
さらに、映像イベント判別用学習データ生成装置は、特徴量分類手段によって、特徴量抽出手段で抽出された映像特徴量を、類似する映像特徴量の代表値毎に、数値データを対応付けて分類する。この類似する映像特徴量の代表値(代表映像特徴量)は、映像特徴量を分類した際に、その分類されたクラスに含まれるすべての映像特徴量を代表するものであって、例えば、そのクラスに属するすべての映像特徴量の平均値、あるいは、その平均値に最も近い映像特徴量とすることができる。このように、特徴量分類手段は、類似する映像特徴量の代表値と、クラスを示す数値データとを対応付けて、映像イベント判別装置で使用する特徴量分類データベースを生成する。 Furthermore, the learning data generation device for video event discrimination classifies the video feature amount extracted by the feature amount extraction unit by the feature amount classification unit in association with numerical data for each representative value of similar video feature amounts. . The representative value of the similar video feature amount (representative video feature amount) represents all the video feature amounts included in the classified class when the video feature amount is classified. The average value of all the video feature quantities belonging to the class or the video feature quantity closest to the average value can be set. As described above, the feature amount classification unit generates a feature amount classification database used in the video event determination device by associating the representative value of the similar video feature amount with the numerical data indicating the class.
そして、映像イベント判別用学習データ生成装置は、シーン数値化手段によって、シーン毎に、当該シーンに含まれるフレーム画像を識別するためのフレーム画像番号と、特徴量分類手段によって分類された映像特徴量の数値データとを対応付ける。これによって、どのシーンが、どの数値データで表されるかが対応付けられることになる。 The learning data generation device for video event determination includes a frame image number for identifying a frame image included in the scene and a video feature amount classified by the feature amount classification unit for each scene by the scene digitizing unit. Is associated with the numerical data. As a result, which scene is represented by which numerical data is associated.
また、映像イベント判別用学習データ生成装置は、シーン映像再生手段によって、シーン数値化手段で対応付けられたシーン毎のフレーム画像番号に基づいて、シーンを再生する。そして、映像イベント判別用学習データ生成装置は、イベント設定手段によって、再生された連続する複数のシーンに対して、イベントの種類を示すイベント識別情報を入力されることで、イベント識別情報と、複数のシーンに対応する映像特徴量の数値データのデータ列であるシーン数値化列とを対応付ける。このように、イベント設定手段は、イベントの種類(イベント識別情報)と、シーン数値化列とを対応付けて、映像イベント判別装置で使用するイベントデータベースを生成する。 The video event determination learning data generation apparatus reproduces a scene based on the frame image number of each scene associated by the scene digitizing means by the scene video reproducing means. Then, the video event determination learning data generation device receives event identification information indicating the type of event for a plurality of consecutive reproduced scenes by the event setting means, and the event identification information Is associated with a scene digitization sequence that is a data sequence of numerical data of video feature values corresponding to the scene. As described above, the event setting unit generates an event database used in the video event determination device by associating the event type (event identification information) with the scene digitization sequence.
さらに、請求項5に記載の映像イベント判別用学習データ生成装置は、請求項4に記載の映像イベント判別用学習データ生成装置において、基準画像記憶手段を備え、さらに、シーン分割手段がイベント開始検出手段を備える構成とした。 Further, the video event determination learning data generation device according to claim 5 is the video event determination learning data generation device according to claim 4, further comprising reference image storage means, wherein the scene division means detects event start. It was set as the structure provided with a means.
かかる構成によれば、映像イベント判別用学習データ生成装置は、イベントの開始を示す基準の画像(基準画像)を基準画像記憶手段に予め記憶しておく。そして、シーン分割手段におけるイベント開始検出手段が、入力された映像のフレーム画像で、基準画像に類似するフレーム画像を、イベントの開始として検出する。これによって、シーンの切り替わり以外に、判別したいイベントが開始されるフレーム画像をシーンの開始とする。 According to this configuration, the video event determination learning data generation apparatus stores in advance the reference image (reference image) indicating the start of the event in the reference image storage unit. Then, the event start detecting means in the scene dividing means detects a frame image similar to the reference image in the input video frame image as the start of the event. As a result, in addition to scene switching, a frame image in which an event to be determined is started is set as the start of the scene.
また、請求項6に記載の映像イベント判別用学習データ生成プログラムは、請求項1又は請求項2に記載の映像イベント判別装置で使用する学習データである特徴量分類データベース及びイベントデータベースを生成するために、コンピュータを、シーン分割手段、特徴量抽出手段、特徴量分類手段、シーン数値化手段、シーン映像再生手段、イベント設定手段として機能させる構成とした。 According to a sixth aspect of the present invention, there is provided a video event determination learning data generation program for generating a feature amount classification database and an event database, which are learning data used in the video event determination device according to the first or second aspect. In addition, the computer is configured to function as a scene dividing unit, a feature amount extracting unit, a feature amount classifying unit, a scene digitizing unit, a scene video reproducing unit, and an event setting unit.
かかる構成によれば、映像イベント判別用学習データ生成プログラムは、シーン分割手段によって、入力された映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、映像をシーン毎に分割する。そして、映像イベント判別用学習データ生成プログラムは、特徴量抽出手段によって、シーン分割手段で分割されたシーンに含まれる複数のフレーム画像から、当該シーンにおける映像の特徴を示す映像特徴量を抽出する。 According to such a configuration, the learning data generation program for video event determination detects a point (scene change) where the screen configuration of the input video is largely switched by the scene dividing unit, and divides the video for each scene. Then, the learning data generation program for video event determination extracts the video feature amount indicating the video feature in the scene from the plurality of frame images included in the scene divided by the scene division unit by the feature amount extraction unit.
さらに、映像イベント判別用学習データ生成プログラムは、特徴量分類手段によって、特徴量抽出手段で抽出された映像特徴量を、類似する映像特徴量の代表値毎に、数値データを対応付けて分類することで、映像イベント判別装置で使用する特徴量分類データベースを生成する。
そして、映像イベント判別用学習データ生成プログラムは、シーン数値化手段によって、シーン毎に、当該シーンに含まれるフレーム画像を識別するためのフレーム画像番号と、特徴量分類手段によって分類された映像特徴量の数値データとを対応付ける。
Further, the learning data generation program for video event discrimination classifies the video feature amount extracted by the feature amount extraction unit by the feature amount classification unit in association with numerical data for each representative value of similar video feature amounts. Thus, a feature amount classification database used in the video event determination device is generated.
Then, the learning data generation program for determining the video event discriminates the frame image number for identifying the frame image included in the scene for each scene by the scene digitizing unit and the video feature amount classified by the feature amount classifying unit. Is associated with the numerical data.
また、映像イベント判別用学習データ生成プログラムは、シーン映像再生手段によって、シーン数値化手段で対応付けられたシーン毎のフレーム画像番号に基づいて、シーンを再生する。そして、映像イベント判別用学習データ生成プログラムは、イベント設定手段によって、再生された連続する複数のシーンに対して、イベントの種類を示すイベント識別情報を入力されることで、イベント識別情報と、複数のシーンに対応する映像特徴量の数値データのデータ列であるシーン数値化列とを対応付け、映像イベント判別装置で使用するイベントデータベースを生成する。 The video event discrimination learning data generation program reproduces the scene based on the frame image number of each scene associated by the scene digitizing means by the scene video reproducing means. Then, the video event discrimination learning data generation program receives event identification information indicating a type of event for a plurality of reproduced continuous scenes by the event setting means, and a plurality of event identification information, An event database to be used in the video event discriminating apparatus is generated by associating with a scene digitization sequence that is a data sequence of numeric data of video feature values corresponding to the scene.
請求項1又は請求項3に記載の発明によれば、映像から、シーン毎の特徴量を抽出し、その特徴量を分類したクラスを示す数値データによって当該映像を数値データのデータ列として表し、予め数値データのデータ列と映像内のイベントとを対応付けたイベントデータベースを参照することで、映像内で発生するイベントの種類を判別することが可能になる。また、本発明は、映像の特徴を抽出した簡易化した数値データのデータ列によって、映像内で発生するイベントの種類を判別するため、高速にイベントを判別することができ、映像以外の情報(文字情報等の付加情報)を用いる必要もない。これによって、本発明は、リアルタイム映像であっても、蓄積された映像であっても、イベントを判別することができる。
According to the invention described in
請求項2に記載の発明によれば、入力映像として、イベントの開始を示す基準画像に類似したフレーム画像が入力された段階で、映像のシーンの切り替わりとして、シーンの分割を行うことが可能になる。すなわち、本発明は、入力される映像において、イベントが発生するシーンの先頭フレーム画像を特定することができる。そのため、本発明は、確実にイベントが開始されるフレーム画像を先頭とした映像の特徴量に対応した、数値データのデータ列が生成されることになり、イベントの判別の精度を高めることができる。 According to the second aspect of the present invention, when a frame image similar to a reference image indicating the start of an event is input as an input video, it is possible to divide the scene as a video scene change Become. That is, according to the present invention, the first frame image of a scene where an event occurs can be specified in the input video. Therefore, according to the present invention, a data string of numerical data corresponding to the feature amount of the video starting from the frame image where the event is surely started is generated, and the accuracy of event determination can be improved. .
請求項4又は請求項6に記載の発明によれば、映像から、シーン毎の映像特徴量を抽出し、その映像特徴量を分類(クラスタリング)することで、特徴量分類データベースを生成することができる。また、本発明によれば、複数のシーンで構成されるイベントの種類を、シーン毎の数値データのデータ列を連結したデータ列に対応付けたイベントデータベースを生成することができる。この特徴量分類データベース及びイベントデータベースを使用することで、映像イベント判別装置は、映像をクラスタリングされた数値データのデータ列で表現することが可能になり、そのデータ列に基づいて、イベントを判別することが可能になる。 According to the invention described in claim 4 or claim 6, the feature quantity classification database can be generated by extracting the video feature quantity for each scene from the video and classifying (clustering) the video feature quantity. it can. Further, according to the present invention, it is possible to generate an event database in which an event type constituted by a plurality of scenes is associated with a data string obtained by connecting data strings of numerical data for each scene. By using the feature amount classification database and the event database, the video event determination device can express a video as a data string of clustered numerical data, and determines an event based on the data string. It becomes possible.
請求項5に記載の発明によれば、映像イベント判別用学習データ生成プログラムは、イベントの開始を示す基準画像に類似したフレーム画像が入力された段階で、映像のシーンの切り替わりとして、シーンの分割を行うことが可能になる。すなわち、本発明は、入力される映像において、イベントが発生するシーンの先頭フレーム画像を特定することができる。そのため、確実にイベントが開始されるフレーム画像を先頭とした映像の特徴量によって、数値列データが生成されることになり、映像イベント判別装置において、イベントの判別の精度を高めることができる。 According to the fifth aspect of the present invention, the learning data generation program for video event determination is configured to divide a scene as a video scene change at a stage where a frame image similar to a reference image indicating the start of an event is input. It becomes possible to do. That is, according to the present invention, the first frame image of a scene where an event occurs can be specified in the input video. Therefore, numerical sequence data is generated based on the feature amount of the video starting from the frame image where the event is surely started, and the video event discrimination device can improve the accuracy of event discrimination.
以下、本発明の実施の形態について図面を参照して説明する。
[映像イベント判別手法の概要]
まず、図1を参照して、本発明に係る映像イベント判別装置において、映像から映像内で発生するイベントを判別する手法について、その概要を説明する。図1は、映像イベント判別手法の概要を説明するための説明図である。ここでイベントとは、映像内における、ある意味を持った一連のシーンのことをいい、例えば、野球中継映像内において、「ホームラン」、「二塁打」等が発生したシーンを指す。図1では、野球中継映像からイベントとして「二塁打」を判別する例を示す。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[Outline of video event discrimination method]
First, with reference to FIG. 1, the outline | summary is demonstrated about the method of discriminating the event which generate | occur | produces in an image | video from an image | video in the video event determination apparatus based on this invention. FIG. 1 is an explanatory diagram for explaining the outline of the video event determination method. Here, an event refers to a series of scenes having a certain meaning in a video, for example, a scene where a “home run”, “double strike”, etc. occur in a baseball broadcast video. FIG. 1 shows an example in which “double strike” is determined as an event from the baseball broadcast video.
ここで映像Vは、カメラの構図が切り替わるシーンとして、シーンV1〜V4で構成され、シーンV1は「ピッチャーが投球するシーン」、V2は「バッターが打ったボールが外野に飛んだシーン」、V3は「走者が1塁ベースを回ったシーン」、V4は「走者が二塁ベース上で止まったシーン」をそれぞれ示している。
Here, the video V is composed of scenes V 1 to V 4 as scenes in which the composition of the camera is switched. The scene V 1 is a “scene where the pitcher throws”, and the V 2 is a ball where the batter hits the outside field. “Scene” and V 3 indicate “scene where the runner went around the
そして、映像イベント判別手法は、各シーンV1〜V4から映像特徴量Vcを抽出する。なお、ここでは、映像特徴量Vcは、映像Vをシーン毎に簡略化した矩形領域の情報として示している。例えば、シーンV1は、7つの矩形領域(矩形1〜矩形7)の情報に簡略化している。 Then, the video event determination method extracts the video feature amount Vc from each of the scenes V 1 to V 4 . Here, the video feature amount Vc is shown as information of a rectangular area in which the video V is simplified for each scene. For example, the scene V 1 is simplified to information of seven rectangular areas (rectangle 1 to rectangle 7).
そして、映像イベント判別手法は、予め類似する映像特徴量Vcをクラス分け(クラスタリング)した特徴量分類データベース10aに基づいて、シーン毎の映像特徴量Vcをクラスタ番号であるクラスタCmn(1≦Cmn≦N)として数値化する。さらに、映像イベント判別手法は、予め映像イベントの種類(識別情報)と連続する複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベース11aに基づいて、連続する複数のシーンがどのイベントであるのかを判別する。なお、ここでは、イベントが「二塁打」であることを示している。
このように、映像イベント判別手法は、映像を、映像特徴量に基づいて簡易化した数値データのデータ列で表現し、そのデータ列に基づいて、映像内で発生するイベント(映像イベント)を判別する。
In the video event discrimination method, based on the feature
In this way, the video event discrimination method expresses a video as a data string of numerical data simplified based on the video feature amount, and discriminates an event (video event) occurring in the video based on the data string. To do.
なお、ここでは、映像のイベントとして、野球中継映像内で発生する事象(二塁打)を例示しているが、本発明は、野球中継映像のイベントに限定されるものではない。本発明は、事象によってカメラワークや構図が決まった映像であれば、その事象を判別することができる。例えば、料理番組映像等で、作業工程に対して、カメラワークや構図が決まっている場合、「キャベツを切っているシーン」、「魚を焼いているシーン」等を判別することが可能である。 Here, as an event of a video, an event occurring in a baseball broadcast video (double hit) is illustrated, but the present invention is not limited to an event of a baseball relay video. The present invention can discriminate an event if it is a video whose camera work and composition are determined by the event. For example, in a cooking program video, etc., if camera work and composition are determined for the work process, it is possible to discriminate "scenes that cut cabbage", "scenes that grill fish", etc. .
図1に示したように、映像イベント判別手法は、予め学習されている学習データ(特徴量分類データベース10a及びイベントデータベース11a)を参照し、映像イベントの判別を行うため、ここでは、最初に、学習データを生成する学習データ生成装置について説明し、続けて、図1に示した映像イベント判別手法を実現する映像イベント判別装置について、順次説明を行うこととする。
As shown in FIG. 1, the video event determination method refers to learning data (feature
[学習データ生成装置の構成]
最初に、図2を参照して、本発明に係る学習データ生成装置(映像イベント判別用学習データ生成装置)の構成について説明する。図2は、学習データ生成装置の構成を示すブロック図である。
[Configuration of learning data generator]
First, the configuration of a learning data generation device (video event determination learning data generation device) according to the present invention will be described with reference to FIG. FIG. 2 is a block diagram illustrating a configuration of the learning data generation apparatus.
図2に示すように、学習データ生成装置1は、外部から入力される映像から、類似する映像特徴量をクラス分けした特徴量分類データベース10aと、映像イベントの種類と連続する複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベース11aとを学習データとして生成するものである。
As illustrated in FIG. 2, the learning
ここでは、学習データ生成装置1は、特徴量分類DB記憶手段10と、イベントDB記憶手段11と、シーン分割手段12と、基準画像記憶手段13と、特徴量抽出手段14と、映像特徴量記憶手段15と、特徴量分類手段16と、シーン数値化手段17と、シーン分類DB記憶手段18と、シーン映像再生手段19と、イベント設定手段20とを備えている。
Here, the learning
特徴量分類DB(データベース)記憶手段10は、シーン毎の映像特徴量を類似する映像特徴量毎にクラス分け(クラスタリング)した特徴量分類データベース10aを記憶するものであって、ハードディスク等の一般的な記憶手段である。
The feature quantity classification DB (database) storage means 10 stores a feature
イベントDB(データベース)記憶手段11は、イベントの種類と、複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベース11aを記憶するものであって、ハードディスク等の一般的な記憶手段である。
なお、特徴量分類データベース10a及びイベントデータベース11aは、学習データ生成装置1内で生成されるものである。
The event DB (database) storage means 11 stores an
The feature
シーン分割手段12は、外部から映像を入力し、その映像をシーン毎に分割するものである。このシーン分割手段12は、映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、その切り替わり点毎に映像を分割する。なお、このシーンチェンジの検出は、既存の手法によって行うことができる。例えば、シーン分割手段12は、映像を構成する時系列に連続するフレーム画像から、それぞれの色特徴による数値ベクトル(例えば、RGBの各平均値等)を計算し、前後のフレーム画像における数値ベクトルの差分の絶対値和が予め定めた閾値よりも大きい場合は、フレーム画像間に連続性がないと判定しシーンチェンジが発生したものとみなす。
The scene dividing means 12 inputs an image from outside and divides the image for each scene. The
このシーン分割手段12は、映像を分割したシーン毎にフレーム画像を逐次特徴量抽出手段14に出力する。なお、シーン分割手段12は、後記するシーン数値化手段17で、1つのシーンの数値列データが生成された段階で、次のシーンを検出(分割)するものとする。さらに、ここでは、シーン分割手段12は、イベント開始検出手段12aを備えている。
The
イベント開始検出手段12aは、入力された映像から、シーンの切り替わりの開始点(切り替わり画像)を検出するものである。このイベント開始検出手段12aは、フレーム画像と、基準画像記憶手段13に記憶されている基準画像13aとを比較することで、基準画像13aと類似するフレーム画像が入力されたことを検出し、基準画像13aに類似するフレーム画像を、シーンの切り替わりの開始点とみなすこととする。なお、この類似の判定は、例えば、基準画像13aとフレーム画像との差分の絶対値和と予め定めた閾値とを比較することにより行う。
この基準画像13aを、例えば、イベントの開始となる画像とすることで、シーン分割手段12は、イベントが発生する先頭フレーム画像から、確実にシーンを分割することが可能になる。
The event start detection means 12a detects a scene switching start point (switched image) from the input video. The event start detection means 12a compares the frame image with the
By making the
基準画像記憶手段13は、イベントの開始となる基準画像13aを記憶しておくものであって、ハードディスク等の一般的な記憶手段である。例えば、野球中継の映像からイベントを判別するための学習データを生成する場合、基準画像13aを、バッターが打席に立ったときの画像や、ピッチャーが投球を行ったときの画像とすることで、シーン分割手段12において、野球における種々のイベント(例えば、ホームラン、三振等)の開始を検出することができる。
The reference image storage unit 13 stores a
特徴量抽出手段14は、シーン分割手段12で分割されたシーン毎に、そのシーンを構成するフレーム画像から映像特徴量を抽出するものである。この映像特徴量としては、一般的な映像の特徴量を用いることができる。例えば、シーンを構成する全フレーム画像におけるRGBの各平均値の数値ベクトルである。なお、この特徴量抽出手段14は、シーンにおける全フレーム画像を対象とするのではなく、予め定めたサンプリング間隔で、フレーム画像を選択し、その選択されたフレーム画像から映像特徴量を抽出することとしてもよい。
なお、ここで抽出された映像特徴量は、映像特徴量記憶手段15に記憶される。また、特徴量抽出手段14は、映像特徴量を映像特徴量記憶手段15に記憶した段階で、映像特徴量を抽出した旨を特徴量分類手段16に通知する。
The feature
Note that the video feature quantity extracted here is stored in the video feature quantity storage unit 15. In addition, the feature
本実施の形態においては、特徴量抽出手段14は、映像特徴量を、本願出願人が出願した「映像特徴情報生成方法、映像特徴情報生成装置及び映像特徴情報生成プログラム」(特願2003−73548)の技術を用いて、シーンの映像特徴量を、大まかな矩形領域と、その矩形領域の画像特徴量及び動きとで表現することとする。そのため、ここでは、特徴量抽出手段14は、節点追跡手段14aと、節点分類手段14bと、クラスタ画像特徴量生成手段14cと、シーン特徴量生成手段14dとを備えている。 In the present embodiment, the feature quantity extraction means 14 uses the “video feature information generation method, video feature information generation apparatus, and video feature information generation program” (Japanese Patent Application No. 2003-73548) filed by the applicant of the present application. The video feature amount of the scene is expressed by a rough rectangular area and the image feature amount and motion of the rectangular area. Therefore, here, the feature quantity extraction means 14 includes a node tracking means 14a, a node classification means 14b, a cluster image feature quantity generation means 14c, and a scene feature quantity generation means 14d.
節点追跡手段14aは、シーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる点(節点)を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡するものである。
ここで、図7を参照(適宜図2参照)して、節点追跡手段14aにおける節点の追跡について説明する。図7は、節点追跡手段における節点の追跡を視覚化した図で、(a)は、フレーム画像に節点を設置した状態を示す図、(b)は、フレーム画像上において節点を追跡した状態を示す図である。
The
Here, with reference to FIG. 7 (refer to FIG. 2 as appropriate), the tracking of the node in the node tracking means 14a will be described. FIG. 7 is a diagram visualizing the tracking of a node in the node tracking means. FIG. 7A is a diagram showing a state in which the node is set on the frame image, and FIG. 7B is a diagram showing a state in which the node is tracked on the frame image. FIG.
図7(a)に示すように、節点追跡手段14aは、シーンの先頭のフレーム画像に横Npx個、縦Npy個(Npx及びNpyは予め設定)で格子状に節点PTを設定する。そして、節点追跡手段14aは、各節点PTを中心とした近傍領域(近傍領域画像:Rfv画素×Rfv画素の正方形領域)から画像特徴量を計算し、各節点PTに対応付けておく。この画像特徴量は、画像処理の分野で一般的な特徴量を用いればよく、例えば、RGBの各色成分の平均値、画像をエッジ化したときのエッジ量の分布、画像の複雑さを示すフラクタル次元等を用いることができる。
As shown in FIG. 7 (a), the node tracking means 14a sets the nodes PT in a grid pattern with Npx horizontal and Npy vertical (Npx and Npy are preset) in the first frame image of the scene. Then, the
なお、図7(a)では、説明の都合上、フレーム画像上に節点PTを図示しているが、この節点PTはフレーム画像上の格子状の点に対応した位置を示しているだけである。
そして、図7(b)に示すように、節点追跡手段14aは、前フレ−ム画像における節点PT(図中●印)の近傍領域の画像特徴量が、現フレ−ム画像で、予め定めた閾値以下で最も差が小さくなる位置PTB(図中×印)に節点を移動させる。これによって、画像特徴量が近似する領域が、シーン全体にわたって追跡されることになる。
図2に戻って説明を続ける。
In FIG. 7A, for convenience of explanation, the node PT is illustrated on the frame image, but the node PT merely indicates a position corresponding to a grid-like point on the frame image. .
Then, as shown in FIG. 7 (b), the node tracking means 14a determines in advance that the image feature quantity in the region near the node PT (marked with ● in the figure) in the previous frame image is the current frame image. The node is moved to a position PT B (x mark in the figure) where the difference is the smallest below the threshold value. As a result, a region where the image feature amount approximates is tracked throughout the scene.
Returning to FIG. 2, the description will be continued.
節点分類手段14bは、フレーム画像毎に、フレーム画像内の節点を、その節点の位置と、近傍領域の画像特徴量とに基づいて、分類(クラスタリング)するものである。この節点分類手段14bは、各節点における近傍領域の画像特徴量が近似する節点を同一のクラス(クラスタ)として分類する。ただし、画像特徴量のみでは、図8(a)に示すように、位置が離れた節点を同一のクラスタCL1として分類してしまうため、節点分類手段14bは、図8(b)に示すように、同一クラスタのいずれの節点からも、予め定めた距離以上離れている節点を、別のクラスタ(CL1及びCL2)として切り離して分類する。
The node classification means 14b classifies (clusters) the nodes in the frame image for each frame image based on the position of the node and the image feature amount of the neighboring region. The
クラスタ画像特徴量生成手段14cは、節点追跡手段14aで追跡された各節点と、節点分類手段14bで分類された同一のクラスタの節点が、節点追跡手段14aでシーンの先頭フレーム画像から最終フレーム画像まで追跡された段階で、当該クラスタの画像特徴量(クラスタ画像特徴量)を生成するものである。このクラスタ画像特徴量は、例えば、同一クラスタ内におけるシーンの先頭フレーム画像から最終フレーム画像まで各節点の画像特徴量の平均値とする。なお、節点の近接領域画像の中で、画像特徴量の平均値に最も近似する画像を、クラスタの代表テクスチャ画像とし、画像特徴量の1つとして用いることとしてもよい。
The cluster image feature
シーン特徴量生成手段14dは、シーン全体におけるクラスタ毎の画像特徴量を、そのシーンの特徴量(映像特徴量)として生成するものである。このシーン特徴量生成手段14dは、クラスタの領域を示す矩形領域の座標情報と、クラスタ画像特徴量生成手段14cで生成されたクラスタ画像特徴量と、クラスタの動きとを、シーン特徴量として生成する。なお、クラスタの領域を示す矩形領域は、シーン全体における同一クラスタに含まれる節点の座標を含んだ最大領域を示す。また、クラスタの動きは、シーンの先頭フレーム画像から最終フレームまでのクラスタの位置重心の動きベクトルをを示す。
The scene feature
ここで、図9に特徴量抽出手段14が生成した映像特徴量のデータの一例を示す。図9に示すように、シーン毎に、シーンの先頭フレーム番号Ns、最終フレーム番号Ne、矩形領域の座標情報{(x0,y0)、(x1、y1)、(x2、y2)、(x3、y3)}、画像特徴量{(f(0)、f(1)、f(2)、…、f(N−1)}、及び、動きベクトルのx及びy成分{vx、vy}でクラスタ1個分の情報となる。
これによって、特徴量抽出手段14(図2)は、図10に示すように、映像Vのシーンを複数の矩形領域R(R1、R2、R3)で簡易化し、その矩形領域Rの座標情報(位置、大きさ)、画像特徴量、動きベクトルとして、映像特徴量を抽出する。
図2に戻って説明を続ける。
Here, FIG. 9 shows an example of video feature value data generated by the feature value extraction means 14. As shown in FIG. 9, for each scene, the first frame number Ns, the last frame number Ne, and the coordinate information {(x0, y0), (x1, y1), (x2, y2), (x3, y3)}, image feature quantity {(f (0), f (1), f (2),..., f (N-1)}, and cluster with x and y components {vx, vy} of the motion vector This is one piece of information.
As a result, the feature quantity extraction means 14 (FIG. 2) simplifies the scene of the video V with a plurality of rectangular areas R (R 1 , R 2 , R 3 ), as shown in FIG. Video feature quantities are extracted as coordinate information (position, size), image feature quantities, and motion vectors.
Returning to FIG. 2, the description will be continued.
映像特徴量記憶手段15は、特徴量抽出手段14で抽出されたシーンの毎の映像特徴量15aを記憶しておくものであって、ハードディスク等の記憶手段である。この映像特徴量記憶手段15は、映像特徴量15aを一時的に記憶しておくバッファとして機能し、後記するシーン数値化手段17によって、入力された映像における全てのシーンの数値列データが生成された段階で、削除される。
The video feature quantity storage means 15 stores the
特徴量分類手段16は、特徴量抽出手段14で抽出され、映像特徴量記憶手段15に記憶された映像特徴量15aを、類似する映像特徴量毎に分類(クラスタリング)し、映像特徴量15aをその分類されたクラス(クラスタ)の値(クラスタ値)に対応付けるものである。この特徴量分類手段16は、特徴量抽出手段14から映像特徴量15aを抽出した旨を通知された段階で、映像特徴量記憶手段15に記憶されている複数の映像特徴量15aを、差が予め定めた値(閾値)以下となるものを1つのクラスタとする。また、特徴量分類手段16は、同一のクラスタに含まれる映像特徴量の平均値を、そのクラスタを代表する映像特徴量(代表映像特徴量)とし、クラスタ値と対応付けた特徴量分類データベース10aを生成し、特徴量分類DB記憶手段10に記憶する。
The feature quantity classifying means 16 classifies (clusters) the
なお、特徴量分類手段16は、映像特徴量15aが、複数の特徴量(例えば、図9に示したような座標情報、画像特徴量、動きベクトル)からなる特徴ベクトルである場合は、個々の特徴量毎に平均値を算出し、代表映像特徴量とする。
また、特徴量分類データベース10aは、図11の特徴量分類データベースの構造図の例に示すように、クラスタ値C(C1、C2、…)と、代表映像特徴量CV(CV1、CV2、…)とを1対1で対応付けたデータベースである。
It should be noted that the feature
Further, as shown in the example of the structure diagram of the feature quantity classification database in FIG. 11, the feature
シーン数値化手段17は、映像のシーンを、当該シーンの映像特徴量に基づいて、特徴量分類手段16で分類されたクラスタ値に変換することで、シーンを数値(クラスタ値)に対応付けるものである。ここでは、シーンを複数の矩形領域で表しているため、シーン数値化手段17は、シーンを複数の数値(クラスタ値)のデータ列に変換する。なお、シーン数値化手段17は、数値化されたデータを、各シーンのフレーム番号に対応付けることで、シーン分類データベース18aを生成し、シーン分類DB記憶手段18に記憶する。
The scene digitizing means 17 associates a scene with a numerical value (cluster value) by converting the video scene into a cluster value classified by the feature quantity classifying means 16 based on the video feature quantity of the scene. is there. Here, since the scene is represented by a plurality of rectangular areas, the scene digitizing means 17 converts the scene into a data string of a plurality of numerical values (cluster values). The scene digitizing means 17 generates the
このシーン分類データベース18aは、図12のシーン分類データベースの構造図の例に示すように、シーンを特定する連続番号であるシーン番号Snに、フレーム番号Fn(先頭番号Fs−最終番号Fe)と、1つ以上のクラスタ値Cとを対応付けたデータベースである。
As shown in the example of the structure diagram of the scene classification database in FIG. 12, the
シーン分類DB(データベース)記憶手段18は、シーン数値化手段17で生成されるシーン分類データベース18aを記憶するものであって、ハードディスク等の記憶手段である。このシーン分類DB記憶手段18に記憶されているシーン分類データベース18aは、後記するシーン映像再生手段19及びイベント設定手段20によって参照される。
The scene classification DB (database) storage means 18 stores the
シーン映像再生手段19は、シーン分類データベース18aを参照することで、シーン毎の映像を再生するものである。このシーン映像再生手段19は、図12に示したシーン分類データベース18aのシーン番号Snの順番に、対応するフレーム番号Fnの画像を順次再生し、図示していない表示装置にシーン再生映像を表示することで、当該学習データ生成装置1を操作する操作者に対して、シーン毎の映像を提示する。
なお、シーン映像再生手段19は、映像の全時間軸における指定位置を指定可能なスライドバーを表示装置の画面上に表示させ、図示していないマウス等の入力手段によって、操作者が適宜、スライドバーを操作することで、対応するシーンを再生し、映像内で発生するイベントを再生映像として確認することとしてもよい。
The scene video playback means 19 plays back video for each scene by referring to the
The scene video playback means 19 displays on the screen of the display device a slide bar that can specify the specified position on the entire time axis of the video, and the operator appropriately slides by means of input means such as a mouse (not shown). By operating the bar, the corresponding scene may be reproduced and an event occurring in the video may be confirmed as a reproduced video.
イベント設定手段20は、操作者から図示していない入力手段を介して、複数の連続シーンをイベントとして指示されることで、イベントの種類と、複数のシーンを数値列データで表したシーン数値化列とを対応付けるものである。なお、イベントを識別するための識別情報(イベント名等)は、図示していない入力手段から入力されるものとする。また、そのイベントに対応するシーンは、直接シーン番号を入力されるか、前記したスライドバーの位置によって、イベント設定手段20が、シーン分類データベース18aからシーン番号を検索するものとする。
The event setting means 20 is instructed by the operator via an input means (not shown) as a plurality of continuous scenes as events, thereby converting the event types and scene numerical values representing the plurality of scenes into numerical string data. Corresponds to a column. Note that identification information (event name or the like) for identifying an event is input from an input unit (not shown). The scene corresponding to the event is directly input with the scene number, or the event setting means 20 searches the
これによって、イベント設定手段20は、イベントの種類とシーン(シーン番号)との対応付けが可能となる。そこで、イベント設定手段20は、シーン分類データベース18aのシーン番号に対応付けられているクラスタ値のデータ列を複数のシーン分連結したシーン数値化列を、イベント識別情報(イベント名等)と対応付けることで、イベントデータベース11aを生成し、イベントDB記憶手段11に記憶する。
As a result, the event setting means 20 can associate the event type with the scene (scene number). Therefore, the event setting means 20 associates a scene digitization sequence obtained by connecting a cluster value data sequence associated with a scene number in the
このイベントデータベース11aは、図13のイベントデータベースの構成図の例に示すように、イベント識別情報Ekに、シーン数値化列Sdとを対応付けたデータベースである。図13の例では、「ホームラン」というイベントの種類(イベント識別情報Ek)に、図12で示したシーン番号Sn1のクラスタ値(C11、C12、C13、…)、シーン番号Sn2のクラスタ値(C21、C22、C23、…)、…が対応付けられていることを示している。
As shown in the example of the configuration diagram of the event database in FIG. 13, the
以上説明したように、学習データ生成装置1は、入力される映像から、イベント(映像イベント)を判別するための学習データとなる、類似する映像特徴量をクラス分けした特徴量分類データベース10aと、映像イベントの種類と連続する複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベース11aとを生成することができる。
As described above, the learning
なお、学習データ生成装置1は、シーン分割手段12におけるイベント開始検出手段12a及び基準画像記憶手段13の各構成を省くことも可能である。しかし、イベント開始検出手段12a及び基準画像記憶手段13を備えた方が、イベントの先頭から数値データが生成され、イベントを適切に数値データのデータ列に変換することができるため好ましい。
Note that the learning
なお、学習データ生成装置1は、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることにより実現することができる。このプログラム(映像イベント判別用学習データ生成プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
The learning
[学習データ生成装置の動作]
次に、図3及び図4を参照して、本発明に係る学習データ生成装置(映像イベント判別用学習データ生成装置)の動作について説明する。ここでは、学習データ生成装置の動作を、特徴量分類データベースを生成する動作と、イベントデータベースを生成する動作とに分けて説明する。図3は、学習データ生成装置が特徴量分類データベースを生成する動作を示すフローチャートである。図4は、学習データ生成装置がイベントデータベースを生成する動作を示すフローチャートである。
[Operation of learning data generator]
Next, with reference to FIG. 3 and FIG. 4, the operation of the learning data generation device (video event determination learning data generation device) according to the present invention will be described. Here, the operation of the learning data generation device will be described separately for an operation for generating a feature amount classification database and an operation for generating an event database. FIG. 3 is a flowchart illustrating an operation in which the learning data generation device generates a feature amount classification database. FIG. 4 is a flowchart illustrating an operation in which the learning data generation apparatus generates an event database.
(特徴量分類データベース生成動作)
最初に、図3を参照(適宜図2参照)して、学習データ生成装置1が、特徴量分類データベース10aを生成する動作について説明する。
まず、学習データ生成装置1は、シーン分割手段12によって、映像をフレーム画像単位で入力する(ステップS1)。そして、学習データ生成装置1は、イベント開始検出手段12aによって、入力された原フレーム画像と、基準画像記憶手段13に記憶されている基準画像13aとが類似するかどうかを判定する(ステップS2)。
(Feature classification database generation operation)
First, referring to FIG. 3 (refer to FIG. 2 as appropriate), an operation in which the learning
First, the learning
ここで、原フレーム画像と基準画像13aとが類似していない場合(ステップS2でNo)、シーン分割手段12は、原フレーム画像を時間方向で前に入力された前フレーム画像と比較することで、フレーム画像間の連続性を判定する(ステップS3)。そして、シーン分割手段12は、フレーム画像に連続性があると判断した場合(ステップS3でYes)、フレーム画像を図示していない記憶手段に記憶しておき、ステップS1に戻って、次のフレーム画像を入力する。
Here, when the original frame image and the
そして、原フレーム画像と基準画像13aとが類似している場合(ステップS2でYes)又はフレーム画像に連続性がない場合(ステップS3でNo)は、原フレーム画像において、シーンが切り替わっている(シーンチェンジ)とみなし、原フレーム画像をシーンの切り替わり画像に設定する(ステップS4)。
ここで、シーン分割手段12は、原フレーム画像が、最初の切り替わり画像であるかどうかを判定し(ステップS5)、最初の切り替わり画像である場合(ステップS5でYes)は、原フレーム画像を図示していない記憶手段に記憶しておき、ステップS1に戻って、次のフレーム画像を入力する。
When the original frame image and the
Here, the
そして、原フレーム画像が、最初の切り替わり画像でない場合(ステップS5でNo)は、学習データ生成装置1は、特徴量抽出手段14によって、直前のシーンの切り替わり画像から、直前のフレーム画像までのシーンから映像特徴量を抽出する(ステップS6)。なお、この学習データ生成装置1では、節点追跡手段14aが、シーンの先頭のフレーム画像に予め定めた節点を、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に追跡する。また、節点分類手段14bが、フレーム画像毎に、フレーム画像内の節点を、その節点の位置と、近傍領域の画像特徴量とに基づいて、分類(クラスタリング)する。そして、クラスタ画像特徴量生成手段14cが、節点追跡手段14aで追跡された各節点と、節点分類手段14bで分類された同一のクラスタの節点が、節点追跡手段14aでシーンの先頭フレーム画像から最終フレーム画像まで追跡された段階で、当該クラスタの画像特徴量(クラスタ画像特徴量)を生成する。そして、シーン特徴量生成手段14dが、シーン全体におけるクラスタ毎の画像特徴量を、そのシーンの特徴量(映像特徴量)として生成する。
If the original frame image is not the first switching image (No in step S5), the learning
続けて、学習データ生成装置1は、特徴量分類手段16によって、ステップS6で抽出した映像特徴量を、類似する映像特徴量毎に分類(クラスタリング)し、映像特徴量をその分類されたクラス(クラスタ)の値(クラスタ値)に対応付け、特徴量分類データベース10aを生成する(ステップS7)。
Subsequently, the learning
そして、学習データ生成装置1は、入力された映像が終了したかどうかを判定し(ステップS8)、終了していない場合(ステップS8でNo)は、ステップS1に戻って動作を続ける。また、映像が終了した場合(ステップS8でYes)は、動作を終了する。
なお、図示していないが、ステップS1において、映像を入力できなくなった段階で、ステップS6に進むこととする。これによって、映像の最終シーンの映像特徴量が抽出されることになる。
以上説明したように、学習データ生成装置1は、入力された映像から、シーン毎の映像特徴量をクラスタリングした特徴量分類データベース10aを生成することができる。
Then, the learning
Although not shown in the figure, it is assumed that the process proceeds to step S6 when it becomes impossible to input a video in step S1. As a result, the video feature amount of the final scene of the video is extracted.
As described above, the learning
(イベントデータベース生成動作)
次に、図4を参照(適宜図2参照)して、学習データ生成装置1が、イベントデータベース11aを生成する動作について説明する。なお、図4におけるステップS11からステップS16までの動作は、図3で説明したステップS1からステップS6までの動作と同じ動作であるため説明を省略し、ステップS17以降の動作について説明する。
(Event database generation operation)
Next, with reference to FIG. 4 (refer to FIG. 2 as appropriate), an operation in which the learning
学習データ生成装置1は、ステップS16における映像特徴量の抽出後、シーン数値化手段17によって、シーン番号に、フレーム番号(先頭番号−最終番号)と、複数の数値(クラスタ値)のデータ列とを対応付けたシーン分類データベース18aを生成する(ステップS17)。
そして、学習データ生成装置1は、入力された映像が終了したかどうかを判定し(ステップS18)、終了していない場合(ステップS18でNo)は、ステップS11に戻って動作を続ける。
After the extraction of the video feature amount in step S16, the learning
Then, the learning
一方、映像が終了した場合(ステップS18でYes)、学習データ生成装置1は、シーン映像再生手段19によって、シーン毎の映像を再生する(ステップS19)。そして、学習データ生成装置1は、イベント設定手段20によって、操作者から図示していない入力手段を介して、複数の連続シーンをイベントとして指示されることで、イベントの種類を複数のシーンのシーン数値化列に対応付け、イベントデータベース11aを生成する(ステップS20)。
On the other hand, when the video is completed (Yes in step S18), the learning
そして、学習データ生成装置1は、操作者からイベントの対応付けに対する終了指示が入力されるかどうかを判定し(ステップS21)、終了が指示された段階(ステップS21でYes)で動作を終了し、指示されない間(ステップS21でNo)は、ステップS19に戻って動作を続ける。
以上説明したように、学習データ生成装置1は、入力された映像から、複数のシーンが連続したイベントに対して、映像特徴量のクラスタ値のデータ列を対応付けたイベントデータベース11aを生成することができる。
Then, the learning
As described above, the learning
[映像イベント判別装置の構成]
次に、図5を参照して、本発明に係る映像イベント判別装置の構成について説明する。図5は、映像イベント判別装置の構成を示すブロック図である。
図5に示すように、映像イベント判別装置2は、外部から入力される映像から、イベントの種類を判別するものである。ここでは、映像イベント判別装置2は、特徴量分類DB記憶手段10と、イベントDB記憶手段11と、シーン分割手段12と、基準画像記憶手段13と、特徴量抽出手段14と、映像特徴量記憶手段15と、特徴量数値化手段21と、イベント特定手段22とを備えている。
[Configuration of video event discriminator]
Next, the configuration of the video event determination device according to the present invention will be described with reference to FIG. FIG. 5 is a block diagram showing the configuration of the video event discriminating apparatus.
As shown in FIG. 5, the video
ここで、特徴量数値化手段21及びイベント特定手段22以外の構成は、図2で説明した学習データ生成装置1の構成と同一であるので、同一の符号を付して説明を省略する。また、学習データ生成装置1(図2)において、イベント開始検出手段12a及び基準画像記憶手段13が構成から省かれている場合は、映像イベント判別装置2においても構成から省くこととする。
Here, the configuration other than the feature value digitizing means 21 and the event specifying means 22 is the same as the configuration of the learning
なお、特徴量分類DB記憶手段10に記憶されている特徴量分類データベース10a(図11参照)、及び、イベントDB記憶手段11に記憶されているイベントデータベース11a(図13参照)は、学習データとして学習データ生成装置1で予め生成されたものである。
The feature
特徴量数値化手段21は、特徴量抽出手段14で抽出された映像特徴量を、特徴量分類データベース10aに基づいて、当該映像特徴量を分類した数値(クラスタ値)に変換するものである。この特徴量数値化手段21は、特徴量抽出手段14から映像特徴量を抽出した旨を通知された段階で、映像特徴量記憶手段15に記憶された映像特徴量15aと、図11に示した特徴量分類データベース10aの代表映像特徴量CVとのデータ距離が最も近いクラスタ値Cを、当該映像特徴量15aのクラスタ値とする。ここで変換されたクラスタ値は、イベント特定手段22に出力される。
The feature quantity digitizing means 21 converts the video feature quantity extracted by the feature
イベント特定手段22は、イベントデータベース11aに基づいて、特徴量数値化手段21から逐次出力されるクラスタ値のデータ列が、どのイベントに対応するデータ列であるのかを特定するものである。このイベント特定手段22は、入力されたクラスタ値のデータ列が、図13に示したイベントデータベース11aのシーン数値化列Sdと等しくなるイベント識別情報Ek(例えば、「ホームラン」等のイベント名)を、その連続したシーンのイベントと特定し、その特定結果(判別イベント)を出力する。
The event specifying means 22 specifies which event the data string of cluster values sequentially output from the feature value digitizing means 21 corresponds to, based on the
なお、ここでは、特徴量抽出手段14が、シーンの映像特徴量を特徴量数値化手段21に出力する際に、イベント特定手段22に対して、シーンの先頭フレーム番号及び最終フレーム番号を通知することとする。これによって、イベント特定手段22が、連続シーンの先頭シーンの先頭フレーム番号と、最終シーンの最終フレーム番号とを、判別イベントに付加することで、イベント全体の先頭フレーム番号と、最終フレーム番号とを、同時に出力することが可能になる。
Here, when the feature
以上説明したように、映像イベント判別装置2は、入力される映像から、イベント(映像イベント)を判別することができる。この映像イベントの判別は、映像特徴量を分類した数値列によって行うため、従来行うことができなかった、映像のシーンそのものからイベントを自動で判別することができる。
As described above, the video
なお、映像イベント判別装置2は、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることにより実現することができる。このプログラム(映像イベント判別プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
The video
[映像イベント判別装置の動作]
次に、図6を参照(適宜図5参照)して、本発明に係る映像イベント判別装置の動作について説明する。図6は、映像イベント判別装置の動作(イベント判別動作)を示すフローチャートである。なお、ステップS31〜ステップS36は、図3で説明した学習データ生成装置1(図2)の動作におけるステップS1〜ステップS6と同じ動作であるため説明を省略し、ステップS37以降の動作について説明する。
[Operation of video event discriminator]
Next, referring to FIG. 6 (refer to FIG. 5 as appropriate), the operation of the video event determination device according to the present invention will be described. FIG. 6 is a flowchart showing the operation (event determination operation) of the video event determination device. Steps S31 to S36 are the same as steps S1 to S6 in the operation of the learning data generation device 1 (FIG. 2) described in FIG. 3, and thus the description thereof will be omitted, and the operations after step S37 will be described. .
ステップS36後、映像イベント判別装置2は、特徴量数値化手段21が、学習データである特徴量分類データベース10aを参照することで、特徴量抽出手段14で抽出された映像特徴量を、当該映像特徴量を分類したクラスタ値に変換する(ステップS37)。
After step S36, the video
そして、映像イベント判別装置2は、イベント特定手段22が、イベントデータベース11aを参照することで、ステップS37で逐次変換されたクラスタ値のデータ列が、どのイベントに対応するデータ列であるかを特定し(ステップS38)、当該イベントのイベント名、先頭フレーム番号及び最終フレーム番号を判別イベントとして出力する(ステップS39)。
Then, in the video
そして、映像イベント判別装置2は、入力された映像が終了したかどうかを判定し(ステップS40)、終了していない場合(ステップS40でNo)は、ステップS31に戻って動作を続ける。また、映像が終了した場合(ステップS40でYes)は、動作(イベント判別動作)を終了する。
以上の動作によって、映像イベント判別装置2は、学習データ(特徴量分類データベース10a及びイベントデータベース11a)に基づいて、映像から、イベント(映像イベント)を判別することができる。
Then, the video
With the above operation, the video
1 学習データ生成装置(映像イベント判別用学習データ生成装置)
2 映像イベント判別装置
10 特徴量分類DB(データベース)記憶手段
10a 特徴量分類データベース
11 イベントDB(データベース)記憶手段
11a イベントデータベース
12 シーン分割手段
12a イベント開始検出手段
13 基準画像記憶手段
13a 基準画像
14 特徴量抽出手段
15 映像特徴量記憶手段
16 特徴量分類手段
17 シーン数値化手段
18 シーン分類DB(データベース)記憶手段
18a シーン分類データベース
19 シーン映像再生手段
20 イベント設定手段
21 特徴量数値化手段
22 イベント特定手段
1 Learning data generator (learning data generator for video event discrimination)
2 Video event discriminating device 10 Feature quantity classification DB (database) storage means 10a Feature quantity classification database 11 Event DB (database) storage means
Claims (6)
類似する前記映像特徴量の代表値と、その代表値を分類する数値データとを予め対応付けた特徴量分類データベースを記憶した特徴量分類データベース記憶手段と、
前記イベントの種類と、連続する複数のシーンを前記数値データのデータ列で表したシーン数値化列とを予め対応付けたイベントデータベースを記憶したイベントデータベース記憶手段と、
入力された前記映像をシーン毎に分割するシーン分割手段と、
このシーン分割手段で分割されたシーンに含まれる複数のフレーム画像から、当該シーンにおける前記映像特徴量を抽出する特徴量抽出手段と、
前記特徴量分類データベース記憶手段に記憶されている特徴量分類データベースを参照して、前記特徴量抽出手段で抽出された映像特徴量を、前記数値データに変換する特徴量数値化手段と、
前記イベントデータベース記憶手段に記憶されているイベントデータベースを参照して、前記特徴量数値化手段で変換された数値データのデータ列に対応するイベントの種類を特定するイベント特定手段と、
を備えていることを特徴とする映像イベント判別装置。 A video event discriminating apparatus that discriminates the type of event that occurs in the video based on the video feature amount in each scene of the input video,
A feature quantity classification database storage unit storing a feature quantity classification database in which representative values of similar video feature quantities and numerical data for classifying the representative values are associated in advance;
An event database storage unit that stores an event database in which the event type and a scene digitization sequence in which a plurality of continuous scenes are represented by a data sequence of the numerical data are associated in advance;
Scene dividing means for dividing the input video for each scene;
Feature quantity extracting means for extracting the video feature quantity in the scene from a plurality of frame images included in the scene divided by the scene dividing means;
A feature quantity quantification means for referring to a feature quantity classification database stored in the feature quantity classification database storage means and converting the video feature quantity extracted by the feature quantity extraction means into the numerical data;
Referring to an event database stored in the event database storage means, an event specifying means for specifying an event type corresponding to a data string of numerical data converted by the feature value digitizing means;
A video event discriminating apparatus comprising:
さらに、前記シーン分割手段が、前記フレーム画像と前記基準画像とを比較することで、前記映像内におけるイベントの開始を、前記シーンの切り替わりの開始点として検出するイベント開始検出手段を備えていることを特徴とする請求項1に記載の映像イベント判別装置。 Reference image storage means for storing in advance a reference image that is the start of an event that occurs in the video,
Further, the scene division means includes event start detection means for detecting the start of an event in the video as a start point of the scene switching by comparing the frame image with the reference image. The video event discriminating apparatus according to claim 1.
入力された前記映像をシーン毎に分割するシーン分割手段、
このシーン分割手段で分割されたシーンに含まれる複数のフレーム画像から、当該シーンにおける前記映像特徴量を抽出する特徴量抽出手段、
類似する前記映像特徴量の代表値と、その代表値を分類する数値データとを予め対応付けた特徴量分類データベースを参照して、前記特徴量抽出手段で抽出された映像特徴量を、前記数値データに変換する特徴量数値化手段、
前記イベントの種類と、連続する複数のシーンを前記数値データのデータ列で表したシーン数値化列とを予め対応付けたイベントデータベースを参照して、前記特徴量数値化手段で変換された数値データのデータ列に対応するイベントの種類を特定するイベント特定手段、
として機能させることを特徴とする映像イベント判別プログラム。 In order to determine the type of event that occurs in the video based on the video feature amount in each scene of the input video,
Scene dividing means for dividing the inputted video into scenes;
Feature quantity extracting means for extracting the video feature quantity in the scene from a plurality of frame images included in the scene divided by the scene dividing means;
With reference to a feature quantity classification database in which representative values of similar video feature quantities and numerical data for classifying the representative values are associated in advance, the video feature quantities extracted by the feature quantity extraction unit are Feature value digitizing means to convert to data,
Numeric data converted by the feature value digitizing means with reference to an event database in which the event type and a scene digitizing sequence in which a plurality of consecutive scenes are represented by a data sequence of the numeric data are associated in advance Event identification means for identifying the type of event corresponding to the data column of
A video event discriminating program characterized by functioning as
入力された前記映像をシーン毎に分割するシーン分割手段と、
このシーン分割手段で分割されたシーンに含まれる複数のフレーム画像から、当該シーンにおける前記映像特徴量を抽出する特徴量抽出手段と、
この特徴量抽出手段で抽出された映像特徴量を、類似する映像特徴量の代表値毎に、数値データを対応付けて分類した特徴量分類データベースを生成する特徴量分類手段と、
前記シーン毎に、当該シーンに含まれるフレーム画像を識別するためのフレーム画像番号と、前記特徴量分類手段によって分類された前記映像特徴量の数値データとを対応付けるシーン数値化手段と、
このシーン数値化手段で対応付けられた前記シーン毎のフレーム画像番号に基づいて、前記シーンを再生するシーン映像再生手段と、
このシーン映像再生手段で再生された連続する複数のシーンに対して、イベントの種類を示すイベント識別情報を入力されることで、前記イベント識別情報と、前記複数のシーンに対応する前記映像特徴量の数値データのデータ列であるシーン数値化列とを対応付けた前記イベントデータベースを生成するイベント設定手段と、
を備えていることを特徴とする映像イベント判別用学習データ生成装置。 A learning data generation device for video event determination that generates a feature amount classification database and an event database that are learning data used in the video event determination device according to claim 1,
Scene dividing means for dividing the input video for each scene;
Feature quantity extracting means for extracting the video feature quantity in the scene from a plurality of frame images included in the scene divided by the scene dividing means;
Feature quantity classification means for generating a feature quantity classification database that classifies video feature quantities extracted by the feature quantity extraction means in association with numerical data for each representative value of similar video feature quantities;
A scene digitizing means for associating, for each scene, a frame image number for identifying a frame image included in the scene and the numerical data of the video feature quantity classified by the feature quantity classifying means;
Scene video playback means for playing back the scene based on the frame image number for each scene associated with the scene digitizing means;
Event identification information indicating the type of event is input to a plurality of consecutive scenes reproduced by the scene image reproduction means, and the event identification information and the image feature amount corresponding to the plurality of scenes Event setting means for generating the event database in association with a scene digitization sequence that is a data sequence of
A learning data generating device for video event discrimination characterized by comprising:
さらに、前記シーン検出手段が、前記フレーム画像と前記基準画像とを比較することで、前記映像内におけるイベントの開始を、前記シーンの切り替わりの開始点として検出するイベント開始検出手段を備えていることを特徴とする請求項4に記載の映像イベント判別用学習データ生成装置。 Reference image storage means for storing in advance a reference image that is the start of an event that occurs in the video,
Furthermore, the scene detection means includes an event start detection means for detecting the start of an event in the video as a start point of the scene change by comparing the frame image with the reference image. The learning data generation device for video event discrimination according to claim 4.
入力された前記映像をシーン毎に分割するシーン分割手段、
このシーン分割手段で分割されたシーンに含まれる複数のフレーム画像から、当該シーンにおける前記映像特徴量を抽出する特徴量抽出手段、
この特徴量抽出手段で抽出された映像特徴量を、類似する映像特徴量の代表値毎に、数値データを対応付けて分類した特徴量分類データベースを生成する特徴量分類手段、
前記シーン毎に、当該シーンに含まれるフレーム画像を識別するためのフレーム画像番号と、前記特徴量分類手段によって分類された前記映像特徴量の数値データとを対応付けるシーン数値化手段、
このシーン数値化手段で対応付けられた前記シーン毎のフレーム画像番号に基づいて、前記シーンを再生するシーン映像再生手段、
このシーン映像再生手段で再生された連続する複数のシーンに対して、イベントの種類を示すイベント識別情報を入力されることで、前記イベント識別情報と、前記複数のシーンに対応する前記映像特徴量の数値データのデータ列であるシーン数値化列とを対応付けたイベントデータベースを生成するイベント設定手段、
として機能させることを特徴とする映像イベント判別用学習データ生成プログラム。 In order to generate a feature amount classification database and an event database, which are learning data used in the video event determination device according to claim 1 or 2,
Scene dividing means for dividing the inputted video into scenes;
Feature quantity extracting means for extracting the video feature quantity in the scene from a plurality of frame images included in the scene divided by the scene dividing means;
Feature quantity classification means for generating a feature quantity classification database that classifies video feature quantities extracted by the feature quantity extraction means in association with numerical data for each representative value of similar video feature quantities;
A scene quantification unit that associates, for each scene, a frame image number for identifying a frame image included in the scene and the numerical data of the video feature amount classified by the feature amount classification unit;
Scene video playback means for playing back the scene based on the frame image number for each scene associated with the scene digitizing means;
Event identification information indicating the type of event is input to a plurality of consecutive scenes reproduced by the scene image reproduction means, and the event identification information and the image feature amount corresponding to the plurality of scenes Event setting means for generating an event database in association with a scene digitization sequence that is a data sequence of the numerical data of
A learning data generation program for discriminating video events, characterized in that
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004149902A JP4546762B2 (en) | 2004-05-20 | 2004-05-20 | Video event discriminating learning data generating device and program thereof, and video event discriminating device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004149902A JP4546762B2 (en) | 2004-05-20 | 2004-05-20 | Video event discriminating learning data generating device and program thereof, and video event discriminating device and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005332206A true JP2005332206A (en) | 2005-12-02 |
JP4546762B2 JP4546762B2 (en) | 2010-09-15 |
Family
ID=35486825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004149902A Expired - Fee Related JP4546762B2 (en) | 2004-05-20 | 2004-05-20 | Video event discriminating learning data generating device and program thereof, and video event discriminating device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4546762B2 (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007158673A (en) * | 2005-12-05 | 2007-06-21 | Hitachi Ltd | Dangerous video detection method, and video difference detection method and apparatus |
JP2007304869A (en) * | 2006-05-11 | 2007-11-22 | Sony Corp | Image processing apparatus and method, program, and recording medium |
JP2009093250A (en) * | 2007-10-04 | 2009-04-30 | Sony Corp | Information processing apparatus and method, program, and recording medium |
JP2009163579A (en) * | 2008-01-08 | 2009-07-23 | Olympus Corp | Image processing apparatus and image processing program |
JP2009282660A (en) * | 2008-05-21 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | Image dictionary creation device, image dictionary creation method, and image dictionary creation program |
JP4456181B1 (en) * | 2008-10-27 | 2010-04-28 | パナソニック株式会社 | Moving object detection method and moving object detection apparatus |
WO2010079556A1 (en) * | 2009-01-09 | 2010-07-15 | パナソニック株式会社 | Moving object detection method and moving object detection apparatus |
JP2012043337A (en) * | 2010-08-23 | 2012-03-01 | Nikon Corp | Image processing device, imaging system, image processing method, and program |
JP2012185730A (en) * | 2011-03-07 | 2012-09-27 | Fujitsu Ltd | Information processing program, information processing method, and information processor |
KR20190125569A (en) * | 2018-04-30 | 2019-11-07 | 연세대학교 산학협력단 | Method and Apparatus for Generating Scene Situation Information of Video Using Differentiation of Image Feature and Supervised Learning |
WO2023011094A1 (en) * | 2021-08-02 | 2023-02-09 | 北京百度网讯科技有限公司 | Video editing method and apparatus, electronic device, and storage medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07114567A (en) * | 1993-10-20 | 1995-05-02 | Hitachi Ltd | Method and device for retrieving video |
JP2001243236A (en) * | 2000-02-28 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | Video feature extracting method, video feature extracting device, video retrieving method, video retrieving device and recording medium in which its program is recorded |
-
2004
- 2004-05-20 JP JP2004149902A patent/JP4546762B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07114567A (en) * | 1993-10-20 | 1995-05-02 | Hitachi Ltd | Method and device for retrieving video |
JP2001243236A (en) * | 2000-02-28 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | Video feature extracting method, video feature extracting device, video retrieving method, video retrieving device and recording medium in which its program is recorded |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007158673A (en) * | 2005-12-05 | 2007-06-21 | Hitachi Ltd | Dangerous video detection method, and video difference detection method and apparatus |
JP2007304869A (en) * | 2006-05-11 | 2007-11-22 | Sony Corp | Image processing apparatus and method, program, and recording medium |
JP2009093250A (en) * | 2007-10-04 | 2009-04-30 | Sony Corp | Information processing apparatus and method, program, and recording medium |
US8165387B2 (en) | 2007-10-04 | 2012-04-24 | Sony Corporation | Information processing apparatus and method, program, and recording medium for selecting data for learning |
JP2009163579A (en) * | 2008-01-08 | 2009-07-23 | Olympus Corp | Image processing apparatus and image processing program |
US8724847B2 (en) | 2008-01-08 | 2014-05-13 | Olympus Corporation | Image processing apparatus and program storage medium |
JP2009282660A (en) * | 2008-05-21 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | Image dictionary creation device, image dictionary creation method, and image dictionary creation program |
CN101983389B (en) * | 2008-10-27 | 2012-11-21 | 松下电器产业株式会社 | Moving body detection method and moving body detection device |
JP4456181B1 (en) * | 2008-10-27 | 2010-04-28 | パナソニック株式会社 | Moving object detection method and moving object detection apparatus |
WO2010050110A1 (en) * | 2008-10-27 | 2010-05-06 | パナソニック株式会社 | Moving body detection method and moving body detection device |
US8340357B2 (en) | 2008-10-27 | 2012-12-25 | Panasonic Corporation | Moving object detection method and moving object detection apparatus |
JP4542207B1 (en) * | 2009-01-09 | 2010-09-08 | パナソニック株式会社 | Moving object detection method and moving object detection apparatus |
US8213681B2 (en) | 2009-01-09 | 2012-07-03 | Panasonic Corporation | Moving object detection method and moving object detection apparatus |
WO2010079556A1 (en) * | 2009-01-09 | 2010-07-15 | パナソニック株式会社 | Moving object detection method and moving object detection apparatus |
JP2012043337A (en) * | 2010-08-23 | 2012-03-01 | Nikon Corp | Image processing device, imaging system, image processing method, and program |
JP2012185730A (en) * | 2011-03-07 | 2012-09-27 | Fujitsu Ltd | Information processing program, information processing method, and information processor |
KR20190125569A (en) * | 2018-04-30 | 2019-11-07 | 연세대학교 산학협력단 | Method and Apparatus for Generating Scene Situation Information of Video Using Differentiation of Image Feature and Supervised Learning |
KR102120453B1 (en) | 2018-04-30 | 2020-06-08 | 연세대학교 산학협력단 | Method and Apparatus for Generating Scene Situation Information of Video Using Differentiation of Image Feature and Supervised Learning |
WO2023011094A1 (en) * | 2021-08-02 | 2023-02-09 | 北京百度网讯科技有限公司 | Video editing method and apparatus, electronic device, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4546762B2 (en) | 2010-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5010292B2 (en) | Video attribute information output device, video summarization device, program, and video attribute information output method | |
Zhu et al. | Event tactic analysis based on broadcast sports video | |
CN101639354B (en) | Method and apparatus for object tracking | |
US7203366B2 (en) | Video retrieval method and apparatus | |
JP4227241B2 (en) | Image processing apparatus and method | |
US5923365A (en) | Sports event video manipulating system for highlighting movement | |
CN101807393B (en) | KTV system, implement method thereof and TV set | |
JP2008048279A (en) | Video-reproducing device, method, and program | |
JP4546762B2 (en) | Video event discriminating learning data generating device and program thereof, and video event discriminating device and program thereof | |
CA2392530A1 (en) | Coordination and combination of video sequences with spatial and temporal normalization | |
JP4886707B2 (en) | Object trajectory identification device, object trajectory identification method, and object trajectory identification program | |
JP6649231B2 (en) | Search device, search method and program | |
JP2006195525A (en) | Apparatus and program for adding video object locus | |
JP6983049B2 (en) | Object tracking device and its program | |
US7231088B2 (en) | Method for team play analysis | |
JP2007200249A (en) | Image search method, device, program, and computer readable storage medium | |
US20050213817A1 (en) | Image recognition apparatus and image recognition program | |
JP6853528B2 (en) | Video processing programs, video processing methods, and video processing equipment | |
JP6464616B2 (en) | Information processing program, method, and apparatus | |
JP6394184B2 (en) | Judgment program, method, and apparatus | |
KR102299459B1 (en) | Apparatus and method for analysis of baseball game and method for generating summarization video | |
JP2006042229A (en) | Image object extractor, image object trajetory synthesizer, its method and program | |
US7436983B2 (en) | Image recognition apparatus and image recognition program | |
CN110969133A (en) | Intelligent data acquisition method for table tennis game video | |
JP4177689B2 (en) | Video feature information generator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100702 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4546762 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140709 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |