JP2010252013A - Video retrieving apparatus and video retrieving program - Google Patents

Video retrieving apparatus and video retrieving program Download PDF

Info

Publication number
JP2010252013A
JP2010252013A JP2009098755A JP2009098755A JP2010252013A JP 2010252013 A JP2010252013 A JP 2010252013A JP 2009098755 A JP2009098755 A JP 2009098755A JP 2009098755 A JP2009098755 A JP 2009098755A JP 2010252013 A JP2010252013 A JP 2010252013A
Authority
JP
Japan
Prior art keywords
shot
video
main
shots
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009098755A
Other languages
Japanese (ja)
Other versions
JP5204716B2 (en
Inventor
Takahiro Mochizuki
貴裕 望月
Masato Fujii
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2009098755A priority Critical patent/JP5204716B2/en
Publication of JP2010252013A publication Critical patent/JP2010252013A/en
Application granted granted Critical
Publication of JP5204716B2 publication Critical patent/JP5204716B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To reliably and efficiently retrieve a scene of a main video part corresponding to a predetermined scene in an edited video. <P>SOLUTION: A main video part preprocessing section 21 calculates image characteristic vectors of a pitching shot and a second shot of a main video part for a game. An edited video vector calculating section 22 calculates image characteristic vectors of a pitching shot and second to fourth shots of a sports news edited video. A candidate shot set selecting section 24 obtains a similarity of the image characteristic vectors of the pitching shots in both videos to select a candidate shot set (d(n), k(n)). A final identifying section 25 obtains a similarity of the image characteristic vector of the second shot of the main video part in the game and the image characteristic vectors of the second to fourth shots of the sports news edited video and identifies a shot set (d<SB>MAX</SB>, k<SB>MAX</SB>). In this way, the pitching shot and batted ball shot of the shot set (d<SB>MAX</SB>, k<SB>MAX</SB>) correspond to a predetermined scene in the sports news edited video. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、映像を検索する装置に関し、特に、スポーツニュース等の編集映像における所定のシーンに対応した本編映像のシーンを検索する技術に関する。   The present invention relates to a video search device, and more particularly to a technique for searching a main video scene corresponding to a predetermined scene in an edited video such as sports news.

例えば、野球のシーンを紹介するスポーツニュースには、野球の試合を撮影した映像(試合本編映像)からその試合のキーとなる複数の「ハイライトシーン」を選定し、これらを短く編集して放映するものが多い。つまり、スポーツニュースは、試合のキーとなる「ハイライトシーン」によって構成されるのが一般的である。   For example, for sports news that introduces a baseball scene, multiple “highlight scenes” that are key to the game are selected from the video of the baseball game (main game video), and these are edited and broadcast shortly. There are many things to do. That is, the sports news is generally composed of “highlight scenes” that are the key to the game.

このため、スポーツニュースを視聴する視聴者は、スポーツニュースのシーンのみでは満足することができず、そのシーンに対応した試合本編映像をじっくり視聴したいと要望する場合があり得る。この視聴者の要望を実現するためには、視聴者がじっくり視聴したいと望むスポーツニュースのシーンを試合本編映像の中から特定する映像検索装置が必要になる。   For this reason, viewers who watch sports news may not be satisfied only with a sports news scene, and may desire to watch the main game video corresponding to the scene. In order to realize the viewer's demand, a video search device is required that identifies a sports news scene that the viewer wants to watch carefully from the main game video.

このような映像検索装置として、所望の映像を検索するために、映像をシーンに分割し、シーンを構成する先頭フレームの節点(基準点)の近傍領域をフレーム毎に追跡することにより、節点を分類して特徴量を生成する技術が知られている(特許文献1を参照)。この特徴量を用いて検索処理が行われる。   As such a video search device, in order to search for a desired video, the video is divided into scenes, and the nodes near the nodes (reference points) of the first frame constituting the scene are tracked for each frame, so that the nodes are searched. A technique for classifying and generating feature amounts is known (see Patent Document 1). Search processing is performed using this feature amount.

また、映像を構成するフレームを所定領域のブロックに分割し、ブロックの画像から代表的な画像を選択し、この代表的な画像から検索参照画像を描画する技術が知られている(特許文献2を参照)。この検索参照画像を用いて検索処理が行われる。また、分割したブロックの画像毎に色特徴及びテクスチャ特徴を抽出し、これらの特徴に重み付けをすることで映像間の類似度を計算する技術も知られている(特許文献3を参照)。   Also, a technique is known in which a frame constituting a video is divided into blocks of a predetermined area, a representative image is selected from the block images, and a search reference image is drawn from the representative image (Patent Document 2). See). Search processing is performed using this search reference image. A technique is also known in which color features and texture features are extracted for each image of a divided block, and the similarity between images is calculated by weighting these features (see Patent Document 3).

また、例えば、野球の得点シーン、イニングの変わり目等のイベントを判別する装置として、映像をシーンに分割し、シーンに含まれる複数のフレームの特徴量を計算し、この特徴量と、予め設定されたイベントの種類毎の数値データとに基づいて、シーンにおけるイベントの種類を特定する技術が知られている(特許文献4を参照)。また、投球シーンの開始点を検出するために、映像のフレームから芝及び土の領域を抽出して特徴量を計算し、この特徴量と、予め設定された投球シーンの特徴量との間の類似度を計算し、類似度に基づいて投球シーンの開始点のフレームを特定する技術が知られている(特許文献5を参照)。   Also, for example, as a device for discriminating events such as a scoring scene of baseball and a turning point of inning, a video is divided into scenes, feature quantities of a plurality of frames included in the scene are calculated, and the feature quantities are set in advance. A technique for identifying the type of event in a scene based on numerical data for each type of event is known (see Patent Document 4). In addition, in order to detect the starting point of the pitching scene, the turf and soil regions are extracted from the frame of the video and the feature amount is calculated, and between this feature amount and the preset pitch scene feature amount, A technique is known in which the similarity is calculated and the frame of the starting point of the pitching scene is specified based on the similarity (see Patent Document 5).

特開2004−280669号公報Japanese Patent Laid-Open No. 2004-280669 特開2002−140331号公報JP 2002-140331 A 特開2003−216649号公報JP 2003-216649 A 特開2005−332206号公報JP-A-2005-332206 特開2009−20621号公報JP 2009-20621 A

このような従来の映像検索装置は、スポーツニュースにおける所定のシーンから算出した特徴量と、試合本編映像における各シーンから算出した特徴量とに基づいて、スポーツニュースと試合本編映像との間でシーンの対応付けを行い、スポーツニュースのシーンに対応した試合本編映像のシーンを特定する。これにより、視聴者は、スポーツニュースの中の所望するシーンを、試合本編映像によりじっくり視聴することができる。   Such a conventional video search device is configured to generate a scene between sports news and a game main video based on a feature calculated from a predetermined scene in sports news and a feature calculated from each scene in the main game video. Are matched, and the scene of the main game video corresponding to the sports news scene is specified. Thereby, the viewer can watch the desired scene in the sports news carefully with the main game video.

しかしながら、スポーツニュースの各シーンは、試合本編映像をそのまま用いて制作されているのではなく編集が施されている。このため、スポーツニュースのシーンと試合本編映像のシーンとの間で特徴量を単純に比較する映像検索装置では、スポーツニュースのシーンに対応した試合本編映像のシーンを特定することが困難である。これは、スポーツニュースは、試合本編映像から選定した連続するショットがそのまま使用されて構成される場合に加え、試合本編映像から選定した連続する2つのショットの間に1または2程度の映像カットが挿入されて構成される場合もあり、ショット間の比較に加え、挿入された映像カットに対する処理が必要になるからである。尚、スポーツニュースの構成パターンの詳細については後述する。   However, each scene of sports news is not produced using the game main video as it is, but is edited. For this reason, it is difficult for a video search apparatus that simply compares feature quantities between a sports news scene and a game main video scene to specify a game main video scene corresponding to the sports news scene. This is because sports news has a video cut of about 1 or 2 between two consecutive shots selected from the main game video, in addition to the case where the continuous shots selected from the main game video are used as they are. This is because there is a case where it is configured by being inserted, and processing for the inserted video cut is required in addition to comparison between shots. Details of the sports news composition pattern will be described later.

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、編集映像における所定のシーンに対応した本編映像のシーンを、確実かつ効率的に検索することが可能な映像検索装置及び映像検索プログラムを提供することにある。   Accordingly, the present invention has been made to solve the above-mentioned problems, and the purpose of the present invention is to provide a video search capable of reliably and efficiently searching a scene of a main video corresponding to a predetermined scene in an edited video. An apparatus and a video search program are provided.

前記目的を達成するため、本発明による映像検索装置は、本編映像の特徴量、及び前記本編映像の連続したショットを含む編集映像の特徴量に基づいて、前記編集映像における所定のショットに対応した前記本編映像のショットを検索する映像検索装置において、前記本編映像におけるフレーム間の類似度に基づいてショット切替点を検出し、前記ショット切替点の直前の第1本編ショット及び直後の第2本編ショットからなるショットセットを抽出し、前記第1本編ショットの特徴量及び前記第2本編ショットの特徴量をそれぞれ計算する本編映像前処理部と、前記編集映像における所定のショットである第1編集ショットの特徴量、及び該第1編集ショットに続く連続した複数の編集ショットの特徴量をそれぞれ計算する編集映像計算部と、前記第1本編ショットの特徴量と前記第1編集ショットの特徴量とに基づいて、前記第1本編ショットと前記第1編集ショットとの間の第1の類似度を計算し、前記第2本編ショットの特徴量と前記第1編集ショットに続く連続した複数の編集ショットの特徴量とに基づいて、前記第2本編ショットと前記複数の編集ショットとの間の第2の類似度をそれぞれ計算し、前記第1の類似度及び第2の類似度に基づいて、前記編集映像における所定のショットに対応した前記本編映像のショットを特定する検索処理部と、を備えたことを特徴とする。   In order to achieve the above object, the video search apparatus according to the present invention corresponds to a predetermined shot in the edited video based on a feature quantity of the main video and a feature quantity of the edited video including consecutive shots of the main video. In the video search apparatus for searching for a shot of the main video, a shot switching point is detected based on a similarity between frames in the main video, and a first main shot and a second main shot immediately after the shot switching point are detected. A main set video pre-processing unit that extracts a feature set of the first main shot and a feature quantity of the second main shot, and a first edit shot that is a predetermined shot in the edited video. Edited video calculation unit for calculating feature values and feature values of a plurality of continuous edit shots following the first edit shot Based on the feature amount of the first main shot and the feature amount of the first edit shot, a first similarity between the first main shot and the first edit shot is calculated, and the second A second similarity between the second main shot and the plurality of edit shots is calculated based on the main shot feature and the features of a plurality of consecutive edit shots following the first edit shot, respectively. And a search processing unit that identifies a shot of the main video corresponding to a predetermined shot in the edited video based on the first similarity and the second similarity.

また、本発明による映像検索装置は、前記検索処理部が、前記第1本編ショットの特徴量と第1編集ショットの特徴量とに基づいて両ショットの類似度を計算し、前記類似度が所定の閾値よりも高い第1本編ショットを含むショットセットを、候補ショットセットとして選定する候補ショットセット選定部と、前記候補ショットセットに含まれる第2本編ショットの特徴量と、前記第1編集ショットに続く連続した複数の編集ショットの特徴量とに基づいて、前記第2本編ショットと前記複数の編集ショットとの間の類似度をそれぞれ計算し、全ての前記候補ショットセットにおける前記計算した類似度のうち、最も類似度が高い候補ショットセットを特定し、前記特定した候補ショットセットに含まれる第1本編ショットを、前記編集映像における所定のショットに対応した前記本編映像のショットとして特定する最終特定部と、を備えたことを特徴とする。   In the video search device according to the present invention, the search processing unit calculates the similarity between both shots based on the feature amount of the first main shot and the feature amount of the first edit shot, and the similarity is predetermined. A candidate shot set selection unit that selects a shot set including a first main shot higher than the threshold value as a candidate shot set, a feature amount of a second main shot included in the candidate shot set, and the first edited shot. The similarity between the second main shot and the plurality of editing shots is calculated based on the feature values of the subsequent consecutive editing shots, and the calculated similarities of all the candidate shot sets are calculated. Among them, the candidate shot set having the highest similarity is identified, and the first main shot included in the identified candidate shot set is selected as the edited video. And a final identifying section that identifies a definitive shot of the main video corresponding to the predetermined shot, and further comprising a.

また、本発明による映像検索装置は、前記検索処理部が、フレームが分割された領域をブロックとした場合に、連続した所定数のフレームに渡る前記ブロック毎の特徴量に基づいて、前記第1の類似度及び第2の類似度を計算する、ことを特徴とする。   Further, in the video search device according to the present invention, when the search processing unit sets a region in which a frame is divided as a block, the first search unit is based on the feature amount for each block over a predetermined number of consecutive frames. The similarity and the second similarity are calculated.

また、本発明による映像検索装置は、前記編集映像が、前記本編映像の連続した2つのショットに基づいて構成され、前記2つのショットに基づいて構成されたそれぞれのショットの間に、所定数の他のショットが挿入されており、前記編集映像計算部が、前記本編映像の連続した2つのショットに基づいて構成されたそれぞれのショットの特徴量、及び前記所定数の他のショットの特徴量を計算する、ことを特徴とする。   In the video search device according to the present invention, the edited video is configured based on two consecutive shots of the main video, and a predetermined number of shots are configured between the shots configured based on the two shots. Other shots are inserted, and the edited video calculation unit calculates the feature quantities of the respective shots configured based on two consecutive shots of the main video and the feature quantities of the predetermined number of other shots. It is characterized by calculating.

また、本発明による映像検索装置は、前記本編映像を野球の試合映像とし、前記第1本編ショット及び第1編集ショットを投球ショットとする、ことを特徴とする。   The video search device according to the present invention is characterized in that the main video is a baseball game video and the first main shot and the first edit shot are pitch shots.

また、本発明による映像検索プログラムは、本編映像の特徴量、及び前記本編映像の連続したショットを含む編集映像の特徴量に基づいて、前記編集映像における所定のショットに対応した前記本編映像のショットを検索するプログラムであって、コンピュータに、前記本編映像におけるフレーム間の類似度に基づいてショット切替点を検出するステップと、前記ショット切替点の直前の第1本編ショット及び直後の第2本編ショットからなるショットセットを抽出するステップと、前記第1本編ショットの特徴量及び第2本編ショットの特徴量をそれぞれ計算するステップと、前記編集映像における所定のショットである第1編集ショットの特徴量、及び該第1編集ショットに続く連続した複数の編集ショットの特徴量をそれぞれ計算するステップと、前記第1本編ショットの特徴量と前記第1編集ショットの特徴量とに基づいて、前記第1本編ショットと前記第1編集ショットとの間の第1の類似度を計算するステップと、前記第2本編ショットの特徴量と前記第1編集ショットに続く連続した複数の編集ショットの特徴量とに基づいて、前記第2本編ショットと前記複数の編集ショットとの間の第2の類似度をそれぞれ計算するステップと、前記第1の類似度及び第2の類似度に基づいて、前記編集映像における所定のショットに対応した前記本編映像のショットを特定するステップと、を実行させることを特徴とする。   In addition, the video search program according to the present invention is based on the feature quantity of the main video and the feature quantity of the edited video including consecutive shots of the main video, and the main video shot corresponding to the predetermined shot in the edited video. And a step of detecting a shot switching point based on a similarity between frames in the main video, and a first main shot and a second main shot immediately after the shot switching point. A step of extracting a shot set comprising: a step of calculating a feature amount of the first main shot and a feature amount of the second main shot; and a feature amount of a first edit shot that is a predetermined shot in the edited video, And feature amounts of a plurality of continuous edit shots following the first edit shot, respectively. Calculating a first similarity between the first main shot and the first edit shot based on the step, the feature amount of the first main shot, and the feature amount of the first edit shot; The second similarity between the second main shot and the plurality of edit shots based on the feature amount of the second main shot and the feature amounts of a plurality of consecutive edit shots following the first edit shot Performing a step of calculating each of the degrees, and a step of identifying a shot of the main video corresponding to a predetermined shot in the edited video based on the first similarity and the second similarity. Features.

以上のように、本発明によれば、編集映像における所定のショットに対応した本編映像のショットを、本編映像から抽出した第1本編ショットと、第1編集ショット(所定のショット)との間の類似度、及び、本編映像から抽出した第2本編ショットと第2編集ショット等との間のそれぞれの類似度から特定するようにした。この場合、編集映像が、本編映像の連続した2つのショットに基づいて構成され、これらの2つのショットの間に挿入された所定数の他のショットを含む場合であっても、すなわち、編集映像が、本編映像の連続した2つのショットのうちの先のショット、挿入された他のショット(複数の場合もあり得る)、及び本編映像の連続した2つのショットのうちの後のショットによって構成された場合であっても(例えば、後述する図1(2)パターンB)、本編映像の第2本編ショットと、本編映像の連続した2つのショットのうちの後のショットに対応する編集映像の編集ショットとの間の類似度も計算される。計算された類似度が最も高い本編映像のシーンが検索対象のシーンとなる。これにより、編集映像における所定のシーンに対応した本編映像のシーンを確実にかつ効率的に検索することができる。したがって、視聴者は、編集映像の中で所望するシーンを、試合本編映像によりじっくり視聴することができる。   As described above, according to the present invention, a shot of the main video corresponding to a predetermined shot in the edited video is between the first main shot extracted from the main video and the first edited shot (predetermined shot). The degree of similarity is specified from the degree of similarity between the second main part shot extracted from the main part video and the second edit shot and the like. In this case, even if the edited video is configured based on two consecutive shots of the main video and includes a predetermined number of other shots inserted between these two shots, that is, the edited video Is composed of the first shot of two consecutive shots of the main video, the other shot (s) inserted, and the later shot of the two consecutive shots of the main video. Even if it is a case (for example, FIG. 1 (2) pattern B mentioned later), editing of the edit video corresponding to the second main shot of the main video and the later shot of two consecutive main video shots The similarity between shots is also calculated. The scene of the main video having the highest calculated similarity is the search target scene. This makes it possible to reliably and efficiently search for a scene of the main video corresponding to a predetermined scene in the edited video. Therefore, the viewer can watch the desired scene in the edited video carefully with the main game video.

試合本編映像の投球ショット及び打球ショットを用いたスポーツニュース編集映像の構成パターンA,Bを説明する図である。It is a figure explaining the composition pattern A and B of the sports news edit image | video using the pitching shot and hitting shot of a game main part image | video. 本発明の実施形態による映像検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the video search device by embodiment of this invention. 所定の映像区間における画像特徴ベクトルの概念図である。It is a conceptual diagram of the image feature vector in a predetermined video section. スポーツニュース編集映像における投球ショット及び第2〜第4ショットの画像特徴ベクトルを説明する図である。It is a figure explaining the image feature vector of the pitch shot and the 2nd-4th shot in a sports news edit image | video. 候補ショットセット選定部の処理を説明するフローチャートである。It is a flowchart explaining the process of a candidate shot set selection part. 試合本編映像の投球ショットとスポーツニュース編集映像の投球ショットとの間の類似度を説明する図である。It is a figure explaining the similarity between the pitch shot of a game main part video, and the pitch shot of a sports news edit video. 最終特定部の処理を説明するフローチャートである。It is a flowchart explaining the process of the last specific part. 試合本編映像の第2ショットとスポーツニュース編集映像の第2〜第4ショットとの間の類似度を説明する図である。It is a figure explaining the similarity between the 2nd shot of a game main part picture, and the 2nd-4th shot of a sports news edit picture.

以下、本発明を実施するための形態について図面を用いて詳細に説明する。以下の実施形態では、野球の試合本編映像、及びその試合本編映像を編集したスポーツニュース編集映像を例として説明する。また、映像検索装置は、スポーツニュース中の野球映像における所定の投球ショット及び打球ショットを含むシーンについて、そのシーンに対応した野球の試合本編映像におけるシーンを検索するものとする。尚、本発明は、検索対象の映像を野球映像のみに限定するものでなく、他の映像にも適用がある。また、本発明は、検索対象のシーンを、野球映像の投球ショット及び打球ショットを含むシーンのみに限定するものではなく、例えば、投球ショット及び捕球ショットのシーン、打球ショット及び捕球ショットのシーン、得点シーン等にも適用がある。   Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings. In the following embodiments, a baseball game main video and a sports news editing video obtained by editing the game main video will be described as examples. The video search device searches for a scene in a baseball game main video corresponding to a scene including a predetermined throw shot and a hit shot in a baseball video in sports news. It should be noted that the present invention is not limited to the baseball video as a search target video, but can be applied to other videos. In addition, the present invention does not limit the scene to be searched to a scene including a pitching shot and a hitting shot of a baseball video. For example, a scene of a pitching shot and a catching shot, a scene of a hitting shot and a catching shot This also applies to scoring scenes.

図1は、試合本編映像の投球ショット及び打球ショットを用いたスポーツニュース編集映像の構成パターンA,Bを説明する図である。野球の試合本編映像では、ピッチャーがボールを投げてバッターがそのボールを打つというシーンに対し、ピッチャーが投球を行う一連の動作である投球ショットの映像と、ピッチャーからのボールをバッターが打つ一連の動作である打球ショットの映像との並びが使用される。このような投球ショットと打球ショットとの並び(ショットセット)が複数存在する試合本編映像を編集することにより、スポーツニュース編集映像が制作される。   FIG. 1 is a diagram for explaining configuration patterns A and B of a sports news edited video using a pitch shot and a hit ball shot of the main game video. In the baseball game main video, for the scene where the pitcher throws the ball and the batter hits the ball, the pitch shot is a series of actions that the pitcher throws, and the batter hits the ball from the pitcher The sequence with the video of the shot shot that is the motion is used. A sports news edited video is produced by editing a game main video having a plurality of such shot shots and shot shots (shot set).

図1(1)は、試合本編映像の投球ショット及び打球ショットをそのまま用いることにより、スポーツニュース編集映像が構成される例(パターンA)である。スポーツニュース編集映像の投球ショットは、試合本編映像における投球ショットのフレームのうち、打球ショットとの間の切れ目から遡って所定の映像区間のフレームが切り出されて構成される。スポーツニュース編集映像の打球ショットは、試合本編映像における打球ショットのフレームのうち、投球ショットとの間の切れ目から数えて所定の映像区間のフレームが切り出されて構成される。このパターンAのスポーツニュース編集映像は、投球ショット及び打球ショットを、切れ目を挟んでそのまま連続して並べたものとなる。   FIG. 1A is an example (pattern A) in which a sports news edited video is configured by using the pitch shot and the hit shot of the game main video as they are. The pitch shot of the sports news edited video is configured by cutting out a frame of a predetermined video section retroactively from the break between the pitch shot shot frames in the main game video. The hit shot of the sports news edited video is configured by cutting out a frame of a predetermined video section counted from a break between the shot shot and the shot shot frame in the main game video. The sports news edited video of this pattern A is a series of pitch shots and hit shots that are continuously arranged as they are with a break.

図1(2)は、試合本編映像の投球ショット及び打球ショットに加えて他のショットも用いることにより、スポーツニュース編集映像が構成される例(パターンB)である。スポーツニュース編集映像の投球ショットは、試合本編映像における投球ショットのフレームのうちの、所定の映像区間のフレームが切り出されて構成される。スポーツニュース編集映像の打球ショットは、試合本編映像における打球ショットのフレームのうちの、所定の映像区間のフレームが切り出されて構成される。また、スポーツニュース編集映像の投球ショットと打球ショットとの間に、1または2程度のショット数の他の映像が挿入されている。このパターンBのスポーツニュース編集映像は、投球ショット、他の映像のショット及び打球ショットを順番に並べたものとなる。   FIG. 1B is an example (pattern B) in which a sports news edited video is formed by using other shots in addition to the pitch shot and the hit ball shot of the main game video. The pitch shot of the sports news edited video is configured by cutting out a frame of a predetermined video section from the pitch shot frames in the main game video. The hit shot of the sports news edited video is configured by cutting out a frame of a predetermined video section from the shot shot frame in the main game video. In addition, another video having a shot number of about 1 or 2 is inserted between the pitch shot and the hit shot in the sports news edited video. The sports news edited video of this pattern B is a shot shot, a shot of another video, and a shot shot arranged in order.

ここで、スポーツニュース編集映像における所定のシーンに対応した試合本編映像のシーンを検索する場合を想定する。スポーツニュース編集映像が図1(1)のパターンAにより構成されている場合、スポーツニュース編集映像の投球ショット及び打球ショットの並びは、投球ショットに続く次のショットが打球ショットであるから、試合本編映像における投球ショット及び打球ショットの並びと同じである。したがって、スポーツニュース編集映像の投球ショットと試合本編映像の投球ショットとの間で映像の類似度を比較すると共に、スポーツニュース編集映像における投球ショットの次のショット(打球ショット)と、試合本編映像における投球ショットの次のショット(打球ショット)との間で映像の類似度を比較することにより、試合本編映像のシーンを特定することができる。   Here, a case is assumed where a scene of a game main video corresponding to a predetermined scene in a sports news edited video is searched. When the sports news edited video is composed of the pattern A in FIG. 1 (1), the pitching shot and the hitting shot of the sports news editing video are arranged as the next shot following the pitching shot is the hitting shot. This is the same as the pitch shot and hit shot sequence in the video. Therefore, the similarity of the video is compared between the pitch shot of the sports news edited video and the pitch shot of the main game video, and the next shot (hit ball shot) of the pitch shot in the sports news edited video and the main video of the game The scene of the main game video can be specified by comparing the similarity of the video with the shot after the pitching shot (hit ball shot).

しかしながら、スポーツニュース編集映像が図1(2)のパターンBにより構成されている場合、挿入されたショットの数が1のときは、投球ショットに続く次のショットが打球ショットではなく他のショットであり、その次のショットが打球ショットである。また、挿入されたショットの数が2のときは、投球ショットに続く次のショット及びその次のショットが打球ショットではなく他のショットであり、さらに次のショットが打球ショットである。このように、スポーツニュース編集映像がパターンBにより構成されている場合、パターンAと同様の処理では、スポーツニュース編集映像の投球ショット及び打球ショットと試合本編映像の投球ショット及び打球ショットとを対応付けることができず、試合本編映像のシーンを特定することができない。   However, when the sports news edited video is configured by the pattern B of FIG. 1 (2), when the number of inserted shots is 1, the next shot following the pitch shot is not a shot shot but another shot. Yes, the next shot is a shot. When the number of shots inserted is 2, the next shot following the pitch shot and the next shot are not shots but other shots, and the next shot is a shot shot. As described above, when the sports news edited video is composed of the pattern B, in the same process as the pattern A, the pitch shot and the shot of the sports news edited video are associated with the pitch shot and the shot of the main game video. It is not possible to specify the scene of the game main video.

そこで、本発明は、パターンAだけでなくパターンBの場合であっても、スポーツニュース編集映像における所定のシーンに対応した試合本編映像のシーンを特定するために、スポーツニュース編集映像における投球ショット(第1ショット)及び第2ショットだけでなく第3ショット及び第4ショット等も用いて、スポーツニュース編集映像のショットと試合本編映像のショットとの間で映像の類似度を比較することを特徴とする。尚、以下の実施形態では、パターンBが2つの他のショットが挿入された構成となっており、スポーツニュース編集映像において検索対象のショット数を4としているが、本発明はこの数に限定されるものではない。スポーツニュース編集映像における検索対象のショット数は、スポーツニュース編集映像において投球ショットと打球ショットとの間に挿入される他のショットの数に応じて決定される。例えば、挿入される他のショットの数が1の場合、スポーツニュース編集映像において検索対象のショット数を3とすればよく、また、挿入される他のショットの数が3の場合、スポーツニュース編集映像において検索対象のショット数を5とすればよい。さらに、挿入される他のショットの数が0の場合、すなわちパターンAの場合、スポーツニュース編集映像において検索対象のショット数を2とすればよい。   Therefore, in the present invention, even in the case of not only the pattern A but also the pattern B, in order to identify the scene of the game main video corresponding to a predetermined scene in the sports news edited video, a pitch shot ( The first and second shots as well as the third and fourth shots are used to compare the similarity of the video between the shot of the sports news edited video and the main game shot. To do. In the following embodiment, the pattern B has a configuration in which two other shots are inserted, and the number of shots to be searched in the sports news edited video is 4. However, the present invention is limited to this number. It is not something. The number of shots to be searched in the sports news edited video is determined according to the number of other shots inserted between the pitch shot and the hit shot in the sports news edited video. For example, if the number of other shots to be inserted is 1, the number of shots to be searched in the sports news edited video may be set to 3, and if the number of other shots to be inserted is 3, sports news editing The number of search target shots in the video may be five. Furthermore, when the number of other shots to be inserted is 0, that is, in the case of pattern A, the number of shots to be searched in the sports news edited video may be set to 2.

〔映像検索装置〕
図2は、本発明の実施形態による映像検索装置の構成を示すブロック図である。この映像検索装置1は、試合本編映像dが格納された記憶部11、スポーツニュース編集映像が格納された記憶部12、本編映像前処理部21、編集映像ベクトル計算部22及び検索処理部23を備えている。検索処理部23は、候補ショットセット選定部24及び最終特定部25を備えている。ここで、d=1〜Dであり、dは試合本編映像ファイルを示す番号(ID)、Dは蓄積された試合本編映像ファイルの数をそれぞれ示す。スポーツニュース編集映像を視聴する視聴者により、試合本編映像でじっくり視聴したいと所望する投球ショット及び打球ショットを含むシーンが指定されると、映像検索装置1は、そのシーンに対応する試合本編映像のシーンを検索する。尚、映像検索装置1は、試合本編映像d及びスポーツニュース編集映像を外部から入力するようにしてもよい。
[Video Search Device]
FIG. 2 is a block diagram showing a configuration of the video search apparatus according to the embodiment of the present invention. The video search apparatus 1 includes a storage unit 11 in which a game main video d is stored, a storage unit 12 in which sports news edited video is stored, a main video pre-processing unit 21, an edited video vector calculation unit 22, and a search processing unit 23. I have. The search processing unit 23 includes a candidate shot set selection unit 24 and a final identification unit 25. Here, d = 1 to D, d is a number (ID) indicating a main game video file, and D is the number of stored main game video files. When a viewer who views a sports news edited video designates a scene including a pitch shot and a shot to be desired to watch carefully in the main game video, the video search device 1 displays the game main video corresponding to the scene. Search for a scene. Note that the video search device 1 may input the game main video d and the sports news edited video from outside.

(本編映像前処理部)
まず、本編映像前処理部21について説明する。本編映像前処理部21は、記憶部11から試合本編映像d(d=1〜D)を読み出し、試合本編映像dのそれぞれの映像に対してショット切替点(ショットの切れ目)を検出し、その切替点を境にして映像をショット分割する。具体的には、本編映像前処理部21は、試合本編映像dを構成するフレームを所定数のブロックに分割し、分割したブロック毎の画像特徴ベクトルを計算し、前後のフレームにおける各ブロックの画像特徴ベクトルの類似度を計算する。そして、計算した類似度が所定の閾値よりも低いフレームの境目を、映像をショット分割するための切替点として検出する。また、計算した類似度が所定の閾値以上となるフレーム群を、一つのショットとして設定する。この切替点検出手法は既知であり、詳細については、例えば、特開2006−270301号公報を参照されたい。
(Main video pre-processing section)
First, the main video pre-processing unit 21 will be described. The main video pre-processing unit 21 reads the game main video d (d = 1 to D) from the storage unit 11 and detects a shot switching point (shot break) for each video of the game main video d. The video is divided into shots at the switching point. Specifically, the main video pre-processing unit 21 divides a frame constituting the game main video d into a predetermined number of blocks, calculates an image feature vector for each of the divided blocks, and images of each block in the preceding and following frames. Calculate the similarity of feature vectors. Then, a boundary between frames in which the calculated similarity is lower than a predetermined threshold is detected as a switching point for dividing the video into shots. In addition, a group of frames in which the calculated similarity is equal to or greater than a predetermined threshold is set as one shot. This switching point detection method is known, and for details, see, for example, Japanese Patent Laid-Open No. 2006-270301.

そして、本編映像前処理部21は、ショット分割した映像の切替点を跨いだ2つのショットについて、切替点の直前のショットが投球ショットであるか否かを、画像の類似性によって判定する。具体的には、本編映像前処理部21は、予め投球ショットの映像を用いて投球ショットリファレンスを生成しておき、切替点の直前のショットの画像特徴ベクトルと、予め生成された投球ショットリファレンスの画像特徴ベクトルとを比較して類似度を計算する。そして、その類似度が所定の閾値以上の場合に、切替点を跨いだ2つのショットは、投球ショット及び第2ショットであると判定し、そのショットの組み合わせ(ショットセット)に番号kを付す。ここで、k=1,・・・,K(d)であり、K(d)は、試合本編映像dの中で検出した投球ショット及び第2ショットのショットセット(以下、1−2ショットセットという。)の数を示す。このように、本編映像前処理部21は、試合本編映像dの中から、切替点を跨いだ投球ショット及び第2ショットの組み合わせである1−2ショットセットkを抽出する。ここで、第2ショットは、必ずしも打球ショットであるとは限らない。 Then, the main video pre-processing unit 21 determines whether or not the shot immediately before the switching point is a pitch shot for two shots straddling the switching point of the shot-divided video. Specifically, the main video pre-processing unit 21 generates a pitch shot reference in advance using the video of the pitch shot, the image feature vector of the shot immediately before the switching point, and the pitch shot reference generated in advance. The similarity is calculated by comparing with the image feature vector. When the similarity is equal to or greater than a predetermined threshold, it is determined that the two shots straddling the switching point are the pitch shot and the second shot, and the combination (shot set) of the shots is assigned the number k. Here, k = 1,..., K (d) , and K (d) is a shot set of the pitch shot and the second shot detected in the game main video d (hereinafter referred to as 1-2 shot set). Number). As described above, the main video pre-processing unit 21 extracts the 1-2 shot set k that is a combination of the pitch shot and the second shot across the switching point from the game main video d. Here, the second shot is not necessarily a hit shot.

尚、本編映像前処理部21は、切替点の直後のショットが打球ショットであるか否かについても、画像の類似性によって判定するようにしてもよい。具体的には、本編映像前処理部21は、予め打球ショットの映像を用いて打球ショットリファレンスを生成しておき、切替点の直後のショットの画像特徴ベクトルと、予め生成された打球ショットリファレンスの画像特徴ベクトルとを比較して類似度を計算する。そして、前述した切替点の直前の投球ショットの類似度が所定の閾値以上であり、かつ、その切替点の直後の打球ショットの類似度が所定の閾値以上である場合に、切替点を跨いだ2つのショットは、投球ショット及び第2ショット(打球ショット)であると判定し、そのショットの組み合わせに番号kを付して、1−2ショットセットkを抽出する。これにより、1−2ショットセットkを絞り込むことができるから、一層効率的な検索処理を実現することができる。   Note that the main video pre-processing unit 21 may determine whether or not the shot immediately after the switching point is a hit ball shot based on the similarity of images. Specifically, the main video pre-processing unit 21 generates a hit ball shot reference in advance using a hit ball shot video, and an image feature vector of a shot immediately after the switching point and a hit ball shot reference generated in advance. The similarity is calculated by comparing with the image feature vector. Then, when the similarity of the pitch shot immediately before the switching point is equal to or greater than a predetermined threshold and the similarity of the shot shot immediately after the switching point is equal to or greater than the predetermined threshold, the switching point is crossed. It is determined that the two shots are a pitch shot and a second shot (hit ball shot), and a number k is assigned to the combination of the shots to extract a 1-2 shot set k. Thereby, since the 1-2 shot set k can be narrowed down, more efficient search processing can be realized.

本編映像前処理部21は、試合本編映像dの1−2ショットセットkについて、投球ショット及び第2ショットをフレームに分解する。このとき、投球ショットの先頭フレーム番号をt10 (d, k)、投球ショットの長さ(フレーム数)をT1(d, k)、第2ショットの先頭フレーム番号をt20 (d, k)(=t10 (d, k)+T1(d, k))、第2ショットの長さ(フレーム数)をT2(d, k)とする。 The main video pre-processing unit 21 decomposes the pitch shot and the second shot into frames for the 1-2 shot set k of the game main video d. At this time, the first frame number of the pitch shot is t1 0 (d, k) , the length (number of frames ) of the pitch shot is T1 (d, k) , and the first frame number of the second shot is t2 0 (d, k). (= T1 0 (d, k) + T1 (d, k) ), and the length (number of frames) of the second shot is T2 (d, k) .

本編映像前処理部21は、1−2ショットセットkにおける投球ショットの各フレームt(t=t10 (d, k),・・・,t10 (d, k)+T1(d, k)−1)をM×N個にブロック分割し、各ブロック(i,j)の画像特徴ベクトルv1(d)(t,i,j)を計算する。ここで、i=1,・・・,M、j=1,・・・,Nであり、M,Nは予め設定された値である。すなわち、画像特徴ベクトルv1(d)(t,i,j)は、試合本編映像dのフレームtにおけるブロック(i,j)の画像特徴を示すデータである。例えば、画像特徴ベクトルv1(d)(t,i,j)は、そのブロック(i,j)内におけるRGBの画素値の平均値、または、そのブロック(i,j)内における輝度の平均値が用いられる。 The main video pre-processing unit 21 receives each frame t (t = t1 0 (d, k) ,..., T1 0 (d, k) + T1 (d, k) − in the 1-2 shot set k. 1) is divided into M × N blocks, and the image feature vector v1 (d) (t, i, j) of each block (i, j) is calculated. Here, i = 1,..., M, j = 1,..., N, and M and N are preset values. That is, the image feature vector v1 (d) (t, i, j) is data indicating the image feature of the block (i, j) in the frame t of the main game video d. For example, the image feature vector v1 (d) (t, i, j) is an average value of RGB pixel values in the block (i, j) or an average value of luminance in the block (i, j). Is used.

本編映像前処理部21は、1−2ショットセットkにおける第2ショットの各フレーム画像t(t=t20 (d, k),・・・,t20 (d, k)+T2(d, k)−1)についてもM×N個にブロック分割し、各ブロック(i,j)の画像特徴ベクトルv2(d)(t,i,j)を計算する。 The main video pre-processing unit 21 receives each frame image t (t = t2 0 (d, k) ,..., T2 0 (d, k) + T2 (d, k ) in the 1-2 shot set k. ) -1) is also divided into M × N blocks, and the image feature vector v2 (d) (t, i, j) of each block (i, j) is calculated.

このようにして本編映像前処理部21により計算された、1−2ショットセットkの投球ショットにおけるブロック(i,j)毎の画像特徴ベクトルv1(d)(t,i,j)、及び第2ショットにおけるブロック(i,j)毎の画像特徴ベクトルv2(d)(t,i,j)は、検索処理部23に出力される。 Thus, the image feature vector v1 (d) (t, i, j) for each block (i, j) in the pitch shot of the 1-2 shot set k calculated by the main video pre-processing unit 21 and the first The image feature vector v2 (d) (t, i, j) for each block (i, j) in two shots is output to the search processing unit 23.

(編集映像ベクトル計算部)
次に、編集映像ベクトル計算部22について説明する。編集映像ベクトル計算部22は、記憶部12からスポーツニュース編集映像を読み出し、スポーツニュース編集映像のうちの、視聴者により指定されたシーンの投球ショット及び打球ショットを含む第wショット(w=1は投球ショット、w=2,3,4は、それぞれ第2ショット、第3ショット及び第4ショットを示し、第4ショットは打球ショットを示す。)について、最終フレームからTフレーム分遡ったフレームtwqを先頭フレームとし、フレームtwqから最終フレームまでのフレーム数Tの映像区間における画像特徴ベクトルV(twq)を計算する。尚、フレーム数Tの映像区間は、第wショットのそれぞれの区間内であればどこでもよい。
(Edited video vector calculator)
Next, the edited video vector calculation unit 22 will be described. The edited video vector calculation unit 22 reads the sports news edited video from the storage unit 12, and of the sports news edited video, the w-th shot (w = 1 indicates the shot shot and the shot shot of the scene designated by the viewer). pitching shot, w = 2, 3, 4, the second shot, respectively, the third shows a shot and the fourth shot, a fourth shot showing a hitting shots.), frame tw q predated T frame from the last frame Is the first frame, and the image feature vector V (tw q ) in the video section of the number T of frames from the frame tw q to the last frame is calculated. Note that the video section of the number T of frames may be anywhere as long as it is within each section of the w-th shot.

図3は、所定の映像区間における画像特徴ベクトルの概念図である。図3を参照して、編集映像ベクトル計算部22の計算処理について具体的に説明する。編集映像ベクトル計算部22は、スポーツニュース編集映像に対し視聴者により指定されたシーンの投球ショット及び打球ショットを含む第wショット(w=1〜4)の映像において、フレームt0(=wq)を先頭フレームとしてそのショットのt0+T−1(最終フレーム)までの連続したT枚のフレームをM×N個にブロック分割する。そして、編集映像ベクトル計算部22は、T枚の各フレームtにおける各ブロック(i,j)の画像特徴ベクトルv(t,i,j)を計算し、各ブロック(i,j)において、画像特徴ベクトルv(t,i,j)をT枚分足し合わせ、その値をTで除算しV’(i,j)を計算する。 FIG. 3 is a conceptual diagram of image feature vectors in a predetermined video section. With reference to FIG. 3, the calculation process of the edit video vector calculation part 22 is demonstrated concretely. The edited video vector calculation unit 22 uses the frame t 0 (= w q ) in the video of the w-th shot (w = 1 to 4) including the pitch shot and the shot of the scene designated by the viewer for the sports news edited video. ) As the first frame, T consecutive frames from the shot to t 0 + T−1 (final frame) are divided into M × N blocks. Then, the edited video vector calculation unit 22 calculates the image feature vector v (t, i, j) of each block (i, j) in each of the T frames t, and in each block (i, j), the image The feature vectors v (t, i, j) are added by T, and the value is divided by T to calculate V ′ (i, j).

そして、編集映像ベクトル計算部22は、V’(i,j)を全てのブロックについて並べたV(t0)=(V’(1,1),V’(2,1),・・・,V’(i,j),・・・,V’(M,N))をこの映像区間(フレームt0〜フレームt0+T−1)の画像特徴ベクトルとして計算する。すなわち、編集映像ベクトル計算部22は、視聴者により指定されたシーンの投球ショット及び打球ショットを含む第wショット(w=1〜4)について、所定のフレーム数Tの映像区間における画像特徴ベクトルV(twq)を計算する。 Then, the edited video vector calculation unit 22 arranges V ′ (i, j) for all the blocks V (t 0 ) = (V ′ (1,1), V ′ (2,1),. , V ′ (i, j),..., V ′ (M, N)) are calculated as image feature vectors of this video section (frame t 0 to frame t 0 + T−1). That is, the edited video vector calculation unit 22 performs the image feature vector V in the video section of the predetermined number of frames T for the wth shot (w = 1 to 4) including the shot shot and the shot shot of the scene specified by the viewer. (Tw q ) is calculated.

図4は、スポーツニュース編集映像における投球ショット及び第2〜第4ショットの画像特徴ベクトルを説明する図である。図4に示すように、編集映像ベクトル計算部22は、投球ショット(w=1)について、フレームt1qから最終フレームまでのフレーム数Tの映像区間における画像特徴ベクトルV(t1q)を計算する。同様に、編集映像ベクトル計算部22は、第2〜第4ショット(w=2〜4)について、フレームt2q〜t4qから最終フレームまでのフレーム数Tの映像区間における画像特徴ベクトルV(t2q)〜V(t4q)をそれぞれ計算する。 FIG. 4 is a diagram for explaining the pitch shot and the image feature vectors of the second to fourth shots in the sports news edited video. As shown in FIG. 4, the edited video vector calculation unit 22 calculates the image feature vector V (t1 q ) in the video section of the number T of frames from the frame t1 q to the final frame for the pitch shot (w = 1). . Similarly, edited video vector calculation unit 22, the second to fourth shots (w = 2 to 4), the frame t2 q t4 image features in the video section of the frame number T from q to the last frame vector V (t2 q) ~V the (t4 q) is calculated.

このようにして編集映像ベクトル計算部22により計算された、スポーツニュース編集映像の中から視聴者により指定されたシーンの投球ショット及び打球ショットを含む第wショットについての、フレームtwqから最終フレームまでのフレーム数Tの映像区間における画像特徴ベクトルV(twq)は、検索処理部23に出力される。 From the frame tw q to the final frame of the w-th shot including the pitching shot and the hitting shot of the scene specified by the viewer from the sports news edited video calculated by the edited video vector calculation unit 22 in this way. The image feature vector V (tw q ) in the video section with the number of frames T is output to the search processing unit 23.

(候補ショットセット選定部)
次に、検索処理部23の候補ショットセット選定部24について説明する。候補ショットセット選定部24は、本編映像前処理部21から、試合本編映像の1−2ショットセットにおける投球ショットの画像特徴ベクトルv1(d)(t,i,j)を入力すると共に、編集映像ベクトル計算部22から、スポーツニュース編集映像において視聴者により指定されたシーンの投球ショット(w=1)における画像特徴ベクトルV(t1q)を入力する。そして、候補ショットセット選定部24は、試合本編映像の投球ショットに対し、所定のフレーム数Tの映像区間における画像特徴ベクトルV(t0)を算出し、スポーツニュース編集映像の投球ショットにおける画像特徴ベクトルV(t1q)との間の類似度S1(d)(t0)を算出し、候補ショットセット(d(n),k(n))を選定する。以下、具体的に説明する。
(Candidate Shot Set Selection Department)
Next, the candidate shot set selection unit 24 of the search processing unit 23 will be described. The candidate shot set selection unit 24 inputs the image feature vector v1 (d) (t, i, j) of the pitch shot in the 1-2 shot set of the main game video from the main video pre-processing unit 21 and the edited video. An image feature vector V (t1 q ) in a pitched shot (w = 1) of a scene designated by the viewer in the sports news edited video is input from the vector calculation unit 22. Then, the candidate shot set selection unit 24 calculates an image feature vector V (t 0 ) in a video section of a predetermined number of frames T for the pitch shot of the main game video, and the image feature in the pitch shot of the sports news edited video. A similarity S1 (d) (t 0 ) with the vector V (t1 q ) is calculated, and a candidate shot set (d (n), k (n)) is selected. This will be specifically described below.

図5は、候補ショットセット選定部24の処理を説明するフローチャートである。図6は、試合本編映像の投球ショットとスポーツニュース編集映像の投球ショットとの間の類似度を説明する図である。候補ショットセット選定部24は、試合本編映像の番号d=1を設定し(ステップS501)、試合本編映像dにおける1−2ショットセットの番号k=1を設定し(ステップS502)、試合本編映像dにおける先頭フレームの番号t0=t10 (d, k)を設定する(ステップS503)。ここで、フレームt10 (d, k)は、試合本編映像dの1−2ショットセットkにおける投球ショットの先頭フレームを示す。 FIG. 5 is a flowchart for explaining the processing of the candidate shot set selection unit 24. FIG. 6 is a diagram for explaining the similarity between the pitch shot of the main game video and the pitch shot of the sports news edited video. The candidate shot set selection unit 24 sets the game main video number d = 1 (step S501), sets the 1-2 shot set number k = 1 in the game main video d (step S502), and sets the game main video. The number t 0 = t 1 0 (d, k) of the first frame at d is set (step S503). Here, the frame t1 0 (d, k) indicates the first frame of the pitch shot in the 1-2 shot set k of the main game video d.

候補ショットセット選定部24は、試合本編映像dの投球ショットについて、フレームtにおけるブロック(i,j)の画像特徴ベクトルv1(d)(t,i,j)のうち、フレームt0〜t0+Tの映像区間におけるブロック(i,j)のv1(d)(t,i,j)(t=t0,・・・,t0+T−1)を用いて、この映像区間の画像特徴ベクトルV(t0)を計算する(ステップS504)。計算手法は、編集映像ベクトル計算部22による計算と同様である。 Candidate Shots selecting unit 24, the game for pitching shots main video d, of the block (i, j) the image feature vector v1 of (d) (t, i, j) in the frame t, frame t 0 ~t 0 Image feature vector of this video section using v1 (d) (t, i, j) (t = t 0 ,..., T 0 + T−1) of block (i, j) in the video section of + T V (t 0 ) is calculated (step S504). The calculation method is the same as the calculation by the edited video vector calculation unit 22.

候補ショットセット選定部24は、図6に示すように、スポーツニュース編集映像の投球ショット(w=1)についての所定の映像区間における画像特徴ベクトルV(t1q)と、ステップS504にて計算した試合本編映像の投球ショットについての所定の映像区間における画像特徴ベクトルV(t0)との間の類似度S1(d)(t0)を計算する(ステップS505)。 As shown in FIG. 6, the candidate shot set selection unit 24 calculates the image feature vector V (t1 q ) in a predetermined video section for the pitch shot (w = 1) of the sports news edited video, and the calculation in step S504. The similarity S1 (d) (t 0 ) is calculated between the image feature vector V (t 0 ) in a predetermined video section for the pitched shot of the main game video (step S505).

候補ショットセット選定部24は、ステップS505にて計算した類似度S1(d)(t0)と、予め設定された閾値S1thとを比較する(ステップS506)。類似度S1(d)(t0)が閾値S1thよりも大きいと判定した場合(ステップS506:Y)、現在処理中の「試合本編映像dの1−2ショットセットk」を「候補ショットセット」の集合(d(n),k(n))に追加し(ステップS507)、ステップS508へ移行する。一方、類似度S1(d)(t0)が閾値S1thよりも大きくないと判定した場合(ステップS506:N)、ステップS508へ移行する。これにより、スポーツニュース編集映像の投球ショットに類似する試合本編映像の投球ショットを含む1−2ショットセットの情報(試合本編映像のIDであるd及び1−2ショットセットの番号であるk)が、候補ショットセット(d(n),k(n))に設定される。nは、設定された順番を示す番号である。 The candidate shot set selection unit 24 compares the similarity S1 (d) (t 0 ) calculated in step S505 with a preset threshold value S1 th (step S506). When it is determined that the similarity S1 (d) (t 0 ) is larger than the threshold value S1 th (step S506: Y), the “main shot video d 1-2 shot set k” currently being processed is selected as the “candidate shot set”. ”(D (n), k (n)) (step S507), and the process proceeds to step S508. On the other hand, when it is determined that the similarity S1 (d) (t 0 ) is not greater than the threshold value S1 th (step S506: N), the process proceeds to step S508. Thereby, the 1-2 shot set information (d which is the ID of the game main video and k which is the number of the 1-2 shot set) including the pitch shot of the main game video similar to the pitch shot of the sports news edited video is obtained. The candidate shot set (d (n), k (n)) is set. n is a number indicating the set order.

候補ショットセット選定部24は、試合本編映像dにおける先頭フレームの番号t0をインクリメントし(ステップS508)、その先頭フレームの番号t0とt10 (d, k)+T1(d, k)−Tとを比較する(ステップS509)。t10 (d, k)は投球ショットの先頭フレームの番号を示し、T1(d, k)は投球ショットの長さ(フレーム数)を示し、Tは処理単位のフレーム数を示す。すなわち、先頭のフレーム番号t0が、最終フレームから遡ってTフレーム分前のフレーム番号よりも大きいか否かを判定する。言い換えると、その試合本編映像dの1−2ショットセットkにおける投球ショットについて、その映像区間内におけるTフレーム数毎のステップS504からステップS508までの処理が、その先頭フレームt10 (d, k)から最終フレームに渡って全て完了したか否かを判定する。 The candidate shot set selection unit 24 increments the first frame number t 0 in the main game video d (step S508), and the first frame number t 0 and t1 0 (d, k) + T1 (d, k) −T Are compared (step S509). t1 0 (d, k) indicates the number of the first frame of the pitch shot, T1 (d, k) indicates the length (number of frames ) of the pitch shot, and T indicates the number of frames in the processing unit. That is, it is determined whether or not the top frame number t 0 is larger than the frame number of T frames before the last frame. In other words, with respect to the pitch shot in the 1-2 shot set k of the main game video d, the processing from step S504 to step S508 for each T frame number in the video section is the first frame t1 0 (d, k). It is determined whether or not everything has been completed over the last frame.

候補ショットセット選定部24は、ステップS509において、先頭フレームの番号t0がt10 (d, k)+T1(d, k)−Tよりも大きいと判定した場合(ステップS509:Y)、すなわち、投球ショットの映像区間内におけるTフレーム毎の処理が全て完了したと判定した場合、ステップS510へ移行する。一方、先頭フレームの番号t0がt10 (d, k)+T1(d, k)−Tよりも大きくないと判定した場合(ステップS509:N)、すなわち、投球ショットの映像区間内におけるTフレーム毎の処理が全て完了していないと判定した場合、ステップS508にて設定した先頭のフレーム番号t0からTフレーム分の処理を行うため、ステップS504へ移行する。これにより、次のフレーム番号t0を先頭にした処理が行われる。 If the candidate shot set selection unit 24 determines in step S509 that the first frame number t 0 is larger than t1 0 (d, k) + T1 (d, k) −T (step S509: Y), that is, If it is determined that all the processes for each T frame in the video section of the pitch shot have been completed, the process proceeds to step S510. On the other hand, when it is determined that the first frame number t 0 is not larger than t 1 0 (d, k) + T 1 (d, k) −T (step S 509: N), that is, the T frame in the video section of the pitch shot when the processing for each is determined not to be completed, for the processing of T frame from the frame number t 0 of the top set at step S508, the process proceeds to step S504. As a result, the process with the next frame number t 0 as the head is performed.

候補ショットセット選定部24は、試合本編映像dにおける1−2ショットセットの番号kをインクリメントし(ステップS510)、その1−2ショットセットの番号kとK(d)とを比較する(ステップS511)。K(d)は試合本編映像dから抽出された1−2ショットセットの数を示す。すなわち、その試合本編映像dにおける全ての1−2ショットセットの投球ショットについて、ステップS503からステップS510までの処理が完了したか否かを判定する。 The candidate shot set selection unit 24 increments the 1-2 shot set number k in the main game video d (step S510), and compares the 1-2 shot set number k with K (d) (step S511). ). K (d) indicates the number of 1-2 shot sets extracted from the game main video d. That is, it is determined whether or not the processing from step S503 to step S510 has been completed for all the shots of the 1-2 shot set in the main game video d.

候補ショットセット選定部24は、ステップS511において、1−2ショットセットの番号kがK(d)よりも大きいと判定した場合(ステップS511:Y)、すなわち、その試合本編映像dにおける全ての1−2ショットセットについて処理が完了したと判定した場合、ステップS512へ移行する。一方、1−2ショットセットの番号kがK(d)よりも大きくないと判定した場合(ステップS511:N)、すなわち、その試合本編映像dにおける全ての1−2ショットセットについて処理が完了していないと判定した場合、ステップS510にて設定した1−2ショットセットkの処理を行うため、ステップS503へ移行する。これにより、次の番号の1−2ショットセットkについて処理が行われる。 If the candidate shot set selection unit 24 determines in step S511 that the number k of the 1-2 shot set is larger than K (d) (step S511: Y), that is, all 1s in the game main video d. When it is determined that the process has been completed for the -2 shot set, the process proceeds to step S512. On the other hand, when it is determined that the number 1-2 of the 1-2 shot set is not larger than K (d) (step S511: N), that is, the processing is completed for all 1-2 shot sets in the main game video d. If it is determined that it is not, the process proceeds to step S503 in order to process the 1-2 shot set k set in step S510. As a result, processing is performed for the next 1-2 shot set k.

候補ショットセット選定部24は、試合本編映像のIDであるdをインクリメントし(ステップS512)、その試合本編映像dとDとを比較する(ステップS513)。Dは試合本編映像ファイルの数を示す。すなわち、全ての試合本編映像dについて、ステップS502からステップS512までの処理が完了したか否かを判定する。   The candidate shot set selection unit 24 increments d, which is the ID of the game main video (step S512), and compares the game main video d with D (step S513). D indicates the number of game main video files. That is, it is determined whether or not the processing from step S502 to step S512 has been completed for all the main game videos d.

候補ショットセット選定部24は、ステップS513において、試合本編映像のIDであるdがDよりも大きいと判定した場合(ステップS513:Y)、すなわち、全ての試合本編映像dについて処理が完了したと判定した場合、処理を終了する。一方、試合本編映像のIDであるdがDよりも大きくないと判定した場合(ステップS513:N)、すなわち、全ての試合本編映像dについて処理が完了していないと判定した場合、ステップS512にて設定した試合本編映像dの処理を行うため、ステップS502へ移行する。これにより、次の試合本編映像dについて処理が行われる。   If the candidate shot set selection unit 24 determines in step S513 that d, which is the ID of the main game video, is greater than D (step S513: Y), that is, the processing has been completed for all main game videos d. If determined, the process is terminated. On the other hand, if it is determined that d, which is the ID of the game main video, is not greater than D (step S513: N), that is, if it is determined that processing has not been completed for all the game main video d, the process proceeds to step S512. The process proceeds to step S502 in order to process the main game video d set in step S502. Thereby, a process is performed about the next game main video d.

このように、候補ショットセット選定部24は、試合本編映像d毎、試合本編映像dから抽出された1−2ショットセット毎、及び、投球ショットの映像区間内で先頭フレームから最終フレームまでの間で指定したTフレーム毎に処理を行い、スポーツニュース編集映像の投球ショットと試合本編映像の投球ショットとの間で類似度を計算し、候補ショットセット(d(n),k(n))の集合{(d(1),k(1)),・・・,(d(Nss),k(Nss))}を選定し、最終特定部25に出力する。これにより、候補ショットセット選定部24は、試合本編映像から抽出された1−2ショットセットkのうち、スポーツニュース編集映像の投球ショットに類似する投球ショットを含む1−2ショットセットを、候補ショットセット(d(n),k(n))として選定することができる。ここで、(d(n),k(n))は、映像d(n)のk(n)番目の1−2ショットセットであり、Nssは候補ショットセットの数である。 In this manner, the candidate shot set selection unit 24 determines whether the main game video d, every 1-2 shot set extracted from the main game video d, and the first frame to the last frame in the video section of the pitch shot. Processing is performed for each T frame specified in, and the similarity between the pitch shot of the sports news edited video and the pitch shot of the main game video is calculated, and the candidate shot set (d (n), k (n)) A set {(d (1), k (1)),..., (D (N ss ), k (N ss ))} is selected and output to the final specifying unit 25. Thereby, the candidate shot set selection unit 24 selects a 1-2 shot set including a pitch shot similar to the pitch shot of the sports news edited video from the 1-2 shot set k extracted from the main game video as a candidate shot. It can be selected as a set (d (n), k (n)). Here, (d (n), k (n)) is the k (n) -th 1-2 shot set of the video d (n), and N ss is the number of candidate shot sets.

(最終特定部)
次に、検索処理部23の最終特定部25について説明する。最終特定部25は、本編映像前処理部21から、試合本編映像の1−2ショットセットにおける第2ショットの画像特徴ベクトルv2(d)(t,i,j)を入力すると共に、編集映像ベクトル計算部22から、スポーツニュース編集映像において視聴者により指定されたシーンの第2〜第4ショット(w=2〜4)における画像特徴ベクトルV(t2q)〜V(t4q)をそれぞれ入力する。また、候補ショットセット選定部24から、試合本編映像とスポーツニュース編集映像との間の投球ショットにおいて類似度が高いと判定された候補ショットセット(d(n),k(n))を入力する。そして、最終特定部25は、試合本編映像の第2ショットに対し、フレーム数Tの映像区間における画像特徴ベクトルV(t0)を算出し、スポーツニュース編集映像の第2〜第4ショットにおける画像特徴ベクトルV(t2q)〜V(t4q)との間の類似度S2(d)(t0)〜S4(d)(t0)を算出し、候補ショットセット(d(n),k(n))の中から、最も類似度の高いショットセットを特定し、試合本編映像ID、映像区間の開始点(開始フレームの番号)及び終了点(終了フレームの番号)を出力する。以下、具体的に説明する。
(Final specific part)
Next, the final specifying unit 25 of the search processing unit 23 will be described. The final specifying unit 25 inputs the image feature vector v2 (d) (t, i, j) of the second shot in the 1-2 shot set of the main game video from the main video preprocessing unit 21 and the edited video vector. The image feature vectors V (t2 q ) to V (t4 q ) in the second to fourth shots (w = 2 to 4) of the scene designated by the viewer in the sports news edited video are input from the calculation unit 22, respectively. . The candidate shot set selection unit 24 inputs candidate shot sets (d (n), k (n)) determined to have high similarity in pitch shots between the main game video and the sports news edited video. . Then, the final specifying unit 25 calculates the image feature vector V (t 0 ) in the video section of the number T of frames for the second shot of the main game video, and the images in the second to fourth shots of the sports news edited video. Similarities S2 (d) (t 0 ) to S4 (d) (t 0 ) between the feature vectors V (t2 q ) to V (t4 q ) are calculated, and candidate shot sets (d (n), k The shot set having the highest similarity is identified from (n)), and the main game video ID, the start point (start frame number) and end point (end frame number) of the video section are output. This will be specifically described below.

図7は、最終特定部25の処理を説明するフローチャートである。図8は、試合本編映像d(n)の第2ショットとスポーツニュース編集映像の第2〜第4ショットとの間の類似度を説明する図である。最終特定部25は、類似度の最大値SMAX=0.0を設定し(ステップS701)、候補ショットセットの番号n=1を設定し(ステップS702)、候補ショットセット(d(n),k(n))の第2ショットにおける先頭フレームの番号t0=t20 (d(n), k(n))を設定する(ステップS703)。 FIG. 7 is a flowchart for explaining the processing of the final specifying unit 25. FIG. 8 is a diagram for explaining the similarity between the second shot of the game main video d (n) and the second to fourth shots of the sports news edited video. The final identification unit 25 sets the maximum similarity S MAX = 0.0 (step S701), sets the candidate shot set number n = 1 (step S702), and sets the candidate shot set (d (n), The first frame number t 0 = t 2 0 (d (n), k (n)) in the second shot of k (n)) is set (step S703).

最終特定部25は、試合本編映像d(n)の第2ショットについて、フレームtにおけるブロック(i,j)の画像特徴ベクトルv2(d(n))(t,i,j)のうち、フレームt0〜t0+Tの映像区間におけるブロック(i,j)のv2(d(n))(t,i,j)(t=t0,・・・,t0+T−1)を用いて、この映像区間の画像特徴ベクトルV(t0)を計算する(ステップS704)。計算手法は、編集映像ベクトル計算部22による計算と同様である。 Final identification unit 25, for the second shot of the game main video d (n), the image feature vector v2 of the block (i, j) in the frame t (d (n)) ( t, i, j) of the frame t 0 ~t 0 + T blocks in the image section (i, j) of v2 (d (n)) ( t, i, j) by using the (t = t 0, ···, t 0 + T-1) Then, the image feature vector V (t 0 ) of this video section is calculated (step S704). The calculation method is the same as the calculation by the edited video vector calculation unit 22.

最終特定部25は、図8に示すように、スポーツニュース編集映像の第2〜第4ショット(w=2〜4)についての所定の映像区間における画像特徴ベクトルV(t2q)〜V(t4q)と、ステップS704にて計算した試合本編映像d(n)の第2ショットについての所定の映像区間における画像特徴ベクトルV(t0)との間の類似度S2(d(n))(t0)〜S4(d(n))(t0)をそれぞれ計算する(ステップS705)。 As shown in FIG. 8, the final specifying unit 25 includes image feature vectors V (t2 q ) to V (t4) in a predetermined video section for the second to fourth shots (w = 2 to 4) of the sports news edited video. q ) and the similarity S2 (d (n)) between the image feature vector V (t 0 ) in the predetermined video section for the second shot of the main game video d (n) calculated in step S704. t 0) to S4 of (d (n)) (t 0) is calculated respectively (step S705).

最終特定部25は、ステップS705にて計算した類似度S2(d(n))(t0)〜S4(d(n))(t0)の中から最大値S(d(n))(t0)を設定する(ステップS706)。 The final specifying unit 25 selects the maximum value S (d (n)) (from the similarity S2 (d (n)) (t 0 ) to S4 (d (n)) (t 0 ) calculated in step S705. t 0 ) is set (step S706).

最終特定部25は、類似度の最大値SMAXとステップS706にて設定した類似度S(d(n))(t0)とを比較する(ステップS707)。類似度の最大値SMAXが類似度S(d(n))(t0)よりも小さいと判定した場合(ステップS707:Y)、SMAX=S(d(n))(t0),dMAX=d(n),tMAX=t0を設定する。すなわち、ステップS706にて設定した類似度S(d(n))(t0)を最大値SMAXに、候補ショットセットd(n)を最適ショットセットdMAXに、先頭フレームt0を最適先頭フレームtMAXにそれぞれ設定する(ステップS708)。そして、ステップS709へ移行する。一方、類似度の最大値SMAXが類似度S(d(n))(t0)よりも小さくないと判定した場合(ステップS707:N)、ステップS709へ移行する。これにより、試合本編映像d(n)における候補ショットセット(d(n),k(n))の第2ショットと、スポーツニュース編集映像における第2〜第4ショットとの間で、最も類似度の高い試合本編映像のIDであるdMAX及び先頭フレームの番号tMAXを設定することができる。 The final identifying unit 25 compares the maximum value S MAX of the similarity with the similarity S (d (n)) (t 0 ) set in step S706 (step S707). When it is determined that the maximum value S MAX of the similarity is smaller than the similarity S (d (n)) (t 0 ) (step S707: Y), S MAX = S (d (n)) (t 0 ), d MAX = d (n) and t MAX = t 0 are set. That is, the similarity S (d (n)) (t 0 ) set in step S706 is set to the maximum value S MAX , the candidate shot set d (n) is set to the optimal shot set d MAX , and the head frame t 0 is set to the optimal head. Each frame t MAX is set (step S708). Then, the process proceeds to step S709. On the other hand, when it is determined that the maximum value S MAX of the similarity is not smaller than the similarity S (d (n)) (t 0 ) (step S707: N), the process proceeds to step S709. As a result, the most similar degree between the second shot of the candidate shot set (d (n), k (n)) in the game main video d (n) and the second to fourth shots in the sports news edited video. It is possible to set d MAX which is the ID of the main video of the game with high and the number t MAX of the first frame.

最終特定部25は、試合本編映像d(n)における先頭フレームの番号t0をインクリメントし(ステップS709)、その先頭フレームの番号t0とt20 (d(n), k(n))+T2(d(n), k(n))−Tとを比較する(ステップS710)。t20 (d(n), k(n))は第2ショットの先頭フレームの番号を示し、T2(d(n), k(n))は第2ショットの長さ(フレーム数)を示し、Tは処理単位のフレーム数を示す。すなわち、先頭のフレーム番号t0が、最終フレームから遡ってTフレーム分前のフレーム番号よりも大きいか否かを判定する。言い換えると、その試合本編映像d(n)の1−2ショットセットk(n)における第2ショットについて、その映像区間内におけるTフレーム数毎のステップS704からステップS709までの処理が、その先頭フレームt20 (d(n),k(n))から最終フレームに渡って全て完了したか否かを判定する。 The final identifying unit 25 increments the first frame number t 0 in the main game video d (n) (step S709), and the first frame number t 0 and t 2 0 (d (n), k (n)) + T2 (d (n), k (n)) − T is compared (step S710). t2 0 (d (n), k (n)) indicates the number of the first frame of the second shot, and T2 (d (n), k (n)) indicates the length (number of frames ) of the second shot. , T indicates the number of frames in a processing unit. That is, it is determined whether or not the top frame number t 0 is larger than the frame number of T frames before the last frame. In other words, for the second shot in the 1-2 shot set k (n) of the main video d (n) of the game, the processing from step S704 to step S709 for each T frame in the video section is performed as the first frame. It is determined whether or not all of t2 0 (d (n), k (n)) is completed over the last frame.

最終特定部25は、ステップS710において、先頭フレームの番号t0がt20 (d(n), k(n))+T2(d(n), k(n))−Tよりも大きいと判定した場合(ステップS710:Y)、すなわち、第2ショットの映像区間内におけるTフレーム毎の処理が全て完了したと判定した場合、ステップS711へ移行する。一方、先頭フレームの番号t0がt20 (d(n), k(n))+T2(d(n), k(n))−Tよりも大きくないと判定した場合(ステップS710:N)、すなわち、第2ショットの映像区間内におけるTフレーム毎の処理が全て完了していないと判定した場合、ステップS709にて設定した先頭のフレーム番号t0からTフレーム分の処理を行うため、ステップS704へ移行する。これにより、次のフレーム番号t0を先頭にした処理が行われる。 In step S710, the final specifying unit 25 determines that the leading frame number t 0 is greater than t 2 0 (d (n), k (n)) + T 2 (d (n), k (n)) − T. In the case (step S710: Y), that is, when it is determined that the processing for every T frame in the video section of the second shot is completed, the process proceeds to step S711. On the other hand, when it is determined that the leading frame number t 0 is not larger than t 2 0 (d (n), k (n)) + T 2 (d (n), k (n)) − T (step S 710: N) That is, when it is determined that the processing for every T frame in the video section of the second shot has not been completed, the processing for T frames is performed from the first frame number t 0 set in step S709. The process proceeds to S704. As a result, the process with the next frame number t 0 as the head is performed.

最終特定部25は、候補ショットセットの番号nをインクリメントし(ステップS711)、その候補ショットセットの番号nとNssとを比較する(ステップS712)。Nssは候補ショットセットの数を示す。すなわち、全ての候補ショットセット(d(n),k(n))の第2ショットについて、ステップS703からステップS711までの処理が完了したか否かを判定する。 The final identifying unit 25 increments the candidate shot set number n (step S711), and compares the candidate shot set number n with N ss (step S712). N ss indicates the number of candidate shot sets. That is, it is determined whether or not the processing from step S703 to step S711 has been completed for the second shots of all candidate shot sets (d (n), k (n)).

最終特定部25は、ステップS712において、候補ショットセットの番号nがNssよりも大きいと判定した場合(ステップS712:Y)、すなわち、全ての候補ショットセット(d(n),k(n))について処理が完了したと判定した場合、ステップS713へ移行する。一方、候補ショットセットの番号nがNssよりも大きくないと判定した場合(ステップS712:N)、すなわち、全ての候補ショットセット(d(n),k(n))について処理が完了していないと判定した場合、ステップS711にて設定した候補ショットセット(d(n),k(n))の処理を行うため、ステップS703へ移行する。これにより、次の番号の候補ショットセット(d(n),k(n))について処理が行われる。 If the final specifying unit 25 determines in step S712 that the candidate shot set number n is larger than N ss (step S712: Y), that is, all candidate shot sets (d (n), k (n)). ), The process proceeds to step S713. On the other hand, if it is determined that the candidate shot set number n is not larger than N ss (step S712: N), that is, the processing has been completed for all candidate shot sets (d (n), k (n)). If it is determined that there is not, the process proceeds to step S703 in order to process the candidate shot set (d (n), k (n)) set in step S711. As a result, processing is performed for the next candidate shot set (d (n), k (n)).

最終特定部25は、試合本編映像dMAXの映像区間tMAX〜tMAX+Tを含むショットセット(dMAX,kMAX)を特定する(ステップS713)。これにより、スポーツニュース編集映像の投球ショット、及び第2〜第4ショットのうちのいずれかのショットのショットセットと、試合本編映像の候補ショットセット(d(n),k(n))との間で、最も類似度の高いショットセット(dMAX,kMAX)が特定される。 The final specifying unit 25 specifies a shot set (d MAX , k MAX ) including the video section t MAX to t MAX + T of the main game video d MAX (step S713). Thereby, a shot set of any one of the shot shots of the sports news edited video and the second to fourth shots, and a candidate shot set (d (n), k (n)) of the main game video Among them, the shot set (d MAX , k MAX ) having the highest similarity is specified.

最終特定部25は、スポーツニュース編集映像における所定の投球ショット及び打球ショットを含むシーンに対応する試合本編映像dのシーンとして、試合本編映像ID=dMAX、映像区間の開始点=t10 (dMAX, kMAX)(試合本編映像dMAXのショットセット(dMAX,kMAX)における投球ショットの開始フレーム番号)及び映像区間の終了点=t10 (dMAX, kMAX+1)−1(ショットセット(dMAX,kMAX)の次のショットセット(dMAX,kMAX+1)における投球ショットの直前フレーム番号)を出力する(ステップS714)。 The final identification unit 25 uses the game main video ID = d MAX and the video section start point = t1 0 (dMAX) as a scene of the game main video d corresponding to a scene including a predetermined throw shot and a shot in the sports news edited video. , kMAX) (match main video d shots (d MAX of MAX, k MAX) start frame number of the pitching shots in) and the end point = t1 0 image segment (dMAX, kMAX + 1) -1 ( shots (d MAX, k MAX) for the next shot set (d MAX, k MAX +1) outputs the immediately preceding frame number) pitching shots in (step S714).

このように、最終特定部25は、候補ショットセット毎、及びスポーツニュース編集映像における第2〜第4ショットの映像区間内で先頭フレームから最終フレームまでのTフレーム毎に処理を行い、候補ショットセット(d(n),k(n))の集合{(d(1),k(1)),・・・,(d(Nss),k(Nss))}の中から、スポーツニュース編集映像における第2〜第4ショットのいずれかのショットと最も類似度の高い第2ショットを含むショットセット(dMAX,kMAX)を特定する。これにより、最終特定部25は、スポーツニュース編集映像における所定の投球ショット及び打球ショットを含むシーンに対応する試合本編映像のシーンを特定することができる。 As described above, the final specifying unit 25 performs processing for each candidate shot set and for each T frame from the first frame to the last frame in the video section of the second to fourth shots in the sports news edited video. Sports news edited video from the set {(d (1), k (1)),..., (D (Nss), k (Nss))} of (d (n), k (n)) A shot set (d MAX , k MAX ) that includes the second shot having the highest similarity to any one of the second to fourth shots is specified. Thereby, the last specification part 25 can specify the scene of the game main part video corresponding to the scene containing the predetermined pitch shot and hitting shot in a sports news edit video.

以上のように、本発明の実施形態による映像検索装置1によれば、本編映像前処理部21は、試合本編映像のショット切替点を検出し、このショット切替点の直前のショットが投球ショットであるか否かを、予め設定された投球ショットリファレンスとの間で画像の類似性によって判定し、切替点を跨いだ投球ショット及び第2ショットの組み合わせである1−2ショットセットkを抽出するようにした。これにより、投球ショットに絞り込んだ1−2ショットセットkを対象にして検索が行われるから、全てのショット切替点の前後のショットを対象にして検索を行う場合に比べ、効率的な検索処理を実現することができる。   As described above, according to the video search device 1 according to the embodiment of the present invention, the main video pre-processing unit 21 detects the shot switching point of the game main video, and the shot immediately before the shot switching point is a pitch shot. Whether or not it exists is determined based on the similarity of the image with a preset pitch shot reference, and a 1-2 shot set k that is a combination of the pitch shot and the second shot across the switching point is extracted. I made it. As a result, since the search is performed on the 1-2 shot set k narrowed down to the pitch shot, the search process is more efficient than the case where the search is performed on the shots before and after all the shot switching points. Can be realized.

また、本発明の実施形態による映像検索装置1によれば、編集映像ベクトル計算部22は、スポーツニュース編集映像のうちの、視聴者により指定されたシーンの投球ショット及び打球ショットを含む第wショット(w=1〜4)について、画像特徴ベクトルV(twq)を計算するようにした。つまり、スポーツニュース編集映像の第1ショット(w=1)である投球ショットに加えて、打球ショットを含む第2〜第4ショット(w=2〜4)も検索対象とした。これにより、投球ショットと打球ショットとの間に他の1〜2ショットが挿入される図1(2)に示したパターンBの構成であっても、スポーツニュース編集映像における所定の投球ショット及び打球ショットを含むシーンに対応した試合本編映像のシーンを、確実に特定することができる。 In addition, according to the video search device 1 according to the embodiment of the present invention, the edited video vector calculation unit 22 is the w-th shot including a pitch shot and a shot shot of a scene specified by the viewer in the sports news edited video. The image feature vector V (tw q ) is calculated for (w = 1 to 4). That is, in addition to the pitch shot that is the first shot (w = 1) of the sports news edited video, the second to fourth shots (w = 2 to 4) including the hit ball shot were also set as search targets. Thereby, even if it is the structure of the pattern B shown in FIG. 1 (2) by which other 1-2 shots are inserted between a pitch shot and a hit ball shot, the predetermined pitch shot and hit ball in a sports news edit image | video It is possible to reliably identify the scene of the game main video corresponding to the scene including the shot.

また、本発明の実施形態による映像検索装置1によれば、候補ショットセット選定部24は、試合本編映像の投球ショットと、スポーツニュース編集映像の投球ショットとの間の類似度S1(d)(t0)を算出し、類似度S1(d)(t0)の高いショットセットを、候補ショットセット(d(n),k(n))として選定するようにした。これにより、投球ショットが類似する候補ショットセット(d(n),k(n))を対象にして最終特定部25により検索が行われるから、全てのショットセットkを対象にして検索を行う場合に比べ、効率的な検索処理を実現することができる。 In addition, according to the video search device 1 according to the embodiment of the present invention, the candidate shot set selection unit 24 uses the similarity S1 (d) between the pitch shot of the main game video and the pitch shot of the sports news edited video. t 0 ) is calculated, and a shot set having a high similarity S1 (d) (t 0 ) is selected as a candidate shot set (d (n), k (n)). Thereby, since the final specifying unit 25 searches for candidate shot sets (d (n), k (n)) with similar pitch shots, the search is performed for all shot sets k. Compared to the above, an efficient search process can be realized.

また、本発明の実施形態による映像検索装置1によれば、最終特定部25は、候補ショットセット(d(n),k(n))における試合本編映像の第2ショットと、スポーツニュース編集映像の第2〜第4ショットとの間の類似度S2(d)(t0)〜S4(d)(t0)をそれぞれ算出し、類似度S2(d)(t0)〜S4(d)(t0)が最も高いショットセットを特定し、試合本編映像ID、映像区間の開始点(開始フレームの番号)及び終了点(終了フレームの番号)を出力するようにした。これにより、スポーツニュース編集映像における所定のシーンに対応した試合本編映像のシーンを、確実にかつ効率的に検索することができる。したがって、視聴者は、編集映像の中で所望するシーンを、試合本編映像によりじっくり視聴することができる。 In addition, according to the video search device 1 according to the embodiment of the present invention, the final specifying unit 25 includes the second shot of the main game video and the sports news edited video in the candidate shot set (d (n), k (n)). Similarities S2 (d) (t 0 ) to S4 (d) (t 0 ) between the second to fourth shots are calculated, and the similarities S2 (d) (t 0 ) to S4 (d) are calculated. The shot set having the highest (t 0 ) is specified, and the game main video ID, the start point (start frame number) and end point (end frame number) of the video section are output. Thereby, it is possible to reliably and efficiently search for a scene of the game main video corresponding to a predetermined scene in the sports news edited video. Therefore, the viewer can watch the desired scene in the edited video carefully with the main game video.

尚、映像検索装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。映像検索装置1に備えた本編映像前処理部21、編集映像ベクトル計算部22及び検索処理部23の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。   Note that the video search apparatus 1 is configured by a computer including a volatile storage medium such as a CPU and a RAM, a non-volatile storage medium such as a ROM, an interface, and the like. The functions of the main video preprocessing unit 21, the edited video vector calculation unit 22 and the search processing unit 23 provided in the video search device 1 are realized by causing the CPU to execute programs describing these functions. These programs can also be stored and distributed in a storage medium such as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), optical disk (CD-ROM, DVD, etc.), semiconductor memory, or the like.

1 映像検索装置
11,12 記憶部
21 本編映像前処理部
22 編集映像ベクトル計算部
23 検索処理部
24 候補ショットセット選定部
25 最終特定部
DESCRIPTION OF SYMBOLS 1 Image | video search device 11,12 Storage part 21 Main part image | video pre-processing part 22 Edit image | video vector calculation part 23 Search process part 24 Candidate shot set selection part 25 Final specification part

Claims (6)

本編映像の特徴量、及び前記本編映像の連続したショットを含む編集映像の特徴量に基づいて、前記編集映像における所定のショットに対応した前記本編映像のショットを検索する映像検索装置において、
前記本編映像におけるフレーム間の類似度に基づいてショット切替点を検出し、前記ショット切替点の直前の第1本編ショット及び直後の第2本編ショットからなるショットセットを抽出し、前記第1本編ショットの特徴量及び前記第2本編ショットの特徴量をそれぞれ計算する本編映像前処理部と、
前記編集映像における所定のショットである第1編集ショットの特徴量、及び該第1編集ショットに続く連続した複数の編集ショットの特徴量をそれぞれ計算する編集映像計算部と、
前記第1本編ショットの特徴量と前記第1編集ショットの特徴量とに基づいて、前記第1本編ショットと前記第1編集ショットとの間の第1の類似度を計算し、前記第2本編ショットの特徴量と前記第1編集ショットに続く連続した複数の編集ショットの特徴量とに基づいて、前記第2本編ショットと前記複数の編集ショットとの間の第2の類似度をそれぞれ計算し、前記第1の類似度及び第2の類似度に基づいて、前記編集映像における所定のショットに対応した前記本編映像のショットを特定する検索処理部と、を備えたことを特徴とする映像検索装置。
In a video search apparatus for searching for a shot of the main video corresponding to a predetermined shot in the edited video based on a feature of the main video and a feature of an edited video including consecutive shots of the main video,
A shot switching point is detected based on the similarity between frames in the main video, a shot set including a first main shot immediately before the shot switching point and a second main shot immediately after the shot switching point is extracted, and the first main shot is extracted. Main feature video pre-processing unit for calculating the feature amount of the second feature shot and the feature amount of the second feature shot,
An edited video calculation unit that calculates a feature amount of a first edit shot that is a predetermined shot in the edited video and a feature amount of a plurality of continuous edit shots following the first edit shot;
Based on the feature amount of the first main shot and the feature amount of the first edit shot, a first similarity between the first main shot and the first edit shot is calculated, and the second main portion shot is calculated. Second similarity between the second main shot and the plurality of edit shots is calculated based on the shot feature amount and the feature amounts of a plurality of continuous edit shots following the first edit shot, respectively. And a search processing unit for identifying a shot of the main video corresponding to a predetermined shot in the edited video based on the first similarity and the second similarity. apparatus.
請求項1に記載の映像検索装置において、
前記検索処理部は、
前記第1本編ショットの特徴量と第1編集ショットの特徴量とに基づいて両ショットの類似度を計算し、前記類似度が所定の閾値よりも高い第1本編ショットを含むショットセットを、候補ショットセットとして選定する候補ショットセット選定部と、
前記候補ショットセットに含まれる第2本編ショットの特徴量と、前記第1編集ショットに続く連続した複数の編集ショットの特徴量とに基づいて、前記第2本編ショットと前記複数の編集ショットとの間の類似度をそれぞれ計算し、全ての前記候補ショットセットにおける前記計算した類似度のうち、最も類似度が高い候補ショットセットを特定し、前記特定した候補ショットセットに含まれる第1本編ショットを、前記編集映像における所定のショットに対応した前記本編映像のショットとして特定する最終特定部と、を備えたことを特徴とする映像検索装置。
The video search device according to claim 1,
The search processing unit
A similarity between both shots is calculated based on the feature amount of the first main shot and the feature amount of the first edit shot, and a shot set including the first main shot with the similarity higher than a predetermined threshold is selected as a candidate. A candidate shot set selection unit to select as a shot set;
Based on the feature amount of the second main shot included in the candidate shot set and the feature amount of a plurality of continuous edit shots following the first edit shot, the second main shot and the plurality of edit shots And calculating the first similarity shot included in the identified candidate shot set, specifying a candidate shot set having the highest similarity among the calculated similarities in all the candidate shot sets. A final specifying unit that specifies a shot of the main video corresponding to a predetermined shot in the edited video.
請求項1または2に記載の映像検索装置において、
前記検索処理部は、フレームが分割された領域をブロックとした場合に、連続した所定数のフレームに渡る前記ブロック毎の特徴量に基づいて、前記第1の類似度及び第2の類似度を計算する、ことを特徴とする映像検索装置。
The video search device according to claim 1 or 2,
The search processing unit determines the first similarity and the second similarity based on a feature amount for each block over a predetermined number of consecutive frames when a region obtained by dividing a frame is a block. A video search device characterized by calculating.
請求項1から3までのいずれか一項に記載の映像検索装置において、
前記編集映像は、前記本編映像の連続した2つのショットに基づいて構成され、前記2つのショットに基づいて構成されたそれぞれのショットの間に、所定数の他のショットが挿入されており、
前記編集映像計算部は、前記本編映像の連続した2つのショットに基づいて構成されたそれぞれのショットの特徴量、及び前記所定数の他のショットの特徴量を計算する、ことを特徴とする映像検索装置。
In the video search device according to any one of claims 1 to 3,
The edited video is configured based on two consecutive shots of the main video, and a predetermined number of other shots are inserted between the shots configured based on the two shots,
The edited video calculation unit calculates a feature amount of each shot configured based on two consecutive shots of the main video, and a feature amount of the predetermined number of other shots. Search device.
請求項1から4までのいずれか一項に記載の映像検索装置において、
前記本編映像を野球の試合映像とし、前記第1本編ショット及び第1編集ショットを投球ショットとする、ことを特徴とする映像検索装置。
In the video search device according to any one of claims 1 to 4,
A video search apparatus, wherein the main video is a baseball game video, and the first main shot and the first edit shot are pitch shots.
本編映像の特徴量、及び前記本編映像の連続したショットを含む編集映像の特徴量に基づいて、前記編集映像における所定のショットに対応した前記本編映像のショットを検索するプログラムであって、コンピュータに、
前記本編映像におけるフレーム間の類似度に基づいてショット切替点を検出するステップと、
前記ショット切替点の直前の第1本編ショット及び直後の第2本編ショットからなるショットセットを抽出するステップと、
前記第1本編ショットの特徴量及び第2本編ショットの特徴量をそれぞれ計算するステップと、
前記編集映像における所定のショットである第1編集ショットの特徴量、及び該第1編集ショットに続く連続した複数の編集ショットの特徴量をそれぞれ計算するステップと、
前記第1本編ショットの特徴量と前記第1編集ショットの特徴量とに基づいて、前記第1本編ショットと前記第1編集ショットとの間の第1の類似度を計算するステップと、
前記第2本編ショットの特徴量と前記第1編集ショットに続く連続した複数の編集ショットの特徴量とに基づいて、前記第2本編ショットと前記複数の編集ショットとの間の第2の類似度をそれぞれ計算するステップと、
前記第1の類似度及び第2の類似度に基づいて、前記編集映像における所定のショットに対応した前記本編映像のショットを特定するステップと、を実行させることを特徴とする映像検索プログラム。
A program for searching for a shot of the main video corresponding to a predetermined shot in the edited video based on a feature of the main video and a feature of an edited video including consecutive shots of the main video, ,
Detecting a shot switching point based on the similarity between frames in the main video;
Extracting a shot set consisting of a first main shot immediately before the shot switching point and a second main shot immediately after the shot switching point;
Calculating the feature amount of the first main shot and the feature amount of the second main shot;
Calculating a feature amount of a first edit shot that is a predetermined shot in the edited video and a feature amount of a plurality of continuous edit shots following the first edit shot;
Calculating a first similarity between the first main shot and the first edit shot based on the feature amount of the first main shot and the feature amount of the first edit shot;
A second similarity between the second main shot and the plurality of edit shots based on the feature amount of the second main shot and the feature quantities of a plurality of consecutive edit shots following the first edit shot Calculating each of
And a step of specifying a shot of the main video corresponding to a predetermined shot in the edited video based on the first similarity and the second similarity.
JP2009098755A 2009-04-15 2009-04-15 Video search device and video search program Active JP5204716B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009098755A JP5204716B2 (en) 2009-04-15 2009-04-15 Video search device and video search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009098755A JP5204716B2 (en) 2009-04-15 2009-04-15 Video search device and video search program

Publications (2)

Publication Number Publication Date
JP2010252013A true JP2010252013A (en) 2010-11-04
JP5204716B2 JP5204716B2 (en) 2013-06-05

Family

ID=43313857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009098755A Active JP5204716B2 (en) 2009-04-15 2009-04-15 Video search device and video search program

Country Status (1)

Country Link
JP (1) JP5204716B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137637A (en) * 2013-01-15 2014-07-28 Nippon Hoso Kyokai <Nhk> Image processor and image processing program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005269015A (en) * 2004-03-17 2005-09-29 Tama Tlo Kk Moving image extracting apparatus utilizing a plurality of algorithms
WO2006059436A1 (en) * 2004-12-03 2006-06-08 Nec Corporation Video content reproduction supporting method, video content reproduction supporting system, and information delivery program
JP2006293513A (en) * 2005-04-07 2006-10-26 Tama Tlo Kk Method and device for extracting video of specific scene using presence of preceding scene
JP2007208631A (en) * 2006-02-01 2007-08-16 Sony Corp Reproduction controller, reproduction control method, and program
JP2009049666A (en) * 2007-08-20 2009-03-05 Sony Corp Information processing device, information processing method, program, and recording medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005269015A (en) * 2004-03-17 2005-09-29 Tama Tlo Kk Moving image extracting apparatus utilizing a plurality of algorithms
WO2006059436A1 (en) * 2004-12-03 2006-06-08 Nec Corporation Video content reproduction supporting method, video content reproduction supporting system, and information delivery program
JP2006293513A (en) * 2005-04-07 2006-10-26 Tama Tlo Kk Method and device for extracting video of specific scene using presence of preceding scene
JP2007208631A (en) * 2006-02-01 2007-08-16 Sony Corp Reproduction controller, reproduction control method, and program
JP2009049666A (en) * 2007-08-20 2009-03-05 Sony Corp Information processing device, information processing method, program, and recording medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137637A (en) * 2013-01-15 2014-07-28 Nippon Hoso Kyokai <Nhk> Image processor and image processing program

Also Published As

Publication number Publication date
JP5204716B2 (en) 2013-06-05

Similar Documents

Publication Publication Date Title
JP5032846B2 (en) MONITORING DEVICE, MONITORING RECORDING DEVICE, AND METHOD THEREOF
EP3189469B1 (en) A method for selecting frames from video sequences based on incremental improvement
CN108881947B (en) Method and device for detecting infringement of live stream
JPWO2012137493A1 (en) Image processing apparatus, image processing method, image processing program, and integrated circuit
WO2007020897A1 (en) Video scene classification device and video scene classification method
TWI590856B (en) Extraction method and device
US9189545B2 (en) Content summarizing apparatus and content summarizing displaying apparatus
Bhalla et al. A multimodal approach for automatic cricket video summarization
JP5209593B2 (en) Video editing apparatus, video editing method, and video editing program
JP2006244074A (en) Moving object close-up frame detection method and program, storage medium storing program, moving object close-up shot detection method, moving object close-up frame or shot detection method and program, and storage medium storing program
US8300894B2 (en) Method for decomposition and rendering of video content and user interface for operating the method thereof
JP4893641B2 (en) Digest generation apparatus and digest generation method
Valand et al. Automated clipping of soccer events using machine learning
JP2006217046A (en) Video index image generator and generation program
JP4546762B2 (en) Video event discriminating learning data generating device and program thereof, and video event discriminating device and program thereof
JP5204716B2 (en) Video search device and video search program
JP5664374B2 (en) Digest video generation apparatus and program
Ainasoja et al. Keyframe-based Video Summarization with Human in the Loop.
JP5522790B2 (en) Template image generation apparatus and template image generation program
KR20160025474A (en) Determination method and device
Kawamura et al. Rsviewer: An efficient video viewer for racquet sports focusing on rally scenes.
US9135509B2 (en) Determining representative images for a video
JP2010081531A (en) Video processor and method of processing video
Lee et al. Highlight generation for basketball video using probabilistic excitement
Benini et al. Identifying video content consistency by vector quantization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130215

R150 Certificate of patent or registration of utility model

Ref document number: 5204716

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250