JP5522790B2 - Template image generation apparatus and template image generation program - Google Patents
Template image generation apparatus and template image generation program Download PDFInfo
- Publication number
- JP5522790B2 JP5522790B2 JP2010161921A JP2010161921A JP5522790B2 JP 5522790 B2 JP5522790 B2 JP 5522790B2 JP 2010161921 A JP2010161921 A JP 2010161921A JP 2010161921 A JP2010161921 A JP 2010161921A JP 5522790 B2 JP5522790 B2 JP 5522790B2
- Authority
- JP
- Japan
- Prior art keywords
- template
- image
- unit
- cluster
- candidate cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 82
- 239000000284 extract Substances 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 18
- 238000005520 cutting process Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 38
- 238000003860 storage Methods 0.000 description 23
- 230000000694 effects Effects 0.000 description 8
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、複数の番組映像からテンプレートマッチングを行う際に用いるテンプレート画像を生成するテンプレート画像生成装置およびテンプレート画像生成プログラムに関する。 The present invention relates to a template image generation apparatus and a template image generation program for generating a template image used when template matching is performed from a plurality of program videos.
昨今、番組映像等のコンテンツを大量に蓄積し、これらに容易にアクセスできる環境が整ってきている。そして同時に、大量のコンテンツの中から所望の映像を効率よく検索するための技術が求められている。現在、このようなコンテンツの検索技術に関連して、番組映像等のコンテンツを解析し、コンテンツにメタデータを自動付与する研究が行われている。ここで、番組映像にメタデータを自動付与する際には、番組の大まかな構成の区切りを検出して利用するものがあり、この区切りの検出にある特定の映像あるいは画像が用いられることがある。 In recent years, a large amount of content such as program images has been accumulated and an environment in which these can be easily accessed has been established. At the same time, there is a need for a technique for efficiently searching for a desired video from a large amount of content. Currently, in connection with such content search technology, research is being conducted to analyze content such as program video and automatically add metadata to the content. Here, when automatically assigning metadata to a program video, there is one that detects and uses a rough break of the program, and a specific video or image in the detection of this break may be used. .
例えば、1つのニュース番組の中ではいくつものニュース項目が伝えられるが、これらのニュース項目は、ニュースを伝えるアナウンサのスタジオショットで大まかに区切ることができる。従って、大量のコンテンツの中から、前記したようなニュース番組におけるアナウンサのスタジオショットのような繰り返し用いられる典型的な演出シーンを抽出することができれば、番組映像にメタデータを自動付与する際に有効に利用することができる。 For example, a number of news items are conveyed in one news program, and these news items can be roughly divided by a studio shot of an announcer that conveys the news. Therefore, if it is possible to extract typical production scenes that are used repeatedly, such as the announcer's studio shots in news programs as described above, from a large amount of content, it is effective for automatically adding metadata to the program video. Can be used.
ここで、非特許文献1,2では、テンプレート画像を利用してテンプレートマッチングを行うことで、番組映像等のコンテンツを区切る技術が対案されている。また、特許文献1,2では、連続して入力される画像からテンプレート画像を生成する技術が提案されている。
Here, Non-Patent
しかしながら、非特許文献1,2で提案された技術では、テンプレート画像の具体的な生成方法について詳細に説明されていなかった。また、非特許文献1,2で提案された技術では、テンプレート画像の生成のほとんどが人手によるものであり、大量のコンテンツを区切るには非効率的であった。
However, in the techniques proposed in
また、特許文献1,2で提案された技術は、映像の中から単にテンプレート画像を生成するだけであり、映像の中で繰り返し用いられる典型的な演出シーンからテンプレート画像を生成することはできなかった。
In addition, the techniques proposed in
また、例えば、ニュース番組におけるアナウンサのスタジオショットでは、背景のスタジオセット部分は基本的には変化がないが、出演するアナウンサは日によって変化する可能性がある。しかしながら、前記した各文献で提案された技術では、番組映像において変化のない固定部分と、変化のある可変部分と、を考慮することなくテンプレート画像を生成しているため、テンプレート画像内における可変部分の割合が大きくなると、テンプレートマッチングの精度が低下してしまうという問題があった。また、テンプレートマッチングの際には、対象となる画像がテンプレート画像と類似しているか否かを判断するために閾値を用いるが、前記した可変部分の割合が変化すると、この閾値がばらつくことになるため、前記した各文献で提案された技術は、実用的ではないという問題があった。 Also, for example, in an announcer's studio shot in a news program, the background studio set portion basically does not change, but the appearing announcer may change from day to day. However, in the technique proposed in each of the above-mentioned documents, the template image is generated without considering the fixed portion that does not change in the program video and the variable portion that changes, so the variable portion in the template image There is a problem in that the accuracy of template matching is reduced when the ratio is increased. In template matching, a threshold value is used to determine whether the target image is similar to the template image. However, this threshold value varies when the ratio of the variable portion changes. Therefore, there has been a problem that the techniques proposed in the above-mentioned documents are not practical.
本発明はかかる点に鑑みてなされたものであって、複数の番組映像の中で繰り返し用いられる典型的な演出シーンからテンプレート画像を自動的に生成することができるとともに、番組映像における固定部分と可変部分とを考慮したテンプレート画像を生成することができるテンプレート画像生成装置およびテンプレート画像生成プログラムを提供することを課題とする。 The present invention has been made in view of the above points, and can automatically generate a template image from a typical effect scene repeatedly used in a plurality of program videos, and a fixed portion in the program video. It is an object of the present invention to provide a template image generation apparatus and a template image generation program capable of generating a template image considering a variable portion.
前記課題を解決するために請求項1に係るテンプレート画像生成装置は、複数の番組映像から、テンプレートマッチングを行う際に用いるテンプレート画像を生成するテンプレート画像生成装置であって、画像特徴量抽出手段と、テンプレート候補クラスタ抽出手段と、テンプレート画像生成手段と、を備える構成とした。
In order to solve the above-mentioned problem, a template image generation device according to
このような構成によれば、テンプレート画像生成装置は、画像特徴量抽出手段によって、複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像を所定の数のブロックに分割し、当該ブロックごとの画像特徴量を抽出する。また、テンプレート候補クラスタ抽出手段によって、画像特徴量抽出手段によって抽出された画像特徴量の類似度に従って代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出する。また、テンプレート画像生成手段によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタからテンプレート画像を生成する。 According to such a configuration, the template image generation device divides a plurality of program videos into shots by the image feature amount extraction unit, extracts the representative still images from the shots, and extracts the representative still images from the predetermined still images. The image feature amount is extracted for each block. In addition, the template candidate cluster extracting unit hierarchically clusters the representative still images according to the similarity of the image feature amount extracted by the image feature amount extracting unit, and the tree diagram indicating the result of the hierarchical clustering is cut at a predetermined hierarchy. From each intersection with the cutting line in the case, the cluster is traced down one by one, and a cluster having a branch at a predetermined distance or more is extracted as a template candidate cluster. Further, the template image generation unit generates a template image from the template candidate cluster extracted by the template candidate cluster extraction unit.
また、請求項1に係るテンプレート画像生成装置は、テンプレート画像生成手段が、分散値算出部と、マスク情報生成部と、テンプレート画像選択部と、を備える構成とした。
Further, the template image generation apparatus according to
このような構成によれば、テンプレート画像生成装置のテンプレート画像生成手段は、分散値算出部によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタに含まれる、テンプレート画像の候補となる複数のテンプレート候補画像のブロックごとの画像特徴量の分散値を算出する。また、マスク情報生成部によって、分散値算出部によって算出された分散値が予め設定された閾値を超える場合、前記テンプレート画像に対するブロックごとのマスクの形成位置に関する情報であるマスク情報を生成する。また、テンプレート画像選択部によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタに含まれる複数のテンプレート候補画像の中で、画像特徴量が最も平均に近いテンプレート候補画像を、テンプレート画像として選択する。 According to such a configuration, the template image generation unit of the template image generation apparatus includes a plurality of templates that are candidates for template images included in the template candidate clusters extracted by the template candidate cluster extraction unit by the variance value calculation unit. A variance value of the image feature amount for each block of the candidate image is calculated. Further, when the variance value calculated by the variance value calculation unit exceeds a preset threshold value, the mask information generation unit generates mask information that is information relating to a mask formation position for each block with respect to the template image. Further, the template image selection unit selects, as a template image, a template candidate image whose image feature amount is closest to the average among a plurality of template candidate images included in the template candidate cluster extracted by the template candidate cluster extraction unit. .
また、請求項2に係るテンプレート画像生成装置は、請求項1に係るテンプレート画像生成装置において、テンプレート候補クラスタ抽出手段が、階層クラスタリング部と、候補クラスタ抽出部と、を備える構成とした。 According to a second aspect of the present invention, the template image generating apparatus according to the first aspect is configured such that the template candidate cluster extracting unit includes a hierarchical clustering unit and a candidate cluster extracting unit.
このような構成によれば、テンプレート画像生成装置は、階層クラスタリング部によって、画像特徴量抽出手段によって抽出された代表静止画像のブロックごとの画像特徴量を所定の順序で並べたものを代表静止画像の特徴ベクトルとし、当該特徴ベクトルの類似度に従って代表静止画像を階層クラスタリングする。また、候補クラスタ抽出部によって、階層クラスタリング部による階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出する。 According to such a configuration, the template image generation device is a representative still image obtained by arranging the image feature amounts for each block of the representative still image extracted by the image feature amount extraction unit by the hierarchical clustering unit in a predetermined order. The representative still images are hierarchically clustered according to the similarity of the feature vectors. In addition, the candidate cluster extraction unit traces a tree diagram indicating the result of the hierarchical clustering by the hierarchical clustering unit at a predetermined level, and then follows each level from the intersection with the cutting line to determine a predetermined distance. Clusters having branches apart from each other are extracted as template candidate clusters.
また、請求項3に係るテンプレート画像生成装置は、請求項2に係るテンプレート画像生成装置において、テンプレート候補クラスタ抽出手段が、候補クラスタ絞り込み部を備える構成とした。 According to a third aspect of the present invention, in the template image generating apparatus according to the second aspect, the template candidate cluster extracting unit includes a candidate cluster narrowing-down unit.
このような構成によれば、テンプレート画像生成装置は、候補クラスタ絞り込み部によって、候補クラスタ抽出部によって抽出されたテンプレート候補クラスタが、隣り合う前記ショットから抽出された代表静止画像を含むクラスタである場合、該当する代表静止画像をテンプレート候補クラスタの中から削除する第1の条件と、第1の条件を経たテンプレート候補クラスタに含まれる代表静止画像の抽出元となる番組映像の数が、予め設定された数以上ではない場合、該当するテンプレート候補クラスタを削除する第2の条件と、に従って、テンプレート候補クラスタを絞り込む。 According to such a configuration, in the template image generation device, the candidate cluster narrowing unit extracts the template candidate cluster extracted by the candidate cluster extracting unit as a cluster including a representative still image extracted from the adjacent shots. The first condition for deleting the corresponding representative still image from the template candidate clusters and the number of program videos from which the representative still images included in the template candidate cluster that have passed through the first condition are preset. If the number is not more than the number, the template candidate clusters are narrowed down according to the second condition for deleting the corresponding template candidate clusters.
そして、請求項4に係るテンプレート画像生成プログラムは、複数の番組映像から、テンプレートマッチングを行う際に用いるテンプレート画像を生成するために、コンピュータを、画像特徴量抽出手段、テンプレート候補クラスタ抽出手段、分散値算出手段、マスク情報生成手段、テンプレート画像選択手段、として機能させる構成とした。 According to a fourth aspect of the present invention, there is provided a template image generation program for generating a template image to be used when template matching is performed from a plurality of program videos by using an image feature amount extraction unit, a template candidate cluster extraction unit, a distribution It is configured to function as a value calculation unit, a mask information generation unit, and a template image selection unit.
このような構成によれば、テンプレート画像生成プログラムは、画像特徴量抽出手段によって、複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像を所定の数のブロックに分割し、当該ブロックごとの画像特徴量を抽出する。また、テンプレート候補クラスタ抽出手段によって、画像特徴量抽出手段によって抽出された画像特徴量の類似度に従って代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出する。また、分散値算出手段によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタに含まれる、テンプレート画像の候補となる複数のテンプレート候補画像のブロックごとの画像特徴量の分散値を算出する。また、マスク情報生成手段によって、分散値算出手段によって算出された分散値が予め設定された閾値を超える場合、テンプレート画像に対するブロックごとのマスクの形成位置に関する情報であるマスク情報を生成する。また、テンプレート画像選択手段によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタに含まれる複数のテンプレート候補画像の中で、画像特徴量が最も平均に近いテンプレート候補画像を、テンプレート画像として選択する。 According to such a configuration, the template image generation program divides a plurality of program videos into shots by the image feature amount extraction unit, extracts the representative still images from the shots, and extracts the representative still images from the predetermined still images. The image feature amount is extracted for each block. In addition, the template candidate cluster extracting unit hierarchically clusters the representative still images according to the similarity of the image feature amount extracted by the image feature amount extracting unit, and the tree diagram indicating the result of the hierarchical clustering is cut at a predetermined hierarchy. From each intersection with the cutting line in the case, the cluster is traced down one by one, and a cluster having a branch at a predetermined distance or more is extracted as a template candidate cluster. Further, the variance value calculating means calculates the variance value of the image feature amount for each block of the plurality of template candidate images that are candidates for the template image included in the template candidate cluster extracted by the template candidate cluster extracting means. Further, when the variance value calculated by the variance value calculation unit exceeds a preset threshold value, the mask information generation unit generates mask information that is information regarding the mask formation position for each block with respect to the template image. Further, the template image selection means selects, as a template image, a template candidate image whose image feature amount is closest to the average among a plurality of template candidate images included in the template candidate cluster extracted by the template candidate cluster extraction means. .
請求項1、請求項4に係る発明によれば、画像特徴量の類似度に従って代表静止画像の階層クラスタリングを行い、その結果から、一部分が類似する複数の代表静止画像が含まれるクラスタを抽出することで、複数の番組映像の中で繰り返し用いられる典型的な演出シーンからテンプレート画像を自動的に生成することができる。また、複数のテンプレート候補画像における画像特徴量の分散値を算出することで画像内における可変部分を判別し、この可変部分を覆うマスク情報を生成するため、当該マスク情報で特定されるマスクをテンプレート画像に合成することにより、テンプレートマッチングの精度を向上させることができるとともに、テンプレートマッチングの際における閾値のばらつきを防止することができる。 According to the first and fourth aspects of the invention, hierarchical clustering of representative still images is performed according to the similarity of image feature amounts, and clusters including a plurality of representative still images that are partially similar are extracted from the result. Thus, a template image can be automatically generated from a typical effect scene repeatedly used in a plurality of program videos. In addition, in order to determine a variable portion in the image by calculating a variance value of image feature amounts in a plurality of template candidate images and generate mask information covering the variable portion, a mask specified by the mask information is used as a template. By synthesizing with an image, the accuracy of template matching can be improved, and variations in threshold values during template matching can be prevented.
請求項2に係る発明によれば、階層クラスタリングの結果を示す樹形図において、切断線との各交点から1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを探索することによって、テンプレート候補クラスタを容易に抽出することができる。 According to the invention according to claim 2, in the tree diagram showing the result of the hierarchical clustering, the cluster having a branch at a predetermined distance or more is searched by following the hierarchy one by one from each intersection with the cutting line. Thus, template candidate clusters can be easily extracted.
請求項3に係る発明によれば、テンプレート候補クラスタを2つの条件を用いて段階的に絞り込むことで、複数の番組映像の中で繰り返し用いられる典型的な演出シーンだけを精度よく抽出することができる。 According to the invention according to claim 3, it is possible to accurately extract only typical production scenes that are repeatedly used in a plurality of program videos by narrowing down the template candidate clusters in stages using two conditions. it can.
本発明の実施形態に係るテンプレート画像生成装置およびテンプレート画像生成プログラムについて、図面を参照しながら説明する。 A template image generation apparatus and a template image generation program according to an embodiment of the present invention will be described with reference to the drawings.
[テンプレート画像生成装置]
テンプレート画像生成装置1は、複数の番組映像からテンプレートマッチングを行う際に用いるテンプレート画像を生成する装置である。テンプレート画像生成装置1は、図1に示すように、画像特徴量抽出手段10と、テンプレート候補クラスタ抽出手段20と、テンプレート画像生成手段30と、を主な構成として備えている。なお、本発明で用いられる複数の番組とは、2つ以上の同じシリーズの番組の映像であり、例えば、毎週同じ時間に放送される同じ番組名のニュース番組等が挙げられる。
[Template image generator]
The template
画像特徴量抽出手段10は、複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像のブロックごとの画像特徴量を抽出するものである。画像特徴量抽出手段10は、ここでは図1に示すように、ショット分割部11と、代表静止画像抽出部12と、ブロック分割部13と、特徴量抽出部14と、を備えている。
The image feature amount extraction means 10 divides a plurality of program videos into shots, extracts representative still images from the shots, and extracts image feature amounts for each block of the representative still images. As shown in FIG. 1, the image feature quantity extraction unit 10 includes a
ショット分割部11は、入力された番組映像を切れ目のないショットごとに分割するものである。ショット分割部11は、例えば図2(a)、(b)に示すように、2つの番組A,Bの番組映像が入力された場合、それぞれの映像の中から編集点等の映像の切れ目を検出し、その切れ目に従ってショットごとに分割する。なお、映像の切れ目は番組ごとに異なるため、図2(a)、(b)に示すように、各ショットの長さは番組によって異なる。
The
ショット分割部11には、図1に示すように、図示しない番組映像記憶手段等から複数の番組映像が入力される。そして、ショット分割部11は、前記した手法によって番組映像をショットごとに分割し、これを代表静止画像抽出部12に出力する。
As shown in FIG. 1, a plurality of program videos are input to the
代表静止画像抽出部12は、番組映像を構成するショットから代表静止画像を抽出するものである。ここで、代表静止画像とは、各ショットの内容を代表する静止画像のことを指している。なお、番組映像を構成するショットにおいて代表静止画像を抽出する場所は、番組映像の内容によって異なる。代表静止画像抽出部12は、例えば番組映像がニュース番組の映像である場合、ショット内での映像の変化が少ないことが多いため、各ショットの最初のフレーム画像を代表静止画像として抽出する。
The representative still
代表静止画像抽出部12は、例えば図3(a)、(b)に示すように、ショット分割部11から2つのニュース番組A,Bの各ショットが入力された場合、各ショットの最初のフレーム画像を代表静止画像として抽出する。なお、代表静止画像抽出部12は、複数のショットから代表静止画像を抽出する際に、当該代表静止画像に対して、抽出した番組名と、番組映像を構成する何番目のショットから抽出されたものであるかを示す番号を付与する。
For example, as shown in FIGS. 3A and 3B, the representative still
代表静止画像抽出部12には、図1に示すように、ショット分割部11から複数の番組映像を構成する複数のショットが入力される。そして、代表静止画像抽出部12は、前記した手法によって複数のショットから代表静止画像を抽出し、これをブロック分割部13に出力する。
As shown in FIG. 1, the representative still
ブロック分割部13は、代表静止画像を予め設定された所定の数でブロック分割するものである。ブロック分割部13は、例えば図4に示すように、代表静止画像抽出部12から複数の代表静止画像が入力された場合、それぞれの代表静止画像を予め設定された横18マス×縦11マス(198ブロック)でブロック分割する。
The
ブロック分割部13には、図1に示すように、代表静止画像抽出部12から複数の番組の複数のショットから抽出された複数の代表静止画像が入力される。そして、ブロック分割部13は、前記した手法によってそれぞれの代表静止画像をブロック分割し、これを特徴量抽出部14に出力する。
As shown in FIG. 1, the
特徴量抽出部14は、代表静止画像のブロックごとの画像特徴量を抽出するものである。ここで、特徴量抽出部14が抽出する画像特徴量としては、例えば各ブロックのRGB成分の平均値や、L*a*b*成分の平均値等の色情報や、DCT係数等の空間周波数の情報を用いることができる。
The feature
特徴量抽出部14には、図1に示すように、ブロック分割部13から、ブロック分割後の複数の代表静止画像が入力される。そして、特徴量抽出部14は、前記した手法によって代表静止画像のブロックごとの画像特徴量を抽出し、これをテンプレート候補クラスタ抽出手段20の階層クラスタリング部21に出力する。
As shown in FIG. 1, a plurality of representative still images after block division are input to the feature
テンプレート候補クラスタ抽出手段20は、画像特徴量抽出手段10によって抽出された画像特徴量の類似度に従って代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート画像の候補となる複数の画像が含まれるテンプレート候補クラスタとして抽出するものである。テンプレート候補クラスタ抽出手段20は、ここでは図1に示すように、階層クラスタリング部21と、候補クラスタ抽出部22と、距離条件記憶部23と、候補クラスタ絞り込み部24と、割合条件記憶部25と、を備えている。
The template candidate
階層クラスタリング部21は、代表静止画像のブロックごとの画像特徴量を用いて階層クラスタリングを行うものである。ここで、階層クラスタリングとは、複数のデータ群のそれぞれを単独のクラスタとしてみなし、それぞれの類似度に基づいて、クラスタを階層的に分類する手法である。以下、図5を参照しながら、階層クラスタリングの概要について簡単に説明する。
The
図5に示すように、例えば6個のデータ1〜6をそれぞれ単独のクラスタとみなして階層クラスタリングする場合を考える。この場合、まずデータ1〜6のクラスタの中で、最も特徴量が類似する組み合わせを選択する。そして、例えばデータ1とデータ4の特徴量が全データの中で最も類似する場合、図5に示すように、データ1とデータ4とを線で結んで結合し、第1結合クラスタC1を生成する。ここで、第1結合クラスタC1は、データ1とデータ4の2つのクラスタを含むクラスタである。
As shown in FIG. 5, for example, consider a case where hierarchical clustering is performed by regarding each of six pieces of
次に、第1結合クラスタC1と、残りのデータ2,3,5,6のクラスタの中で、最も特徴量が類似する組み合わせを選択する。なお、第1結合クラスタC1の特徴量は、データ1およびデータ4の特徴量の平均値で表される。そして、例えば第1結合クラスタC1とデータ5の特徴量が残った全データの中で最も類似する場合、図5に示すように、第1結合クラスタC1とデータ5とを線で結んで結合し、第2結合クラスタC2を生成する。ここで、第2結合クラスタC2は、データ1とデータ4とデータ5の3つのクラスタを含むクラスタである。
Next, a combination having the most similar feature amount is selected from the first combined cluster C 1 and the remaining clusters of data 2, 3, 5, and 6. Note that the feature amount of the first combined cluster C 1 is represented by an average value of the feature amounts of the
階層クラスタリングでは、このように特徴量が類似するクラスタ同士を次々と結合し、図5に示すように、最終的に全てのクラスタが1つの第4結合クラスタC4を形成するまで結合処理を行う。ここで、図5は、階層クラスタリングの結果を視覚的に表した樹形図(デンドログラム)である。図5の樹形図における縦軸は、各データのクラスタが結合する際の結合距離(非類似度)を示しており、樹形図の下の階層で結合したクラスタほど特徴量が類似し、樹形図の上の階層で結合したクラスタほど特徴量が類似しないことを意味している。 Hierarchical clustering, thus feature quantity bonded one after another cluster together similar, as shown in FIG. 5, performs the binding processing until finally all the clusters to form a fourth connection cluster C 4 one . Here, FIG. 5 is a dendrogram that visually represents the result of hierarchical clustering. The vertical axis in the dendrogram in FIG. 5 indicates the coupling distance (dissimilarity) when the clusters of each data are coupled, and the cluster has a similar feature amount in the hierarchy below the dendrogram, This means that the feature quantity is not similar to the cluster connected in the hierarchy above the tree diagram.
階層クラスタリング部21は、具体的には、画像特徴量抽出手段10の特徴量抽出部14によって抽出された代表静止画像のブロックごとの画像特徴量を、所定の順序、例えば代表静止画像のブロックの左上から右下に向って並べたものを代表静止画像の特徴ベクトルとする。そして、1枚の代表静止画像を1つのクラスタとして、それぞれの特徴ベクトルの類似度に基づいて階層クラスタリングを行う。
Specifically, the
階層クラスタリング部21による階層クラスタリングの結果を視覚的に表現したものが、図6(a)に示す樹形図である。図6(a)における樹形図において、縦軸は、それぞれのクラスタが結合した際におけるそれぞれの特徴ベクトルの結合距離(非類似度)を示しており、横軸(図6(b))は、抽出された各代表静止画像を示している。
A tree diagram shown in FIG. 6A is a visual representation of the result of hierarchical clustering performed by the
階層クラスタリング部21には、図1に示すように、特徴量抽出部14から、代表静止画像のブロックごとの画像特徴量が入力される。そして、階層クラスタリング部21は、前記した手法によって階層クラスタリングを行い、図6(a)の樹形図に示すような階層クラスタリング結果を候補クラスタ抽出部22に出力する。
As shown in FIG. 1, the
候補クラスタ抽出部22は、階層クラスタリング部21による階層クラスタリングの結果から、テンプレート候補クラスタを抽出するものである。ここで、テンプレート候補クラスタとは、テンプレート画像の候補となる代表静止画像が含まれたクラスタのことを意味している。候補クラスタ抽出部22は、階層クラスタリング部21から階層クラスタリングの結果が入力されると、次に示す所定のアルゴリズムでテンプレート候補クラスタを抽出する。説明のために図6(a)を拡大したものを図7に示す。
The candidate
図7を参照すると、上の階層に階段状の領域が存在する。この階段状の領域は、様々なクラスタが結合して形成されたクラスタCxに、その他のクラスタが次々と結合することによって形成された領域である。このクラスタCxに結合するクラスタの中には、図7に示すように、代表静止画像が1枚のみ含まれたクラスタC0と、代表静止画像が複数枚含まれたクラスタC2と、が存在する。 Referring to FIG. 7, there is a stepped region in the upper hierarchy. This stepped region, the cluster C x various clusters are formed by bonding the other cluster is a region formed by combining one after another. Among the clusters coupled to the cluster C x , as shown in FIG. 7, there are a cluster C 0 including only one representative still image and a cluster C 2 including a plurality of representative still images. Exists.
ここで、図7に示すクラスタC0の中でrやsの画像を含むものは、樹形図における下の階層で他のどのクラスタとも結合することなく、非類似度の高い上の階層でのみクラスタCxと結合したクラスタである。従って、これらの代表静止画像は、画像全体においても、あるいは画像の一部分においても、他の代表静止画像とはあまり類似していない画像であることが推定される。一方、図7に示すクラスタC2は、非類似度の高い上の階層でクラスタCxと結合しているものの、クラスタCxとの結合からある一定距離だけ離れた低い階層において、複数のクラスタにより形成されている。従って、クラスタC2に含まれる代表静止画像は、画像全体においては他の代表静止画像と類似しているものの、画像の一部分においては他の代表静止画像と異なる画像であることが推定される。 Here, in the cluster C 0 shown in FIG. 7, an image including r and s is not connected to any other cluster in the lower hierarchy in the tree diagram, and is higher in the dissimilarity higher hierarchy. it is a cluster bound to the cluster C x only. Therefore, it is estimated that these representative still images are images that are not very similar to other representative still images in the entire image or a part of the image. On the other hand, although the cluster C 2 shown in FIG. 7 is coupled to the cluster C x in the upper layer having a high dissimilarity, a plurality of clusters are separated in a lower layer separated from the coupling with the cluster C x by a certain distance. It is formed by. Therefore, although the representative still image included in the cluster C 2 is similar to the other representative still images in the entire image, it is estimated that a part of the image is different from the other representative still images.
候補クラスタ抽出部22は、以上のような推定のもと、図7に示す階段状の領域部分を基準として、テンプレート候補クラスタを抽出する。以下、候補クラスタ抽出部22によるテンプレート候補クラスタの抽出アルゴリズムについて、図7を参照しつつ、かつ、図8のフローチャートに沿って説明する。なお、図7では、説明の便宜上、各代表静止画像をa〜sで示すこととする。また、後記する距離条件dc(閾値)の一例を表したものを図中の左上に示す。
Based on the above estimation, the candidate
候補クラスタ抽出部22は、階層クラスタリング部21から階層クラスタリング結果が入力され、候補クラスタ抽出処理がスタートすると、まず図7に示すように、階層クラスタリングの分類結果である樹形図を所定の階層で切断する(ステップS1)。ここで、所定の階層で切断するとは、例えば、クラスタ同士の結合距離を全クラスタ分積算したものを全クラスタ数で除算して平均結合距離を求め、その平均結合距離の位置で樹形図を切断することを意味している。また他にも、平均結合距離の位置より、階段状の樹形図を上方に辿り、1つ上の階層への距離が予め定めた閾値を越えるところで切断する方法もある。
When the candidate
次に、候補クラスタ抽出部22は、図7における切断線と交わった交点B1〜B7を出発点リストに追加する(ステップS2)。次に、候補クラスタ抽出部22は、出発点リストが空かどうかを判定する(ステップS3)。そして、出発点リストが空ではない場合(ステップS3でNo)、候補クラスタ抽出部22は、出発点リストから1つの出発点(交点)を選択し、当該出発点の下方向に向って処理を開始する(ステップS4)。一方、出発点リストが空である場合(ステップS3でYes)、候補クラスタ抽出部22は、処理を終了する。
Next, the candidate
次に、候補クラスタ抽出部22は、出発点の下方向、すなわち下の階層において、分岐点があるか否かを判定する(ステップS5)。そして、分岐点がある場合、候補クラスタ抽出部22は、ステップS6に進む。一方、分岐点がない場合、すなわち図7に示す代表静止画像k,l,m,n,r,sのように、クラスタが代表静止画像を一枚しか含まない場合、候補クラスタ抽出部22は、出発点リストから現在の出発点を削除し(ステップS7)、ステップS4に戻る。
Next, the candidate
次に、候補クラスタ抽出部22は、出発点と分岐点との間の距離が、予め設定された距離条件dcに規定された距離以上であるか否かを判定する(ステップS6)。そして、距離条件に規定された距離以上である場合(ステップS6でYes)、候補クラスタ抽出部22は、出発点以下のクラスタ(出発点より下の階層にあるクラスタ)をテンプレート候補クラスタとして抽出し、出発点リストから当該出発点を削除し(ステップS8)、ステップS4に戻る。
Next, the candidate
例えば図7に示すように出発点をB5とした場合、出発点B5と分岐点G2との距離d2は距離条件dcに示された距離以上である。従って、候補クラスタ抽出部22は、分岐点G2以下のクラスタをテンプレート候補クラスタとして抽出する。なお、このテンプレート候補クラスタに含まれる代表静止画像は、図7に示すように、代表静止画像o,p,qの3枚となる。
For example, when the starting point was B5 as shown in FIG. 7, the distance d 2 between the starting point B5 and the branching point G2 is at least the distance indicated on the distance condition d c. Therefore, the candidate
一方、距離条件に規定された距離未満である場合(ステップS6でNo)、候補クラスタ抽出部22は、出発点リストから現在の出発点を削除して代わりに出発点リストに分岐点の両端の点を追加し(ステップS9)、ステップS3に戻る。
On the other hand, if the distance is less than the distance specified in the distance condition (No in step S6), the candidate
例えば図7に示すように出発点をB1とした場合、出発点B1と分岐点G1との距離d1は距離条件dcに示された距離未満である。従って、候補クラスタ抽出部22は、分岐点G1を出発点リストから削除し、分岐点G1の両端の点R1,R2を新たな出発点として出発点リストに追加し、ステップS3以下の処理を繰り返す。ここで、点R2は一枚の代表静止画像kしか含まないため、候補クラスタ抽出部22は、出発点リストから点R2を削除する。一方、点R1は分岐点P1との距離が距離条件dc以下であるため、候補クラスタ抽出部22は、出発点リストから点R1を削除するとともに、出発点リストに点P1の両端の点F1,F2を追加し、ステップS3以下の処理を繰り返す。
For example, if the starting point B1 as shown in FIG. 7, the distance d 1 between the starting point B1 and the branch point G1 is less than the distance indicated on the distance condition d c. Accordingly, the candidate
このようにして、候補クラスタ抽出部22は、例えば図7では、代表静止画像b,cが含まれるクラスタ、代表静止画像i,jが含まれるクラスタ、代表静止画像o,p,qが含まれるクラスタ、の3つのテンプレート候補クラスタを抽出する。なお、前記した距離条件に示された距離は、予め実験的に求めた値であり、図1に示す距離条件記憶部23に予め記憶されている。
In this way, the candidate
候補クラスタ抽出部22には、図1に示すように、階層クラスタリング部21から、階層クラスタリング結果が入力されるとともに、距離条件記憶部23から距離条件が入力される。そして、候補クラスタ抽出部22は、前記した手法によってテンプレート候補クラスタを抽出し、これを候補クラスタ絞り込み部24に出力する。
As shown in FIG. 1, the candidate
距離条件記憶部23は、前記したように、出発点と分岐点との距離が示された距離条件dc(閾値)を予め記憶するものである。距離条件記憶部23は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。距離条件記憶部23は、図1に示すように、距離条件dcを候補クラスタ抽出部22に出力する。なお、距離条件記憶部23は、候補クラスタ抽出部22に距離条件を出力できる構成であれば、テンプレート画像生成装置1の外部に設けてもよい。
As described above, the distance condition storage unit 23 stores in advance the distance condition d c (threshold value) indicating the distance between the departure point and the branch point. Specifically, the distance condition storage unit 23 is implemented by a memory, a hard disk, or the like that can store data. Distance condition storage unit 23, as shown in FIG. 1, and outputs the distance condition d c in the candidate
候補クラスタ絞り込み部24は、所定の条件に基づいて、複数のテンプレート候補クラスタの数を絞り込むものである。候補クラスタ絞り込み部24は、具体的には、以下の2つの条件に基づいて、候補クラスタ抽出部22によって抽出されたテンプレート候補クラスタの数を段階的に絞り込む。なお、テンプレート画像生成装置1は、候補クラスタ絞り込み部24による絞り込みを経ずに、後記するマスク情報の生成処理やテンプレート画像の選択処理等を行うこともできるが、候補クラスタ絞り込み部24による絞り込みを行うことにより、より適切なテンプレート画像を生成することができ、テンプレートマッチングの精度を向上させることができる。
The candidate
第1の条件は、候補クラスタ抽出部22によって抽出されたテンプレート候補クラスタが、隣り合うショットから抽出された代表静止画像を含むクラスタである場合、該当する代表静止画像をテンプレート候補クラスタの中から削除するというものである。これは、番組映像を構成するショット内に、例えばカメラのフラッシュ等の映像が含まれている場合、ショット分割部11が当該フラッシュを映像の切れ目であると誤検出し、本来1つであるショットを複数に分割してしまうおそれがあるため、このようなショットの過剰検出を抑制するための条件である。
The first condition is that if the template candidate cluster extracted by the candidate
従って、候補クラスタ絞り込み部24は、図9(a)に示すように、テンプレート候補クラスタ1の中に隣り合うショットから抽出された代表静止画像が含まれている場合、前記した第1の条件に従って、該当する代表静止画像をテンプレート候補クラスタの中から削除し、後記する第2の条件との照合を行う。一方、候補クラスタ絞り込み部24は、図9(b)に示すように、テンプレート候補クラスタ2の中に隣り合ったショットから抽出された代表静止画像が含まれていない場合、代表静止画像を削除することなく、後記する第2の条件による絞り込みを行う。
Accordingly, as shown in FIG. 9A, the candidate
第2の条件は、第1の条件で絞り込んだテンプレート候補クラスタに含まれる代表静止画像の抽出元となる番組映像の数が、予め設定された数以上でない場合、該当するテンプレート候補クラスタを削除するというものである。これは、例えばテンプレート画像生成装置1に対して100個の番組映像が入力されたにも関わらず、テンプレート候補クラスタに1つの番組映像から抽出された代表静止画像しか含まれていない場合、当該代表静止画像が複数の番組映像に共通する典型的な演出シーンを示すものではない可能性があるためである。
The second condition is to delete the corresponding template candidate cluster when the number of program videos from which the representative still images included in the template candidate clusters narrowed down by the first condition are not more than a preset number. That's it. This is because, for example, when 100 program videos are input to the template
従って、候補クラスタ絞り込み部24は、まず、前記した第1の条件によって絞り込んだテンプレート候補クラスタに含まれる代表静止画像がどの番組に含まれていたかを検出し、テンプレート画像生成装置1に入力された番組映像の数に対する代表静止画像の抽出元の番組数の割合が予め設定された割合条件に示された割合以上ではない場合、該当するテンプレート候補クラスタを削除する。なお、テンプレート候補クラスタに含まれる代表静止画像には、前記したように、代表静止画像抽出部12において、抽出した番組名と、番組映像を構成する何番目のショットから抽出されたものであるかを示す番号と、が付与されている。
Therefore, the candidate
ここで、前記した割合条件は、テンプレートマッチングの精度をどの程度のものにするのかによって適宜変更可能な条件である。すなわち、テンプレート画像生成装置1に例えば1000個の番組映像を入力し、全ての番組映像で同じ演出を行っているテンプレート画像を生成したい場合は、割合条件を100%に設定すればよい。この場合は、テンプレートマッチングの際の精度は向上するが、生成されるテンプレート画像の枚数が減少することになる。一方、テンプレート画像生成装置1に例えば1000個の番組映像を入力し、100個の番組映像で同じ演出を行っているテンプレート画像を生成したい場合は、割合条件を10%に設定すればよい。この場合は、テンプレートマッチングの際の精度は低下するが、生成されるテンプレート画像の枚数は増加することになる。
Here, the above-described ratio condition is a condition that can be changed as appropriate depending on the accuracy of template matching. That is, for example, when 1000 program videos are input to the template
候補クラスタ絞り込み部24には、図1に示すように、候補クラスタ抽出部22からテンプレート候補クラスタが入力されるとともに、割合条件記憶部25から割合条件が入力される。そして、候補クラスタ絞り込み部24は、前記した手法によってテンプレート候補クラスタを絞り込み、これをテンプレート画像生成手段30の分散値算出部31およびテンプレート画像選択部34に出力する。
As shown in FIG. 1, the candidate
割合条件記憶部25は、前記したように、テンプレート画像生成装置1に入力された番組映像の数に対する代表静止画像の抽出元の番組数の割合を示す割合条件を予め記憶するものである。割合条件記憶部25は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。割合条件記憶部25は、図1に示すように、割合条件を候補クラスタ絞り込み部24に出力する。なお、割合条件記憶部25は、候補クラスタ絞り込み部24に割合条件を出力できる構成であれば、テンプレート画像生成装置1の外部に設けてもよい。
As described above, the ratio
テンプレート画像生成手段30は、テンプレート候補クラスタ抽出手段20によって抽出された絞り込み後のテンプレート候補クラスタから、マスク情報を生成するとともに、テンプレート候補画像からテンプレート画像を選択するものである。テンプレート画像生成手段30は、図1に示すように、分散値算出部31と、マスク情報生成部32と、閾値記憶部33と、テンプレート画像選択部34と、を備えている。
The template image generation means 30 generates mask information from the template candidate clusters after narrowing down extracted by the template candidate cluster extraction means 20 and selects a template image from the template candidate images. As shown in FIG. 1, the template
分散値算出部31は、テンプレート候補クラスタに含まれるテンプレート候補画像(代表静止画像)のブロックごとの分散値を算出するものである。分散値算出部31は、具体的には、候補クラスタ絞り込み部24が絞り込んだテンプレート候補クラスタに含まれるテンプレート候補画像の画像特徴量をブロックごとに比較し、当該ブロックごとの画像特徴量の分散値を算出する。分散値算出部31は、例えば図10に示すように、テンプレート候補クラスタにテンプレート候補画像1〜3が含まれており、かつ、これらの画像が前記したブロック分割部13によって、横18マス×縦11マスにブロック分割されたものである場合、198ブロック分の分散値を算出する。
The variance
ここで、画像特徴量の分散値が大きいということは、該当するブロックの画像特徴量の変化が大きいということを示している。従って、テンプレート候補画像において画像特徴量の分散値が大きいブロックは、複数の番組映像における可変部分であると考えることができる。一方、画像特徴量の分散値が小さいということは、該当するブロックの画像特徴量の変化が小さいということを示している。従って、テンプレート候補画像において画像特徴量の分散値が小さいブロックは、複数の番組映像における固定部分であると考えることができる。 Here, the fact that the variance value of the image feature value is large indicates that the change in the image feature value of the corresponding block is large. Therefore, a block having a large image feature amount variance value in the template candidate image can be considered as a variable portion in a plurality of program videos. On the other hand, a small dispersion value of the image feature amount indicates that a change in the image feature amount of the corresponding block is small. Therefore, it can be considered that a block having a small image feature amount variance value in a template candidate image is a fixed portion in a plurality of program videos.
分散値算出部31には、図1に示すように、候補クラスタ絞り込み部24から、絞り込み後のテンプレート候補クラスタが入力される。そして、分散値算出部31は、前記した手法によってテンプレート候補クラスタに含まれるテンプレート候補画像のブロックごとの分散値を算出し、これらをマスク情報生成部32に出力する。なお、分散値算出部31は、候補クラスタ絞り込み部24から、複数のテンプレート候補クラスタが入力された場合は、テンプレート候補クラスタごとに前記した分散値を算出する。
As shown in FIG. 1, the template candidate cluster after narrowing down is input to the variance
マスク情報生成部32は、テンプレート画像に合成するマスク情報を生成するものである。ここで、マスク情報とは、テンプレート画像に対するマスクの形成位置に関する情報を意味している。マスク情報生成部32は、具体的には、分散値算出部31から入力されたテンプレート候補画像のブロックごとの分散値と、予め設定された閾値と、を比較し、当該分散値が閾値を超える場合、該当するブロックを覆うマスクの形成位置に関するマスク情報を生成する。そして、マスク情報生成部32は、テンプレート画像の全てのブロックについて前記した処理を行い、例えば図11(a)の左図に示すように、テンプレート画像全体のマスク情報を生成する。
The mask
ここで、前記した閾値は、テンプレートマッチングの精度をどの程度のものにするのかによって適宜変更可能な条件である。すなわち、テンプレート候補画像における些細な可変部分であっても全てマスクしたい場合は、閾値を下げればよい。この場合は、テンプレートマッチングの際の精度は向上するが、生成されるテンプレート画像の枚数は減少することになる。一方、テンプレート候補画像における大きな可変部分のみをマスクしたい場合は、閾値を上げればよい。この場合は、テンプレートマッチングの際の精度は低下するが、生成されるテンプレート画像の枚数は増加することになる。 Here, the threshold value described above is a condition that can be changed as appropriate depending on the accuracy of template matching. That is, if it is desired to mask even a small variable portion in the template candidate image, the threshold value may be lowered. In this case, the accuracy in template matching is improved, but the number of template images to be generated is reduced. On the other hand, if it is desired to mask only a large variable part in the template candidate image, the threshold value may be increased. In this case, the accuracy at the time of template matching is lowered, but the number of generated template images is increased.
マスク情報生成部32には、図1に示すように、分散値算出部31から、テンプレート候補クラスタに含まれるテンプレート候補画像のブロックごとの分散値が入力されるとともに、閾値記憶部33から、閾値が入力される。そして、マスク情報生成部32は、前記した手法によってテンプレート全体のマスク情報を生成し、これを出力する。
As shown in FIG. 1, the mask
閾値記憶部33は、前記したように、テンプレート画像のそれぞれブロックを覆うマスク情報を生成するか否かを判定するための閾値を記憶するものである。閾値記憶部33は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。閾値記憶部33は、図1に示すように、閾値をマスク情報生成部32に出力する。なお、閾値記憶部33は、マスク情報生成部32に閾値を出力できる構成であれば、テンプレート画像生成装置1の外部に設けてもよい。
As described above, the threshold
テンプレート画像選択部34は、テンプレート候補クラスタに含まれるテンプレート候補画像から、1枚のテンプレート画像を選択するものである。テンプレート画像選択部34は、具体的には、候補クラスタ絞り込み部24が絞り込んだテンプレート候補クラスタに含まれる複数のテンプレート候補画像の中で、画像特徴量の特徴ベクトルが最も中心に近い(特徴ベクトルの平均に最も近い)テンプレート候補画像をテンプレート画像として選択する。すなわち、テンプレート画像選択部34は、クラスタに含まれる画像群の中で、最も平均に近いものを取り出すことになる。
The template
テンプレート画像選択部34には、図1に示すように、候補クラスタ絞り込み部24から、絞り込み後のテンプレート候補クラスタが入力される。そして、テンプレート画像選択部34は、前記した手法によってテンプレート画像を選択し、これを出力する。なお、テンプレート画像選択部34は、候補クラスタ絞り込み部24から、複数のテンプレート候補クラスタが入力された場合は、テンプレート候補クラスタごとに前記したテンプレート画像を選択する。
As shown in FIG. 1, the template candidate cluster after narrowing down is input to the template
マスク情報生成部32によって生成されたマスク情報と、テンプレート画像選択部34によって選択されたテンプレート画像は、例えば、図11(a)に示すように合成され、図11(b)に示すようなマスク情報付きテンプレート画像が生成される。
The mask information generated by the mask
なお、図11(b)を参照すると、ニュース項目を伝えるはめ込み画像部分は、ニュースごとに変化するため、マスクがかかっていることがわかる。また、アナウンサの顔の左下部は、原稿を読む際に動いて変化するため、マスクがかかっていることがわかる。また、アナウンサの左腕は、原稿をめくる際に動いて変化するため、マスクがかかっていることがわかる。また、アナウンサのネクタイは、日によって変化するため、マスクがかかっていることがわかる。 Referring to FIG. 11 (b), it can be seen that the inset image portion that conveys the news item changes for each news, and is therefore masked. In addition, the lower left part of the announcer's face moves and changes when the manuscript is read, so that the mask is put on. Further, the announcer's left arm moves and changes when turning the document, so that it can be seen that the announcer is masked. The announcer's tie changes from day to day, so you can see that the mask is on.
以上のような構成を備えるテンプレート画像生成装置1は、画像特徴量の類似度に従って代表静止画像の階層クラスタリングを行い、その結果から、一部分が類似する複数の代表静止画像が含まれるクラスタを抽出することで、複数の番組映像の中で繰り返し用いられる典型的な演出シーンからテンプレート画像を自動的に生成することができる。また、複数のテンプレート候補画像における画像特徴量の分散値を算出することで画像内における可変部分を判別し、この可変部分を覆うマスク情報を生成するため、当該マスク情報で特定されるマスクをテンプレート画像に合成することにより、テンプレートマッチングの精度を向上させることができるとともに、テンプレートマッチングの際における閾値のばらつきを防止することができる。
The template
また、テンプレート画像生成装置1は、階層クラスタリングの結果を示す樹形図において、切断線との各交点から1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを探索することによって、テンプレート候補クラスタを容易に抽出することができる。また、テンプレート候補クラスタを2つの条件を用いて段階的に絞り込むことで、複数の番組映像の中で繰り返し用いられる典型的な演出シーンだけを精度よく抽出することができる。
In addition, the template
[テンプレート画像生成プログラム]
ここで、テンプレート画像生成装置1は、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
[Template image generation program]
Here, the template
[テンプレート画像生成装置の動作]
以下、テンプレート画像生成装置1の動作の一例について、図1を参照しながら簡単に説明する。まず、複数の番組映像がテンプレート画像生成装置1に入力されると、ショット分割部11が、それぞれの映像の中から編集点等の映像の切れ目を検出し、その切れ目に従ってショットごとに分割する。
[Operation of Template Image Generation Device]
Hereinafter, an example of the operation of the template
次に、代表静止画像抽出部12が、例えば各ショットの最初のフレーム画像を代表静止画像として抽出する。次に、ブロック分割部13が、代表静止画像を例えば横18マス×縦11マス(198ブロック)でブロック分割する。次に、特徴量抽出部14が、RGB成分の平均値やL*a*b*成分の平均値等の色情報からなる画像特徴量を代表静止画像のブロックごとに抽出する。
Next, the representative still
次に、階層クラスタリング部21が、代表静止画像のブロックごとの画像特徴量を画像の左上から右下に向って順番に並べて特徴ベクトルとし、それぞれの特徴ベクトルの類似度に従って階層クラスタリングを行う。次に、候補クラスタ抽出部22が、階層クラスタリングの結果から、テンプレート候補クラスタを抽出する。なお、候補クラスタ抽出部22によるテンプレート候補クラスタの抽出アルゴリズムについては、前記した通りである。次に、候補クラスタ絞り込み部24が、第1の条件に基づいて、テンプレート候補クラスタの中に隣り合うショットから抽出された代表静止画像が含まれている場合、前記した第1の条件に従って、該当する代表静止画像をテンプレート候補クラスタの中から削除する。また、候補クラスタ絞り込み部24が、第2の条件に基づいて、第1の条件によって絞り込んだテンプレート候補クラスタに含まれる代表静止画像がどの番組に含まれていたかを検出し、テンプレート画像生成装置1に入力された番組映像の数に対する代表静止画像の抽出元の番組数の割合が予め設定された割合条件の割合以上でない場合、該当するテンプレート候補クラスタを削除する。
Next, the
次に、分散値算出部31が、テンプレート候補クラスタに含まれるテンプレート候補画像のブロックごとの画像特徴量の分散値を算出する。次に、マスク情報生成部32が、分散値算出部31から入力されたテンプレート候補画像のブロックごとの分散値と、予め設定された閾値と、を比較し、当該分散値が閾値以上である場合、該当するブロックを覆うためのマスク情報を生成して出力する。テンプレート画像選択部34が、テンプレート候補クラスタに含まれる複数のテンプレート候補画像の中で、最も平均に近い画像をテンプレート画像として選択して出力する。
Next, the variance
1 テンプレート画像生成装置
10 画像特徴量抽出手段
11 ショット分割部
12 代表静止画像抽出部
13 ブロック分割部
14 特徴量抽出部
20 テンプレート候補クラスタ抽出手段
21 階層クラスタリング部
22 候補クラスタ抽出部
23 距離条件記憶部
24 候補クラスタ絞り込み部
25 割合条件記憶部
30 テンプレート画像生成手段
31 分散値算出部
32 マスク情報生成部
33 閾値記憶部
34 テンプレート画像選択部
Cx クラスタ
C0 独立クラスタ
C1 第1結合クラスタ
C2 第2結合クラスタ
C3 第3結合クラスタ
C4 第4結合クラスタ
DESCRIPTION OF
Claims (4)
前記複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像を所定の数のブロックに分割し、当該ブロックごとの画像特徴量を抽出する画像特徴量抽出手段と、
前記画像特徴量抽出手段によって抽出された前記画像特徴量の類似度に従って前記代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出するテンプレート候補クラスタ抽出手段と、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタからマスク情報およびテンプレート画像を生成するテンプレート画像生成手段と、を備え、
前記テンプレート画像生成手段は、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタに含まれる、前記テンプレート画像の候補となる複数のテンプレート候補画像のブロックごとの前記画像特徴量の分散値を算出する分散値算出部と、
前記分散値算出部によって算出された分散値が予め設定された閾値を超える場合、前記テンプレート画像に対するブロックごとのマスクの形成位置に関する情報であるマスク情報を生成するマスク情報生成部と、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタに含まれる前記複数のテンプレート候補画像の中で、前記画像特徴量が最も平均に近い前記テンプレート候補画像を、前記テンプレート画像として選択するテンプレート画像選択部と、
を備えることを特徴とするテンプレート画像生成装置。 A template image generation device that generates a template image used when performing template matching from a plurality of program videos,
An image feature amount that divides the plurality of program videos into shots, extracts a representative still image from the shot, divides the representative still image into a predetermined number of blocks, and extracts an image feature amount for each block Extraction means;
The representative still image is hierarchically clustered according to the similarity of the image feature amount extracted by the image feature amount extraction means, and a tree line showing a result of the hierarchical clustering is a cutting line when cut at a predetermined hierarchy. Template candidate cluster extraction means for following the hierarchy one by one from each intersection and extracting a cluster having branches separated by a predetermined distance or more as a template candidate cluster;
Template image generation means for generating mask information and a template image from the template candidate cluster extracted by the template candidate cluster extraction means,
The template image generation means includes
A variance value calculation unit that calculates a variance value of the image feature amount for each block of a plurality of template candidate images that are candidates for the template image included in the template candidate cluster extracted by the template candidate cluster extraction unit;
A mask information generating unit that generates mask information, which is information relating to a mask formation position for each block with respect to the template image, when the variance value calculated by the variance value calculating unit exceeds a preset threshold;
A template image for selecting, as the template image, the template candidate image having the closest image feature amount among the plurality of template candidate images included in the template candidate cluster extracted by the template candidate cluster extracting unit. A selection section;
A template image generation apparatus comprising:
前記画像特徴量抽出手段によって抽出された前記代表静止画像のブロックごとの画像特徴量を所定の順序で並べたものを前記代表静止画像の特徴ベクトルとし、当該特徴ベクトルの類似度に従って前記代表静止画像を階層クラスタリングする階層クラスタリング部と、
前記階層クラスタリング部による階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出する候補クラスタ抽出部と、
を備えることを特徴とする請求項1に記載のテンプレート画像生成装置。 The template candidate cluster extraction means includes
A feature vector of the representative still image obtained by arranging the image feature amounts for each block of the representative still image extracted by the image feature amount extracting unit in a predetermined order, and the representative still image according to the similarity of the feature vector A hierarchical clustering unit for hierarchical clustering;
Clusters having branches separated by a predetermined distance or more from each intersection with the cutting line when the tree diagram showing the result of hierarchical clustering by the hierarchical clustering unit is cut at a predetermined hierarchy. A candidate cluster extraction unit that extracts a template candidate cluster,
The template image generation apparatus according to claim 1, further comprising:
前記複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像を所定の数のブロックに分割し、当該ブロックごとの画像特徴量を抽出する画像特徴量抽出手段、
前記画像特徴量抽出手段によって抽出された前記画像特徴量の類似度に従って前記代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出するテンプレート候補クラスタ抽出手段、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタに含まれる、前記テンプレート画像の候補となる複数のテンプレート候補画像のブロックごとの前記画像特徴量の分散値を算出する分散値算出手段、
前記分散値算出手段によって算出された分散値が予め設定された閾値を超える場合、前記テンプレート画像に対するブロックごとのマスクの形成位置に関する情報であるマスク情報を生成するマスク情報生成手段、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタに含まれる前記複数のテンプレート候補画像の中で、前記画像特徴量が最も平均に近い前記テンプレート候補画像を、前記テンプレート画像として選択するテンプレート画像選択手段、
として機能させることを特徴とするテンプレート画像生成プログラム。 In order to generate a template image used when performing template matching from a plurality of program videos,
An image feature amount that divides the plurality of program videos into shots, extracts a representative still image from the shot, divides the representative still image into a predetermined number of blocks, and extracts an image feature amount for each block Extraction means,
The representative still image is hierarchically clustered according to the similarity of the image feature amount extracted by the image feature amount extraction means, and a tree line showing a result of the hierarchical clustering is a cutting line when cut at a predetermined hierarchy. A template candidate cluster extraction means for tracing a hierarchy one by one from each intersection and extracting a cluster having a branch at a predetermined distance or more as a template candidate cluster;
A variance value calculating unit that calculates a variance value of the image feature amount for each block of a plurality of template candidate images that are candidates for the template image included in the template candidate cluster extracted by the template candidate cluster extracting unit;
A mask information generating unit configured to generate mask information that is information relating to a mask forming position for each block with respect to the template image when the variance value calculated by the variance value calculating unit exceeds a preset threshold;
A template image for selecting, as the template image, the template candidate image having the closest image feature amount among the plurality of template candidate images included in the template candidate cluster extracted by the template candidate cluster extracting unit. Selection means,
A template image generation program characterized by being made to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010161921A JP5522790B2 (en) | 2010-07-16 | 2010-07-16 | Template image generation apparatus and template image generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010161921A JP5522790B2 (en) | 2010-07-16 | 2010-07-16 | Template image generation apparatus and template image generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012022622A JP2012022622A (en) | 2012-02-02 |
JP5522790B2 true JP5522790B2 (en) | 2014-06-18 |
Family
ID=45776840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010161921A Expired - Fee Related JP5522790B2 (en) | 2010-07-16 | 2010-07-16 | Template image generation apparatus and template image generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5522790B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6554900B2 (en) * | 2015-04-28 | 2019-08-07 | オムロン株式会社 | Template creation apparatus and template creation method |
CN111242142B (en) * | 2020-01-16 | 2023-10-27 | 网易(杭州)网络有限公司 | Template subgraph acquisition method and device, processor and electronic device |
CN114494709A (en) * | 2022-01-26 | 2022-05-13 | 北京字跳网络技术有限公司 | Feature extraction model generation method, image feature extraction method and device |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6807306B1 (en) * | 1999-05-28 | 2004-10-19 | Xerox Corporation | Time-constrained keyframe selection method |
JP4214990B2 (en) * | 2004-12-08 | 2009-01-28 | 日本電信電話株式会社 | Event detection method, apparatus and program |
-
2010
- 2010-07-16 JP JP2010161921A patent/JP5522790B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012022622A (en) | 2012-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4987907B2 (en) | Metadata processing device | |
KR101289085B1 (en) | Images searching system based on object and method thereof | |
JP5537557B2 (en) | Semantic classification for each event | |
CN106557545B (en) | Video retrieval method and device | |
US8068678B2 (en) | Electronic apparatus and image processing method | |
CN102799684A (en) | Video-audio file catalogue labeling, metadata storage indexing and searching method | |
JP2008217428A (en) | Image-retrieving program, method, and device | |
Ballan et al. | Enriching and localizing semantic tags in internet videos | |
JP5522790B2 (en) | Template image generation apparatus and template image generation program | |
EP2156438A1 (en) | Method and apparatus for automatically generating summaries of a multimedia file | |
JP5116017B2 (en) | Video search method and system | |
JP4732418B2 (en) | Metadata processing method | |
US20230230378A1 (en) | Method and system for selecting highlight segments | |
KR101640317B1 (en) | Apparatus and method for storing and searching image including audio and video data | |
Gao et al. | Thematic video thumbnail selection | |
Bartolini et al. | Shiatsu: semantic-based hierarchical automatic tagging of videos by segmentation using cuts | |
Huang et al. | A film classifier based on low-level visual features | |
Ainasoja et al. | Keyframe-based Video Summarization with Human in the Loop. | |
CN105814561A (en) | Video information processing system | |
Burget et al. | Supervised video scene segmentation using similarity measures | |
Nam et al. | Content adaptive video summarization using spatio-temporal features | |
JP4652389B2 (en) | Metadata processing method | |
CN103003880B (en) | Representative image is determined for video | |
Benini et al. | Identifying video content consistency by vector quantization | |
Zhang et al. | Hierarchical video organization based on compact representation of video units |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5522790 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |