JP2013105393A - Video additional information relationship learning device, method and program - Google Patents
Video additional information relationship learning device, method and program Download PDFInfo
- Publication number
- JP2013105393A JP2013105393A JP2011249956A JP2011249956A JP2013105393A JP 2013105393 A JP2013105393 A JP 2013105393A JP 2011249956 A JP2011249956 A JP 2011249956A JP 2011249956 A JP2011249956 A JP 2011249956A JP 2013105393 A JP2013105393 A JP 2013105393A
- Authority
- JP
- Japan
- Prior art keywords
- additional information
- feature
- video
- stored
- accumulated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、映像付加情報関係性学習装置、方法、及びプログラムに関する。 The present invention relates to a video additional information relationship learning apparatus, method, and program.
所望の映像を与えられた言語情報に基づいて検索する映像検索技術、及び与えられた映像に対してその映像を説明する言語情報を自動的に付与する映像認識技術は、ディジタルカメラ・携帯電話などの撮像装置の普及、インターネット上での映像共有の一般化などに伴い、非常に重要な技術となってきている。映像は静止画像の時系列と考えることができ、映像検索や映像認識を目的とした多くの技術では、映像を静止画像に分割した上で、画像検索・画像認識の技術を用いている(例えば、非特許文献1)。 Video search technology for searching for desired video based on given language information, and video recognition technology for automatically assigning language information describing the video to the given video are digital cameras, mobile phones, etc. With the widespread use of such imaging devices and the generalization of video sharing on the Internet, it has become a very important technology. Video can be considered as a time series of still images, and many technologies for video search and video recognition use image search and image recognition technology after dividing the video into still images (for example, Non-Patent Document 1).
また、近年では、画像検索と画像認識を同一の枠組の下で実現する画像認識検索技術についても、非特許文献2など数多くの技術が開発されている。 In recent years, a number of technologies such as Non-Patent Document 2 have been developed for image recognition and retrieval technology that realizes image retrieval and image recognition under the same framework.
さらに、これらの技術を発展させ、言語情報が関連づけられていない画像が十分に用意できない場合においても、画像と言語情報との関連性を適切に学習し、高精度な画像認識・検索を実現する技術も開発されている(非特許文献3)。 Furthermore, by developing these technologies, even when images that are not associated with linguistic information cannot be prepared sufficiently, the relationship between the images and linguistic information is properly learned to realize high-accuracy image recognition and retrieval. Technology has also been developed (Non-Patent Document 3).
これらの技術は、画像情報のみを利用することで映像の認識や検索を実現している。しかし、通常、映像には音響信号も同時に付与されている。この音響信号が映像の内容を理解する上で非常に重要となる事象が多数存在する。例えば、「歌っている」、「歓声」など、音響情報が観測されることでしか内容が明らかにならない事象だけでなく、「サッカーのゴール」、「爆発」など、音響情報が画像情報と同時に観測されることによって事象の内容がより明確になる場合が挙げられる。 These technologies realize video recognition and retrieval by using only image information. However, usually, an audio signal is also given to the video. There are a number of events in which this audio signal is very important for understanding the content of video. For example, not only events that are revealed only by observing acoustic information such as “singing” and “cheers”, but also acoustic information such as “soccer goal” and “explosion” There are cases where the details of the event become clearer by being observed.
本発明は、このような事情を考慮してなされたものである。その目的は、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる映像付加情報関係性学習装置、方法、及びプログラムを提供することにある。 The present invention has been made in consideration of such circumstances. The purpose is to use both image information and audio information included in the video, and to learn the relationship between the information and language information with higher accuracy in consideration of their mutual co-occurrence relationships. It is an object to provide a video additional information relationship learning apparatus, method, and program capable of performing the above.
上記の目的を達成するために本発明に係る映像付加情報関係性学習装置は、音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置であって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出手段と、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する蓄積音響特徴抽出手段と、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出手段と、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出手段と、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する映像・付加情報間関係性学習手段とを含んで構成されている。 In order to achieve the above object, a video additional information relationship learning apparatus according to the present invention learns the relationship between a video that is a moving image with sound and additional information that is information that describes the video. A relationship learning device that is a complete stored video that is an element of a fully stored video set that is a set of videos to which additional information is given in advance, and an incompletely stored video set that is a set of videos to which no additional information is given And a stored image feature extracting means for extracting a completely stored image feature and an incompletely stored image feature, which are vectors expressing the characteristics of the image, from each of the incompletely stored video as elements of the image, and an element of the complete stored video set Extraction of complete accumulated sound features and incompletely accumulated sound features, which are vectors representing acoustic characteristics, from each of the completely accumulated image and the incompletely accumulated image that is an element of the incompletely accumulated image set. The storage acoustic feature extraction means for extracting the stored additional information features that are vectors representing the characteristics of the additional information from each of the stored additional information that is an element of the stored additional information set that is a set of the added additional information Additional information feature extraction means, a completely stored image feature set that is a set of the completely stored image features, an incompletely stored image feature set that is a set of the incompletely stored image features, and a complete storage that is a set of the completely stored acoustic features To describe the relationship between video and additional information from an acoustic feature set, an incompletely stored acoustic feature set that is a set of the incompletely stored acoustic features, and a stored additional information feature set that is a set of the stored additional information features Storage latent variable extraction means for extracting a stored latent variable set that is a set of variables, the completely stored image feature set, the incompletely stored image feature set, and the completely stored acoustic feature Video / additional information relation model that is a model describing the relationship between video and additional information from the incompletely stored acoustic feature set, the stored additional information feature set, and the stored latent variable set. Additional information relationship learning means.
本発明に係る映像付加情報関係性学習方法は、音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置において用いられる映像付加情報関係性学習方法であって、蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出するステップと、蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出するステップと、蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出するステップと、蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出するステップと、映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習するステップとを含む。 The video additional information relationship learning method according to the present invention is a video used in a video additional information relationship learning device that learns the relationship between a video that is a moving image with sound and additional information that is information that describes the video. An additional information relationship learning method, wherein the accumulated image feature extraction means is a completely accumulated image that is an element of a completely accumulated image set that is a set of images to which additional information is given in advance, and an image for which no additional information is given Extracting a completely accumulated image feature and an imperfectly accumulated image feature, which are vectors representing the characteristics of the image, from each of the incompletely accumulated images that are elements of the incompletely accumulated image set that is a set of images, and accumulated acoustic feature extraction By means of the method, the acoustic characteristics are obtained from each of the completely accumulated image that is an element of the completely accumulated image set and the incompletely accumulated image that is an element of the incompletely accumulated image set. A step of extracting a completely accumulated acoustic feature and an incompletely accumulated acoustic feature which are present vectors, and a stored additional information feature which is a set of additional information added by a stored additional information feature extracting unit; A step of extracting a stored additional information feature, which is a vector expressing the characteristic of the additional information, and a stored latent variable extracting means, and a complete stored image feature set, which is a set of the completely stored image features, and the incompletely stored image An incompletely stored image feature set that is a set of features, a fully stored acoustic feature set that is a set of the completely stored acoustic features, an incompletely stored acoustic feature set that is a set of the incompletely stored acoustic features, and the stored additional information feature From the stored additional information feature set, which is a set of, a latent latent variable set, which is a set of variables for describing the relationship between video and additional information, is extracted And the step of learning the relationship between video and additional information, the complete stored image feature set, the incompletely stored image feature set, the complete stored acoustic feature set, the incompletely stored acoustic feature set, and the stored additional information feature Learning a video / additional information relationship model, which is a model describing the relationship between video and additional information, from the set and the accumulated latent variable set.
本発明によれば、蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する。蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する。 According to the present invention, the accumulated image feature extraction means is a set of a completely accumulated image that is an element of a completely accumulated image set that is a set of images to which additional information is given in advance, and a set of images to which no additional information is given. A fully accumulated image feature and an incompletely accumulated image feature, which are vectors representing the characteristics of the image, are extracted from each of the incompletely accumulated images that are elements of the incompletely accumulated image set. Complete accumulation, which is a vector that expresses acoustic characteristics from each of the completely accumulated video, which is an element of the completely accumulated video set, and the incompletely accumulated video, which is an element of the incompletely accumulated video set, by the accumulated acoustic feature extraction means Extract acoustic features and imperfectly accumulated acoustic features.
そして、蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する。蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する。 Then, the storage additional information feature extraction means extracts a storage additional information feature that is a vector representing the characteristic of the additional information from each of the storage additional information that is an element of the storage additional information set that is a set of the added additional information. To do. By the accumulated latent variable extraction means, a completely accumulated image feature set that is a set of the completely accumulated image features, an incompletely accumulated image feature set that is a set of the incompletely accumulated image features, and a complete accumulation that is a set of the completely accumulated acoustic features. To describe the relationship between video and additional information from an acoustic feature set, an incompletely stored acoustic feature set that is a set of the incompletely stored acoustic features, and a stored additional information feature set that is a set of the stored additional information features An accumulated latent variable set that is a set of variables is extracted.
そして、映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する。 Then, by the relationship learning means between video and additional information, the complete stored image feature set, the incomplete stored image feature set, the complete stored acoustic feature set, the incomplete stored acoustic feature set, the stored additional information feature set, The video / additional information relationship model, which is a model describing the relationship between the video and the additional information, is learned from the accumulated latent variable set.
このように、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる。 As described above, the completely accumulated image feature and the completely accumulated acoustic feature extracted from each of the completely accumulated images, the incompletely accumulated image feature and the incompletely accumulated acoustic feature extracted from each of the incompletely accumulated images, and the accumulated latent variable. By learning a model that describes the relationship between video and additional information from the set, using both image information and acoustic information contained in the video, and taking into account their mutual co-occurrence relationship, The relationship between the information and the language information can be learned with higher accuracy.
本発明に係るプログラムは、上記の映像付加情報関係性学習装置の各手段としてコンピュータを機能させるためのプログラムである。 The program according to the present invention is a program for causing a computer to function as each unit of the video additional information relationship learning apparatus.
以上説明したように、本発明の映像付加情報関係性学習装置、方法、及びプログラムによれば、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる、という効果が得られる。 As described above, according to the video additional information relationship learning apparatus, method, and program of the present invention, the completely accumulated image feature and the completely accumulated acoustic feature extracted from each of the completely accumulated image, and the incompletely accumulated image By learning a model that describes the relationship between video and additional information from incompletely stored image features and incompletely stored acoustic features extracted from each, and a set of stored latent variables, image information contained in the video By using both of the acoustic information and taking into account the mutual co-occurrence relationship, it is possible to learn the relationship between the information and the linguistic information with higher accuracy.
以下、図面を参照して本発明の実施の形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
〔第1の実施の形態〕
<システム構成>
図1は、本発明の第1の実施の形態に係る映像付加情報関係性学習装置100を示すブロック図である。映像付加情報関係性学習装置100は、映像を説明する情報である付加情報が予め付与された映像(画像信号+音響信号)の集合である完全蓄積映像集合、付加情報が与えられていない映像の集合である不完全蓄積映像集合、及び映像に付与された付加情報の集合である蓄積付加情報集合を入力し、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを出力する装置であり、具体的にはCPU(Central Processing Unit)と、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
[First Embodiment]
<System configuration>
FIG. 1 is a block diagram showing a video additional information
映像付加情報関係性学習装置100は、入力部10、演算部20、及び出力部30を備えている。
The video additional information
入力部10は、映像を説明する情報である付加情報が予め付与された映像の集合である完全蓄積映像集合、付加情報が与えられていない映像の集合である不完全蓄積映像集合、及び映像に付与された付加情報の集合である蓄積付加情報集合の入力を受け付ける。 The input unit 10 adds a complete stored video set that is a set of videos to which additional information, which is information describing the video, is added in advance, an incompletely stored video set that is a set of videos to which no additional information is given, and video An input of a stored additional information set that is a set of added additional information is received.
演算部20は、蓄積付加情報データベース1、完全蓄積映像データベース2、不完全蓄積映像データベース3、蓄積付加情報特徴抽出部4、蓄積画像特徴抽出部5、蓄積音響特徴抽出部6、特徴データベース7、蓄積潜在変数抽出部8、映像・付加情報間関係性学習部9を備えている。
The
蓄積付加情報データベース1は、入力された蓄積付加情報集合を記憶する。完全蓄積映像データベース2は、入力された完全蓄積映像集合を記憶する。不完全蓄積映像データベース3は、入力された不完全蓄積映像集合を記憶する。 The accumulated additional information database 1 stores the inputted accumulated additional information set. The fully stored video database 2 stores the input complete stored video set. The incompletely stored video database 3 stores the input incompletely stored video set.
蓄積画像特徴抽出部5は、完全蓄積映像集合、及び不完全蓄積映像集合を入力し、完全蓄積映像集合の要素である完全蓄積映像、及び不完全蓄積映像集合の要素である不完全蓄積映像のそれぞれから、各蓄積映像に含まれる画像信号の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出し、完全蓄積画像特徴の集合である完全蓄積画像特徴集合、及び不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合を出力する。
The stored image
完全蓄積画像特徴及び不完全蓄積画像特徴の抽出方法は、特に限定されるものではないが、例えば、完全蓄積映像の構成要素たる画像信号の各フレームである完全蓄積画像,及び不完全蓄積映像の構成要素たる画像信号の各フレームである不完全蓄積画像のそれぞれから、以下のような方法、及びそれらの任意の組み合わせによって特徴を抽出する方法が考えられる。 The extraction method of the completely accumulated image feature and the incompletely accumulated image feature is not particularly limited. For example, the complete accumulated image and the incompletely accumulated image of each frame of the image signal that is a component of the completely accumulated image are extracted. A method of extracting features from each of the incompletely stored images, which are each frame of the image signal as a constituent element, by the following method and any combination thereof can be considered.
・色ヒストグラム
・画像中の各小領域のディジタルコサイン変換の低周波成分
・Haar Waveletの低周波及び/または高周波成分のヒストグラム
・高次局所自己相関特徴(参考文献1「N. Otsu and T. Kurita “A new scheme for practical flexible and intelligent vision systems,” Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988.」参照)
・SIFT(参考文献2「D. Lowe, “Distinctive image features from scale-invariant keypoints, ”International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.」参照)及びその各種改良
・Bag of Features(参考文献3「G. Csurka, C. Bray, C. Dance and L. Fan “Visual categorization with bags of keypoints,” in Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 59−74, 2004.」参照)
・ Color histogram ・ Low frequency component of digital cosine transform of each small area in the image ・ Histogram of low frequency and / or high frequency component of Haar Wavelet ・ High-order local autocorrelation feature (Ref. 1 “N. Otsu and T. Kurita (See “A new scheme for practical flexible and intelligent vision systems,” Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988.)
・ SIFT (see Reference 2 “D. Lowe,“ Distinctive image features from scale-invariant keypoints, ”International Journal of Computer Vision, Vol. 60, No. 2, pp. 91-110, 2004.) Improvement / Bag of Features (Reference 3 “G. Csurka, C. Bray, C. Dance and L. Fan“ Visual categorization with bags of keypoints, ”in Proc. Of ECCV Workshop on Statistical Learning in Computer Vision, pp. 59 -74, 2004.)
また、当該蓄積映像に対応する区間に含まれる各蓄積画像から、上記の方法によって抽出した特徴を、Bag of Featuresと同様の方法で作成したヒストグラムを、蓄積画像特徴として採用する形態も可能である(参考文献4「K. Kashino, T. Kurozumi and H. Murase: "A quick search method for audio and video signals based on histogram pruning", IEEE Transactions on Multimedia, Vol.5, No.3, pp.348-357, 2003.」参照)。 In addition, it is possible to adopt a form in which a histogram created by using the same method as the Bag of Features, which is a feature extracted from each stored image included in the section corresponding to the stored video, by the above method is used as the stored image feature. (Reference 4 “K. Kashino, T. Kurozumi and H. Murase:“ A quick search method for audio and video signals based on histogram pruning ”, IEEE Transactions on Multimedia, Vol.5, No.3, pp.348- 357, 2003 ").
このようにして、蓄積画像特徴抽出部5は、完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出し、これらそれぞれの集合である完全蓄積画像特徴集合及び不完全蓄積画像特徴集合を出力する。
In this manner, the accumulated image
蓄積音響特徴抽出部6は、完全蓄積映像集合、及び不完全蓄積映像集合を入力し、完全蓄積映像集合の要素である完全蓄積映像、及び不完全蓄積映像集合の要素である不完全蓄積映像のそれぞれから、各蓄積映像に含まれる音響信号の特性を表現するベクトルである完全蓄積音響特徴、及び不完全蓄積音響特徴を抽出し、完全蓄積音響特徴の集合である完全蓄積音響特徴集合、及び不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合を出力する。 The stored acoustic feature extraction unit 6 inputs the complete stored video set and the incomplete stored video set, and the complete stored video that is an element of the complete stored video set and the incomplete stored video that is an element of the incomplete stored video set. From each of them, a completely accumulated acoustic feature that is a vector expressing the characteristics of the acoustic signal included in each accumulated video and an incompletely accumulated acoustic feature are extracted, and a complete accumulated acoustic feature set that is a set of completely accumulated acoustic features, and a non-accumulated acoustic feature set. An incompletely stored acoustic feature set that is a set of completely stored acoustic features is output.
完全蓄積音響特徴及び不完全蓄積音響特徴の抽出方法は,特に限定されるものではないが、例えば、各蓄積映像の構成要素たる音響信号に分析窓をかけ、各分析窓から以下のような方法、及びそれらの任意の組み合わせによって特徴を抽出する方法が考えられる。 The extraction method of the completely accumulated acoustic feature and the incompletely accumulated acoustic feature is not particularly limited. For example, an analysis window is applied to the acoustic signal as a component of each accumulated video, and the following method is used from each analysis window. And a method of extracting features by any combination thereof.
・メル周波数ケプストラム係数(参考文献5「J. Foote “Content-based retrieval of music and audio,” In Multimedia Storage and Archiving Systems II, Proc. of SPIE, volume 3229, pages 138−147, 1997.」参照)
・デルタケプストラム(参考文献6「S. Furui, “Speaker independent isolated word recognition using dynamic features speech spectrum,” IEEE Transactions on Acoustics, Speech and Signal Processing, Vol.34, No.1, pp.52-59, 1986.」参照)
・帯域通過フィルタバンク(参考文献7「柏野, スミス, 村瀬“ヒストグラム特徴を用いた音響信号の高速探索法 ― 時系列アクティブ探索法―”電子情報通信学会論文誌, Vol.J82-D2, No.9, pp.1365-1373, 1998」)
Mel frequency cepstrum coefficient (see
Delta cepstrum (Reference 6 “S. Furui,“ Speaker independent isolated word recognition using dynamic features speech spectrum, ”IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 34, No. 1, pp. 52-59, 1986 ."reference)
・ Bandpass filter bank (Ref. 7, “Sagano, Smith, Murase“ Fast acoustic signal search method using histogram features-Time-series active search method ”, IEICE Transactions, Vol.J82-D2, No. 9, pp.1365-1373, 1998 ")
また、蓄積音響特徴抽出部6は、蓄積画像特徴抽出部5に示した実施形態と同様にして、上記の方法によって抽出した特徴を、Bag of Featuresと同様の方法で作成したヒストグラムを、蓄積音響特徴として採用する形態も可能である。
In addition, the stored acoustic feature extraction unit 6, similar to the embodiment shown in the stored image
このようにして、蓄積音響特徴抽出部6は、完全蓄積音響特徴、及び不完全蓄積音響特徴を抽出し、これらそれぞれの集合である完全蓄積音響特徴集合及び不完全蓄積音響特徴集合を出力する。 In this way, the accumulated acoustic feature extraction unit 6 extracts the completely accumulated acoustic feature and the incompletely accumulated acoustic feature, and outputs a complete accumulated acoustic feature set and an incompletely accumulated acoustic feature set, which are their respective sets.
蓄積付加情報特徴抽出部4は、蓄積付加情報集合を入力し、蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出し、この蓄積付加情報特徴の集合である蓄積付加情報特徴集合を出力する。 The stored additional information feature extraction unit 4 inputs a stored additional information set, extracts a stored additional information feature that is a vector expressing the characteristics of the additional information from each of the stored additional information that is an element of the stored additional information set, A stored additional information feature set that is a set of the stored additional information features is output.
蓄積付加情報特徴の抽出方法は、特に限定されるものではないが、本実施の形態においては、付加情報として言語ラベルを想定し、その言語ラベルの有無を表現する2値ベクトルを蓄積付加情報特徴とする。すなわち、蓄積付加情報特徴は、以下のように構成される。 The method of extracting the accumulated additional information feature is not particularly limited, but in the present embodiment, a language label is assumed as the additional information, and a binary vector representing the presence or absence of the language label is accumulated. And That is, the accumulated additional information feature is configured as follows.
蓄積付加情報特徴は、考慮すべき言語ラベルの総数と同数の次元を持つベクトルであり、ベクトルの各次元が言語ラベルに対応する。以降、便宜的に、言語ラベルを、上記ベクトルにおいて対応する次元のインデックスを用いて表現する。蓄積付加情報に第i番目の言語ラベルが含まれている場合には、蓄積付加情報特徴の第i次元を「1」とし、そうでない場合には、「0」とする。あるいは、上記の方法で作成した特徴を、主成分分析を用いて圧縮した多次元ベクトルを蓄積付加情報特徴としても良い。 The accumulated additional information feature is a vector having the same number of dimensions as the total number of language labels to be considered, and each dimension of the vector corresponds to a language label. Hereinafter, for convenience, the language label is expressed using an index of a corresponding dimension in the vector. If the accumulated additional information includes the i-th language label, the i-th dimension of the accumulated additional information feature is set to “1”. Otherwise, “0” is set. Alternatively, a multidimensional vector obtained by compressing the feature created by the above method using principal component analysis may be used as the accumulated additional information feature.
このようにして、蓄積付加情報特徴抽出部4は、蓄積付加情報特徴を抽出し、この蓄積付加情報特徴の集合である蓄積付加情報特徴集合を出力する。 In this way, the accumulated additional information feature extraction unit 4 extracts the accumulated additional information feature and outputs an accumulated additional information feature set that is a set of the accumulated additional information features.
特徴データベース7は、抽出された完全蓄積画像特徴集合、不完全蓄積画像特徴集合、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、及び蓄積付加情報特徴集合を記憶する。 The feature database 7 stores the extracted completely accumulated image feature set, incompletely accumulated image feature set, completely accumulated acoustic feature set, incompletely accumulated acoustic feature set, and accumulated additional information feature set.
蓄積潜在変数抽出部8は、特徴データベース7から、完全蓄積画像特徴集合、不完全蓄積画像特徴集合、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、及び蓄積付加情報特徴集合を入力し、これらの特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出し、この蓄積潜在変数集合を出力する。
The stored latent
蓄積潜在変数集合は、画像、音響、付加情報のそれぞれがベクトルで与えられる場合に、同一の映像に属する画像ベクトル、音響ベクトル、付加情報ベクトルを何らかの方法で潜在変数集合のある空間に写像した場合に同一の潜在変数で記述されることを目的として算出される。このことを以て潜在変数は画像、音響、付加情報を関係づけるものとなる。
現実にはそれぞれのベクトルの写像先での値は完全に一致することは難しいので画像、音響、付加情報のそれぞれのベクトルとこれらを合成したベクトルの相関を最大化する写像であるとか、画像、音響、付加情報のそれぞれのベクトルを写像した先での潜在変数の自乗誤差が最小になる写像などの目的関数を作り、Lagrangeの未定係数法、勾配法などの最適化手法で計算することが出来る。
このとき、一般に同一の映像から得られたことがわかっている画像、音響、付加情報の組はあまり多く得られない。そのため、計算される写像が不正確になることが予想される。本発明においてはこの問題を解決するために不完全蓄積特徴を用い、潜在変数空間全体の密度全体を正確に推定することによりこれを補う。
蓄積潜在変数集合の抽出方法は、特に限定されるものではないが、本実施の形態においては、多変量解析の一種である正準相関分析を改良した以下の方法を用いる。
The stored latent variable set is a case where the image vector, sound vector, and additional information vector belonging to the same video are mapped to the space with the latent variable set by some method when each of the image, sound, and additional information is given as a vector. In order to be described with the same latent variable. Thus, the latent variable relates the image, sound, and additional information.
In reality, it is difficult for the values at the mapping destinations of each vector to completely match, so the image, sound, and additional information vectors are the mapping that maximizes the correlation between the combined vector, the image, An objective function such as a mapping that minimizes the square error of the latent variable at the point where each vector of acoustic and additional information is mapped can be calculated and calculated using optimization methods such as Lagrange's undetermined coefficient method and gradient method. .
At this time, a large number of sets of images, sounds, and additional information that are generally known to have been obtained from the same video cannot be obtained. Therefore, it is expected that the calculated map will be inaccurate. The present invention compensates for this problem by using incomplete accumulation features and accurately estimating the overall density of the entire latent variable space.
The method for extracting the accumulated latent variable set is not particularly limited, but in the present embodiment, the following method is used in which canonical correlation analysis, which is a kind of multivariate analysis, is improved.
図2に示すように、蓄積潜在変数抽出部8は、完全蓄積特徴集合統計量算出部81と、不完全蓄積特徴集合統計量算出部82と、統合統計量算出部83と、特徴圧縮関数決定部84と、特徴圧縮部85とを備えている。
As shown in FIG. 2, the accumulated latent
完全蓄積特徴集合統計量算出部81は、完全蓄積画像特徴、完全蓄積音響特徴、及び対応する蓄積付加情報特徴が組を成す特徴の組み合わせの集合である完全蓄積特徴集合(完全蓄積画像特徴集合XC0、完全蓄積音響特徴集合XC1、蓄積付加情報特徴集合YC)を入力し、この完全蓄積特徴集合を表現する統計量である完全蓄積特徴集合統計量を算出し、この完全蓄積特徴集合統計量を出力する。
The completely accumulated feature set
完全蓄積特徴集合統計量の算出方法は、特に限定されるものではないが、本実施の形態では、完全蓄積特徴集合統計量として、完全蓄積特徴集合の自己共分散行列及び相互共分散行列を算出する。 The calculation method of the completely accumulated feature set statistics is not particularly limited, but in this embodiment, the self-covariance matrix and the mutual covariance matrix of the completely accumulated feature set are calculated as the completely accumulated feature set statistics. To do.
ここで、方法の具体的な記述に必要な記号の説明を行う。以下の式に示すように、完全蓄積画像特徴集合をXC0、不完全蓄積画像特徴集合をXI0と記述し、その和集合である蓄積画像特徴集合をX0と記述する。同様に、完全蓄積音響特徴集合をXC1、不完全蓄積音響特徴集合をXI1と記述し、その和集合である蓄積音響特徴集合をX1と記述する。また、蓄積付加情報集合をYと記述する。 Here, the symbols necessary for the specific description of the method will be described. As shown in the following equation, the completely stored image feature set is described as X C0 , the incompletely stored image feature set is described as X I0, and the stored image feature set that is the union thereof is described as X 0 . Similarly, a complete stored acoustic feature set is described as X C1 , an incomplete stored acoustic feature set is described as X I1, and a stored acoustic feature set that is the union thereof is described as X 1 . The accumulated additional information set is described as Y.
ここで、Nは完全蓄積特徴集合の要素数、Nxは蓄積画像特徴集合及び蓄積音響特徴集合の各々の要素数(注:両集合の要素数は同一であることを意味する)である。また、各要素x0,i,x1,i及びyj(i=1、2、…、Nx、j=1、2、…、N)は、それぞれdx0次元、dx1次元、及びdy次元の列ベクトルとする。同じ添字の蓄積特徴は、互いに対応関係にあることを示している。以降の説明において、上記完全蓄積特徴集合と不完全蓄積特徴集合とを明確に区別して記述する必要がある場合には、次式に示すように、代替的な表記を用いることもある。 Here, N is the number of elements in the complete accumulated feature set, and N x is the number of elements in each of the accumulated image feature set and the accumulated acoustic feature set (Note: the number of elements in both sets means the same). In addition, each element x 0, i , x 1, i and y j (i = 1, 2,..., N x , j = 1, 2,..., N) has d x0 dimension, d x1 dimension, and d Let it be a y- dimensional column vector. Accumulated features with the same subscript indicate that they correspond to each other. In the following description, when it is necessary to clearly distinguish between the complete accumulation feature set and the incomplete accumulation feature set, an alternative notation may be used as shown in the following equation.
また、以降では、説明の簡略化のため、各蓄積特徴集合の平均は、常に0ベクトルであると仮定する。もしそうでない場合には、予め、それぞれの平均ベクトルを求めて、各蓄積特徴からその平均ベクトルを引くことで、同様の状況にすることが可能である。 In the following, for the sake of simplicity, it is assumed that the average of each accumulated feature set is always a zero vector. If not, it is possible to obtain the same situation by obtaining each average vector in advance and subtracting the average vector from each accumulated feature.
このとき、完全蓄積特徴集合統計量SCとして、各蓄積特徴集合の自己共分散行列SCx0x0,SCx1x1,Syy及び相互共分散行列SCx0x1,SCx0y,SCx1yを、以下の(1)式〜(6)式で求める。 At this time, as complete storage feature set statistic S C, each storage feature set autocovariance matrix S Cx0x0, S Cx1x1, S yy and cross-covariance matrix S Cx0x1, S Cx0y, the S Cx1y, following (1) It calculates | requires by Formula-(6) Formula.
但し、xTは、(ベクトルもしくは行列の)転置を意味する。 However, x T denotes the transpose (vector or matrix).
このようにして、完全蓄積特徴集合統計量算出部81は、完全蓄積特徴集合統計量SC={SCx0x0、SCx1x1、Syy、SCx0x1,SCx0y,SCx1y}を抽出して出力する。
In this way, the completely accumulated feature set
次に、不完全蓄積特徴集合統計量算出部82は、不完全蓄積画像特徴及び不完全蓄積音響特徴が組を成す特徴の組み合わせの集合である不完全蓄積特徴集合(不完全蓄積画像特徴集合XI0、不完全蓄積音響特徴集合XI1)を入力し、この不完全蓄積特徴集合を表現する統計量である不完全蓄積特徴集合統計量を算出し、この不完全蓄積特徴集合統計量を出力する。不完全蓄積特徴集合統計量の算出方法は、特に限定されるものではないが、ここでは、不完全蓄積特徴集合統計量として、以下の(7)式〜(9)式に従って、不完全蓄積特徴集合の自己共分散行列SIx0x0、SIx1x1及び相互共分散行列SIx0x1を算出する。
Next, the incompletely stored feature set
上述したように、不完全蓄積特徴集合統計量算出部82は、不完全蓄積特徴集合統計量SI={SIx0x0,SIx1x1、SIx0x1}として出力する。
As described above, the incompletely accumulated feature set
次に、統合統計量算出部83は、完全蓄積特徴集合統計量、及び不完全蓄積特徴集合統計量を入力し、これらの統計量から、新しい統計量である統合統計量を算出し、該統合統計量を出力する。統合統計量の算出方法は、特に限定されるものではないが、ここでは、自己共分散行列と相互共分散行列から計算される2種類の統合統計量を算出する。 Next, the integrated statistic calculating unit 83 inputs the completely accumulated feature set statistic and the incompletely accumulated feature set statistic, calculates an integrated statistic that is a new statistic from these statistics, and the integrated statistic Output statistics. The method for calculating the integrated statistics is not particularly limited, but here, two types of integrated statistics calculated from the autocovariance matrix and the mutual covariance matrix are calculated.
第1の統合統計量は、以下の(10)式で算出される。なお、式中の文字下部に_が付いた文字は、文中において文字の前に_を記載して示す。つまり、第1の統合統計量は、_Cと記載する。 The first integrated statistic is calculated by the following equation (10). In addition, the character with _ attached to the lower part of the character in the formula is indicated by writing _ before the character in the sentence. That is, the first integrated statistic is described as _C.
ここで、βは0≦β≦1を満たすように予め定められた定数であり、Idはd×d単位行列であり、0は零行列である。SCx0x0がdx0×dx0正方行列、SCx1x1がdx1×dx1正方行列、Syyがdy×dy正方行列であることから、第1の統合統計量_Cは(dx0+dx1+dy)×(dx0+dx1+dy)正方行列となる。 Here, β is a constant determined in advance to satisfy 0 ≦ β ≦ 1, I d is a d × d unit matrix, and 0 is a zero matrix. S Cx0x0 is d x0 × d x0 square matrix, S Cx1x1 is d x1 × d x1 square matrix, because the S yy is d y × d y square matrix, the first integrated statistics _C is (d x0 + d x1 + D y ) × (d x0 + d x1 + d y ) square matrix.
一方、第2の統合統計量は、以下の(11)式で算出される。なお、式中の文字上部に ̄が付いた文字は、文中において文字の前に ̄を記載して示す。つまり、上記統合統計量は、 ̄Cと記載する。 On the other hand, the second integrated statistic is calculated by the following equation (11). In addition, a character with a 文字 at the top of the character in the formula is indicated with a  ̄ in front of the character in the sentence. That is, the integrated statistic is described as  ̄C.
第2の統合統計量 ̄Cも、第1の統合統計量と同様に、(dx0+dx1+dy)×(dx0+dx1+dy)正方行列となる。 Similarly to the first integrated statistic, the second integrated statistic  ̄C is a (d x0 + d x1 + d y ) × (d x0 + d x1 + d y ) square matrix.
上述した通り、統合統計量算出部83は、第1の統合統計量_Cと第2の統合統計量C ̄とを合わせて、統合統計量C={_C、 ̄C}とし、該統合統計量Cを出力する。 As described above, the integrated statistic calculation unit 83 combines the first integrated statistic_C and the second integrated statistic C ̄ to obtain an integrated statistic C = {_ C,  ̄C}, and the integrated statistic. C is output.
次に、特徴圧縮関数決定部84は、統合統計量Cを入力し、画像特徴、音響特徴及び付加情報特徴を圧縮する関数である特徴圧縮関数を決定し、該特徴圧縮関数を出力する。特徴圧縮関数の決定方法は、特に限定されるものではないが、ここでは、第1の統合統計量及び第2の統合統計量を用いた一般化固有値問題を解くことによって導出する。
Next, the feature compression
まず、以下の(12)式で表される一般化固有値問題を考える。 First, consider the generalized eigenvalue problem expressed by the following equation (12).
ここで、wは、(dx0+dx1+dy)次元のベクトルである。上記(12)式に示す一般化固有値問題を解き、予め定められた数の固有値と固有ベクトルとの組、もしくは固有値の和が予め定められた閾値を上回る最大数の固有値と固有ベクトルとの組を求めることで、特徴圧縮関数を決定することができる。 Here, w is a (d x0 + d x1 + d y ) -dimensional vector. Solve the generalized eigenvalue problem shown in equation (12) above to find a set of a predetermined number of eigenvalues and eigenvectors, or a set of the maximum number of eigenvalues and eigenvectors whose sum of eigenvalues exceeds a predetermined threshold. Thus, the feature compression function can be determined.
具体的には、以下の通りである。各固有ベクトルwiは、先頭の(dx0+dx1)次元ベクトルwx,iと後続のdy次元ベクトルwy,iとに分解することができる。そして、この分解された固有ベクトルwx,i、wy,i、及び対応する固有値λiを用いて、特徴圧縮関数を特徴付ける(dx0+dx1)×ハット(^)d変換行列Tx及びdy×ハット(^)d変換行列Tyを、以下の(13)式、(14)式のように得る。 Specifically, it is as follows. Each eigenvector w i can be decomposed into a leading (d x0 + d x1 ) dimensional vector w x, i and a subsequent dy dimensional vector w y, i . Then, using the decomposed eigenvectors w x, i , w y, i and the corresponding eigenvalues λ i , the feature compression function is characterized (d x0 + d x1 ) × hat (^) d transformation matrices T x and d y × hat (^) d transformation matrix T y is obtained as in the following equations (13) and (14).
ここで、ハット(^)dは、取り出した固有値及び固有ベクトルの数であり、ハット(^)d≦min(dx、dy)を満たす。また、Λは各対角成分に固有値λiの平方根を値として持つハット(^)d×ハット(^)d対角行列である。 Here, the hat (^) d is the number of eigenvalues and eigenvectors taken out, and satisfies the hat (^) d ≦ min (d x , d y ). Λ is a hat (^) d × hat (^) d diagonal matrix having the square root of the eigenvalue λ i as a value for each diagonal component.
このようにして、特徴圧縮関数決定部44は、特徴圧縮関数を特徴付ける変換行列TxとTyを算出し、これらの変換行列を出力する。 In this way, the feature compression function determination unit 44 calculates the transformation matrices T x and T y that characterize the feature compression function, and outputs these transformation matrices.
次に、特徴圧縮部85は、蓄積画像特徴集合X0(XC0、XI0)、蓄積音響特徴集合X1(XC、XI)、蓄積付加情報特徴集合Y、及び特徴圧縮関数を入力し、各特徴を特徴圧縮関数で圧縮し、圧縮された特徴の集合である蓄積画像圧縮特徴集合、蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を出力する。蓄積画像圧縮特徴集合ハット(^)X0,蓄積音響圧縮特徴集合ハット(^)X1及び蓄積付加情報圧縮特徴集合ハット(^)Yは、以下の(15)式、(16)式に示すように、特徴圧縮関数を特徴付ける変換行列を用いて、各特徴を圧縮することによって得られる。 Next, the feature compression unit 85 receives the stored image feature set X 0 (X C0 , X I0 ), the stored acoustic feature set X 1 (X C , X I ), the stored additional information feature set Y, and the feature compression function. Then, each feature is compressed with a feature compression function, and a stored image compression feature set, a stored acoustic compression feature set, and a stored additional information compression feature set, which are sets of compressed features, are output. The stored image compression feature set hat (^) X 0 , the stored acoustic compression feature set hat (^) X 1 and the stored additional information compression feature set hat (^) Y are expressed by the following formulas (15) and (16): As described above, each feature is compressed by using a transformation matrix that characterizes the feature compression function.
このように、特徴圧縮部85は、蓄積画像圧縮特徴集合ハット(^)X0、蓄積音響圧縮特徴集合ハット(^)X1、及び蓄積付加情報圧縮特徴集合ハット(^)Yを導出し、これら圧縮特徴集合を出力する。 As described above, the feature compression unit 85 derives the stored image compression feature set hat (^) X 0 , the stored acoustic compression feature set hat (^) X 1 , and the stored additional information compression feature set hat (^) Y, These compressed feature sets are output.
最後に、以下の(17)式、(18)式に従って上記ハット(^)X0、ハット(^)X1、及びハット(^)Yを合成した多次元ベクトル集合を算出し、蓄積潜在変数集合Z={z1,z2,…,zNx}として用いる。 Finally, a multidimensional vector set obtained by synthesizing the hat (^) X 0 , the hat (^) X 1 , and the hat (^) Y according to the following expressions (17) and (18) is calculated, and accumulated latent variables It is used as a set Z = {z 1 , z 2 ,..., Z Nx }.
ただし、各aiは予め与えておいた定数である。このようにして、蓄積潜在変数抽出部8は、蓄積潜在変数集合Zを抽出し、この蓄積潜在変数集合を出力する。
However, each a i is a constant given in advance. In this way, the accumulated latent
映像・付加情報間関係性学習部9は、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、完全蓄積画像特徴集合、不完全蓄積画像特徴集合、蓄積付加情報特徴集合、及び蓄積潜在変数集合を入力し、これら集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習し、この映像・付加情報関係モデルを出力する。映像・付加情報関係モデルの学習方法は、特に限定されるものではないが、ここでは、潜在変数モデル学習部91と、映像・潜在変数関係モデル学習部92と、付加情報・潜在変数関係モデル学習部93とを用いる方法について説明する。
The relationship learning unit 9 between the video and additional information includes a complete storage acoustic feature set, an incomplete storage acoustic feature set, a complete storage image feature set, an incomplete storage image feature set, a storage additional information feature set, and a storage latent variable set. From these sets, a video / additional information relationship model, which is a model describing the relationship between video and additional information, is learned, and this video / additional information relationship model is output. The learning method of the video / additional information relationship model is not particularly limited, but here, the latent variable
潜在変数モデル学習部91は、蓄積潜在変数集合を入力し、この蓄積潜在変数の構造を記述するモデルである潜在変数モデルを学習し、この潜在変数モデルを出力する。潜在変数モデルの学習方法は、特に限定されるものではないが、ここでは、以下の(19)式で導出される潜在変数zの生起確率p(z)を潜在変数モデルとして採用する。
The latent variable
ここで、δa,bは、クロネッカーのデルタである。 Where δ a, b is the Kronecker delta.
このようにして、潜在変数モデル学習部91は、潜在変数モデルp(z)を抽出して出力する。
In this way, the latent variable
次に、映像・潜在変数関係モデル学習部92は、蓄積音響特徴集合、蓄積画像特徴集合、及び蓄積潜在変数集合を入力し、これらの集合を用いて映像と潜在変数との関係性を記述するモデルである映像・潜在変数関係モデルを学習し、この映像・潜在変数関係モデルを出力する。映像・潜在変数関係モデルの学習方法は、特に限定されるものではないが、ここでは、以下の(20)式のようにして得られた、潜在変数zが与えられたときの画像特徴x0及び音響特徴x1の条件付生起確率p(x0,x1|z)を映像・潜在変数関係モデルとして採用する。なお、式中の文字上部に〜が付いた文字は、文中において文字の前に〜を記載して示す。
Next, the video / latent variable relationship
但し、〜zは、蓄積画像特徴x0と蓄積音響特徴x1を特徴圧縮部85で変換した蓄積潜在変数であり、γは予め定められた定数であり、I^dは^d×^d単位行列である。また、g(〜z;zn,γI^d)は、znを平均ベクトルとし、γI^dを共分散行列とする〜zの多次元正規分布を表わす。 However, to z are converted accumulated latent variables accumulated image feature x 0 and accumulation acoustic feature x 1 in the feature compression unit 85, gamma is a predetermined constant, I ^ d is ^ d × ^ d It is an identity matrix. G (˜z; z n , γI ^ d ) represents a multidimensional normal distribution of ~ z in which z n is an average vector and γI ^ d is a covariance matrix.
このようにして、映像・潜在変数関係モデル学習部92は、映像・潜在変数関係モデルを抽出し、これを出力する。
In this way, the video / latent variable relationship
付加情報・潜在変数関係モデル学習部93は、蓄積付加情報特徴集合、及び蓄積潜在変数集合を入力し、これら集合を用いて付加情報と潜在変数との関係性を記述するモデルである付加情報・潜在変数関係モデルを学習し、この付加情報・潜在変数関係モデルを出力する。
The additional information / latent variable relationship
付加情報・潜在変数関係モデルの学習方法は、特に限定されるものではないが、ここでは、以下の(21)式〜(24)式のようにして得られた、潜在変数zが与えられたときの付加情報特徴yの条件付生起確率p(y|z)を付加情報・潜在変数関係モデルとして採用する。 The learning method of the additional information / latent variable relationship model is not particularly limited, but here, the latent variable z obtained by the following equations (21) to (24) is given. The conditional occurrence probability p (y | z) of the additional information feature y is adopted as the additional information / latent variable relationship model.
ここで、μは0≦μ≦1を満たす定数であり、yn,iは、蓄積付加情報特徴ynの第i要素である。すなわち、上記の関係式は、まず、各言語ラベルが独立に生起することを仮定し(上記(21)式)、各言語ラベルの生起確率を、各サンプルnでの言語ラベルの経験分布(上記(22)式のδyi,yn,iに相当)と全サンプルでの言語ラベルの経験分布(上記(22)式のMi/Mに相当)とを混合比μで混合して生成することを意味する。 Here, mu is a constant satisfying 0 ≦ μ ≦ 1, y n , i is the i-th element of the accumulated additional information feature y n. That is, the above relational expression first assumes that each language label occurs independently (the above equation (21)), and the occurrence probability of each language label is expressed as the empirical distribution of the language label in each sample n (the above) (22) (corresponding to δ yi, yn, i in the equation) and the empirical distribution of language labels in all samples (corresponding to M i / M in the above equation (22)) at a mixing ratio μ. Means.
このようにして、付加情報・潜在変数関係モデル学習部93は、付加情報・潜在変数関係モデルを抽出し、これを出力する。
In this way, the additional information / latent variable relationship
上述したように、映像・付加情報間関係性学習部9は、潜在変数モデル、映像・潜在変数関係モデル、及び付加情報・潜在変数関係モデルを合わせて、映像・付加情報関係モデルとし、この映像・付加情報関係モデルを出力する。 As described above, the video / additional information relationship learning unit 9 combines the latent variable model, the video / latent variable relationship model, and the additional information / latent variable relationship model into a video / additional information relationship model.・ Output additional information relation model.
<映像付加情報関係性学習装置の作用>
次に、本実施の形態に係る映像付加情報関係性学習装置100の作用について説明する。まず、付加情報が与えられた完全蓄積映像集合、その付加情報の集合である蓄積付加情報集合、及び付加情報が与えられていない不完全蓄積映像集合が、映像付加情報関係性学習装置100に入力されると、映像付加情報関係性学習装置100によって、入力された蓄積付加情報集合が、蓄積付加情報データベース1へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース2へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース3へ格納される。そして、映像付加情報関係性学習装置100によって、図3に示すモデル学習処理ルーチンが実行される。
<Operation of video additional information relationship learning device>
Next, the operation of the video additional information
まず、ステップS101において、完全蓄積映像集合及び不完全蓄積映像集合の各蓄積映像から、完全蓄積画像特徴及び不完全蓄積画像特徴を抽出して、特徴データベース7へ格納する。そして、ステップS102において、完全蓄積映像集合及び不完全蓄積映像集合の各蓄積映像から、完全蓄積音響特徴及び不完全蓄積音響特徴を抽出して、特徴データベース7へ格納する。ステップS103では、蓄積付加情報集合の各付加情報から、蓄積付加情報特徴を抽出して、特徴データベース7へ格納する。
First, in step S101, the completely accumulated image feature and the incompletely accumulated image feature are extracted from each accumulated image of the completely accumulated image set and the incompletely accumulated image set, and stored in the feature database 7. Then, in step S102, the completely accumulated acoustic feature and the incompletely accumulated acoustic feature are extracted from each accumulated image of the complete accumulated image set and the incompletely accumulated image set, and stored in the feature database 7. In
次のステップS104では、上記ステップS101〜S103で抽出された完全蓄積画像特徴、完全蓄積音響特徴、及び蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合について、上記(1)式〜(6)式に従って、自己共分散行列SCx0x0,SCx1x1,Syy及び相互共分散行列SCx0x1,SCx0y,SCx1yを算出する。 In the next step S104, with respect to the complete accumulation feature set that is a set of combinations of the completely accumulated image feature, the completely accumulated acoustic feature, and the accumulated additional information feature extracted in the above steps S101 to S103, ) To calculate auto-covariance matrices S Cx0x0 , S Cx1x1 , S yy and cross-covariance matrices S Cx0x1 , S Cx0y , S Cx1y .
そして、ステップS105において、上記ステップS101〜S102で抽出された不完全蓄積画像特徴、及び不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合について、上記(7)式〜(9)式に従って、自己共分散行列SIx0x0、SIx1x1及び相互共分散行列SIx0x1を算出する。 In step S105, the above-described equations (7) to (9) are used for the incompletely stored image feature extracted in steps S101 to S102 and the incompletely stored feature set that is a set of incompletely stored acoustic features. Accordingly, the self-covariance matrices S Ix0x0 and S Ix1x1 and the mutual covariance matrix S Ix0x1 are calculated.
ステップS106では、上記ステップS105で算出された完全蓄積特徴集合の自己共分散行列SCx0x0,SCx1x1,Syy及び相互共分散行列SCx0x1,SCx0y,SCx1yと、不完全蓄積特徴集合の自己共分散行列SIx0x0、SIx1x1及び相互共分散行列SIx0x1とに基づいて、上記(10)式、(11)式に従って、第1の統合統計量_C、及び第2の統合統計量 ̄Cを算出する。 In step S106, the self-covariance matrices S Cx0x0 , S Cx1x1 , S yy and the mutual covariance matrices S Cx0x1 , S Cx0y , S Cx1y of the complete accumulation feature set calculated in step S105 and the self-incomplete accumulation feature set self Based on the covariance matrices SI x0x0 , S Ix1x1 and the mutual covariance matrix S Ix0x1 , the first integrated statistic _C and the second integrated statistic  ̄C are calculated according to the above formulas (10) and (11). calculate.
そして、ステップS107において、上記ステップS106で算出された第1の統合統計量_C、及び第2の統合統計量 ̄Cを用いて、上記(12)式で表される一般化固有値問題を解き、予め定められた数の固有値と固有ベクトルとの組を求める。求められた固有値と固有ベクトルとの組を用いて、上記(13)式、(14)式に従って、特徴圧縮関数を特徴付ける変換行列TxとTyを算出する。 In step S107, the generalized eigenvalue problem expressed by the above equation (12) is solved using the first integrated statistic_C and the second integrated statistic  ̄C calculated in step S106. A set of a predetermined number of eigenvalues and eigenvectors is obtained. Using the set of the obtained eigenvalue and eigenvector, transformation matrices T x and T y characterizing the feature compression function are calculated according to the above equations (13) and (14).
次のステップS108では、上記ステップS107で算出された変換行列TxとTyにより決定される特徴圧縮関数を用いて、上記(15)式、(16)式に従って、蓄積画像圧縮特徴集合ハット(^)X0、蓄積音響圧縮特徴集合ハット(^)X1、及び蓄積付加情報圧縮特徴集合ハット(^)Yを算出する。ステップS109では、上記(17)式、(18)式に従って、上記ステップS108で算出された蓄積画像圧縮特徴集合ハット(^)X0、蓄積音響圧縮特徴集合ハット(^)X1、及び蓄積付加情報圧縮特徴集合ハット(^)Yを合成して、蓄積潜在変数集合を算出する。 In the next step S108, using the feature compression function determined by the transformation matrix T x and T y calculated in step S107, the equation (15), according to (16), storing the image compression feature set hat ( ^) X 0 , stored acoustic compression feature set hat (^) X 1 , and stored additional information compression feature set hat (^) Y are calculated. In step S109, the stored image compression feature set hat (^) X 0 calculated in step S108, the stored acoustic compression feature set hat (^) X 1 , and the storage addition according to the above equations (17) and (18). The information compression feature set hat (^) Y is synthesized to calculate an accumulated latent variable set.
そして、ステップS110では、上記ステップS109で算出された蓄積潜在変数集合を用いて、上記(19)式に従って、潜在変数モデルp(z)を学習する。次のステップS111では、蓄積音響特徴集合、蓄積画像特徴集合、及び蓄積潜在変数集合を用いて、上記(20)式に従って、映像・潜在変数関係モデルp(x0,x1|z)を学習する。 In step S110, the latent variable model p (z) is learned according to the above equation (19) using the accumulated latent variable set calculated in step S109. In the next step S111, the image / latent variable relationship model p (x 0 , x 1 | z) is learned according to the above equation (20) using the accumulated acoustic feature set, the accumulated image feature set, and the accumulated latent variable set. To do.
そして、ステップS112において、蓄積付加情報特徴集合、及び蓄積潜在変数集合を用いて、上記(21)式に従って、付加情報・潜在変数関係モデルp(y|z)を学習する。ステップS113において、上記ステップS110で学習された潜在変数モデルp(z)、上記ステップS111で学習された映像・潜在変数関係モデルp(x0,x1|z)、及び上記ステップS112で学習された付加情報・潜在変数関係モデルp(y|z)を、映像・付加情報関係モデルとして出力部30により出力し、モデル学習処理ルーチンを終了する。
In step S112, the additional information / latent variable relationship model p (y | z) is learned according to the above equation (21) using the stored additional information feature set and the stored latent variable set. In step S113, the latent variable model p (z) learned in step S110, the video / latent variable relationship model p (x 0 , x 1 | z) learned in step S111, and learned in step S112. The additional information / latent variable relationship model p (y | z) is output by the
以上説明したように、第1の実施の形態に係る映像付加情報関係性学習装置によれば、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる。 As described above, according to the video additional information relationship learning device according to the first embodiment, the completely accumulated image feature and the completely accumulated acoustic feature extracted from each of the completely accumulated image, and the incompletely accumulated image By learning a model that describes the relationship between video and additional information from incompletely stored image features and incompletely stored acoustic features extracted from each, and a set of stored latent variables, image information contained in the video By using both of the acoustic information and considering the mutual co-occurrence relationship, the relationship between the information and the language information can be learned with higher accuracy.
また、上記(10)式、(11)式により統合統計量を算出し,上記(12)式により固有ベクトルを算出することにより、映像に含まれる画像情報、音響情報、付加情報の3者の相関関係(共起関係)を簡易に学習できる。これにより、音響情報そのもの、及び音響情報と画像情報との組み合わせを手がかりにして、画像情報だけでは得られない、映像信号と付加情報との関係性を蓄積情報から学習することができ、その関係性を使って映像検索、映像認識の精度を向上させることができる。 Further, by calculating the integrated statistic by the above formulas (10) and (11) and by calculating the eigenvector by the above formula (12), the correlation between the three of the image information, the acoustic information, and the additional information included in the video is obtained. Relationships (co-occurrence relationships) can be easily learned. This makes it possible to learn from the stored information the relationship between the video signal and the additional information that cannot be obtained only by the image information, using the combination of the sound information and the sound information and the image information as a clue. Can improve the accuracy of video search and video recognition.
また、蓄積潜在変数抽出部により、付加情報が与えられた映像と付加情報が与えられていない映像の双方からの、映像と付加情報の関係性を記述するための潜在変数の抽出することにより、付加情報が与えられた映像が少量しか利用できない場合においても、映像と付加情報の関係性を精度良く学習することができる。 Further, by extracting a latent variable for describing the relationship between the video and the additional information from both the video given the additional information and the video not given the additional information by the accumulated latent variable extraction unit, Even when only a small amount of video provided with additional information can be used, the relationship between the video and additional information can be learned with high accuracy.
付加情報が与えられている映像を大量に収集することは困難である一方、付加情報が与えられていなくても良い場合には、映像そのものを収集することは非常に容易で大量に収集することが可能である。これら、付加情報が与えられていない映像を、映像と付加情報との関係性を学習する際に、同時に利用することにより、少数しかない付加情報が与えられた映像のみを利用する場合に比べて、高い精度で映像と付加情報の関係性を学習することができる。 While it is difficult to collect a large amount of video with additional information, it is very easy to collect the video itself when it is not necessary to provide additional information. Is possible. Compared to the case where only a video with only a small amount of additional information is used by simultaneously using the video without additional information when learning the relationship between the video and the additional information. The relationship between video and additional information can be learned with high accuracy.
〔第2の実施の形態〕
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
[Second Embodiment]
<System configuration>
Next, a second embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.
第2の実施の形態では、映像・付加情報関係モデルを用いて、入力された付加情報と関連性が高い映像を検索する点が、第1の実施の形態と異なっている。また、入力付加情報に関連する映像の集合を検索する半教師映像検索装置に、本発明を適用した場合を例に説明する。 The second embodiment is different from the first embodiment in that the video / additional information relation model is used to search for a video having high relevance to the input additional information. Further, a case where the present invention is applied to a semi-supervised video search apparatus that searches a set of videos related to input additional information will be described as an example.
図4に示すように、第2の実施の形態による半教師映像検索装置200は、完全蓄積映像集合、不完全蓄積映像集合、蓄積付加情報集合、及び蓄積付加情報集合と別に与えられた付加情報である入力付加情報を入力し、入力付加情報に関連する映像の集合である付加情報関連映像集合を出力する装置である。半教師映像検索装置200は、入力部10、演算部220、及び出力部30を備えている。
As shown in FIG. 4, the semi-supervised
入力部10は、完全蓄積映像集合、不完全蓄積映像集合、及び蓄積付加情報集合の入力を受け付けると共に、映像を検索するためのクエリとして、入力付加情報の入力を受け付ける。 The input unit 10 receives input of a complete stored video set, an incompletely stored video set, and a stored additional information set, and receives input additional information as a query for searching for videos.
演算部220は、蓄積付加情報データベース1、完全蓄積映像データベース2、不完全蓄積映像データベース3、蓄積付加情報特徴抽出部4、蓄積画像特徴抽出部5、蓄積音響特徴抽出部6、特徴データベース7、蓄積潜在変数抽出部8、映像・付加情報間関係性学習部9、入力付加情報特徴抽出部11、及び映像検索部12を備えている。
The
入力付加情報特徴抽出部11は、入力付加情報を入力し、この入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出し、この入力付加情報特徴を出力する。入力付加情報特徴の抽出方法は、蓄積付加情報特徴抽出部4と同様である。 The input additional information feature extraction unit 11 inputs the input additional information, extracts an input additional information feature that is a vector expressing the characteristics of the input additional information, and outputs the input additional information feature. The input additional information feature extraction method is the same as that of the stored additional information feature extraction unit 4.
映像検索部12は、入力付加情報特徴、完全蓄積映像集合、不完全蓄積映像集合、及び映像・付加情報関係モデルを入力し、入力付加情報特徴を映像・付加情報関係モデルに与えることで、完全蓄積映像集合と不完全蓄積映像集合から、入力付加情報との関連性が高い映像である付加情報関連映像を選択し、この付加情報関連映像の集合である付加情報関連映像集合を出力する。
The
付加情報関連画像の選択方法は特に限定されるものではないが、ここでは,以下の方法について述べる。 The method for selecting the additional information related image is not particularly limited, but here, the following method will be described.
まず、入力付加情報特徴ygivenが与えられたときの画像特徴x0と音響特徴x1の事後確率を、以下の(25)式で設定する。 First, the posterior probabilities of the image feature x 0 and the acoustic feature x 1 when the input additional information feature y give is given are set by the following equation (25).
この事後確率p(x0,x1|ygiven)を、蓄積画像特徴集合と蓄積音響特徴集合の各組み合わせについて計算し、事後確率の大きい一定数の蓄積画像特徴と蓄積音響特徴の組、もしくは事後確率が閾値を超えた蓄積画像特徴と蓄積音響特徴の組を選択し、この蓄積画像特徴と蓄積音響特徴の組に対応する映像の集合を付加情報関連映像集合とする。 The posterior probability p (x 0, x 1 | y given) and were calculated for each combination of storage acoustic feature set and stored image feature set, a large a number of the stored images, wherein the accumulation audio feature set of a posteriori probabilities, or A set of accumulated image features and accumulated acoustic features whose posterior probabilities exceed a threshold is selected, and a set of images corresponding to the set of accumulated image features and accumulated acoustic features is set as an additional information related image set.
このようにして、映像検索部12は、付加情報関連映像集合を選択し、この付加情報関連映像集合を出力部30により出力する。
In this way, the
<半教師映像検索装置の作用>
まず、完全蓄積映像集合、蓄積付加情報集合、及び不完全蓄積映像集合が、半教師映像検索装置200に入力されると、半教師映像検索装置200によって、入力された蓄積付加情報集合が、蓄積付加情報データベース1へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース2へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース3へ格納される。そして、半教師映像検索装置200は、第1の実施の形態と同様に、上記図3に示すモデル学習処理ルーチンを実行する。
<Operation of semi-teacher video search device>
First, when a complete stored video set, a stored additional information set, and an incomplete stored video set are input to the semi-supervised
また、映像を検索するためのクエリとして、入力付加情報が、半教師映像検索装置200に入力されると、半教師映像検索装置200によって、図5に示す映像検索処理ルーチンが実行される。
When the input additional information is input to the semi-teacher
ステップS201において、入力された入力付加情報を受け付け、ステップS202において、入力付加情報から、入力付加情報特徴を抽出する。 In step S201, input additional information is received. In step S202, input additional information features are extracted from the input additional information.
そして、ステップS203において、蓄積画像特徴集合と蓄積音響特徴集合とから得られる蓄積画像特徴及び蓄積音響特徴の各組み合わせについて、上記(25)式に従って、事後確率p(x0,x1|ygiven)を計算する。ステップS204では、上記ステップS203で計算された事後確率p(x0,x1|ygiven)が閾値以上となる蓄積画像特徴と蓄積音響特徴の組み合わせを抽出し、完全蓄積映像集合及び不完全蓄積映像集合から、抽出された蓄積画像特徴と蓄積音響特徴の組み合わせに対応する映像を付加情報関連映像として選択する。 Then, in step S203, the posterior probabilities p (x 0 , x 1 | y given ) for each combination of the stored image feature and the stored acoustic feature obtained from the stored image feature set and the stored acoustic feature set according to the above equation (25). ). In step S204, a combination of stored image features and stored acoustic features in which the posterior probability p (x 0 , x 1 | y give ) calculated in step S203 is equal to or greater than a threshold value is extracted, and a complete stored video set and incomplete storage are extracted. A video corresponding to the combination of the extracted stored image feature and the stored sound feature is selected as the additional information related video from the video set.
そして、ステップS205において、上記ステップS204で選択された付加情報関連映像集合を出力部30により出力して、映像検索処理ルーチンを終了する。
In step S205, the
以上説明したように、第2の実施の形態に係る半教師映像検索装置によれば、学習した映像と付加情報との関係性を記述するモデルを用いることにより、入力付加情報と関連性が高い映像の検索を高精度に行うことができる。 As described above, according to the semi-supervised video search apparatus according to the second embodiment, the model describing the relationship between the learned video and the additional information is used, so that it is highly related to the input additional information. Video search can be performed with high accuracy.
〔第3の実施の形態〕
<システム構成>
次に、本発明の第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
[Third Embodiment]
<System configuration>
Next, a third embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.
第3の実施の形態では、映像・付加情報関係モデルを用いて、入力された映像と関連性が高い付加情報を出力する点が、第1の実施の形態と異なっている。また、入力映像を説明する付加情報の集合を出力する半教師映像認識装置に、本発明を適用した場合を例に説明する。 The third embodiment is different from the first embodiment in that additional information that is highly relevant to an input video is output using a video / additional information relationship model. Also, a case where the present invention is applied to a semi-supervised video recognition apparatus that outputs a set of additional information describing an input video will be described as an example.
図6に示すように、第3の実施の形態による半教師映像認識装置300は、完全蓄積映像集合、不完全蓄積映像集合、蓄積付加情報集合、及び完全蓄積映像集合や不完全蓄積映像集合と別に与えられた映像である入力映像を入力し、入力映像に対応する付加情報の集合である映像関連付加情報集合を出力する装置である。半教師映像認識装置300は、入力部10、演算部320、及び出力部30を備えている。
As shown in FIG. 6, the semi-supervised
入力部10は、完全蓄積映像集合、不完全蓄積映像集合、及び蓄積付加情報集合の入力を受け付けると共に、映像認識対象となる入力映像の入力を受け付ける。 The input unit 10 receives input of a complete stored video set, an incompletely stored video set, and a stored additional information set, and also receives an input of an input video that is a video recognition target.
演算部320は、蓄積付加情報データベース1、完全蓄積映像データベース2、不完全蓄積映像データベース3、蓄積付加情報特徴抽出部4、蓄積画像特徴抽出部5、蓄積音響特徴抽出部6、特徴データベース7、蓄積潜在変数抽出部8、映像・付加情報間関係性学習部9、入力画像特徴抽出部13、入力音響特徴抽出部14、及び画像認識部15を備えている。
The
入力画像特徴抽出部13は、入力映像を入力し、この入力映像に含まれる画像信号の特性を表現するベクトルである入力画像特徴を抽出し、この入力画像特徴を出力する。入力画像特徴の抽出方法は、蓄積画像特徴抽出部5と同様であるため、説明を省略する。
The input image
入力音響特徴抽出部14は、入力映像を入力し、この入力映像に含まれる音響信号の特性を表現するベクトルである入力音響特徴を抽出し、この入力音響特徴を出力する。入力音響特徴の抽出方法は、蓄積音響特徴抽出部6と同様であるため、説明を省略する。
The input acoustic
映像認識部15は、入力画像特徴、入力音響特徴、及び映像・付加情報関係モデルを入力し、入力画像特徴と入力音響特徴を映像・付加情報関係モデルに与えることで、入力映像との関連性が高い付加情報である映像関連付加情報を抽出し、この映像関連付加情報を出力する。映像関連付加情報の選択方法は、特に限定されるものではないが、ここでは、以下の方法について述べる。
The
まず、入力画像特徴x0,given及び入力音響特徴x1,givenが与えられたときの付加情報特徴yの事後確率p(y|x0,given,x1,given)を、以下の(26)式で設定する。 First, the a posteriori probability p (y | x 0, given , x 1, given ) of the additional information feature y when the input image feature x 0, given and the input acoustic feature x 1, given are given is expressed as (26 ) To set.
ここで、映像・潜在変数関係モデルp(x0,x1|z)及び付加情報・潜在変数関係モデルp(y|z)の定式化より、この事後確率が最大となる付加情報特徴〜yは、以下の(27)式で算出できる。 Here, from the formulation of the video / latent variable relationship model p (x 0 , x 1 | z) and the additional information / latent variable relationship model p (y | z), the additional information feature y that maximizes the posterior probability Can be calculated by the following equation (27).
ただし,zgivenは,蓄積潜在変数抽出部8に示す処理を用いて、入力画像特徴x0,given及び入力音響特徴x1,givenから算出した潜在変数である。また、p(yd=1|zn)は、潜在変数znが与えられたときの、1となる付加情報特徴ydの条件付き確率である。
However, z Given, using the processing shown in accumulating latent
上記事後確率最大となる付加情報特徴〜yは、一般に2値ベクトルとはならないことに注意する。この事後確率最大の付加情報特徴〜yの各要素のうち、値の大きい一定数の要素、もしくは値が閾値を超えた要素を選択し、それぞれの要素に対応する言語ラベルを集めて映像関連付加情報とする。 Note that the additional information feature ˜y that maximizes the posterior probability generally does not become a binary vector. From the additional information features with the maximum posterior probability-y, select a certain number of elements with a large value or elements whose values exceed the threshold value, collect language labels corresponding to each element, and add video-related information Information.
このようにして、映像認識部15は、映像関連付加情報を選択し、この映像関連付加情報を出力部30により出力する。
In this way, the
<半教師映像認識装置の作用>
まず、完全蓄積映像集合、蓄積付加情報集合、及び不完全蓄積映像集合が、半教師映像認識装置300に入力されると、半教師映像認識装置300によって、入力された蓄積付加情報集合が、蓄積付加情報データベース1へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース2へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース3へ格納される。そして、半教師映像認識装置300は、第1の実施の形態と同様に、モデル学習処理ルーチンを実行する。
<Operation of semi-supervised video recognition device>
First, when a complete stored video set, a stored additional information set, and an incomplete stored video set are input to the semi-supervised
また、映像認識対象の入力映像が、半教師映像認識装置300に入力されると、半教師映像認識装置300によって、図7に示す映像認識処理ルーチンが実行される。
When the input video to be recognized is input to the semi-teacher
ステップS301において、入力された入力映像を受け付け、ステップS302において、入力映像から、入力画像特徴を抽出し、ステップS303において、入力映像から、入力音響特徴を抽出する。 In step S301, the input video input is received. In step S302, input image features are extracted from the input video. In step S303, input acoustic features are extracted from the input video.
そして、ステップS304において、上記ステップS302、S303で抽出された入力画像特徴及び入力音響特徴を用いて、上記(27)式に従って、事後確率p(y|x0,given,x1,given)が最大となる付加情報特徴〜yを算出する。 In step S304, the posterior probabilities p (y | x0 , given , x1 , given ) are calculated according to the above equation (27) using the input image features and input acoustic features extracted in steps S302 and S303. The maximum additional information feature -y is calculated.
次のステップS305では、上記ステップS304で算出された付加情報特徴〜yから、値が閾値を超えた要素を選択する。そして、ステップS306において、上記ステップS305で選択された要素に対応する言語ラベルを集めて、映像関連付加情報として、出力部30により出力し、映像認識処理ルーチンを終了する。
In the next step S305, an element whose value exceeds the threshold value is selected from the additional information features -y calculated in step S304. In step S306, language labels corresponding to the elements selected in step S305 are collected and output as video-related additional information by the
以上説明したように、第3の実施の形態に係る半教師映像認識装置によれば、学習した映像と付加情報との関係性を記述するモデルを用いることにより、入力映像との関連性が高い付加情報を、映像認識結果として精度よく得ることができる。 As described above, according to the semi-supervised video recognition apparatus according to the third embodiment, the model describing the relationship between the learned video and the additional information is used, so that the relevance with the input video is high. Additional information can be accurately obtained as a video recognition result.
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 For example, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program may be provided by being stored in a computer-readable recording medium.
1 蓄積付加情報データベース
2 完全蓄積映像データベース
3 不完全蓄積映像データベース
4 蓄積付加情報特徴抽出部
5 蓄積画像特徴抽出部
6 蓄積音響特徴抽出部
7 特徴データベース
8 蓄積潜在変数抽出部
9 映像・付加情報間関係性学習部
11 入力付加情報特徴抽出部
12 映像検索部
13 入力画像特徴抽出部
14 入力音響特徴抽出部
15 映像認識部
15 画像認識部
44 特徴圧縮関数決定部
81 完全蓄積特徴集合統計量算出部
82 不完全蓄積特徴集合統計量算出部
83 統合統計量算出部
84 特徴圧縮関数決定部
85 特徴圧縮部
91 潜在変数モデル学習部
92 映像・潜在変数関係モデル学習部
93 付加情報・潜在変数関係モデル学習部
100 映像付加情報関係性学習装置
200 半教師映像検索装置
300 半教師映像認識装置
1 accumulated additional information database 2 complete accumulated video database 3 incomplete accumulated video database 4 accumulated additional information
Claims (9)
付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出手段と、
前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する蓄積音響特徴抽出手段と、
付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出手段と、
前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出手段と、
前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する映像・付加情報間関係性学習手段と
を含む映像付加情報関係性学習装置。 A video additional information relationship learning device that learns a relationship between a video that is a moving image with sound and additional information that is information that describes the video,
Completely accumulated video that is an element of a fully accumulated video set that is a set of videos to which additional information is given in advance, and incompletely accumulated video that is an element of an incompletely accumulated video set that is a set of videos to which no additional information is given A stored image feature extracting means for extracting a completely stored image feature and an incompletely stored image feature, which are vectors expressing the characteristics of the image,
Fully stored sound features and incompletely stored sound that are vectors representing acoustic characteristics from each of the completely stored video that is an element of the complete stored video set and the incompletely stored video that is an element of the incompletely stored video set. Accumulated acoustic feature extraction means for extracting features;
A stored additional information feature extracting means for extracting a stored additional information feature, which is a vector expressing the characteristics of the additional information, from each of the stored additional information that is an element of the stored additional information set that is a set of the additional information;
A completely stored image feature set that is a set of the completely stored image features, an incompletely stored image feature set that is a set of the incompletely stored image features, a fully stored acoustic feature set that is a set of the completely stored acoustic features, and the incomplete A storage latency that is a set of variables for describing the relationship between video and additional information from an incompletely stored acoustic feature set that is a set of stored acoustic features and a stored additional information feature set that is a set of stored additional information features. An accumulated latent variable extracting means for extracting a variable set;
From the complete stored image feature set, the incomplete stored image feature set, the complete stored acoustic feature set, the incomplete stored acoustic feature set, the stored additional information feature set, and the stored latent variable set, video and additional information, A video additional information relationship learning device comprising: a video / additional information relationship learning means for learning a video / additional information relationship model, which is a model for describing the relationship between the images.
前記完全蓄積画像特徴、前記完全蓄積音響特徴、及び対応する前記蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合の統計的性質を表現する統計量である完全蓄積特徴集合統計量を算出する完全蓄積特徴集合統計量算出手段と、
前記不完全蓄積画像特徴及び前記不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合の統計的性質を表現する統計量である不完全蓄積特徴集合統計量を算出する不完全蓄積特徴集合統計量算出手段と、
前記完全蓄積特徴集合統計量、及び前記不完全蓄積特徴集合統計量を組み合わせて統合統計量を算出する統合統計量算出手段と、
前記統合統計量を用いて、前記画像特徴、前記音響特徴、及び前記付加情報特徴を圧縮する関数である特徴圧縮関数を決定する特徴圧縮関数決定手段と、
前記特徴圧縮関数を用いて、前記蓄積画像特徴集合を圧縮した蓄積画像圧縮特徴集合、前記蓄積音響特徴集合を圧縮した蓄積音響圧縮特徴集合、及び前記蓄積付加情報特徴集合を圧縮した蓄積付加情報圧縮特徴集合を算出し、前記蓄積画像圧縮特徴集合、前記蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を合成して、前記蓄積潜在変数集合を算出する特徴圧縮手段と、
を含む請求項1に記載の映像付加情報関係性学習装置。 The accumulated latent variable extracting means includes
A complete accumulation feature set statistic that is a statistic representing a statistical property of a complete accumulation feature set that is a set of the combination of the perfect accumulation image feature, the perfect accumulation acoustic feature, and the corresponding accumulation additional information feature is calculated. A completely accumulated feature set statistic calculation means;
An incomplete accumulation feature set for calculating an incomplete accumulation feature set statistic that is a statistic expressing a statistical property of the incomplete accumulation feature set that is a set of a combination of the incomplete accumulation image feature and the incomplete accumulation acoustic feature A statistic calculation means;
An integrated statistic calculation means for calculating an integrated statistic by combining the complete accumulation feature set statistic and the incomplete accumulation feature set statistic;
Feature compression function determination means for determining a feature compression function that is a function for compressing the image feature, the acoustic feature, and the additional information feature using the integrated statistic;
Using the feature compression function, a stored image compression feature set obtained by compressing the stored image feature set, a stored acoustic compression feature set obtained by compressing the stored acoustic feature set, and a stored additional information compression obtained by compressing the stored additional information feature set. A feature compression unit that calculates a feature set, combines the stored image compression feature set, the stored acoustic compression feature set, and a stored additional information compression feature set to calculate the stored latent variable set;
The video additional information relationship learning device according to claim 1, comprising:
前記入力付加情報特徴を、前記映像・付加情報関係モデルに与え、前記完全蓄積映像集合及び前記不完全蓄積映像集合から、前記入力付加情報との関連性が高い映像を検索する映像検索手段と
を更に含む請求項1又は2に記載の映像付加情報関係性学習装置。 An input additional information feature extracting means for extracting an input additional information feature which is a vector expressing the characteristic of the additional information from the input additional information;
Video search means for providing the input additional information feature to the video / additional information relation model and searching for a video having high relevance to the input additional information from the complete stored video set and the incompletely stored video set; The video additional information relationship learning device according to claim 1, further comprising:
前記入力映像から、音響の特性を表現するベクトルである入力音響特徴を抽出する入力音響特徴抽出手段と、
前記入力画像特徴及び前記入力音響特徴を、前記映像・付加情報関係モデルに与え、前記蓄積付加情報集合から、前記入力映像との関連性の高い付加情報を選択する映像認識手段と
を更に含む請求項1又は2に記載の映像付加情報関係性学習装置。 An input image feature extracting means for extracting an input image feature which is a vector expressing the characteristics of the image from the input video;
Input acoustic feature extraction means for extracting an input acoustic feature, which is a vector expressing acoustic characteristics, from the input video;
And a video recognition unit that gives the input image feature and the input acoustic feature to the video / additional information relation model and selects additional information highly relevant to the input video from the stored additional information set. Item 3. The video additional information relationship learning device according to Item 1 or 2.
蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出するステップと、
蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出するステップと、
蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出するステップと、
蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出するステップと、
映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習するステップと
を含む映像付加情報関係性学習方法。 A video additional information relationship learning method used in a video additional information relationship learning device that learns a relationship between a video that is a moving image with sound and additional information that is information that describes the video,
By the stored image feature extraction means, a complete stored video that is an element of a complete stored video set that is a set of videos to which additional information is given in advance, and an incompletely stored video set that is a set of videos to which no additional information is given. Extracting from each of the incompletely stored images that are the elements a fully stored image feature and an incompletely stored image feature that are vectors representing the characteristics of the image;
Complete accumulation, which is a vector that expresses acoustic characteristics from each of the completely accumulated video, which is an element of the completely accumulated video set, and the incompletely accumulated video, which is an element of the incompletely accumulated video set, by the accumulated acoustic feature extraction means Extracting acoustic features and imperfectly accumulated acoustic features;
A step of extracting a stored additional information feature, which is a vector representing a characteristic of the additional information, from each of the stored additional information that is an element of the stored additional information set, which is a set of the added additional information, by the stored additional information feature extracting means; When,
By the accumulated latent variable extraction means, a completely accumulated image feature set that is a set of the completely accumulated image features, an incompletely accumulated image feature set that is a set of the incompletely accumulated image features, and a complete accumulation that is a set of the completely accumulated acoustic features. To describe the relationship between video and additional information from an acoustic feature set, an incompletely stored acoustic feature set that is a set of the incompletely stored acoustic features, and a stored additional information feature set that is a set of the stored additional information features Extracting an accumulated latent variable set that is a set of variables;
The complete accumulated image feature set, the incompletely accumulated image feature set, the complete accumulated acoustic feature set, the incompletely accumulated acoustic feature set, the accumulated additional information feature set, and the video / additional information relationship learning means A video additional information relationship learning method comprising: learning a video / additional information relationship model, which is a model describing a relationship between a video and additional information, from a stored latent variable set.
完全蓄積特徴集合統計量算出手段によって、前記完全蓄積画像特徴、前記完全蓄積音響特徴、及び対応する前記蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合の統計的性質を表現する統計量である完全蓄積特徴集合統計量を算出するステップと、
不完全蓄積特徴集合統計量算出手段によって、前記不完全蓄積画像特徴及び前記不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合の統計的性質を表現する統計量である不完全蓄積特徴集合統計量を算出するステップと、
統合統計量算出手段によって、前記完全蓄積特徴集合統計量、及び前記不完全蓄積特徴集合統計量を組み合わせて統合統計量を算出するステップと、
特徴圧縮関数決定手段によって、前記統合統計量を用いて、前記画像特徴、前記音響特徴、及び前記付加情報特徴を圧縮する関数である特徴圧縮関数を決定するステップと、
特徴圧縮手段によって、前記特徴圧縮関数を用いて、前記蓄積画像特徴集合を圧縮した蓄積画像圧縮特徴集合、前記蓄積音響特徴集合を圧縮した蓄積音響圧縮特徴集合、及び前記蓄積付加情報特徴集合を圧縮した蓄積付加情報圧縮特徴集合を算出し、前記蓄積画像圧縮特徴集合、前記蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を合成して、前記蓄積潜在変数集合を算出するステップと、
を含む請求項5に記載の映像付加情報関係性学習方法。 Extracting the accumulated latent variable set by the accumulated latent variable extracting means;
A statistic that expresses the statistical properties of the complete accumulation feature set, which is a set of the combination of the complete accumulation image feature, the complete accumulation acoustic feature, and the corresponding accumulated additional information feature by the perfect accumulation feature set statistic calculation means. Calculating a complete accumulated feature set statistic;
The incompletely accumulated feature set statistic calculating means is an incompletely accumulated feature that is a statistic representing the statistical properties of the incompletely accumulated feature set that is a set of the combination of the incompletely accumulated image feature and the incompletely accumulated acoustic feature. Calculating an aggregate statistic;
A step of calculating an integrated statistic by combining the complete accumulated feature set statistic and the incompletely accumulated feature set statistic by an integrated statistic calculating means;
Determining a feature compression function, which is a function for compressing the image feature, the acoustic feature, and the additional information feature, using the integrated statistic by a feature compression function determination unit;
The feature compression means compresses the stored image compression feature set obtained by compressing the stored image feature set, the stored acoustic compression feature set obtained by compressing the stored acoustic feature set, and the stored additional information feature set using the feature compression function. Calculating the stored additional information compression feature set, combining the stored image compression feature set, the stored acoustic compression feature set, and the stored additional information compression feature set to calculate the stored latent variable set;
The video additional information relationship learning method according to claim 5, comprising:
映像検索手段によって、前記入力付加情報特徴を、前記映像・付加情報関係モデルに与え、前記完全蓄積映像集合及び前記不完全蓄積映像集合から、前記入力付加情報との関連性が高い映像を検索するステップと
を更に含む請求項5又は6に記載の映像付加情報関係性学習方法。 Extracting an input additional information feature which is a vector expressing the characteristic of the additional information from the input additional information by the input additional information feature extracting means;
The video additional means provides the input additional information feature to the video / additional information relationship model, and searches for a video having high relevance to the input additional information from the complete stored video set and the incompletely stored video set. The video additional information relationship learning method according to claim 5, further comprising: a step.
入力音響特徴抽出手段によって、前記入力映像から、音響の特性を表現するベクトルである入力音響特徴を抽出するステップと、
映像認識手段によって、前記入力画像特徴及び前記入力音響特徴を、前記映像・付加情報関係モデルに与え、前記蓄積付加情報集合から、前記入力映像との関連性の高い付加情報を選択するステップと
を更に含む請求項5又は6に記載の映像付加情報関係性学習方法。 Extracting an input image feature which is a vector expressing the characteristics of the image from the input video by the input image feature extracting means;
Extracting an input acoustic feature, which is a vector expressing acoustic characteristics, from the input video by an input acoustic feature extracting means;
Providing the input image feature and the input acoustic feature to the video / additional information relation model by a video recognition means, and selecting additional information highly relevant to the input video from the stored additional information set; The video additional information relationship learning method according to claim 5, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011249956A JP2013105393A (en) | 2011-11-15 | 2011-11-15 | Video additional information relationship learning device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011249956A JP2013105393A (en) | 2011-11-15 | 2011-11-15 | Video additional information relationship learning device, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013105393A true JP2013105393A (en) | 2013-05-30 |
Family
ID=48624864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011249956A Pending JP2013105393A (en) | 2011-11-15 | 2011-11-15 | Video additional information relationship learning device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013105393A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015181001A (en) * | 2014-03-18 | 2015-10-15 | エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. | Method and device for determining relational model |
JP2015201176A (en) * | 2014-03-18 | 2015-11-12 | エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. | Method and device for determining relational model |
JP2017091192A (en) * | 2015-11-10 | 2017-05-25 | 国立大学法人 東京大学 | Method and device for learning between documents in different languages using images, and method and device for searching cross-lingual document |
-
2011
- 2011-11-15 JP JP2011249956A patent/JP2013105393A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015181001A (en) * | 2014-03-18 | 2015-10-15 | エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. | Method and device for determining relational model |
JP2015201176A (en) * | 2014-03-18 | 2015-11-12 | エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. | Method and device for determining relational model |
JP2017091192A (en) * | 2015-11-10 | 2017-05-25 | 国立大学法人 東京大学 | Method and device for learning between documents in different languages using images, and method and device for searching cross-lingual document |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8232996B2 (en) | Image learning, automatic annotation, retrieval method, and device | |
CN105912611B (en) | A kind of fast image retrieval method based on CNN | |
US8396286B1 (en) | Learning concepts for video annotation | |
CN102549603B (en) | Relevance-based image selection | |
US10713298B2 (en) | Video retrieval methods and apparatuses | |
JP5346279B2 (en) | Annotation by search | |
Mironică et al. | A modified vector of locally aggregated descriptors approach for fast video classification | |
WO2019214289A1 (en) | Image processing method and apparatus, and electronic device and storage medium | |
JP2012524314A (en) | Method and apparatus for data retrieval and indexing | |
WO2008016102A1 (en) | Similarity calculation device and information search device | |
CN104391924A (en) | Mixed audio and video search method and system | |
Natarajan et al. | BBN VISER TRECVID 2013 Multimedia Event Detection and Multimedia Event Recounting Systems. | |
Bouguila | A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity | |
JP5094830B2 (en) | Image search apparatus, image search method and program | |
CN109284414A (en) | The cross-module state content search method and system kept based on semanteme | |
JP2013105393A (en) | Video additional information relationship learning device, method and program | |
JP2010282276A (en) | Apparatus and method for video recognition, and program | |
JP5197492B2 (en) | Semi-teacher image recognition / retrieval device, semi-teacher image recognition / retrieval method, and program | |
CN111651660A (en) | Method for cross-media retrieval of difficult samples | |
CN114691907B (en) | Cross-modal retrieval method, device and medium | |
JP5499362B2 (en) | Semi-teacher signal recognition search apparatus, semi-teacher signal recognition search method, and program | |
WO2006009035A1 (en) | Signal detecting method, signal detecting system, signal detecting program and recording medium on which the program is recorded | |
Bailloeul et al. | Automatic image tagging as a random walk with priors on the canonical correlation subspace | |
CN112199531A (en) | Cross-modal retrieval method and device based on Hash algorithm and neighborhood map | |
KR101233296B1 (en) | System and method for distance metric used weighted sum |