JP2017091192A - 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置 - Google Patents
画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置 Download PDFInfo
- Publication number
- JP2017091192A JP2017091192A JP2015220107A JP2015220107A JP2017091192A JP 2017091192 A JP2017091192 A JP 2017091192A JP 2015220107 A JP2015220107 A JP 2015220107A JP 2015220107 A JP2015220107 A JP 2015220107A JP 2017091192 A JP2017091192 A JP 2017091192A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- language
- document
- data set
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Douglas J Carroll. 1968. Generalization of canonical correlation analysis to three or more sets of variables. In Proceedings of the 76th Annual Convention of the American Psychological Association, volume 3, pages 227-228. Jon Robers Kettenring. 1971. Canonical Analysis of Several Sets of Variables. Biometrika, 58(3):433-451. Michel Velden and Yoshio Takane. 2012. Generalized Canonical Correlation Analysis with Missing Values. Computational Statistics, 27(3):551-571. Jan Rupnik, Andrej Muhic, and Primo Skraba. 2012. Cross-Lingual Document Retrieval through Hub Languages. In Neural Information Processing Systems Workshop. Harold Hotelling. 1936. Relations between Two Sets of Variants. Biometrika, 28:321-377. David R Hardoon, Sandor Szedmak, and John Shawe-Taylor. 2004. Canonical Correlation Analysis: an Overview with Application to Learning Methods. Neural Computation, 16(12):2639-2664. Nikhil Rasiwasia, Jose Costa Pereira, Emanuele Coviello, Gabriel Doyle, Gert R.G. Lanckriet, Roger Levy, and Nuno Vasconcelos. 2010. A New Approach to Cross-modal Multimedia Retrieval. Proceedings of the International Conference on Multimedia, pages 251-260. Yunchao Gong, Qifa Ke, Michael Isard, and Svetlana Lazebnik. 2014. A Multiview Embedding Space for Modeling Internet Images, Tags, and their Semantics. International Journal of Computer Vision, 106(2):210-233. Alexei Vinokourov, John Shawe-Taylor, and Nello Cristianini. 2002. Inferring a Semantic Representation of Text via Cross-Language Correlation Analysis. Advances in Neural Information Processing Systems, pages 1473-1480. Yaoyong Li and John Shawe-Taylor. 2004. Using KCCA for Japanese-English Cross-language Information Retrieval and Classification. In Learning Methods for Text Understanding Raghavendra Udupa and Mitesh M Khapra. 2010. Improving the Multilingual User Experience of Wikipedia Using Cross-Language Name Search. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 492-500. Hao Fang, Saurabh Gupta, Forrest Iandola, K. Rupesh Srivastava, Li Deng, Piotr Doll´ar, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, and Geoffrey Zweig. 2015. From Captions to Visual Concepts and Back. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Ken Chatfield, Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman. 2014. Return of the Devil in the Details: Delving Deep into Convolutional Nets. In Proceedings of the British Machine Vision Conference, pages 1-11. Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, and Trevor Darrell. 2013. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition. In Proceedings of the International Conference on Machine Learning, pages 647-655. Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. 2014. Caffe : Convolutional Architecture for Fast Feature Embedding. In Proceedings of the ACM International Conferenceon Multimedia, pages 675-678. Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. 2015. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. Christian Szegedy, Scott Reed, Pierre Sermanet, Vincent Vanhoucke, and Andrew Rabinovich. 2014. Going deeper with convolutions. CoRRabs/1409.4842. Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2012. ImageNet Classification with Deep Convolutional Neural Networks. In Advances in Neural Information Processing Systems, pages 1097-1105. Taku Kudo, Kaoru Yamamoto, and Yuji Matsumoto. 2004. Applying Conditional Random Fields to Japanese Morphological Analysis. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 230-237. Cyrus Rashtchian, Peter Young, Micah Hodosh, Julia Hockenmaier, and North Goodwin Ave. 2010. Collecting Image Annotations Using Amazon’s Mechanical Turk. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, pages 139-147. Florent Perronnin, Jorge S´anchez, and Thomas Mensink. 2010. Improving the Fisher kernel for large-scale image classification. In Proceedings of the European Conference on Computer Vision, pages 143-156. David G Lowe. 1999. Object recognition from local scale-invariant features. In Proceedings of the Seventh IEEE International Conference on Computer Vision, volume 2, pages 1150-1157.
第1言語文書と画像のペア群からなる第1訓練データセットを用意し、
第2言語文書と画像のペア群からなる第2訓練データセットを用意し、
第1訓練データセットにおいて、第1言語文書から第1特徴ベクトルを抽出し、画像から第2特徴ベクトルを抽出し、
第2訓練データセットにおいて、第2言語文書から第3特徴ベクトルを抽出し、画像から第2特徴ベクトルを抽出し、
第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルを用いて一般化正準相関分析を行うことで、第2特徴ベクトルを媒介として第1特徴ベクトルと第3特徴ベクトルのマッピングを行う、
ものである。
Bag of wordsは文書の特徴量を抽出するための一つの代表的な例示であって、これに限定されるものではない。
CNNとしては、AlexNetやCaffeNet、GoogLeNet、VGG netを例示することができる。
次元縮約手段としては、典型的には主成分分析(PCA)が例示される。
前記第2訓練データセットは、第2言語のWebからのクローリングによって取得したマルチメディアデータを含む。
第3訓練データセットにおいて、第1言語のテキストから第1特徴ベクトルを抽出し、第2言語のテキストから第3特徴ベクトルを抽出し、
前記一般化正準相関分析において、さらに、第3訓練データセットから抽出された第1特徴ベクトル及び第3特徴ベクトルを用いる。
この態様は、後述するFew-Shot学習に対応するものである。
第1言語文書と画像のペア群からなる第1訓練データセットと、
第2言語文書と画像のペア群からなる第2訓練データセットと、
第1言語文書から第1特徴ベクトルを抽出する第1特徴ベクトル抽出手段と、
画像から第2特徴ベクトルを抽出する第2特徴ベクトル抽出手段と、
第2言語文書から第3特徴ベクトルを抽出する第3特徴ベクトル抽出手段と、
一般化正準相関分析手段と、
を備え、
前記一般化正準相関分析手段が、第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルを用いて一般化正準相関分析を行うことで、第2特徴ベクトルを媒介として第1特徴ベクトルと第3特徴ベクトルのマッピングを行う、
ものである。
前記学習モデルにおいて、第1言語空間(「第1特徴ベクトル」の空間)から正準空間への第1射影係数、第2言語空間(「第3特徴ベクトル」の空間)から正準空間への第2射影係数が規定されており、
第1言語クエリ文書から第1特徴ベクトルを抽出し、
抽出された第1特徴ベクトルを、第1射影係数を用いて正準空間に射影して第1射影特徴ベクトルを取得し、
第2言語ターゲット文書候補から第3特徴ベクトルを抽出し、
抽出された第3特徴ベクトルを、第2射影係数を用いて正準空間に射影して第3射影特徴ベクトルを取得し、
第1射影特徴ベクトルと第3射影特徴ベクトル間の類似度を用いてターゲット文書を決定する、ものである。
前記学習モデルにおいて、第1言語空間から正準空間への第1射影係数、第2言語空間から正準空間への第2射影係数が規定されており、
第1言語クエリ文書から第1特徴ベクトルを抽出する手段と、
抽出された第1特徴ベクトルを、第1射影係数を用いて正準空間に射影して第1射影特徴ベクトルを取得する手段と、
第2言語ターゲット文書候補から第3特徴ベクトルを抽出する手段と、
抽出された第3特徴ベクトルを、第2射影係数を用いて正準空間に射影して第3射影特徴ベクトルを取得する手段と、
第1射影特徴ベクトルと第3射影特徴ベクトル間の類似度を用いてターゲット文書を決定する手段と、
を備えている。
本発明では、異言語文書間の学習において、画像を媒介させることで対訳コーパスが少ない場合にも学習が可能となった(Few-shot学習)。
2つの言語にまたがった情報が必要である。
これに対して、本発明では、マルチメディア情報が付随している(図1参照)ことを前提として、一つの言語に閉じた情報のみで学習ができる点に特徴がある。
画像はユニバーサルな表現であるがゆえに、各言語ごとの文書(一つの言語に閉じた文書)に含まれおり、学習の際に橋(媒介)となる役割を果たす。
図3を参照しつつ、本発明に係る画像媒介学習システムの概要を説明する。
[A-1]学習に用いるデータ
まず、第1訓練データセットと第2訓練データセットを用意する。第1訓練データセットは、第1言語文書と画像のペア群からなる。第2訓練データセットは、第2言語文書と画像のペア群からなる。後述する実験例では、第1言語、第2言語として、日本語、英語を使用したが、第1言語、第2言語は、任意の異言語から選択され得る。1つの態様では、第1訓練データセットに含まれる画像と第2訓練データセットに含まれる画像には、全く違う画像が用いられ、一切オーバーラップが生じないようになっている。なお、同じ画像が含まれていることを排除するものではない。
1つの態様では、第1特徴ベクトル及び第3特徴ベクトルは、Bag of words(BoW)を用いて抽出される。BoWは文書の特徴量を抽出するための一つの代表的な例示であって、BoW以外の非限定的な手法として、以下の手法が例示される。
TF-IDF特徴;
Word2vecによって得られた単語ベクトルを用いて文書における単語分すべて足し合わせて平均を取るなどの方法;
Paragraph2vecから得られた文書ベクトル;
N-gram言語モデルによる特徴;
BoWをLSI(Latent Semantic Indexing, LSA: Latent Semantic Analysisともいわれる)を使って次元削減したもの;
BoWをLDA(Latent Dirichlet Allocation)によって次元削減したもの。
1つの態様では、第2特徴ベクトルは、畳込みニューラルネットワーク(CNN)を用いて抽出される。畳込みニューラルネットワーク(CNN)は、画像認識として最も成功している深層学習である(非特許文献12〜17)。CNNとしては、AlexNetやCaffeNet、GoogLeNet、VGG netを例示することができる。CNNは設計者によって様々な構造がある。CNNは学習をするときに正しく分類が行われるようにそれぞれの層を結合する重みを更新していく。つまり、学習済みニューラルネットワークは重みが定まっており、このニューラルネットワークに画像を入力するとそれぞれの重みを元に活性化関数の値が計算される。その結果を特徴量として使う。複数の層のどの層の値を使うかについては限定されない。ネットワークの最終層に近いあたりの層が一般的に良い特徴が得られると考えられるが、実験等において最良の層を選択し得ることが当業者に理解される。なお、本発明に用いられ得る第2特徴ベクトルとして、CNN以外の特徴量を排除するものではなく、例えば、フィッシャーベクトル、Bag of Features(Bag of Visual Words)等も含む。
1つの態様では、第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルを、次元縮約手段によって次元縮約してもよい。各特徴ベクトルの次元縮約は任意であるが、計算時間を考慮すると、データの規模が大きい場合には、次元縮約を行うことが望ましい。次元縮約手段としては、典型的には主成分分析(PCA)が例示されるが、独立成分分析(ICA)、LDAやLSIを用いてもよい。
一般化正準相関分析は、2つの変数群を扱う正準相関分析を、3つ以上の変数群を扱うように一般化したものであり、複数のモダリティ間の相関の和を最大にするようにデータをマッピングすることができる。第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルを用いて一般化正準相関分析を行うことで、第2特徴ベクトルを媒介として第1特徴ベクトルと第3特徴ベクトルのマッピングを行う。
GCCAによって第1言語空間から正準空間への第1射影係数、第2言語空間から正準空間への第2射影係数が決定される。すなわち、異言語文書間の学習法によって得られた学習モデルにおいて、第1言語空間から正準空間への第1射影係数、第2言語空間から正準空間への第2射影係数が規定されている。第1言語文書から抽出された第1特徴ベクトルは、第1射影係数によって、第1射影特徴ベクトルに変換される。第2言語文書から抽出された第3特徴ベクトルは、第2射影係数によって、第3射影特徴ベクトルに変換される。第1射影特徴ベクトルと第3射影特徴ベクトルは、いわば共通空間ないしジョイント空間である正準空間(広義には、「潜在空間」)において対比させることができる。
本発明の一つの理想的な形は、一切の対訳コーパスなしに異言語間文書検索を実現するためのZero-Shot学習であるが、少量の対訳コーパスを用いたFew-Shot学習を実行してもよい。この場合、第1言語文書と第2言語文書のペア群からなる第3訓練データセットを用意し、第3訓練データセットにおいて、第1言語のテキストから第1特徴ベクトルを抽出し、第2言語のテキストから第3特徴ベクトルを抽出し、前記一般化正準相関分析において、さらに、第3訓練データセットから抽出された第1特徴ベクトル及び第3特徴ベクトルが用いられる。
本発明に係る学習システムは、一つあるいは複数のコンピュータから構成されており、当該コンピュータは、ハードウェアとしての処理手段(CPU等)、記憶手段(ハードディスク、RAM、ROM等)、入力手段、出力手段ないし表示手段、ソフトウエアとしてのコンピュータを動作させる制御プログラム等を備えている。第1言語文書と画像のペア群からなる第1訓練データセット、第2言語文書と画像のペア群からなる第2訓練データセットは、記憶手段に格納されている。テキストデータから特徴を抽出する手段、画像データから特徴を抽出する手段は、処理手段から構成される。第1言語文書から抽出された第1特徴ベクトル、画像から抽出された第2特徴ベクトル、第2言語文書から抽出された第3特徴ベクトルは、記憶手段に格納される。一般化正準相関分析は、第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルを用いて、処理手段により実行され、一般化正準相関分析を行うことで、第2特徴ベクトルを媒介として第1特徴ベクトルと第3特徴ベクトルのマッピングが行われる。具体的には、第1言語空間から正準空間への第1射影係数、第2言語空間から正準空間への第2射影係数が算出され、この射影係数は記憶手段に記憶される。
図4を参照しつつ、本発明に係る言語横断文書検索システムの概要を説明する。
[B-1]画像媒介型異言語間学習モデル
異言語文書間の学習法によって得られた学習モデルにおいて、第1言語空間から正準空間への第1射影係数、第2言語空間から正準空間への第2射影係数が規定されている。第1言語文書から抽出された第1特徴ベクトルは、第1射影係数によって、第1射影特徴ベクトルに変換される。第2言語文書から抽出された第3特徴ベクトルは、第2射影係数によって、第3射影特徴ベクトルに変換される。第1射影特徴ベクトルと第3射影特徴ベクトルの類似度から、第1言語文書と第2言語文書の類似度を推定することができる。
第1言語クエリ文書が検索システムに入力されると、入力されたテキストデータから第1特徴ベクトルが抽出される。抽出された第1特徴ベクトルを、第1射影係数を用いて正準空間に射影して第1射影特徴ベクトルを取得する。
本発明に係る検索システムは、一つあるいは複数のコンピュータから構成されており、当該コンピュータは、ハードウェアとしての処理手段(CPU等)、記憶手段(ハードディスク、RAM、ROM等)、入力手段、出力手段ないし表示手段、ソフトウエアとしてのコンピュータを動作させる制御プログラム等を備えている。ユーザ端末も、一つあるいは複数のコンピュータから構成されており、当該コンピュータは、処理手段、記憶手段、入力手段、出力手段ないし表示手段、コンピュータを動作させる制御プログラム等を備えている。
[C-1]使用するデータ
本実施例において、表1に示す異データディビジョンを用いる。
[train-E/I]: 英語テキストと画像のペアからなる学習ドキュメント
[train-I/J]: 日本語テキストと画像のペアからなる学習ドキュメント
[train-E/J]: 英語テキストと日本語テキストのペアからなる学習ドキュメント
[test-E/J]: 英語テキストと日本語テキストのペアからなるテストドキュメント
実施例に係るシステムの概要図を図5に示す。英語、画像、日本語の3つの特徴量を用いて学習を行う。学習においては、英語テキストから第1特徴ベクトルを抽出し、画像から第2特徴ベクトルを抽出し、日本語から第3特徴ベクトルを抽出し、得られた特徴を主成分分析(PCA)によって次元縮約し、縮約された特徴をGCCAによって学習させる。
画像の特徴は、畳込みニューラルネットワークを用いて抽出される。本実施例では、ILSVRC2012 dataset (非特許文献15)を用いて事前学習されており、Caffe (非特許文献16)に提供されるCNNモデルを適用する。実験では、GoogLeNet(非特許文献17)のpool5/7x7 s1層の特徴量、VGG(非特許文献13)のfc6層の特徴量、CaffeNet(非特許文献16、非特許文献18)のfc6層の特徴量を画像特徴ベクトルとして用いた。
英語及び日本語のテキスト特徴としては、bag of words (BoW)及びTF-IDF(term frequency-inverse document frequency)による重み付けを用いた。形態素解析による日本文の単語への分割において、MeCab libraryを用いる(非特許文献18)。実験では、stop wordの削除やstemmingのような前処理は行わなかったが、これらを行うのは任意である。
GCCAを用いることで、複数のモダリティ間の相関の和を最大にするようにデータをマッピングすることができる(図6参照)。本実施例では、非特許文献2のGCCAを採用した。GCCAの計算自体は公知であり、また、以下に述べるGCCAは一例であって、本発明に用いられるGCCAを限定するものではない。
E、I、Jをそれぞれ、英文、画像、日本文とすると、特徴ベクトル
において、
は正準変数を表す。
ここで、Xkバーは、特徴ベクトルの平均である。
hkは、射影係数である。
k∈{E, I, J}であり、各特徴ベクトルと、対応する射影係数と、から、正準変数(射影特徴ベクトル)を計算することができる。
を、拘束条件
のもとに解くことで式(1)が導出され、
射影係数hkは、以下の一般化固有値問題を解くことによって、得られるモダリティの各ペアの相関の合計を最大化するようにして計算される。
ここで、
であり、
Σijは、モダリティi,jの共分散マトリックスであって、i,j∈{E,I,J}である。ΣEJはE3とJ3、ΣIJはI2とJ2によって計算し、ΣIIはI1とI2によって計算し、ΣJJはJ2とJ3によって計算する。ΣEJは、ΣEIとΣIJと異なり、特別にZero-Shot学習の場合は訓練サンプル数が0になる場合があり、その場合は上記最大化問題に寄与しないため、結果的にΣEJは0 で埋まる。
また、過学習を防止するため、正則化項を加える。すなわち、
であり、αは正則化のパラメータである。
第1言語のクエリ文書が与えられた時に、他言語である第2言語の関連文書を探索するためには、ジョイント空間において、クエリ文書と候補文書の距離を計算すればよい。ジョイント空間における特徴ベクトル(射影特徴ベクトル)は、
を用いて算出することができ、hkはGCCAによって取得される。
ここで、zi E,zj Jは、それぞれ、ターゲット文書、クエリ文書の射影特徴ベクトルであり、d(・)は距離関数である。本実施例では、距離関数はユーグリッド距離である。
[D-1]実験で用いたデータセット
UIUC Pascal Sentence Dataset (非特許文献19)は、それぞれ内容を記述する5つの英文の注釈を備えた1000個の画像を有している。このデータセットは、画像からの文書の生成の研究のために作られたものであるが、本実施形態に係る画像媒介型CLDRに用いるため、各英文に対応する日本文の翻訳を用意した(図8参照)。本実験において、各画像に対応する5つの文章はまとめて一つのテキストデータとして取り扱う。よって、本セットアップでは、1000個の文書からなるデータセットの各文書は、1つの画像、対応する英文テキスト、日本文テキストからなる。図6の概念図における各シンボルは、「5つの日本文から抽出された特徴ベクトル」、「1枚の画像から抽出された特徴ベクトル」、「5つの英文から抽出された特徴ベクトル」を表している。
表1における各データディビジョンから重複しないようランダムにデータを抽出した。 [train-E/I]、[train-I/J]のサンプルサイズを変化させて実験を行った。具体的には、サンプル数を、100、200、300、400とした。さらに、[train-E/J]のサンプル数を段階的に0から100まで増やして、Few-Shot学習シナリオを創出した。試験データ[test-E/J]のサイズは100に設定した。
本実施形態における画像特徴の性能の効果について検証した(図10、表4)。画像特徴として、以下のCNNを用いて抽出された3つの異なる特徴を用いた。
GoogLeNet(非特許文献17)のpool5/7x7 s1層の特徴量、
VGG(非特許文献13)のfc6層の特徴量、
CaffeNet(非特許文献16、非特許文献18)のfc6層の特徴量
の順番で認識精度が高いこと(非特許文献12)と一致した。画像媒介型CLDRにおいても同様の順位となったということは、より良い特徴量を使えば、画像媒介型CLDRにおいて高い検索精度が得られることを意味する。
Claims (14)
- 第1言語文書と画像のペア群からなる第1訓練データセットを用意し、
第2言語文書と画像のペア群からなる第2訓練データセットを用意し、
第1訓練データセットにおいて、第1言語文書から第1特徴ベクトルを抽出し、画像から第2特徴ベクトルを抽出し、
第2訓練データセットにおいて、第2言語文書から第3特徴ベクトルを抽出し、画像から第2特徴ベクトルを抽出し、
第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルを用いて一般化正準相関分析を行うことで、第2特徴ベクトルを媒介として第1特徴ベクトルと第3特徴ベクトルのマッピングを行う、
画像を媒介した異言語文書間の学習法。 - 第1特徴ベクトル及び第3特徴ベクトルは、Bag of wordsを用いて抽出される、請求項1に記載の学習法。
- 第2特徴ベクトルは、畳込みニューラルネットワークを用いて抽出される、請求項1、2いずれか1項に記載の学習法。
- 第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルは次元縮約されている、請求項1〜3いずれか1項に記載の学習法。
- 前記第1訓練データセットは、第1言語のWebからのクローリングによって取得したマルチメディアデータを含み、
前記第2訓練データセットは、第2言語のWebからのクローリングによって取得したマルチメディアデータを含む、
請求項1〜4いずれか1項に記載の学習法。 - さらに、第1言語文書と第2言語文書のペア群からなる第3訓練データセットを用意し、
第3訓練データセットにおいて、第1言語のテキストから第1特徴ベクトルを抽出し、第2言語のテキストから第3特徴ベクトルを抽出し、
前記一般化正準相関分析において、さらに、第3訓練データセットから抽出された第1特徴ベクトル及び第3特徴ベクトルを用いる、
請求項1〜5いずれか1項に記載の学習法。 - 第1言語文書と画像のペア群からなる第1訓練データセットと、
第2言語文書と画像のペア群からなる第2訓練データセットと、
第1言語文書から第1特徴ベクトルを抽出する第1特徴ベクトル抽出手段と、
画像から第2特徴ベクトルを抽出する第2特徴ベクトル抽出手段と、
第2言語文書から第3特徴ベクトルを抽出する第3特徴ベクトル抽出手段と、
一般化正準相関分析手段と、
を備え、
前記一般化正準相関分析手段が、第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルを用いて一般化正準相関分析を行うことで、第2特徴ベクトルを媒介として第1特徴ベクトルと第3特徴ベクトルのマッピングを行う、
画像を媒介した異言語文書間の学習装置。 - 第1特徴ベクトル抽出手段及び第3特徴ベクトル抽出手段は、Bag of wordsを取得するものである、請求項7に記載の学習装置。
- 第2特徴ベクトル抽出手段は、畳込みニューラルネットワークである、請求項7、8いずれか1項に記載の学習装置。
- 前記学習装置は、主成分分析手段を備え、
第1特徴ベクトル、第2特徴ベクトル、第3特徴ベクトルは、次元縮約手段によって次元縮約されている、請求項7〜9いずれか1項に記載の学習装置。 - 前記第1訓練データセットは、第1言語のWebからのクローリングによって取得したマルチメディアデータを含み、
前記第2訓練データセットは、第2言語のWebからのクローリングによって取得したマルチメディアデータを含む、
請求項7〜10いずれか1項に記載の学習装置。 - さらに、第1言語文書と第2言語文書のペア群からなる第3訓練データセットを備え、
前記一般化正準相関分析において、さらに、第3訓練データセットから抽出された第1特徴ベクトル及び第3特徴ベクトルを用いる、
請求項7〜11いずれか1項に記載の学習装置。 - 請求項1〜6いずれか1項に記載の異言語文書間の学習法によって得られた学習モデルを用いた言語横断文書検索法であって、
前記学習モデルにおいて、第1言語空間から正準空間への第1射影係数、第2言語空間から正準空間への第2射影係数が規定されており、
第1言語クエリ文書から第1特徴ベクトルを抽出し、
抽出された第1特徴ベクトルを、第1射影係数を用いて正準空間に射影して第1射影特徴ベクトルを取得し、
第2言語ターゲット文書候補から第3特徴ベクトルを抽出し、
抽出された第3特徴ベクトルを、第2射影係数を用いて正準空間に射影して第3射影特徴ベクトルを取得し、
第1射影特徴ベクトルと第3射影特徴ベクトル間の類似度を用いてターゲット文書を決定する、
言語横断文書検索法。 - 請求項1〜6いずれか1項に記載の異言語文書間の学習法によって得られた学習モデルを用いた言語横断文書検索装置であって、
前記学習モデルにおいて、第1言語空間から正準空間への第1射影係数、第2言語空間から正準空間への第2射影係数が規定されており、
第1言語クエリ文書から第1特徴ベクトルを抽出する手段と、
抽出された第1特徴ベクトルを、第1射影係数を用いて正準空間に射影して第1射影特徴ベクトルを取得する手段と、
第2言語ターゲット文書候補から第3特徴ベクトルを抽出する手段と、
抽出された第3特徴ベクトルを、第2射影係数を用いて正準空間に射影して第3射影特徴ベクトルを取得する手段と、
第1射影特徴ベクトルと第3射影特徴ベクトル間の類似度を用いてターゲット文書を決定する手段と、
を備えた言語横断文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015220107A JP6712796B2 (ja) | 2015-11-10 | 2015-11-10 | 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015220107A JP6712796B2 (ja) | 2015-11-10 | 2015-11-10 | 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017091192A true JP2017091192A (ja) | 2017-05-25 |
JP6712796B2 JP6712796B2 (ja) | 2020-06-24 |
Family
ID=58768827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015220107A Active JP6712796B2 (ja) | 2015-11-10 | 2015-11-10 | 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6712796B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009191A (zh) * | 2017-09-24 | 2018-05-08 | 贵州师范学院 | 一种图像检索方法 |
CN108446312A (zh) * | 2018-02-06 | 2018-08-24 | 西安电子科技大学 | 基于深度卷积语义网的光学遥感图像检索方法 |
KR102043142B1 (ko) * | 2018-12-31 | 2019-11-12 | 호서대학교 산학협력단 | Agv 주행제어를 위한 인공신경망 학습 방법 및 장치 |
JP2020017126A (ja) * | 2018-07-26 | 2020-01-30 | Zホールディングス株式会社 | 学習装置、学習方法及び学習プログラム |
CN111539228A (zh) * | 2020-04-29 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 向量模型训练方法及装置、相似度确定方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282275A (ja) * | 2009-06-02 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム |
JP2013105393A (ja) * | 2011-11-15 | 2013-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 映像付加情報関係性学習装置、方法、及びプログラム |
JP2013521574A (ja) * | 2010-03-01 | 2013-06-10 | マイクロソフト コーポレーション | セマンティックオブジェクトの特徴付けおよび検索 |
-
2015
- 2015-11-10 JP JP2015220107A patent/JP6712796B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282275A (ja) * | 2009-06-02 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム |
JP2013521574A (ja) * | 2010-03-01 | 2013-06-10 | マイクロソフト コーポレーション | セマンティックオブジェクトの特徴付けおよび検索 |
JP2013105393A (ja) * | 2011-11-15 | 2013-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 映像付加情報関係性学習装置、方法、及びプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009191A (zh) * | 2017-09-24 | 2018-05-08 | 贵州师范学院 | 一种图像检索方法 |
CN108446312A (zh) * | 2018-02-06 | 2018-08-24 | 西安电子科技大学 | 基于深度卷积语义网的光学遥感图像检索方法 |
CN108446312B (zh) * | 2018-02-06 | 2020-04-21 | 西安电子科技大学 | 基于深度卷积语义网的光学遥感图像检索方法 |
JP2020017126A (ja) * | 2018-07-26 | 2020-01-30 | Zホールディングス株式会社 | 学習装置、学習方法及び学習プログラム |
KR102043142B1 (ko) * | 2018-12-31 | 2019-11-12 | 호서대학교 산학협력단 | Agv 주행제어를 위한 인공신경망 학습 방법 및 장치 |
CN111539228A (zh) * | 2020-04-29 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 向量模型训练方法及装置、相似度确定方法及装置 |
CN111539228B (zh) * | 2020-04-29 | 2023-08-08 | 支付宝(杭州)信息技术有限公司 | 向量模型训练方法及装置、相似度确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6712796B2 (ja) | 2020-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Vokenization: Improving language understanding with contextualized, visual-grounded supervision | |
Liu et al. | Hit: Hierarchical transformer with momentum contrast for video-text retrieval | |
Xu et al. | Multi-interactive memory network for aspect based multimodal sentiment analysis | |
Yu et al. | Deep multimodal neural architecture search | |
Otani et al. | Learning joint representations of videos and sentences with web image search | |
JP6712796B2 (ja) | 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置 | |
Ye et al. | Evaluating two-stream CNN for video classification | |
Al-Muzaini et al. | Automatic Arabic image captioning using RNN-LST M-based language model and CNN | |
Wang et al. | Scene graph parsing as dependency parsing | |
Tariq et al. | A context-driven extractive framework for generating realistic image descriptions | |
Lienhart et al. | Multilayer pLSA for multimodal image retrieval | |
Feng et al. | How many words is a picture worth? automatic caption generation for news images | |
Funaki et al. | Image-mediated learning for zero-shot cross-lingual document retrieval | |
Li et al. | CLMLF: A contrastive learning and multi-layer fusion method for multimodal sentiment detection | |
Dubey et al. | Memesequencer: Sparse matching for embedding image macros | |
Wang et al. | Spotting and aggregating salient regions for video captioning | |
Bai et al. | Discriminative latent semantic graph for video captioning | |
Jiao et al. | More: Multi-order relation mining for dense captioning in 3d scenes | |
US10191921B1 (en) | System for expanding image search using attributes and associations | |
JP6420268B2 (ja) | 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム | |
Calabrese et al. | Fatality killed the cat or: BabelPic, a multimodal dataset for non-concrete concepts | |
Liang et al. | Summary-oriented vision modeling for multimodal abstractive summarization | |
Kumar et al. | A survey of evolution of image captioning techniques | |
Das et al. | A multi-stage multimodal framework for sentiment analysis of Assamese in low resource setting | |
Toor et al. | Question part relevance and editing for cooperative and context-aware vqa (c2vqa) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151110 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20151125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191015 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20191212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200519 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6712796 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |