JP2017091192A

JP2017091192A - 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置

Info

Publication number: JP2017091192A
Application number: JP2015220107A
Authority: JP
Inventors: 類佳舟木; Ruika Funaki; 中山　英樹; Hideki Nakayama; 英樹中山
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2015-11-10
Filing date: 2015-11-10
Publication date: 2017-05-25
Anticipated expiration: 2035-11-10
Also published as: JP6712796B2

Abstract

【課題】画像を間接的に利用した異言語文書間の学習方法を提案する。【解決手段】第１言語文書と画像のペア群からなる第１訓練データセットを用意し、第２言語文書と画像のペア群からなる第２訓練データセットを用意し、第１訓練データセットにおいて、第１言語文書から第１特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出し、第２訓練データセットにおいて、第２言語文書から第３特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出し、第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルを用いて一般化正準相関分析を行うことで、第２特徴ベクトルを媒介として第１特徴ベクトルと第３特徴ベクトルのマッピングを行う。【選択図】図３

Description

本発明は、言語横断文書検索に関するものである。

言語横断文書検索ないし異言語間文書検索は、例えば日本語の文書を入力し、関連・類似する英語文書を検索する技術である。従来技術では、システムを学習させるために多大な量の対訳コーパス（例えば、日本語・英語両言語で書かれた文書セット）が必要であり、一般的にはこのようなデータの入手自体が困難であるため実現性に乏しかった。

具体的には、大量の文書を手作業で翻訳することは多大な労力を要する。また、Webからバイリンガルドキュメントをクローリングして、学習データとして用いることも考えられるが、ウェブ上の多くの文書は１つの言語に閉じられている。したがって、十分な量の多言語文書を収集することは簡単ではなく、特にマイナーな言語であればなおさらである。

そこで、近年Web上に豊富に存在するマルチメディア情報、特に、文書と画像のペア、に着目した。異なる言語で記載された２つの文書が共に画像を含み、かつ、画像特徴が類似する場合、その文書に含まれるテキストも類似するであろうことが想定できる。また、画像は、母国語にかかわらず画像に含まれる意味内容を理解し得ることに加えて、どの国の文書にも画像が含まれ得ることからユニバーサルな表現であるという利点を有している。

伝統的な画像認識における機械学習は自然言語処理の分野における機械学習に比べて非常に貧弱であった。しかしながら、近年はDeep Learning（深層学習）のブレークスルーによって画像認識の精度が人間のレベルに急速に近づいている（非特許文献１２）。
Douglas J Carroll. 1968. Generalization of canonical correlation analysis to three or more sets of variables. In Proceedings of the 76th Annual Convention of the American Psychological Association, volume 3, pages 227-228. Jon Robers Kettenring. 1971. Canonical Analysis of Several Sets of Variables. Biometrika, 58(3):433-451. Michel Velden and Yoshio Takane. 2012. Generalized Canonical Correlation Analysis with Missing Values. Computational Statistics, 27(3):551-571. Jan Rupnik, Andrej Muhic, and Primo Skraba. 2012. Cross-Lingual Document Retrieval through Hub Languages. In Neural Information Processing Systems Workshop. Harold Hotelling. 1936. Relations between Two Sets of Variants. Biometrika, 28:321-377. David R Hardoon, Sandor Szedmak, and John Shawe-Taylor. 2004. Canonical Correlation Analysis: an Overview with Application to Learning Methods. Neural Computation, 16(12):2639-2664. Nikhil Rasiwasia, Jose Costa Pereira, Emanuele Coviello, Gabriel Doyle, Gert R.G. Lanckriet, Roger Levy, and Nuno Vasconcelos. 2010. A New Approach to Cross-modal Multimedia Retrieval. Proceedings of the International Conference on Multimedia, pages 251-260. Yunchao Gong, Qifa Ke, Michael Isard, and Svetlana Lazebnik. 2014. A Multiview Embedding Space for Modeling Internet Images, Tags, and their Semantics. International Journal of Computer Vision, 106(2):210-233. Alexei Vinokourov, John Shawe-Taylor, and Nello Cristianini. 2002. Inferring a Semantic Representation of Text via Cross-Language Correlation Analysis. Advances in Neural Information Processing Systems, pages 1473-1480. Yaoyong Li and John Shawe-Taylor. 2004. Using KCCA for Japanese-English Cross-language Information Retrieval and Classification. In Learning Methods for Text Understanding Raghavendra Udupa and Mitesh M Khapra. 2010. Improving the Multilingual User Experience of Wikipedia Using Cross-Language Name Search. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 492-500. Hao Fang, Saurabh Gupta, Forrest Iandola, K. Rupesh Srivastava, Li Deng, Piotr Doll´ar, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, and Geoffrey Zweig. 2015. From Captions to Visual Concepts and Back. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Ken Chatfield, Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman. 2014. Return of the Devil in the Details: Delving Deep into Convolutional Nets. In Proceedings of the British Machine Vision Conference, pages 1-11. Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, and Trevor Darrell. 2013. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition. In Proceedings of the International Conference on Machine Learning, pages 647-655. Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. 2014. Caffe : Convolutional Architecture for Fast Feature Embedding. In Proceedings of the ACM International Conferenceon Multimedia, pages 675-678. Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. 2015. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. Christian Szegedy, Scott Reed, Pierre Sermanet, Vincent Vanhoucke, and Andrew Rabinovich. 2014. Going deeper with convolutions. CoRRabs/1409.4842. Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2012. ImageNet Classification with Deep Convolutional Neural Networks. In Advances in Neural Information Processing Systems, pages 1097-1105. Taku Kudo, Kaoru Yamamoto, and Yuji Matsumoto. 2004. Applying Conditional Random Fields to Japanese Morphological Analysis. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 230-237. Cyrus Rashtchian, Peter Young, Micah Hodosh, Julia Hockenmaier, and North Goodwin Ave. 2010. Collecting Image Annotations Using Amazon’s Mechanical Turk. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, pages 139-147. Florent Perronnin, Jorge S´anchez, and Thomas Mensink. 2010. Improving the Fisher kernel for large-scale image classification. In Proceedings of the European Conference on Computer Vision, pages 143-156. David G Lowe. 1999. Object recognition from local scale-invariant features. In Proceedings of the Seventh IEEE International Conference on Computer Vision, volume 2, pages 1150-1157.

本発明は、画像を間接的に利用した異言語文書間の学習方法及び装置を提案し、また、その学習モデルを用いて異言語間文書検索を行うことを目的とするものである。

本発明に係る画像を媒介した異言語文書間の学習法は、
第１言語文書と画像のペア群からなる第１訓練データセットを用意し、
第２言語文書と画像のペア群からなる第２訓練データセットを用意し、
第１訓練データセットにおいて、第１言語文書から第１特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出し、
第２訓練データセットにおいて、第２言語文書から第３特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出し、
第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルを用いて一般化正準相関分析を行うことで、第２特徴ベクトルを媒介として第１特徴ベクトルと第３特徴ベクトルのマッピングを行う、
ものである。

１つの態様では、第１特徴ベクトル及び第３特徴ベクトルは、Bag of wordsを用いて抽出される。
Bag of wordsは文書の特徴量を抽出するための一つの代表的な例示であって、これに限定されるものではない。

１つの態様では、第２特徴ベクトルは、畳込みニューラルネットワークを用いて抽出される。
ＣＮＮとしては、AlexNetやCaffeNet、GoogLeNet、VGG netを例示することができる。

１つの態様では、第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルは、次元縮約手段によって次元縮約されている。
次元縮約手段としては、典型的には主成分分析（PCA）が例示される。

１つの態様では、前記第１訓練データセットは、第１言語のＷｅｂからのクローリングによって取得したマルチメディアデータを含み、
前記第２訓練データセットは、第２言語のＷｅｂからのクローリングによって取得したマルチメディアデータを含む。

１つの態様では、さらに、第１言語文書と第２言語文書のペア群からなる第３訓練データセットを用意し、
第３訓練データセットにおいて、第１言語のテキストから第１特徴ベクトルを抽出し、第２言語のテキストから第３特徴ベクトルを抽出し、
前記一般化正準相関分析において、さらに、第３訓練データセットから抽出された第１特徴ベクトル及び第３特徴ベクトルを用いる。
この態様は、後述するFew-Shot学習に対応するものである。

本発明に係る画像を媒介した異言語文書間の学習装置は、
第１言語文書と画像のペア群からなる第１訓練データセットと、
第２言語文書と画像のペア群からなる第２訓練データセットと、
第１言語文書から第１特徴ベクトルを抽出する第１特徴ベクトル抽出手段と、
画像から第２特徴ベクトルを抽出する第２特徴ベクトル抽出手段と、
第２言語文書から第３特徴ベクトルを抽出する第３特徴ベクトル抽出手段と、
一般化正準相関分析手段と、
を備え、
前記一般化正準相関分析手段が、第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルを用いて一般化正準相関分析を行うことで、第２特徴ベクトルを媒介として第１特徴ベクトルと第３特徴ベクトルのマッピングを行う、
ものである。

本発明に係る言語横断文書検索法は、上記異言語文書間の学習法によって得られた学習モデルを用いるものであり、
前記学習モデルにおいて、第１言語空間（「第１特徴ベクトル」の空間）から正準空間への第１射影係数、第２言語空間（「第３特徴ベクトル」の空間）から正準空間への第２射影係数が規定されており、
第１言語クエリ文書から第１特徴ベクトルを抽出し、
抽出された第１特徴ベクトルを、第１射影係数を用いて正準空間に射影して第１射影特徴ベクトルを取得し、
第２言語ターゲット文書候補から第３特徴ベクトルを抽出し、
抽出された第３特徴ベクトルを、第２射影係数を用いて正準空間に射影して第３射影特徴ベクトルを取得し、
第１射影特徴ベクトルと第３射影特徴ベクトル間の類似度を用いてターゲット文書を決定する、ものである。

本発明に係る言語横断文書検索装置は、上記異言語文書間の学習法によって得られた学習モデルを用いるものであり、
前記学習モデルにおいて、第１言語空間から正準空間への第１射影係数、第２言語空間から正準空間への第２射影係数が規定されており、
第１言語クエリ文書から第１特徴ベクトルを抽出する手段と、
抽出された第１特徴ベクトルを、第１射影係数を用いて正準空間に射影して第１射影特徴ベクトルを取得する手段と、
第２言語ターゲット文書候補から第３特徴ベクトルを抽出する手段と、
抽出された第３特徴ベクトルを、第２射影係数を用いて正準空間に射影して第３射影特徴ベクトルを取得する手段と、
第１射影特徴ベクトルと第３射影特徴ベクトル間の類似度を用いてターゲット文書を決定する手段と、
を備えている。

本発明では、異言語文書間の学習において、画像を媒介させることで対訳コーパスが存在しない場合にも学習が可能となった（Zero-shot学習）。
本発明では、異言語文書間の学習において、画像を媒介させることで対訳コーパスが少ない場合にも学習が可能となった（Few-shot学習）。

異言語文書間の学習において、英語などの文書をハブとして用いることで学習を可能とする研究（非特許文献４）においても、対訳コーパスが必要となり、
２つの言語にまたがった情報が必要である。
これに対して、本発明では、マルチメディア情報が付随している（図１参照）ことを前提として、一つの言語に閉じた情報のみで学習ができる点に特徴がある。
画像はユニバーサルな表現であるがゆえに、各言語ごとの文書（一つの言語に閉じた文書）に含まれおり、学習の際に橋（媒介）となる役割を果たす。

本発明は、近年web上に豊富に存在するマルチメディア情報に着目し、画像を間接的に利用した学習法を用いることで、近年の画像認識技術のブレークスルーと相俟って、一切の対訳コーパスなしに（あるいは、少しの対訳コーパスを用いて）異言語間文書検索を実現する。

画像媒介学習の概念図である。画像データを含むウェブ文書を示す。本発明に係る画像を媒介した異言語文書間の学習システムの概要図である。本発明に係る言語横断文書検索システムの概要図である。本発明の一実施形態に係る異言語文書間の学習システムの概要図である。一般化正準相関分析を用いた、日本語文書の特徴ベクトル、英語文書の特徴ベクトル、画像の特徴ベクトルの正準空間への投影を示す概念図である。射影された空間（正準空間）における最近傍探索の概念図である。実験に用いたデータセットを例示する図である。１枚の画像に対して、５つの英文、各英文に対応する５つの日本文が用意されている。５つの日本文から抽出された特徴ベクトルと１枚の画像から抽出された特徴ベクトルがペアを形成し、５つの英文から抽出された特徴ベクトルと１枚の画像から抽出された特徴ベクトルがペアを形成している。検索精度実験１の結果を示す。検索精度実験１は、[train-E/I]、[train-I/J]のサンプル数を変化させて実験を行うと共に、さらに、[train-E/J]のサンプル数を変化させて実験を行った。検索精度実験２の結果を示す。検索精度実験２は、複数種類の画像特徴を用いた比較実験である。

[A]画像媒介学習システムの概要
図３を参照しつつ、本発明に係る画像媒介学習システムの概要を説明する。
[A-1]学習に用いるデータ
まず、第１訓練データセットと第２訓練データセットを用意する。第１訓練データセットは、第１言語文書と画像のペア群からなる。第２訓練データセットは、第２言語文書と画像のペア群からなる。後述する実験例では、第１言語、第２言語として、日本語、英語を使用したが、第１言語、第２言語は、任意の異言語から選択され得る。１つの態様では、第１訓練データセットに含まれる画像と第２訓練データセットに含まれる画像には、全く違う画像が用いられ、一切オーバーラップが生じないようになっている。なお、同じ画像が含まれていることを排除するものではない。

第１訓練データセットにおいて、第１言語文書から第１特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出する。第２訓練データセットにおいて、第２言語文書から第３特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出する。これらの特徴ベクトルを用いて学習が行われる。なお、画像から抽出した特徴ベクトルを総称して第２特徴ベクトルとしているが、第１訓練データセットから得られる第２特徴ベクトルと、第２訓練データセットから得られる第２特徴ベクトルと、は異なる。

後述する実施例では、UIUC Pascal Sentence Dataset (非特許文献１９)を用いたが、訓練データセットのソースとしては様々なデータが考えられる。１つの態様では、前記第１訓練データセットは、第１言語のWebからのクローリングによって取得したマルチメディアデータを含み、前記第２訓練データセットは、第２言語のWebからのクローリングによって取得したマルチメディアデータを含む。Twitter等のSNS、ニュース記事、ブログ記事などはマルチメディアデータが付与されているデータが豊富にあり、クローリングによって取得できる。また、訓練データセットはWebから取得したデータに限定されない。例えば、写真等の画像と文書を含む紙媒体（書籍、広告チラシ）をスキャンして、画像データと文書データのペアを取得してもよい。あるいは、テレビ番組の映像と字幕からテキストとマルチメディアのペアを取得してもよい。

[A-2]テキスト特徴の抽出
１つの態様では、第１特徴ベクトル及び第３特徴ベクトルは、Bag of words(BoW)を用いて抽出される。BoWは文書の特徴量を抽出するための一つの代表的な例示であって、BoW以外の非限定的な手法として、以下の手法が例示される。
TF-IDF特徴；
Word2vecによって得られた単語ベクトルを用いて文書における単語分すべて足し合わせて平均を取るなどの方法；
Paragraph2vecから得られた文書ベクトル；
N-gram言語モデルによる特徴；
BoWをLSI（Latent Semantic Indexing, LSA: Latent Semantic Analysisともいわれる）を使って次元削減したもの；
BoWをLDA（Latent Dirichlet Allocation）によって次元削減したもの。

[A-3]画像特徴の抽出
１つの態様では、第２特徴ベクトルは、畳込みニューラルネットワーク(CNN)を用いて抽出される。畳込みニューラルネットワーク(CNN)は、画像認識として最も成功している深層学習である（非特許文献１２〜１７）。CNNとしては、AlexNetやCaffeNet、GoogLeNet、VGG netを例示することができる。CNNは設計者によって様々な構造がある。CNNは学習をするときに正しく分類が行われるようにそれぞれの層を結合する重みを更新していく。つまり、学習済みニューラルネットワークは重みが定まっており、このニューラルネットワークに画像を入力するとそれぞれの重みを元に活性化関数の値が計算される。その結果を特徴量として使う。複数の層のどの層の値を使うかについては限定されない。ネットワークの最終層に近いあたりの層が一般的に良い特徴が得られると考えられるが、実験等において最良の層を選択し得ることが当業者に理解される。なお、本発明に用いられ得る第２特徴ベクトルとして、CNN以外の特徴量を排除するものではなく、例えば、フィッシャーベクトル、Bag of Features(Bag of Visual Words)等も含む。

[A-4]特徴ベクトルの次元縮約
１つの態様では、第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルを、次元縮約手段によって次元縮約してもよい。各特徴ベクトルの次元縮約は任意であるが、計算時間を考慮すると、データの規模が大きい場合には、次元縮約を行うことが望ましい。次元縮約手段としては、典型的には主成分分析（PCA）が例示されるが、独立成分分析(ICA)、LDAやLSIを用いてもよい。

[A-5]一般化正準相関分析(GCCA)
一般化正準相関分析は、２つの変数群を扱う正準相関分析を、３つ以上の変数群を扱うように一般化したものであり、複数のモダリティ間の相関の和を最大にするようにデータをマッピングすることができる。第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルを用いて一般化正準相関分析を行うことで、第２特徴ベクトルを媒介として第１特徴ベクトルと第３特徴ベクトルのマッピングを行う。

２つの変数群を扱う正準相関分析（CCA）を用いた学習やCLDRへの応用は知られている（非特許文献５〜１１）。GCCAは、ｍ個（本実施形態では、ｍ＝３）のモダリティ用の一般化CCAである。

GCCAの代表的な例には、非特許文献１（Carroll）、非特許文献２（Kettenring）、非特許文献３（Velden et al）、非特許文献４（Rupnik et al）に記載されたものが知られている。非特許文献４では、非特許文献２の手法（部分的に非特許文献１にも言及）が採用されている。後述する実験では、非特許文献２のGCCAを採用したが、本発明を実現するために他のGCCAを採用し得ることが当業者に理解される。

[A-6] 画像媒介型異言語間学習モデル
GCCAによって第１言語空間から正準空間への第１射影係数、第２言語空間から正準空間への第２射影係数が決定される。すなわち、異言語文書間の学習法によって得られた学習モデルにおいて、第１言語空間から正準空間への第１射影係数、第２言語空間から正準空間への第２射影係数が規定されている。第１言語文書から抽出された第１特徴ベクトルは、第１射影係数によって、第１射影特徴ベクトルに変換される。第２言語文書から抽出された第３特徴ベクトルは、第２射影係数によって、第３射影特徴ベクトルに変換される。第１射影特徴ベクトルと第３射影特徴ベクトルは、いわば共通空間ないしジョイント空間である正準空間（広義には、「潜在空間」）において対比させることができる。

[A-7]Few-Shot学習
本発明の一つの理想的な形は、一切の対訳コーパスなしに異言語間文書検索を実現するためのZero-Shot学習であるが、少量の対訳コーパスを用いたFew-Shot学習を実行してもよい。この場合、第１言語文書と第２言語文書のペア群からなる第３訓練データセットを用意し、第３訓練データセットにおいて、第１言語のテキストから第１特徴ベクトルを抽出し、第２言語のテキストから第３特徴ベクトルを抽出し、前記一般化正準相関分析において、さらに、第３訓練データセットから抽出された第１特徴ベクトル及び第３特徴ベクトルが用いられる。

[A-8]ハードウェア構成
本発明に係る学習システムは、一つあるいは複数のコンピュータから構成されており、当該コンピュータは、ハードウェアとしての処理手段（ＣＰＵ等）、記憶手段（ハードディスク、ＲＡＭ、ＲＯＭ等）、入力手段、出力手段ないし表示手段、ソフトウエアとしてのコンピュータを動作させる制御プログラム等を備えている。第１言語文書と画像のペア群からなる第１訓練データセット、第２言語文書と画像のペア群からなる第２訓練データセットは、記憶手段に格納されている。テキストデータから特徴を抽出する手段、画像データから特徴を抽出する手段は、処理手段から構成される。第１言語文書から抽出された第１特徴ベクトル、画像から抽出された第２特徴ベクトル、第２言語文書から抽出された第３特徴ベクトルは、記憶手段に格納される。一般化正準相関分析は、第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルを用いて、処理手段により実行され、一般化正準相関分析を行うことで、第２特徴ベクトルを媒介として第１特徴ベクトルと第３特徴ベクトルのマッピングが行われる。具体的には、第１言語空間から正準空間への第１射影係数、第２言語空間から正準空間への第２射影係数が算出され、この射影係数は記憶手段に記憶される。

[B]言語横断文書検索システムの概要
図４を参照しつつ、本発明に係る言語横断文書検索システムの概要を説明する。
[B-1]画像媒介型異言語間学習モデル
異言語文書間の学習法によって得られた学習モデルにおいて、第１言語空間から正準空間への第１射影係数、第２言語空間から正準空間への第２射影係数が規定されている。第１言語文書から抽出された第１特徴ベクトルは、第１射影係数によって、第１射影特徴ベクトルに変換される。第２言語文書から抽出された第３特徴ベクトルは、第２射影係数によって、第３射影特徴ベクトルに変換される。第１射影特徴ベクトルと第３射影特徴ベクトルの類似度から、第１言語文書と第２言語文書の類似度を推定することができる。

[B-2]検索
第１言語クエリ文書が検索システムに入力されると、入力されたテキストデータから第１特徴ベクトルが抽出される。抽出された第１特徴ベクトルを、第１射影係数を用いて正準空間に射影して第１射影特徴ベクトルを取得する。

一方、第２言語ターゲット文書候補から第３特徴ベクトルを抽出し、抽出された第３特徴ベクトルを、第２射影係数を用いて正準空間に射影して第３射影特徴ベクトルを取得する。なお、各第２言語文書に対応した第３射影特徴ベクトルが予め抽出されて記憶部に格納されており、予め記憶されている第３射影特徴ベクトルを用いて、次に述べる類似度を計算してもよい。

第１射影特徴ベクトルと第２射影特徴ベクトル間の類似度を用いてターゲット文書を決定する。類似度は、典型的にはベクトル間の距離によって表され、ユーグリッド距離、マハラノビス距離、マンハッタン距離が例示される。また、類似度として、コサイン類似度を用いてもよい。典型的には、最も類似度が大きい候補を第２言語ターゲット文書として出力する。あるいは、類似度が大きい複数の候補を第２言語ターゲット文書として出力してもよく、類似度に応じてランク付けして表示してもよい。

第２言語ターゲット文書候補をどのように設定するかについては、特に限定されない。１つの態様では、第１言語クエリ文書が入力された時点で入手可能な全ての第２言語文書が候補となる。例えば、第２言語のWebからのクローリングによって取得した全てのデータを対象としてもよい。

[B-3]ハードウェア構成
本発明に係る検索システムは、一つあるいは複数のコンピュータから構成されており、当該コンピュータは、ハードウェアとしての処理手段（ＣＰＵ等）、記憶手段（ハードディスク、ＲＡＭ、ＲＯＭ等）、入力手段、出力手段ないし表示手段、ソフトウエアとしてのコンピュータを動作させる制御プログラム等を備えている。ユーザ端末も、一つあるいは複数のコンピュータから構成されており、当該コンピュータは、処理手段、記憶手段、入力手段、出力手段ないし表示手段、コンピュータを動作させる制御プログラム等を備えている。

検索システムとユーザ端末は、インターネットに代表されるコンピュータネットワークを介して相互に情報のやり取りを可能とする送受信手段を備えており、インターネットに代表されるコンピュータネットワークを介して互いに通信可能に接続されている。検索システムは、インターネットに代表されるコンピュータネットワークを介して既存の検索エンジンに接続されている。ユーザ端末の画面には、例えば、クエリ画面が表示され、ユーザ端末の入力手段から第１言語のテキストデータを入力し、検索クエリとして検索システムへ送信する。なお、テキストデータ入力に代えてドキュメントのアップロードでもよく、また、検索システム側で自動的に似た文章を抽出して推薦したりする推薦システム等の場合にはユーザ側のインタラクションはなく、検索結果がユーザ端末に表示される。１つの態様では、複数の第２言語が選択可能となっており、１つあるいは複数の第２言語を指定する。検索システムでは、検索クエリに基づいて第２言語ターゲット文書候補との類似度を計算し、検索結果をユーザ端末から閲覧可能とする。

[C]実施例
[C-1]使用するデータ
本実施例において、表１に示す異データディビジョンを用いる。
[train-E/I]: 英語テキストと画像のペアからなる学習ドキュメント
[train-I/J]: 日本語テキストと画像のペアからなる学習ドキュメント
[train-E/J]: 英語テキストと日本語テキストのペアからなる学習ドキュメント
[test-E/J]: 英語テキストと日本語テキストのペアからなるテストドキュメント
各データディビジョンは重複していない。例えば、[train-E/I]における画像データと、[train-I/J]における画像データは異なる。

表１に示すように、各ディビジョンの各モダリティにはＩＤが定義されている。例えば、E1は、[train-E/I]ディビジョンにおける英文の特徴を表す。パラレルコーポラに基づく典型的なCLDRは、学習データとして[train-E/J]のみを用い、[test-E/J]を用いて評価を行う。本実験に係る[train-E/J]データを用いないZero-Shot学習シナリオでは、[train-E/I]と[train-I/J] のみを学習データとして用いる。Few-Shot学習シナリオでは、少しの[train-E/J]サンプルを用いる。本明細書において、これらの学習を合わせて画像媒介学習と呼ぶ。

[C-2]システムの概要図
実施例に係るシステムの概要図を図５に示す。英語、画像、日本語の３つの特徴量を用いて学習を行う。学習においては、英語テキストから第１特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出し、日本語から第３特徴ベクトルを抽出し、得られた特徴を主成分分析(PCA)によって次元縮約し、縮約された特徴をGCCAによって学習させる。

テストにおいては、クエリ日本語テキストから得られた特徴を主成分分析(PCA)によって次元縮約する。なお、図５の矢印が示しているとおり、PCA projectionで低次元に射影される係数は学習フェーズにおけるPCAで学習される。縮約された特徴をGCCAによって得られた第１射影係数を用いて射影し、一方、英語テキストから得られた特徴を主成分分析(PCA)によって次元縮約し、縮約された特徴をGCCAによって得られた第２射影係数を用いて射影し、ジョイント空間において、日本文から英文への最近傍探索を行う。

[C-3]画像特徴の抽出
画像の特徴は、畳込みニューラルネットワークを用いて抽出される。本実施例では、ILSVRC2012 dataset (非特許文献１５)を用いて事前学習されており、Caffe (非特許文献１６)に提供されるCNNモデルを適用する。実験では、GoogLeNet(非特許文献１７)のpool5/7x7 s1層の特徴量、VGG(非特許文献１３)のfc6層の特徴量、CaffeNet(非特許文献１６、非特許文献１８)のfc6層の特徴量を画像特徴ベクトルとして用いた。

[C-4]テキストの特徴
英語及び日本語のテキスト特徴としては、bag of words (BoW)及びTF-IDF（term frequency-inverse document frequency）による重み付けを用いた。形態素解析による日本文の単語への分割において、MeCab libraryを用いる（非特許文献１８）。実験では、stop wordの削除やstemmingのような前処理は行わなかったが、これらを行うのは任意である。

[C-5]一般化正準相関分析(GCCA)
GCCAを用いることで、複数のモダリティ間の相関の和を最大にするようにデータをマッピングすることができる（図６参照）。本実施例では、非特許文献２のGCCAを採用した。GCCAの計算自体は公知であり、また、以下に述べるGCCAは一例であって、本発明に用いられるGCCAを限定するものではない。
E、I、Jをそれぞれ、英文、画像、日本文とすると、特徴ベクトル
において、
は正準変数を表す。
ここで、X_kバーは、特徴ベクトルの平均である。
h_kは、射影係数である。
k∈{E, I, J}であり、各特徴ベクトルと、対応する射影係数と、から、正準変数（射影特徴ベクトル）を計算することができる。

GCCAは、最大化問題
を、拘束条件
のもとに解くことで式(1)が導出され、
射影係数h_kは、以下の一般化固有値問題を解くことによって、得られるモダリティの各ペアの相関の合計を最大化するようにして計算される。
ここで、
であり、
Σ_ijは、モダリティi,jの共分散マトリックスであって、i,j∈｛E,I,J｝である。Σ_EJはE₃とJ₃、Σ_IJはI₂とJ₂によって計算し、Σ_IIはI₁とI₂によって計算し、Σ_JJはJ₂とJ₃によって計算する。Σ_EJは、Σ_EIとΣ_IJと異なり、特別にZero-Shot学習の場合は訓練サンプル数が0になる場合があり、その場合は上記最大化問題に寄与しないため、結果的にΣ_EJは0 で埋まる。

正準軸は、以下のように標準化される。
また、過学習を防止するため、正則化項を加える。すなわち、
であり、αは正則化のパラメータである。

[C-5]ジョイント空間における最近傍探索
第１言語のクエリ文書が与えられた時に、他言語である第２言語の関連文書を探索するためには、ジョイント空間において、クエリ文書と候補文書の距離を計算すればよい。ジョイント空間における特徴ベクトル（射影特徴ベクトル）は、
を用いて算出することができ、h_kはGCCAによって取得される。

例えば、クエリ文書を日本語、ターゲット文書を英語とすると、ジョイント空間における最近傍は、以下の式で計算できる。
ここで、zⁱ _E,z^j _Jは、それぞれ、ターゲット文書、クエリ文書の射影特徴ベクトルであり、d(・)は距離関数である。本実施例では、距離関数はユーグリッド距離である。

[D]実験
[D-1]実験で用いたデータセット
UIUC Pascal Sentence Dataset (非特許文献１９)は、それぞれ内容を記述する５つの英文の注釈を備えた1000個の画像を有している。このデータセットは、画像からの文書の生成の研究のために作られたものであるが、本実施形態に係る画像媒介型CLDRに用いるため、各英文に対応する日本文の翻訳を用意した（図８参照）。本実験において、各画像に対応する５つの文章はまとめて一つのテキストデータとして取り扱う。よって、本セットアップでは、１０００個の文書からなるデータセットの各文書は、１つの画像、対応する英文テキスト、日本文テキストからなる。図６の概念図における各シンボルは、「５つの日本文から抽出された特徴ベクトル」、「１枚の画像から抽出された特徴ベクトル」、「５つの英文から抽出された特徴ベクトル」を表している。

[D-2]評価
表１における各データディビジョンから重複しないようランダムにデータを抽出した。 [train-E/I]、[train-I/J]のサンプルサイズを変化させて実験を行った。具体的には、サンプル数を、100、200、300、400とした。さらに、[train-E/J]のサンプル数を段階的に0から100まで増やして、Few-Shot学習シナリオを創出した。試験データ[test-E/J]のサイズは100に設定した。
このセットアップにしたがって、GCCAに基づく画像媒介型CLDRを実行し、[train-E/J]データのみを用いたCCAに基づく従来のCLDRの結果と比較した。

テストデータにおける第１番目の日本文→英文検索精度(the top-1Japanese to English retrieval accuracy)について性能を評価した。１００のテストサンプルが与えられた場合に、chance rateは１％である。各試行において、ランダムにデータを替えながら５０回のトライアルを行い、平均スコアを用いた。全ての特徴は、ＰＣＡによって１００次元に縮約され、また、αを0.01に設定した。

図９に示すように、実験結果から、Zero-Shot学習シナリオ、Few-Shot学習シナリオのいずれにおいても、テキスト−画像データの量が増えるにしたがって正確性が向上することがわかる。テキスト−画像データ量を増やすことでさらなる正確性の向上が期待できると考えられる。

Zero-Shot学習シナリオの結果（Zero-Shot学習の精度）を表３にまとめる。画像特徴は、GoogLeNetによって抽出され、テキスト特徴は、bag-of-words (BoW)及びTF-IDFを用いた。
図９に示すように、GCCAとCCAの両方において、[train-E/J]のサンプルサイズが増えることで性能が向上するが、予想され得ることであるが、サンプルサイズが英文テキストと日本文テキスト間で直接学習できる程度に大きくなると、CCAの性能がGCCAの性能を上回る。しかしながら、[train-E/J]のデータ量が少ない場合には、GCCAのCCAのベースラインを上回り、したがって、Zero-Shot学習シナリオにおいても、画像媒介型学習は有用である。

[D-3]画像特徴の効果
本実施形態における画像特徴の性能の効果について検証した（図１０、表４）。画像特徴として、以下のＣＮＮを用いて抽出された３つの異なる特徴を用いた。
GoogLeNet(非特許文献１７)のpool5/7x7 s1層の特徴量、
VGG(非特許文献１３)のfc6層の特徴量、
CaffeNet(非特許文献１６、非特許文献１８)のfc6層の特徴量

さらに、深層学習を用いた画像特徴の抽出の前に広く用いられていたフィッシャーベクトル(非特許文献２０)についてもテストを行った。フィッシャーベクトルについては、SIFT記述子(非特許文献２１)を主成分分析によって６４次元に縮約し、６４要素を用いた混合ガウス分布を用いた。最終の特徴抽出に４つの空間グリッドを用いた。

表４に、複数の画像特徴を用いたZero-Shot学習の精度を示す。[train-E/I]、 [train-I/J]のサンプルサイズは、４００である。テキスト特徴は、bag-of-words (BoW)及びTF-IDFを用いた。
各画像特徴を用いた場合の正確性の順序は、用いられた画像特徴について既知の性能の順序、具体的には、GoogLeNet→VGG net→CaffeNet→FisherVector
の順番で認識精度が高いこと（非特許文献１２）と一致した。画像媒介型CLDRにおいても同様の順位となったということは、より良い特徴量を使えば、画像媒介型CLDRにおいて高い検索精度が得られることを意味する。

Claims

第１言語文書と画像のペア群からなる第１訓練データセットを用意し、
第２言語文書と画像のペア群からなる第２訓練データセットを用意し、
第１訓練データセットにおいて、第１言語文書から第１特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出し、
第２訓練データセットにおいて、第２言語文書から第３特徴ベクトルを抽出し、画像から第２特徴ベクトルを抽出し、
第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルを用いて一般化正準相関分析を行うことで、第２特徴ベクトルを媒介として第１特徴ベクトルと第３特徴ベクトルのマッピングを行う、
画像を媒介した異言語文書間の学習法。
第１特徴ベクトル及び第３特徴ベクトルは、Bag of wordsを用いて抽出される、請求項１に記載の学習法。
第２特徴ベクトルは、畳込みニューラルネットワークを用いて抽出される、請求項１、２いずれか１項に記載の学習法。
第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルは次元縮約されている、請求項１〜３いずれか１項に記載の学習法。
前記第１訓練データセットは、第１言語のＷｅｂからのクローリングによって取得したマルチメディアデータを含み、
前記第２訓練データセットは、第２言語のＷｅｂからのクローリングによって取得したマルチメディアデータを含む、
請求項１〜４いずれか１項に記載の学習法。
さらに、第１言語文書と第２言語文書のペア群からなる第３訓練データセットを用意し、
第３訓練データセットにおいて、第１言語のテキストから第１特徴ベクトルを抽出し、第２言語のテキストから第３特徴ベクトルを抽出し、
前記一般化正準相関分析において、さらに、第３訓練データセットから抽出された第１特徴ベクトル及び第３特徴ベクトルを用いる、
請求項１〜５いずれか１項に記載の学習法。
第１言語文書と画像のペア群からなる第１訓練データセットと、
第２言語文書と画像のペア群からなる第２訓練データセットと、
第１言語文書から第１特徴ベクトルを抽出する第１特徴ベクトル抽出手段と、
画像から第２特徴ベクトルを抽出する第２特徴ベクトル抽出手段と、
第２言語文書から第３特徴ベクトルを抽出する第３特徴ベクトル抽出手段と、
一般化正準相関分析手段と、
を備え、
前記一般化正準相関分析手段が、第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルを用いて一般化正準相関分析を行うことで、第２特徴ベクトルを媒介として第１特徴ベクトルと第３特徴ベクトルのマッピングを行う、
画像を媒介した異言語文書間の学習装置。
第１特徴ベクトル抽出手段及び第３特徴ベクトル抽出手段は、Bag of wordsを取得するものである、請求項７に記載の学習装置。
第２特徴ベクトル抽出手段は、畳込みニューラルネットワークである、請求項７、８いずれか１項に記載の学習装置。
前記学習装置は、主成分分析手段を備え、
第１特徴ベクトル、第２特徴ベクトル、第３特徴ベクトルは、次元縮約手段によって次元縮約されている、請求項７〜９いずれか１項に記載の学習装置。
前記第１訓練データセットは、第１言語のＷｅｂからのクローリングによって取得したマルチメディアデータを含み、
前記第２訓練データセットは、第２言語のＷｅｂからのクローリングによって取得したマルチメディアデータを含む、
請求項７〜１０いずれか１項に記載の学習装置。
さらに、第１言語文書と第２言語文書のペア群からなる第３訓練データセットを備え、
前記一般化正準相関分析において、さらに、第３訓練データセットから抽出された第１特徴ベクトル及び第３特徴ベクトルを用いる、
請求項７〜１１いずれか１項に記載の学習装置。
請求項１〜６いずれか１項に記載の異言語文書間の学習法によって得られた学習モデルを用いた言語横断文書検索法であって、
前記学習モデルにおいて、第１言語空間から正準空間への第１射影係数、第２言語空間から正準空間への第２射影係数が規定されており、
第１言語クエリ文書から第１特徴ベクトルを抽出し、
抽出された第１特徴ベクトルを、第１射影係数を用いて正準空間に射影して第１射影特徴ベクトルを取得し、
第２言語ターゲット文書候補から第３特徴ベクトルを抽出し、
抽出された第３特徴ベクトルを、第２射影係数を用いて正準空間に射影して第３射影特徴ベクトルを取得し、
第１射影特徴ベクトルと第３射影特徴ベクトル間の類似度を用いてターゲット文書を決定する、
言語横断文書検索法。
請求項１〜６いずれか１項に記載の異言語文書間の学習法によって得られた学習モデルを用いた言語横断文書検索装置であって、
前記学習モデルにおいて、第１言語空間から正準空間への第１射影係数、第２言語空間から正準空間への第２射影係数が規定されており、
第１言語クエリ文書から第１特徴ベクトルを抽出する手段と、
抽出された第１特徴ベクトルを、第１射影係数を用いて正準空間に射影して第１射影特徴ベクトルを取得する手段と、
第２言語ターゲット文書候補から第３特徴ベクトルを抽出する手段と、
抽出された第３特徴ベクトルを、第２射影係数を用いて正準空間に射影して第３射影特徴ベクトルを取得する手段と、
第１射影特徴ベクトルと第３射影特徴ベクトル間の類似度を用いてターゲット文書を決定する手段と、
を備えた言語横断文書検索装置。