JP6491262B2

JP6491262B2 - モデル

Info

Publication number: JP6491262B2
Application number: JP2017102887A
Authority: JP
Inventors: 崇史宮崎; 伸幸清水
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2019-03-27
Anticipated expiration: 2036-04-26
Also published as: JP2017199383A

Description

本発明は、モデルに関する。

従来、複数のデータが有する共起性等の関連性をあらかじめ学習し、一部のデータが入力された場合には、入力されたデータと関係性を有する他のデータを出力する学習器を学習する学習技術が知られている。このような学習技術の一例として、言語と非言語との組を学習データとし、学習データが有する関係性を学習する学習技術が知られている。

特開２０１１−２２７８２５号公報

しかしながら、上述した学習技術では、学習データの数が少ない場合は、学習精度が悪化する恐れがある。

本願は、上記に鑑みてなされたものであって、学習データの数が少ない場合にも、学習精度の悪化を防ぐことを目的とする。

本願に係るモデルは、第１コンテンツと当該第１コンテンツとは種別が異なる第２コンテンツとの組が有する関係性を深層学習した学習済みモデルの一部を有し、前記第１コンテンツと、前記第２コンテンツとは異なる種別の第３コンテンツとの組が有する関係性の深層学習が行われたことを特徴とする。

実施形態の一態様によれば、学習精度の悪化を防ぐことができる。

図１は、実施形態に係る情報提供装置が実行する学習処理の一例を示す図である。図２は、実施形態に係る情報提供装置の構成例を示す図である。図３は、実施形態に係る第１学習データデータベースに登録される情報の一例を示す図である。図４は、実施形態に係る第２学習データデータベースに登録される情報の一例を示す図である。図５は、実施形態に係る情報提供装置が第１モデルの深層学習を行う処理の一例を説明する図である。図６は、実施形態に係る情報提供装置が第２モデルの深層学習を行う処理の一例を説明する図である。図７は、実施形態に係る情報提供装置による学習処理の結果の一例を示す図である。図８は、実施形態に係る情報提供装置が実行する学習処理のバリエーションを説明するための図である。図９は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。図１０は、ハードウェア構成の一例を示す図である。

以下に、本願に係る学習装置、学習方法、学習プログラムおよびモデルを実施するための形態（以下、「実施形態」と記載する。）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、学習方法、学習プログラムおよびモデルが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１−１．情報提供装置の一例〕
まず、図１を用いて、学習処理の一例である情報提供装置が実行する学習処理の一例について説明する。図１は、実施形態に係る情報提供装置が実行する学習処理の一例を示す図である。図１では、情報提供装置１０は、インターネット等の所定のネットワークＮを介して、所定のクライアントが使用するデータサーバ５０および端末装置１００と通信可能である。

情報提供装置１０は、後述する学習処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。また、データサーバ５０は、情報提供装置１０が後述する学習処理を実行する際に用いる学習データを管理する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。

端末装置１００は、スマートフォンやタブレット等のスマートデバイスであり、３Ｇ（3rd Generation）やＬＴＥ（Long Term Evolution）等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。なお、端末装置１００は、スマートデバイスのみならず、デスクトップＰＣ（Personal Computer）やノートＰＣ等の情報処理装置であってもよい。

〔１−２．学習データについて〕
ここで、データサーバ５０が管理する学習データについて説明する。データサーバ５０が管理する学習データは、種別が異なる複数のデータの組であり、例えば、画像や動画像等を含む第１コンテンツと、英語や日本語等の任意の言語で記述された文章を含む第２コンテンツとを組み合わせたデータである。より具体的な例を説明すると、学習データは、任意の撮像対象が撮影された画像と、画像がどのような画像であるか、画像中にどのような撮像対象が撮影されているか、どのような状態を撮影した画像であるか等といった画像の内容を説明する文章、すなわち、画像のキャプションとを対応付けたデータである。

このような画像とキャプションとを対応付けた学習データは、任意の機械学習に用いるため、ボランティア等といった任意の利用者によって作成および登録がなされている。また、このような学習データには、ある画像に対して、様々な観点から作成された複数のキャプションが対応付けられている場合があり、日本語、英語、中国語等、様々な言語で記載されたキャプションが対応付けられている場合もある。

なお、以下の説明では、学習データとして画像と様々な言語で記載されたキャプションとを用いる例について記載するが、実施形態は、これに限定されるものではない。例えば、学習データは、音楽や映画等のコンテンツと、対応付けられたコンテンツに対する利用者のレビューとを対応付けられたデータであってもよく、画像や動画像等のコンテンツと、対応付けられたコンテンツにマッチする音楽とを対応付けたデータであってもよい。すなわち、後述する学習処理は、第１のコンテンツと、第１のコンテンツとは異なる種別の第２コンテンツとを対応付けた学習データを用いるのであれば、任意のコンテンツを含む学習データを採用することが出来る。

〔１−３．学習処理の一例〕
ここで、情報提供装置１０は、データサーバ５０が管理する学習データを用いて、学習データに含まれる画像とキャプションとの関連性を深層学習させたモデルを生成する学習処理を実行する。すなわち、情報提供装置１０は、ニューラルネットワーク等、複数のノードを含む層を複数積み重ねたモデルをあらかじめ生成し、生成したモデルに学習モデルに含まれるコンテンツ同士が有する関係性（例えば、共起性等）を学習させる。このような深層学習を行ったモデルは、例えば、画像を入力した際に、入力された画像を説明するキャプションを出力したり、キャプションを入力した際に、キャプションが示す画像と類似する画像を検索または生成して出力したりすることが出来る。

ここで、深層学習においては、学習データが多ければ多い程、モデルによる学習結果の精度が向上する。しかしながら、学習データに含まれるコンテンツの種別によっては、学習データを十分に確保できない場合がある。例えば、画像と英語のキャプション（以下、「英文キャプション」と記載する。）とを対応付けた学習データについては、モデルによる学習結果の精度を十分に確保できる数が存在する。しかしながら、画像と日本語のキャプション（以下、「日文キャプション」と記載する。）とを対応付けた学習データの数は、画像と英文キャプションとを対応付けた学習データよりも少ない。このため、情報提供装置１０は、画像と日文キャプションとの関係性を精度よく学習させることが出来ない場合がある。

そこで、情報提供装置１０は、以下の学習処理を実行する。まず、情報提供装置１０は、第１コンテンツと第１コンテンツとは種別が異なる第２コンテンツとの組、すなわち、学習データが有する関係性を深層学習した第１モデルの一部を用いて、新たな第２モデルを生成する。そして、情報提供装置１０は、生成した第２モデルに、第１コンテンツと、第２コンテンツとは異なる種別の第３コンテンツとの組が有する関係性を深層学習させる。

〔１−４．学習処理の具体例〕
以下、図１を用いて、情報提供装置１０が実行する学習処理の一例を説明する。まず。、情報提供装置１０は、データサーバ５０から、学習データを収集する（ステップＳ１）。より具体的には、情報提供装置１０は、画像と英文キャプションとを対応付けた学習データ（以下、「第１学習データ」と記載する。）、および、画像と日文キャプションとを対応付けた学習データ（以下、「第２学習データ」と記載する。）を取得する。続いて、情報提供装置１０は、第１学習データを用いて、画像と英文キャプションとの関係性を第１モデルに深層学習させる（ステップＳ２）。以下、情報提供装置１０が第１モデルの深層学習を行う処理の一例を説明する。

〔１−４−１．学習モデルの一例〕
まず、情報提供装置１０が生成する第１モデルＭ１０および第２モデルＭ２０の構成について説明する。例えば、情報提供装置１０は、図１に示すような構成を有する第１モデルＭ１０を生成する。具体的には、情報提供装置１０は、画像学習モデルＬ１１、画像特徴入力層Ｌ１２、言語入力層Ｌ１３、特徴学習モデルＬ１４、および言語出力層Ｌ１５（以下、「各層Ｌ１１〜Ｌ１５」と記載する場合がある。）を有する第１モデルＭ１０を生成する。

画像学習モデルＬ１１は、画像Ｄ１１が入力されると、画像Ｄ１１に撮像された物体が何であるかや、撮像された物体の数、画像Ｄ１１の色彩や雰囲気等といった画像Ｄ１１の特徴を抽出するモデルであり、例えば、ＤＮＮ（Deep Neural Network）により実現される。より具体的な例を示すと、画像学習モデルＬ１１は、ＶＧＧＮｅｔ（Visual Geometry Group Network）と呼ばれる画像分類のための畳み込みネットワークを用いたものである。このような画像学習モデルＬ１１は、画像が入力されると、入力された画像をＶＧＧＮｅｔに入力し、ＶＧＧＮｅｔが有する出力層ではなく、所定の中間層の出力を画像特徴入力層Ｌ１２に出力する。すなわち、画像学習モデルＬ１１は、画像Ｄ１１に含まれる撮像対象の認識結果ではなく、画像Ｄ１１の特徴を示す出力を画像特徴入力層Ｌ１２に出力する。

画像特徴入力層Ｌ１２は、画像学習モデルＬ１１の出力を特徴学習モデルＬ１４に入力するための変換を行う。例えば、画像特徴入力層Ｌ１２は、画像学習モデルＬ１１の出力から、画像学習モデルＬ１１がどのような特徴を抽出したかを示す信号を特徴学習モデルＬ１４に出力する。なお、画像特徴入力層Ｌ１２は、例えば、画像学習モデルＬ１１と特徴学習モデルＬ１４とを接続する単一の層であってもよく、複数の層であってもよい。

言語入力層Ｌ１３は、英文キャプションＤ１２に含まれる言語を特徴学習モデルＬ１４に入力するための変換を行う。例えば、言語入力層Ｌ１３は、英文キャプションＤ１２の入力を受付けると、入力された英文キャプションＤ１２にどのような単語がどのような順番で含まれているかを示す信号に変換し、変換後の信号を特徴学習モデルＬ１４に出力する。例えば、言語入力層Ｌ１３は、英文キャプションＤ１２に含まれる単語を示す信号を、各単語が英文キャプションＤ１２に含まれる順番で特徴学習モデルＬ１４に出力する。すなわち、言語入力層Ｌ１３は、英文キャプションＤ１２の入力を受付けると、受付けた英文キャプションＤ１２の内容を特徴学習モデルＬ１４に出力する。

特徴学習モデルＬ１４は、画像Ｄ１１と英文キャプションＤ１２との関係性、すなわち、第１学習データＤ１０に含まれるコンテンツの組の関係性を学習するモデルであり、例えばＬＳＴＭ（Long Short-Term Memory）等といったリカレントニューラルネットワークにより実現される。例えば、特徴学習モデルＬ１４は、画像特徴入力層Ｌ１２が出力した信号、すなわち、画像Ｄ１１の特徴を示す信号の入力を受付ける。続いて、特徴学習モデルＬ１４は、言語入力層Ｌ１３が出力した信号の入力を順番に受け付ける。すなわち、特徴学習モデルＬ１４は、英文キャプションＤ１２に含まれる各単語を示す信号の入力を、各単語が英文キャプションＤ１２に出現する順序で受付ける。そして、特徴学習モデルＬ１４は、入力された画像Ｄ１１と英文キャプションＤ１２との内容に応じた信号を言語出力層Ｌ１５に出力する。より具体的には、特徴学習モデルＬ１４は、出力される文章に含まれる単語を示す信号を、各単語が出力される文章に含まれる順序で出力する。

言語出力層Ｌ１５は、特徴学習モデルＬ１４が出力した信号に基づいて、所定の文章を出力するモデルであり、例えば、ＤＮＮにより実現される。例えば、言語出力層Ｌ１５は、特徴学習モデルＬ１４が順に出力した信号から、出力される文章を生成して出力する。

〔１−４−２．第１モデルの学習例〕
ここで、このような構成を有する第１モデルＭ１０は、例えば、画像Ｄ１１と英文キャプションＤ１２との入力を受付けると、第１コンテンツである画像Ｄ１１から抽出した特徴と、第２コンテンツである英文キャプションＤ１２の内容とに基づいて、英文キャプションＤ１３を出力する。そこで、情報提供装置１０は、英文キャプションＤ１３の内容が、英文キャプションＤ１２の内容と近づくように、第１モデルＭ１０の全体を最適化する学習処理を実行する。この結果、情報提供装置１０は、第１モデルＭ１０に対し、第１学習データＤ１０が有する関係性を深層学習させることが出来る。

例えば、情報提供装置１０は、バックプロパゲーション等といった深層学習に用いられる最適化の技術を用いて、第１モデルＭ１０に含まれるノード間の接続係数を、出力側のノードから入力側のノードへと順に修正することで、第１モデルＭ１０全体の最適化を行う。なお、第１モデルＭ１０の最適化は、バックプロパゲーションに限定されるものではない。例えば、情報提供装置１０は、特徴学習モデルＬ１４がＳＶＭ（Support Vector Machine）により実現される場合には、異なる最適化の手法を用いて、第１モデルＭ１０全体の最適化を行えばよい。

〔１−４−３．第２モデルの生成例〕
ここで、第１学習データＤ１０が有する関係性を学習するように第１モデルＭ１０全体の最適化が行われた場合には、画像学習モデルＬ１１や画像特徴入力層Ｌ１２は、第１モデルＭ１０が画像Ｄ１１と英文キャプションＤ１２との関係性を精度よく学習できるように、画像Ｄ１１から特徴を抽出しようとすると考えられる。例えば、画像学習モデルＬ１１や画像特徴入力層Ｌ１２には、画像Ｄ１１に含まれる撮像対象と英文キャプションＤ１２に含まれる単語との対応関係の特徴を特徴学習モデルＬ１４が精度よく学習できるようなバイアスが形成されるものと考えられる。

より具体的には、図１に示す構造の第１モデルＭ１０においては、画像学習モデルＬ１１は画像特徴入力層Ｌ１２に接続され、画像特徴入力層Ｌ１２は、特徴学習モデルＬ１４に接続される。このような構成を有する第１モデルＭ１０の全体を最適化した場合、画像特徴入力層Ｌ１２および画像学習モデルＬ１１には、特徴学習モデルＬ１４によって深層学習された内容、すなわち、画像Ｄ１１の被写体と、英文キャプションＤ１２に含まれる単語の意味との関係性がある程度反映されると考えられる。

一方、英語と日本語とでは、文章の意味が同じであっても、文法（すなわち、単語の出現順序）が異なる。このため、情報提供装置１０は、言語入力層Ｌ１３、特徴学習モデルＬ１４、言語出力層Ｌ１５をそのまま使用しても、画像と日文キャプションとの関係を上手く抽出できるとは限らない。

そこで、情報提供装置１０は、第１モデルＭ１０の一部を用いて、第２モデルＭ２０を生成し、第２学習データＤ２０に含まれる画像Ｄ１１と日文キャプションＤ２２との関係性を学習させる。より具体的には、情報提供装置１０は、第１モデルＭ１０のうち、画像学習モデルＬ１１と画像特徴入力層Ｌ１２とを含む画像学習部分を抽出し、抽出した画像学習部分を含む新たな第２モデルＭ２０を生成する（ステップＳ３）。

すなわち、第１モデルＭ１０は、第１コンテンツである画像Ｄ１１の特徴を抽出する画像学習部分と、第２コンテンツである英文キャプションＤ１２の入力を受付ける言語入力層Ｌ１３と、画像学習部分および言語入力層Ｌ１３の出力に基づいて、英文キャプションＤ１２と同じ内容の英文キャプションＤ１３を出力する特徴学習モデルＬ１４および言語出力層Ｌ１５を有する。そして、情報提供装置１０は、第１モデルＭ１０のうち、少なくとも画像学習部分を用いて、新たな第２モデルＭ２０を生成する。

より具体的には、情報提供装置１０は、第１モデルＭ１０の画像学習部分に、新たな言語入力層Ｌ２３、新たな特徴学習モデルＬ２４、および新たな言語出力層Ｌ２５を付加することで、第１モデルＭ１０と同様の構成を有する第２モデルＭ２０を生成する。すなわち、情報提供装置１０は、第１モデルＭ１０の一部に対して、新たな部分の追加又は削除を行った第２モデルＭ２０を生成する。

そして、情報提供装置１０は、画像と日文キャプションとの関係性を第２モデルＭ２０に深層学習させる（ステップＳ４）。例えば、情報提供装置１０は、第２学習データＤ２０が有する画像Ｄ１１と日文キャプションＤ２２とを第２モデルＭ２０に入力し、第２モデルＭ２０が出力する日文キャプションＤ２３が日文キャプションＤ２２と同じになるように、第２モデルＭ２０の全体を最適化する。

ここで、第２モデルＭ２０の生成に用いた第１モデルＭ１０の画像学習部分には、特徴学習モデルＬ１４の学習内容、すなわち、画像Ｄ１１の被写体と英文キャプションＤ１２に含まれる単語の意味との関係性がある程度反映されている。このため、このような画像学習部分を含む第２モデルＭ２０を用いて、第２学習データＤ２０が有する画像Ｄ１１と日文キャプションＤ２２との関係性を学習した場合、第２モデルＭ２０は、画像Ｄ１１に含まれる被写体と日文キャプションＤ２２に含まれる単語の意味との対応をより早く（精度よく）学習すると考えられる。このため、情報提供装置１０は、第２学習データＤ２０を十分な数だけ確保できない場合であっても、第２モデルＭ２０に画像Ｄ１１と日文キャプションＤ２２との関係性を精度よく学習させることが出来る。

〔１−５．提供処理の一例〕
ここで、情報提供装置１０が学習した第２モデルＭ２０は、画像Ｄ１１と日文キャプションＤ２２との共起性を学習しているため、例えば、他の画像のみが入力された際に、入力された画像と共起する日文キャプション、すなわち、入力された画像を示す日文キャプションを自動生成することが出来る。そこで、情報提供装置１０は、第２モデルＭ２０を用いて、日文キャプションを自動生成して提供するサービスを実現してもよい。

例えば、情報提供装置１０は、利用者Ｕ０１が使用する端末装置１００から処理対象となる画像を受付ける（ステップＳ５）。このような場合、情報提供装置１０は、端末装置１００から受付けた画像を第２モデルＭ２０に入力し、第２モデルが出力した日文キャプション、すなわち、端末装置１００から受付けた画像を示す日文キャプションＤ２３を端末装置１００へと出力する（ステップＳ６）。この結果、情報提供装置１０は、利用者Ｕ０１から受け取った画像に対して日文キャプションＤ２３を自動的に生成して出力するサービスを提供することが出来る。

〔１−６．第１モデルの生成について〕
上述した例では、情報提供装置１０は、データサーバ５０から収集した第１学習データＤ１０の一部を用いて、第２モデルＭ２０を生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、第１学習データＤ１０に含まれる画像Ｄ１１と英文キャプションＤ１２との関係性を学習済みの第１モデルＭ１０を任意のサーバから取得し、取得した第１モデルＭ１０の一部を用いて、第２モデルＭ２０を生成してもよい。

また、情報提供装置１０は、第１モデルＭ１０のうち、画像学習モデルＬ１１のみを用いて第２モデルＭ２０を生成してもよい。また、情報提供装置１０は、画像特徴入力層Ｌ１２が複数の層を有する場合、全ての層を用いて第２モデルＭ２０を生成してもよく、例えば、画像学習モデルＬ１１からの出力を受付ける入力層から所定の数の層、または、特徴学習モデルＬ２４へ信号を出力する出力層から所定の数の層を用いて、第２モデルＭ２０を生成してもよい。

また、第１モデルＭ１０および第２モデルＭ２０（以下、「各モデル」と記載する場合がある。）が有する構造は、図１に示す構造に限定されるものではない。すなわち、情報提供装置１０は、第１学習データＤ１０の関係性や、第２学習データＤ２０の関係性を深層学習することが出来るのであれば、任意の構造を有するモデルの生成を行ってもよい。例えば、情報提供装置１０は、第１モデルＭ１０として、全体として１つのＤＮＮを生成し、第１学習データＤ１０の関係性を学習する。そして、情報提供装置１０は、第１モデルＭ１０のうち、画像Ｄ１１の入力を受付けるノードを基準とした所定の範囲のノードを画像学習部分として抽出し、抽出した画像学習部分を含む第２モデルＭ２０を新たに生成してもよい。

〔１−７．学習データについて〕
ここで、上述した説明では、情報提供装置１０は、画像と英文または日文のキャプション（文章）との関係性を各モデルに深層学習させた。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報提供装置１０は、任意の種別のコンテンツを含む学習データについて上述した学習処理を実行して良い。より具体的には、情報提供装置１０は、任意の種別と第１コンテンツと、第１コンテンツとは異なる第２コンテンツとの組である第１学習データＤ１０の関係性を第１モデルＭ１０に深層学習させ、第１モデルＭ１０の一部から第２モデルＭ２０を生成し、第１コンテンツと第２コンテンツとは種別が異なる（例えば、言語が異なる）第３コンテンツとの組である第２学習データＤ２０の関係性を第２モデルＭ２０に学習させるのであれば、任意の種別のコンテンツを適用可能である。

例えば、情報提供装置１０は、非言語に関する第１コンテンツと言語に関する第２コンテンツとの組が有する関係性を第１モデルＭ１０に深層学習させ、第１モデルＭ１０の一部を用いて、新たな第２モデルＭ２０を生成し、第１コンテンツと、第２コンテンツとは異なる言語に関する第３コンテンツとの組が有する関係性を第２モデルＭ２０に深層学習させてもよい。また、このような第２コンテンツや第３コンテンツは、第１コンテンツが画像や動画像である場合は、第１コンテンツの説明を含む文章、すなわち、キャプションであってもよい。

〔２．情報提供装置の構成〕
以下、上記した学習処理を実現する情報提供装置１０が有する機能構成の一例について説明する。図２は、実施形態に係る情報提供装置の構成例を示す図である。図２に示すように、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、端末装置１００やデータサーバ５０との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、第１学習データデータベース３１、第２学習データデータベース３２、第１モデルデータベース３３、および第２モデルデータベース３４を記憶する。

第１学習データデータベース３１には、第１学習データＤ１０が登録される。例えば、図３は、実施形態に係る第１学習データデータベースに登録される情報の一例を示す図である。図３に示すように、第１学習データデータベース３１には、「画像」および「英文キャプション」といった項目を有する情報、すなわち、第１学習データＤ１０が登録される。なお、図３に示す例では、第１学習データＤ１０として「画像＃１」や「英文＃１」といった概念的な値を記載したが、実際には、各種の画像データや、英語で記載された文章等が登録されることとなる。

例えば、図３に示す例では、画像「画像＃１」に英文キャプション「英文＃１」と英文キャプション「英文＃２」とが対応付けられている。このような情報は、画像「画像＃１」のデータとともに、英語による画像「画像＃１」のキャプションである、英文キャプション「英文＃１」と英文キャプション「英文＃２」とが対応付けて登録されている旨を示す。

第２学習データデータベース３２には、第２学習データＤ２０が登録される。例えば、図４は、実施形態に係る第２学習データデータベースに登録される情報の一例を示す図である。図４に示すように、第２学習データデータベース３２には、「画像」および「日文キャプション」といった項目を有する情報、すなわち、第２学習データＤ２０が登録される。なお、図４に示す例では、第２学習データＤ２０として「画像＃１」や「日文＃１」といった概念的な値を記載したが、実際には、各種の画像データや、日本語で記載された文章等が登録されることとなる。

例えば、図４に示す例では、画像「画像＃１」に日文キャプション「日文＃１」と日文キャプション「日文＃２」とが対応付けられている。このような情報は、画像「画像＃１」のデータとともに、日本語による画像「画像＃１」のキャプションである、日文キャプション「日文＃１」と日文キャプション「日文＃２」とが対応付けて登録されている旨を示す。

図２に戻り、説明を続ける。第１モデルデータベース３３には、第１学習データＤ１０の関係性を深層学習させた第１モデルＭ１０のデータが登録される。例えば、第１モデルデータベース３３には、第１モデルＭ１０の各層Ｌ１１〜Ｌ１５に配置されたノードを示す情報や、ノード間の接続係数を示す情報が登録される。

第２モデルデータベース３４には、第２学習データＤ２０の関係性を深層学習させた第２モデルＭ２０のデータが登録される。例えば、第２モデルデータベース３４には、第２モデルＭ２０に含まれる画像学習モデルＬ１１、画像特徴入力層Ｌ１２、言語入力層Ｌ２３、特徴学習モデルＬ２４、および言語出力層Ｌ２５に配置されたノードを示す情報や、ノード間の接続係数を示す情報が登録される。

制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

図２に示すように、制御部４０は、収集部４１、第１モデル学習部４２、第２モデル生成部４３、第２モデル学習部４４、および情報提供部４５を有する。収集部４１は、学習データＤ１０、Ｄ２０の収集を行う。例えば、収集部４１は、データサーバ５０から、第１学習データＤ１０を収集し、収集した第１学習データＤ１０を第１学習データデータベース３１に登録する。また、収集部４１は、データサーバ５０から、第２学習データＤ２０を収集し、収集した第２学習データＤ２０を第２学習データデータベース３２に登録する。

第１モデル学習部４２は、第１学習データデータベース３１に登録された第１学習データＤ１０を用いて、第１モデルＭ１０の深層学習を実行する。より具体的には、第１モデル学習部４２は、図１に示した構造を有する第１モデルＭ１０を生成し、生成した第１モデルＭ１０に第１学習データＤ１０を入力する。そして、第１モデル学習部４２は、第１モデルＭ１０が出力する英文キャプションＤ１３と、入力された第１学習データＤ１０に含まれる英文キャプションＤ１２とが同じ内容になるように、第１モデルＭ１０の全体を最適化する。なお、第１モデル学習部４２は、第１学習データデータベース３１に含まれる複数の第１学習データＤ１０について、上述した最適化を実行し、全体の最適化がなされた第１モデルＭ１０を第１モデルデータベース３３に登録する。なお、第１モデル学習部４２が第１モデルＭ１０の最適化に用いる処理については、深層学習に関する任意の手法が採用可能であるものとする。

第２モデル生成部４３は、第１コンテンツと第１コンテンツとは種別が異なる第２コンテンツとの組が有する関係性を深層学習した第１モデルＭ１０の一部を用いて、新たな第２モデルＭ２０を生成する。具体的には、第２モデル生成部４３は、第１モデルＭ１０として、画像等の非言語に関する第１コンテンツと、言語に関する第２コンテンツとの組が有する関係性を深層学習した第１モデルＭ１０の一部を用いて、新たな第２モデルＭ２０を生成する。より詳細には、第２モデル生成部４３は、静止画像や動画像に関する第１コンテンツと、第１コンテンツの説明を含む文章、すなわち、英文キャプションに関する第２コンテンツとの組が有する関係性を深層学習した第１モデルＭ１０の一部を用いて、新たな第２モデルＭ２０を生成する。

例えば、第２モデル生成部４３は、第１モデルＭ１０のうち、入力された画像等の第１コンテンツの特徴を抽出する画像学習モデルＬ１１や、画像学習モデルＬ１１の出力を特徴学習モデルＬ１４に入力する画像特徴入力層Ｌ１２を含む第２モデルＭ２０を生成する。ここで、第２モデル生成部４３は、少なくとも、画像学習モデルＬ１１を含む第２モデルＭ２０を新たに生成すればよい。また、例えば、第２モデル生成部４３は、第１モデルＭ１０のうち、画像学習モデルＬ１１や画像特徴入力層Ｌ１２の部分以外の部分を削除し、新たな言語入力層Ｌ２３、新たな特徴学習モデルＬ２４、新たな言語出力層Ｌ２５を追加した第２モデルＭ２０を生成してもよい。そして、第２モデル生成部４３は、生成した第２モデルを第２モデルデータベース３４に登録する。

第２モデル学習部４４は、第２モデルＭ２０に、第１コンテンツと、第２コンテンツとは異なる種別の第３コンテンツとの組が有する関係性を深層学習させる。例えば、第２モデル学習部４４は、第２モデルデータベース３４から第２モデルを読み出す。そして、第２モデル学習部４４は、第２学習データデータベース３２に登録された第２学習データＤ２０を用いて、第２モデルの深層学習を行う。具体的には、第２モデル学習部４４は、第２モデルＭ２０に、画像等の第１コンテンツと、第２コンテンツとは異なる言語に関するコンテンツであって、対応付けられた画像等の第１コンテンツを説明するコンテンツ、すなわち、第１コンテンツのキャプションである第３コンテンツとの組が有する関係性を深層学習させる。例えば、第２モデル学習部４４は、第１学習データＤ１０に含まれる英文キャプションＤ１２とは異なる言語に関する日文キャプションＤ２２と、画像Ｄ１１との関係性を第２モデルＭ２０に学習させる。

また、第２モデル学習部４４は、第２学習データＤ２０を第２モデルＭ２０に入力した際に、第２モデルＭ２０が出力する文章、すなわち、日文キャプションＤ２３が、第２学習データＤ２０に含まれる日文キャプションＤ２２と同じになるように、第２モデルＭ２０の全体を最適化する。例えば、第２モデル学習部４４は、画像Ｄ１１を画像学習モデルＬ１１に入力し、日文キャプションＤ２２を言語入力層Ｌ２３に入力するとともに、言語出力層Ｌ２５が出力した日文キャプションＤ２３が日文キャプションＤ２２と同じになるように、バックプロパゲーション等の最適化を行う。そして、第２モデル学習部４４は、深層学習を行った第２モデルＭ２０を第２モデルデータベース３４に登録する。

情報提供部４５は、第２モデル学習部４４によって深層学習が行われた第２モデルＭ２０を用いて、各種の情報提供処理を実行する。例えば、情報提供部４５は、端末装置１００から画像を受付けると、受付けた画像を第２モデルＭ２０に入力し、第２モデルＭ２０が出力した日文キャプションＤ２３を、受付けた画像に対する日本語のキャプションとして、端末装置１００に送信する。

〔３．各モデルの学習について〕
次に、図５、図６を用いて、情報提供装置１０が第１モデルＭ１０および第２モデルＭ２０の深層学習を行う処理の具体例について説明する。まず、図５を用いて、第１モデルＭ１０の深層学習を行う処理の具体例について説明する。図５は、実施形態に係る情報提供装置が第１モデルの深層学習を行う処理の一例を説明する図である。

例えば、図５に示す例では、画像Ｄ１１には、２本の木と１頭の象とが撮像されている。また、図５に示す例では、英文キャプションＤ１２には、画像Ｄ１１の説明として、「ａｎｅｌｅｐｈａｎｔｉｓ・・・」といった英語の文章が含まれている。このような画像Ｄ１１および英文キャプションＤ１２を含む第１学習データＤ１０の関係性を学習する場合、情報提供装置１０は、図５に示す深層学習を実行する。まず情報提供装置１０は、画像Ｄ１１を画像学習モデルＬ１１であるＶＧＧＮｅｔに入力する。このような場合、ＶＧＧＮｅｔは、画像Ｄ１１の特徴を抽出し、抽出した特徴を示す信号を画像特徴入力層Ｌ１２であるＷｉｍに出力する。

なお、ＶＧＧＮｅｔは、画像Ｄ１１に含まれる撮像対象を示す信号を出力するモデルであるが、情報提供装置１０は、ＶＧＧＮｅｔの中間層の出力をＷｉｍへと出力することで、画像Ｄ１１の特徴を示す信号をＷｉｍへと出力することが出来る。このような場合、Ｗｉｍは、ＶＧＧＮｅｔから入力された信号を変換し、特徴学習モデルＬ１４であるＬＳＴＭに入力する。より具体的には、Ｗｉｍは、画像Ｄ１１から抽出された特徴がどのような特徴であるかを示す信号をＬＳＴＭへと出力する。

一方、情報提供装置１０は、英文キャプションＤ１２に含まれる英語の各単語を、言語入力層Ｌ１３であるＷｅへと入力する。このような場合、Ｗｅは、入力された単語を示す信号を、英文キャプションＤ１２中に各単語が出現する順に、ＬＳＴＭへと入力する。この結果、ＬＳＴＭは、画像Ｄ１１の特徴を学習した後に、英文キャプションＤ１２に含まれる単語を各単語が出現する順に学習することとなる。

このような場合、ＬＳＴＭは、学習内容に応じた複数の出力信号を言語出力層Ｌ１５であるＷｄへと出力することとなる。ここで、ＬＳＴＭから出力される出力信号の内容は、入力された画像Ｄ１１の内容、英文キャプションＤ１２に含まれる単語、および単語が出現する順序によって変化する。そして、Ｗｄは、ＬＳＴＭから順に出力された出力信号を順に単語へと変換することで、出力文章である英文キャプションＤ１３を出力する。例えば、Ｗｄは、「ａｎ」、「ｅｌｅｐｆｈａｎｔ」、「ｉｓ」といった英単語を順に出力する。

ここで、情報提供装置１０は、出力文章である英文キャプションＤ１３に含まれる単語と、各単語の出現順序が、英文キャプションＤ１２に含まれる単語と、各単語の出現順序とが同じになるように、Ｗｄ、ＬＳＴＭ、Ｗｉｍ、Ｗｅ、およびＶＧＧＮｅｔをバックプロパゲーションにより最適化する。この結果、ＶＧＧＮｅｔおよびＷｉｍには、ＬＳＴＭが学習した画像Ｄ１１と英文キャプションＤ１２との関係性の特徴がある程度反映されることとなる。例えば、図５に示す例では、画像Ｄ１１に撮像された「象」と、単語「ｅｌｅｐｈａｎｔ」の意味との対応関係がある程度反映されることとなる。

続いて、情報提供装置１０は、図６に示すように、第２モデルＭ２０の深層学習を行う。図６は、実施形態に係る情報提供装置が第２モデルの深層学習を行う処理の一例を説明する図である。なお、図６に示す例では、日文キャプションＤ２２には、画像Ｄ１１の説明として、「一頭の象・・・」といった日本語の文章が含まれているものとする。

例えば、情報提供装置１０は、画像学習モデルＬ１１を画像学習モデルＬ２１とし、画像特徴入力層Ｌ１２を画像特徴入力層Ｌ２２として有し、第１モデルＭ１０と同様の構成を有する第２モデルＭ２０を生成する。そして、情報提供装置１０は、画像Ｄ１１をＶＧＧＮｅｔに入力するとともに、日文キャプションＤ２２に含まれる各単語を順にＷｅへと入力する。このような場合、ＬＳＴＭは、画像Ｄ１１と日文キャプションＤ２２との関係性を学習し学習結果をＷｄへと出力する。そして、Ｗｄは、ＬＳＴＭの学習結果を日本語の単語に変換して順に出力する。この結果、第２モデルＭ２０は、出力文章として、日文キャプションＤ２３を出力する。

ここで、情報提供装置１０は、出力文章である日文キャプションＤ２３に含まれる単語と、各単語の出現順序が、日文キャプションＤ２２に含まれる単語と、各単語の出現順序とが同じになるように、Ｗｄ、ＬＳＴＭ、Ｗｉｍ、Ｗｅ、およびＶＧＧＮｅｔをバックプロパゲーションにより最適化する。しかしながら、図６に示すＶＧＧＮｅｔとＷｉｍには、画像Ｄ１１に撮像された「象」と、単語「ｅｌｅｐｈａｎｔ」の意味との対応関係がある程度反映されることとなる。ここで、単語「ｅｌｅｐｈａｎｔ」の意味は、単語「象」の意味と同一であると予測される。このため、多くの第２学習データＤ２０を要せずとも、第２モデルＭ２０は、画像Ｄ１１に撮像された「象」と、単語「象」との対応を学習することが出来ると考えられる。

また、このように、第１モデルＭ１０の一部を用いて第２モデルＭ２０を生成した場合、第１学習データＤ１０には十分な数が含まれているが、第２学習データＤ２０にはあまり含まれていない関係性を学習することが出来る。例えば、図７は、実施形態に係る情報提供装置による学習処理の結果の一例を示す図である。

図７に示す例には、画像Ｄ１１に、「Ａｎｅｌｅｐｈａｎｔｉｓ・・・」等といった英文キャプションＤ１２や、「ＴｗｏＴｒｅｅｓａｒｅ・・・」等といった英文キャプションＤ１３が対応付けられた第１学習データＤ１０が存在するものとする。また、図７に示す例では、画像Ｄ１１に、「一頭の象が・・・」等といった日文キャプションＤ２３が対応付けられた第２学習データＤ２０が存在するものとする。

このような第１学習データＤ１０を用いて、第１モデルＭ１０を学習した場合、第１モデルＭ１０に含まれる画像学習部分には画像Ｄ１１に含まれる象と単語「ｅｌｅｐｈａｎｔ」の意味との対応のみならず、画像Ｄ１１に含まれる複数の木と単語「Ｔｒｅｅｓ」の意味との対応がある程度反映されることとなる。このため、第１モデルＭ１０の画像学習部分を有する第２モデルＭ２０では、２本の木が撮像された写真である画像Ｄ１１に対して英文の「ＴｗｏＴｒｅｅｓ」が示す概念がマッピングされているので、「２本の木」という日本語の文章をマッピングしやすくなる。このため、第２モデルＭ２０は、例えば、「２本の木が・・・」等というように、画像Ｄ１１に撮像された木に着目した日文キャプションＤ２４が十分に存在しない場合であっても、画像Ｄ１１と日文キャプションＤ２４との関係性を精度よく学習することができる。また、例えば、英文キャプションＤ１３のように、木に着目した英文キャプションが十分に存在する場合には、木に着目した日文キャプションＤ２４が存在しない場合であっても、画像Ｄ１１が入力された際に木に着目した日文キャプションを出力する第２モデルＭ２０を生成することが出来る可能性がある。

〔４．変形例〕
上記では、情報提供装置１０による学習処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０が実行する学習処理のバリエーションについて説明する。

〔４−１．モデルに学習させるコンテンツの種別について〕
上述した例では、情報提供装置１０は、画像Ｄ１１と言語である英文キャプションＤ１２との関係性を深層学習した第１モデルＭ１０の一部を用いて、第２モデルＭ２０を生成し、英文キャプションＤ１２とは異なる言語の日文キャプションＤ２２と画像Ｄ１１との関係性を深層学習させた。しかしながら、実施形態は、これに限定されるものではない。

例えば、情報提供装置１０は、動画像と英文キャプションとの関係性を第１モデルＭ１０に深層学習させ、動画像と日文キャプションとの関係性を第２モデルＭ２０に学習させてもよい。また、情報提供装置１０は、画像や動画像と、中国語、フランス語、ドイツ語といった任意の言語のキャプションとの関係性を第２モデルＭ２０に学習させてもよい。また、情報提供装置１０は、キャプション以外にも、小説やコラム等といった任意の文章と、画像や動画像との間の関係性を第１モデルＭ１０や第２モデルＭ２０に深層学習させてもよい。

また、例えば、情報提供装置１０は、音楽コンテンツと、その音楽コンテンツを評価する文章との間の関係性を、第１モデルＭ１０と第２モデルＭ２０に深層学習させてもよい。このような学習処理を実行した場合、情報提供装置１０は、例えば、音楽コンテンツの配信サービスにおいて英語等のレビューが多いが、日本語のレビューが少ない場合等においても、音楽コンテンツからレビューを精度よく生成する第２モデルＭ２０を学習することができる。

また、英語のニュースから要約を作成するサービスが存在するが、日本語のニュースから要約を作成するサービスについては、精度があまりよくない場合がある。そこで、情報提供装置１０は、画像Ｄ１１と英語のニュースとを入力した際に、第１モデルＭ１０が英語のニュースの要約を出力するように深層学習させ、第１モデルＭ１０の一部を用いて、画像Ｄ１１と日本語のニュースとを入力した際に、第２モデルＭ２０が日本語のニュースの要約を出力するように深層学習させてもよい。このような処理を実行した場合、情報提供装置１０は、学習データの数が少ない場合であっても、精度よく日本語のニュースの要約を生成する第２モデルＭ２０の学習を行うことができる。

すなわち、情報提供装置１０は、第１コンテンツと第２コンテンツとの関連性を第１モデルＭ１０に深層学習させ、第１モデルＭ１０の一部を用いた第２モデルＭ２０に対し、第２コンテンツとは異なる種別のコンテンツであって、第１コンテンツとの関係性が第２コンテンツと類似する第３コンテンツと第１コンテンツとの関係性を深層学習させるのであれば、任意の種別のコンテンツが適用可能である。

〔４−２．第１モデルのうち使用する部分について〕
上述した学習処理では、情報提供装置１０は、第１モデルＭ１０のうち、画像学習部分を用いて第２モデルＭ２０を生成した。すなわち、情報提供装置１０は、第１モデルＭ１０のうち、画像学習部分以外の部分を削除し、新たな部分を付加した第２モデルＭ２０を生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、第１モデルＭ１０の一部を削除し、代替となる新たな部分を付加することで、第２モデルＭ２０を生成してもよい。また、情報提供装置１０は、第１モデルＭ１０の一部を取り出し、取り出した部分に新たな部分を付加することで、第２モデルＭ２０を生成してもよい。すなわち、情報提供装置１０は、第１モデルＭ１０の一部を抽出し、抽出した部分を用いて、第２モデルＭ２０を生成するのであれば、第１モデルＭ１０から一部分を抽出してもよく、第１モデルＭ１０のうち必要のない部分を削除してもよい。このような第１モデルＭ１０の部分的な削除や抽出は、データの取り扱いにおける便宜上の処理であり、同様の効果を得ることが出来るのであれば、任意の処理が適用可能である。

例えば、図８は、実施形態に係る情報提供装置が実行する学習処理のバリエーションを説明するための図である。例えば、情報提供装置１０は、上述した学習処理と同様に、各層Ｌ１１〜Ｌ１５を有する第１モデルＭ１０を生成する。そして、情報提供装置１０は、図８中の点太線で示すように、第１モデルＭ１０のうち画像学習部分以外の部分、すなわち、言語入力層Ｌ１３、特徴学習モデルＬ１４、および言語出力層Ｌ１５を含む言語学習部分を用いて、新たな第２モデルＭ２０を生成してもよい。

このような処理の結果得られる第２モデルＭ２０には、第１モデルＭ１０によって学習された関係性がある程度反映されることとなる。このため、情報提供装置１０は、第２学習データＤ２０と第１学習データＤ１０とが類似する場合には、第２学習データＤ２０の数が少ない場合にも、第２学習データＤ２０の関係性を精度よく学習する第２モデルＭ２０を深層学習することができる。

また、例えば、第１学習データＤ１０に含まれる文章の言語と、第２学習データＤ２０に含まれる文章の言語とが類似する言語である場合（例えば、イタリア語とラテン語等）には、情報提供装置１０は、第１モデルＭ１０のうち、画像学習部分に加えて、特徴学習モデルＬ１４を用いて、第２モデルＭ２０を生成してもよい。また、情報提供装置１０は、特徴学習モデルＬ１４の一部を用いて、第２モデルＭ２０を生成してもよい。このような処理を実行することで、情報提供装置１０は、第２学習データＤ２０の関係性を精度よく第２モデルＭ２０に深層学習させることが出来る。

また、情報提供装置１０は、例えば、画像学習部分に代えてニュースから要約を生成するモデルを有する第１モデルＭ１０の深層学習を行い、第１モデルＭ１０のうち、ニュースから要約を生成するモデルを画像学習部分に変更した第２モデルＭ２０を生成することで、入力された画像からニュースの記事を生成する第２モデルＭ２０を生成してもよい。すなわち、情報提供装置１０は、第１モデルＭ１０の一部を用いて、第２モデルＭ２０を生成するのであれば、第２モデルＭ２０のうち第１モデルＭ１０に含まれていなかった部分の構成を、第１モデルＭ１０のうち第２モデルＭ２０に使用しなかった部分の構成とは異なる構成にしてもよい。

〔４−３．学習内容について〕
なお、情報提供装置１０は、第１モデルＭ１０と第２モデルＭ２０とがどのような出力を行うように最適化を行うかについては、任意の設定を採用して良い。例えば、情報提供装置１０は、第２モデルＭ２０が入力された画像に対して質問に応答するような深層学習を行ってもよい。また、情報提供装置１０は、第２モデルＭ２０が、入力されたテキストに対して音声で応答を行うような深層学習を行ってもよい。また、情報提供装置１０は、味覚センサ等で取得した食品の味を示す値が入力された際に、その食品の味を表現する文章を出力するような深層学習を行ってもよい。

〔４−４．装置構成〕
なお、情報提供装置１０は、任意の数の端末装置１００と通信可能に接続されていてもよく、任意の数のデータサーバ５０と通信可能に接続されていてもよい。また、情報提供装置１０は、端末装置１００と情報のやり取りを行うフロントエンドサーバと、学習処理を実行するバックエンドサーバとにより実現されてもよい。このような場合、フロントエンドサーバには、図２に示す第２モデルデータベース３４および情報提供部４５が含まれ、バックエンドサーバには、図２に示す第１学習データデータベース３１、第２学習データデータベース３２、第１モデルデータベース３３、収集部４１、第１モデル学習部４２、第２モデル生成部４３、第２モデル学習部４４が含まれることとなる。

〔４−５．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図２に示した第２モデル生成部４３と第２モデル学習部４４とは、統合されてもよい。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔５．情報提供装置の処理フロー〕
次に、図９を用いて、情報提供装置１０が実行する学習処理の手順の一例について説明する。図９は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。例えば、情報提供装置１０は、第１コンテンツと第２コンテンツとの組を含む第１学習データＤ１０を収集する（ステップＳ１０１）。続いて、情報提供装置１０は、第１コンテンツと第３コンテンツとの組を含む第２学習データＤ２０を収集する（ステップＳ１０２）。また、情報提供装置１０は、第１学習データＤ１０を用いて、第１モデルＭ１０の深層学習を行い（ステップＳ１０３）、第１モデルＭ１０の一部を用いて、第２モデルＭ２０を生成する（ステップＳ１０４）。そして、情報提供装置１０は、第２学習データＤ２０を用いて、第２モデルＭ２０の深層学習を行い（ステップＳ１０５）、処理を終了する。

〔６．プログラム〕
また、上述してきた実施形態に係る端末装置１００は、例えば図１０に示すような構成のコンピュータ１０００によって実現される。図１０は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が端末装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

〔７．効果〕
上述したように、情報提供装置１０は、第１コンテンツと、第１コンテンツとは種別が異なる第２コンテンツとの組が有する関係性を深層学習した第１モデルＭ１０の一部を用いて、新たな第２モデルＭ２０を生成する。そして、情報提供装置１０は、第２モデルＭ２０に、第１コンテンツと、第２コンテンツとは異なる種別の第３コンテンツとの組が有する関係性を深層学習させる。このため、情報提供装置１０は、第２コンテンツと第３コンテンツとの組、すなわち、第２学習データＤ２０の数が少ない場合にも、第２コンテンツと第３コンテンツとの関係性の学習精度の悪化を防ぐことができる。

また、情報提供装置１０は、第１モデルＭ１０として、非言語に関する第１コンテンツと、言語に関する第２コンテンツとの組が有する関係性を深層学習した第１モデルＭ１０の一部を用いて、新たな第２モデルＭ２０を生成する。そして、情報提供装置１０は、第２モデルＭ２０に、第１コンテンツと、第２コンテンツとは異なる言語に関する第３コンテンツとの組が有する関係性を深層学習させる。

より具体的には、情報提供装置１０は、第１モデルＭ１０として、静止画像または動画像に関する第１コンテンツと、文章に関する第２コンテンツとの組が有する関係性を深層学習した第１モデルＭ１０の一部を用いて、新たな第２モデルＭ２０を生成する。そして、情報提供装置１０は、第２モデルＭ２０に、第１コンテンツと、第１コンテンツの説明を含む文章であって、第２コンテンツとは異なる言語の文章を含む第３コンテンツとの組が有する関係性を深層学習させる。

例えば、情報提供装置１０は、第１モデルＭ１０として、第１コンテンツと、所定の言語による第１コンテンツのキャプションである第２コンテンツとの組が有する関係性を深層学習した第１モデルＭ１０の一部を用いて、新たな第２モデルＭ２０を生成する。そして、情報提供装置１０は、第２モデルＭ２０に、第１コンテンツと、所定の言語とは異なる言語による第１コンテンツのキャプションである第３コンテンツとの組が有する関係性を深層学習させる。

上述した処理の結果、情報提供装置１０は、例えば、画像Ｄ１１と英文キャプションＤ１２との関係性を学習した第１モデルＭ１０の一部を用いて、第２モデルＭ２０を生成し、画像Ｄ１１と日文キャプションＤ２２との関係性を深層学習させる。この結果、情報提供装置１０は、例えば、画像Ｄ１１と日文キャプションＤ２２との組が少ない場合であっても、第２モデルＭ２０の学習精度の悪化を防ぐことができる。

また、情報提供装置１０は、第１モデルＭ１０として、第１コンテンツと第２コンテンツとが入力された際に、第２コンテンツと同じ内容のコンテンツを出力するように全体が最適化された学習器の一部を用いて、第２コンテンツを生成する。このため、情報提供装置１０は、第１モデルＭ１０が学習した関係性をある程度反映させた第２モデルＭ２０を生成することが出来るので、学習データが少ない場合にも、第２モデルＭ２０の学習精度の悪化を防ぐことができる。

また、情報提供装置１０は、第１モデルＭ１０の一部に対して、新たな部分の追加又は削除を行った第２モデルＭ２０を生成する。例えば、情報提供装置１０は、一部を削除した第１モデルＭ１０に新たな部分を追加した第２モデルＭ２０を生成する。また、例えば、情報提供装置１０は、第１モデルＭ１０の一部を削除し、残った部分に新たな部分を追加した第２モデルＭ１０を生成する。例えば、情報提供装置１０は、第１モデルＭ１０として、入力された第１コンテンツの特徴を抽出する第１部分（例えば、画像学習モデルＬ１１）と、第２コンテンツの入力を受付ける第２部分（例えば、言語入力層Ｌ１３）と、第１部分の出力と第２部分の出力とに基づいて、第２コンテンツと同じ内容のコンテンツを出力する第３部分（例えば、特徴学習モデルＬ１４および言語出力層Ｌ１５）とを有する第１モデルＭ１０のうち、少なくとも第１部分を用いて、新たな第２モデルＭ２０を生成する。このため、情報提供装置１０は、第１モデルＭ１０が学習した関係性をある程度反映させた第２モデルＭ２０を生成することが出来るので、学習データが少ない場合にも、第２モデルＭ２０の学習精度の悪化を防ぐことができる。

また、情報提供装置１０は、第１モデルＭ１０のうち、第１部分と、第１部分の出力を第２部分に入力する１つまたは複数の層（例えば、画像特徴入力層Ｌ１２）とを用いて、新たな第２モデルＭ２０を生成する。このため、情報提供装置１０は、第１モデルＭ１０が学習した関係性をある程度反映させた第２モデルＭ２０を生成することが出来るので、学習データが少ない場合にも、第２モデルＭ２０の学習精度の悪化を防ぐことができる。

また、情報提供装置１０は、第１コンテンツと第３コンテンツとの組を入力した際に、第３コンテンツと同じ内容のコンテンツを出力するように、第２モデルＭ２０を深層学習させる。このため、情報提供装置１０は、第２モデルＭ２０に第１コンテンツと第３コンテンツとが有する関係性を精度よく深層学習させることが出来る。

また、情報提供装置１０は、第１モデルＭ１０のうち、第２部分および第３部分を用いて、新たな第２モデルＭ２０を生成し、第１コンテンツとは異なる種別の第４コンテンツと、第２コンテンツとの組が有する関係性を第２モデルＭ２０に学習させる。このため、情報提供装置１０は、第２コンテンツと第４コンテンツの組が少ない場合にも、第２コンテンツと第４コンテンツとが有する関係性を第２モデルＭ２０に精度よく深層学習させることが出来る。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、配信部は、配信手段や配信回路に読み替えることができる。

１０情報提供装置
２０通信部
３０記憶部
３１第１学習データデータベース
３２第２学習データデータベース
３３第１モデルデータベース
３４第２モデルデータベース
４０制御部
４１収集部
４２第１モデル学習部
４３第２モデル生成部
４４第２モデル学習部
４５情報提供部
５０データサーバ
１００端末装置

Claims

第１コンテンツが入力されると当該第１コンテンツが有する特徴を出力する第１部分と、当該第１コンテンツとは種別が異なる第２コンテンツが入力されると当該第２コンテンツが有する特徴を出力する第２部分と、前記第１部分の出力と前記第２部分の出力とに基づいて、前記第２コンテンツと同じ種別のコンテンツを出力するための特徴を出力する第３部分とを有し、前記第１コンテンツが前記第１部分に入力され、前記第２コンテンツが前記第２部分に入力された際に、当該第２コンテンツと同じ内容のコンテンツを出力するように、バックプロパゲーションによる深層学習を行うことで、当該第１コンテンツと当該第２コンテンツとの組が有する所定の関係性の深層学習が行われた学習済みニューラルネットワークの前記第１部分と、
前記第２コンテンツと類似する種別の第３コンテンツが入力されると当該第３コンテンツが有する特徴を出力する第４部分と、
前記第１部分の出力と前記第４部分の出力とに基づいて、前記第３コンテンツと同じ種別のコンテンツを出力するための特徴を出力する第５部分と
を有するニューラルネットワークであって、
前記第１コンテンツが前記第１部分に入力され、前記第３コンテンツが前記第４部分に入力された際に、当該第３コンテンツと同じ内容のコンテンツを出力するようにバックプロパゲーションによる深層学習を行うことで、当該第１コンテンツと当該第３コンテンツとの組が有する前記所定の関係性の深層学習が行われ、
前記第１コンテンツと同じ種別の入力コンテンツのみが前記第１部分に入力された際に、前記第３コンテンツと同じ種別のコンテンツであって、当該入力コンテンツと前記所定の関係性を有する出力コンテンツを出力するニューラルネットワークとしてコンピュータを機能させる
ためのモデル。
前記モデルは、非言語に関する第１コンテンツと言語に関する第２コンテンツとの組が有する前記所定の関係性を深層学習した学習済みニューラルネットワークの前記第１部分を有し、
前記第１コンテンツと、前記第２コンテンツとは異なる言語に関する第３コンテンツとの組が有する前記所定の関係性の深層学習が行われたニューラルネットワークとしてコンピュータを機能させる
ことを特徴とする請求項１に記載のモデル。
前記モデルは、静止画像または動画像に関する第１コンテンツと、文章に関する第２コンテンツとの組が有する前記所定の関係性を深層学習した学習済みニューラルネットワークの前記第１部分を有し、前記第１コンテンツと、当該第１コンテンツの説明を含む文章であって、前記第２コンテンツとは異なる言語の文章を含む第３コンテンツとの組が有する前記所定の関係性の深層学習が行われたニューラルネットワークとしてコンピュータを機能させる
ことを特徴とする請求項２に記載のモデル。
前記モデルは、前記第１コンテンツと、所定の言語による当該第１コンテンツのキャプションである第２コンテンツとの組が有する前記所定の関係性を深層学習した学習済みニューラルネットワークの前記第１部分を有し、前記第１コンテンツと、前記所定の言語とは異なる言語による当該第１コンテンツのキャプションである第３コンテンツとの組が有する前記所定の関係性の深層学習が行われたニューラルネットワークとしてコンピュータを機能させる
ことを特徴とする請求項３に記載のモデル。