JP2022106147A

JP2022106147A - 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法

Info

Publication number: JP2022106147A
Application number: JP2021000937A
Authority: JP
Inventors: 萌山田; Moe Yamada
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-07-19
Also published as: EP4027270A1; US20220215203A1

Abstract

【課題】画像及び文章の対応関係を精度良く判定する判定モデルの生成を行うことを可能とする判定モデル生成プログラム、情報処理装置及び判定モデル生成方法を提供する。
【解決手段】画像データと画像データに対応する文字列データとを対応付けた第１訓練データに基づいて、第１訓練データに含まれる画像データと文字列データのうちの一方を他のデータに置換した第２訓練データを生成し、第１訓練データと第２訓練データとを入力データとして、第１訓練データ及び第２訓練データのうち、画像データと文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する。
【選択図】図１９

Description

本発明は、判定モデル生成プログラム、情報処理装置及び判定モデル生成方法に関する。

近年、文章（以下、文字列とも呼ぶ）の内容と一致する画像や画像の内容と一致する文章の検索を行う際に、画像と文章との一致度を判定する機械学習モデル（以下、判定モデルとも呼ぶ）が用いられる場合がある。

このような判定モデルは、例えば、内容が対応する画像及び文章のペアだけでなく、画像及び文章のうちの一方を他のサンプルに入れ替えたペアについても学習を行うことによって、画像と文章との一致度の算出を行う（例えば、非特許文献１を参照）。

Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee, "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks", URL: https://arxiv.org/pdf/1908.02265.pdf

ここで、上記のような判定モデルは、例えば、文章及び画像についての複数のペアを同時に入力することによって学習を行う。これにより、判定モデルは、例えば、文章及び画像についてのペアを１つずつ入力して学習を行う場合よりも、データ間における関係性についての学習を進めることが可能になる。

しかしながら、例えば、画像及び文章の両方をランダムに決定した複数のペアを用いて学習を行う場合、判定モデルは、各ペアの特徴についての学習を十分に行うことができず、画像と文章との一致度の算出を十分な精度で行うことができない場合がある。

そこで、一つの側面では、本発明は、画像及び文章の対応関係を精度良く判定する判定モデルの生成を行うことを可能とする判定モデル生成プログラム、情報処理装置及び判定モデル生成方法を提供することを目的とする。

実施の形態の一態様では、画像データと前記画像データに対応する文字列データとを対応付けた第１訓練データに基づいて、前記第１訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第２訓練データを生成し、前記第１訓練データと前記第２訓練データとを入力データとして、前記第１訓練データ及び前記第２訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、処理をコンピュータに実行させる。

一つの側面によれば、画像及び文章の対応関係を精度良く判定する判定モデルの生成を行うことを可能とする。

図１は、情報処理システム１０の構成について説明する図である。図２は、第１比較例における判定モデルＭＤ１１を説明する図である。図３は、第１比較例における判定モデルＭＤ１１を説明する図である。図４は、第２比較例における判定モデルＭＤ１２を説明する図である。図５は、第２比較例における判定モデルＭＤ１２を説明する図である。図６は、情報処理装置１のハードウエア構成を説明する図である。図７は、情報処理装置１の機能のブロック図である。図８は、第１の実施の形態における判定モデル生成処理の概略を説明するフローチャート図である。図９は、第１の実施の形態における判定モデルＭＤ１の処理を説明する図である。図１０は、第１の実施の形態における判定モデルＭＤ１の処理を説明する図である。図１１は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。図１２は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。図１３は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。図１４は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。図１５は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。図１６は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。図１７は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。図１８は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。図１９は、第１の実施の形態における判定モデルＭＤ２の処理を説明する図である。図２０は、第１の実施の形態における判定モデルＭＤ２の処理を説明する図である。

［情報処理システムの構成］
初めに、情報処理システム１０の構成について説明を行う。図１は、情報処理システム１０の構成について説明する図である。

図１に示す情報処理システム１０は、例えば、１以上の物理マシンからなる情報処理装置１と、判定モデルの生成を行う作業者（以下、単に作業者とも呼ぶ）が必要な情報の入力等を行う操作端末２とを有する。操作端末２は、例えば、ＰＣ（ＰｅｒｓｏａｎｌＣｏｍｐｕｔｅｒ）であってよい。また、情報処理装置１及び操作端末２は、例えば、インターネット等のネットワークＮＷを介して接続されている。

情報処理装置１は、例えば、予め用意された複数の訓練データを用いることによって判定モデルの生成を行う。以下、比較例における判定モデルについて説明を行う。

［第１比較例における判定モデル］
図２及び図３は、第１比較例における判定モデルＭＤ１１を説明する図である。具体的に、図２は、学習段階における判定モデルＭＤ１１の処理を説明する図である。また、図３は、推論段階における判定モデルＭＤ１１の処理を説明する図である。第１ニューラルネットワークＮＮ１は、例えば、Ｔｒａｎｓｆｏｒｍｅｒであってよい。また、第２ニューラルネットワークＮＮ２は、例えば、スコア関数を学習するＬｉｎｅｒＮｅｔｗｏｒｋであってよい。

なお、以下、各判定モデルがニューラルネットワークＮＮ１（以下、第１ニューラルネットワークＮＮ１とも呼ぶ）とニューラルネットワークＮＮ２（以下、第２ニューラルネットワークＮＮ２とも呼ぶ）とから構成されるものとして説明を行う。

初めに、学習段階における判定モデルＭＤ１１の処理について説明を行う。

情報処理装置１は、図２に示すように、学習用の訓練データに含まれる画像データＩＭ１及び文字列データＳＴ１のペアを第１ニューラルネットワークＮＮ１に入力する。具体的に、情報処理装置１は、例えば、内容が対応する画像データＩＭ１及び文字列データＳＴ１のペア、または、内容が対応しない画像データＩＭ１及び文字列データＳＴ１のペアを第１ニューラルネットワークＮＮ１に入力する。

そして、第１ニューラルネットワークＮＮ１は、画像データＩＭ１及び文字列データＳＴ１のペアの入力を受け付けたことに応じて、画像データＩＭ１の特徴を示すベクトル（以下、画像ベクトルとも呼ぶ）と文字列データＳＴ１の特徴を示すベクトル（以下、文字列ベクトルとも呼ぶ）とを算出して出力する。

続いて、情報処理装置１は、例えば、第１ニューラルネットワークＮＮ１から出力された画像ベクトルと文字列ベクトルとの要素積を算出して第２ニューラルネットワークＮＮ２に入力する。

そして、第２ニューラルネットワークＮＮ２は、例えば、要素積の入力を受け付けたことに応じて、画像データＩＭ１が示す内容と文字列データＳＴ１が示す内容との一致度を算出して出力する。

その後、情報処理装置１は、例えば、第２ニューラルネットワークが出力した一致度と、画像データＩＭ１が示す内容と文字列データＳＴ１が示す内容とが対応するか否かを示す値（正解データ）との誤差が小さくなるように、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２の重みを調整する。

次に、推論段階における判定モデルＭＤ１１の処理について説明を行う。

情報処理装置１は、図３に示すように、例えば、推論対象の訓練データ（以下、新たな訓練データとも呼ぶ）が操作端末２を介して入力された場合、新たな訓練データに含まれる画像データＩＭ２及び文字列データＳＴ２のペアを第１ニューラルネットワークＮＮ１に入力する。

そして、第１ニューラルネットワークＮＮ１は、画像データＩＭ２及び文字列データＳＴ２のペアの入力を受け付けたことに応じて、画像データＩＭ２の特徴を示す画像ベクトルと文字列データＳＴ２の特徴を示す文字列ベクトルとを算出して出力する。

そして、第２ニューラルネットワークＮＮ２は、例えば、要素積の入力を受け付けたことに応じて、画像データＩＭ２が示す内容と文字列データＳＴ２が示す内容との一致度を算出して出力する。

その後、情報処理装置１は、例えば、第２ニューラルネットワークが出力した一致度を、新たな訓練データに含まれる画像データＩＭ２と文字列データＳＴ２との一致度として操作端末２に出力する。

ここで、例えば、画像データＩＭ１及び文字列データＳＴ１のペアを１つずつ入力することによって学習が行われる場合、判定モデルＭＤ１１は、学習についての全体最適化を行うことができず、例えば、データ間における関係性についての学習を行うことができない。したがって、判定モデルＭＤ１１は、例えば、推論段階において同じ物体に関する画像データＩＭ２及び文字列データＳＴ２の入力が行われた場合、画像データＩＭ２の内容と文字列データＳＴ１の内容とがそれぞれ異なる状況を示している場合であっても、高い一致度を出力する可能性がある。

［第２比較例における判定モデル］
次に、第２比較例における判定モデルＭＤ１２について説明を行う。図４及び図５は、第２比較例における判定モデルＭＤ１２を説明する図である。具体的に、図４は、学習段階における判定モデルＭＤ１２の処理を説明する図である。また、図５は、推論段階における判定モデルＭＤ１２の処理を説明する図である。

なお、以下、画像データＩＭ１ａ、画像データＩＭ１ｂ及び画像データＩＭ１ｃを総称して単に画像データＩＭ１とも呼び、文字列データＳＴ１ａ、文字列データＳＴ１ｂ及び文字列データＳＴ１ｃを総称して単に文字列データＳＴ１とも呼ぶ。

初めに、学習段階における判定モデルＭＤ１２の処理について説明を行う。

情報処理装置１は、図４に示すように、学習用の訓練データに含まれる画像データＩＭ１及び文字列データＳＴ１についてのペアを第１ニューラルネットワークＮＮ１に複数入力する。具体的に、情報処理装置１は、例えば、内容が対応する画像データＩＭ１及び文字列データＳＴ１からなる１つのペアと、内容が対応しない画像データＩＭ１及び文字列データＳＴ１からなる複数のペアとを第１ニューラルネットワークＮＮ１に入力する。

さらに具体的に、情報処理装置１は、図４に示すように、例えば、内容が対応する画像データＩＭ１ａ及び文字列データＳＴ１ａからなるペアと、内容が対応しない画像データＩＭ１ｂ及び文字列データＳＴ１ｂからなるペアと、内容が対応しない画像データＩＭ１ｃ及び文字列データＳＴ１ｃからなるペアとを含む複数のペアを第１ニューラルネットワークＮＮ１に入力する。

そして、第１ニューラルネットワークＮＮ１は、画像データＩＭ１及び文字列データＳＴ１のペアの入力を受け付けたことに応じて、画像データＩＭ１の特徴を示す画像ベクトルと文字列データＳＴ１の特徴を示す文字列ベクトルとを算出して出力する。

そして、第２ニューラルネットワークＮＮ２は、例えば、複数の要素積の入力を受け付けた場合、画像データＩＭ１及び文字列データＳＴ１のペアごとに、各ペアに含まれる画像データＩＭ１と文字列データＳＴ１との一致度を算出して出力する。

その後、情報処理装置１は、例えば、第２ニューラルネットワークが出力した複数の一致度と、内容が対応する画像データＩＭ１と文字列データＳＴ１のペア（以下、正解ペアとも呼ぶ）を示す情報とから算出される分類誤差（ＣｒｏｓｓＥｎｔｒｏｐｙ）が小さくなるように、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２の重みを調整する。

次に、推論段階における判定モデルＭＤ１２の処理について説明を行う。

情報処理装置１は、図５に示すように、例えば、新たな訓練データが操作端末２を介して入力された場合、新たな訓練データに含まれる画像データＩＭ２及び文字列データＳＴ２のペアを第１ニューラルネットワークＮＮ１に入力する。

すなわち、判定モデルＭＤ１２は、画像データＩＭ１及び文字列データＳＴ１についての複数のペアを同時に用いることによって学習を行う。これにより、判定モデルＭＤ１２は、図２及び図３で説明した判定モデルＭＤ１１よりも、訓練データ間における関係性の学習を進めることが可能になり、全体最適化された学習を行うことが可能になる。

しかしながら、例えば、画像データＩＭ１及び文字列データＳＴ１の両方がランダムに決定された複数のペアを用いることによって学習が行われる場合、判定モデルＭＤ１２は、各ペアの特徴についての学習を十分に行うことができない。そのため、判定モデルＭＤ１２は、推論段階において、画像データＩＭ２と文字列データＳＴ２との一致度の算出を十分な精度で行うことができない場合がある。

そこで、本実施の形態における情報処理装置１は、画像データＩＭ１と画像データＩＭ１に対応する文字列データＳＴ１とを対応付けた訓練データ（以下、第１訓練データとも呼ぶ）に基づいて、第１訓練データに含まれる画像データＩＭ１と文字列データＳＴ１のうちの一方を他のデータに置換した訓練データ（以下、第２訓練データとも呼ぶ）を生成する。

そして、情報処理装置１は、第１訓練データと第２訓練データとを入力データとして、第１訓練データ及び第２訓練データのうち、画像データＩＭ１と文字列データＳＴ１との対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する。

すなわち、本実施の形態における情報処理装置１は、例えば、判定モデルに入力する画像データＩＭ１及び文字列データＳＴ１についての複数のペアを生成する場合、同一の画像データＩＭ１に対してそれぞれ異なる文字列データＳＴ１を組み合わせることによって複数のペアを生成する。また、情報処理装置１は、この場合、同一の文字列データＳＴ１に対してそれぞれ異なる画像データＩＭ１を組み合わせることによって複数のペアを生成する。そして、情報処理装置１は、生成した複数のペアごとに算出した類似度を学習することによって判定モデルの生成を行う。

これにより、情報処理装置１は、訓練データ間におけるより細かい関係性を判定モデルに学習させることが可能になり、画像データＩＭ１及び文字列データＳＴ１の対応関係を精度良く判定する判定モデルを生成することが可能になる。

［情報処理装置のハードウエア構成］
次に、情報処理装置１のハードウエア構成について説明する。図６は、情報処理装置１のハードウエア構成を説明する図である。

情報処理装置１は、図６に示すように、プロセッサであるＣＰＵ１０１と、メモリ１０２と、通信装置１０３と、記憶媒体１０４とを有する。各部は、バス１０５を介して互いに接続される。

記憶媒体１０４は、例えば、判定モデル生成処理を行うためのプログラム１１０を記憶するプログラム格納領域（図示しない）を有する。また、記憶媒体１０４は、例えば、判定モデル生成処理を行う際に用いられる情報を記憶する情報格納領域１３０を有する。なお、記憶媒体１０４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）であってよい。

ＣＰＵ１０１は、記憶媒体１０４からメモリ１０２にロードされたプログラム１１０を実行して判定モデル生成処理を行う。

また、通信装置１０３は、例えば、ネットワークＮＷを介して操作端末２との通信を行う。

［情報処理装置の機能］
次に、情報処理装置１の機能について説明を行う。図７は、情報処理装置１の機能のブロック図である。

情報処理装置１は、図７に示すように、ＣＰＵ１０１やメモリ１０２等のハードウエアとプログラム１１０とが有機的に協働することにより、例えば、データ受信部１１１と、データ管理部１１２と、データ生成部１１３と、ベクトル生成部１１４と、類似度算出部１１５と、モデル学習部１１６と、一致度算出部１１７と、結果出力部１１８とを含む各種機能を実現する。

また、情報処理装置１は、図７に示すように、例えば、第１訓練データＤＴ１と、第２訓練データＤＴ２と、新たな訓練データＤＴ３とを情報格納領域１３０に記憶する。

初めに、学習段階における機能について説明を行う。

データ受信部１１１は、例えば、操作端末２から送信された第１訓練データＤＴ１を受信する。第１訓練データＤＴ１は、内容が対応する画像データＩＭ１と文字列データＳＴ１とを含む訓練データである。そして、データ管理部１１２は、例えば、データ受信部１１１が受信した第１訓練データＤＴ１を情報格納領域１３０に記憶する。

データ生成部１１３は、情報格納領域１３０に記憶した第１訓練データＤＴ１に基づいて第２訓練データＤＴ２を生成する。第２訓練データＤＴ２は、第１訓練データＤＴ１に含まれる画像データＩＭ１と文字列データＳＴ１のうちの一方を他のデータに置換した訓練データである。すなわち、第２訓練データＤＴ２は、内容が対応しない画像データＩＭ１と文字列データＳＴ１とを含む訓練データである。そして、データ管理部１１２は、例えば、データ生成部１１３が生成した第２訓練データＤＴ２を情報格納領域１３０に記憶する。

ベクトル生成部１１４は、情報格納領域１３０に記憶した第１訓練データＤＴ１及び第２訓練データＤＴ２を第１ニューラルネットワークＮＮ１に入力することによって、第１訓練データＤＴ１及び第２訓練データＤＴ２に含まれる画像データＩＭ１の特徴を示す画像ベクトルをそれぞれ生成する。また、ベクトル生成部１１４は、情報格納領域１３０に記憶した第１訓練データＤＴ１及び第２訓練データＤＴ２を第１ニューラルネットワークＮＮ１に入力することによって、第１訓練データＤＴ１及び第２訓練データＤＴ２に含まれる文字列データＳＴ１の特徴を示す文字列ベクトルを生成する。

類似度算出部１１５は、例えば、ベクトル生成部１１４が第１訓練データＤＴ１から生成した画像ベクトルと文字列ベクトルとの内積を、第１訓練データＤＴ１に含まれる画像データＩＭ１と文字列データＳＴ１との類似度として算出する。また、類似度算出部１１５は、例えば、ベクトル生成部１１４が第２訓練データＤＴ２から生成した画像ベクトルと文字列ベクトルとの内積を、第２訓練データＤＴ２に含まれる画像データＩＭ１と文字列データＳＴ１との類似度として算出する。

モデル学習部１１６は、例えば、類似度算出部１１５が算出した各類似度と、第１訓練データＤＴ１を示す情報（以下、第１情報とも呼ぶ）とから分類誤差を算出する。そして、モデル学習部１１６は、算出した分類誤差が小さくなるように、第１ニューラルネットワークＮＮ１の重みを調整（学習）する。

一致度算出部１１７は、例えば、ベクトル生成部１１４が第１訓練データＤＴ１から生成した画像ベクトルと文字列ベクトルとの要素積を算出する。また、一致度算出部１１７は、例えば、ベクトル生成部１１４が第２訓練データＤＴ２から生成した画像ベクトルと文字列ベクトルとの要素積を算出する。具体的に、一致度算出部１１７は、例えば、１つの第１訓練データＤＴ１についての要素積と、複数の第２訓練データＤＴ２についての要素積とを算出する。

そして、一致度算出部１１７は、例えば、第１訓練データＤＴ１についての要素積を第２ニューラルネットワークＮＮ２に入力することによって、第１訓練データＤＴ１に含まれる画像データＩＭ１と文字列データＳＴ１との一致度を算出する。また、一致度算出部１１７は、例えば、第２訓練データＤＴ２についての要素積を第２ニューラルネットワークＮＮ２に入力することによって、第２訓練データＤＴ２に含まれる画像データＩＭ１と文字列データＳＴ１との一致度を算出する。

さらに、モデル学習部１１６は、例えば、第１訓練データＤＴ１についての一致度と、第１訓練データＤＴ１に対応する値（以下、第２情報とも呼ぶ）との誤差が小さくなるように、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２の重みを調整する。また、モデル学習部１１６は、例えば、第２訓練データＤＴ２についての一致度と、第２訓練データＤＴ２に対応する値との誤差が小さくなるように、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２の重みを調整する。

次に、推論段階における機能について説明を行う。

データ受信部１１１は、例えば、操作端末２から送信された新たな訓練データＤＴ３を受信する。そして、データ管理部１１２は、例えば、データ受信部１１１が受信した新たな訓練データＤＴ３を情報格納領域１３０に記憶する。

ベクトル生成部１１４は、データ受信部１１１が受信した新たな訓練データＤＴ３を第１ニューラルネットワークＮＮ１に入力することによって、新たな訓練データＤＴ３に含まれる画像データＩＭ２の特徴を示す画像ベクトルを生成する。また、ベクトル生成部１１４は、新たな訓練データＤＴ３を第１ニューラルネットワークＮＮ１に入力することによって、新たな訓練データＤＴ３に含まれる文字列データＳＴ２の特徴を示す文字列ベクトルを生成する。

類似度算出部１１５は、例えば、ベクトル生成部１１４が新たな訓練データＤＴ３から生成した画像ベクトルと文字列ベクトルとの内積を、新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との類似度として算出する。

一致度算出部１１７は、例えば、ベクトル生成部１１４が新たな訓練データＤＴ３から生成した画像ベクトルと文字列ベクトルとの要素積を算出する。

そして、一致度算出部１１７は、例えば、新たな訓練データＤＴ３についての要素積を第２ニューラルネットワークＮＮ２に入力することによって、新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との一致度を算出する。

結果出力部１１８は、例えば、類似度算出部１１５が算出した類似度を、新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との類似度として操作端末２に出力する。また、結果出力部１１８は、例えば、一致度算出部１１７が算出した一致度を、新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との一致度として操作端末２に出力する。

なお、以下、一致度算出部１１７が画像ベクトルと文字列ベクトルとの要素積を算出する場合について説明を行うが、一致度算出部１１７は、例えば、画像ベクトルと文字列ベクトルとのベクトル和を算出するものであってもよい。そして、一致度算出部１１７は、この場合、算出したベクトル和を第２ニューラルネットワークＮＮ２に入力するものであってもよい。

［第１の実施の形態の概略］
次に、第１の実施の形態の概略について説明する。図８は、第１の実施の形態における判定モデル生成処理の概略を説明するフローチャート図である。

情報処理装置１は、図８に示すように、例えば、モデル生成タイミングになるまで待機する（Ｓ１１のＮＯ）。モデル生成タイミングは、例えば、作業者が判定モデルの生成を行う旨を入力したタイミングであってよい。

そして、モデル生成タイミングになった場合（Ｓ１１のＹＥＳ）、情報処理装置１は、画像データＩＭ１と画像データＩＭ１に対応する文字列データＳＴ１とを対応付けた第１訓練データＤＴ１に基づいて、画像データＩＭ１と文字列データＳＴ１のうちの一方を他のデータに置換した第２訓練データＤＴ２を生成する（Ｓ１２）。

さらに、情報処理装置１は、第１訓練データＤＴ１と第２訓練データＤＴ２とを入力データとして、第１訓練データＤＴ１及び第２訓練データＤＴ２のうち、画像データＩＭ１と文字列データＳＴ１との対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する（Ｓ１３）。

これにより、情報処理装置１は、訓練データ間における細かな関係性についても判定モデルに学習させることが可能になる。そのため、情報処理装置１は、画像データＩＭ１及び文字列データＳＴ１の対応関係を精度良く判定する判定モデルを生成することが可能になる。

また、情報処理装置１は、第１訓練データＤＴ１に含まれる画像データＩＭ１と文字列データＳＴ１のうちの一方を他のデータに置換することによって第２訓練データＤＴ２を生成することで、第２訓練データＤＴ２の生成に要する作業負担や作業時間の増大を抑制することが可能になる。

［判定モデルの具体例（１）］
次に、第１の実施の形態における判定モデルＭＤ１を説明する図である。図９及び図１０は、第１の実施の形態における判定モデルＭＤ１の処理を説明する図である。

初めに、学習段階における判定モデルＭＤ１の処理について説明を行う。

情報処理装置１は、図９に示すように、第１訓練データＤＴ１に含まれる画像データＩＭ１及び文字列データＳＴ１のペアと、第２訓練データＤＴ２に含まれる画像データＩＭ１及び文字列データＳＴ１のペアとを第１ニューラルネットワークＮＮ１に入力する。

具体的に、情報処理装置１は、図９に示すように、例えば、第１訓練データＤＴ１に含まれる画像データＩＭ１ａ及び文字列データＳＴ１ａからなるペアと、第２訓練データＤＴ２に含まれる画像データＩＭ１ｂ及び文字列データＳＴ１ｂからなるペアと、第２訓練データＤＴ２に含まれる画像データＩＭ１ｃ及び文字列データＳＴ１ｃからなるペアとを含む複数のペアを第１ニューラルネットワークＮＮ１に入力する。

そして、第１ニューラルネットワークＮＮ１は、例えば、画像データＩＭ１ａ及び文字列データＳＴ１ａのペアの入力を受け付けたことに応じて、画像データＩＭ１ａの特徴を示す画像ベクトルと文字列データＳＴ１ａの特徴を示す文字列ベクトルとを算出して出力する。同様に、第１ニューラルネットワークＮＮ１は、例えば、画像データＩＭ１ｂ及び文字列データＳＴ１ｂのペアの入力を受け付けたことに応じて、画像データＩＭ１ｂの特徴を示す画像ベクトルと文字列データＳＴ１ｂの特徴を示す文字列ベクトルとを算出して出力する。さらに、第１ニューラルネットワークＮＮ１は、例えば、画像データＩＭ１ｃ及び文字列データＳＴ１ｃのペアの入力を受け付けたことに応じて、画像データＩＭ１ｃの特徴を示す画像ベクトルと文字列データＳＴ１ｃの特徴を示す文字列ベクトルとを算出して出力する。

次に、情報処理装置１は、例えば、画像データＩＭ１ａに対応する画像ベクトルと文字列データＳＴ１ａに対応する文字列ベクトルとの内積を、画像データＩＭ１ａと文字列データＳＴ１ａとの類似度として算出する。同様に、情報処理装置１は、例えば、画像データＩＭ１ｂに対応する画像ベクトルと文字列データＳＴ１ｂに対応する文字列ベクトルとの内積を、画像データＩＭ１ｂと文字列データＳＴ１ｂとの類似度として算出する。さらに、情報処理装置１は、例えば、画像データＩＭ１ｃに対応する画像ベクトルと文字列データＳＴ１ｃに対応する文字列ベクトルとの内積を、画像データＩＭ１ｃと文字列データＳＴ１ｃとの類似度として算出する。

その後、情報処理装置１は、例えば、第１訓練データＤＴ１及び第２訓練データＤＴ２のそれぞれの類似度と、第１訓練データＤＴ１に含まれる画像データＩＭ１と文字列データＳＴ１とのペア（正解ペア）を特定する情報とから算出される分類誤差が小さくなるように、第１ニューラルネットワークＮＮ１の重みを調整する。

次に、推論段階における判定モデルの処理について説明を行う。

情報処理装置１は、図１０に示すように、新たな訓練データＤＴ３に含まれる画像データＩＭ２及び文字列データＳＴ２のペアを第１ニューラルネットワークＮＮ１に入力する。

そして、第１ニューラルネットワークＮＮ１は、例えば、画像データＩＭ２及び文字列データＳＴ２のペアの入力を受け付けたことに応じて、画像データＩＭ２の特徴を示す画像ベクトルと文字列データＳＴ２の特徴を示す文字列ベクトルとを算出して出力する。

その後、情報処理装置１は、例えば、画像データＩＭ２に対応する画像ベクトルと文字列データＳＴ２に対応する文字列ベクトルとの内積を、画像データＩＭ２と文字列データＳＴ２との類似度として算出する。

そして、情報処理装置１は、例えば、算出した類似度を、新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との類似度として操作端末２に出力する。

すなわち、情報処理装置１は、図２から図５で説明した場合と異なり、第１ニューラルネットワークＮＮ１のみを用いる判定モデルＭＤ１（第２ニューラルネットワークＮＮ２を有しない判定モデルＭＤ１）の生成を行う。

これにより、情報処理装置１は、訓練データごとに異なる画像ベクトル及び文字列ベクトルの出力が可能な第１ニューラルネットワークＮＮ１を生成することが可能になる。

［第１の実施の形態の詳細］
次に、第１の実施の形態の詳細について説明する。図１１から図１８は、第１の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。また、図１９及び図２０は、第１の実施の形態における判定モデル生成処理の詳細を説明する図である。

［データ管理処理］
初めに、判定モデル生成処理のうち、第１訓練データＤＴ１を情報格納領域１３０に記憶する処理（以下、データ管理処理とも呼ぶ）について説明を行う。図１１は、データ学習処理について説明するフローチャート図である。

データ受信部１１１は、図１１に示すように、例えば、操作端末２から送信された複数の訓練データＤＴ１を受信するまで待機する（Ｓ２１のＮＯ）。

そして、複数の訓練データＤＴ１を受信した場合（Ｓ２１のＹＥＳ）、データ管理部１１２は、Ｓ２１の処理で受信した複数の訓練データＤＴ１を情報格納領域１３０に記憶する（Ｓ２２）。

［判定モデル生成処理のメイン処理］
次に、判定モデル生成処理のメイン処理について説明を行う。図１２から図１６は、判定モデル生成処理のメイン処理について説明するフローチャート図である。

データ生成部１１３は、図１２に示すように、モデル生成タイミングになるまで待機する（Ｓ３１のＮＯ）。

そして、モデル生成タイミングになった場合（Ｓ３１のＹＥＳ）、データ生成部１１３は、情報格納領域１３０に記憶された複数の第１訓練データＤＴ１のうちのいずれかの第１訓練データＤＴ１を特定する（Ｓ３２）。

続いて、データ生成部１１３は、Ｓ３２の処理において特定した第１訓練データＤＴ１に含まれる画像データＩＭ１と文字列データＳＴ１とのうちの一方を他のデータに置換したＲ個の第２訓練データＤＴ２を生成する（Ｓ３３）。以下、Ｓ３３の処理の詳細について説明を行う。

［Ｓ３３の処理の詳細（１）］
初めに、Ｓ３３の処理についての第１の実施例について説明を行う。図１５は、Ｓ３３の処理の詳細について説明するフローチャート図である。

データ生成部１１３は、図１５に示すように、例えば、Ｓ３２の処理において特定した第１訓練データＤＴ１に含まれる画像データＩＭ１をＲ個複製する（Ｓ６１）。

そして、データ生成部１１３は、例えば、情報格納領域１３０に記憶した複数の第１訓練データＤＴ１のそれぞれに含まれる複数の文字列データＳＴ１から、Ｓ３２の処理において特定した第１訓練データＤＴ１に含まれる文字列データＳＴ１以外のＲ個の文字列データＳＴ１を特定する（Ｓ６２）。

その後、データ生成部１１３は、例えば、Ｓ６１の処理において複製したＲ個の画像データＩＭ１のそれぞれに対して、Ｓ６２の処理において特定したＲ個の文字列データＳＴ１を対応付けることによって、Ｒ個の第２訓練データＤＴ２を生成する（Ｓ６３）。

［Ｓ３３の処理の詳細（２）］
次に、Ｓ３３の処理についての第２の実施例について説明を行う。図１６は、Ｓ３３の処理の詳細について説明する他のフローチャート図である。

データ生成部１１３は、例えば、Ｓ３２の処理において特定した第１訓練データＤＴ１に含まれる文字列データＳＴ１をＲ個複製する（Ｓ７１）。

そして、データ生成部１１３は、例えば、情報格納領域１３０に記憶した複数の第１訓練データＤＴ１のそれぞれに含まれる複数の画像データＩＭ１から、Ｓ３２の処理において特定した第１訓練データＤＴ１に含まれる画像データＩＭ１以外のＲ個の画像データＩＭ１を特定する（Ｓ７２）。

その後、データ生成部１１３は、例えば、Ｓ７１の処理において複製したＲ個の文字列データＳＴ１のそれぞれに対して、Ｓ７２の処理において特定したＲ個の画像データＩＭ１を対応付けることによって、Ｒ個の第２訓練データＤＴ２を生成する（Ｓ７３）。

すなわち、情報処理装置１は、画像データＩＭ１及び文字列データＳＴ１のうちのいずれかを一致させた複数の第２訓練データＤＴ２を用いて判定モデルの生成を行うことによって、訓練データ間における関係性についての学習を促進させることが可能になる。

そのため、情報処理装置１は、画像データＩＭ１及び文字列データＳＴ１の対応関係を精度良く判定する判定モデルを生成することが可能になる。

なお、データ生成部１１３は、例えば、Ｒ個の第２訓練データＤＴ２のうちの一部をＳ６１からＳ６３までの処理を行うことによって生成し、Ｒ個の第２訓練データＤＴ２のうちの他の一部をＳ７１からＳ７３までの処理を行うことによって生成するものであってもよい。

また、データ生成部１１３は、例えば、Ｓ６１から６３までの処理とＳ７１からＳ７３まで処理を並行して行うことによって、Ｒ個の第２訓練データＤＴ２を生成するものであってもよい。

図１２に戻り、ベクトル生成部１１４は、第１ニューラルネットワークＮＮ１を用いることによって、Ｓ３２の処理において特定した第１訓練データＤＴ１とＳ３３の処理において生成したＲ個の第２訓練データＤＴ２とのそれぞれについて、画像データＩＭ１についての画像ベクトルと文字列データＳＴ１についての文字列ベクトルとを算出する（Ｓ３４）。

具体的に、ベクトル生成部１１４は、Ｓ３２の処理において特定した第１訓練データＤＴ１とＳ３３の処理において生成したＲ個の第２訓練データＤＴ２とのそれぞれを第１ニューラルネットワークＮＮ１に入力する。そして、ベクトル生成部１１４は、第１ニューラルネットワークＮＮ１から出力された画像ベクトル及び文字列ベクトルのそれぞれを、Ｓ３２の処理において特定した第１訓練データＤＴ１とＳ３３の処理において生成したＲ個の第２訓練データＤＴ２とのそれぞれについての画像ベクトル及び文字列ベクトルとして取得する。

そして、類似度算出部１１５は、Ｓ３２の処理において特定した第１訓練データＤＴ１とＳ３３の処理において生成したＲ個の第２訓練データＤＴ２とのそれぞれについて、Ｓ３４の処理において算出した各ベクトルの内積を算出することによって、画像データＩＭ１と文字列データＳＴ１との類似度を算出する（Ｓ３５）。

続いて、モデル学習部１１６は、図１３に示すように、Ｓ３５の処理において算出した各類似度から算出される分類誤差が小さくなるように、第１ニューラルネットワークＮＮ１の重みを調整する（Ｓ４１）。

具体的に、モデル学習部１１６は、以下の式（１）に示す分類誤差Ｌが小さくなるように、第１ニューラルネットワークＮＮ１の重みを調整する。

上記の式（１）において、Ｅ_ｉは、Ｓ３２の処理において特定した第１訓練データＤＴ１とＳ３３の処理において生成したＲ個の第２訓練データＤＴ２のうち、ｉ番目の訓練データに対応する類似度を示している。また、Ｅ_ｐは、Ｓ３２の処理において特定した第１訓練データＤＴ１に対応する類似度を示している。

次に、一致度算出部１１７は、Ｓ３３の処理において生成したＲ個の第２訓練データＤＴ２に含まれるいずれかの第２訓練データＤＴ２を特定する（Ｓ４２）。

そして、一致度算出部１１７は、Ｓ３２の処理において特定した第１訓練データＤＴ１及びＳ４２の処理において特定した第２訓練データＤＴ２のそれぞれについて、Ｓ３４の処理において算出した各ベクトルの要素積を算出する（Ｓ４３）。

さらに、一致度算出部１１７は、第２ニューラルネットワークＮＮ２を用いることによって、Ｓ３２の処理において特定した第１訓練データＤＴ１に対応する要素積と、Ｓ４２の処理において特定した第２訓練データＤＴ２に対応する要素積とのそれぞれについて、画像データＩＭ１と文字列データＳＴ１との一致度を算出する（Ｓ４４）。

具体的に、一致度算出部１１７は、Ｓ４４の処理において算出した要素積のそれぞれを第２ニューラルネットワークＮＮ２に入力する。そして、一致度算出部１１７は、第２ニューラルネットワークＮＮ２から出力された一致度のそれぞれを、Ｓ３２の処理において特定した第１訓練データＤＴ１に含まれる画像データＩＭ１と文字列データＳＴ１との一致度と、Ｓ４３の処理において特定した第２訓練データＤＴ２に含まれる画像データＩＭ１と文字列データＳＴ１との一致度として取得する。

続いて、モデル学習部１１６は、図１４に示すように、Ｓ３２の処理において特定した第１訓練データＤＴ１についての一致度と、第１訓練データＤＴ１に対応する値との誤差を算出する（Ｓ５１）。

また、モデル学習部１１６は、Ｓ４２の処理において特定した第２訓練データＤＴ２についての一致度と、第２訓練データＤＴ２に対応する値との誤差を算出する（Ｓ５２）。

その後、モデル学習部１１６は、Ｓ５１及びＳ５２の処理において算出した誤差が小さくなるように、第１ニューラルネットワークＮＮ１と第２ニューラルネットワークＮＮ２との重みを調整する（Ｓ５３）。

具体的に、例えば、Ｓ３２の処理において特定した第１訓練データＤＴ１についての一致度が０から１までの間の値であって、第１訓練データＤＴ１に対応する値が１である場合、モデル学習部１１６は、Ｓ３２の処理において特定した第１訓練データＤＴ１についての一致度が１に近づくように、第２ニューラルネットワークＮＮ２の重みを調整する。また、モデル学習部１１６は、Ｓ４２の処理において特定した第２訓練データＤＴ２についての一致度と、第２訓練データＤＴ２に対応する値との誤差が小さくなるように、第１ニューラルネットワークＮＮ１と第２ニューラルネットワークＮＮ２との重みを調整する。

そして、モデル学習部１１６は、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２が所定の条件を満たしているか否かを判定する（Ｓ５４）。

具体的に、モデル学習部１１６は、例えば、Ｓ５１の処理において算出した誤差（第１訓練データＤＴ１についての誤差）とＳ５２の処理において算出した誤差（第２訓練データＤＴ２についての誤差）との和を算出する。続いて、モデル学習部１１６は、例えば、算出した和とＳ３５の処理において算出した各類似度から算出される分類誤差との平均を算出する。そして、例えば、算出した平均が所定の閾値を下回っている場合、モデル学習部１１６は、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２が所定の条件を満たしていると判定する。

その結果、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２が所定の条件を満たしていないと判定した場合（Ｓ５５のＮＯ）、情報処理装置１は、Ｓ３２以降の処理を再度行う。

一方、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２が所定の条件を満たしていると判定した場合（Ｓ５５のＹＥＳ）、情報処理装置１は、判定モデル生成処理のメイン処理を終了する。

［データ推定処理（１）］
次に、判定モデル生成処理のうち、新たな訓練データＤＴ３に含まれる画像データＩＭ２の内容と文字列データＳＴ２の内容とが一致するか否かを判定する処理（以下、データ推定処理とも呼ぶ）についての第１の実施例について説明を行う。図１７は、データ推定処理についての第１の実施例について説明するフローチャート図である。

データ受信部１１１は、図１７に示すように、例えば、操作端末２から送信された新たな訓練データＤＴ３を受信するまで待機する（Ｓ８１のＮＯ）。

そして、新たな訓練データＤＴ３を受信した場合（Ｓ８１のＹＥＳ）、ベクトル生成部１１４は、第１ニューラルネットワークＮＮ１を用いることによって、Ｓ８１の処理において受信した新たな訓練データＤＴ３に含まれる画像データＩＭ２についての画像ベクトルと文字列データＳＴ２についての文字列ベクトルとを算出する（Ｓ８２）。

具体的に、ベクトル生成部１１４は、新たな訓練データを第１ニューラルネットワークＮＮ１に入力する。そして、ベクトル生成部１１４は、第１ニューラルネットワークＮＮ１から出力された画像ベクトル及び文字列ベクトルを、新たな訓練データＤＴ３についての画像ベクトル及び文字列ベクトルとして取得する。

そして、類似度算出部１１５は、例えば、Ｓ８２の処理において算出した各ベクトルの内積を算出することによって、Ｓ８１の処理において受信した新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との類似度を算出する（Ｓ８３）。

その後、結果出力部１１８は、例えば、Ｓ８３の処理において算出した類似度を出力する（Ｓ８４）。

具体的に、結果出力部１１８は、例えば、Ｓ８３の処理において算出した類似度を操作端末２に出力する。

なお、例えば、Ｓ８３の処理において複数の新たな訓練データＤＴ３のそれぞれについての類似度が算出された場合、結果出力部１１８は、複数の新たな訓練データＤＴ３のそれぞれを示す情報を、Ｓ８３の処理において算出された類似度の大きい順に出力するものであってもよい。

［データ推定処理（２）］
次に、データ推定処理についての第２の実施例について説明を行う。図１８は、データ推定処理についての第２の実施例について説明するフローチャート図である。

データ受信部１１１は、図１８に示すように、例えば、操作端末２から送信された新たな訓練データＤＴ３を受信するまで待機する（Ｓ９１のＮＯ）。

そして、新たな訓練データＤＴ３を受信した場合（Ｓ９１のＹＥＳ）、ベクトル生成部１１４は、第１ニューラルネットワークＮＮ１を用いることによって、Ｓ８１の処理において受信した新たな訓練データＤＴ３に含まれる画像データＩＭ２についての画像ベクトルと文字列データＳＴ２についての文字列ベクトルとを算出する（Ｓ９２）。

そして、一致度算出部１１７は、Ｓ９２の処理において算出した各ベクトルの要素積を算出する（Ｓ９３）。

さらに、一致度算出部１１７は、第２ニューラルネットワークＮＮ２を用いることによって、Ｓ９１の処理において受信した新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との一致度を算出する（Ｓ９４）。

具体的に、一致度算出部１１７は、Ｓ９４の処理において算出した要素積を第２ニューラルネットワークＮＮ２に入力する。そして、一致度算出部１１７は、第２ニューラルネットワークＮＮ２から出力された一致度を、Ｓ９１の処理において受信した新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との一致度として取得する。

その後、結果出力部１１８は、例えば、Ｓ９４の処理において算出した一致度を出力する（Ｓ９５）。

なお、例えば、Ｓ９４の処理において複数の新たな訓練データＤＴ３のそれぞれについての一致度が算出された場合、結果出力部１１８は、複数の新たな訓練データＤＴ３のそれぞれを示す情報を、Ｓ９４の処理において算出された一致度の大きい順に出力するものであってもよい。

［判定モデルの具体例（２）］
次に、第１の実施の形態における判定モデルＭＤ２を説明する図である。図１９及び図２０は、第１の実施の形態における判定モデルＭＤ２の処理を説明する図である。具体的に、図１９及び図２０は、図１２から図１８の内容に対応する判定モデルの処理を説明する図である。

初めに、学習段階における判定モデルＭＤ２の処理について説明を行う。

情報処理装置１は、図１９に示すように、第１訓練データＤＴ１に含まれる画像データＩＭ１及び文字列データＳＴ１のペアと、第２訓練データＤＴ２に含まれる画像データＩＭ１及び文字列データＳＴ１のペアとを第１ニューラルネットワークＮＮ１に入力する。具体的に、情報処理装置１は、図１９に示すように、第１訓練データＤＴ１に含まれる画像データＩＭ１ａ及び文字列データＳＴ１ａからなるペアと、第２訓練データＤＴ２に含まれる画像データＩＭ１ｂ及び文字列データＳＴ１ｂからなるペアと、第２訓練データＤＴ２に含まれる画像データＩＭ１ｃ及び文字列データＳＴ１ｃからなるペアとを含む複数のペアを第１ニューラルネットワークＮＮ１に入力する。

続いて、情報処理装置１は、例えば、画像データＩＭ１ａに対応する画像ベクトルと文字列データＳＴ１ａに対応する文字列ベクトルとの内積を、画像データＩＭ１ａと文字列データＳＴ１ａとの類似度として算出する。同様に、情報処理装置１は、例えば、画像データＩＭ１ｂに対応する画像ベクトルと文字列データＳＴ１ｂに対応する文字列ベクトルとの内積を、画像データＩＭ１ｂと文字列データＳＴ１ｂとの類似度として算出する。さらに、情報処理装置１は、例えば、画像データＩＭ１ｃに対応する画像ベクトルと文字列データＳＴ１ｃに対応する文字列ベクトルとの内積を、画像データＩＭ１ｃと文字列データＳＴ１ｃとの類似度として算出する。

その後、情報処理装置１は、例えば、第１訓練データＤＴ１及び第２訓練データＤＴ２のそれぞれについての類似度と、第１訓練データＤＴ１を示す情報（正解ペア）とから算出される分類誤差が小さくなるように、第１ニューラルネットワークＮＮ１の重みを調整する。

また、情報処理装置１は、例えば、画像データＩＭ１ａに対応する画像ベクトルと文字列データＳＴ１ａに対応する文字列ベクトルとの要素積と、画像データＩＭ１ｂに対応する画像ベクトルと文字列データＳＴ１ｂに対応する文字列ベクトルとの要素積とを算出する。

そして、情報処理装置１は、画像データＩＭ１ａ及び文字列データＳＴ１ａに対応する要素積と、画像データＩＭ１ｂ及び文字列データＳＴ１ｂに対応する要素積とを第２ニューラルネットワークＮＮ２に入力する。

続いて、第２ニューラルネットワークＮＮ２は、例えば、画像データＩＭ１ａ及び文字列データＳＴ１ａに対応する要素積の入力を受け付けたことに応じて、画像データＩＭ１ａと文字列データＳＴ１ａとの一致度を算出して出力する。また、第２ニューラルネットワークＮＮ２は、例えば、画像データＩＭ１ｂ及び文字列データＳＴ１ｂに対応する要素積の入力を受け付けたことに応じて、画像データＩＭ１ｂと文字列データＳＴ１ｂとの一致度を算出して出力する。

さらに、情報処理装置１は、画像データＩＭ１ａと文字列データＳＴ１ａとの一致度と、第１訓練データＤＴ１に対応する値（正解データ）との誤差が小さくなるように、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２の重みを調整する。また、情報処理装置１は、画像データＩＭ１ｂと文字列データＳＴ１ｂとの一致度と、第２訓練データＤＴ２に対応する値との誤差が小さくなるように、第１ニューラルネットワークＮＮ１及び第２ニューラルネットワークＮＮ２の重みを調整する。

次に、推論段階における判定モデルＭＤ２の処理について説明を行う。

情報処理装置１は、図２０に示すように、新たな訓練データＤＴ３に含まれる画像データＩＭ２及び文字列データＳＴ２のペアを第１ニューラルネットワークＮＮ１に入力する。

また、情報処理装置１は、例えば、画像データＩＭ２に対応する画像ベクトルと文字列データＳＴ２に対応する文字列ベクトルとの要素積を算出する。さらに、情報処理装置１は、算出した要素積を第２ニューラルネットワークＮＮ２に入力する。

そして、第２ニューラルネットワークＮＮ２は、例えば、画像データＩＭ２及び文字列データＳＴ２に対応する要素積の入力を受け付けたことに応じて、画像データＩＭ２と文字列データＳＴ２との一致度を算出して出力する。

その後、情報処理装置１は、例えば、第２ニューラルネットワークＮＮ２から出力された一致度を、新たな訓練データＤＴ３に含まれる画像データＩＭ２と文字列データＳＴ２との一致度として操作端末２に出力する。

このように、本実施の形態における情報処理装置１は、画像データＩＭ１と画像データＩＭ１に対応する文字列データＳＴ１とを対応付けた第１訓練データＤＴ１に基づいて、第１訓練データＤＴ１に含まれる画像データＩＭ１と文字列データＳＴ１のうちの一方を他のデータに置換した第２訓練データＤＴ２を生成する。

そして、情報処理装置１は、第１訓練データＤＴ１と第２訓練データＤＴ２とを入力データとして、第１訓練データＤＴ１及び第２訓練データＤＴ２のうち、画像データＩＭ１と文字列データＳＴ１との対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する。

すなわち、本実施の形態における情報処理装置１は、例えば、判定モデルに入力する画像データＩＭ１及び文字列データＳＴ１についての複数のペアを生成する場合、同一の画像データＩＭ１に対してそれぞれ異なる文字列データＳＴ１を組み合わせる。また、情報処理装置１は、この場合、同一の文字列データＳＴ１に対してそれぞれ異なる画像データＩＭ１を組み合わせる。そして、情報処理装置１は、生成した複数のペアを用いることによって判定モデルの学習を行う。

なお、上記の例では、画像データＩＭ１及び画像データＩＭ２から画像ベクトルを生成する第１ニューラルネットワークＮＮ１と、文字列データＳＴ１及び文字列データＳＴ２から文字列ベクトルを生成する第１ニューラルネットワークＮＮ１とが同一のニューラルネットワークである場合について説明を行ったが、これらは、互いに異なるニューラルネットワークであってもよい。

これにより、情報処理装置１は、画像ベクトルを生成する第１ニューラルネットワークＮＮ１の学習を画像データＩＭ１のみを用いることによって行うことが可能になり、また、文字列ベクトルを生成する第１ニューラルネットワークＮＮ１の学習を文字列データＳＴ１のみを用いることによって行うことが可能になる。そのため、情報処理装置１は、この場合、第１ニューラルネットワークＮＮ１の学習を画像データＩＭ１と文字列データＳＴ１とを同時に入力することによって行う必要がなくなり、第１ニューラルネットワークＮＮ１の生成を効率的に行うことが可能になる。

以上の実施の形態をまとめると、以下の付記のとおりである。

（付記１）
画像データと前記画像データに対応する文字列データとを対応付けた第１訓練データに基づいて、前記第１訓練データに含まれる前記画像データと前記文字列データのうちの一方を他のデータに置換した第２訓練データを生成し、
前記第１訓練データと前記第２訓練データとを入力データとして、前記第１訓練データ及び前記第２訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、
処理をコンピュータに実行させることを特徴とする判定モデル生成プログラム。

（付記２）
付記１において、
前記第２訓練データを生成する処理では、複数の前記第１訓練データのそれぞれについて、各訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した１以上の前記第２訓練データを生成する、
ことを特徴とする判定モデル生成プログラム。

（付記３）
付記２において、
前記第２訓練データを生成する処理では、
前記複数の第１訓練データに含まれる一部のデータのそれぞれについて、各訓練データに含まれる前記画像データを他のデータに置換した１以上の前記第２訓練データを生成し、
前記複数の第１訓練データに含まれる他の一部のデータのそれぞれについて、各訓練データに含まれる前記文字列データを他のデータに置換した１以上の前記第２訓練データを生成する、
ことを特徴とする判定モデル生成プログラム。

（付記４）
付記１において、
前記判定モデルを生成する処理では、
前記第１訓練データ及び前記第２訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの類似度を算出し、
算出した前記類似度と、前記第１訓練データ及び前記第２訓練データのうちのいずれの訓練データが前記第１訓練データであるかを示す第１情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする判定モデル生成プログラム。

（付記５）
付記４において、
前記判定モデルを生成する処理では、前記第１訓練データ及び前記第２訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの内積を前記類似度として算出する、
ことを特徴とする判定モデル生成プログラム。

（付記６）
付記４において、
前記判定モデルを生成する処理では、前記第１情報と、前記第１訓練データ及び前記第２訓練データのそれぞれの前記対応関係が正しいか否かを示す第２情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする判定モデル生成プログラム。

（付記７）
画像データと前記画像データに対応する文字列データとを対応付けた第１訓練データに基づいて、前記第１訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第２訓練データを生成するデータ生成部と、
前記第１訓練データと前記第２訓練データとを入力データとして、前記第１訓練データ及び前記第２訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成するモデル学習部と、を有する、
ことを特徴とする情報処理装置。

（付記８）
付記７において、
前記モデル学習部は、
前記第１訓練データ及び前記第２訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの類似度を算出し、
算出した前記類似度と、前記第１訓練データ及び前記第２訓練データのそれぞれが前記第１訓練データ及び前記第２訓練データのうちのいずれであるかを示す第１情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする情報処理装置。

（付記９）
画像データと前記画像データに対応する文字列データとを対応付けた第１訓練データに基づいて、前記第１訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第２訓練データを生成し、
前記第１訓練データと前記第２訓練データとを入力データとして、前記第１訓練データ及び前記第２訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、
処理をコンピュータに実行させることを特徴とする判定モデル生成方法。

（付記１０）
付記９において、
前記判定モデルを生成する処理では、
前記第１訓練データ及び前記第２訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの類似度を算出し、
算出した前記類似度と、前記第１訓練データ及び前記第２訓練データのそれぞれが前記第１訓練データ及び前記第２訓練データのうちのいずれであるかを示す第１情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする判定モデル生成方法。

１：情報処理装置２：操作端末
１０：情報処理システムＮＷ：ネットワーク

Claims

画像データと前記画像データに対応する文字列データとを対応付けた第１訓練データに基づいて、前記第１訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第２訓練データを生成し、
前記第１訓練データと前記第２訓練データとを入力データとして、前記第１訓練データ及び前記第２訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、
処理をコンピュータに実行させることを特徴とする判定モデル生成プログラム。
請求項１において、
前記第２訓練データを生成する処理では、複数の前記第１訓練データのそれぞれについて、各訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した１以上の前記第２訓練データを生成する、
ことを特徴とする判定モデル生成プログラム。
請求項２において、
前記第２訓練データを生成する処理では、
前記複数の第１訓練データに含まれる一部のデータのそれぞれについて、各訓練データに含まれる前記画像データを他のデータに置換した１以上の前記第２訓練データを生成し、
前記複数の第１訓練データに含まれる他の一部のデータのそれぞれについて、各訓練データに含まれる前記文字列データを他のデータに置換した１以上の前記第２訓練データを生成する、
ことを特徴とする判定モデル生成プログラム。
請求項１において、
前記判定モデルを生成する処理では、
前記第１訓練データ及び前記第２訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの類似度を算出し、
算出した前記類似度と、前記第１訓練データ及び前記第２訓練データのうちのいずれの訓練データが前記第１訓練データであるかを示す第１情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする判定モデル生成プログラム。
請求項４において、
前記判定モデルを生成する処理では、前記第１訓練データ及び前記第２訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの内積を前記類似度として算出する、
ことを特徴とする判定モデル生成プログラム。
請求項４において、
前記判定モデルを生成する処理では、前記第１情報と、前記第１訓練データ及び前記第２訓練データのそれぞれの前記対応関係が正しいか否かを示す第２情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする判定モデル生成プログラム。
画像データと前記画像データに対応する文字列データとを対応付けた第１訓練データに基づいて、前記第１訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第２訓練データを生成するデータ生成部と、
前記第１訓練データと前記第２訓練データとを入力データとして、前記第１訓練データ及び前記第２訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成するモデル学習部と、を有する、
ことを特徴とする情報処理装置。
画像データと前記画像データに対応する文字列データとを対応付けた第１訓練データに基づいて、前記第１訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第２訓練データを生成し、
前記第１訓練データと前記第２訓練データとを入力データとして、前記第１訓練データ及び前記第２訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、
処理をコンピュータに実行させることを特徴とする判定モデル生成方法。