JP2022106147A - 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法 - Google Patents

判定モデル生成プログラム、情報処理装置及び判定モデル生成方法 Download PDF

Info

Publication number
JP2022106147A
JP2022106147A JP2021000937A JP2021000937A JP2022106147A JP 2022106147 A JP2022106147 A JP 2022106147A JP 2021000937 A JP2021000937 A JP 2021000937A JP 2021000937 A JP2021000937 A JP 2021000937A JP 2022106147 A JP2022106147 A JP 2022106147A
Authority
JP
Japan
Prior art keywords
data
training data
character string
training
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021000937A
Other languages
English (en)
Inventor
萌 山田
Moe Yamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021000937A priority Critical patent/JP2022106147A/ja
Priority to US17/502,290 priority patent/US20220215203A1/en
Priority to EP21203124.9A priority patent/EP4027270A1/en
Publication of JP2022106147A publication Critical patent/JP2022106147A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

Figure 2022106147000001
【課題】画像及び文章の対応関係を精度良く判定する判定モデルの生成を行うことを可能とする判定モデル生成プログラム、情報処理装置及び判定モデル生成方法を提供する。
【解決手段】画像データと画像データに対応する文字列データとを対応付けた第1訓練データに基づいて、第1訓練データに含まれる画像データと文字列データのうちの一方を他のデータに置換した第2訓練データを生成し、第1訓練データと第2訓練データとを入力データとして、第1訓練データ及び第2訓練データのうち、画像データと文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する。
【選択図】図19

Description

本発明は、判定モデル生成プログラム、情報処理装置及び判定モデル生成方法に関する。
近年、文章(以下、文字列とも呼ぶ)の内容と一致する画像や画像の内容と一致する文章の検索を行う際に、画像と文章との一致度を判定する機械学習モデル(以下、判定モデルとも呼ぶ)が用いられる場合がある。
このような判定モデルは、例えば、内容が対応する画像及び文章のペアだけでなく、画像及び文章のうちの一方を他のサンプルに入れ替えたペアについても学習を行うことによって、画像と文章との一致度の算出を行う(例えば、非特許文献1を参照)。
Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee, "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks", URL: https://arxiv.org/pdf/1908.02265.pdf
ここで、上記のような判定モデルは、例えば、文章及び画像についての複数のペアを同時に入力することによって学習を行う。これにより、判定モデルは、例えば、文章及び画像についてのペアを1つずつ入力して学習を行う場合よりも、データ間における関係性についての学習を進めることが可能になる。
しかしながら、例えば、画像及び文章の両方をランダムに決定した複数のペアを用いて学習を行う場合、判定モデルは、各ペアの特徴についての学習を十分に行うことができず、画像と文章との一致度の算出を十分な精度で行うことができない場合がある。
そこで、一つの側面では、本発明は、画像及び文章の対応関係を精度良く判定する判定モデルの生成を行うことを可能とする判定モデル生成プログラム、情報処理装置及び判定モデル生成方法を提供することを目的とする。
実施の形態の一態様では、画像データと前記画像データに対応する文字列データとを対応付けた第1訓練データに基づいて、前記第1訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第2訓練データを生成し、前記第1訓練データと前記第2訓練データとを入力データとして、前記第1訓練データ及び前記第2訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、処理をコンピュータに実行させる。
一つの側面によれば、画像及び文章の対応関係を精度良く判定する判定モデルの生成を行うことを可能とする。
図1は、情報処理システム10の構成について説明する図である。 図2は、第1比較例における判定モデルMD11を説明する図である。 図3は、第1比較例における判定モデルMD11を説明する図である。 図4は、第2比較例における判定モデルMD12を説明する図である。 図5は、第2比較例における判定モデルMD12を説明する図である。 図6は、情報処理装置1のハードウエア構成を説明する図である。 図7は、情報処理装置1の機能のブロック図である。 図8は、第1の実施の形態における判定モデル生成処理の概略を説明するフローチャート図である。 図9は、第1の実施の形態における判定モデルMD1の処理を説明する図である。 図10は、第1の実施の形態における判定モデルMD1の処理を説明する図である。 図11は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。 図12は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。 図13は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。 図14は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。 図15は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。 図16は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。 図17は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。 図18は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。 図19は、第1の実施の形態における判定モデルMD2の処理を説明する図である。 図20は、第1の実施の形態における判定モデルMD2の処理を説明する図である。
[情報処理システムの構成]
初めに、情報処理システム10の構成について説明を行う。図1は、情報処理システム10の構成について説明する図である。
図1に示す情報処理システム10は、例えば、1以上の物理マシンからなる情報処理装置1と、判定モデルの生成を行う作業者(以下、単に作業者とも呼ぶ)が必要な情報の入力等を行う操作端末2とを有する。操作端末2は、例えば、PC(Persoanl Computer)であってよい。また、情報処理装置1及び操作端末2は、例えば、インターネット等のネットワークNWを介して接続されている。
情報処理装置1は、例えば、予め用意された複数の訓練データを用いることによって判定モデルの生成を行う。以下、比較例における判定モデルについて説明を行う。
[第1比較例における判定モデル]
図2及び図3は、第1比較例における判定モデルMD11を説明する図である。具体的に、図2は、学習段階における判定モデルMD11の処理を説明する図である。また、図3は、推論段階における判定モデルMD11の処理を説明する図である。第1ニューラルネットワークNN1は、例えば、Transformerであってよい。また、第2ニューラルネットワークNN2は、例えば、スコア関数を学習するLiner Networkであってよい。
なお、以下、各判定モデルがニューラルネットワークNN1(以下、第1ニューラルネットワークNN1とも呼ぶ)とニューラルネットワークNN2(以下、第2ニューラルネットワークNN2とも呼ぶ)とから構成されるものとして説明を行う。
初めに、学習段階における判定モデルMD11の処理について説明を行う。
情報処理装置1は、図2に示すように、学習用の訓練データに含まれる画像データIM1及び文字列データST1のペアを第1ニューラルネットワークNN1に入力する。具体的に、情報処理装置1は、例えば、内容が対応する画像データIM1及び文字列データST1のペア、または、内容が対応しない画像データIM1及び文字列データST1のペアを第1ニューラルネットワークNN1に入力する。
そして、第1ニューラルネットワークNN1は、画像データIM1及び文字列データST1のペアの入力を受け付けたことに応じて、画像データIM1の特徴を示すベクトル(以下、画像ベクトルとも呼ぶ)と文字列データST1の特徴を示すベクトル(以下、文字列ベクトルとも呼ぶ)とを算出して出力する。
続いて、情報処理装置1は、例えば、第1ニューラルネットワークNN1から出力された画像ベクトルと文字列ベクトルとの要素積を算出して第2ニューラルネットワークNN2に入力する。
そして、第2ニューラルネットワークNN2は、例えば、要素積の入力を受け付けたことに応じて、画像データIM1が示す内容と文字列データST1が示す内容との一致度を算出して出力する。
その後、情報処理装置1は、例えば、第2ニューラルネットワークが出力した一致度と、画像データIM1が示す内容と文字列データST1が示す内容とが対応するか否かを示す値(正解データ)との誤差が小さくなるように、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2の重みを調整する。
次に、推論段階における判定モデルMD11の処理について説明を行う。
情報処理装置1は、図3に示すように、例えば、推論対象の訓練データ(以下、新たな訓練データとも呼ぶ)が操作端末2を介して入力された場合、新たな訓練データに含まれる画像データIM2及び文字列データST2のペアを第1ニューラルネットワークNN1に入力する。
そして、第1ニューラルネットワークNN1は、画像データIM2及び文字列データST2のペアの入力を受け付けたことに応じて、画像データIM2の特徴を示す画像ベクトルと文字列データST2の特徴を示す文字列ベクトルとを算出して出力する。
続いて、情報処理装置1は、例えば、第1ニューラルネットワークNN1から出力された画像ベクトルと文字列ベクトルとの要素積を算出して第2ニューラルネットワークNN2に入力する。
そして、第2ニューラルネットワークNN2は、例えば、要素積の入力を受け付けたことに応じて、画像データIM2が示す内容と文字列データST2が示す内容との一致度を算出して出力する。
その後、情報処理装置1は、例えば、第2ニューラルネットワークが出力した一致度を、新たな訓練データに含まれる画像データIM2と文字列データST2との一致度として操作端末2に出力する。
ここで、例えば、画像データIM1及び文字列データST1のペアを1つずつ入力することによって学習が行われる場合、判定モデルMD11は、学習についての全体最適化を行うことができず、例えば、データ間における関係性についての学習を行うことができない。したがって、判定モデルMD11は、例えば、推論段階において同じ物体に関する画像データIM2及び文字列データST2の入力が行われた場合、画像データIM2の内容と文字列データST1の内容とがそれぞれ異なる状況を示している場合であっても、高い一致度を出力する可能性がある。
[第2比較例における判定モデル]
次に、第2比較例における判定モデルMD12について説明を行う。図4及び図5は、第2比較例における判定モデルMD12を説明する図である。具体的に、図4は、学習段階における判定モデルMD12の処理を説明する図である。また、図5は、推論段階における判定モデルMD12の処理を説明する図である。
なお、以下、画像データIM1a、画像データIM1b及び画像データIM1cを総称して単に画像データIM1とも呼び、文字列データST1a、文字列データST1b及び文字列データST1cを総称して単に文字列データST1とも呼ぶ。
初めに、学習段階における判定モデルMD12の処理について説明を行う。
情報処理装置1は、図4に示すように、学習用の訓練データに含まれる画像データIM1及び文字列データST1についてのペアを第1ニューラルネットワークNN1に複数入力する。具体的に、情報処理装置1は、例えば、内容が対応する画像データIM1及び文字列データST1からなる1つのペアと、内容が対応しない画像データIM1及び文字列データST1からなる複数のペアとを第1ニューラルネットワークNN1に入力する。
さらに具体的に、情報処理装置1は、図4に示すように、例えば、内容が対応する画像データIM1a及び文字列データST1aからなるペアと、内容が対応しない画像データIM1b及び文字列データST1bからなるペアと、内容が対応しない画像データIM1c及び文字列データST1cからなるペアとを含む複数のペアを第1ニューラルネットワークNN1に入力する。
そして、第1ニューラルネットワークNN1は、画像データIM1及び文字列データST1のペアの入力を受け付けたことに応じて、画像データIM1の特徴を示す画像ベクトルと文字列データST1の特徴を示す文字列ベクトルとを算出して出力する。
続いて、情報処理装置1は、例えば、第1ニューラルネットワークNN1から出力された画像ベクトルと文字列ベクトルとの要素積を算出して第2ニューラルネットワークNN2に入力する。
そして、第2ニューラルネットワークNN2は、例えば、複数の要素積の入力を受け付けた場合、画像データIM1及び文字列データST1のペアごとに、各ペアに含まれる画像データIM1と文字列データST1との一致度を算出して出力する。
その後、情報処理装置1は、例えば、第2ニューラルネットワークが出力した複数の一致度と、内容が対応する画像データIM1と文字列データST1のペア(以下、正解ペアとも呼ぶ)を示す情報とから算出される分類誤差(Cross Entropy)が小さくなるように、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2の重みを調整する。
次に、推論段階における判定モデルMD12の処理について説明を行う。
情報処理装置1は、図5に示すように、例えば、新たな訓練データが操作端末2を介して入力された場合、新たな訓練データに含まれる画像データIM2及び文字列データST2のペアを第1ニューラルネットワークNN1に入力する。
そして、第1ニューラルネットワークNN1は、画像データIM2及び文字列データST2のペアの入力を受け付けたことに応じて、画像データIM2の特徴を示す画像ベクトルと文字列データST2の特徴を示す文字列ベクトルとを算出して出力する。
続いて、情報処理装置1は、例えば、第1ニューラルネットワークNN1から出力された画像ベクトルと文字列ベクトルとの要素積を算出して第2ニューラルネットワークNN2に入力する。
そして、第2ニューラルネットワークNN2は、例えば、要素積の入力を受け付けたことに応じて、画像データIM2が示す内容と文字列データST2が示す内容との一致度を算出して出力する。
その後、情報処理装置1は、例えば、第2ニューラルネットワークが出力した一致度を、新たな訓練データに含まれる画像データIM2と文字列データST2との一致度として操作端末2に出力する。
すなわち、判定モデルMD12は、画像データIM1及び文字列データST1についての複数のペアを同時に用いることによって学習を行う。これにより、判定モデルMD12は、図2及び図3で説明した判定モデルMD11よりも、訓練データ間における関係性の学習を進めることが可能になり、全体最適化された学習を行うことが可能になる。
しかしながら、例えば、画像データIM1及び文字列データST1の両方がランダムに決定された複数のペアを用いることによって学習が行われる場合、判定モデルMD12は、各ペアの特徴についての学習を十分に行うことができない。そのため、判定モデルMD12は、推論段階において、画像データIM2と文字列データST2との一致度の算出を十分な精度で行うことができない場合がある。
そこで、本実施の形態における情報処理装置1は、画像データIM1と画像データIM1に対応する文字列データST1とを対応付けた訓練データ(以下、第1訓練データとも呼ぶ)に基づいて、第1訓練データに含まれる画像データIM1と文字列データST1のうちの一方を他のデータに置換した訓練データ(以下、第2訓練データとも呼ぶ)を生成する。
そして、情報処理装置1は、第1訓練データと第2訓練データとを入力データとして、第1訓練データ及び第2訓練データのうち、画像データIM1と文字列データST1との対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する。
すなわち、本実施の形態における情報処理装置1は、例えば、判定モデルに入力する画像データIM1及び文字列データST1についての複数のペアを生成する場合、同一の画像データIM1に対してそれぞれ異なる文字列データST1を組み合わせることによって複数のペアを生成する。また、情報処理装置1は、この場合、同一の文字列データST1に対してそれぞれ異なる画像データIM1を組み合わせることによって複数のペアを生成する。そして、情報処理装置1は、生成した複数のペアごとに算出した類似度を学習することによって判定モデルの生成を行う。
これにより、情報処理装置1は、訓練データ間におけるより細かい関係性を判定モデルに学習させることが可能になり、画像データIM1及び文字列データST1の対応関係を精度良く判定する判定モデルを生成することが可能になる。
[情報処理装置のハードウエア構成]
次に、情報処理装置1のハードウエア構成について説明する。図6は、情報処理装置1のハードウエア構成を説明する図である。
情報処理装置1は、図6に示すように、プロセッサであるCPU101と、メモリ102と、通信装置103と、記憶媒体104とを有する。各部は、バス105を介して互いに接続される。
記憶媒体104は、例えば、判定モデル生成処理を行うためのプログラム110を記憶するプログラム格納領域(図示しない)を有する。また、記憶媒体104は、例えば、判定モデル生成処理を行う際に用いられる情報を記憶する情報格納領域130を有する。なお、記憶媒体104は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)であってよい。
CPU101は、記憶媒体104からメモリ102にロードされたプログラム110を実行して判定モデル生成処理を行う。
また、通信装置103は、例えば、ネットワークNWを介して操作端末2との通信を行う。
[情報処理装置の機能]
次に、情報処理装置1の機能について説明を行う。図7は、情報処理装置1の機能のブロック図である。
情報処理装置1は、図7に示すように、CPU101やメモリ102等のハードウエアとプログラム110とが有機的に協働することにより、例えば、データ受信部111と、データ管理部112と、データ生成部113と、ベクトル生成部114と、類似度算出部115と、モデル学習部116と、一致度算出部117と、結果出力部118とを含む各種機能を実現する。
また、情報処理装置1は、図7に示すように、例えば、第1訓練データDT1と、第2訓練データDT2と、新たな訓練データDT3とを情報格納領域130に記憶する。
初めに、学習段階における機能について説明を行う。
データ受信部111は、例えば、操作端末2から送信された第1訓練データDT1を受信する。第1訓練データDT1は、内容が対応する画像データIM1と文字列データST1とを含む訓練データである。そして、データ管理部112は、例えば、データ受信部111が受信した第1訓練データDT1を情報格納領域130に記憶する。
データ生成部113は、情報格納領域130に記憶した第1訓練データDT1に基づいて第2訓練データDT2を生成する。第2訓練データDT2は、第1訓練データDT1に含まれる画像データIM1と文字列データST1のうちの一方を他のデータに置換した訓練データである。すなわち、第2訓練データDT2は、内容が対応しない画像データIM1と文字列データST1とを含む訓練データである。そして、データ管理部112は、例えば、データ生成部113が生成した第2訓練データDT2を情報格納領域130に記憶する。
ベクトル生成部114は、情報格納領域130に記憶した第1訓練データDT1及び第2訓練データDT2を第1ニューラルネットワークNN1に入力することによって、第1訓練データDT1及び第2訓練データDT2に含まれる画像データIM1の特徴を示す画像ベクトルをそれぞれ生成する。また、ベクトル生成部114は、情報格納領域130に記憶した第1訓練データDT1及び第2訓練データDT2を第1ニューラルネットワークNN1に入力することによって、第1訓練データDT1及び第2訓練データDT2に含まれる文字列データST1の特徴を示す文字列ベクトルを生成する。
類似度算出部115は、例えば、ベクトル生成部114が第1訓練データDT1から生成した画像ベクトルと文字列ベクトルとの内積を、第1訓練データDT1に含まれる画像データIM1と文字列データST1との類似度として算出する。また、類似度算出部115は、例えば、ベクトル生成部114が第2訓練データDT2から生成した画像ベクトルと文字列ベクトルとの内積を、第2訓練データDT2に含まれる画像データIM1と文字列データST1との類似度として算出する。
モデル学習部116は、例えば、類似度算出部115が算出した各類似度と、第1訓練データDT1を示す情報(以下、第1情報とも呼ぶ)とから分類誤差を算出する。そして、モデル学習部116は、算出した分類誤差が小さくなるように、第1ニューラルネットワークNN1の重みを調整(学習)する。
一致度算出部117は、例えば、ベクトル生成部114が第1訓練データDT1から生成した画像ベクトルと文字列ベクトルとの要素積を算出する。また、一致度算出部117は、例えば、ベクトル生成部114が第2訓練データDT2から生成した画像ベクトルと文字列ベクトルとの要素積を算出する。具体的に、一致度算出部117は、例えば、1つの第1訓練データDT1についての要素積と、複数の第2訓練データDT2についての要素積とを算出する。
そして、一致度算出部117は、例えば、第1訓練データDT1についての要素積を第2ニューラルネットワークNN2に入力することによって、第1訓練データDT1に含まれる画像データIM1と文字列データST1との一致度を算出する。また、一致度算出部117は、例えば、第2訓練データDT2についての要素積を第2ニューラルネットワークNN2に入力することによって、第2訓練データDT2に含まれる画像データIM1と文字列データST1との一致度を算出する。
さらに、モデル学習部116は、例えば、第1訓練データDT1についての一致度と、第1訓練データDT1に対応する値(以下、第2情報とも呼ぶ)との誤差が小さくなるように、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2の重みを調整する。また、モデル学習部116は、例えば、第2訓練データDT2についての一致度と、第2訓練データDT2に対応する値との誤差が小さくなるように、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2の重みを調整する。
次に、推論段階における機能について説明を行う。
データ受信部111は、例えば、操作端末2から送信された新たな訓練データDT3を受信する。そして、データ管理部112は、例えば、データ受信部111が受信した新たな訓練データDT3を情報格納領域130に記憶する。
ベクトル生成部114は、データ受信部111が受信した新たな訓練データDT3を第1ニューラルネットワークNN1に入力することによって、新たな訓練データDT3に含まれる画像データIM2の特徴を示す画像ベクトルを生成する。また、ベクトル生成部114は、新たな訓練データDT3を第1ニューラルネットワークNN1に入力することによって、新たな訓練データDT3に含まれる文字列データST2の特徴を示す文字列ベクトルを生成する。
類似度算出部115は、例えば、ベクトル生成部114が新たな訓練データDT3から生成した画像ベクトルと文字列ベクトルとの内積を、新たな訓練データDT3に含まれる画像データIM2と文字列データST2との類似度として算出する。
一致度算出部117は、例えば、ベクトル生成部114が新たな訓練データDT3から生成した画像ベクトルと文字列ベクトルとの要素積を算出する。
そして、一致度算出部117は、例えば、新たな訓練データDT3についての要素積を第2ニューラルネットワークNN2に入力することによって、新たな訓練データDT3に含まれる画像データIM2と文字列データST2との一致度を算出する。
結果出力部118は、例えば、類似度算出部115が算出した類似度を、新たな訓練データDT3に含まれる画像データIM2と文字列データST2との類似度として操作端末2に出力する。また、結果出力部118は、例えば、一致度算出部117が算出した一致度を、新たな訓練データDT3に含まれる画像データIM2と文字列データST2との一致度として操作端末2に出力する。
なお、以下、一致度算出部117が画像ベクトルと文字列ベクトルとの要素積を算出する場合について説明を行うが、一致度算出部117は、例えば、画像ベクトルと文字列ベクトルとのベクトル和を算出するものであってもよい。そして、一致度算出部117は、この場合、算出したベクトル和を第2ニューラルネットワークNN2に入力するものであってもよい。
[第1の実施の形態の概略]
次に、第1の実施の形態の概略について説明する。図8は、第1の実施の形態における判定モデル生成処理の概略を説明するフローチャート図である。
情報処理装置1は、図8に示すように、例えば、モデル生成タイミングになるまで待機する(S11のNO)。モデル生成タイミングは、例えば、作業者が判定モデルの生成を行う旨を入力したタイミングであってよい。
そして、モデル生成タイミングになった場合(S11のYES)、情報処理装置1は、画像データIM1と画像データIM1に対応する文字列データST1とを対応付けた第1訓練データDT1に基づいて、画像データIM1と文字列データST1のうちの一方を他のデータに置換した第2訓練データDT2を生成する(S12)。
さらに、情報処理装置1は、第1訓練データDT1と第2訓練データDT2とを入力データとして、第1訓練データDT1及び第2訓練データDT2のうち、画像データIM1と文字列データST1との対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する(S13)。
これにより、情報処理装置1は、訓練データ間における細かな関係性についても判定モデルに学習させることが可能になる。そのため、情報処理装置1は、画像データIM1及び文字列データST1の対応関係を精度良く判定する判定モデルを生成することが可能になる。
また、情報処理装置1は、第1訓練データDT1に含まれる画像データIM1と文字列データST1のうちの一方を他のデータに置換することによって第2訓練データDT2を生成することで、第2訓練データDT2の生成に要する作業負担や作業時間の増大を抑制することが可能になる。
[判定モデルの具体例(1)]
次に、第1の実施の形態における判定モデルMD1を説明する図である。図9及び図10は、第1の実施の形態における判定モデルMD1の処理を説明する図である。
初めに、学習段階における判定モデルMD1の処理について説明を行う。
情報処理装置1は、図9に示すように、第1訓練データDT1に含まれる画像データIM1及び文字列データST1のペアと、第2訓練データDT2に含まれる画像データIM1及び文字列データST1のペアとを第1ニューラルネットワークNN1に入力する。
具体的に、情報処理装置1は、図9に示すように、例えば、第1訓練データDT1に含まれる画像データIM1a及び文字列データST1aからなるペアと、第2訓練データDT2に含まれる画像データIM1b及び文字列データST1bからなるペアと、第2訓練データDT2に含まれる画像データIM1c及び文字列データST1cからなるペアとを含む複数のペアを第1ニューラルネットワークNN1に入力する。
そして、第1ニューラルネットワークNN1は、例えば、画像データIM1a及び文字列データST1aのペアの入力を受け付けたことに応じて、画像データIM1aの特徴を示す画像ベクトルと文字列データST1aの特徴を示す文字列ベクトルとを算出して出力する。同様に、第1ニューラルネットワークNN1は、例えば、画像データIM1b及び文字列データST1bのペアの入力を受け付けたことに応じて、画像データIM1bの特徴を示す画像ベクトルと文字列データST1bの特徴を示す文字列ベクトルとを算出して出力する。さらに、第1ニューラルネットワークNN1は、例えば、画像データIM1c及び文字列データST1cのペアの入力を受け付けたことに応じて、画像データIM1cの特徴を示す画像ベクトルと文字列データST1cの特徴を示す文字列ベクトルとを算出して出力する。
次に、情報処理装置1は、例えば、画像データIM1aに対応する画像ベクトルと文字列データST1aに対応する文字列ベクトルとの内積を、画像データIM1aと文字列データST1aとの類似度として算出する。同様に、情報処理装置1は、例えば、画像データIM1bに対応する画像ベクトルと文字列データST1bに対応する文字列ベクトルとの内積を、画像データIM1bと文字列データST1bとの類似度として算出する。さらに、情報処理装置1は、例えば、画像データIM1cに対応する画像ベクトルと文字列データST1cに対応する文字列ベクトルとの内積を、画像データIM1cと文字列データST1cとの類似度として算出する。
その後、情報処理装置1は、例えば、第1訓練データDT1及び第2訓練データDT2のそれぞれの類似度と、第1訓練データDT1に含まれる画像データIM1と文字列データST1とのペア(正解ペア)を特定する情報とから算出される分類誤差が小さくなるように、第1ニューラルネットワークNN1の重みを調整する。
次に、推論段階における判定モデルの処理について説明を行う。
情報処理装置1は、図10に示すように、新たな訓練データDT3に含まれる画像データIM2及び文字列データST2のペアを第1ニューラルネットワークNN1に入力する。
そして、第1ニューラルネットワークNN1は、例えば、画像データIM2及び文字列データST2のペアの入力を受け付けたことに応じて、画像データIM2の特徴を示す画像ベクトルと文字列データST2の特徴を示す文字列ベクトルとを算出して出力する。
その後、情報処理装置1は、例えば、画像データIM2に対応する画像ベクトルと文字列データST2に対応する文字列ベクトルとの内積を、画像データIM2と文字列データST2との類似度として算出する。
そして、情報処理装置1は、例えば、算出した類似度を、新たな訓練データDT3に含まれる画像データIM2と文字列データST2との類似度として操作端末2に出力する。
すなわち、情報処理装置1は、図2から図5で説明した場合と異なり、第1ニューラルネットワークNN1のみを用いる判定モデルMD1(第2ニューラルネットワークNN2を有しない判定モデルMD1)の生成を行う。
これにより、情報処理装置1は、訓練データごとに異なる画像ベクトル及び文字列ベクトルの出力が可能な第1ニューラルネットワークNN1を生成することが可能になる。
[第1の実施の形態の詳細]
次に、第1の実施の形態の詳細について説明する。図11から図18は、第1の実施の形態における判定モデル生成処理の詳細を説明するフローチャート図である。また、図19及び図20は、第1の実施の形態における判定モデル生成処理の詳細を説明する図である。
[データ管理処理]
初めに、判定モデル生成処理のうち、第1訓練データDT1を情報格納領域130に記憶する処理(以下、データ管理処理とも呼ぶ)について説明を行う。図11は、データ学習処理について説明するフローチャート図である。
データ受信部111は、図11に示すように、例えば、操作端末2から送信された複数の訓練データDT1を受信するまで待機する(S21のNO)。
そして、複数の訓練データDT1を受信した場合(S21のYES)、データ管理部112は、S21の処理で受信した複数の訓練データDT1を情報格納領域130に記憶する(S22)。
[判定モデル生成処理のメイン処理]
次に、判定モデル生成処理のメイン処理について説明を行う。図12から図16は、判定モデル生成処理のメイン処理について説明するフローチャート図である。
データ生成部113は、図12に示すように、モデル生成タイミングになるまで待機する(S31のNO)。
そして、モデル生成タイミングになった場合(S31のYES)、データ生成部113は、情報格納領域130に記憶された複数の第1訓練データDT1のうちのいずれかの第1訓練データDT1を特定する(S32)。
続いて、データ生成部113は、S32の処理において特定した第1訓練データDT1に含まれる画像データIM1と文字列データST1とのうちの一方を他のデータに置換したR個の第2訓練データDT2を生成する(S33)。以下、S33の処理の詳細について説明を行う。
[S33の処理の詳細(1)]
初めに、S33の処理についての第1の実施例について説明を行う。図15は、S33の処理の詳細について説明するフローチャート図である。
データ生成部113は、図15に示すように、例えば、S32の処理において特定した第1訓練データDT1に含まれる画像データIM1をR個複製する(S61)。
そして、データ生成部113は、例えば、情報格納領域130に記憶した複数の第1訓練データDT1のそれぞれに含まれる複数の文字列データST1から、S32の処理において特定した第1訓練データDT1に含まれる文字列データST1以外のR個の文字列データST1を特定する(S62)。
その後、データ生成部113は、例えば、S61の処理において複製したR個の画像データIM1のそれぞれに対して、S62の処理において特定したR個の文字列データST1を対応付けることによって、R個の第2訓練データDT2を生成する(S63)。
[S33の処理の詳細(2)]
次に、S33の処理についての第2の実施例について説明を行う。図16は、S33の処理の詳細について説明する他のフローチャート図である。
データ生成部113は、例えば、S32の処理において特定した第1訓練データDT1に含まれる文字列データST1をR個複製する(S71)。
そして、データ生成部113は、例えば、情報格納領域130に記憶した複数の第1訓練データDT1のそれぞれに含まれる複数の画像データIM1から、S32の処理において特定した第1訓練データDT1に含まれる画像データIM1以外のR個の画像データIM1を特定する(S72)。
その後、データ生成部113は、例えば、S71の処理において複製したR個の文字列データST1のそれぞれに対して、S72の処理において特定したR個の画像データIM1を対応付けることによって、R個の第2訓練データDT2を生成する(S73)。
すなわち、情報処理装置1は、画像データIM1及び文字列データST1のうちのいずれかを一致させた複数の第2訓練データDT2を用いて判定モデルの生成を行うことによって、訓練データ間における関係性についての学習を促進させることが可能になる。
そのため、情報処理装置1は、画像データIM1及び文字列データST1の対応関係を精度良く判定する判定モデルを生成することが可能になる。
なお、データ生成部113は、例えば、R個の第2訓練データDT2のうちの一部をS61からS63までの処理を行うことによって生成し、R個の第2訓練データDT2のうちの他の一部をS71からS73までの処理を行うことによって生成するものであってもよい。
また、データ生成部113は、例えば、S61から63までの処理とS71からS73まで処理を並行して行うことによって、R個の第2訓練データDT2を生成するものであってもよい。
図12に戻り、ベクトル生成部114は、第1ニューラルネットワークNN1を用いることによって、S32の処理において特定した第1訓練データDT1とS33の処理において生成したR個の第2訓練データDT2とのそれぞれについて、画像データIM1についての画像ベクトルと文字列データST1についての文字列ベクトルとを算出する(S34)。
具体的に、ベクトル生成部114は、S32の処理において特定した第1訓練データDT1とS33の処理において生成したR個の第2訓練データDT2とのそれぞれを第1ニューラルネットワークNN1に入力する。そして、ベクトル生成部114は、第1ニューラルネットワークNN1から出力された画像ベクトル及び文字列ベクトルのそれぞれを、S32の処理において特定した第1訓練データDT1とS33の処理において生成したR個の第2訓練データDT2とのそれぞれについての画像ベクトル及び文字列ベクトルとして取得する。
そして、類似度算出部115は、S32の処理において特定した第1訓練データDT1とS33の処理において生成したR個の第2訓練データDT2とのそれぞれについて、S34の処理において算出した各ベクトルの内積を算出することによって、画像データIM1と文字列データST1との類似度を算出する(S35)。
続いて、モデル学習部116は、図13に示すように、S35の処理において算出した各類似度から算出される分類誤差が小さくなるように、第1ニューラルネットワークNN1の重みを調整する(S41)。
具体的に、モデル学習部116は、以下の式(1)に示す分類誤差Lが小さくなるように、第1ニューラルネットワークNN1の重みを調整する。
Figure 2022106147000002
上記の式(1)において、Eは、S32の処理において特定した第1訓練データDT1とS33の処理において生成したR個の第2訓練データDT2のうち、i番目の訓練データに対応する類似度を示している。また、Eは、S32の処理において特定した第1訓練データDT1に対応する類似度を示している。
次に、一致度算出部117は、S33の処理において生成したR個の第2訓練データDT2に含まれるいずれかの第2訓練データDT2を特定する(S42)。
そして、一致度算出部117は、S32の処理において特定した第1訓練データDT1及びS42の処理において特定した第2訓練データDT2のそれぞれについて、S34の処理において算出した各ベクトルの要素積を算出する(S43)。
さらに、一致度算出部117は、第2ニューラルネットワークNN2を用いることによって、S32の処理において特定した第1訓練データDT1に対応する要素積と、S42の処理において特定した第2訓練データDT2に対応する要素積とのそれぞれについて、画像データIM1と文字列データST1との一致度を算出する(S44)。
具体的に、一致度算出部117は、S44の処理において算出した要素積のそれぞれを第2ニューラルネットワークNN2に入力する。そして、一致度算出部117は、第2ニューラルネットワークNN2から出力された一致度のそれぞれを、S32の処理において特定した第1訓練データDT1に含まれる画像データIM1と文字列データST1との一致度と、S43の処理において特定した第2訓練データDT2に含まれる画像データIM1と文字列データST1との一致度として取得する。
続いて、モデル学習部116は、図14に示すように、S32の処理において特定した第1訓練データDT1についての一致度と、第1訓練データDT1に対応する値との誤差を算出する(S51)。
また、モデル学習部116は、S42の処理において特定した第2訓練データDT2についての一致度と、第2訓練データDT2に対応する値との誤差を算出する(S52)。
その後、モデル学習部116は、S51及びS52の処理において算出した誤差が小さくなるように、第1ニューラルネットワークNN1と第2ニューラルネットワークNN2との重みを調整する(S53)。
具体的に、例えば、S32の処理において特定した第1訓練データDT1についての一致度が0から1までの間の値であって、第1訓練データDT1に対応する値が1である場合、モデル学習部116は、S32の処理において特定した第1訓練データDT1についての一致度が1に近づくように、第2ニューラルネットワークNN2の重みを調整する。また、モデル学習部116は、S42の処理において特定した第2訓練データDT2についての一致度と、第2訓練データDT2に対応する値との誤差が小さくなるように、第1ニューラルネットワークNN1と第2ニューラルネットワークNN2との重みを調整する。
そして、モデル学習部116は、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2が所定の条件を満たしているか否かを判定する(S54)。
具体的に、モデル学習部116は、例えば、S51の処理において算出した誤差(第1訓練データDT1についての誤差)とS52の処理において算出した誤差(第2訓練データDT2についての誤差)との和を算出する。続いて、モデル学習部116は、例えば、算出した和とS35の処理において算出した各類似度から算出される分類誤差との平均を算出する。そして、例えば、算出した平均が所定の閾値を下回っている場合、モデル学習部116は、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2が所定の条件を満たしていると判定する。
その結果、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2が所定の条件を満たしていないと判定した場合(S55のNO)、情報処理装置1は、S32以降の処理を再度行う。
一方、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2が所定の条件を満たしていると判定した場合(S55のYES)、情報処理装置1は、判定モデル生成処理のメイン処理を終了する。
[データ推定処理(1)]
次に、判定モデル生成処理のうち、新たな訓練データDT3に含まれる画像データIM2の内容と文字列データST2の内容とが一致するか否かを判定する処理(以下、データ推定処理とも呼ぶ)についての第1の実施例について説明を行う。図17は、データ推定処理についての第1の実施例について説明するフローチャート図である。
データ受信部111は、図17に示すように、例えば、操作端末2から送信された新たな訓練データDT3を受信するまで待機する(S81のNO)。
そして、新たな訓練データDT3を受信した場合(S81のYES)、ベクトル生成部114は、第1ニューラルネットワークNN1を用いることによって、S81の処理において受信した新たな訓練データDT3に含まれる画像データIM2についての画像ベクトルと文字列データST2についての文字列ベクトルとを算出する(S82)。
具体的に、ベクトル生成部114は、新たな訓練データを第1ニューラルネットワークNN1に入力する。そして、ベクトル生成部114は、第1ニューラルネットワークNN1から出力された画像ベクトル及び文字列ベクトルを、新たな訓練データDT3についての画像ベクトル及び文字列ベクトルとして取得する。
そして、類似度算出部115は、例えば、S82の処理において算出した各ベクトルの内積を算出することによって、S81の処理において受信した新たな訓練データDT3に含まれる画像データIM2と文字列データST2との類似度を算出する(S83)。
その後、結果出力部118は、例えば、S83の処理において算出した類似度を出力する(S84)。
具体的に、結果出力部118は、例えば、S83の処理において算出した類似度を操作端末2に出力する。
なお、例えば、S83の処理において複数の新たな訓練データDT3のそれぞれについての類似度が算出された場合、結果出力部118は、複数の新たな訓練データDT3のそれぞれを示す情報を、S83の処理において算出された類似度の大きい順に出力するものであってもよい。
[データ推定処理(2)]
次に、データ推定処理についての第2の実施例について説明を行う。図18は、データ推定処理についての第2の実施例について説明するフローチャート図である。
データ受信部111は、図18に示すように、例えば、操作端末2から送信された新たな訓練データDT3を受信するまで待機する(S91のNO)。
そして、新たな訓練データDT3を受信した場合(S91のYES)、ベクトル生成部114は、第1ニューラルネットワークNN1を用いることによって、S81の処理において受信した新たな訓練データDT3に含まれる画像データIM2についての画像ベクトルと文字列データST2についての文字列ベクトルとを算出する(S92)。
そして、一致度算出部117は、S92の処理において算出した各ベクトルの要素積を算出する(S93)。
さらに、一致度算出部117は、第2ニューラルネットワークNN2を用いることによって、S91の処理において受信した新たな訓練データDT3に含まれる画像データIM2と文字列データST2との一致度を算出する(S94)。
具体的に、一致度算出部117は、S94の処理において算出した要素積を第2ニューラルネットワークNN2に入力する。そして、一致度算出部117は、第2ニューラルネットワークNN2から出力された一致度を、S91の処理において受信した新たな訓練データDT3に含まれる画像データIM2と文字列データST2との一致度として取得する。
その後、結果出力部118は、例えば、S94の処理において算出した一致度を出力する(S95)。
なお、例えば、S94の処理において複数の新たな訓練データDT3のそれぞれについての一致度が算出された場合、結果出力部118は、複数の新たな訓練データDT3のそれぞれを示す情報を、S94の処理において算出された一致度の大きい順に出力するものであってもよい。
[判定モデルの具体例(2)]
次に、第1の実施の形態における判定モデルMD2を説明する図である。図19及び図20は、第1の実施の形態における判定モデルMD2の処理を説明する図である。具体的に、図19及び図20は、図12から図18の内容に対応する判定モデルの処理を説明する図である。
初めに、学習段階における判定モデルMD2の処理について説明を行う。
情報処理装置1は、図19に示すように、第1訓練データDT1に含まれる画像データIM1及び文字列データST1のペアと、第2訓練データDT2に含まれる画像データIM1及び文字列データST1のペアとを第1ニューラルネットワークNN1に入力する。具体的に、情報処理装置1は、図19に示すように、第1訓練データDT1に含まれる画像データIM1a及び文字列データST1aからなるペアと、第2訓練データDT2に含まれる画像データIM1b及び文字列データST1bからなるペアと、第2訓練データDT2に含まれる画像データIM1c及び文字列データST1cからなるペアとを含む複数のペアを第1ニューラルネットワークNN1に入力する。
そして、第1ニューラルネットワークNN1は、例えば、画像データIM1a及び文字列データST1aのペアの入力を受け付けたことに応じて、画像データIM1aの特徴を示す画像ベクトルと文字列データST1aの特徴を示す文字列ベクトルとを算出して出力する。同様に、第1ニューラルネットワークNN1は、例えば、画像データIM1b及び文字列データST1bのペアの入力を受け付けたことに応じて、画像データIM1bの特徴を示す画像ベクトルと文字列データST1bの特徴を示す文字列ベクトルとを算出して出力する。さらに、第1ニューラルネットワークNN1は、例えば、画像データIM1c及び文字列データST1cのペアの入力を受け付けたことに応じて、画像データIM1cの特徴を示す画像ベクトルと文字列データST1cの特徴を示す文字列ベクトルとを算出して出力する。
続いて、情報処理装置1は、例えば、画像データIM1aに対応する画像ベクトルと文字列データST1aに対応する文字列ベクトルとの内積を、画像データIM1aと文字列データST1aとの類似度として算出する。同様に、情報処理装置1は、例えば、画像データIM1bに対応する画像ベクトルと文字列データST1bに対応する文字列ベクトルとの内積を、画像データIM1bと文字列データST1bとの類似度として算出する。さらに、情報処理装置1は、例えば、画像データIM1cに対応する画像ベクトルと文字列データST1cに対応する文字列ベクトルとの内積を、画像データIM1cと文字列データST1cとの類似度として算出する。
その後、情報処理装置1は、例えば、第1訓練データDT1及び第2訓練データDT2のそれぞれについての類似度と、第1訓練データDT1を示す情報(正解ペア)とから算出される分類誤差が小さくなるように、第1ニューラルネットワークNN1の重みを調整する。
また、情報処理装置1は、例えば、画像データIM1aに対応する画像ベクトルと文字列データST1aに対応する文字列ベクトルとの要素積と、画像データIM1bに対応する画像ベクトルと文字列データST1bに対応する文字列ベクトルとの要素積とを算出する。
そして、情報処理装置1は、画像データIM1a及び文字列データST1aに対応する要素積と、画像データIM1b及び文字列データST1bに対応する要素積とを第2ニューラルネットワークNN2に入力する。
続いて、第2ニューラルネットワークNN2は、例えば、画像データIM1a及び文字列データST1aに対応する要素積の入力を受け付けたことに応じて、画像データIM1aと文字列データST1aとの一致度を算出して出力する。また、第2ニューラルネットワークNN2は、例えば、画像データIM1b及び文字列データST1bに対応する要素積の入力を受け付けたことに応じて、画像データIM1bと文字列データST1bとの一致度を算出して出力する。
さらに、情報処理装置1は、画像データIM1aと文字列データST1aとの一致度と、第1訓練データDT1に対応する値(正解データ)との誤差が小さくなるように、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2の重みを調整する。また、情報処理装置1は、画像データIM1bと文字列データST1bとの一致度と、第2訓練データDT2に対応する値との誤差が小さくなるように、第1ニューラルネットワークNN1及び第2ニューラルネットワークNN2の重みを調整する。
次に、推論段階における判定モデルMD2の処理について説明を行う。
情報処理装置1は、図20に示すように、新たな訓練データDT3に含まれる画像データIM2及び文字列データST2のペアを第1ニューラルネットワークNN1に入力する。
そして、第1ニューラルネットワークNN1は、例えば、画像データIM2及び文字列データST2のペアの入力を受け付けたことに応じて、画像データIM2の特徴を示す画像ベクトルと文字列データST2の特徴を示す文字列ベクトルとを算出して出力する。
その後、情報処理装置1は、例えば、画像データIM2に対応する画像ベクトルと文字列データST2に対応する文字列ベクトルとの内積を、画像データIM2と文字列データST2との類似度として算出する。
そして、情報処理装置1は、例えば、算出した類似度を、新たな訓練データDT3に含まれる画像データIM2と文字列データST2との類似度として操作端末2に出力する。
また、情報処理装置1は、例えば、画像データIM2に対応する画像ベクトルと文字列データST2に対応する文字列ベクトルとの要素積を算出する。さらに、情報処理装置1は、算出した要素積を第2ニューラルネットワークNN2に入力する。
そして、第2ニューラルネットワークNN2は、例えば、画像データIM2及び文字列データST2に対応する要素積の入力を受け付けたことに応じて、画像データIM2と文字列データST2との一致度を算出して出力する。
その後、情報処理装置1は、例えば、第2ニューラルネットワークNN2から出力された一致度を、新たな訓練データDT3に含まれる画像データIM2と文字列データST2との一致度として操作端末2に出力する。
このように、本実施の形態における情報処理装置1は、画像データIM1と画像データIM1に対応する文字列データST1とを対応付けた第1訓練データDT1に基づいて、第1訓練データDT1に含まれる画像データIM1と文字列データST1のうちの一方を他のデータに置換した第2訓練データDT2を生成する。
そして、情報処理装置1は、第1訓練データDT1と第2訓練データDT2とを入力データとして、第1訓練データDT1及び第2訓練データDT2のうち、画像データIM1と文字列データST1との対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する。
すなわち、本実施の形態における情報処理装置1は、例えば、判定モデルに入力する画像データIM1及び文字列データST1についての複数のペアを生成する場合、同一の画像データIM1に対してそれぞれ異なる文字列データST1を組み合わせる。また、情報処理装置1は、この場合、同一の文字列データST1に対してそれぞれ異なる画像データIM1を組み合わせる。そして、情報処理装置1は、生成した複数のペアを用いることによって判定モデルの学習を行う。
これにより、情報処理装置1は、訓練データ間における細かな関係性についても判定モデルに学習させることが可能になる。そのため、情報処理装置1は、画像データIM1及び文字列データST1の対応関係を精度良く判定する判定モデルを生成することが可能になる。
なお、上記の例では、画像データIM1及び画像データIM2から画像ベクトルを生成する第1ニューラルネットワークNN1と、文字列データST1及び文字列データST2から文字列ベクトルを生成する第1ニューラルネットワークNN1とが同一のニューラルネットワークである場合について説明を行ったが、これらは、互いに異なるニューラルネットワークであってもよい。
これにより、情報処理装置1は、画像ベクトルを生成する第1ニューラルネットワークNN1の学習を画像データIM1のみを用いることによって行うことが可能になり、また、文字列ベクトルを生成する第1ニューラルネットワークNN1の学習を文字列データST1のみを用いることによって行うことが可能になる。そのため、情報処理装置1は、この場合、第1ニューラルネットワークNN1の学習を画像データIM1と文字列データST1とを同時に入力することによって行う必要がなくなり、第1ニューラルネットワークNN1の生成を効率的に行うことが可能になる。
以上の実施の形態をまとめると、以下の付記のとおりである。
(付記1)
画像データと前記画像データに対応する文字列データとを対応付けた第1訓練データに基づいて、前記第1訓練データに含まれる前記画像データと前記文字列データのうちの一方を他のデータに置換した第2訓練データを生成し、
前記第1訓練データと前記第2訓練データとを入力データとして、前記第1訓練データ及び前記第2訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、
処理をコンピュータに実行させることを特徴とする判定モデル生成プログラム。
(付記2)
付記1において、
前記第2訓練データを生成する処理では、複数の前記第1訓練データのそれぞれについて、各訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した1以上の前記第2訓練データを生成する、
ことを特徴とする判定モデル生成プログラム。
(付記3)
付記2において、
前記第2訓練データを生成する処理では、
前記複数の第1訓練データに含まれる一部のデータのそれぞれについて、各訓練データに含まれる前記画像データを他のデータに置換した1以上の前記第2訓練データを生成し、
前記複数の第1訓練データに含まれる他の一部のデータのそれぞれについて、各訓練データに含まれる前記文字列データを他のデータに置換した1以上の前記第2訓練データを生成する、
ことを特徴とする判定モデル生成プログラム。
(付記4)
付記1において、
前記判定モデルを生成する処理では、
前記第1訓練データ及び前記第2訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの類似度を算出し、
算出した前記類似度と、前記第1訓練データ及び前記第2訓練データのうちのいずれの訓練データが前記第1訓練データであるかを示す第1情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする判定モデル生成プログラム。
(付記5)
付記4において、
前記判定モデルを生成する処理では、前記第1訓練データ及び前記第2訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの内積を前記類似度として算出する、
ことを特徴とする判定モデル生成プログラム。
(付記6)
付記4において、
前記判定モデルを生成する処理では、前記第1情報と、前記第1訓練データ及び前記第2訓練データのそれぞれの前記対応関係が正しいか否かを示す第2情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする判定モデル生成プログラム。
(付記7)
画像データと前記画像データに対応する文字列データとを対応付けた第1訓練データに基づいて、前記第1訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第2訓練データを生成するデータ生成部と、
前記第1訓練データと前記第2訓練データとを入力データとして、前記第1訓練データ及び前記第2訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成するモデル学習部と、を有する、
ことを特徴とする情報処理装置。
(付記8)
付記7において、
前記モデル学習部は、
前記第1訓練データ及び前記第2訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの類似度を算出し、
算出した前記類似度と、前記第1訓練データ及び前記第2訓練データのそれぞれが前記第1訓練データ及び前記第2訓練データのうちのいずれであるかを示す第1情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする情報処理装置。
(付記9)
画像データと前記画像データに対応する文字列データとを対応付けた第1訓練データに基づいて、前記第1訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第2訓練データを生成し、
前記第1訓練データと前記第2訓練データとを入力データとして、前記第1訓練データ及び前記第2訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、
処理をコンピュータに実行させることを特徴とする判定モデル生成方法。
(付記10)
付記9において、
前記判定モデルを生成する処理では、
前記第1訓練データ及び前記第2訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの類似度を算出し、
算出した前記類似度と、前記第1訓練データ及び前記第2訓練データのそれぞれが前記第1訓練データ及び前記第2訓練データのうちのいずれであるかを示す第1情報とを用いることによって、前記判定モデルの生成を行う、
ことを特徴とする判定モデル生成方法。
1:情報処理装置 2:操作端末
10:情報処理システム NW:ネットワーク

Claims (8)

  1. 画像データと前記画像データに対応する文字列データとを対応付けた第1訓練データに基づいて、前記第1訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第2訓練データを生成し、
    前記第1訓練データと前記第2訓練データとを入力データとして、前記第1訓練データ及び前記第2訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、
    処理をコンピュータに実行させることを特徴とする判定モデル生成プログラム。
  2. 請求項1において、
    前記第2訓練データを生成する処理では、複数の前記第1訓練データのそれぞれについて、各訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した1以上の前記第2訓練データを生成する、
    ことを特徴とする判定モデル生成プログラム。
  3. 請求項2において、
    前記第2訓練データを生成する処理では、
    前記複数の第1訓練データに含まれる一部のデータのそれぞれについて、各訓練データに含まれる前記画像データを他のデータに置換した1以上の前記第2訓練データを生成し、
    前記複数の第1訓練データに含まれる他の一部のデータのそれぞれについて、各訓練データに含まれる前記文字列データを他のデータに置換した1以上の前記第2訓練データを生成する、
    ことを特徴とする判定モデル生成プログラム。
  4. 請求項1において、
    前記判定モデルを生成する処理では、
    前記第1訓練データ及び前記第2訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの類似度を算出し、
    算出した前記類似度と、前記第1訓練データ及び前記第2訓練データのうちのいずれの訓練データが前記第1訓練データであるかを示す第1情報とを用いることによって、前記判定モデルの生成を行う、
    ことを特徴とする判定モデル生成プログラム。
  5. 請求項4において、
    前記判定モデルを生成する処理では、前記第1訓練データ及び前記第2訓練データのそれぞれについて、各訓練データに含まれる前記画像データと前記文字列データとの内積を前記類似度として算出する、
    ことを特徴とする判定モデル生成プログラム。
  6. 請求項4において、
    前記判定モデルを生成する処理では、前記第1情報と、前記第1訓練データ及び前記第2訓練データのそれぞれの前記対応関係が正しいか否かを示す第2情報とを用いることによって、前記判定モデルの生成を行う、
    ことを特徴とする判定モデル生成プログラム。
  7. 画像データと前記画像データに対応する文字列データとを対応付けた第1訓練データに基づいて、前記第1訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第2訓練データを生成するデータ生成部と、
    前記第1訓練データと前記第2訓練データとを入力データとして、前記第1訓練データ及び前記第2訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成するモデル学習部と、を有する、
    ことを特徴とする情報処理装置。
  8. 画像データと前記画像データに対応する文字列データとを対応付けた第1訓練データに基づいて、前記第1訓練データに含まれる前記画像データ及び前記文字列データのうちの一方を他のデータに置換した第2訓練データを生成し、
    前記第1訓練データと前記第2訓練データとを入力データとして、前記第1訓練データ及び前記第2訓練データのうち、前記画像データと前記文字列データとの対応関係が正しい訓練データがどの訓練データであるか示す情報を出力する判定モデルを生成する、
    処理をコンピュータに実行させることを特徴とする判定モデル生成方法。
JP2021000937A 2021-01-06 2021-01-06 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法 Pending JP2022106147A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021000937A JP2022106147A (ja) 2021-01-06 2021-01-06 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法
US17/502,290 US20220215203A1 (en) 2021-01-06 2021-10-15 Storage medium, information processing apparatus, and determination model generation method
EP21203124.9A EP4027270A1 (en) 2021-01-06 2021-10-18 Determination model generation program, information processing apparatus, and determination model generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021000937A JP2022106147A (ja) 2021-01-06 2021-01-06 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法

Publications (1)

Publication Number Publication Date
JP2022106147A true JP2022106147A (ja) 2022-07-19

Family

ID=78528607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021000937A Pending JP2022106147A (ja) 2021-01-06 2021-01-06 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法

Country Status (3)

Country Link
US (1) US20220215203A1 (ja)
EP (1) EP4027270A1 (ja)
JP (1) JP2022106147A (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8625887B2 (en) * 2011-07-13 2014-01-07 Google Inc. Systems and methods for matching visual object components
TWI643155B (zh) * 2017-01-18 2018-12-01 陳兆煒 認知訓練系統
US10346721B2 (en) * 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
KR102114267B1 (ko) * 2019-12-10 2020-05-22 셀렉트스타 주식회사 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치
KR102114223B1 (ko) * 2019-12-10 2020-05-22 셀렉트스타 주식회사 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치

Also Published As

Publication number Publication date
EP4027270A1 (en) 2022-07-13
US20220215203A1 (en) 2022-07-07

Similar Documents

Publication Publication Date Title
US10394854B2 (en) Inferring entity attribute values
EP3671572A1 (en) Information processing apparatus, neural network program, and processing method for neural network
US9269055B2 (en) Data classifier using proximity graphs, edge weights, and propagation labels
Oszust Full-reference image quality assessment with linear combination of genetically selected quality measures
JP6338036B1 (ja) テーブル意味推定システム、方法およびプログラム
US20200293722A1 (en) Word vector retrofitting method and apparatus
Zhang et al. Surrogate-assisted genetic programming for dynamic flexible job shop scheduling
WO2019045802A1 (en) LEARNING DISTANCE MEASUREMENT USING PROXY MEMBERS
JP2021507421A (ja) システム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体
CN112966081B (zh) 处理问答信息的方法、装置、设备和存储介质
CN110909758A (zh) 计算机可读记录介质、学习方法和学习装置
KR20190075277A (ko) 콘텐트 검색을 위한 방법 및 그 전자 장치
JPWO2004084096A1 (ja) 事例分類装置および方法
JP6933217B2 (ja) テーブル意味推定システム、方法およびプログラム
US11593664B2 (en) Method and computational tool for determining transfer functions between pairs of successive layers of a neural network
JP2022106147A (ja) 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法
KR102093079B1 (ko) 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
US20230409929A1 (en) Methods and apparatuses for training prediction model
CN112183571A (zh) 预测方法、预测装置以及计算机可读记录介质
CN115880506B (zh) 图像生成方法、模型的训练方法、装置及电子设备
CN115906921B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
JP7052438B2 (ja) 学習データ生成方法、学習データ生成プログラムおよびデータ構造
JP6349477B1 (ja) 類似度判定プログラム
Li et al. Twice Class Bias Correction for Imbalanced Semi-Supervised Learning
JP7401747B2 (ja) 類別プログラム、類別装置及び類別方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240520