JP2024512628A

JP2024512628A - キャプション生成器を生成するための方法および装置、並びにキャプションを出力するための方法および装置

Info

Publication number: JP2024512628A
Application number: JP2023559796A
Authority: JP
Inventors: ▲イン▼▲ウェイ▼ 潘; ▲業▼豪李; 霆姚; 涛 ▲梅▼
Original assignee: 京▲東▼科技控股股▲フン▼有限公司
Priority date: 2021-03-30
Filing date: 2022-01-06
Publication date: 2024-03-19
Also published as: CN113052090A; CN113052090B; WO2022206094A1

Abstract

本開示の実施形態は、キャプション生成器を生成するための方法および装置、ならびにキャプションを出力するための方法および装置を開示する。該方法の具体的な実施形態は、サンプル画像セットを取得するステップと、サンプル画像セットを文生成器の画像エンコーダに入力し、オブジェクトセットを出力するステップと、オブジェクトセットを、所定のオブジェクトセットに含まれているオブジェクトセットである第１のオブジェクトセットと、所定のオブジェクトセットから除外されたオブジェクトセットである第２のオブジェクトセットとにグループ化するステップと、画像エンコーダにより出力されたオブジェクトセットを文生成器の文デコーダに入力し、復号ステップにおいて、第1のオブジェクトセットと第２のオブジェクトセットを制約条件としてビームサーチを行い、擬似画像文ペアのセットを生成するステップと、擬似画像文ペアのセットをサンプルセットとして文生成器をトレーニングし、キャプション生成器を取得するステップと、を含む。

Description

＜関連出願の相互参照＞
本開示は、２０２１年３月３０日に提出した、出願番号が２０２１１０３３８０４５．Ｘ、発明の名称が「キャプション生成器を生成するための方法および装置、並びにキャプションを出力するための方法および装置」である中国特許出願の優先権を主張し、当該出願の全文が引用により本開示に組み込まれる。

本開示の実施形態はコンピュータ技術分野に関し、具体的には、キャプション生成器を生成するための方法および装置、並びにキャプションを出力するための方法および装置に関する。

イメージキャプショニングは、自然言語文で画像を自動的に説明する技術であり、新規で急速に成長している研究テーマである。

関連技術では、ほとんどのキャプション生成器は注釈付きの画像－文ペアでトレーニングされ、まず、入力画像を畳み込みニューラルネットワークで符号化し、次に、再帰型ニューラルネットワークで文を復号化するコーデックパラダイムに従って動作する。一連の作業により画像キャプションの注意メカニズムをアップグレードして、視覚コンテンツと自然文との間のクロスドメインベースを強化している。

関連技術は大量のトレーニング用の画像文ペアに大きく依存しており、一方では、これらのトレーニング用の画像文ペアの取得は極めて高価で時間がかかり、他方では、トレーニング用の画像文ペアに過度に依存すると、キャプション生成器の広範な適用が妨げられる。

本開示の実施形態は、キャプション生成器を生成するための方法および装置、並びにキャプションを出力するための方法および装置を提供する。

本開示の実施形態は、サンプル画像セットを取得するステップと、サンプル画像セットを文生成器の画像エンコーダに入力し、オブジェクトセットを出力するステップと、オブジェクトセットを、所定のオブジェクトセットに含まれているオブジェクトセットである第１のオブジェクトセットと、所定のオブジェクトセットから除外されたオブジェクトセットである第２のオブジェクトセットとにグループ化するステップと、画像エンコーダにより出力されたオブジェクトセットを文生成器の文デコーダに入力し、復号ステップにおいて、第１のオブジェクトセットと第２のオブジェクトセットを制約条件としてビームサーチを行い、擬似画像文ペアのセットを生成するステップと、擬似画像文ペアのセットをサンプルセットとして文生成器をトレーニングし、キャプション生成器を取得するステップと、を含む、キャプション生成器を生成するための方法を提供する。

一部の実施形態において、該方法は、文識別器によってキャプション生成器を敵対的トレーニングして、キャプション生成器を最適化する方法と、キャプション生成器によって識別されたオブジェクトの、キャプション生成器から出力された文における包含度によって、キャプション生成器を最適化する方法と、クエリ画像、ポジティブ画像、ネガティブ画像を含む画像トリプレットと、対応する生成文との間の意味的相関性によって、キャプション生成器を最適化する方法とのうちの少なくとも１つによって、キャプション生成器を最適化するステップをさらに含む。

いくつかの実施形態において、文識別器によってキャプション生成器を敵対的トレーニングしてキャプション生成器を最適化する方法は、画像および対応する実文を含む第１のサンプルからなる、予め設定された第１のサンプルセットを抽出するステップと、入力された画像を画像符号化した後、文復号化を行って擬似文を取得するためのキャプション生成器と、入力された文がキャプション生成器から出力された擬似文であるか否かを判定するための文識別器とを備える、予め作成された敵対的生成ネットワークを抽出するステップと、機械学習方法に基づいて、第１のサンプルセットから第１のサンプルを選択し、選択された第１のサンプルにおける画像をキャプション生成器に入力して、擬似文を出力するステップと、擬似文および選択された第１のサンプルにおける実文を文識別器に入力し、識別結果を入力するステップと、出力された識別結果に基づいて、文識別器の正解率を統計するステップと、正解率が所定値に達した場合、キャプション生成器のトレーニングが完了したと判定するステップとを含む、第１のトレーニングステップを実行するステップと、を含む。

いくつかの実施形態において、該方法は、正解率が所定値に達していない場合、文識別器の敵対的損失を計算し、敵対的損失が小さくなるように文識別器の関連パラメータを調整し、第１のサンプルセットから第１のサンプルを再選択し、第１のトレーニングステップを引き続き実行するステップをさらに含む。

いくつかの実施形態において、該方法は、正解率が所定値に達していない場合、キャプション生成器の敵対的報酬を計算し、敵対的報酬が増加するようにキャプション生成器の関連パラメータを調整し、第１のサンプルセットから第１のサンプルを再選択し、第１のトレーニングステップを引き続き実行するステップをさらに含む。

いくつかの実施形態において、キャプション生成器によって識別されたオブジェクトの、キャプション生成器から出力された文における包含度によって、キャプション生成器を最適化する方法は、画像を含む第２のサンプルからなる、予め設定された第２のサンプルセットを抽出するステップと、機械学習方法に基づいて、第２のサンプルセットからサンプルを選択し、選択された第２のサンプルにおける画像をキャプション生成器の画像エンコーダに入力し、サンプルオブジェクトセットを出力するステップと、サンプルオブジェクトセットをキャプション生成器の文デコーダに入力し、擬似文を出力するステップと、擬似文に、サンプルオブジェクトセットにおけるサンプルオブジェクトを含む信頼度平均スコアを計算し、擬似文のオブジェクト包含報酬とするステップと、オブジェクト包含報酬が所定の包含報酬閾値に達した場合、キャプション生成器のトレーニングが完了したと判定するステップと、を含む第２のトレーニングステップを実行するステップと、を含む。

いくつかの実施形態において、該方法は、オブジェクト包含報酬が所定の包含報酬閾値に達していない場合、オブジェクト包含報酬が増加するようにキャプション生成器の関連パラメータを調整し、第２のサンプルセットから第２のサンプルを再選択し、第２のトレーニングステップを引き続き実行するステップをさらに含む。

いくつかの実施形態において、画像トリプレットと対応する生成文との間の意味的相関性によって、キャプション生成器を最適化する方法は、クエリ画像、ポジティブ画像およびネガティブ画像を含み、ポジティブ画像はクエリ画像と少なくとも２つのオブジェクトを共有し、ネガティブ画像はクエリ画像と共通のオブジェクトがない第３のサンプルからなる、予め設定された第３のサンプルセットを抽出するステップと、機械学習方法に基づき、第３のサンプルセットから第３のサンプルを選択し、選択された第３のサンプルにおけるクエリ画像、ポジティブ画像およびネガティブ画像をそれぞれキャプション生成器に入力し、クエリ文、ポジティブ文およびネガティブ文を出力するステップと、クエリ文とポジティブ文との間の第１の意味的類似度を計算し、クエリ文とネガティブ文との間の第２の意味的類似度を計算するステップと、第１の意味的類似度と第２の意味的類似度に基づいて、自己監視トリプレット損失を計算するステップと、自己監視トリプレット損失が所定の損失閾値未満である場合、キャプション生成器のトレーニングが完了したと判断するステップとを含む第３のトレーニングステップを実行するステップと、を含む。

いくつかの実施形態において、該方法は、自己監視トリプレット損失が所定の損失閾値以上である場合、自己監視トリプレット損失が小さくなるようにキャプション生成器の関連パラメータを調整し、第３のサンプルセットから第３のサンプルを再選択し、第３のトレーニングステップを引き続き実行するステップをさらに含む。

いくつかの実施形態において、クエリ文とポジティブ文との間の第１の意味的類似度を計算し、クエリ文とネガティブ文との間の第２の意味的類似度を計算するステップは、クエリ文、ポジティブ文およびネガティブ文に対して、文中における各単語のオブジェクトベースの確率分布をそれぞれ計算し、最大プーリング操作を行って、クエリ文の特徴、ポジティブ文の特徴およびネガティブ文の特徴をそれぞれ取得するステップと、クエリ文の特徴とポジティブ文の特徴との間の第１の意味的類似度を計算し、クエリ文の特徴とネガティブ文の特徴との間の第２の意味的類似度を計算するステップと、を含む。

いくつかの実施形態において、該方法は、敵対的報酬、オブジェクト包含報酬および自己監視トリプレット損失の加重合計が所定の目標値より大きい場合、加重合計が小さくなるように、キャプション生成器の関連パラメータを調整するステップをさらに含む。

いくつかの実施形態において、画像エンコーダは、領域レベルの注意メカニズムを備えた２層のＬＳＴＭを含み、第１層のＬＳＴＭはトップダウンの注意モジュールとして機能し、コンテキスト情報に基づいてオブジェクトレベルの注意を計算し、第２層のＬＳＴＭは文を生成するための言語モデルである。

本開示の実施形態は、処理対象の画像を取得するステップと、キャプション生成器を生成するための上記方法によって生成されたキャプション生成器に画像を入力し、画像に対応するキャプションを出力するステップと、を含む、キャプションを出力するための方法をさらに提供する。

本開示の実施形態は、サンプル画像セットを取得するように構成される取得ユニットと、サンプル画像セットを文生成器の画像エンコーダに入力し、オブジェクトセットを出力するように構成される符号化ユニットと、オブジェクトセットを、所定のオブジェクトセットに含まれているオブジェクトセットである第１のオブジェクトセットと、所定のオブジェクトセットから除外されたオブジェクトセットである第２のオブジェクトセットとにグループ化するように構成されるグループ化ユニットと、画像エンコーダにより出力されたオブジェクトセットを文生成器の文デコーダに入力し、復号ステップにおいて、第１のオブジェクトセットと第２のオブジェクトセットを制約条件としてビームサーチを行い、擬似画像文ペアのセットを生成するように構成される復号化ユニットと、擬似画像文ペアのセットをサンプルセットとして文生成器をトレーニングし、キャプション生成器を取得するように構成されるトレーニングユニットと、を備える、キャプション生成器を生成するための装置をさらに提供する。

いくつかの実施形態において、該装置は、文識別器によってキャプション生成器を敵対的トレーニングして、キャプション生成器を最適化する方法、キャプション生成器によって識別されたオブジェクトの、キャプション生成器から出力された文における包含度によって、キャプション生成器を最適化する方法、クエリ画像、ポジティブ画像、ネガティブ画像を含む画像トリプレットと、対応する生成文との間の意味的相関によって、キャプション生成器を最適化する方法の少なくとも１つによって、キャプション生成器を最適化するように構成される最適化ユニットをさらに備える。

いくつかの実施形態において、最適化ユニットは、さらに、画像および対応する実文を含む第１のサンプルからなる、予め設定された第１のサンプルセットを抽出するステップと、入力された画像を画像符号化した後、文の復号化を行って、擬似文を取得するためのキャプション生成器と、入力された文がキャプション生成器から出力された擬似文であるか否かを判定するための文識別器とを備える、予め作成された敵対的生成ネットワークを抽出するステップと、機械学習方法に基づいて、第１のサンプルセットから第１のサンプルを選択し、選択された第１のサンプルにおける画像をキャプション生成器に入力して、擬似文を出力するステップと、擬似文と選択された第１のサンプルにおける実文を文識別器に入力し、識別結果を入力するステップと、出力された識別結果に基づいて、文識別器の正解率を統計するステップと、正解率が所定値に達した場合、キャプション生成器のトレーニングが完了したと判断するステップとを含む、第１のトレーニングステップを実行するステップと、実行するように構成される。

いくつかの実施形態において、最適化ユニットは、さらに、正解率が所定値に達していない場合、文識別器の敵対的損失を計算し、敵対的損失が小さくなるように文識別器の関連パラメータを調整し、第１のサンプルセットから第１のサンプルを再選択し、第１のトレーニングステップを引き続き実行するように構成される。

いくつかの実施形態において、最適化ユニットは、さらに、正解率が所定値に達していない場合、キャプション生成器の敵対的報酬を計算し、敵対的報酬が増加するようにキャプション生成器の関連パラメータを調整し、第１のサンプルセットから第１のサンプルを再選択し、第１のトレーニングステップを引き続き実行するように構成される。

いくつかの実施形態において、最適化ユニットは、さらに、画像を含む第２のサンプルからなる、予め設定された第２のサンプルセットを抽出するステップと、機械学習方法に基づいて、第２のサンプルセットからサンプルを選択し、選択された第２のサンプルにおける画像をキャプション生成器の画像エンコーダに入力し、サンプルオブジェクトセットを出力するステップと、サンプルオブジェクトセットをキャプション生成器の文デコーダに入力し、擬似文を出力するステップと、擬似文に、サンプルオブジェクトセットにおけるサンプルオブジェクトを含む信頼度平均スコアを計算し、擬似文のオブジェクト包含報酬とするステップと、オブジェクト包含報酬が所定の包含報酬閾値に達した場合、キャプション生成器のトレーニングが完了したと判断するステップと、を含む第２のトレーニングステップを実行するステップと、を実行するように構成される。

いくつかの実施形態において、最適化ユニットは、さらに、オブジェクト包含報酬が所定の包含報酬閾値に達していない場合、オブジェクト包含報酬が増加するようにキャプション生成器の関連パラメータを調整し、第２のサンプルセットから第２のサンプルを再選択し、第２のトレーニングステップを引き続き実行するように構成される。

いくつかの実施形態において、最適化ユニットは、さらに、クエリ画像、ポジティブ画像およびネガティブ画像を含み、ポジティブ画像はクエリ画像と少なくとも２つのオブジェクトを共有し、ネガティブ画像はクエリ画像と共通のオブジェクトがない第３のサンプルからなる、予め設定された第３のサンプルセットを抽出するステップと、機械学習装置に基づいて、第３のサンプルセットから第３のサンプルを選択し、選択された第３のサンプルにおけるクエリ画像、ポジティブ画像およびネガティブ画像をそれぞれキャプション生成器に入力し、クエリ文、ポジティブ文およびネガティブ文を出力するステップと、クエリ文とポジティブ文との間の第１の意味的類似度を計算し、クエリ文とネガティブ文との間の第２の意味的類似度を計算するステップと、第１の意味的類似度と第２の意味的類似度に基づいて、自己監視トリプレット損失を計算するステップと、自己監視トリプレット損失が所定の損失閾値未満である場合、キャプション生成器のトレーニングが完了したと判断するステップとを含む第３のトレーニングステップを実行するステップとを実行するように構成される。

いくつかの実施形態において、最適化ユニットは、さらに、自己監視トリプレット損失が所定の損失閾値以上である場合、自己監視トリプレット損失が小さくなるようにキャプション生成器の関連パラメータを調整し、第３のサンプルセットから第３のサンプルを再選択し、第３のトレーニングステップを引き続き実行するように構成される。

いくつかの実施形態において、最適化ユニットは、さらに、クエリ文、ポジティブ文およびネガティブ文に対して、それぞれ文中における各単語のオブジェクトベースの確率分布を計算し、最大プーリング操作を行って、クエリ文の特徴、ポジティブ文の特徴およびネガティブ文の特徴をそれぞれ取得するステップと、クエリ文の特徴とポジティブ文の特徴との間の第１の意味的類似度を計算し、クエリ文の特徴とネガティブ文の特徴との間の第２の意味的類似度を計算するステップとを実行するように構成される。

いくつかの実施形態において、最適化ユニットは、さらに、敵対的報酬、オブジェクト包含報酬および自己監視トリプレット損失の加重合計が所定の目標値より大きい場合、加重合計が小さくなるように、キャプション生成器の関連パラメータを調整するように構成される。

本開示の実施形態は、処理対象の画像を取得するように構成される取得ユニットと、キャプション生成器を生成するための上記方法によって生成されたキャプション生成器に画像を入力し、画像に対応するキャプションを出力するように構成される出力ユニットと、を備える、キャプションを出力するための装置を提供する。

本開示の実施形態は、少なくとも１つのプロセッサと、少なくとも１つのコンピュータプログラムが格納されているメモリと、を備え、少なくとも１つのコンピュータプログラムが少なくとも１つのプロセッサによって実行される場合、少なくとも１つのプロセッサが上記のキャプション生成器を生成するための方法を実現する電子機器を提供する。

本開示の実施形態は、プロセッサにより実行される場合、上記のキャプション生成器を生成するための方法を実現するコンピュータプログラムが格納されているコンピュータ可読媒体を提供する。

以下の図面を参照して行われる非限定的な実施形態の詳細な説明を閲読することにより、本開示のその他の特徴、目的および利点がより明らかになる。

本開示の一実施形態が適用可能な例示的なシステムアーキテクチャである。本開示によるキャプション生成器を生成するための方法の一実施形態のフローチャートである。本開示によるキャプション生成器を生成するための方法の一つの応用シーンの概略図である。本開示によるキャプションを出力するための方法の一つの実施形態のフローチャートである。本開示によるキャプション生成器を生成するための装置の一実施形態の構造概略図である。本開示によるキャプションを出力するための装置の一実施形態の構造概略図である。本開示の一実施形態の電子機器を実装するのに適したコンピュータシステムの構造概略図である。

以下、添付図面に実施形態を組み合わせて本開示をさらに詳細に説明する。本明細書で説明する具体的な実施形態は、単に関連する技術的手段を解釈するためのものであって、該技術的手段に限定されるものではないことを理解されたい。なお、説明の便宜上、図面には当該技術的手段に関連する部分のみが示されている。

そして、本開示における実施形態および実施形態における特徴は矛盾しない限り、互いに組み合わせることができることを理解すべきである。以下、添付図面を参照し、実施形態を組み合わせて本開示を詳細に説明する。

図１は、本開示の実施形態のキャプション生成器を生成するための方法、キャプション生成器を生成するための装置、キャプションを出力するための方法またはキャプションを出力するための装置を適用することができる例示的なシステムアーキテクチャー１００を示す。

図１に示されるように、システムアーキテクチャー１００は、端末１０１、１０２、ネットワーク１０３、データベースサーバ１０４およびサーバ１０５を含むことができる。ネットワーク１０３は、端末１０１、１０２、データベースサーバ１０４とサーバ１０５との間に通信リンクを提供するための媒体として使用される。ネットワーク１０３は、例えば、有線、無線通信リンクまたは光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザ１１０は、端末１０１、１０２を使用してネットワーク１０３を介してサーバ１０５とインタラクションを行って、メッセージなどを送受信することができる。端末１０１、１０２には、モデルトレーニングアプリケーション、キャプション生成アプリケーション、画像処理アプリケーション、ショッピングアプリケーション、支払いアプリケーション、Ｗｅｂブラウザおよびインスタントメッセージングツールなどの様々なクライアントアプリケーションがインストールされることができる。

端末１０１、１０２は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末１０１、１０２がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ＭＰ３プレーヤー（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、ムービングピクチャーエキスパートグループオーディオレイヤー３）、ラップトップコンピュータおよびデスクトップコンピュータなどを含むがこれらに限定されない、ディスプレイを有する様々な電子機器であってもよい。端末１０１、１０２がソフトウェアである場合、上記に挙げられた電子機器にインストールされることができる。それらは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するために使用される）として実装されてもよいし、単独のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定されない。

端末１０１、１０２がハードウェアである場合、画像採集装置が搭載されてもよい。画像採集装置は、カメラ、センサなど、画像採集機能を実現可能な様々な装置であってもよい。ユーザ１１０は、端末１０１および１０２上の画像採集装置を使用して、様々なシーンの画像を採集することができる。

データベースサーバ１０４は、様々なサービスを提供するデータベースサーバであってもよい。例えば、データベースサーバにサンプルセットを格納することができる。サンプルセットには大量のサンプルが含まれている。サンプルは、サンプル画像およびサンプル画像に対応する文を含むことができる。このように、ユーザ１１０は、端末１０１、１０２を介して、データベースサーバ１０４に格納されているサンプルセットからサンプルを選択することができる。

サーバ１０５はまた、様々なサービスを提供するサーバ、例えば、端末１０１および１０２に表示される様々なアプリケーションをサポートするバックエンドサーバであってもよい。バックエンドサーバは、端末１０１および１０２によって送信されたサンプルセットにおけるサンプルを使用して初期モデルをトレーニングし、トレーニング結果（生成されたキャプション生成器など）を端末１０１および１０２に送信することができる。このようにして、ユーザは生成されたキャプション生成器を適用して、画像にキャプションを生成することができる。

ここでのデータベースサーバ１０４およびサーバ１０５は同様にハードウェアであってもよいし、ソフトウェアであってもよい。ハードウェアである場合、複数のサーバで構成される分散サーバクラスターとして実装されてもよいし、単一のサーバとして実装されてもよい。ソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するために使用される）として実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定されない。

なお、本開示の実施形態により提供されるキャプション生成器を生成するための方法またはキャプションを出力するための方法は、一般にサーバ１０５によって実行される。従って、キャプション生成器を生成するための装置またはキャプションを出力するための装置は、一般にサーバ１０５に設けられる。

サーバ１０５がデータベースサーバ１０４の関連機能を実装できる場合、システムアーキテクチャ１００はデータベースサーバ１０４を設けなくてもよいことに留意されたい。

図１の端末、ネットワーク、データベースサーバおよびサーバの数は単なる例示であることを理解すべきである。実装のニーズに応じて、任意の数の端末、ネットワーク、データベースサーバおよびサーバを有することができる。

引き続き、図２を参照し、本開示によるキャプション生成器を生成するための方法の一実施形態のフロー２００を示す。キャプション生成器を生成するための該方法は、以下のステップを含んでもよい。

ステップ２０１では、サンプル画像セットを取得する。

本実施形態では、キャプション生成器を生成するための方法の実行主体（例えば、図１に示すサーバ）は、データベースサーバから予め記憶されているサンプル画像セットを取得することができる。また、端末で撮影した画像をサンプル画像として端末から取得することができる。

ステップ２０２では、文生成器の画像エンコーダにサンプル画像セットを入力し、オブジェクトセットを出力する。

本実施形態では、文生成器は初期キャプション生成器であり、入力された画像を文に変換するニューラルネットワークである。文生成器は、画像エンコーダおよび文デコーダを含んでもよい。

画像エンコーダは、入力画像ごとに中間表現を生成し、本開示では、画像エンコーダとして最も一般的なオブジェクト検出モデル（ＦａｓｔｅｒＲ－ＣＮＮ）を使用して画像におけるオブジェクトを検出し、実際の応用では他の画像エンコーダを使用することもできる。各画像Ｉ_ｉ
を一組の顕著な画像領域
に符号化し、これには、人、花、草、木、椅子、犬など、検出されたＫ個のオブジェクトが含まれる。

ステップ２０３では、オブジェクトセットを第１のオブジェクトセットと第２のオブジェクトセットにグループ化する。

本実施形態では、第１のオブジェクトセットは、所定のオブジェクトセットに含まれているオブジェクトセットであり、第２のオブジェクトセットは、所定のオブジェクトセットから除外されたオブジェクトセットである。技術上、入力画像Ｉ_ｉが与えられると、オブジェクト検出モデル（ＦａｓｔｅｒＲ－ＣＮＮなど）によって、
例えば、所定のオブジェクトセットが建物、車、人、花、草、木を含み、オブジェクトセットが人、花、草、木、椅子、犬を含む場合、第１のオブジェクトセット（所定のオブジェクトセットに含まれているオブジェクトセット）には、人、花、草、木が含まれ、第２のオブジェクトセット（除外されたオブジェクトセット）には、椅子、犬が含まれる。

ステップ２０４では、画像エンコーダによって出力されたオブジェクトセットを文生成器の文デコーダに入力し、復号ステップにおいて、第１のオブジェクトセットおよび第２のオブジェクトセットを制約条件としてビームサーチを行い、擬似画像文ペアのセットを生成する。

本実施形態において、画像エンコーダによって生成された中間表現が与えられると、出力された文は文デコーダによって逐語的に復号される。ボトムアップ注意モデル（Ｂｏｔｔｏｍ－ｕｐａｎｄＴｏｐ－Ｄｏｗｎ）を参照すると、文デコーダは領域レベルの注意メカニズムを備えた２層のＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ，長短期記憶ネットワーク）として実装できる。第１層のＬＳＴＭ（ＬＳＴＭ^１）はトップダウン注意モジュールとして機能し、コンテキスト情報に基づいてオブジェクトレベルの注意を計算し、第２層のＬＳＴＭ（ＬＳＴＭ^２）は文を生成するための言語モデルである。
（ここで、Ｗ_Ｅは線形埋め込み行列であり、単語予測のために、ｈ_ｔ ^２を語彙空間に射影する）が取得される。

事前トレーニングされたキャプション生成器を使用して擬似画像文ペアを生成する自然な方法は、ビームサーチ（ｂｅａｍｓｅａｒｃｈ）を使用する方法であり、これは、各復号ステップでビームＢ_ｔを維持し、ｂ個の最も可能性の高い文の一部を含むヒューリスティックサーチアルゴリズムである。ただし、入力画像と出力文の間の意味的相関性は推論時の文生成に十分に活用されていない。この問題を緩和するために、本開示は、識別されたオブジェクトが含まれ、無関係なオブジェクトが除外されるようにビームサーチが再構築された、意味的制約ビームサーチを設計した。

技術上、入力画像Ｉ_ｉが与えられると、オブジェクト検出モデル（ＦａｓｔｅｒＲ－ＣＮＮなど）によって、
識別された
におけるオブジェクトおよび除外された
におけるオブジェクトを制約条件とし、有限状態マシン（Ｆｉｎｉｔｅ－ｓｔａｔｅｍａｃｈｉｎｅ）を使用してこの制約を実行し、これにより、有限状態マシンは、オブジェクト包含制約をすべて満たす単語シーケンスを識別し、ビームサーチアルゴリズムを有限状態マシンと組み合わせることができる。具体的には、
したがって、有限状態マシンの設計では、状態を受け入れるための単語シーケンスが包含条件を満たすとともに、無関係なオブジェクトはすべて除外される必要がある。

擬似画像文ペアのセットにおける各擬似画像文ペアは画像と文を含み、画像と文はペアでなくてもよい。

ステップ２０５では、擬似画像文ペアのセットをサンプルセットとして文生成器をトレーニングし、キャプション生成器を取得する。

本実施形態では、
を使用して、擬似画像文ペアのセットを表すことができ、
は生成された擬似文を表し、これらの擬似画像文ペアを使用して、次のクロスエントロピー損失を有するキャプション生成器を直接トレーニングできる。

（ここで、θは文デコーダのパラメータを表す。）

本実施形態のいくつかのオプション的な実施形態では、該方法は、文識別器によってキャプション生成器を敵対的トレーニングして、キャプション生成器を最適化する方法と、キャプション生成器によって識別されたオブジェクトの、キャプション生成器から出力された文における包含度によって、キャプション生成器を最適化する方法と、クエリ画像、ポジティブ画像、ネガティブ画像を含む画像トリプレットと、対応する生成文との間の意味的相関性によって、キャプション生成器を最適化する方法とのうちの少なくとも１つによって、キャプション生成器を最適化するステップをさらに含む。

キャプション生成器は、上記のいずれかの方法で最適化することができ、また、いずれかの２つの方法を組み合わせて最適化することもできる。３つの方法を組み合わせてキャプション生成器を最適化することもできる。

本実施形態のいくつかのオプション的な実施形態では、文識別器によって前記キャプション生成器を敵対的トレーニングして前記キャプション生成器を最適化する方法は、画像および対応する実文を含む第１のサンプルからなる、予め設定された第１のサンプルセットを抽出するステップと、入力された画像を画像符号化した後、文の復号化を行って、擬似文を取得するためのキャプション生成器と、入力された文が前記キャプション生成器から出力された擬似文であるか否かを判断するための文識別器とを備える、予め作成された敵対的生成ネットワークを抽出するステップと、機械学習方法に基づいて、前記第１のサンプルセットから第１のサンプルを選択し、選択された第１のサンプルにおける画像を前記キャプション生成器に入力し、擬似文を出力するステップと、前記擬似文と選択された第１のサンプルにおける実文を前記文識別器に入力し、識別結果を入力するステップと、出力された識別結果に基づいて、前記文識別器の正解率を統計するステップと、前記正解率が所定値に達した場合、前記キャプション生成器のトレーニングが完了したと判定するステップとを含む第１のトレーニングステップを実行するステップと、を含む。

前記正解率が所定値に達していない場合、前記文識別器の敵対的損失を計算し、前記敵対的損失が小さくなるように前記文識別器の関連パラメータを調整し、前記第１のサンプルセットから第１のサンプルを再選択し、前記第１のトレーニングステップを引き続き実行する。

前記正解率が所定値に達していない場合、前記キャプション生成器の敵対的報酬を計算し、前記敵対的報酬が増加するように前記キャプション生成器の関連パラメータを調整し、前記第１のサンプルセットから第１のサンプルを再選択し、前記第１のトレーニングステップを引き続き実行する。

文識別器の構造は図３に示されている。文識別器とキャプション生成器（画像エンコーダと文デコーダを含む）は、敵対的生成ネットワークを構成する。文識別器は、入力文がペアになっていない文データセット内の実文であるか、それともキャプション生成器によって生成された擬似文であるかを識別するために使用される。再帰型ニューラルネットワーク（ＲＮＮ）に基づく文モデリングでは、ＬＳＴＭを使用して単語シーケンスをコンテキスト上で文レベルの表現形式に符号化して、実文／生成文を識別できる。

文識別器は、毎回のトレーニングプロセスにおいて、入力文が実文であるか、それともキャプション生成器によって生成された擬似文であるかを判断する。識別結果が正解であるか否かを統計し、正解率が所定値（例えば０．５）に達した場合、キャプション生成器の擬似文が効果的で文識別器を騙せることを意味し、トレーニングを終了する。そうでなければ、キャプション生成器および文識別器のネットワークパラメータを調整し、再びトレーニングする必要がある。まず、キャプション生成器のパラメータを固定し、文識別器のパラメータを調整してトレーニングし、次に、文識別器のパラメータを固定し、キャプション生成器のパラメータを調整してトレーニングする。文識別器とキャプション生成器のパラメータを交互に調整し、最終的に文識別器とキャプション生成器のトレーニングを完了する。実際に使用されるのはキャプション生成器である。

敵対的報酬（ＡｄｖｅｒｓａｒｉａｌＲｅｗａｒｄ）は、人間が書いたキャプションと見分けがつかない文を生成するために使用され、本開示では、生成された文分布が手動で説明されたものと一致するように、敵対的トレーニングと文レベルの敵対的報酬を使用している。

本実施形態のいくつかのオプション的な実施形態では、前記キャプション生成器によって識別されたオブジェクトの、前記キャプション生成器から出力された文における包含度によって、前記キャプション生成器を最適化する方法は、
画像を含む第２のサンプルからなる、予め設定された第２のサンプルセットを抽出するステップと、
機械学習方法に基づいて、前記第２のサンプルセットからサンプルを選択し、
選択された第２のサンプルにおける画像を前記キャプション生成器の画像エンコーダに入力し、サンプルオブジェクトセットを出力するステップと、前記サンプルオブジェクトセットをキャプション生成器の文デコーダに入力し、擬似文を出力するステップと、前記擬似文に前記サンプルオブジェクトセットにおけるサンプルオブジェクトが含まれる信頼度平均スコアを計算し、前記擬似文のオブジェクト包含報酬とするステップと、前記オブジェクト包含報酬が所定の包含報酬閾値に達した場合、前記キャプション生成器のトレーニングが完了したと判定するステップと、を含む第２のトレーニングステップを実行するステップと、を含む。

前記オブジェクト包含報酬が所定の包含報酬閾値に達していない場合は、前記オブジェクト包含報酬が増加するように、前記キャプション生成器の関連パラメータを調整し、前記第２のサンプルセットから第２のサンプルを再選択し、前記第２のトレーニングステップを引き続き実行する。

オブジェクト包含報酬（ＯｂｊｅｃｔＩｎｃｌｕｓｉｏｎＲｅｗａｒｄ）は、敵対的報酬がキャプション生成器のみを強化してよりリアルな文を生成するため、画像コンテンツと生成文との間の意味的な相関性を説明する明確な概念はない。したがって、本開示はさらに、生成文に、識別されたオブジェクトを含むことを説明するキャプション生成器を奨励するために、出力文における識別されたオブジェクトの包含度を追加の自己監視オブジェクト（すなわち、オブジェクト包含報酬）とする。この方法によって、両者間の意味的相関性が強調され、生成されるキャプションの品質が向上する。

本実施形態のいくつかのオプション的な実施形態では、画像トリプレットと、対応する生成文との間の意味的相関性によって、前記キャプション生成器を最適化する方法は、クエリ画像、ポジティブ画像およびネガティブ画像を含み、ポジティブ画像はクエリ画像と少なくとも２つのオブジェクトを共有し、ネガティブ画像はクエリ画像と如何なる共通のオブジェクトがない第３のサンプルからなる、予め設定された第３のサンプルセットを抽出するステップと、機械学習方法に基づき、前記第３のサンプルセットから第３のサンプルを選択し、選択された第３のサンプルにおけるクエリ画像、ポジティブ画像およびネガティブ画像をそれぞれ前記キャプション生成器に入力し、クエリ文、ポジティブ文およびネガティブ文をそれぞれ出力するステップと、クエリ文とポジティブ文との間の第１の意味的類似度を計算し、クエリ文とネガティブ文との間の第２の意味的類似度を計算するステップと、前記第１の意味的類似度と前記第２の意味的類似度に基づいて、自己監視トリプレット損失を計算するステップと、前記自己監視トリプレット損失が所定の損失閾値未満である場合、前記キャプション生成器のトレーニングが完了したと判定するステップとを含む第３のトレーニングステップを実行するステップと、を含む。

前記自己監視トリプレット損失が所定の損失閾値以上である場合、前記自己監視トリプレット損失が小さくなるように前記キャプション生成器の関連パラメータを調整し、前記第３のサンプルセットから第３のサンプルを再選択し、前記第３のトレーニングステップを引き続き実行する。

本実施形態のいくつかのオプション的な実施形態では、クエリ文とポジティブ文との間の第１の意味的類似度を計算し、クエリ文とネガティブ文との間の第２の意味的類似度を計算する前記ステップは、クエリ文、ポジティブ文およびネガティブ文に対して、文中における各単語のオブジェクトベースの確率分布をそれぞれ計算し、最大プーリング操作を行って、クエリ文の特徴、ポジティブ文の特徴およびネガティブ文の特徴をそれぞれ取得するステップと、クエリ文の特徴とポジティブ文の特徴との間の第１の意味的類似度を計算し、クエリ文の特徴とネガティブ文の特徴との間の第２の意味的類似度を計算するステップと、を含む。

自己監視トリプレット損失（Ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄＴｒｉｐｌｅｔＬｏｓｓ）は、オブジェクト包含報酬を使用した最適化において、画像間の類似または非類似の関係にかかわらず，各画像と対応する生成文との意味的相関性を独立に使用する。相対的な関係を探るという考えから、本開示は、文間の相対的な意味的順序を保持するために、キャプション生成器の学習をトリプレットの方法で意味的に制約する自己監視トリプレット損失を設計した。画像において識別された視覚オブジェクトに基づいて、各画像トリプレット（クエリ画像、ポジティブ画像、ネガティブ画像から構成される）が構築される。ポジティブ画像はクエリ画像と少なくとも２つのオブジェクトを共有するが、ネガティブ画像とクエリ画像には如何なる共通のオブジェクトがない。このような画像トリプレットが与えられた場合、クエリ画像の生成文がネガティブ画像の生成文よりもポジティブ画像の生成文に類似するように、キャプション生成器が最適化される。
具体的には、復号ステップにおいて、１６００個のオブジェクトの確率のみを保持することによって、予測された単語分布がオブジェクトベースの分布にさらに変換される。次に、
の復号プロセスに沿ってすべてのオブジェクトベースの分布が累積され、それらに対して最大プーリングが実行され、対応するオブジェクトベースの文の特徴が生成される。

オプション的に、最終的にモデル全体のトレーニングは、自己批判的シーケンストレーニングに敵対的報酬（ＡｄｖｅｒｓａｒｉａｌＲｅｗａｒｄ）、オブジェクト包含報酬（ＯｂｊｅｃｔＩｎｃｌｕｓｉｏｎＲｅｗａｒｄ）および自己監視トリプレット損失（Ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄＴｒｉｐｌｅｔＬｏｓｓ）を組み合わせることができ、全体的な目標勾配式は、
（ここで、
は、サンプリング文を表し、ｂは取得した敵対的およびオブジェクト包含報酬の組み合わせを表す。λ_１、λ_２、λ_３はそれぞれ、敵対的報酬、オブジェクト包含報酬および自己監視トリプレット損失の重みを表し、重みは０にすることができる）に近似される。

引き続き図３を参照し、図３は本実施形態によるキャプション生成器を生成するための方法の応用シーンの概略図である。図３の応用シーンでは、キャプション生成器の画像エンコーダＦａｓｔｅｒＲ－ＣＮＮにクエリ画像、ポジティブ画像およびネガティブ画像を入力し、オブジェクトセット｛ｔｒｅｅ（木）、ｍａｎ（人）、ｂｅｎｃｈ（ベンチ）、ｇｒａｓｓ（草）、ｄｏｇ（犬）…｝を得る。所定のオブジェクトセットに基づいてオブジェクトセットをグループ化した後、キャプション生成器の文デコーダ（図３の下部の２層のＬＳＴＭ構造）に入力し、オブジェクトセットの意味に基づいてビームサーチ復号を行い、擬似文「ａｍａｎｓｉｔｔｉｎｇｏｎａｂｅｎｃｈｎｅａｒａｔｒｅｅ」などを生成する。これらの擬似文および対応する画像は、キャプション生成器をトレーニングするための擬似画像文ペアのセットとして使用される（図３の上部の２層のＬＳＴＭ構造は文デコーダを表す）。便宜上、画像エンコーダのパラメータを固定し、文デコーダのみをトレーニングしてもよいし、文デコーダのトレーニングが完了した後に画像エンコーダをトレーニングしてもよく、画像エンコーダと文デコーダを交互にトレーニングして最も性能の良いキャプション生成器を取得する。トレーニングプロセスにおいてクロスエントロピー方法を使用する。得られた上部の２層のＬＳＴＭ構造のパラメータは下部の２層のＬＳＴＭ構造に共有することができる。

キャプション生成器のさらなる最適化を図って、敵対的報酬、オブジェクト包含報酬および自己監視トリプレット損失を導入することができる。
１．敵対的報酬の最適化：「ａｃｏｗｓｔａｎｄｓｉｎｔｈｅｂａｃｋｏｆａｌａｒｇｅｔｒｕｃｋ」という実文を、キャプション生成器が生成した擬似文と一緒に文識別器に入力して識別する。識別の正解率が０．５未満の場合、敵対的損失を最小にするように文識別器のパラメータを調整し、次に、敵対的報酬を最大にするようにキャプション生成器のパラメータを調整する。文識別器とキャプション生成器を交互にトレーニング（調整）することで、キャプション生成器を最適化することができる。
２．オブジェクト包含報酬の最適化：識別されたオブジェクトの、キャプション生成器によって生成された擬似文における包含度を計算する。例えば、識別されたオブジェクトにｔｒｅｅ、ｍａｎ、ｂｅｎｃｈが含まれる。文１にｔｒｅｅ（信頼度０．９）が含まれ、文２にｔｒｅｅ（信頼度０．８）とｍａｎ（信頼度０．７）が含まれている場合、文２のオブジェクト包含報酬は文１よりも高い。トレーニングの目的は、オブジェクト包含報酬をできるだけ改善することであり、パラメータを調整するたびにオブジェクト包含報酬が改善される。
３．自己監視トリプレット損失の最適化：図３の入力サンプルは、クエリ画像、ポジティブ画像、ネガティブ画像を含むトリプレットであってもよい。異なる画像は異なる擬似文を生成することができ、クエリ文、ポジティブ文およびネガティブ文の間の意味的類似性を比較することによって、自己監視トリプレット損失が確定される。トレーニングの目的は、ポジティブ文が意味的にクエリ文に近く、ネガティブ文がクエリ文と意味的に関連しないように自己監視トリプレット損失を減らすことである。

トレーニング段階では、本開示は自己学習モードを採用し、擬似キャプションペアの生成及びキャプション生成器の再トレーニングの２つのプロセスを交互に行うことにより、モデル全体を最適化し、キャプション生成器を繰り返して改善するという目的を達成する。

本開示は、意味的制約に基づく自己学習フレームワークを提案し、非ペア画像キャプションの自己学習アイデアを深く研究した。この問題は擬似文生成及び繰り返し最適化を構築するという観点から検討され、文生成の品質が徐々に向上された。さらに、意味的制約がモデルにうまく統合され、画像におけるオブジェクトの意味を十分に活用してキャプション生成器のトレーニングをガイドし、高度な教師なしキャプション生成方法が得られた。

さらに図４を参照し、キャプションを出力するための方法のもう一つの実施形態のフロー４００を示す。キャプションを出力するための該方法のフロー４００は以下のステップを含む。

ステップ４０１では、処理対象の画像を取得する。

本実施形態において、キャプションを出力するための方法が実行される電子機器（例えば、図１に示されるサーバ）は、有線接続または無線接続を介してユーザがキャプション編集を行う端末から処理対象の画像を受信することができる。処理対象の画像は単一の画像であってもよく、ビデオファイルであってもよく、サーバがビデオをフレーム分割して、処理対象の画像を取得する。

ステップ４０２では、キャプション生成器に画像を入力し、画像に対応するキャプションを出力する。

本実施形態では、キャプション生成器は、ステップ２０１～２０５の方法によってトレーニングされたものである。キャプション生成器により画像にキャプションを自動的に付けることができる。キャプションが画像に直接出力されてもよいし、独立したファイルを生成して端末に返し、端末がユーザのニーズに応じてキャプションのフォーマットを設定して、画像に出力してもよい。キャプション生成器は、キャプションを入力できるだけでなく、画像エンコーダによって識別されたオブジェクトを出力することもでき、トレーニングプロセス中の意味的制約に使用され得る。

ステップ４０１～４０２は、ステップ２０１～２０５と交互に実行されてもよい。ステップ４０１～４０２で生成されたキャプションは、ステップ２０１～２０５のトレーニングサンプルとして使用され得る。

図４から分かるように、図２に対応する実施形態と比較して、本実施形態におけるキャプションを出力するための方法のフロー４００は、キャプション生成器の応用ステップを具現する。このように、本実施形態で説明する技術的手段は、キャプション生成器を介してトレーニングサンプルを生成し、それらをキャプション生成器のトレーニングに再利用し、キャプションの生成とキャプション生成器の再トレーニングを交互に行うことにより、キャプション生成器を最適化し、キャプションの生成精度を向上させることができる。

さらに図５を参照し、上記各図に示された方法の実現として、本開示はキャプション生成器を生成するための装置の一実施形態を提供し、該装置の実施形態は図２に示された方法の実施形態に対応し、該装置は様々な電子機器に適用可能である。

図５に示すように、本実施形態のキャプション生成器を生成するための装置５００は、取得ユニット５０１、符号化ユニット５０２、グループ化ユニット５０３、復号化ユニット５０４およびトレーニングユニット５０５を備える。取得ユニット５０１は、サンプル画像セットを取得するように構成され、符号化ユニット５０２は、前記サンプル画像セットを文生成器の画像エンコーダに入力し、オブジェクトセットを出力するように構成され、グループ化ユニット５０３は、前記オブジェクトセットを、所定のオブジェクトセットに含まれているオブジェクトセットである第１のオブジェクトセットと、所定のオブジェクトセットから除外されたオブジェクトセットである第２のオブジェクトセットとにグループ化するように構成され、復号化ユニット５０４は、前記画像エンコーダにより出力されたオブジェクトセットを文生成器の文デコーダに入力し、復号ステップにおいて、前記第１のオブジェクトセットと前記第２のオブジェクトセットを制約条件としてビームサーチを行い、擬似画像文ペアのセットを生成するように構成され、トレーニングユニット５０５は、前記擬似画像文ペアのセットをサンプルセットとして前記文生成器をトレーニングし、キャプション生成器を取得するように構成される。

本実施形態において、キャプション生成器を生成するための装置５００の取得ユニット５０１、符号化ユニット５０２、グループ化ユニット５０３、復号化ユニット５０４およびトレーニングユニット５０５の特定の処理は、図２の対応実施形態におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４およびステップ２０５を参照することができる。

本実施形態のいくつかのオプション的な実施形態では、該装置は、文識別器によってキャプション生成器を敵対的トレーニングして、キャプション生成器を最適化する方法と、キャプション生成器によって識別されたオブジェクトの、キャプション生成器から出力された文における包含度によって、キャプション生成器を最適化する方法と、クエリ画像、ポジティブ画像、ネガティブ画像を含む画像トリプレットと、対応する生成文との間の意味的相関によって、キャプション生成器を最適化する方法とのうちの少なくとも１つによって、キャプション生成器を最適化するように構成される最適化ユニット（図示せず）をさらに備える。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、画像および対応する実文を含む第１のサンプルからなる、予め設定された第１のサンプルセットを抽出するステップと、入力された画像を画像符号化した後、文の復号化を行って擬似文を取得するためのキャプション生成器と、入力された文がキャプション生成器から出力された擬似文であるか否かを判断するための文識別器とを備える、予め作成された敵対的生成ネットワークを抽出するステップと、機械学習装置に基づいて、第１のサンプルセットから第１のサンプルを選択し、選択された第１のサンプルにおける画像をキャプション生成器に入力して、擬似文を出力するステップと、擬似文と選択された第１のサンプルの実文を文識別器に入力し、識別結果を入力するステップと、出力された識別結果に基づいて、文識別器の正解率を統計するステップと、正解率が所定値に達した場合、キャプション生成器のトレーニングが完了したと判断するステップとを含む第１のトレーニングステップを実行するステップとを実行するように構成される。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、正解率が所定値に達していない場合、文識別器の敵対的損失を計算し、敵対的損失が小さくなるように文識別器の関連パラメータを調整し、第１のサンプルセットから第１のサンプルを再選択し、第１のトレーニングステップを引き続き実行するように構成される。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、正解率が所定値に達していない場合、キャプション生成器の敵対的報酬を計算し、敵対的報酬が増加するようにキャプション生成器の関連パラメータを調整し、第１のサンプルセットから第１のサンプルを再選択し、第１のトレーニングステップを引き続き実行するように構成される。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、画像を含む第２のサンプルからなる、予め設定された第２のサンプルセットを抽出するステップと、機械学習装置に基づいて、第２のサンプルセットからサンプルを選択し、選択された第２のサンプルにおける画像をキャプション生成器の画像エンコーダに入力し、サンプルオブジェクトセットを出力するステップと、サンプルオブジェクトセットをキャプション生成器の文デコーダに入力し、擬似文を出力するステップと、擬似文に含まれるサンプルオブジェクトセットのサンプルオブジェクトの信頼度平均スコアを計算し、擬似文のオブジェクト包含報酬とするステップと、オブジェクト包含報酬が所定の包含報酬閾値に達した場合、キャプション生成器のトレーニングが完了したと判断するステップと、を含む第２のトレーニングステップを実行するステップと、を実行するように構成される。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、オブジェクト包含報酬が所定の包含報酬閾値に達していない場合、オブジェクト包含報酬が増加するようにキャプション生成器の関連パラメータを調整し、第２のサンプルセットから第２のサンプルを再選択し、第２のトレーニングステップを引き続き実行するように構成される。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、クエリ画像、ポジティブ画像およびネガティブ画像を含み、ポジティブ画像はクエリ画像と少なくとも２つのオブジェクトを共有し、ネガティブ画像はクエリ画像と共通のオブジェクトがない第３のサンプルからなる、予め設定された第３のサンプルセットを抽出し、ネガティブ画像はクエリ画像と共通のオブジェクトがない、予め設定された第３のサンプルセットを抽出するステップと、機械学習装置に基づいて、第３のサンプルセットから第３のサンプルを選択し、選択された第３のサンプルにおけるクエリ画像、ポジティブ画像およびネガティブ画像をそれぞれキャプション生成器に入力し、クエリ文、ポジティブ文およびネガティブ文を出力するステップと、クエリ文とポジティブ文との間の第１の意味的類似度を計算し、クエリ文とネガティブ文との間の第２の意味的類似度を計算するステップと、第１の意味的類似度と第２の意味的類似度に基づいて、自己監視トリプレット損失を計算するステップと、自己監視トリプレット損失が所定の損失閾値の未満である場合、キャプション生成器のトレーニングが完了したと判断するステップとを含む第３のトレーニングステップを実行するステップと、を実行するように構成される。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、自己監視トリプレット損失が所定の損失閾値以上である場合、自己監視トリプレット損失が小さくなるようにキャプション生成器の関連パラメータを調整し、第３のサンプルセットから第３のサンプルを再選択し、第３のトレーニングステップを引き続き実行するように構成される。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、クエリ文、ポジティブ文およびネガティブ文に対して、文中の各単語のオブジェクトベースの確率分布をそれぞれ計算し、最大プーリング操作を行って、クエリ文の特徴、ポジティブ文の特徴およびネガティブ文の特徴をそれぞれ取得するステップと、クエリ文の特徴とポジティブ文の特徴との間の第１の意味的類似度を計算し、クエリ文の特徴とネガティブ文の特徴との間の第２の意味的類似度を計算するステップとを実行するように構成される。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、敵対的報酬、オブジェクト包含報酬および自己監視トリプレット損失の加重合計が所定の目標値より大きい場合、加重合計が小さくなるように、キャプション生成器の関連パラメータを調整するように構成される。

本実施形態のいくつかのオプション的な実施形態では、画像エンコーダには、領域レベルの注意メカニズムを備えた２層のＬＳＴＭを含み、第１層のＬＳＴＭはトップダウンの注意モジュールとして機能し、コンテキスト情報に基づいてオブジェクトレベルの注意を計算し、第２層のＬＳＴＭは文を生成するための言語モデルである。

さらに図６を参照し、上記各図に示された方法の実現として、本開示はキャプションを出力するための装置の一実施形態を提供し、該装置の実施形態は図４に示された方法の実施形態に対応し、該装置は様々な電子機器に適用可能である。

図６に示すように、本実施形態のキャプションを出力するための装置６００は、処理対象の画像を取得するように構成される取得ユニット６０１と、装置５００によって生成されたキャプション生成器に画像を入力し、画像に対応するキャプションを出力するように構成される出力ユニット６０２と、を備える。

本開示の実施形態によれば、本開示はさらに電子機器および可読記憶媒体を提供する。

図７は、本開示の実施形態を実施するために使用され得る例示的な電子機器７００の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、メインフレームコンピュータおよびその他適切なコンピュータなど様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブルデバイスおよびその他類似のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書で示されているコンポーネント、それらの接続と関係およびそれらの機能は単なる例であり、本明細書で説明および／または要求されている本開示の実現を限定することを意図したものではない。

図７に示すように、デバイス７００は、読み取り専用メモリ（ＲＯＭ）７０２に記憶されるコンピュータプログラムまたは記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされるコンピュータプログラムに応じて、様々な適切な動作および処理を実行できる計算ユニット７０１を含む。ＲＡＭ７０３には、デバイス７００の動作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット７０１、ＲＯＭ７０２およびＲＡＭ７０３は、バス７０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続される。

デバイス７００における複数のコンポーネントは、Ｉ／Ｏインターフェース７０５に接続されており、キーボード、マウスなどの入力ユニット７０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット７０７と、磁気ディスク、光ディスクなどの記憶ユニット７０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット７０９とを含む。通信ユニット７０９は、デバイス７００がインターネットのコンピュータネットワークおよび／または様々な電気通信ネットワークなどを介して、他のデバイスと情報／データを交換することを可能にする。

計算ユニット７０１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット７０１のいくつかの例として、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット７０１は、キャプション生成器を生成するための方法などの上記の各方法および処理を実行する。例えば、いくつかの実施形態では、キャプション生成器を生成するための方法は、記憶ユニット７０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ７０２および／または通信ユニット７０９を介してデバイス７００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ７０３にロードされ、計算ユニット７０１によって実行される場合、上記のキャプション生成器を生成するための方法の１つまたは複数のステップが実行されてもよい。代替的に、他の実施形態では、計算ユニット７０１は、他の任意の適切な手段（例えば、ファームウェアによって）によって、キャプション生成器を生成するための方法を実行するように構成されてもよい。

本開示の実施形態により提供されるキャプション生成器を生成するための方法および装置、ならびにキャプションを出力するための方法および装置は、画像キャプションに監視なしの解決策を提供することを目的とする。トレーニングのために大量の画像文ペアに大きく依存する従来の画像キャプション生成方法とは違って、本開示は、自己学習方法でキャプション生成器を学習することにより、この依存性を解消する。キャプション生成器は、よりリアルなシーンを追求して、ペアになっていない画像と文のデータでトレーニングできる。

以上に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェアおよび／またはそれらの組み合わせで実装されてもよい。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムに実施され、当該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および／または解釈され得、当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび命令を受信し、且つデータおよび命令を当該記憶システム、当該少なくとも１つの入力装置および当該少なくとも１つの出力装置に伝送することができることを含み得る。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供され得、それによりプログラムコードは、プロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図で示される機能／操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行され、独立したソフトウェアパッケージとして部分的に機械で実行され、部分的にリモートマシンで実行されまたは完全にリモートマシンまたはサーバで実行されてもよい。

本開示のコンテキストでは、機械読み取り可能な媒体は、有形的な媒体であってもよく、命令実行システム、装置またはデバイスによって使用されるかまたは命令実行システム、装置またはデバイスと組み合わせて使用されるプログラムを含むかまたは記憶することができる。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイスまたは上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つまたは複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイスまたは上記に記載された任意の適切な組み合わせを含む。

ユーザとのやり取りを提供するために、コンピュータ上で、本明細書で説明されるシステムおよび技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、当該キーボードおよび当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのやり取りを提供するために使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバックまたは触覚フィードバック）であってもよく、任意の形態（音響入力、音声入力または触覚入力を含む）でユーザからの入力を受信することができる。

本明細書で説明されるシステムおよび技術は、バックグラウンドコンポーネントを含む計算システム（例えば、データサーバとして）またはミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）またはフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインターフェースまたはインターネットブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースまたは当該インターネットブラウザを介して、本明細書で説明されるシステムおよび技術の実施形態とやり取りすることができる）またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって、システムのコンポーネントを互いに接続することができる。通信ネットワークの例示的なものとして、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットワークが含まれる。

コンピュータシステムはクライアントおよびサーバを含むことができる。クライアントとサーバは一般的に互いに離れており、通常は通信ネットワークを介して相互作用している。クライアントとサーバの関係は、対応するコンピュータで実行されるとともに互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。サーバは、分散システムのサーバであってもよいしまたはブロックチェーンと組み合わせたサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバまたはインテリジェントクラウドホストであってもよい。サーバは、分散システムのサーバであってもよいしまたはブロックチェーンと組み合わせたサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバまたはインテリジェントクラウドホストであってもよい。

上記に示した様々な形態のフローを使用して、ステップを再ソート、追加または削除できることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよく、本開示で開示されている技術的解決手段が所望の結果を実現できる限り、本明細書では限定しない。

上記特定の実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件および他の要因に従って、様々な修正、組み合わせ、サブコンビネーションおよび置換を行うことができると理解すべきである。本開示の精神および原則内で行われる任意の修正、同等の置き換えおよび改善などはいずれも本開示の保護範囲内に含まれるべきである。

いくつかの実施形態において、文識別器によってキャプション生成器を敵対的トレーニングしてキャプション生成器を最適化する方法は、画像および対応する実文を含む第１のサンプルからなる、予め設定された第１のサンプルセットを抽出するステップと、入力された画像を画像符号化した後、文復号化を行って擬似文を取得するためのキャプション生成器と、入力された文がキャプション生成器から出力された擬似文であるか否かを判定するための文識別器とを備える、予め作成された敵対的生成ネットワークを抽出するステップと、機械学習方法に基づいて、第１のサンプルセットから第１のサンプルを選択し、選択された第１のサンプルにおける画像をキャプション生成器に入力して、擬似文を出力するステップと、擬似文および選択された第１のサンプルにおける実文を文識別器に入力し、識別結果を出力するステップと、出力された識別結果に基づいて、文識別器の正解率を統計するステップと、正解率が所定値に達した場合、キャプション生成器のトレーニングが完了したと判定するステップとを含む、第１のトレーニングステップを実行するステップと、を含む。

いくつかの実施形態において、最適化ユニットは、さらに、画像および対応する実文を含む第１のサンプルからなる、予め設定された第１のサンプルセットを抽出するステップと、入力された画像を画像符号化した後、文の復号化を行って、擬似文を取得するためのキャプション生成器と、入力された文がキャプション生成器から出力された擬似文であるか否かを判定するための文識別器とを備える、予め作成された敵対的生成ネットワークを抽出するステップと、機械学習方法に基づいて、第１のサンプルセットから第１のサンプルを選択し、選択された第１のサンプルにおける画像をキャプション生成器に入力して、擬似文を出力するステップと、擬似文と選択された第１のサンプルにおける実文を文識別器に入力し、識別結果を出力するステップと、出力された識別結果に基づいて、文識別器の正解率を統計するステップと、正解率が所定値に達した場合、キャプション生成器のトレーニングが完了したと判断するステップとを含む、第１のトレーニングステップを実行するステップと、実行するように構成される。

本開示の実施形態は、プロセッサにより実行される場合、上記のキャプション生成器を生成するための方法を実現するコンピュータプログラムを提供する。

ステップ２０１では、サンプル画像セットを取得する。

本実施形態のいくつかのオプション的な実施形態では、文識別器によって前記キャプション生成器を敵対的トレーニングして前記キャプション生成器を最適化する方法は、画像および対応する実文を含む第１のサンプルからなる、予め設定された第１のサンプルセットを抽出するステップと、入力された画像を画像符号化した後、文の復号化を行って、擬似文を取得するためのキャプション生成器と、入力された文が前記キャプション生成器から出力された擬似文であるか否かを判断するための文識別器とを備える、予め作成された敵対的生成ネットワークを抽出するステップと、機械学習方法に基づいて、前記第１のサンプルセットから第１のサンプルを選択し、選択された第１のサンプルにおける画像を前記キャプション生成器に入力し、擬似文を出力するステップと、前記擬似文と選択された第１のサンプルにおける実文を前記文識別器に入力し、識別結果を出力するステップと、出力された識別結果に基づいて、前記文識別器の正解率を統計するステップと、前記正解率が所定値に達した場合、前記キャプション生成器のトレーニングが完了したと判定するステップとを含む第１のトレーニングステップを実行するステップと、を含む。

ステップ４０１では、処理対象の画像を取得する。

本実施形態では、キャプション生成器は、ステップ２０１～２０５の方法によってトレーニングされたものである。キャプション生成器により画像にキャプションを自動的に付けることができる。キャプションが画像に直接出力されてもよいし、独立したファイルを生成して端末に返し、端末がユーザのニーズに応じてキャプションのフォーマットを設定して、画像に出力してもよい。キャプション生成器は、キャプションを出力できるだけでなく、画像エンコーダによって識別されたオブジェクトを出力することもでき、トレーニングプロセス中の意味的制約に使用され得る。

本実施形態のいくつかのオプション的な実施形態では、最適化ユニットはさらに、画像および対応する実文を含む第１のサンプルからなる、予め設定された第１のサンプルセットを抽出するステップと、入力された画像を画像符号化した後、文の復号化を行って擬似文を取得するためのキャプション生成器と、入力された文がキャプション生成器から出力された擬似文であるか否かを判断するための文識別器とを備える、予め作成された敵対的生成ネットワークを抽出するステップと、機械学習装置に基づいて、第１のサンプルセットから第１のサンプルを選択し、選択された第１のサンプルにおける画像をキャプション生成器に入力して、擬似文を出力するステップと、擬似文と選択された第１のサンプルの実文を文識別器に入力し、識別結果を出力するステップと、出力された識別結果に基づいて、文識別器の正解率を統計するステップと、正解率が所定値に達した場合、キャプション生成器のトレーニングが完了したと判断するステップとを含む第１のトレーニングステップを実行するステップとを実行するように構成される。

Claims

キャプション生成器を生成するための方法であって、
サンプル画像セットを取得するステップと、
前記サンプル画像セットを文生成器の画像エンコーダに入力し、オブジェクトセットを出力するステップと、
前記オブジェクトセットを、所定のオブジェクトセットに含まれているオブジェクトセットである第１のオブジェクトセットと、所定のオブジェクトセットから除外されたオブジェクトセットである第２のオブジェクトセットとにグループ化するステップと、
前記画像エンコーダにより出力されたオブジェクトセットを文生成器の文デコーダに入力し、復号ステップにおいて、前記第１のオブジェクトセットと前記第２のオブジェクトセットを制約条件としてビームサーチを行い、擬似画像文ペアのセットを生成するステップと、
前記擬似画像文ペアのセットをサンプルセットとして前記文生成器をトレーニングしてキャプション生成器を取得するステップと、
を含む、キャプション生成器を生成するための方法。
文識別器によって前記キャプション生成器を敵対的トレーニングして、前記キャプション生成器を最適化する方法と、
前記キャプション生成器によって識別されたオブジェクトの、前記キャプション生成器から出力された文における包含度によって、前記キャプション生成器を最適化する方法と、
クエリ画像、ポジティブ画像およびネガティブ画像を含む画像トリプレットと、対応する生成文との間の意味的相関性に基づいて、前記キャプション生成器を最適化する方法と、
のうちの少なくとも１つによって、前記キャプション生成器を最適化するステップをさらに含む、請求項１に記載のキャプション生成器を生成するための方法。
文識別器によって前記キャプション生成器を敵対的トレーニングして、前記キャプション生成器を最適化する方法は、
予め設定された、画像と対応する実文とを含む第１のサンプルからなる第１のサンプルセットを抽出するステップと、
予め作成された敵対的生成ネットワークを抽出するステップであって、前記敵対的生成ネットワークは、入力された画像を画像符号化した後に文の復号化を行って擬似文を取得するためのキャプション生成器と、入力された文が前記キャプション生成器から出力された擬似文であるか否かを判断するための文識別器とを備える、ステップと、
機械学習方法に基づいて、前記第１のサンプルセットから第１のサンプルを選択して第１のトレーニングステップを実行するステップと、を含み、
前記第１のトレーニングステップは、
選択された第１のサンプルにおける画像を前記キャプション生成器に入力して、擬似文を出力するステップと、
前記擬似文と、選択された第１のサンプルにおける実文とを前記文識別器に入力して、識別結果を入力するステップと、
出力された識別結果に基づいて、前記文識別器の正解率を統計するステップと、
前記正解率が所定値に達した場合、前記キャプション生成器のトレーニングが完了したと判定するステップとを含む
請求項２に記載のキャプション生成器を生成するための方法。
前記正解率が前記所定値に達していない場合、前記文識別器の敵対的損失を計算し、前記敵対的損失が小さくなるように前記文識別器の関連パラメータを調整し、前記第１のサンプルセットから第１のサンプルを再選択し、前記第１のトレーニングステップを引き続き実行するステップをさらに含む、請求項３に記載のキャプション生成器を生成するための方法。
前記正解率が前記所定値に達していない場合、前記キャプション生成器の敵対的報酬を計算し、前記敵対的報酬が増加するように前記キャプション生成器の関連パラメータを調整し、前記第１のサンプルセットから第１のサンプルを再選択し、前記第１のトレーニングステップを引き続き実行するステップをさらに含む、請求項３に記載のキャプション生成器を生成するための方法。
前記キャプション生成器によって識別されたオブジェクトの、前記キャプション生成器から出力された文における包含度によって、前記キャプション生成器を最適化する方法は、
予め設定された、画像を含む第２のサンプルからなる第２のサンプルセットを抽出するステップと、
機械学習方法に基づいて、前記第２のサンプルセットからサンプルを選択して第２のトレーニングステップを実行するステップと、を含み、
前記第２のトレーニングステップは、
選択された第２のサンプルにおける画像を前記キャプション生成器の画像エンコーダに入力し、サンプルオブジェクトセットを出力するステップと、
前記サンプルオブジェクトセットをキャプション生成器の文デコーダに入力して擬似文を出力するステップと、
前記擬似文に前記サンプルオブジェクトセットのサンプルオブジェクトが含まれる信頼度平均スコアを計算して、前記擬似文のオブジェクト包含報酬とするステップと、
前記オブジェクト包含報酬が所定の包含報酬閾値に達した場合、前記キャプション生成器のトレーニングが完了したと判定するステップと、を含む
請求項２に記載のキャプション生成器を生成するための方法。
前記オブジェクト包含報酬が前記所定の包含報酬閾値に達していない場合、前記オブジェクト包含報酬が増加するように前記キャプション生成器の関連パラメータを調整し、前記第２のサンプルセットから第２のサンプルを再選択し、前記第２のトレーニングステップを引き続き実行するステップをさらに含む、請求項６に記載のキャプション生成器を生成するための方法。
画像トリプレットと、対応する生成文との間の意味的相関性に基づいて、前記キャプション生成器を最適化する方法は、
予め設定された第３のサンプルセットを抽出するステップであって、第３のサンプルのそれぞれはクエリ画像、ポジティブ画像およびネガティブ画像を含み、ポジティブ画像はクエリ画像と少なくとも２つのオブジェクトを共有し、ネガティブ画像はクエリ画像と共通のオブジェクトがない、ステップと、
機械学習方法に基づいて、前記第３のサンプルセットから第３のサンプルを選択して第３のトレーニングステップを実行するステップと、を含み、
前記第３のトレーニングステップは、
選択された第３のサンプルにおけるクエリ画像、ポジティブ画像およびネガティブ画像をそれぞれ前記キャプション生成器に入力し、クエリ文、ポジティブ文およびネガティブ文を出力するステップと、
クエリ文とポジティブ文との間の第１の意味的類似度を計算し、クエリ文とネガティブ文との間の第２の意味的類似度を計算するステップと、
前記第１の意味的類似度と前記第２の意味的類似度に基づいて、自己監視トリプレット損失を計算するステップと、
前記自己監視トリプレット損失が所定の損失閾値未満である場合、前記キャプション生成器のトレーニングが完了したと判定するステップとを含む、請求項２に記載のキャプション生成器を生成するための方法。
前記自己監視トリプレット損失が前記所定の損失閾値以上である場合、前記自己監視トリプレット損失が小さくなるように前記キャプション生成器の関連パラメータを調整し、前記第３のサンプルセットから第３のサンプルを再選択し、前記第３のトレーニングステップを引き続き実行するステップをさらに含む、請求項８に記載のキャプション生成器を生成するための方法。
クエリ文とポジティブ文との間の第１の意味的類似度を計算し、クエリ文とネガティブ文との間の第２の意味的類似度を計算するステップは、
クエリ文、ポジティブ文およびネガティブ文に対して、それぞれ文中の各単語のオブジェクトベースの確率分布を計算し、最大プーリング操作を行って、クエリ文の特徴、ポジティブ文の特徴およびネガティブ文の特徴をそれぞれ取得するステップと、
クエリ文の特徴とポジティブ文の特徴との間の第１の意味的類似度を計算し、クエリ文の特徴とネガティブ文の特徴との間の第２の意味的類似度を計算するステップと、を含む、請求項８に記載のキャプション生成器を生成するための方法。
敵対的報酬、オブジェクト包含報酬および自己監視トリプレット損失の加重合計が所定の目標値より大きい場合、前記加重合計が小さくなるように、キャプション生成器の関連パラメータを調整するステップをさらに含む、請求項２～１０のいずれか１項に記載のキャプション生成器を生成するための方法。
前記画像エンコーダは、領域レベルの注意メカニズムを備えた２層のＬＳＴＭを含み、第１層のＬＳＴＭはトップダウンの注意モジュールとして機能し、コンテキスト情報に基づいてオブジェクトレベルの注意を計算し、第２層のＬＳＴＭは文を生成するための言語モデルである、請求項１～１０のいずれか１項に記載のキャプション生成器を生成するための方法。
処理対象の画像を取得するステップと、
請求項１～１２のいずれか１項に記載のキャプション生成器を生成するための方法によって生成されたキャプション生成器に前記画像を入力し、前記画像に対応するキャプションを出力するステップと、を含む、キャプションを出力するための方法。
キャプション生成器を生成するための装置であって、
サンプル画像セットを取得するように構成される取得ユニットと、
前記サンプル画像セットを文生成器の画像エンコーダに入力し、オブジェクトセットを出力するように構成される符号化ユニットと、
前記オブジェクトセットを、所定のオブジェクトセットに含まれているオブジェクトセットである第１のオブジェクトセットと、所定のオブジェクトセットから除外されたオブジェクトセットである第２のオブジェクトセットとにグループ化するように構成されるグループ化ユニットと、
前記画像エンコーダにより出力されたオブジェクトセットを文生成器の文デコーダに入力し、復号ステップにおいて、前記第１のオブジェクトセットと前記第２のオブジェクトセットを制約条件としてビームサーチを行い、擬似画像文ペアのセットを生成するように構成される復号化ユニットと、
前記擬似画像文ペアのセットをサンプルセットとして前記文生成器をトレーニングしてキャプション生成器を取得するように構成されるトレーニングユニットと、を備える、キャプション生成器を生成するための装置。
処理対象の画像を取得するように構成される取得ユニットと、
請求項１～１２のいずれか１項に記載のキャプション生成器を生成するための方法によって生成されたキャプション生成器に前記画像を入力し、前記画像に対応するキャプションを出力するように構成される出力ユニットと、を備える、キャプションを出力するための装置。
少なくとも１つのプロセッサと、少なくとも１つのコンピュータプログラムが格納されているメモリと、を備える電子機器であって、
前記少なくとも１つのコンピュータプログラムが前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１～１３のいずれか１項に記載の方法を実現する、電子機器。
プロセッサによって実行される場合、請求項１～１３のいずれか１項に記載の方法を実現するコンピュータプログラムが格納されているコンピュータ可読媒体。