JP2023545543A

JP2023545543A - 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2023545543A
Application number: JP2023523236A
Authority: JP
Inventors: ガオ，ジュン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2021-01-29
Filing date: 2022-01-24
Publication date: 2023-10-30
Also published as: WO2022161298A1; CN113569892A; US20230103340A1

Abstract

画像処理の技術分野に関する情報生成方法、装置、機器、記憶媒体及びプログラム製品を提供する。該方法は、ターゲット画像を取得するステップ（２１０）と、ターゲット画像の意味特徴集合を抽出し、ターゲット画像の視覚特徴集合を抽出するステップ（２２０）と、ｎ個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、ｎ個の時間ステップにおける記述語を取得するステップ（２３０）と、ターゲット画像のｎ個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成するステップ（２４０）と、を含む。該方法によれば、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させる。【選択図】図２

Description

本発明は、２０２１年１月２９日に出願した出願番号が２０２１１０１２６７５３．７であり、発明の名称が「画像キャプション情報生成方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容を参照により本発明に援用する。

本発明は、画像処理の技術分野に関し、特に情報生成方法、装置、機器、記憶媒体及びプログラム製品に関する。

画像認識技術の発展に伴い、コンピュータの「図を見て説明する」機能は、アルゴリズムで実現できるようになった。言い換えれば、コンピュータ機器は、画像キャプション（ＩｍａｇｅＣａｐｔｉｏｎ）により、画像におけるコンテンツ情報を画像キャプション情報に変換することができる。

関連技術では、抽出された画像の視覚特徴に基づいて画像の画像キャプション情報を生成すること、即ち、コンピュータ機器がエンコーダにより画像の視覚特徴を取得した後、１つのリカレントニューラルネットワークを用いて画像全体のキャプションを生成することに着目する場合が多い。

本発明の実施例は、情報生成方法、装置、機器、記憶媒体及びプログラム製品を提供する。その技術的手段は、以下の通りである。

１つの態様では、コンピュータ機器が実行する情報生成方法であって、ターゲット画像を取得するステップと、前記ターゲット画像の意味特徴集合を抽出し、前記ターゲット画像の視覚特徴集合を抽出するステップと、ｎ個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記ｎ個の時間ステップにおける記述語を取得するステップであって、前記アテンション融合のプロセスのｔ番目の時間ステップにおける入力は、前記ｔ番目の時間ステップにおける意味アテンションベクトル、前記ｔ番目の時間ステップにおける視覚アテンションベクトル、及び前記アテンション融合のプロセスのｔ－１番目の時間ステップにおける出力結果を含み、前記ｔ番目の時間ステップにおける前記意味アテンションベクトルは、前記ｔ番目の時間ステップにおいて前記意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトルは、前記ｔ番目の時間ステップにおいて前記視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記アテンション融合のプロセスの前記ｔ－１番目の時間ステップにおける出力結果は、前記ｔ－１番目の時間ステップにおける記述語を示すために使用され、前記ｔ番目の時間ステップは、前記ｎ個の時間ステップのうちの何れかであり、１≦ｔ≦ｎ、ｔ及びｎは何れも正の整数である、ステップと、前記ターゲット画像の前記ｎ個の時間ステップにおける記述語に基づいて、前記ターゲット画像の画像キャプション情報を生成するステップと、を含む、方法を提供する。

もう１つの態様では、情報生成装置であって、ターゲット画像を取得する画像取得モジュールと、前記ターゲット画像の意味特徴集合を抽出し、前記ターゲット画像の視覚特徴集合を抽出する特徴抽出モジュールと、ｎ個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記ｎ個の時間ステップにおける記述語を取得する記述語取得モジュールであって、前記アテンション融合のプロセスのｔ番目の時間ステップにおける入力は、前記ｔ番目の時間ステップにおける意味アテンションベクトル、前記ｔ番目の時間ステップにおける視覚アテンションベクトル、及び前記アテンション融合のプロセスのｔ－１番目の時間ステップにおける出力結果を含み、前記ｔ番目の時間ステップにおける前記意味アテンションベクトルは、前記ｔ番目の時間ステップにおいて前記意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトルは、前記ｔ番目の時間ステップにおいて前記視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記アテンション融合のプロセスの前記ｔ－１番目の時間ステップにおける出力結果は、前記ｔ－１番目の時間ステップにおける記述語を示すために使用され、前記ｔ番目の時間ステップは、前記ｎ個の時間ステップのうちの何れかであり、１≦ｔ≦ｎ、ｔ及びｎは何れも正の整数である、記述語取得モジュールと、前記ターゲット画像の前記ｎ個の時間ステップにおける記述語に基づいて、前記ターゲット画像の画像キャプション情報を生成する情報生成モジュールと、を含む、装置を提供する。

もう１つの態様では、プロセッサと、少なくとも１つのコンピュータプログラムが記憶されたメモリと、を含むコンピュータ機器であって、前記コンピュータプログラムは、上記の情報生成方法を実現するように、前記プロセッサによりロードされて実行される、コンピュータ機器を提供する。

もう１つの態様では、少なくとも１つのコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、上記の情報生成方法を実現するように、プロセッサによりロードされて実行される、記憶媒体を提供する。

もう１つの態様では、少なくとも１つのコンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、上記の情報生成方法を実現するように、プロセッサによりロードされて実行される、コンピュータプログラム製品を提供する。

本発明の実施例の技術的手段は、少なくとも以下の有利な効果を奏する。

ターゲット画像の意味特徴集合及び視覚特徴集合をそれぞれ抽出し、ｎ個の時間ステップにおいて意味特徴と視覚特徴とに対してアテンション融合を行い、コンピュータ機器が画像キャプション情報を生成するための各時間ステップにおいて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。

本発明の１つの例示的な実施例に係る情報生成方法に使用されるシステムを示す概略図である。本発明の１つの例示的な実施例に係る情報生成方法を示すフローチャートである。本発明の１つの例示的な実施例に係る異なるアテンションに基づいて画像における単語情報を抽出することを示す概略図である。本発明の１つの例示的な実施例に係る映像シナリオにおける対応するターゲット画像の選択を示す概略図である。１つの例示的な実施例に係るモデル訓練段階及び情報生成段階を示す概略図である。本発明の１つの例示的な実施例に係る情報生成モデルの訓練方法を示すフローチャートである。本発明の１つの例示的な実施例に係るモデル訓練及び情報生成方法を示すフローチャートである。本発明の１つの例示的な実施例に係る画像キャプション情報の生成プロセスを示す概略図である。本発明の１つの例示的な実施例に係るアテンション融合ネットワークの入力と出力を示す概略図である。本発明の１つの例示的な実施例に係る情報生成装置の構成を示すブロック図である。本発明の１つの例示的な実施例に係るコンピュータ機器の構成を示すブロック図である。本発明の１つの例示的な実施例に係るコンピュータ機器の構成を示すブロック図である。

図１は、本発明の１つの例示的な実施例に係る情報生成方法に使用されるシステムを示す概略図である。図１に示すように、該システムは、サーバ１１０と端末１２０とを含む。

ここで、サーバ１１０は、独立した物理サーバであってもよいし、複数の物理サーバにより構成されるサーバクラスタや分散型システムであってもよい。

端末１２０は、ネットワーク接続機能及び画像表示機能及び／又はビデオ再生機能を有する端末装置であってもよい。また、該端末は、画像キャプション情報を生成する機能を有する端末であってもよい。例えば、端末１２０は、スマートフォン、タブレットコンピュータ、電子書籍リーダ、スマートメガネ、スマートウォッチ、スマートテレビ、ＭＰ３プレーヤ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ：ムービング・ピクチャー・エクスパーツ・グループ・オーディオ・レイヤー・３）、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ：ムービング・ピクチャー・エクスパーツ・グループ・オーディオ・レイヤー・４）プレーヤ、ラップトップポータブルコンピュータ及びデスクトップコンピュータなどであってもよい。

好ましくは、上記のシステムは、１つ又は複数のサーバ１１０と、複数の端末１２０とを含む。本発明の実施例は、サーバ１１０及び端末１２０の数に限定されない。

端末とサーバとは、通信ネットワークを介して接続されてもよい。好ましくは、通信ネットワークは、有線ネットワーク又は無線ネットワークである。

本発明の実施例では、コンピュータ機器は、ターゲット画像を取得し、ターゲット画像の意味特徴集合を抽出し、ターゲット画像の視覚特徴集合を抽出し、ｎ個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、ｎ個の時間ステップにおける記述語を取得し、該アテンション融合のプロセスのｔ番目の時間ステップにおける入力は、ｔ番目の時間ステップにおける意味アテンションベクトル、ｔ番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合のプロセスのｔ－１番目の時間ステップにおける出力結果を含み、ｔ番目の時間ステップにおける意味アテンションベクトルは、ｔ番目の時間ステップにおいて意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、ｔ番目の時間ステップにおける視覚アテンションベクトルは、ｔ番目の時間ステップにおいて視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、アテンション融合のプロセスのｔ－１番目の時間ステップにおける出力結果は、ｔ－１番目の時間ステップにおける記述語を示すために使用され、ｔ番目の時間ステップは、ｎ個の時間ステップのうちの何れかであり、１≦ｔ≦ｎ、ｔ及びｎは何れも正の整数であり、ターゲット画像のｎ個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成する。該方法によれば、コンピュータ機器は、画像キャプション情報を生成するプロセスにおける各時間ステップおいて、ターゲット画像の視覚特徴と意味特徴とに対してアテンション融合を行うことで、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。

好ましくは、コンピュータ機器は、情報生成モデルにおけるアテンション融合ネットワークにより、ターゲット画像の意味特徴と視覚特徴とに対してアテンション融合を行うことによって、各時間ステップにおける記述語を取得してもよい。図２は、本発明の１つの例示的な実施例に係る情報生成方法を示すフローチャートである。該方法は、コンピュータ機器により実行されてもよい。該コンピュータ機器は、端末又はサーバとして実現されてもよく、該端末又はサーバは図１に示す端末又はサーバであってもよい。図２に示すように、該情報生成方法は、以下のステップを含んでもよい。

ステップ２１０：ターゲット画像を取得する。

１つの可能な態様では、該ターゲット画像は、ローカルに記憶された画像であってもよく、或いは、該ターゲット画像は、ターゲット対象指定操作に基づいてリアルタイムで取得された画像であってもよい。例えば、該ターゲット画像は、ターゲット対象によりスクリーンキャスト操作に基づいてリアルタイムで取得された画像であってもよい。或いは、該ターゲット画像は、ターゲット対象が画面内の指定領域を長押しすることによって画像キャプション情報の生成をトリガする際に、コンピュータ機器によりリアルタイムで収集された端末画面上の画像であってもよい。或いは、該ターゲット画像は、端末の画像取得コンポーネントによりリアルタイムで取得された画像であってもよい。なお、本発明は、ターゲット画像の取得方式に限定されない。

ステップ２２０：ターゲット画像の意味特徴集合を抽出し、ターゲット画像の視覚特徴集合を抽出する。

ターゲット画像の意味特徴集合は、ターゲット画像の画像情報を記述するための候補記述語に対応する語ベクトルの集合を示すために用いられる。

ターゲット画像の視覚特徴集合は、ターゲット画像の画素点のＲＧＢ（赤緑青）分布などの特徴に基づいて取得された画像特徴の集合を示すために使用される。

ステップ２３０：情報生成モデルにおけるアテンション融合ネットワークにより、ｎ個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、ｎ個の時間ステップにおける記述語を取得する。

上記のアテンション融合のプロセスに対応して、該アテンション融合ネットワークのｔ番目の時間ステップにおける入力は、ｔ番目の時間ステップにおける意味アテンションベクトル、ｔ番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果を含み、ｔ番目の時間ステップにおける意味アテンションベクトルは、ｔ番目の時間ステップにおいて意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、ｔ番目の時間ステップにおける視覚アテンションベクトルは、ｔ番目の時間ステップにおいて視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、アテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果は、ｔ－１番目の時間ステップにおける記述語を示すために使用され、ｔ番目の時間ステップは、ｎ個の時間ステップのうちの何れかであり、１≦ｔ≦ｎ、ｔ及びｎは何れも正の整数である。

ここで、時間ステップの数ｎは、ターゲット画像の画像キャプション情報を生成するために必要な時間ステップの数である。

アテンションメカニズム（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）の本質は、ネットワークを介して自律的に学習された重み係数のセットであり、「動的重み付け」の方式でターゲット対象の関心領域を強調し、関連性のない背景領域を抑制するメカニズムである。コンピュータビジョンの分野では、アテンションメカニズムは、主にハード（ｈａｒｄ）アテンションとソフト（ｓｏｆｔ）アテンションの２種類に分けられる。

アテンションメカニズムは、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ：リカレントニューラルネットワーク）によく用いられる。アテンションメカニズム付きのＲＮＮは、ターゲット画像の一部の画素を処理するたびに、ターゲット画像の全ての画素に基づいて処理を行うことではなく、現在の状態の前の状態により注目される、ターゲット画像の部分画素に基づいて処理を行うことで、タスクの処理複雑度を低減させることができる。

本発明の実施例では、コンピュータ機器は、画像キャプション情報を生成する際に、１つの単語を生成した後、生成された該単語に基づいて次の単語を生成する。ここで、１つの単語を生成するために必要な時間は、時間ステップ（ＴｉｍｅＳｔｅｐ）と称される。好ましくは、時間ステップ数ｎは、１より大きい非固定値であってもよい。生成された記述語は、記述語の生成プロセスの終了を示すための単語又は文字である場合、コンピュータ機器は、記述語の生成プロセスを終了する。

本発明の実施例に係る情報生成モデルは、画像の画像キャプション情報を生成するために用いられる。該情報生成モデルは、サンプル画像と、サンプル画像に対応する画像キャプション情報とを訓練することによって生成される。ここで、サンプル画像の画像キャプション情報は、テキスト情報であってもよい。

本発明の実施例では、意味アテンションベクトルは、複数の属性を利用して視覚記述語と非視覚記述語の両方の生成を強化してもよい。視覚記述語とは、画像の画素情報に基づいて直接抽出できる記述語情報を意味し、例えば、画像キャプション情報のうち、品詞が名詞である記述語などである。一方、非視覚記述語とは、画像の画素情報に基づいて抽出される確率の低い記述語情報、或いは直接抽出できない記述語情報を意味し、例えば、画像の記述情報のうち、品詞が動詞又は前置詞である記述語などである。

視覚アテンションベクトルは、視覚記述語の生成を強化し、抽出画像における視覚記述語に良い表現を有する。図３は、本発明の１つの例示的な実施例に係る異なるアテンションに基づいて画像における単語情報を抽出することを示す概略図である。図３のＡ部分は、所定画像について意味アテンションメカニズムにより取得された各記述語の重みの変化を示している。図３のＢ部分は、同一の所定画像について視覚アテンションメカニズムにより取得された各記述語の重みの変化を示している。記述語が単語である場合、「ｐｅｏｐｌｅ」、「ｓｔａｎｄｉｎｇ」、「ｔａｂｌｅ」という３つの単語について、意味アテンションメカニズムでは、各単語が生成された時点で、各単語に対応する重みがピークとなり、即ち、意味アテンションメカニズムは現在の文脈との関連度が最も高い単語に注目する。視覚アテンションメカニズムでは、３つの単語のうちの視覚単語を生成する際に、即ち、「ｐｅｏｐｌｅ」及び「ｔａｂｌｅ」を生成する際に、視覚アテンションは、所定画像内の視覚単語に対応する画像領域に注目する。例えば、図３に示すように、「ｐｅｏｐｌｅ」を生成する際に、視覚アテンションは、所定画像内の顔を含む領域３１０に注目する。３つの単語のうちの非視覚単語を生成する際に、即ち、「ｔａｂｌｅ」を生成する際に、視覚アテンションは、所定画像内のテーブルを含む領域３２０に注目する。しかし、視覚アテンションメカニズムに基づいて非視覚単語を生成する際に、例えば「ｓｔａｎｄｉｎｇ」を生成する際に、視覚アテンションメカニズムは、無関係な誤解を招く可能性のある画像領域３３０に注目する。

従って、視覚アテンションメカニズムの視覚語彙を生成する際の優位性と、意味アテンションメカニズムの非視覚特徴を生成する際の優位性とを両立するために、本発明の実施例では、視覚アテンションと意味アテンションとを組み合わせることで、コンピュータ機器は、視覚単語及び非視覚単語の生成をより正確に誘導することができると共に、非視覚単語の生成における視覚アテンションの干渉を低減させ、より完全、且つ充実した画像キャプションを生成することができる。

ステップ２４０：ターゲット画像のｎ個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成する。

１つの可能な態様では、ターゲット画像の画像キャプション情報を生成するために、所定の順序に従ってｎ個の時間ステップにおける記述語を並び替え、例えば順次並び替える。

上述したように、本発明の実施例に係る情報生成方法は、ターゲット画像の意味特徴集合及び視覚特徴集合をそれぞれ抽出し、情報生成モデルにおけるアテンション融合ネットワークを使用して、意味特徴と視覚特徴とに対してアテンション融合を行い、コンピュータ機器が画像キャプション情報を生成するための各時間ステップにおいて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。

なお、本発明の実施例に係る方法は、以下のシナリオに適用されてもよいが、該シナリオに限定されない。

１．視覚障害者が画像情報を取得するシナリオ
視覚障害者（視覚障害のある人）の視覚機能は、視力低下又は視野障害のために正常な視力を得られず、視覚情報の取得が障害される。例えば、視覚障害者が携帯電話を用いて画像や文字、動画を見る場合、視覚に完全な視覚情報の内容を得ることができないため、聴覚により画像における情報を得る必要がある。１つの可能な方法は、ターゲット対象が閲覧するコンテンツの存在する領域又は領域範囲を選択し、本発明の実施形態に係る情報生成方法により、該領域に対応する画像キャプション情報を生成し、該画像キャプション情報を文字情報から音声情報に変換して再生することによって、視覚障害者が完全な画像情報を取得することを支援する。

図４は、本発明の１つの例示的な実施例に係る映像シナリオにおける対応するターゲット画像の選択を示す概略図である。図４に示すように、該ターゲット画像は、コンピュータ機器により再生中の映像から、受信された再生中の映像の所定操作に基づいて取得された画像であってもよいし、コンピュータ機器により受信されたライブプレビューインタフェースにリアルタイムで表示されるライブブースの動的映像から、受信された動的映像に対する所定操作に基づいて取得された画像であってもよい。該ライブプレビューインタフェースに表示される動的映像は、ターゲット対象がライブブース内のリアルタイムコンテンツをプレビューすることで、ライブブースに入って視聴するか否かを判断することを支援するために用いられる。

１つの可能な態様では、ターゲット対象は、ビデオ画像又は動的映像の領域をクリック（所定操作）して、該領域内の現在の画像（クリック操作を受け付けた際の画像）をターゲット画像として取得することを決定してもよい。

表示ターゲット対象のターゲット画像の選択を強化するために、所定操作で選択された領域を強調表示してもよく、例えば、ハイライト表示、拡大表示、枠線の太く表示などを行ってもよい。図４に示すように、領域４１０の枠線を太く表示する。

２．早期教育のシナリオ
早期教育のシナリオでは、幼児の物体や文字に対する認知範囲が限られているため、画像による教育が効果的である。このようなシナリオでは、本発明に係る情報生成方法により、幼児がタッチした画像に対して画像情報キャプションを行うことによって、視覚と聴覚という２つの面から幼児に情報伝達を行い、幼児の学習意欲を喚起し、情報伝達効果を高めることができる。

本発明に係る方法は、モデル訓練段階及び情報生成段階を含む。図５は、１つの例示的な実施例に係るモデル訓練段階及び情報生成段階を示す概略図である。図５に示すように、モデル訓練段階において、モデル訓練装置５１０は、予め設定された訓練サンプル（サンプル画像と、サンプル画像に対応する画像キャプション情報とを含み、例えば、該画像キャプション情報は、順次配列された記述語であってもよい）を用いて、視覚－意味の二重アテンション（Ｖｉｓｕａｌ－ＳｅｍａｎｔｉｃＤｏｕｂｌｅＡｔｔｅｎｔｉｏｎ：ＶＳＤＡ）モデル、即ち情報生成モデルを得る。この視覚－意味の二重アテンションモデルは、意味アテンションネットワーク、視覚アテンションネットワーク、及びアテンション融合ネットワークを含む。

情報生成段階において、情報生成装置５２０は、該視覚－意味の二重アテンションモデルに基づいて、入力されたターゲット画像を処理し、ターゲット画像に対応する画像キャプション情報を取得する。

ここで、上記のモデル訓練装置５１０及び情報生成装置５２０は、コンピュータ機器であってもよい。例えば、該コンピュータ機器は、パーソナルコンピュータ、サーバ等の固定型のコンピュータ機器であってもよいし、タブレットコンピュータ、電子書籍リーダ等の移動型のコンピュータ機器であってもよい。

好ましくは、上記のモデル訓練装置５１０と情報生成装置５２０とが同一の装置であってもよいし、モデル訓練装置５１０と情報生成装置５２０とが異なる装置であってもよい。また、モデル訓練装置５１０と情報生成装置５２０とが異なる装置である場合、モデル訓練装置５１０と情報生成装置５２０とが同一のタイプの装置であってもよく、例えば、モデル訓練装置５１０と情報生成装置５２０とが何れもサーバであってもよい。或いは、モデル訓練装置５１０と情報生成装置５２０とが異なるタイプの装置であってもよく、例えば、情報生成装置５２０はパーソナルコンピュータ又は端末であってもよく、モデル訓練装置５１０はサーバ等であってもよい。なお、本発明の実施例は、モデル訓練装置５１０及び情報生成装置５２０の具体的なタイプに限定されない。

図６は、本発明の１つの例示的な実施例に係る情報生成モデルの訓練方法を示すフローチャートである。該方法はコンピュータ機器により実行されてもよく、該コンピュータ機器は端末又はサーバとして実現されてもよい。図６に示すように、該情報生成モデルの訓練方法は、以下のステップを含む。

ステップ６１０：サンプル画像セットを取得し、該サンプル画像セットは、少なくとも２つの画像サンプルと、少なくとも２つの画像サンプルにそれぞれ対応する画像キャプション情報とを含む。

ステップ６２０：サンプル画像セットに基づいて訓練を行い、情報生成モデルを取得する。

該情報生成モデルは、視覚－意味の二重アテンションモデルであってもよく、該モデルは、意味アテンションネットワーク、視覚アテンションネットワーク、及びアテンション融合ネットワークを含む。該意味アテンションネットワークは、画像の意味特徴集合に基づいて意味アテンションベクトルを取得するために使用され、該視覚アテンションネットワークは、画像の視覚特徴集合に基づいて視覚アテンションベクトルを取得するために使用される。該アテンション融合ネットワークは、画像の意味特徴と視覚特徴とに対してアテンション融合を行い、画像に対応する画像キャプション情報を構成する記述語を取得するために使用される。

上述したように、本発明の実施例に係る情報生成モデルの訓練方法は、サンプル画像セットの訓練により、意味アテンションネットワーク、視覚アテンションネットワーク及びアテンション融合ネットワークを含む情報生成モデルを取得する。画像キャプション情報を生成するプロセスにおいて、上記の情報生成モデルを用いて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。

本発明の実施例では、モデル訓練のプロセスはサーバにより実行されてもよく、画像キャプション情報の生成プロセスはサーバ又は端末により実行されてもよい。画像キャプション情報の生成プロセスが端末により実行される場合、サーバは、訓練済みの視覚－意味の二重アテンションモデルを端末に送信し、端末が視覚－意味の二重アテンションモデルにより、取得されたターゲット画像を処理し、ターゲット画像の画像キャプション情報を取得してもよい。以下の実施例では、モデル訓練プロセス及び画像キャプション情報の生成プロセスの両方がサーバにより実行されることを一例にして説明する。図７は、本発明の１つの例示的な実施例に係るモデル訓練及び情報生成方法を示すフローチャートである。該方法は、コンピュータ機器により実行されてもよい。図７に示すように、該モデル訓練及び情報生成方法は、以下のステップを含んでもよい。

ステップ７０１：サンプル画像セットを取得し、該サンプル画像セットは、少なくとも２つの画像サンプルと、該少なくとも２つの画像サンプルにそれぞれ対応する画像キャプション情報とを含む。

ここで、各サンプル画像にそれぞれ対応する画像キャプション情報は、関係者によりラベル付けされてもよい。

ステップ７０２：サンプル画像セットに基づいて訓練を行い、情報生成モデルを取得する。

該情報生成モデルは、視覚－意味の二重アテンションモデルであってもよく、該モデルは、意味アテンションネットワーク、視覚アテンションネットワーク、及びアテンション融合ネットワークを含む。該意味アテンションネットワークは、ターゲット画像の意味特徴集合に基づいて意味アテンションベクトルを取得するために使用され、該視覚アテンションネットワークは、ターゲット画像の視覚特徴集合に基づいて視覚アテンションベクトルを取得するために使用される。該アテンション融合ネットワークは、ターゲット画像の意味特徴と視覚特徴とに対してアテンション融合を行い、ターゲット画像に対応する画像キャプション情報を構成する記述語を取得するために使用される。

１つの可能な態様では、情報生成モデルは、意味畳み込みニューラルネットワーク及び視覚畳み込みニューラルネットワークをさらに含む。ここで、意味畳み込みニューラルネットワークは、ターゲット画像を処理し、ターゲット画像の意味特徴ベクトルを取得して、該ターゲット画像に対応する記述語集合を取得するために使用される。視覚畳み込みニューラルネットワークは、ターゲット画像を処理し、該ターゲット画像に対応する視覚特徴集合を取得するために使用される。

１つの可能な態様では、情報生成モデルを訓練するプロセスは、以下のように実現される。

サンプル画像セットの各サンプル画像を情報生成モデルに入力し、各サンプル画像に対応する予測画像キャプション情報を取得する。

各サンプル画像に対応する予測画像キャプション情報と、各サンプル画像に対応する画像キャプション情報とに基づいて、損失関数値を計算する。

損失関数値に基づいて、情報生成モデルのパラメータを更新する。

情報生成モデルを応用する際に生成されたターゲット画像の画像キャプション情報の正確性を保証するために、情報生成モデルのサンプル画像に基づく出力結果（即ち、予測画像キャプション情報）をサンプル画像に対応する画像キャプション情報と近似させる必要があるため、情報生成モデルが収束するまで、情報生成モデルの訓練プロセスにおいて複数回の訓練を行い、情報生成モデルにおける各ネットワークの各パラメータを更新する必要がある。

情報生成モデルに関与する全てのパラメータをθとし、目標シーケンス（ＧｒｏｕｎｄＴｒｕｔｈＳｅｑｕｅｎｃｅ）｛ｗ_１，ｗ_２，…，ｗ_ｔ｝、即ちサンプル画像の画像キャプション情報における記述語シーケンスを設定し、損失関数を最小化クロスエントロピー（ＣｒｏｓｓＥｎｔｒｏｐｙｌｏｓｓ）関数とすると、情報生成モデルに対応する損失関数値を計算する式は、以下のように表してもよい。

上記の式における
（外１）
は情報生成モデルにより出力された予測画像キャプション情報における各記述語の確率を表す。損失関数の計算結果に基づいて、情報生成モデルにおける各ネットワークの各パラメータを調整する。

ステップ７０３：ターゲット画像を取得する。

画像キャプション情報の生成プロセスがサーバにより実行される場合、該ターゲット画像は、端末によりターゲット画像が取得された後に、画像キャプション情報の取得のためにサーバに送信された画像であってもよい。それに応じて、サーバは、ターゲット画像を受信する。

ステップ７０４：ターゲット画像の意味特徴ベクトルを取得する。

１つの可能な態様では、ターゲット画像を意味畳み込みニューラルネットワークに入力し、意味畳み込みニューラルネットワークにより出力されたターゲット画像の意味特徴ベクトルを取得する。

ここで、該意味畳み込みニューラルネットワークは、全畳み込みネットワーク（ＦｕｌｌｙＣｏｎｖｅｎｔｉｏｎａｌＮｅｔｗｏｒｋ：ＦＣＮ）であってもよいし、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＣＮＮ）であってもよい。ここで、ＣＮＮは、フィードフォワードニューラルネットワークであり、一方向多層構造のニューラルネットワークである。同一の層のニューロン間に相互接続がなく、層間の情報伝達は一方向にのみ行われ、入力層、出力層を除く中間の全てが隠れ層であり、隠れ層は１つの層又は複数層がある。ＣＮＮは画像の下位層の画素の特徴から直接、画像を層ごとに特徴抽出を行うことができる。ＣＮＮは、エンコーダの最も一般的な実装モデルであり、画像をベクトルにエンコードする。

コンピュータ機器は、該意味畳み込みニューラルネットワークによりターゲット画像を処理し、該ターゲット画像の大まかなグラフ表現ベクトル、即ち、ターゲット画像の意味特徴ベクトルを取得することができる。

ステップ７０５：該意味特徴ベクトルに基づいて、ターゲット画像の意味特徴集合を抽出する。

語彙ライブラリでは、全ての属性語が該ターゲット画像に対応するわけではないため、語彙ライブラリにおける全ての語に対して確率計算又は検証を行うと、過多、且つ不必要なデータ処理を引き起こすため、記述語集合の取得を行う前に、コンピュータ機器は、取得されたターゲット画像属性を示す意味特徴ベクトルに基づいて、語彙ライブラリにおける属性語に対してスクリーニングを行い、その中からターゲット画像に対応する属性語により構成される属性語集合、即ち候補記述語集合を取得し、その後、候補記述語集合における属性語の意味特徴を抽出し、ターゲット画像の意味特徴集合を取得してもよい。

１つの可能な態様では、コンピュータ機器は、意味特徴ベクトルに基づいて、語彙ライブラリからターゲット画像の対応する属性語集合を抽出してもよい。該属性語集合とは、ターゲット画像を記述するための候補記述語の集合である。

そして、属性語集合に対応する語ベクトル集合を、ターゲット画像の前記意味特徴集合として取得する。該語ベクトル集合には、属性語集合における各候補記述語のそれぞれに対応する語ベクトルが含まれる。

該属性語集合における候補記述語は、ターゲット画像の文脈に対応する属性語である。本発明は、属性語集合における候補記述語の数に限定されない。

ここで、候補記述語は、例えば、ｐｌａｙ、ｐｌａｙｉｎｇ、ｐｌａｙｓなどのように、同一の単語の異なる形式を含んでもよい。

１つの可能な態様では、各語彙のマッチング確率を取得し、各語彙のマッチング確率に基づいて語彙ライブラリから候補記述語を選択し、属性語集合を構成するプロセスは、以下のように実現されてもよい。

意味特徴ベクトルに基づいて、語彙ライブラリにおける各語彙のマッチング確率を取得する。該マッチング確率は、語彙ライブラリにおける語彙とターゲット画像とが合致する確率である。

語彙ライブラリから、マッチング確率がマッチング確率閾値よりも大きい語彙を候補記述語として抽出し、属性語集合を構成する。

１つの可能な態様では、Ｎｏｉｓｙ－ＯＲの方法により、画像内の各属性語の確率を計算してもよい。得られた属性語の精度を向上させるために、該確率閾値を０．５に設定してもよい。なお、該確率閾値の設定は、状況に応じて調整されてもよく、本発明はこれに限定あされない。

属性語取得の精度を向上させるために、１つの可能な態様では、語彙検出器を予め訓練してもよく、該語彙検出器は、ターゲット画像の特徴ベクトルに基づいて、語彙ライブラリから属性語を取得するために用いられる。従って、コンピュータは、訓練済みの語彙検出器を用いて属性語を取得してもよい。

語彙検出器が特徴ベクトルに基づいて語彙ライブラリから属性語を抽出するように、特徴ベクトルを語彙検出器に入力する。

好ましくは、該語彙検出器は、マルチインスタンス学習（ＭｕｌｔｉｐｌｅＩｎｓｔａｎｃｅＬｅａｒｎｉｎｇ：ＭＩＬ）の弱教師あり学習により得られた語彙検出モデルである。

ステップ７０６：ターゲット画像の視覚特徴集合を抽出する。

１つの可能な態様では、コンピュータ機器は、視覚畳み込みニューラルネットワークにターゲット画像を入力し、視覚畳み込みニューラルネットワークにより出力されたターゲット画像の視覚特徴集合を取得してもよい。

取得された視覚特徴の集合の正確性を向上させるために、１つの可能な態様では、コンピュータ装置は、ターゲット画像の視覚特徴集合を抽出する前に、ターゲット画像を前処理してもよい。該前処理のプロセスは、以下のステップを含んでもよい。

ターゲット画像に対してサブ領域分割を行い、少なくとも１つのサブ領域を取得する。

この場合、ターゲット画像の視覚特徴集合を抽出するプロセスは、以下のように実現される。

少なくとも１つのサブ領域の視覚特徴をそれぞれ抽出し、視覚特徴集合を構成する。

ここで、コンピュータ機器は、ターゲット画像を等間隔で分割して、少なくとも１つのサブ領域を取得してもよい。分割の間隔は、コンピュータ機器によりターゲット画像の画像サイズに基づいて設定されてもよく、異なる画像サイズに対応する分割間隔は異なる。本発明は、サブブロックの数及び分割間隔の大きさに限定されない。

本発明の実施例では、ターゲット対象の意味特徴集合を抽出するプロセスと、ターゲット対象の視覚特徴集合を抽出するプロセスとは、同期して実行されてもよく、即ち、ステップ７０４～ステップ７０５とステップ７０６とは同期して実行されてもよい。

ステップ７０７：情報生成モデルにおけるアテンション融合ネットワークにより、ｎ個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、ｎ個の時間ステップにおける記述語を取得する。

ｎ個の時間ステップにおけるｔ番目の時間ステップを一例にすると、ｔ番目の時間ステップにおける記述語を取得するプロセスは、以下のように実現されてもよい。

ｔ番目の時間ステップにおいて、ｔ番目の時間ステップにおける意味アテンションベクトル、ｔ番目の時間ステップにおける視覚アテンションベクトル、ｔ－１番目の時間ステップにおける隠れ層ベクトル、及びアテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果をアテンション融合ネットワークに入力し、アテンション融合ネットワークのｔ番目の時間ステップにおける出力結果、及びｔ番目の時間ステップにおける隠れ層ベクトルを取得する。

或いは、ｔ番目の時間ステップにおいて、ｔ番目の時間ステップにおける意味アテンションベクトル、ｔ番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果をアテンション融合ネットワークに入力し、アテンション融合ネットワークのｔ番目の時間ステップにおける出力結果、及びｔ番目の時間ステップにおける隠れ層ベクトルを取得する。

言い換えれば、１つの可能な態様では、意味アテンションベクトル及び視覚アテンションベクトルを前の時間ステップにおける出力結果に適用して、現在の時間ステップにおける出力結果を取得してもよい。或いは、もう１つの可能な態様では、得られた各時間ステップにおける出力結果の正確性を向上させるために、意味アテンションベクトル、視覚アテンションベクトル及び前の時間ステップにおける隠れ層ベクトルを前の時間ステップにおける出力結果に適用して、現在の時間ステップにおける出力結果を取得してもよい。現在の時間ステップにおける出力結果は、現在の時間ステップの記述語の語ベクトルである。

ターゲット画像の各時間ステップにおける記述語を取得するために、ターゲット画像の各時間ステップにおけるアテンションベクトルを取得する必要があり、該アテンションベクトルは、意味アテンションベクトル及び視覚アテンションベクトルを含む。

ｔ番目の時間ステップを一例にすると、意味アテンションベクトルを取得する際に、ｔ番目の時間ステップにおいて、ｔ－１番目の時間ステップにおける隠れ層ベクトル、及び意味特徴集合に基づいて、ｔ番目の時間ステップにおける意味アテンションベクトルを生成する。

ここで、隠れ層ベクトルは、記述語を生成する際に生成された中間コンテンツを示し、隠れ層ベクトルには、次の記述語の生成を示す履歴情報又は文脈情報が含まれる。これによって、次の時間ステップにおいて生成された次の記述語は現在の文脈により適合する。

ｔ番目の時間ステップは、ｎ個の時間ステップのうちの任意の時間ステップを表し、ｎは、画像キャプション情報を生成するために必要な時間ステップの数を表し、１≦ｔ≦ｎであり、ｔ及びｎはいずれも正の整数である。

現在の時間ステップにおける意味アテンションベクトルを生成する際に、情報生成モデルは、前の時間ステップにおける隠れ層ベクトルと、ターゲット画像の意味特徴集合とに基づいて、現在の時間ステップにおける意味アテンションベクトルを生成してもよい。

１つの可能な態様では、情報生成モデルは、ｔ－１番目の時間ステップにおいて出力された隠れ層ベクトル、及びターゲット画像の意味特徴集合を情報生成モデルにおける意味アテンションネットワークに入力し、意味アテンションネットワークにより出力されたｔ番目の時間ステップにおける意味アテンションベクトルを取得してもよい。

該意味アテンションネットワークは、ｔ－１番目の時間ステップにおける隠れ層ベクトル及び意味特徴集合に基づいて、意味特徴集合における各意味特徴のｔ－１番目の時間ステップにおける重みを取得する。

情報生成モデルは、意味特徴集合における各意味特徴のｔ－１番目の時間ステップにおける重み、及び意味特徴集合に基づいて、ｔ番目の時間ステップにおける意味アテンションベクトルを生成してもよい。

ここで、各時間ステップにおける意味アテンションベクトルは、各属性語の重みの和であり、計算式は以下のようになる。

ｂ_ｉ＝｛ｂ_１，…，ｂ_Ｌ｝はターゲット画像から取得された属性を表す。Ｌは属性の長さ、即ち属性語の数を表す。ここで、ｂ_ｉは各属性語の語ベクトルを表す。ｃ_ｔは長期記憶ベクトルを表す。ｈ_ｔ－１はｔ－１番目の時間ステップにおける隠れ層ベクトルを表す。β_ｔはｔ番目の時間ステップにおける各属性語のそれぞれの重みを表す。Ａ_ｔはｔ番目の時間ステップの意味アテンションベクトルを表す。

ｔ番目の時間ステップを一例にすると、視覚アテンションベクトルを取得する際に、ｔ番目の時間ステップにおいて、ｔ－１番目の時間ステップにおける隠れ層ベクトル、及び視覚特徴集合に基づいて、ｔ番目の時間ステップにおける視覚アテンションベクトルを生成する。

現在の時間ステップにおける視覚アテンションベクトルを生成する際に、情報生成モデルは、前の時間ステップにおいて出力された隠れ層ベクトルと、ターゲット画像の視覚特徴の集合とに基づいて、現在の時間ステップにおける視覚アテンションベクトルを生成してもよい。

１つの可能な態様では、情報生成モデルは、ｔ－１番目の時間ステップにおいて出力された隠れ層ベクトル、及びターゲット画像の視覚特徴集合を情報生成モデルにおける視覚アテンションモデルに入力し、視覚アテンションモデルにより出力されたｔ番目の時間ステップの意味アテンションベクトルを取得してもよい。

該視覚アテンションモデルは、ｔ－１番目の時間ステップにおける隠れ層ベクトル及び視覚特徴集合に基づいて、視覚特徴集合における各視覚特徴のｔ－１番目の時間ステップにおける重みを取得する。

情報生成モデルは、視覚特徴集合における各視覚特徴のｔ－１番目の時間ステップにおける重み、及び視覚特徴集合に基づいて、ｔ番目の時間ステップにおける視覚アテンションベクトルを生成してもよい。

ここで、各時間ステップにおける視覚アテンションベクトルは、各サブ領域の視覚特徴の重みの和であり、計算式は以下のようになる。

ａ_ｉ＝｛ａ_１，…，ａ_ｍ｝は各サブ領域の視覚特徴を表し、ターゲット画像の焦点領域を示す。ｍはサブ領域の数、即ち抽出された視覚特徴の数を表す。α_ｔは各視覚特徴に対応する重みを表す。Ｖ_ｔはｔ番目の時間ステップの視覚アテンションベクトルを表す。

ここで、情報生成モデルは、各サブ領域の視覚特徴に対応する重みを計算する際に、より良好な性能を得るために、要素ごとの乗算戦略（Ｅｌｅｍｅｎｔ－ＷｉｓｅＭｕｌｔｉｐｌｉｃａｔｉｏｎＳｔｒａｔｅｇｙ）により計算を行ってもよい。

アテンションモデルはより詳細なサブ領域画像特徴を取得することができるため、ソフトアテンションメカニズムは、異なる物体の記述語彙を生成する際に、対応する領域に適応的に注目することができ、より良好な性能を有する。このため、本発明の実施例では、ソフトアテンションメカニズムに基づいて構築された視覚アテンションモデルを採用する。

視覚アテンションモデル及び意味アテンションモデルは、それぞれの時間ステップにおいて対応する特徴ベクトルの重みを計算する。異なる時間ステップにおける隠れ層ベクトルが異なり、各時間ステップにおいて得られた各特徴ベクトルの重みが異なるため、各時間ステップにおいて、情報生成モデルは、各時間ステップにおける文脈により適合する画像焦点領域及び画像キャプションを生成するための特徴語に注目してもよい。

１つの可能な態様では、該情報生成モデルにおけるアテンション融合ネットワークは、シーケンスネットワークとして実現されてもよく、該シーケンスネットワークは、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ：長短期記憶ネットワーク）、Ｔｒａｎｓｆｏｒｍｅｒネットワークなどを含んでもよい。ここで、ＬＳＴＭは、時系列における間隔或いは遅延が相対的に長い重要な時間を予測する時間リカレントニューラルネットワークであり、特別なＲＮＮである。

該シーケンスネットワークがＬＳＴＭネットワークであることを一例とすると、画像キャプション情報を生成する際に、視覚アテンションベクトルＶと意味アテンションベクトルＡをＬＳＴＭネットワークの追加入力パラメータとし、この２つのアテンション特徴をＬＳＴＭネットワークのユニットノードに合併して画像キャプション情報の生成を誘導し、誘導情報生成モデルは、画像の視覚特徴と意味特徴に同時に注目して、２つの特徴ベクトルを相互に補完させる。

本発明の実施例では、ＢＯＳ及びＥＯＳの記号を使用して、文の先頭及び末尾をそれぞれ表してもよい。これに基づき、ＬＳＴＭネットワークは、視覚アテンションベクトルと意味アテンションベクトルに基づいて記述語を生成する式は、以下の通りである。

ここで、σはｓｉｇｍｏｉｄ関数を表し、φは２つのユニットを有するｍａｘｏｕｔ非線形活性化関数（
（外２）
はユニットを表す）を表し、ｉ_ｔはｉｎｐｕｔｇａｔｅを表し、ｆ_ｔはｆｏｒｇｅｔｇａｔｅを表し、ｏ_ｔはｏｕｔｐｕｔｇａｔｅを表す。

ＬＳＴＭは、ｓｏｆｔｍａｘ関数を使用して次の単語の確率分布を出力する。

１つの可能な態様では、情報生成モデルにおけるアテンション融合ネットワークには、ハイパーパラメータが設定され、該ハイパーパラメータは、アテンション融合ネットワークにおける視覚アテンションベクトル及び意味アテンションベクトルのそれぞれの重みを示す。

画像キャプション情報の生成プロセスにおいて、視覚アテンション特徴と意味アテンション特徴は異なる面で情報生成モデルにより生成された画像キャプション情報に影響を与えるため、視覚アテンションベクトルＶはモデルを画像の関連領域に注目するように誘導し、意味アテンションベクトルＡは関連度が最も高い属性単語の生成を強化する。２つのアテンションベクトルが相互に補完的であることを考慮して、２つのアテンションベクトルの最適な組み合わせを決定するために、アテンション融合ネットワークにおいてハイパーパラメータを設定してもよい。依然として該アテンション融合ネットワークがＬＳＴＭネットワークであることを一例にすると、更新されたＬＳＴＭネットワークが視覚アテンションベクトルと意味アテンションベクトルに基づいて記述語を生成する式は、以下の通りである。

ここで、ｚはハイパーパラメータを表し、その値範囲は［０．１，０．９］であり、２つのアテンションベクトルの異なる重みを表し、ｚが大きいほど、アテンション誘導における視覚特徴の重みが大きくなり、アテンション誘導における意味特徴の重みが小さくなり、逆に、ｚが小さいほど、アテンション誘導における意味特徴の重みが大きくなり、アテンション誘導における視覚特徴の重みが小さくなる。

なお、ハイパーパラメータの数値設定は、異なる重みの割り当てにおけるモデルの表現効果に応じて設定されてもよく、本発明はハイパーパラメータの数値の大きさに限定されない。

ステップ７０８：ターゲット画像のｎ個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成する。

１つの可能な態様では、情報生成モデルにより生成された画像キャプション情報は、第１の言語のキャプション情報である。例えば、第１の言語は、英語であってもよいし、中国語であってもよいし、その他の言語であってもよい。

画像キャプション情報を異なる対象の使用要件により適合させるために、１つの可能な態様では、生成されたターゲット画像キャプション情報の言語が非所定言語である場合、コンピュータ機器は、生成された第１の言語のキャプション情報を所定言語のキャプション情報に変更してもよい。例えば、情報生成モデルにより生成された画像キャプション情報が英語のキャプション情報であり、ターゲット対象により要求される所定言語が中国語である場合、情報生成モデルにより英語の画像キャプション情報が生成されると、コンピュータ機器は、該英語の画像キャプション情報を中国語の画像キャプション情報に翻訳して出力してもよい。

ここで、出力された画像キャプション情報の言語タイプ、即ち、所定言語のタイプは、関連対象により実際の需要に応じて設定されてもよいが、本発明は画像キャプション情報の言語タイプに限定されない。

１つの可能な態様では、生成された画像キャプション情報は文字情報であるため、ターゲット対象が画像キャプション情報を容易に受信するために、コンピュータ機器は、ＴＴＳ（Ｔｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ：音声合成）技術に基づいて、文字タイプの画像キャプション情報を音声タイプの画像キャプション情報に変換し、音声再生の形で画像キャプション情報をターゲット対象に伝送してもよい。

上記のプロセスは以下のように実現されてもよい。サーバは、取得された文字タイプの画像キャプション情報をＴＴＳ技術により音声タイプの画像キャプション情報に変換した後、
端末が取得された音声タイプの画像キャプション情報に応じて画像キャプション情報を再生するように、端末に音声タイプの画像キャプション情報を送信してもよい。或いは、サーバは、文字タイプの画像キャプション情報を端末に送信し、端末がＴＴＳ技術により文字タイプの画像キャプション情報を音声タイプの画像キャプション情報に変換した後、音声再生を行ってもよい。

上述したように、本発明の実施例に係るモデル訓練及び情報生成方法は、ターゲット画像の意味特徴集合と視覚特徴集合をそれぞれ抽出し、情報生成モデルにおけるアテンション融合ネットワークを利用して、意味特徴と視覚特徴とに対してアテンション融合を行い、画像キャプション情報を生成するための各時間ステップにおいて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。

また、意味アテンションネットワークが各属性語の重みを取得する前に、画像の特徴ベクトルに基づいて語彙ライブラリにおける語彙をスクリーニングし、画像に関連する属性語を候補記述語として取得し、候補記述語に基づいて重み計算を行う。これによって、意味アテンションネットワークのデータ処理量を低減させ、処理精度を保証すると共に、情報生成モデルのデータ処理圧力を低減させることができる。

アテンション融合ネットワークがＬＳＴＭネットワークであり、アテンション融合ネットワークの入力が前の時間ステップの隠れ層ベクトルと、前の時間ステップの出力結果と、現在の時間ステップの視覚アテンションベクトルと、現在の時間ステップの意味アテンションベクトルとを含むことを一例にする。図８は、本発明の１つの例示的な実施例に係る画像キャプション情報の生成プロセスを示す概略図である。図８に示すように、コンピュータ機器は、ターゲット画像８１０を取得した後、ターゲット画像８１０を情報生成モデル８２０に入力する。情報生成モデル８２０は、該ターゲット画像８１０を意味畳み込みニューラルネットワーク８２１に入力し、ターゲット画像の意味特徴ベクトルを取得する。その後、語彙検出器８２２は、ターゲット画像の意味特徴ベクトルに基づいて語彙ライブラリにおける属性語をスクリーニングし、ターゲット画像に対応する候補記述語８２３を取得し、ターゲット画像に対応する意味特徴集合を取得する。同時に、情報生成モデル８２０は、ターゲット画像８１０を視覚畳み込みニューラルネットワーク８２４に入力し、ターゲット画像に対応する視覚特徴集合８２５を取得する。意味アテンションネットワーク８２６が入力された前の時間ステップにおいて出力された隠れ層ベクトルに基づいて現在の時間ステップにおける意味アテンションベクトルＡ_ｔを取得するように、意味特徴集合を意味アテンションネットワーク８２６に入力する。ｔは、現在の時間ステップを表す。ここで、ｔ＝１の場合、前の時間ステップにおいて出力された隠れ層ベクトルは、事前設定された隠れ層ベクトルである。それに応じて、視覚アテンションネットワーク８２７が入力された前の時間ステップにおいて出力された隠れ層ベクトルに基づいて現在の時間ステップにおける視覚アテンションベクトルＶ_ｔを取得するように、視覚特徴の集合を視覚アテンションネットワーク８２７に入力する。視覚アテンションベクトルＶ_ｔ、意味アテンションベクトルＡ_ｔ、前の時間ステップにおいて出力された隠れ層ベクトル及び前の時間ステップにおいて出力された記述語ｘ_ｔ（即ちｙ_ｔ－１）をＬＳＴＭネットワーク８２８に入力し、ＬＳＴＭネットワーク８２８により出力された現在の時間ステップにおける記述語ｙ_ｔを取得する。ここで、ｔ＝１の場合、前の時間ステップにおいて出力された記述語は、事前設定された開始語又は文字である。ＬＳＴＭネットワークにより取得された記述語が終了語又は終端文字になるまで、上記のプロセスを繰り返す。コンピュータ機器は、取得された各記述語を取得の順序に従って並び替えて、ターゲット画像の画像キャプション情報８３０を取得する。

ここで、図９は、本発明の１つの例示的な実施例に係るアテンション融合ネットワークの入力と出力を示す概略図である。図９に示すように、ｔ番目の時間ステップの場合、アテンション融合ネットワーク９１０の入力は、ｔ－１番目の時間ステップにおける隠れ層ベクトルｈ_ｔ－１と、ｈ_ｔ－１に基づいて生成されたｔ番目の時間ステップにおける視覚アテンションベクトルＶ_ｔと、ｈ_ｔ－１に基づいて生成された意味アテンションベクトルＡ_ｔと、ｔ－１番目の時間ステップにおいて出力された記述語のグラフ表現ベクトル（即ち、ｔ－１時間ステップの出力ベクトルｙ_ｔ－１）とを含む。アテンション融合ネットワーク９１０の出力は、ｔ番目の時間ステップの出力ベクトル（ｙ_ｔ）と、ｔ番目の時間ステップの隠れ層ベクトル（ｈ_ｔ：次の記述語を生成するために用いられる）とを含む。ここで、視覚アテンションベクトルは、視覚アテンションネットワーク９３０により各サブ領域に対応する視覚特徴の重み付け和に基づいて計算され、意味アテンションベクトルは、意味アテンションネットワーク９２０により各属性語の重み付け和に基づいて計算される。

なお、本発明の具体的な実施形態では、ターゲット画像などに関連するデータが言及されているが、本発明の上記の実施形態が具体的な製品又は技術に適用される際に、ユーザの許可又は同意が必要であり、関連するデータの収集、使用及び処理は、関連する国及び地域の関連する法令及び基準に準拠する必要がある。

図１０は、本発明の１つの例示的な実施例に係る情報生成装置の構成を示すブロック図である。図１０に示すように、該装置は、以下のモジュールを含む。

画像取得モジュール１０１０は、ターゲット画像を取得する。

特徴抽出モジュール１０２０は、ターゲット画像の意味特徴集合を抽出し、ターゲット画像の視覚特徴集合を抽出する。

記述語取得モジュール１０３０は、ｎ個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、ｎ個の時間ステップにおける記述語を取得する。該アテンション融合のプロセスのｔ番目の時間ステップにおける入力は、ｔ番目の時間ステップにおける意味アテンションベクトル、ｔ番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合のプロセスのｔ－１番目の時間ステップにおける出力結果を含み、ｔ番目の時間ステップにおける意味アテンションベクトルは、ｔ番目の時間ステップにおいて意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、ｔ番目の時間ステップにおける視覚アテンションベクトルは、ｔ番目の時間ステップにおいて視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、アテンション融合のプロセスのｔ－１番目の時間ステップにおける出力結果は、ｔ－１番目の時間ステップにおける記述語を示すために使用され、ｔ番目の時間ステップは、ｎ個の時間ステップのうちの何れかであり、１≦ｔ≦ｎ、ｔ及びｎは何れも正の整数である。

情報生成モジュール１０４０は、ターゲット画像のｎ個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成する。

１つの可能な態様では、記述語取得モジュール１０３０は、情報生成モデルにおけるアテンション融合ネットワークにより、ｎ個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、ｎ個の時間ステップにおける記述語を取得する。

１つの可能な態様では、記述語取得モジュール１０３０は、ｔ番目の時間ステップにおいて、ｔ番目の時間ステップにおける意味アテンションベクトル、ｔ番目の時間ステップにおける視覚アテンションベクトル、ｔ－１番目の時間ステップにおける隠れ層ベクトル、及びアテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果をアテンション融合ネットワークに入力し、アテンション融合ネットワークのｔ番目の時間ステップにおける出力結果、及びｔ番目の時間ステップにおける隠れ層ベクトルを取得する。

或いは、記述語取得モジュール１０３０は、ｔ番目の時間ステップにおいて、ｔ番目の時間ステップにおける意味アテンションベクトル、ｔ番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果をアテンション融合ネットワークに入力し、アテンション融合ネットワークのｔ番目の時間ステップにおける出力結果、及びｔ番目の時間ステップにおける隠れ層ベクトルを取得する。

１つの可能な態様では、アテンション融合ネットワークには、ハイパーパラメータが設定され、ハイパーパラメータは、アテンション融合ネットワークにおける視覚アテンションベクトル及び意味アテンションベクトルのそれぞれの重みを示す。

１つの可能な態様では、該装置は、以下のモジュールをさらに含む。

第１の生成モジュールは、ｔ番目の時間ステップにおいて、ｔ－１番目の時間ステップにおける隠れ層ベクトル、及び意味特徴集合に基づいて、ｔ番目の時間ステップにおける意味アテンションベクトルを生成する。

１つの可能な態様では、第１の生成モジュールは、以下のサブモジュールを含む。

第１の取得サブモジュールは、ｔ－１番目の時間ステップにおける隠れ層ベクトル及び意味特徴集合に基づいて、意味特徴集合における各意味特徴のｔ－１番目の時間ステップにおける重みを取得する。

第１の生成サブモジュールは、意味特徴集合における各意味特徴のｔ－１番目の時間ステップにおける重み、及び意味特徴集合に基づいて、ｔ番目の時間ステップにおける意味アテンションベクトルを生成する。

第２の生成モジュールは、ｔ番目の時間ステップにおいて、ｔ－１番目の時間ステップにおける隠れ層ベクトル、及び視覚特徴集合に基づいて、ｔ番目の時間ステップにおける視覚アテンションベクトルを生成する。

１つの可能な態様では、第２の生成モジュールは、以下のサブモジュールを含む。

第２の取得サブモジュールは、ｔ－１番目の時間ステップにおける隠れ層ベクトル及び視覚特徴集合に基づいて、視覚特徴集合における各視覚特徴のｔ－１番目の時間ステップにおける重みを取得する。

第２の生成サブモジュールは、視覚特徴集合における各視覚特徴のｔ－１番目の時間ステップにおける重み、及び視覚特徴集合に基づいて、ｔ番目の時間ステップにおける視覚アテンションベクトルを生成する。

１つの可能な態様では、特徴抽出モジュール１０２０は、以下のサブモジュールを含む。

第３の取得サブモジュールは、ターゲット画像の意味特徴ベクトルを取得する。

抽出サブモジュールは、意味特徴ベクトルに基づいて、ターゲット画像の意味特徴集合を抽出する。

１つの可能な態様では、抽出サブモジュールは、以下の各部を含む。

属性語抽出部は、意味特徴ベクトルに基づいて、語彙ライブラリからターゲット画像に対応する属性語集合を抽出する。該属性語集合は、ターゲット画像を記述するための候補記述語の集合である。

意味特徴抽出部は、属性語集合に対応する語ベクトル集合を、ターゲット画像の意味特徴集合として取得する。

１つの可能な態様では、属性語抽出部は、意味特徴ベクトルに基づいて、語彙ライブラリにおける各語彙のマッチング確率を取得する。該マッチング確率は、語彙ライブラリにおける語彙とターゲット画像とが合致する確率である。

属性語抽出部は、語彙ライブラリから、マッチング確率がマッチング確率閾値よりも大きい語彙を候補記述語として抽出し、属性語集合を構成する。

１つの可能な態様では、属性語抽出部は、意味特徴ベクトルを語彙検出器に入力し、語彙検出器により意味特徴ベクトルに基づいて語彙ライブラリから抽出された属性語集合を取得する。

ここで、語彙検出器は、マルチインスタンス学習の弱教師あり学習により得られた語彙検出モデルである。

１つの可能な態様では、特徴抽出モジュール１０２０がターゲット画像の視覚特徴集合を抽出する前に、該装置は、以下のモジュールをさらに含む。

サブ領域分割モジュール、ターゲット画像に対してサブ領域分割を行い、少なくとも１つのサブ領域を取得する。

特徴抽出モジュール１０２０は、少なくとも１つのサブ領域の視覚特徴をそれぞれ抽出し、視覚特徴集合を構成する。

上述したように、本発明の実施例に係る情報生成装置は、ターゲット画像の意味特徴集合及び視覚特徴集合をそれぞれ抽出し、ｎ個の時間ステップにおいて意味特徴と視覚特徴とに対してアテンション融合を行い、コンピュータ機器が画像キャプション情報を生成するための各時間ステップにおいて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。

図１１は、本発明の１つの例示的な実施例に係るコンピュータ機器１１００の構成を示すブロック図である。該コンピュータ機器は、本発明の上述の実施形態におけるサーバとして実現されてもよい。コンピュータ機器１１００は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）１１０１、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）１１０２及び読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）１１０３を含むシステムメモリ１１０４、並びにシステムメモリ１１０４及び中央処理ユニット１１０１に接続されるシステムバス１１０５を含む。コンピュータ機器１１００は、オペレーティングシステム１１０９、アプリケーションプログラム１１１０、及び他のプログラムモジュール１１１１を記憶するための大容量記憶装置１１０６も含む。

なお、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、消去可能プログラム可能読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＥＰＲＯＭ）、電気的消去可能プログラム可能読み取り専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＥＥＰＲＯＭ）、フラッシュメモリ又はその他のソリッドステートストレージテクノロジ、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ：ＤＶＤ）又はその他の光ストレージ、テープカートリッジ、磁気テープ、ディスクストレージ、又はその他の磁気ストレージデバイスを含む。なお、当業者が分かるように、コンピュータ記憶媒体は上記のものに限定されない。上記のシステムメモリ１１０４及び大容量記憶装置１１０６は、メモリと総称されてもよい。

該メモリには、少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、該少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットは、上記の各実施例に係る情報生成方法におけるステップの全部又は一部を実現するように、中央処理ユニット１１０１により実行される。

図１２は、本発明の１つの例示的な実施例に係るコンピュータ機器１２００の構成を示すブロック図である。コンピュータ機器１２００は、上述した顔品質の評価装置及び／又は品質評価モデルの訓練装置、例えばスマートフォン、タブレットコンピュータ、ラップトップコンピュータ又はデスクトップコンピュータとして実現されてもよい。コンピュータ機器１２００は、端末装置、携帯型端末、ラップトップ端末、デスクトップ端末などの他の名称と称されてもよい。

通常、コンピュータ機器１２００は、プロセッサ１２０１及びメモリ１２０２を含む。

プロセッサ１２０１は、１つ又は複数の処理コアを含んでもよい。

メモリ１２０２は、１つ又は複数のコンピュータ読み取り可能な記憶媒体を含んでもよく、該コンピュータ読み取り可能な記憶媒体は、有形で非一時的であってもよい。幾つかの実施例では、メモリ１２０２における非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも１つの命令が記憶され、該少なくとも１つの命令は、本発明の方法の実施例に係る情報生成方法を実現するように、プロセッサ１２０１により実行されるために使用される。

幾つかの実施例では、コンピュータ機器１２００は、好ましくは、周辺機器インターフェース１２０３及び少なくとも１つの周辺機器をさらに含んでもよい。プロセッサ１２０１とメモリ１２０２と周辺機器インターフェース１２０３とは、バス又は信号線を介して接続することができる。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース１２０３に接続することができる。具体的には、周辺機器は、無線周波数回路１２０４、表示スクリーン１２０５、カメラコンポーネント１２０６、オーディオ回路１２０７、及び電源１２０８のうちの少なくとも１つを含む。

幾つかの実施例では、コンピュータ機器１２００は、１つ又は複数のセンサ１２０９をさらに含む。該１つ又は複数のセンサ１２０９は、加速度センサ１２１０、ジャイロスコープセンサ１２１１、圧力センサ１２１２、光学センサ１２１３、及び近接センサ１２１４を含むが、これらに限定されない。

なお、当業者が理解できるように、コンピュータ機器１２００は、図１２に示す構成に限定されず、図示されているものより多く、又は少ない構成要素を含んでもよいし、特定の構成要素を組み合わせてもよいし、異なる構成要素の配置を採用してもよい。

１つの例示的な実施例では、少なくとも１つのコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体をさらに提供する。該コンピュータプログラムは、上記の情報生成方法におけるステップの全部又は一部を実現するように、プロセッサによりロードされて実行される。例えば、該コンピュータで読み取り可能な記憶媒体は、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：読み取り専用メモリ）、ＲＡＭ（Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：コンパクトディスク読み取り専用メモリ）、磁気テープ、フロッピーディスク、光データストレージデバイスなどを含む。

１つの例示的な実施例では、少なくとも１つのコンピュータプログラムを含むコンピュータプログラムプロダクトをさらに提供する。該コンピュータプログラムは、上記の図２、図６又は図７の何れかの実施例に係る方法におけるステップの全部又は一部を実現するように、プロセッサによりロードされて実行される。

Claims

コンピュータ機器が実行する情報生成方法であって、
ターゲット画像を取得するステップと、
前記ターゲット画像の意味特徴集合を抽出し、前記ターゲット画像の視覚特徴集合を抽出するステップと、
ｎ個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記ｎ個の時間ステップにおける記述語を取得するステップであって、前記アテンション融合のプロセスのｔ番目の時間ステップにおける入力は、前記ｔ番目の時間ステップにおける意味アテンションベクトル、前記ｔ番目の時間ステップにおける視覚アテンションベクトル、及び前記アテンション融合のプロセスのｔ－１番目の時間ステップにおける出力結果を含み、前記ｔ番目の時間ステップにおける前記意味アテンションベクトルは、前記ｔ番目の時間ステップにおいて前記意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトルは、前記ｔ番目の時間ステップにおいて前記視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記アテンション融合のプロセスの前記ｔ－１番目の時間ステップにおける出力結果は、前記ｔ－１番目の時間ステップにおける記述語を示すために使用され、前記ｔ番目の時間ステップは、前記ｎ個の時間ステップのうちの何れかであり、１≦ｔ≦ｎ、ｔ及びｎは何れも正の整数である、ステップと、
前記ターゲット画像の前記ｎ個の時間ステップにおける記述語に基づいて、前記ターゲット画像の画像キャプション情報を生成するステップと、を含む、方法。
前記ｎ個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記ｎ個の時間ステップにおける記述語を取得するステップは、
情報生成モデルにおけるアテンション融合ネットワークにより、ｎ個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記ｎ個の時間ステップにおける記述語を取得するステップ、を含む、請求項１に記載の方法。
前記情報生成モデルにおけるアテンション融合ネットワークにより、ｎ個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記ｎ個の時間ステップにおける記述語を取得するステップは、
前記ｔ番目の時間ステップにおいて、前記ｔ番目の時間ステップにおける前記意味アテンションベクトル、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトル、前記ｔ－１番目の時間ステップにおける隠れ層ベクトル、及び前記アテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果を前記アテンション融合ネットワークに入力し、前記アテンション融合ネットワークの前記ｔ番目の時間ステップにおける出力結果、及び前記ｔ番目の時間ステップにおける前記隠れ層ベクトルを取得するステップ、又は、
前記ｔ番目の時間ステップにおいて、前記ｔ番目の時間ステップにおける前記意味アテンションベクトル、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトル、及び前記アテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果を前記アテンション融合ネットワークに入力し、前記アテンション融合ネットワークの前記ｔ番目の時間ステップにおける出力結果、及び前記ｔ番目の時間ステップにおける前記隠れ層ベクトルを取得するステップ、を含む、請求項２に記載の方法。
前記アテンション融合ネットワークには、ハイパーパラメータが設定され、
前記ハイパーパラメータは、前記アテンション融合ネットワークにおける前記視覚アテンションベクトル及び前記意味アテンションベクトルのそれぞれの重みを示す、請求項２又は３に記載の方法。
前記ｔ番目の時間ステップにおいて、前記ｔ－１番目の時間ステップにおける前記隠れ層ベクトル、及び前記意味特徴集合に基づいて、前記ｔ番目の時間ステップにおける前記意味アテンションベクトルを生成するステップ、をさらに含む、請求項３に記載の方法。
前記ｔ番目の時間ステップにおいて、前記ｔ－１番目の時間ステップにおける前記隠れ層ベクトル、及び前記意味特徴集合に基づいて、前記ｔ番目の時間ステップにおける前記意味アテンションベクトルを生成するステップは、
前記ｔ－１番目の時間ステップにおける前記隠れ層ベクトル及び前記意味特徴集合に基づいて、前記意味特徴集合における各意味特徴の前記ｔ－１番目の時間ステップにおける重みを取得するステップと、
前記意味特徴集合における各意味特徴の前記ｔ－１番目の時間ステップにおける重み、及び前記意味特徴集合に基づいて、前記ｔ番目の時間ステップにおける前記意味アテンションベクトルを生成するステップと、を含む、請求項５に記載の方法。
前記ｔ番目の時間ステップにおいて、前記ｔ－１番目の時間ステップにおける前記隠れ層ベクトル、及び視覚特徴集合に基づいて、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトルを生成するステップ、をさらに含む、請求項３に記載の方法。
前記ｔ番目の時間ステップにおいて、前記ｔ－１番目の時間ステップにおける前記隠れ層ベクトル、及び視覚特徴集合に基づいて、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトルを生成するステップは、
前記ｔ－１番目の時間ステップにおける前記隠れ層ベクトル及び前記視覚特徴集合に基づいて、前記視覚特徴集合における各視覚特徴の前記ｔ－１番目の時間ステップにおける重みを取得するステップと、
前記視覚特徴集合における各視覚特徴の前記ｔ－１番目の時間ステップにおける重み、及び前記視覚特徴集合に基づいて、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトルを生成するステップと、を含む、請求項７に記載の方法。
前記ターゲット画像の意味特徴集合を抽出するステップは、
前記ターゲット画像の意味特徴ベクトルを取得するステップと、
前記意味特徴ベクトルに基づいて、前記ターゲット画像の前記意味特徴集合を抽出するステップと、を含む、請求項１乃至８の何れかに記載の方法。
前記意味特徴ベクトルに基づいて、前記ターゲット画像の前記意味特徴集合を抽出するステップは、
前記意味特徴ベクトルに基づいて、語彙ライブラリから前記ターゲット画像に対応する属性語集合を抽出するステップであって、前記属性語集合は、前記ターゲット画像を記述するための候補記述語の集合である、ステップと、
前記属性語集合に対応する語ベクトル集合を、前記ターゲット画像の前記意味特徴集合として取得するステップと、を含む、請求項９に記載の方法。
前記意味特徴ベクトルに基づいて、語彙ライブラリから前記ターゲット画像に対応する属性語集合を抽出するステップは、
前記意味特徴ベクトルに基づいて、前記語彙ライブラリにおける各語彙のマッチング確率を取得するステップであって、前記マッチング確率は、前記語彙ライブラリにおける語彙と前記ターゲット画像とが合致する確率である、ステップと、
前記語彙ライブラリから、前記マッチング確率がマッチング確率閾値よりも大きい語彙を前記候補記述語として抽出し、前記属性語集合を構成するステップと、を含む、請求項１０に記載の方法。
前記意味特徴ベクトルに基づいて、語彙ライブラリから前記ターゲット画像に対応する属性語集合を抽出するステップは、
前記意味特徴ベクトルを語彙検出器に入力し、前記語彙検出器により前記意味特徴ベクトルに基づいて前記語彙ライブラリから抽出された前記属性語集合を取得するステップ、を含み、
前記語彙検出器は、マルチインスタンス学習の弱教師あり学習により得られた語彙検出モデルである、請求項１０に記載の方法。
前記ターゲット画像の視覚特徴集合を抽出する前に、
前記ターゲット画像に対してサブ領域分割を行い、少なくとも１つのサブ領域を取得するステップ、をさらに含み、
前記ターゲット画像の視覚特徴集合を抽出するステップは、
前記少なくとも１つのサブ領域の視覚特徴をそれぞれ抽出し、前記視覚特徴集合を構成するステップ、を含む、請求項１乃至１２の何れかに記載の方法。
情報生成装置であって、
ターゲット画像を取得する画像取得モジュールと、
前記ターゲット画像の意味特徴集合を抽出し、前記ターゲット画像の視覚特徴集合を抽出する特徴抽出モジュールと、
ｎ個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記ｎ個の時間ステップにおける記述語を取得する記述語取得モジュールであって、前記アテンション融合のプロセスのｔ番目の時間ステップにおける入力は、前記ｔ番目の時間ステップにおける意味アテンションベクトル、前記ｔ番目の時間ステップにおける視覚アテンションベクトル、及び前記アテンション融合のプロセスのｔ－１番目の時間ステップにおける出力結果を含み、前記ｔ番目の時間ステップにおける前記意味アテンションベクトルは、前記ｔ番目の時間ステップにおいて前記意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトルは、前記ｔ番目の時間ステップにおいて前記視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記アテンション融合のプロセスの前記ｔ－１番目の時間ステップにおける出力結果は、前記ｔ－１番目の時間ステップにおける記述語を示すために使用され、前記ｔ番目の時間ステップは、前記ｎ個の時間ステップのうちの何れかであり、１≦ｔ≦ｎ、ｔ及びｎは何れも正の整数である、記述語取得モジュールと、
前記ターゲット画像の前記ｎ個の時間ステップにおける記述語に基づいて、前記ターゲット画像の画像キャプション情報を生成する情報生成モジュールと、を含む、装置。
前記記述語取得モジュールは、
情報生成モデルにおけるアテンション融合ネットワークにより、ｎ個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記ｎ個の時間ステップにおける記述語を取得する、請求項１４に記載の装置。
前記記述語取得モジュールは、
前記ｔ番目の時間ステップにおいて、前記ｔ番目の時間ステップにおける前記意味アテンションベクトル、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトル、前記ｔ－１番目の時間ステップにおける隠れ層ベクトル、及び前記アテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果を前記アテンション融合ネットワークに入力し、前記アテンション融合ネットワークの前記ｔ番目の時間ステップにおける出力結果、及び前記ｔ番目の時間ステップにおける前記隠れ層ベクトルを取得し、或いは、
前記ｔ番目の時間ステップにおいて、前記ｔ番目の時間ステップにおける前記意味アテンションベクトル、前記ｔ番目の時間ステップにおける前記視覚アテンションベクトル、及び前記アテンション融合ネットワークのｔ－１番目の時間ステップにおける出力結果を前記アテンション融合ネットワークに入力し、前記アテンション融合ネットワークの前記ｔ番目の時間ステップにおける出力結果、及び前記ｔ番目の時間ステップにおける前記隠れ層ベクトルを取得する、請求項１５に記載の装置。
前記アテンション融合ネットワークには、ハイパーパラメータが設定され、
前記ハイパーパラメータは、前記アテンション融合ネットワークにおける前記視覚アテンションベクトル及び前記意味アテンションベクトルのそれぞれの重みを示す、請求項１５又は１６に記載の装置。
プロセッサと、少なくとも１つのコンピュータプログラムが記憶されたメモリと、を含むコンピュータ機器であって、前記コンピュータプログラムは、請求項１乃至１３の何れかに記載の情報生成方法を実現するように、前記プロセッサによりロードされて実行される、コンピュータ機器。
少なくとも１つのコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、請求項１乃至１３の何れかに記載の情報生成方法を実現するように、プロセッサによりロードされて実行される、記憶媒体。
請求項１乃至１３の何れかに記載の情報生成方法を実現するように、プロセッサによりロードされて実行される、コンピュータプログラム。