JP7489503B1

JP7489503B1 - テキスト生成装置、テキスト生成方法、およびプログラム

Info

Publication number: JP7489503B1
Application number: JP2023020611A
Authority: JP
Inventors: 徳章川前
Original assignee: NTT Comware Corp
Current assignee: NTT Comware Corp
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2024-05-23
Anticipated expiration: 2043-02-14

Abstract

【課題】画像から、ターゲットの知識が反映されたテキストを生成する。【解決手段】テキスト生成システム１は、画像を入力して画像特徴量を抽出する入出力部５０と、画像特徴量を投入した学習済みのモデルから再帰的に出力される単語をつなげてテキストを生成する生成部２０と、画像と画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された画像の画像特徴量から得られるトピックとデコーダに投入されたテキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるようにモデルを学習する学習部１０と、を備える。提案モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。【選択図】図１

Description

本開示は、テキスト生成装置、テキスト生成方法、およびプログラムに関する。

ＡＩの応用分野の一つである自然言語処理の世界ではテキストの自動生成が実現し、画像処理の分野も画像認識の精度が実用レベルの精度を達成している。これらの分野の融合として、画像を理解して、その内容をテキストで記述する「画像説明テキスト生成」が着目されている。従来の技術でも一般的な画像に対するテキスト生成だけでなく、ドメインに特化したテキスト生成が期待されている。

Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, and Rita Cucchiara, "Meshed-Memory Transformer for Image Captioning", In CVPR, 2020, 10575-10584 Jun Chen, Han Guo, Kai Yi, Boyang Li, and Mohamed Elhoseiny,"VisualGPT: Data-Efficient Adaptation of Pretrained Language Models for Image Captioning", In CVPR, 2022, 18030-18040.

特定の事業やサービスでテキスト生成モデルを利用する際、テキスト生成に事前学習済みモデルを利用することで学習コストを削減できるが、学習済みモデル（ソース）の影響が強く、生成するテキストにターゲットの知識を反映しにくいという問題があった。学習済みモデルのドメイン（ソースドメイン）を適用先のドメイン（ターゲットドメイン）に適用させることをドメインシフトという。

本開示は、上記に鑑みてなされたものであり、画像から、ターゲットの知識が反映されたテキストを生成することを目的とする。

本開示の一態様のテキスト生成装置は、画像を入力すると画像を説明するテキストを生成するテキスト生成装置であって、画像を入力して画像特徴量を抽出する入力部と、前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部を備え、前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。

本開示の一態様のテキスト生成方法は、画像を入力すると画像を説明するテキストを生成するテキスト生成方法であって、コンピュータが、画像を入力して画像特徴量を抽出し、前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成し、前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。

本開示によれば、画像から、ターゲットの知識が反映されたテキストを生成できる。

図１は、テキスト生成システムの構成の一例を示す図である。図２は、モデルのデコーダの構成の一例を示す図である。図３は、アクロスアテンションマスクの一例を示す図である。図４は、テキスト生成システムの学習処理の流れの一例を示すフローチャートである。図５は、テキスト生成システムのテキスト生成処理の流れの一例を示すフローチャートである。

［システム構成］
以下、本発明の実施の形態について図面を用いて説明する。

本実施形態のテキスト生成システムは、Transformerをベースとしたモデルを利用し、画像を入力すると画像を説明するテキストを生成するシステムである。

Transformerは主に自然言語処理分野で用いられる深層学習モデルである。Transformerは入力した単語からその次に出現する単語を確率的に予測し、これを再帰的に繰り返すことでデキストを生成できる。Transformer encoder（エンコーダ）で画像の特徴量の埋め込み表現を求める。Transformer decoder（デコーダ）は、画像の特徴量の埋め込み表現を参照しながら、テキストを生成する。

本実施形態では、ターゲットの知識を反映したテキストを生成するため、Transformerにacross attention（アクロスアテンション）、mapping layer（マッピングレイヤ）、およびtopic layer（トピックレイヤ）を導入してドメインシフトを実現した。アクロスアテンションはTransformerの既存のアテンションを改良したアテンション機構である。マッピングレイヤは画像とテキストを同じ潜在空間にマッピングする。トピックレイヤはターゲットに特有の情報を抽出してテキスト生成に反映する。事前学習済みモデルをトピックに着目してドメインシフトすることにより、既存モデルよりも少ないデータで高い精度の画像説明テキストを生成できる。提案モデルの詳細については後述する。

図１は、本実施形態のテキスト生成システムの構成の一例を示す図である。図１に示すテキスト生成システム１は、学習部１０、生成部２０、データ保存部３０、計算結果記憶部４０、および入出力部５０を備える。テキスト生成システム１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはテキスト生成システム１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。

学習部１０は、学習データとして画像とその画像を説明するテキストのペアを入力し、エンコーダに画像を投入し、デコーダにテキストを投入して、画像とテキストの関連性を学習する。学習部１０は、画像から特徴量を抽出し、テキストから単語を抽出して、画像特徴量と単語をモデルに投入する。学習部１０は、画像特徴量を単語と同じ潜在空間にマッピングするとともに、画像特徴量から得られるトピックとテキストから得られるトピックが近くなり、ターゲットに特有の情報がテキスト生成に反映されるようにモデルを学習する。

生成部２０は、画像を学習済みモデルに入力し、画像を説明するテキストを生成する。

データ保存部３０は、画像とテキストなどの学習データを保持する。

計算結果記憶部４０は、テキストを生成する深層学習モデル、学習によって得られた深層学習モデルのパラメータ、画像の特徴量と単語の分散ベクトル（分散埋め込み表現）などの計算結果を保持する。

入出力部５０は、ユーザ端末５から画像を入力して生成部２０へ送信し、生成部２０から生成したテキストを受信してユーザ端末５に返却する。

［提案モデル］
図２を参照し、本実施形態で提案するモデルについて説明する。エンコーダはｍ層のブロックを有し、デコーダはｌ層のブロックを有する。図２では、エンコーダのｍ層目とデコーダのｌ層目とトピックレイヤを図示している。エンコーダはアクロスアテンション以外は通常のTransformer encoderと同様の構造である。デコーダは、通常のTransformer decoderのマルチヘッドアテンションをアクロスアテンションに変更した構造である。ｍ層目のエンコーダには、前の層のアウトプットＨ_m-1が入力される。ｌ層目のデコーダには、前の層のアウトプットＨ_l-1が入力される。

まず、アクロスアテンションについて説明する。図３にアクロスアテンションで用いるアテンションマスクの一例を示す。アクロスアテンションは、エンコーダとデコーダで共通のものを使用する。図３では、学習時と推論時のそれぞれで用いるアテンションマスクを、縦方向に参照元の画像特徴量のトークンと単語のトークンを並べ、横方向に参照先の画像特徴量のトークンと単語のトークンを並べて示した。網掛けしたマスは参照可能なトークンを示す。図３の上段の学習時のアテンションマスクでは、画像特徴量のトークンは全ての画像特徴量のトークンと全ての単語のトークンを参照でき、単語のトークンは全ての画像のトークンとそれまでに出現した単語のトークンを参照できる。図３の下段の推論時のアテンションマスクでは、画像特徴量のトークンは全ての画像特徴量のトークンのみを参照でき、単語のトークンは全ての画像のトークンとそれまでに出現した単語のトークンを参照できる。エンコーダとデコーダをまたいでアテンションマスクを利用するので、アクロスアテンションと称している。

エンコーダとデコーダへの入力Ｈ_a ⁰は次式で表される。

エンコーダとデコーダのｌ層目の出力Ｈ_a ^lは次式で表される。

アクロスアテンションは、アテンションマスクＭを用いて次式で計算する。

ここで、ｄ_hは次元数、Ｏはイメージサイズ、ｔはテキストの入力の長さである。Ｈ_lは、TransformerのアテンションのＱに相当し、デコーダのｌ層のブロックにおける前の層（Masked Self Attention）の出力である。Ｈ_mは、TransformerのアテンションのＫ，Ｖに相当し、エンコーダのｍ層のブロックの内部状態とデコーダからのＫ，Ｖを含む。これにより、テキストの単語から画像のどの部分に注意を向けるのかということを学習できる。

続いて、トピックレイヤについて説明する。

トピックを表す変数ｚを導入すると、テキストの生成モデルは以下のように分解できる。

ここで、Ｄは学習データのテキストの数である。Ｋはトピックの数である。Ｋ種類のトピックのそれぞれに対して重みをつけて、過去のデータをうまく分けつつ、かつ、ターゲットのデータを学習して反映させる。

エンコーダとデコーダのそれぞれの上に次式で表されるトピックレイヤΧ_I，Χ_Tを導入する。

提案モデルは、学習タスクとしてＭＲＭ、ＴＩＭ、ＴＤＭ、およびＴＴＭを導入した。

ＭＲＭは、画像の視覚的特徴とエンコーダが予測する特徴との誤差を表す。ＭＲＭは次式で定義される。

ここで、ｖ_k,mはｍ番目の画像特徴量を表し、ｖ_k,m（上に＾）はｍ番目の画像特徴量をマスクして予測したｍ番目の画像特徴量である。

ＴＩＭは、トピックを用いて学習データの画像とテキスト間の近さを表す。ＴＩＭにより、画像とテキストのトピックが近くなるように学習する。

ＴＤＭは、次式で定義される。ＴＤＭにより、エンコーダとデコーダのトピックレイヤの確率分布の差ができるだけ小さくなるように学習する。

ＴＴＭは、エンコーダとデコーダのトピックの誤差を表す。ＴＴＭにより、画像から得られるトピックとテキストから得られるトピックとが近くなるように学習し、画像とテキストを同じ潜在空間にマッピングする。ＴＴＭは次式で定義される。

モデルの学習は、以下の目的関数Ｌ_KEICを最大化することで実施する。

Ｌ_TLNにより、トピックがテキスト生成に反映されるように学習する。

［動作］
次に、図４のフローチャートを参照し、学習処理について説明する。

ステップＳ１１にて、学習部１０は、データ保存部３０から画像とテキストのペアの学習データを読み出して、トークナイザーによりテキストを単語に分割する。

ステップＳ１２にて、学習部１０は、画像から特徴量を抽出し、画像特徴量の埋め込み表現と単語の埋め込み表現をモデルに投入する。

ステップＳ１３にて、学習部１０は、上記で示した目的関数を最小化するようにモデルのパラメータを更新する。

次に、図５のフローチャートを参照し、テキスト生成処理について説明する。

ステップＳ２１にて、生成部２０は、画像を入力し、画像特徴量の埋め込み表現をモデルに投入する。

ステップＳ２２にて、生成部２０は、シードワードを入力し、単語の埋め込み表現をモデルに投入する。

ステップＳ２３にて、生成部２０は、シードワードに続く単語をモデルから得る。

ステップＳ２４にて、生成部２０は、テキストの生成が終了したか否か判定する。例えば、生成部２０は、テキストの終了を示す“＜ｅｎｄ＞”が出力された場合、またはテキスト長が所定の最大文字数に達した場合に終了と判定する。

テキストの生成を続ける場合、ステップＳ２２に戻り、得られた単語をシードワードの後に繋げてモデルに投入する。

テキストの生成が終了した場合、ステップＳ２５にて、生成部２０は、単語をつなげて画像を説明するテキストを出力する。生成されたテキストは、入出力部５０からユーザ端末５へ返却される。

以上説明したように、本実施形態のテキスト生成システム１は、画像を入力して画像特徴量を抽出する入出力部５０と、画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部２０を備える。提案モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。これにより、画像から、ターゲットの知識が反映されたテキストを生成することができる。

テキスト生成システム１は、画像と当該画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された画像の画像特徴量から得られるトピックとデコーダに投入されたテキストから得られるトピックとが近くなり、ターゲットに特有の情報がテキスト生成に反映されるようにモデルを学習する学習部１０を備える。学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである。これにより、事前学習済みモデルをトピックに着目してドメインシフトでき、既存モデルよりも少ない学習データで高い精度の画像説明テキストを生成できる。既存モデルよりも計算コストを抑えることができる。

１テキスト生成システム
１０学習部
２０生成部
３０データ保存部
４０計算結果記憶部
５０入出力部
５ユーザ端末

Claims

画像を入力すると画像を説明するテキストを生成するテキスト生成装置であって、
画像を入力して画像特徴量を抽出する入力部と、
前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部を備え、
前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである
テキスト生成装置。
請求項１に記載のテキスト生成装置であって、
画像と当該画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された前記画像の画像特徴量から得られるトピックとデコーダに投入された前記テキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるように前記モデルを学習する学習部を備え、
学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と前記テキストの全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである
テキスト生成装置。
画像を入力すると画像を説明するテキストを生成するテキスト生成方法であって、
コンピュータが、
画像を入力して画像特徴量を抽出し、
前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成し、
前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである
テキスト生成方法。
請求項３に記載のテキスト生成方法であって、
画像と当該画像を説明するテキストのペアを学習データとして入力し、
エンコーダに投入された前記画像の画像特徴量から得られるトピックとデコーダに投入された前記テキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるように前記モデルを学習し、
学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と前記テキストの全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである
テキスト生成方法。
請求項１または２に記載のテキスト生成装置の各部としてコンピュータを動作させるプログラム。