JP7489503B1 - テキスト生成装置、テキスト生成方法、およびプログラム - Google Patents

テキスト生成装置、テキスト生成方法、およびプログラム Download PDF

Info

Publication number
JP7489503B1
JP7489503B1 JP2023020611A JP2023020611A JP7489503B1 JP 7489503 B1 JP7489503 B1 JP 7489503B1 JP 2023020611 A JP2023020611 A JP 2023020611A JP 2023020611 A JP2023020611 A JP 2023020611A JP 7489503 B1 JP7489503 B1 JP 7489503B1
Authority
JP
Japan
Prior art keywords
text
image
model
input
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023020611A
Other languages
English (en)
Inventor
徳章 川前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Comware Corp
Original Assignee
NTT Comware Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Comware Corp filed Critical NTT Comware Corp
Priority to JP2023020611A priority Critical patent/JP7489503B1/ja
Application granted granted Critical
Publication of JP7489503B1 publication Critical patent/JP7489503B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】画像から、ターゲットの知識が反映されたテキストを生成する。【解決手段】テキスト生成システム1は、画像を入力して画像特徴量を抽出する入出力部50と、画像特徴量を投入した学習済みのモデルから再帰的に出力される単語をつなげてテキストを生成する生成部20と、画像と画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された画像の画像特徴量から得られるトピックとデコーダに投入されたテキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるようにモデルを学習する学習部10と、を備える。提案モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。【選択図】図1

Description

本開示は、テキスト生成装置、テキスト生成方法、およびプログラムに関する。
AIの応用分野の一つである自然言語処理の世界ではテキストの自動生成が実現し、画像処理の分野も画像認識の精度が実用レベルの精度を達成している。これらの分野の融合として、画像を理解して、その内容をテキストで記述する「画像説明テキスト生成」が着目されている。従来の技術でも一般的な画像に対するテキスト生成だけでなく、ドメインに特化したテキスト生成が期待されている。
Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, and Rita Cucchiara, "Meshed-Memory Transformer for Image Captioning", In CVPR, 2020, 10575-10584 Jun Chen, Han Guo, Kai Yi, Boyang Li, and Mohamed Elhoseiny,"VisualGPT: Data-Efficient Adaptation of Pretrained Language Models for Image Captioning", In CVPR, 2022, 18030-18040.
特定の事業やサービスでテキスト生成モデルを利用する際、テキスト生成に事前学習済みモデルを利用することで学習コストを削減できるが、学習済みモデル(ソース)の影響が強く、生成するテキストにターゲットの知識を反映しにくいという問題があった。学習済みモデルのドメイン(ソースドメイン)を適用先のドメイン(ターゲットドメイン)に適用させることをドメインシフトという。
本開示は、上記に鑑みてなされたものであり、画像から、ターゲットの知識が反映されたテキストを生成することを目的とする。
本開示の一態様のテキスト生成装置は、画像を入力すると画像を説明するテキストを生成するテキスト生成装置であって、画像を入力して画像特徴量を抽出する入力部と、前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部を備え、前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。
本開示の一態様のテキスト生成方法は、画像を入力すると画像を説明するテキストを生成するテキスト生成方法であって、コンピュータが、画像を入力して画像特徴量を抽出し、前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成し、前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。
本開示によれば、画像から、ターゲットの知識が反映されたテキストを生成できる。
図1は、テキスト生成システムの構成の一例を示す図である。 図2は、モデルのデコーダの構成の一例を示す図である。 図3は、アクロスアテンションマスクの一例を示す図である。 図4は、テキスト生成システムの学習処理の流れの一例を示すフローチャートである。 図5は、テキスト生成システムのテキスト生成処理の流れの一例を示すフローチャートである。
[システム構成]
以下、本発明の実施の形態について図面を用いて説明する。
本実施形態のテキスト生成システムは、Transformerをベースとしたモデルを利用し、画像を入力すると画像を説明するテキストを生成するシステムである。
Transformerは主に自然言語処理分野で用いられる深層学習モデルである。Transformerは入力した単語からその次に出現する単語を確率的に予測し、これを再帰的に繰り返すことでデキストを生成できる。Transformer encoder(エンコーダ)で画像の特徴量の埋め込み表現を求める。Transformer decoder(デコーダ)は、画像の特徴量の埋め込み表現を参照しながら、テキストを生成する。
本実施形態では、ターゲットの知識を反映したテキストを生成するため、Transformerにacross attention(アクロスアテンション)、mapping layer(マッピングレイヤ)、およびtopic layer(トピックレイヤ)を導入してドメインシフトを実現した。アクロスアテンションはTransformerの既存のアテンションを改良したアテンション機構である。マッピングレイヤは画像とテキストを同じ潜在空間にマッピングする。トピックレイヤはターゲットに特有の情報を抽出してテキスト生成に反映する。事前学習済みモデルをトピックに着目してドメインシフトすることにより、既存モデルよりも少ないデータで高い精度の画像説明テキストを生成できる。提案モデルの詳細については後述する。
図1は、本実施形態のテキスト生成システムの構成の一例を示す図である。図1に示すテキスト生成システム1は、学習部10、生成部20、データ保存部30、計算結果記憶部40、および入出力部50を備える。テキスト生成システム1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはテキスト生成システム1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。
学習部10は、学習データとして画像とその画像を説明するテキストのペアを入力し、エンコーダに画像を投入し、デコーダにテキストを投入して、画像とテキストの関連性を学習する。学習部10は、画像から特徴量を抽出し、テキストから単語を抽出して、画像特徴量と単語をモデルに投入する。学習部10は、画像特徴量を単語と同じ潜在空間にマッピングするとともに、画像特徴量から得られるトピックとテキストから得られるトピックが近くなり、ターゲットに特有の情報がテキスト生成に反映されるようにモデルを学習する。
生成部20は、画像を学習済みモデルに入力し、画像を説明するテキストを生成する。
データ保存部30は、画像とテキストなどの学習データを保持する。
計算結果記憶部40は、テキストを生成する深層学習モデル、学習によって得られた深層学習モデルのパラメータ、画像の特徴量と単語の分散ベクトル(分散埋め込み表現)などの計算結果を保持する。
入出力部50は、ユーザ端末5から画像を入力して生成部20へ送信し、生成部20から生成したテキストを受信してユーザ端末5に返却する。
[提案モデル]
図2を参照し、本実施形態で提案するモデルについて説明する。エンコーダはm層のブロックを有し、デコーダはl層のブロックを有する。図2では、エンコーダのm層目とデコーダのl層目とトピックレイヤを図示している。エンコーダはアクロスアテンション以外は通常のTransformer encoderと同様の構造である。デコーダは、通常のTransformer decoderのマルチヘッドアテンションをアクロスアテンションに変更した構造である。m層目のエンコーダには、前の層のアウトプットHm-1が入力される。l層目のデコーダには、前の層のアウトプットHl-1が入力される。
まず、アクロスアテンションについて説明する。図3にアクロスアテンションで用いるアテンションマスクの一例を示す。アクロスアテンションは、エンコーダとデコーダで共通のものを使用する。図3では、学習時と推論時のそれぞれで用いるアテンションマスクを、縦方向に参照元の画像特徴量のトークンと単語のトークンを並べ、横方向に参照先の画像特徴量のトークンと単語のトークンを並べて示した。網掛けしたマスは参照可能なトークンを示す。図3の上段の学習時のアテンションマスクでは、画像特徴量のトークンは全ての画像特徴量のトークンと全ての単語のトークンを参照でき、単語のトークンは全ての画像のトークンとそれまでに出現した単語のトークンを参照できる。図3の下段の推論時のアテンションマスクでは、画像特徴量のトークンは全ての画像特徴量のトークンのみを参照でき、単語のトークンは全ての画像のトークンとそれまでに出現した単語のトークンを参照できる。エンコーダとデコーダをまたいでアテンションマスクを利用するので、アクロスアテンションと称している。
エンコーダとデコーダへの入力Ha 0は次式で表される。
Figure 0007489503000002
エンコーダとデコーダのl層目の出力Ha lは次式で表される。
Figure 0007489503000003
アクロスアテンションは、アテンションマスクMを用いて次式で計算する。
Figure 0007489503000004
ここで、dhは次元数、Oはイメージサイズ、tはテキストの入力の長さである。Hlは、TransformerのアテンションのQに相当し、デコーダのl層のブロックにおける前の層(Masked Self Attention)の出力である。Hmは、TransformerのアテンションのK,Vに相当し、エンコーダのm層のブロックの内部状態とデコーダからのK,Vを含む。これにより、テキストの単語から画像のどの部分に注意を向けるのかということを学習できる。
続いて、トピックレイヤについて説明する。
トピックを表す変数zを導入すると、テキストの生成モデルは以下のように分解できる。
Figure 0007489503000005
ここで、Dは学習データのテキストの数である。Kはトピックの数である。K種類のトピックのそれぞれに対して重みをつけて、過去のデータをうまく分けつつ、かつ、ターゲットのデータを学習して反映させる。
エンコーダとデコーダのそれぞれの上に次式で表されるトピックレイヤΧI,ΧTを導入する。
Figure 0007489503000006
提案モデルは、学習タスクとしてMRM、TIM、TDM、およびTTMを導入した。
MRMは、画像の視覚的特徴とエンコーダが予測する特徴との誤差を表す。MRMは次式で定義される。
Figure 0007489503000007
ここで、vk,mはm番目の画像特徴量を表し、vk,m(上に^)はm番目の画像特徴量をマスクして予測したm番目の画像特徴量である。
TIMは、トピックを用いて学習データの画像とテキスト間の近さを表す。TIMにより、画像とテキストのトピックが近くなるように学習する。
Figure 0007489503000008
TDMは、次式で定義される。TDMにより、エンコーダとデコーダのトピックレイヤの確率分布の差ができるだけ小さくなるように学習する。
Figure 0007489503000009
TTMは、エンコーダとデコーダのトピックの誤差を表す。TTMにより、画像から得られるトピックとテキストから得られるトピックとが近くなるように学習し、画像とテキストを同じ潜在空間にマッピングする。TTMは次式で定義される。
Figure 0007489503000010
モデルの学習は、以下の目的関数LKEICを最大化することで実施する。
Figure 0007489503000011
TLNにより、トピックがテキスト生成に反映されるように学習する。
[動作]
次に、図4のフローチャートを参照し、学習処理について説明する。
ステップS11にて、学習部10は、データ保存部30から画像とテキストのペアの学習データを読み出して、トークナイザーによりテキストを単語に分割する。
ステップS12にて、学習部10は、画像から特徴量を抽出し、画像特徴量の埋め込み表現と単語の埋め込み表現をモデルに投入する。
ステップS13にて、学習部10は、上記で示した目的関数を最小化するようにモデルのパラメータを更新する。
次に、図5のフローチャートを参照し、テキスト生成処理について説明する。
ステップS21にて、生成部20は、画像を入力し、画像特徴量の埋め込み表現をモデルに投入する。
ステップS22にて、生成部20は、シードワードを入力し、単語の埋め込み表現をモデルに投入する。
ステップS23にて、生成部20は、シードワードに続く単語をモデルから得る。
ステップS24にて、生成部20は、テキストの生成が終了したか否か判定する。例えば、生成部20は、テキストの終了を示す“<end>”が出力された場合、またはテキスト長が所定の最大文字数に達した場合に終了と判定する。
テキストの生成を続ける場合、ステップS22に戻り、得られた単語をシードワードの後に繋げてモデルに投入する。
テキストの生成が終了した場合、ステップS25にて、生成部20は、単語をつなげて画像を説明するテキストを出力する。生成されたテキストは、入出力部50からユーザ端末5へ返却される。
以上説明したように、本実施形態のテキスト生成システム1は、画像を入力して画像特徴量を抽出する入出力部50と、画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部20を備える。提案モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。これにより、画像から、ターゲットの知識が反映されたテキストを生成することができる。
テキスト生成システム1は、画像と当該画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された画像の画像特徴量から得られるトピックとデコーダに投入されたテキストから得られるトピックとが近くなり、ターゲットに特有の情報がテキスト生成に反映されるようにモデルを学習する学習部10を備える。学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである。これにより、事前学習済みモデルをトピックに着目してドメインシフトでき、既存モデルよりも少ない学習データで高い精度の画像説明テキストを生成できる。既存モデルよりも計算コストを抑えることができる。
1 テキスト生成システム
10 学習部
20 生成部
30 データ保存部
40 計算結果記憶部
50 入出力部
5 ユーザ端末

Claims (5)

  1. 画像を入力すると画像を説明するテキストを生成するテキスト生成装置であって、
    画像を入力して画像特徴量を抽出する入力部と、
    前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部を備え、
    前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである
    テキスト生成装置。
  2. 請求項1に記載のテキスト生成装置であって、
    画像と当該画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された前記画像の画像特徴量から得られるトピックとデコーダに投入された前記テキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるように前記モデルを学習する学習部を備え、
    学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と前記テキストの全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである
    テキスト生成装置。
  3. 画像を入力すると画像を説明するテキストを生成するテキスト生成方法であって、
    コンピュータが、
    画像を入力して画像特徴量を抽出し、
    前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成し、
    前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである
    テキスト生成方法。
  4. 請求項3に記載のテキスト生成方法であって、
    画像と当該画像を説明するテキストのペアを学習データとして入力し、
    エンコーダに投入された前記画像の画像特徴量から得られるトピックとデコーダに投入された前記テキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるように前記モデルを学習し、
    学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と前記テキストの全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである
    テキスト生成方法。
  5. 請求項1または2に記載のテキスト生成装置の各部としてコンピュータを動作させるプログラム。
JP2023020611A 2023-02-14 2023-02-14 テキスト生成装置、テキスト生成方法、およびプログラム Active JP7489503B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023020611A JP7489503B1 (ja) 2023-02-14 2023-02-14 テキスト生成装置、テキスト生成方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023020611A JP7489503B1 (ja) 2023-02-14 2023-02-14 テキスト生成装置、テキスト生成方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP7489503B1 true JP7489503B1 (ja) 2024-05-23

Family

ID=91082812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023020611A Active JP7489503B1 (ja) 2023-02-14 2023-02-14 テキスト生成装置、テキスト生成方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7489503B1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762261A (zh) 2021-05-10 2021-12-07 腾讯云计算(北京)有限责任公司 一种对图像的字符识别方法、装置、设备及介质
CN114299517A (zh) 2021-12-08 2022-04-08 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序产品
CN114549935A (zh) 2022-02-25 2022-05-27 北京百度网讯科技有限公司 信息生成方法和装置
WO2022185432A1 (ja) 2021-03-03 2022-09-09 Heroz株式会社 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022185432A1 (ja) 2021-03-03 2022-09-09 Heroz株式会社 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム
CN113762261A (zh) 2021-05-10 2021-12-07 腾讯云计算(北京)有限责任公司 一种对图像的字符识别方法、装置、设备及介质
CN114299517A (zh) 2021-12-08 2022-04-08 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序产品
CN114549935A (zh) 2022-02-25 2022-05-27 北京百度网讯科技有限公司 信息生成方法和装置

Similar Documents

Publication Publication Date Title
JP7209806B2 (ja) タスク指向型対話のためのグローバル-ローカルメモリポインタネットワーク
US11714879B2 (en) Method and device for behavior control of virtual image based on text, and medium
Perez et al. Dialog state tracking, a machine reading approach using memory network
CN110032633B (zh) 多轮对话处理方法、装置和设备
JP4465274B2 (ja) 関連する単語のクラスタに基づいて、文書を特徴付けるための方法および装置
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
EP1450350A1 (en) Method for Recognizing Speech with attributes
CN112860862B (zh) 人机对话中智能体对话语句的生成方法和装置
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN112632961A (zh) 基于上下文推理的自然语言理解处理方法、装置以及设备
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
WO2020193929A1 (en) Interactive systems and methods
CN111382257A (zh) 一种生成对话下文的方法和系统
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN116959433B (zh) 文本处理方法、装置、电子设备和存储介质
Jhunjhunwala et al. Multi-action dialog policy learning with interactive human teaching
CN116312480A (zh) 一种语音识别方法、装置、设备及可读存储介质
CN113157941B (zh) 业务特征数据处理、文本生成方法、装置及电子设备
JP7489503B1 (ja) テキスト生成装置、テキスト生成方法、およびプログラム
CN116628160B (zh) 一种基于多知识库的任务型对话方法、系统及介质
CN115357712A (zh) 方面级情感分析方法、装置、电子设备及存储介质
JP7120064B2 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
KR102519618B1 (ko) 단대단 신경망 번역 시스템 및 그 방법
US20210081814A1 (en) Using higher order actions to annotate a syntax tree with real data for concepts used to generate an answer to a question
Martins et al. Towards natural language interfaces for interacting with remote sensing data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240513

R150 Certificate of patent or registration of utility model

Ref document number: 7489503

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150