JP7489503B1 - テキスト生成装置、テキスト生成方法、およびプログラム - Google Patents
テキスト生成装置、テキスト生成方法、およびプログラム Download PDFInfo
- Publication number
- JP7489503B1 JP7489503B1 JP2023020611A JP2023020611A JP7489503B1 JP 7489503 B1 JP7489503 B1 JP 7489503B1 JP 2023020611 A JP2023020611 A JP 2023020611A JP 2023020611 A JP2023020611 A JP 2023020611A JP 7489503 B1 JP7489503 B1 JP 7489503B1
- Authority
- JP
- Japan
- Prior art keywords
- text
- image
- model
- input
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 12
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】画像から、ターゲットの知識が反映されたテキストを生成する。【解決手段】テキスト生成システム1は、画像を入力して画像特徴量を抽出する入出力部50と、画像特徴量を投入した学習済みのモデルから再帰的に出力される単語をつなげてテキストを生成する生成部20と、画像と画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された画像の画像特徴量から得られるトピックとデコーダに投入されたテキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるようにモデルを学習する学習部10と、を備える。提案モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。【選択図】図1
Description
本開示は、テキスト生成装置、テキスト生成方法、およびプログラムに関する。
AIの応用分野の一つである自然言語処理の世界ではテキストの自動生成が実現し、画像処理の分野も画像認識の精度が実用レベルの精度を達成している。これらの分野の融合として、画像を理解して、その内容をテキストで記述する「画像説明テキスト生成」が着目されている。従来の技術でも一般的な画像に対するテキスト生成だけでなく、ドメインに特化したテキスト生成が期待されている。
Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, and Rita Cucchiara, "Meshed-Memory Transformer for Image Captioning", In CVPR, 2020, 10575-10584
Jun Chen, Han Guo, Kai Yi, Boyang Li, and Mohamed Elhoseiny,"VisualGPT: Data-Efficient Adaptation of Pretrained Language Models for Image Captioning", In CVPR, 2022, 18030-18040.
特定の事業やサービスでテキスト生成モデルを利用する際、テキスト生成に事前学習済みモデルを利用することで学習コストを削減できるが、学習済みモデル(ソース)の影響が強く、生成するテキストにターゲットの知識を反映しにくいという問題があった。学習済みモデルのドメイン(ソースドメイン)を適用先のドメイン(ターゲットドメイン)に適用させることをドメインシフトという。
本開示は、上記に鑑みてなされたものであり、画像から、ターゲットの知識が反映されたテキストを生成することを目的とする。
本開示の一態様のテキスト生成装置は、画像を入力すると画像を説明するテキストを生成するテキスト生成装置であって、画像を入力して画像特徴量を抽出する入力部と、前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部を備え、前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。
本開示の一態様のテキスト生成方法は、画像を入力すると画像を説明するテキストを生成するテキスト生成方法であって、コンピュータが、画像を入力して画像特徴量を抽出し、前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成し、前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。
本開示によれば、画像から、ターゲットの知識が反映されたテキストを生成できる。
[システム構成]
以下、本発明の実施の形態について図面を用いて説明する。
以下、本発明の実施の形態について図面を用いて説明する。
本実施形態のテキスト生成システムは、Transformerをベースとしたモデルを利用し、画像を入力すると画像を説明するテキストを生成するシステムである。
Transformerは主に自然言語処理分野で用いられる深層学習モデルである。Transformerは入力した単語からその次に出現する単語を確率的に予測し、これを再帰的に繰り返すことでデキストを生成できる。Transformer encoder(エンコーダ)で画像の特徴量の埋め込み表現を求める。Transformer decoder(デコーダ)は、画像の特徴量の埋め込み表現を参照しながら、テキストを生成する。
本実施形態では、ターゲットの知識を反映したテキストを生成するため、Transformerにacross attention(アクロスアテンション)、mapping layer(マッピングレイヤ)、およびtopic layer(トピックレイヤ)を導入してドメインシフトを実現した。アクロスアテンションはTransformerの既存のアテンションを改良したアテンション機構である。マッピングレイヤは画像とテキストを同じ潜在空間にマッピングする。トピックレイヤはターゲットに特有の情報を抽出してテキスト生成に反映する。事前学習済みモデルをトピックに着目してドメインシフトすることにより、既存モデルよりも少ないデータで高い精度の画像説明テキストを生成できる。提案モデルの詳細については後述する。
図1は、本実施形態のテキスト生成システムの構成の一例を示す図である。図1に示すテキスト生成システム1は、学習部10、生成部20、データ保存部30、計算結果記憶部40、および入出力部50を備える。テキスト生成システム1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはテキスト生成システム1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。
学習部10は、学習データとして画像とその画像を説明するテキストのペアを入力し、エンコーダに画像を投入し、デコーダにテキストを投入して、画像とテキストの関連性を学習する。学習部10は、画像から特徴量を抽出し、テキストから単語を抽出して、画像特徴量と単語をモデルに投入する。学習部10は、画像特徴量を単語と同じ潜在空間にマッピングするとともに、画像特徴量から得られるトピックとテキストから得られるトピックが近くなり、ターゲットに特有の情報がテキスト生成に反映されるようにモデルを学習する。
生成部20は、画像を学習済みモデルに入力し、画像を説明するテキストを生成する。
データ保存部30は、画像とテキストなどの学習データを保持する。
計算結果記憶部40は、テキストを生成する深層学習モデル、学習によって得られた深層学習モデルのパラメータ、画像の特徴量と単語の分散ベクトル(分散埋め込み表現)などの計算結果を保持する。
入出力部50は、ユーザ端末5から画像を入力して生成部20へ送信し、生成部20から生成したテキストを受信してユーザ端末5に返却する。
[提案モデル]
図2を参照し、本実施形態で提案するモデルについて説明する。エンコーダはm層のブロックを有し、デコーダはl層のブロックを有する。図2では、エンコーダのm層目とデコーダのl層目とトピックレイヤを図示している。エンコーダはアクロスアテンション以外は通常のTransformer encoderと同様の構造である。デコーダは、通常のTransformer decoderのマルチヘッドアテンションをアクロスアテンションに変更した構造である。m層目のエンコーダには、前の層のアウトプットHm-1が入力される。l層目のデコーダには、前の層のアウトプットHl-1が入力される。
図2を参照し、本実施形態で提案するモデルについて説明する。エンコーダはm層のブロックを有し、デコーダはl層のブロックを有する。図2では、エンコーダのm層目とデコーダのl層目とトピックレイヤを図示している。エンコーダはアクロスアテンション以外は通常のTransformer encoderと同様の構造である。デコーダは、通常のTransformer decoderのマルチヘッドアテンションをアクロスアテンションに変更した構造である。m層目のエンコーダには、前の層のアウトプットHm-1が入力される。l層目のデコーダには、前の層のアウトプットHl-1が入力される。
まず、アクロスアテンションについて説明する。図3にアクロスアテンションで用いるアテンションマスクの一例を示す。アクロスアテンションは、エンコーダとデコーダで共通のものを使用する。図3では、学習時と推論時のそれぞれで用いるアテンションマスクを、縦方向に参照元の画像特徴量のトークンと単語のトークンを並べ、横方向に参照先の画像特徴量のトークンと単語のトークンを並べて示した。網掛けしたマスは参照可能なトークンを示す。図3の上段の学習時のアテンションマスクでは、画像特徴量のトークンは全ての画像特徴量のトークンと全ての単語のトークンを参照でき、単語のトークンは全ての画像のトークンとそれまでに出現した単語のトークンを参照できる。図3の下段の推論時のアテンションマスクでは、画像特徴量のトークンは全ての画像特徴量のトークンのみを参照でき、単語のトークンは全ての画像のトークンとそれまでに出現した単語のトークンを参照できる。エンコーダとデコーダをまたいでアテンションマスクを利用するので、アクロスアテンションと称している。
エンコーダとデコーダへの入力Ha
0は次式で表される。
エンコーダとデコーダのl層目の出力Ha
lは次式で表される。
アクロスアテンションは、アテンションマスクMを用いて次式で計算する。
ここで、dhは次元数、Oはイメージサイズ、tはテキストの入力の長さである。Hlは、TransformerのアテンションのQに相当し、デコーダのl層のブロックにおける前の層(Masked Self Attention)の出力である。Hmは、TransformerのアテンションのK,Vに相当し、エンコーダのm層のブロックの内部状態とデコーダからのK,Vを含む。これにより、テキストの単語から画像のどの部分に注意を向けるのかということを学習できる。
続いて、トピックレイヤについて説明する。
トピックを表す変数zを導入すると、テキストの生成モデルは以下のように分解できる。
ここで、Dは学習データのテキストの数である。Kはトピックの数である。K種類のトピックのそれぞれに対して重みをつけて、過去のデータをうまく分けつつ、かつ、ターゲットのデータを学習して反映させる。
エンコーダとデコーダのそれぞれの上に次式で表されるトピックレイヤΧI,ΧTを導入する。
提案モデルは、学習タスクとしてMRM、TIM、TDM、およびTTMを導入した。
MRMは、画像の視覚的特徴とエンコーダが予測する特徴との誤差を表す。MRMは次式で定義される。
ここで、vk,mはm番目の画像特徴量を表し、vk,m(上に^)はm番目の画像特徴量をマスクして予測したm番目の画像特徴量である。
TIMは、トピックを用いて学習データの画像とテキスト間の近さを表す。TIMにより、画像とテキストのトピックが近くなるように学習する。
TDMは、次式で定義される。TDMにより、エンコーダとデコーダのトピックレイヤの確率分布の差ができるだけ小さくなるように学習する。
TTMは、エンコーダとデコーダのトピックの誤差を表す。TTMにより、画像から得られるトピックとテキストから得られるトピックとが近くなるように学習し、画像とテキストを同じ潜在空間にマッピングする。TTMは次式で定義される。
モデルの学習は、以下の目的関数LKEICを最大化することで実施する。
LTLNにより、トピックがテキスト生成に反映されるように学習する。
[動作]
次に、図4のフローチャートを参照し、学習処理について説明する。
次に、図4のフローチャートを参照し、学習処理について説明する。
ステップS11にて、学習部10は、データ保存部30から画像とテキストのペアの学習データを読み出して、トークナイザーによりテキストを単語に分割する。
ステップS12にて、学習部10は、画像から特徴量を抽出し、画像特徴量の埋め込み表現と単語の埋め込み表現をモデルに投入する。
ステップS13にて、学習部10は、上記で示した目的関数を最小化するようにモデルのパラメータを更新する。
次に、図5のフローチャートを参照し、テキスト生成処理について説明する。
ステップS21にて、生成部20は、画像を入力し、画像特徴量の埋め込み表現をモデルに投入する。
ステップS22にて、生成部20は、シードワードを入力し、単語の埋め込み表現をモデルに投入する。
ステップS23にて、生成部20は、シードワードに続く単語をモデルから得る。
ステップS24にて、生成部20は、テキストの生成が終了したか否か判定する。例えば、生成部20は、テキストの終了を示す“<end>”が出力された場合、またはテキスト長が所定の最大文字数に達した場合に終了と判定する。
テキストの生成を続ける場合、ステップS22に戻り、得られた単語をシードワードの後に繋げてモデルに投入する。
テキストの生成が終了した場合、ステップS25にて、生成部20は、単語をつなげて画像を説明するテキストを出力する。生成されたテキストは、入出力部50からユーザ端末5へ返却される。
以上説明したように、本実施形態のテキスト生成システム1は、画像を入力して画像特徴量を抽出する入出力部50と、画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部20を備える。提案モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである。これにより、画像から、ターゲットの知識が反映されたテキストを生成することができる。
テキスト生成システム1は、画像と当該画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された画像の画像特徴量から得られるトピックとデコーダに投入されたテキストから得られるトピックとが近くなり、ターゲットに特有の情報がテキスト生成に反映されるようにモデルを学習する学習部10を備える。学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである。これにより、事前学習済みモデルをトピックに着目してドメインシフトでき、既存モデルよりも少ない学習データで高い精度の画像説明テキストを生成できる。既存モデルよりも計算コストを抑えることができる。
1 テキスト生成システム
10 学習部
20 生成部
30 データ保存部
40 計算結果記憶部
50 入出力部
5 ユーザ端末
10 学習部
20 生成部
30 データ保存部
40 計算結果記憶部
50 入出力部
5 ユーザ端末
Claims (5)
- 画像を入力すると画像を説明するテキストを生成するテキスト生成装置であって、
画像を入力して画像特徴量を抽出する入力部と、
前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成する生成部を備え、
前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである
テキスト生成装置。 - 請求項1に記載のテキスト生成装置であって、
画像と当該画像を説明するテキストのペアを学習データとして入力し、エンコーダに投入された前記画像の画像特徴量から得られるトピックとデコーダに投入された前記テキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるように前記モデルを学習する学習部を備え、
学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と前記テキストの全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである
テキスト生成装置。 - 画像を入力すると画像を説明するテキストを生成するテキスト生成方法であって、
コンピュータが、
画像を入力して画像特徴量を抽出し、
前記画像特徴量を学習済みのモデルに投入し、当該モデルから再帰的に出力される単語をつなげてテキストを生成し、
前記モデルは、アテンションメカニズムとしてエンコーダとデコーダをまたいで共通のアテンションマスクを利用するアクロスアテンションメカニズムを導入するとともに、ターゲットに特有の情報を抽出してテキスト生成に反映するトピックレイヤを追加したTransformerベースのモデルである
テキスト生成方法。 - 請求項3に記載のテキスト生成方法であって、
画像と当該画像を説明するテキストのペアを学習データとして入力し、
エンコーダに投入された前記画像の画像特徴量から得られるトピックとデコーダに投入された前記テキストから得られるトピックとが近くなり、トピックがテキスト生成に反映されるように前記モデルを学習し、
学習時のアテンションマスクは、画像特徴量については全ての画像特徴量と前記テキストの全ての単語へのアクセスを可能とし、単語については全ての画像特徴量と当該単語よりも前に出現した単語へのアクセスを可能とするアテンションマスクである
テキスト生成方法。 - 請求項1または2に記載のテキスト生成装置の各部としてコンピュータを動作させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023020611A JP7489503B1 (ja) | 2023-02-14 | 2023-02-14 | テキスト生成装置、テキスト生成方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023020611A JP7489503B1 (ja) | 2023-02-14 | 2023-02-14 | テキスト生成装置、テキスト生成方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7489503B1 true JP7489503B1 (ja) | 2024-05-23 |
Family
ID=91082812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023020611A Active JP7489503B1 (ja) | 2023-02-14 | 2023-02-14 | テキスト生成装置、テキスト生成方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7489503B1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762261A (zh) | 2021-05-10 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 一种对图像的字符识别方法、装置、设备及介质 |
CN114299517A (zh) | 2021-12-08 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
CN114549935A (zh) | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 信息生成方法和装置 |
WO2022185432A1 (ja) | 2021-03-03 | 2022-09-09 | Heroz株式会社 | 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム |
-
2023
- 2023-02-14 JP JP2023020611A patent/JP7489503B1/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022185432A1 (ja) | 2021-03-03 | 2022-09-09 | Heroz株式会社 | 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム |
CN113762261A (zh) | 2021-05-10 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 一种对图像的字符识别方法、装置、设备及介质 |
CN114299517A (zh) | 2021-12-08 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
CN114549935A (zh) | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 信息生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7209806B2 (ja) | タスク指向型対話のためのグローバル-ローカルメモリポインタネットワーク | |
US11714879B2 (en) | Method and device for behavior control of virtual image based on text, and medium | |
Perez et al. | Dialog state tracking, a machine reading approach using memory network | |
CN110032633B (zh) | 多轮对话处理方法、装置和设备 | |
JP4465274B2 (ja) | 関連する単語のクラスタに基づいて、文書を特徴付けるための方法および装置 | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
EP1450350A1 (en) | Method for Recognizing Speech with attributes | |
CN112860862B (zh) | 人机对话中智能体对话语句的生成方法和装置 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN112632961A (zh) | 基于上下文推理的自然语言理解处理方法、装置以及设备 | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
WO2020193929A1 (en) | Interactive systems and methods | |
CN111382257A (zh) | 一种生成对话下文的方法和系统 | |
CN112084301B (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN116959433B (zh) | 文本处理方法、装置、电子设备和存储介质 | |
Jhunjhunwala et al. | Multi-action dialog policy learning with interactive human teaching | |
CN116312480A (zh) | 一种语音识别方法、装置、设备及可读存储介质 | |
CN113157941B (zh) | 业务特征数据处理、文本生成方法、装置及电子设备 | |
JP7489503B1 (ja) | テキスト生成装置、テキスト生成方法、およびプログラム | |
CN116628160B (zh) | 一种基于多知识库的任务型对话方法、系统及介质 | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 | |
JP7120064B2 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
KR102519618B1 (ko) | 단대단 신경망 번역 시스템 및 그 방법 | |
US20210081814A1 (en) | Using higher order actions to annotate a syntax tree with real data for concepts used to generate an answer to a question | |
Martins et al. | Towards natural language interfaces for interacting with remote sensing data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7489503 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |