JP7377898B2

JP7377898B2 - テキスト生成装置、テキスト生成方法、およびプログラム

Info

Publication number: JP7377898B2
Application number: JP2022040270A
Authority: JP
Inventors: 徳章川前
Original assignee: NTT Comware Corp
Current assignee: NTT Comware Corp
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2023-11-10
Anticipated expiration: 2042-03-15
Also published as: JP2023135186A

Description

本発明は、テキスト生成装置、テキスト生成方法、およびプログラムに関する。

ＡＩの応用分野の一つである自然言語処理の世界ではテキストの自動生成が登場している。近年のＡＩで自動生成されたテキストは人間が書いたテキストと見分けるのが難しいぐらいの品質である。次の段階として、条件を与えることで生成するテキストをコントロールすることが期待されている。例えば、条件として「宛先の人名」と「タイトル」を与えると、その人名及びタイトルに沿ったテキストを自動生成することが考えられる。

Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher, "CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION", CoRR abs/1909.05858 (2019). Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu, "PLUG AND PLAY LANGUAGE MODELS: A SIMPLE APPROACH TO CONTROLLED TEXT GENERATION", In ICLR 2020.

しかしながら、条件付きテキストの生成は、学習に必要なデータが多く、テキスト生成のモデルを学習させるための計算機等のコストが高いという課題がある。また、事前に与える条件を複数にした場合、相対的に条件毎の学習のデータが減少するためにモデルの学習精度が落ちるという課題がある。

本発明は、上記に鑑みてなされたものであり、テキスト生成の条件を複数与えてもモデルの学習精度が落ちず、条件を与える順序によらずモデルの学習結果は変化しないテキスト生成技術を提供することを目的とする。

本発明の一態様のテキスト生成装置は、条件に合ったテキストを生成するテキスト生成装置であって、属性が付与されたテキストを入力して前記テキストから属性及び単語をトークンとして抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したＴｒａｎｓｆｏｒｍｅｒに前記属性と前記単語をトークンとして入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記テキストと前記属性との一致度を表す目的関数を最小化するようにＴｒａｎｓｆｏｒｍｅｒを学習する学習部と、テキスト生成の条件となる属性とシードワードをＴｒａｎｓｆｏｒｍｅｒに入力し、Ｔｒａｎｓｆｏｒｍｅｒから再帰的に出力される単語をつなげてテキストを生成する生成部を備え、前記マルチビューアテンションメカニズムは、前記属性のトークンについては全てのトークンへのアクセスを可能とし、前記単語のトークンについては前記属性のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Ｔｒａｎｓｆｏｒｍｅｒがアテンションを求める際に、単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする。

本発明によれば、複数の条件を与えてもモデルの学習精度が落ちず、条件が同じであればそれらを与える順序によらずモデルの学習結果は変化しないテキスト生成技術を提供することができる。

図１は、本実施形態のテキスト生成システムの構成の一例を示す図である。図２は、本実施形態で提案する深層学習モデルの一例を示す図である。図３は、本実施形態のテキスト生成システムの学習処理の流れの一例を示すフローチャートである。図４は、本実施形態のテキスト生成システムのテキスト生成処理の流れの一例を示すフローチャートである。

［システム構成］
以下、本発明の実施の形態について図面を用いて説明する。

本実施形態のテキスト生成システムは、Ｔｒａｎｓｆｏｒｍｅｒを利用し、テキスト生成の条件とシードワード（テキストの最初の数単語）を入力するとテキストを生成するシステムである。例えば、条件として「音楽」、シードワードとして“Ｉｌｉｋｅｔｈｉｓ”を入力すると、“ＩｌｉｋｅｔｈｉｓｍｕｓｉｃｂｅｃａｕｓｅＩ・・・”のように、条件にあったテキストを生成する。

Ｔｒａｎｓｆｏｒｍｅｒは主に自然言語処理分野で用いられる深層学習モデルである。ＴｒａｎｓｆｏｒｍｅｒをＬｅｆｔ－ｔｏ－ＲｉｇｈｔＬａｎｇｕａｇｅｍｏｄｅｌとして利用すると、入力した単語からその次に出現する単語を確率的に予測し、これを再帰的に繰り返すことでデキストを生成できる。他方、マルチモーダル検索では検索対象（例えば画像）と単語を同じ意味空間に埋め込み、この空間上での距離に基づいて画像と単語から対象を検索できる。例えば、山の画像と「雪」という単語を入力すると、雪山の画像を検索できる。本実施形態では、条件とテキストのｍｏｄａｌｉｔｙに着目し、条件となる属性とテキストを構成する単語を同一空間に配置し、その空間でモデルを学習した。より具体的には、Ｔｒａｎｓｆｏｒｍｅｒにマルチビューアテンションメカニズムを導入して、一つのモデルの中で属性側と単語側の異なる言語モデルを学習した。提案モデルの詳細については後述する。

図１は、本実施形態のテキスト生成システムの構成の一例を示す図である。図１に示すテキスト生成システム１は、学習部１０、生成部２０、データ保存部３０、計算結果記憶部４０、および入出力部５０を備える。テキスト生成システム１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはテキスト生成システム１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。

学習部１０は、属性が付与されたテキスト群を学習データとして入力し、各テキストから属性および単語をトークンとして抽出し、属性を単語と同じ意味空間に配置できるようにモデルを学習するとともに、テキストと対応する属性（群）が同じ意味空間に配置できるようにモデルを学習する。

生成部２０は、テキスト生成の条件となる属性およびシードワードを学習済みモデルに入力し、属性に応じたテキストを生成する。

データ保存部３０は、属性とテキストなどの学習データを保持する。学習データとして用いるテキストのそれぞれにはそのテキストを表す属性が付与されている。

計算結果記憶部４０は、テキストを生成する深層学習モデル、学習によって得られた深層学習モデルのパラメータ、属性や単語の分散ベクトル（分散埋め込み表現）などの計算結果を保持する。

入出力部５０は、ユーザ端末５から属性およびシートワードを入力して生成部２０へ送信し、生成部２０から生成したテキストを受信してユーザ端末５に返却する。

［提案モデル］
図２を参照し、本実施形態で提案するモデルについて説明する。図２に示す提案モデルは、Ｔｒａｎｓｆｏｒｍｅｒにマルチビューアテンションメカニズムを導入した深層学習モデルである。図２中の点線の枠はＴｒａｎｓｆｏｒｍｅｒのデコーダの範囲を示す。

マルチビューアテンションメカニズムは、トークン（属性および単語）ごとにコンテキスト（他のトークン）へのアクセスを制御するための参照可能な領域が異なる自己アテンションマスクを持つ。これにより、ＴｒａｎｓｆｏｒｍｅｒがＢｉｄｉｒｅｃｔｉｏｎａｌＬａｎｇｕａｇｅｍｏｄｅｌ（属性側）とＬｅｆｔ－ｔｏ－ＲｉｇｈｔＬａｎｇｕａｇｅｍｏｄｅｌ（単語側）として学習しモデル間でパラメータを共有できる。図２の例では、自己アテンションマスクを、縦方向に参照元の属性ａと単語ｔを並べ、横方向に参照先の属性ａと単語ｔを並べて示した。図２中のａはａｔｔｒｉｂｕｔｅｔｏｋｅｎに相当し、ｔはｔｅｘｔｔｏｋｅｎに相当する。黒丸は参照可能なトークンを示す。属性ａは、全ての属性ａと全ての単語ｔを参照できる。単語ｔは、全ての属性ａとそれまでに出現した単語ｔのみを参照できる。ＢｉｄｉｒｅｃｔｉｏｎａｌＬａｎｇｕａｇｅｍｏｄｅｌに属性を入力し、Ｌｅｆｔ－ｔｏ－ＲｉｇｈｔＬａｎｇｕａｇｅｍｏｄｅｌに単語を入力する。モデルには複数の属性を入力でき、属性の順序は問わない。以下、マルチビューアテンションメカニズムを導入したＴｒａｎｓｆｏｒｍｅｒについて説明する。

アテンションとはトークン間（属性間、単語間、属性と単語間）の関連度を表すスコアである。各トークンがＱ（クエリ），Ｋ（キー），およびＶ（バリュー）のベクトルを持つ。次式のように、アテンションは、Ｖの加重和であり、その加重はＱとＫを使って計算される。本実施形態では、アテンションの計算にマルチビューアテンションメカニズムを導入し、コンテキストへのアクセスを制御した。

Ｗ_l ^Q，Ｗ_l ^K，Ｗ_l ^V∈Ｒ^d _h ^×d _kは、Ｑ，Ｋ，Ｖ∈Ｒ^x×d _kのそれぞれを計算するための学習可能な重みである。ｘは入力した属性およびテキストのトークン数でありｄ_h及びｄ_kは、クエリとキーの共有次元数である。Ｍ∈Ｒ^x×xは自己アテンションマスクである。アテンションを求める際に、単語のトークンについては後続（ｉ＜ｊ）の単語を参照しないように無限に小さい値とする。ＨはＴｒａｎｓｆｏｒｍｅｒを構成する隠れ層（レイヤ）であり、次式で表される。

Ｈ_a ⁰はＴｒａｎｓｆｏｒｍｅｒへの入力であって、各トークンについて、属性または単語の分散埋め込み表現（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ）、位置の分散埋め込み表現（ＰｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）、およびデータ形式の分散埋め込み表現（ＳｅｇｍｅｎｔＥｍｂｅｄｉｎｇ）を合わせたものである。Ｈ_a ^lはｌ番目のレイヤの出力であり、次のレイヤへの入力である。なお、図２中の［ＣＬＳ］は始まりを示すトークンであり、［ＥＯＡ］は属性の終わりを示すトークンであり、［ＥＯＴ］はテキストの終わりを示すトークンである。

提案モデルは、学習タスクとしてＭＡＭとＡＬＭを導入した。ＭＡＭにより属性を単語と同じ意味空間に配置できるようにモデルを学習する。ＭＡＭは次式で定義される。

ζは学習するパラメータを表す。ｊ番目のテキストにおける属性群をａ_j＝｛ａ_j,1，・・・，ａ_j,i｝、単語群をｗ_j＝｛ｗ_j,1，・・・，ｗ_j,i｝とする。バックスラッシュを付したｍはｍ番目の属性をマスクしたことを表す。ＭＡＭは属性の一部を除いたときの属性の予測精度を表し、ＭＡＭによりモデルがマスクした属性を正しく推定できるようにモデルを学習できる。

ＡＬＭは次式で定義される。

単語群と属性群のスコアリング関数をｓ_ζ（ｗ，ａ）とする。ＡＬＭは属性群とテキストを構成する単語群とのマッチング度合いを表す。ＡＬＭによりテキストと対応する属性（群）が同じ意味空間に配置できるようにモデルを学習できる。

モデルの学習は、以下の目的関数Lを最小化することで実施する。

Ｌ_CTGNはＬｅｆｔ－ｔｏ－ＲｉｇｈｔＬａｎｇｕａｇｅｍｏｄｅｌを学習するための目的関数であり、Ｌ_CTGNを最小化することで、シードワードに続く単語の予測精度を向上させる。Ｄは学習用のテキスト群全体である。

なお、事前に学習済みのＴｒａｎｓｆｏｒｍｅｒを用いることで、計算量を低減できる。学習で更新したパラメータを次式であらわす。

Ｑ，Ｋ，Ｖは事前学習で求めたパラメータである。Ｑ^*，Ｋ^*，Ｖ^*は事後学習で更新したパラメータである。Ｑ_a，Ｋ_a，Ｖ_aは事後学習で出現した属性および単語のパラメータである。事後学習で、新たに出現したＱ_a，Ｋ_a，Ｖ_aのみを更新することで、モデル学習の計算効率化を実現できる。

［動作］
次に、図３のフローチャートを参照し、学習処理について説明する。

ステップＳ１１にて、学習部１０は、データ保存部３０からテキスト群を読み出して、tokenizeによりテキスト群をトークン（属性及び単語）に分割する。

ステップＳ１２にて、学習部１０は、テキストそれぞれについて、属性群と単語群をモデルに入力し、上記で示した目的関数を最小化するようにモデルのパラメータを更新する。

次に、図４のフローチャートを参照し、テキスト生成処理について説明する。

ステップＳ２１にて、生成部２０は、テキスト生成条件となる属性およびシードワードをモデルに入力する。

ステップＳ２２にて、生成部２０は、シードワードに続く単語をモデルから得る。

ステップＳ２３にて、生成部２０は、テキストの生成が終了したか否か判定する。例えば、生成部２０は、テキストの終了を示す“＜ｅｎｄ＞”が出力された場合、またはテキスト長が所定の最大文字数に達した場合に終了と判定する。

テキストの生成を続ける場合、ステップＳ２１に戻り、得られた単語をシードワードの後に繋げてモデルに入力する。

テキストの生成が終了した場合、ステップＳ２４にて、生成部２０は、シードワードに単語をつなげてテキストを出力する。生成されたテキストは、入出力部５０からユーザ端末５へ返却される。

以上説明したように、本実施形態のテキスト生成システム１は、学習部１０と生成部２０を備え、条件に合ったテキストを生成するシステムである。学習部１０は、属性が付与されたテキストを入力してテキストから属性及び単語をトークンとして抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したＴｒａｎｓｆｏｒｍｅｒに属性と単語をトークンとして入力し、属性の一部を除いたときの属性の予測精度を表す目的関数とテキストと属性との一致度を表す目的関数を最小化するようにＴｒａｎｓｆｏｒｍｅｒを学習する。生成部２０は、テキスト生成の条件となる属性とシードワードをＴｒａｎｓｆｏｒｍｅｒに入力し、Ｔｒａｎｓｆｏｒｍｅｒから再帰的に出力される単語をつなげてテキストを生成する。これにより、複数の条件を与えてもモデルの学習精度が落ちず、条件を与える順序によらずモデルの学習結果は変化しないテキスト生成技術を提供できる。

１テキスト生成システム
１０学習部
２０生成部
３０データ保存部
４０計算結果記憶部
５０入出力部
５ユーザ端末

Claims

条件に合ったテキストを生成するテキスト生成装置であって、
属性が付与されたテキストを入力して前記テキストから属性及び単語をトークンとして抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したＴｒａｎｓｆｏｒｍｅｒに前記属性と前記単語をトークンとして入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記テキストと前記属性との一致度を表す目的関数を最小化するようにＴｒａｎｓｆｏｒｍｅｒを学習する学習部と、
テキスト生成の条件となる属性とシードワードをＴｒａｎｓｆｏｒｍｅｒに入力し、Ｔｒａｎｓｆｏｒｍｅｒから再帰的に出力される単語をつなげてテキストを生成する生成部を備え、
前記マルチビューアテンションメカニズムは、前記属性のトークンについては全てのトークンへのアクセスを可能とし、前記単語のトークンについては前記属性のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Ｔｒａｎｓｆｏｒｍｅｒがアテンションを求める際に、単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする
テキスト生成装置。
請求項１に記載のテキスト生成装置であって、
事前学習済みのＴｒａｎｓｆｏｒｍｅｒを用い、
前記学習部は、新たに出現した前記属性と前記単語に関するパラメータのみを更新する
テキスト生成装置。
条件に合ったテキストを生成するテキスト生成方法であって、
コンピュータが、
属性が付与されたテキストを入力して前記テキストから属性及び単語をトークンとして抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したＴｒａｎｓｆｏｒｍｅｒに前記属性と前記単語をトークンとして入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記テキストと前記属性との一致度を表す目的関数を最小化するようにＴｒａｎｓｆｏｒｍｅｒを学習し、
テキスト生成の条件となる属性とシードワードをＴｒａｎｓｆｏｒｍｅｒに入力し、Ｔｒａｎｓｆｏｒｍｅｒから再帰的に出力される単語をつなげてテキストを生成し、
前記マルチビューアテンションメカニズムは、前記属性のトークンについては全てのトークンへのアクセスを可能とし、前記単語のトークンについては前記属性のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Ｔｒａｎｓｆｏｒｍｅｒがアテンションを求める際に、単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする
テキスト生成方法。
請求項３に記載のテキスト生成方法であって、
事前学習済みのＴｒａｎｓｆｏｒｍｅｒを用い、
学習時は、新たに出現した前記属性と前記単語に関するパラメータのみを更新する
テキスト生成方法。
請求項１または２に記載のテキスト生成装置の各部としてコンピュータを動作させるプログラム。