JP2022088494A

JP2022088494A - テキスト生成方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022088494A
Application number: JP2022048414A
Authority: JP
Inventors: ジュアフー; Zhe Hu; ジーウェイツァオ; Zhiwei Cao; ジヤチェンリォウ; Jiachen Liu; シンイェンシャオ; Xinyan Xiao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2022-03-24
Publication date: 2022-06-14
Anticipated expiration: 2042-03-24
Also published as: JP7397114B2; CN113553863A; US20220138435A1; CN113553863B

Abstract

【課題】テキスト生成方法、装置、電子機器、記憶媒体及びプログラムを提供する。【解決手段】テキスト生成方法は、前文テキストを符号化して。符号化シーケンスを取得し１０１、生成対象の後文テキストの制御可能な属性を取得し１０２、前文テキストの符号化シーケンス及び後文テキストの制御可能な属性に基づいて、後文テキストの隠れ状態を予測し１０３、後文テキストの隠れ状態に基づいて、前文テキストの符号化シーケンスを復号化して、前文テキストに対応する後文テキストを取得する１０４。【選択図】図１

Description

本開示は、データ処理技術の分野に関し、特に、自然言語処理技術の分野に関し、具体的には、テキスト生成方法、装置、電子機器及び記憶媒体に関する。

制御可能なテキストの生成は、所望の制御可能な属性に基づいてテキストを生成する方式であり、例えば、制御可能な属性は、具体的には、感情的傾向、文の長さ、コンテンツの具体性の程度及び言語スタイルタイプなどであってもよい。

関連技術において、生成されたテキストが所望の制御可能な属性を満たすようにするために、通常、前文テキストと制御可能な属性とをスプライシングして翻訳モデルに入力し、符号化及び復号化を順に行うことにより、後文テキストを生成するが、実際の実行において、このように生成された後文テキストの品質が高くないことを見出した。

本開示は、テキスト生成方法、装置、電子機器及び記憶媒体を提供する。

本開示の一態様によれば、テキスト生成方法を提供し、前記テキスト生成方法は、
前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するステップと、
生成対象の後文テキストの制御可能な属性を取得するステップと、
前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するステップと、
前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するステップと、を含む。

本開示の別の態様によれば、テキスト生成装置を提供し、前記テキスト生成装置は、
前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するように構成される符号化モジュールと、
生成対象の後文テキストの制御可能な属性を取得するように構成される取得モジュールと、
前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するように構成される予測モジュールと、
前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するように構成される復号化モジュールと、を含む。

本開示の別の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが前記一態様に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに前記一態様に記載の方法を実行させる。

本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、前記一態様に記載の方法が実現される。

本開示によって提供されるテキスト生成方法、装置、電子機器及び記憶媒体は、前文テキストを符号化して符号化シーケンスが取得された後、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得し、後文テキストの隠れ状態が制御可能な属性に適合するようにする。制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスに対して次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにする。後文テキスト生成プロセスを２つのステップに分割することで、第１のステップで生成された後文テキストの隠れ状態が制御可能な属性に適合するようにし、これに基づいて、次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにするとともに、制御可能な属性に適合するようにし、後文テキストの生成品質が向上する。

なお、本部分に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の実施例により提供されるテキスト生成方法の概略フローチャートである。テキスト生成モデルのフレームチャートである。本開示の実施例により提供される他のテキスト生成方法の概略フローチャートである。後文テキスト生成の原理図である。本開示の実施例により提供されるテキスト生成装置の概略構成図である。本開示の実施例により提供される例示的な電子機器６００の概略ブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下に、図面を参照して本開示の実施例に係るテキスト生成方法、装置、電子機器及び記憶媒体を説明する。

関連技術において、生成されたテキストが所望の制御可能な属性を満たすようにするために、通常、前文テキストと制御可能な属性とをスプライシングしてから翻訳モデルに入力し、翻訳モデルの出力に基づいて後文テキストを決定する。このような方式では、翻訳モデルに対するトレーニング要求が高く、翻訳モデルは、入力された前文テキスト及び制御可能な属性と、当該制御可能な属性に適合する後文テキストとのマッピング関係を学習する必要があり、翻訳モデルにとっては、このような複雑なマッピング関係を学習することが困難であり、実際の実行において、生成された後文テキストの品質が高くない。

本開示において、翻訳モデルがこのような複雑なマッピング関係を直接学習することを回避するために、学習目標を分割し、高品質な応答及び制御可能な属性を満たすという２つの目標をそれぞれ決定している。前文テキストを符号化した後、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得することにより、後文テキストの隠れ状態が制御可能な属性に適合するようにする。さらに制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスを符号化し、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにする。

図１は、本出願の実施例により提供されるテキスト生成方法の概略フローチャートである。

図１に示すように、当該方法は以下のステップ１０１～１０４を含む。

ステップ１０１において、前文テキストを符号化して、前文テキストの符号化シーケンスを取得する。

ステップ１０２において、生成対象の後文テキストの制御可能な属性を取得する。

第１の可能な実施形態として、ユーザの操作に応答して、制御可能な属性の目標値を決定する。

第２の可能な実施形態として、前文テキストを符号化して、前文テキストの符号化シーケンスを取得してから、前文テキストの符号化シーケンスに基づいて制御可能な属性を予測して、目標値を取得する。

なお、異なるシナリオに応じて、第１の可能な実施形態、又は第２の可能な実施形態のうちの１つを実行してもよく、あるいは、第１の可能な実施形態においてユーザの操作が検知されていないか、又はユーザの操作に基づいて目標値が決定できない場合、第２の可能な実施形態を実行してもよい。

前記２つの可能な実施形態に基づいて、制御可能な属性はユーザによって手動で入力されてもよいし、ユーザによって手動で入力されなくてもよく、テキスト生成の形態をより柔軟にし、ユーザの異なるニーズを満たすことができることが分かる。

ステップ１０３において、前文テキストの符号化シーケンス及び後文テキストの制御可能な属性に基づいて、後文テキストの隠れ状態を予測する。

ここで、後文テキストの隠れ状態は、制御可能な属性に適合し、すなわち、後文テキストの隠れ状態には、制御可能な属性が含まれている。

ステップ１０４において、後文テキストの隠れ状態に基づいて、前文テキストの符号化シーケンスを復号化して、前文テキストに対応する後文テキストを取得する。

本実施例を明確に説明するために、本実施例は、図２に示すテキスト生成モデルのフレームを提供し、図２に示すように、前文テキストの符号がｘであり、前文テキストに対して図２に示すエンコーダを利用して符号化して、前文テキストの符号化シーケンスＨ^ｘを取得し、前文テキストの符号化シーケンスＨ^ｘを属性プレディクタに入力して、属性プレディクタを利用して前文テキストの符号化シーケンスＨ^ｘに基づいて後文テキストの制御可能な属性ｚを予測する。さらに符号化シーケンスＨ^ｘ及び後文テキストの制御可能な属性ｚをデコーダに入力して復号化し、前文テキストに対応する後文テキストｙを取得する。

ここで、図２に示すデコーダで復号化することは、２つの段階に分けることができる。

第１の段階は、図２に示す制御可能な属性の計画層で実行される。前文テキストの符号化シーケンスＨ^ｘ及び前記後文テキストの制御可能な属性ｚに基づいて、前記後文テキストの隠れ状態Ｈ^ｚを予測する。

第２の段階は、図２に示す出力生成層で実行される。後文テキストの隠れ状態Ｈ^ｚに基づいて、前記前文テキストの符号化シーケンスＨ^ｘを復号化して、前記前文テキストに対応する後文テキストｙを取得する。

図２に示すテキスト生成モデルで後文テキストを生成する前に、テキスト生成モデルをトレーニングする必要がある。以下に、テキスト生成モデルのトレーニングプロセスを簡単に説明する。

先ず、トレーニングサンプルを用意し、トレーニングサンプルは、会話から得られた前文テキストを切り取り、対応する後文テキストでラベル付けし、及び後文テキストの制御可能な属性を手動でラベル付けすることができ、ここでのラベル付けされた制御可能な属性は、グローバル属性及び各文字のローカル属性の値を含む。

さらに、トレーニングサンプルをテキスト生成モデルに入力し、当該テキスト生成モデルによってトレーニングサンプルに対して予測された制御可能な属性とラベル付けされた制御可能な属性との間の相違、及び当該テキスト生成モデルによって予測された後文テキストとラベル付られた後文テキストとの間の相違に基づいて、テキスト生成モデルをトレーニングする。

本実施例において、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得することで、後文テキストの隠れ状態を制御可能な属性に適合させる。さらに制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスを復号化し、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにする。後文テキストの生成プロセスを２つのステップに分割することにより、第１のステップで生成された後文テキストの隠れ状態が制御可能な属性に適合するようにし、これに基づいて次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにするとともに、前記制御可能な属性を保留する。関連技術において、前文テキストを制御可能な属性とともにモデルに入力して、モデルによって出力された後文を取得し、このような方式は、前文テキスト及び制御可能な属性のスプライシングと、後文テキストとの間のマッピングが複雑で、後文テキストの生成品質が高くない。本実施例において、複雑なマッピングプロセスを２つの簡単なステップに分割することにより、後文テキストの生成品質を向上させる。

上記の実施例を基に、本実施例は、制御可能な属性をグローバル属性及びローカル属性に分割する実施形態を提供する。関連技術において、制御可能な属性をグローバル属性及びローカル属性に分割していない。本開示の実施例において、制御可能な属性が異なる粒度から後文テキストに与える影響に基づいて、グローバル属性とローカル属性との分割を行う。グローバル属性は、文の全体に反映される属性であるため、後文テキストにおける各文字のグローバル属性の値がいずれも同じである。ローカル属性は、文の各語に反映される属性であり、後文テキストにおける異なる文字のローカル属性の値が異なってもよく、すなわち、各文字は対応するローカル属性の値を有する。前記実施例を基に、本実施例において、グローバル属性及びローカル属性をそれぞれ説明する。

図３は、本開示の実施例により提供される他のテキスト生成の概略フローチャートであり、図３に示すように、この方法は、以下のステップ３０１～３０３を含む。

ステップ３０１において、前文テキストを符号化して、前文テキストの符号化シーケンスを取得する。

前文テキストをエンコーダに入力して符号化して、前文テキストの符号化シーケンスを取得する。前文テキストの符号化シーケンスには、複数のベクトル形態のコードが含まれ、各コードはそれぞれ前文テキストにおける文字に対応し、すなわち、前文テキストにおける各文字が対応するコードを有する。

ステップ３０２において、制御可能な属性の目標値を取得する。

前記２つの可能な実施形態に基づいて、制御可能な属性は、ユーザによって手動で入力されてもよいし、ユーザによって手動で入力されなくてもよく、テキスト生成の形態をより柔軟にし、ユーザの異なるニーズを満たすことができることが分かる。

ステップ３０３において、制御可能な属性がローカル属性である場合、目標値及び前文テキストにおける各文字のコードに基づいて、後文テキストにおける各文字の制御可能な属性の値を予測する。

ここで、ローカル属性は、各単語から後文テキストを属性制御する制御可能な属性である。例えば、ローカル属性は、コンテンツの具体性の程度及び感情的傾向を含むことができる。

しかしながら、ユーザが後文テキストにおける文字ごとにローカル属性の値をそれぞれ指定するという操作が複雑であり、ユーザの操作を簡素化するために、後文テキストにおける文字ごとに制御可能な属性の値を予測する必要がある。本開示の実施例において、ユーザは、ローカル属性の目標値を１つだけ指定し、当該目標値に基づいて後文テキストにおける各文字のローカル属性の値を予測することができる。

選択的に、目標値と前文テキストにおける符号化シーケンスとを融合させて、第３の循環ニューラルネットワークに入力し、後文テキストにおける最初の文字の制御可能な属性の値を取得する。さらに後文テキストにおける第（ｎ－１）個の文字の制御可能な属性の値と、前記目標値と、前記前文テキストの符号化シーケンスとを融合させて、前記第３の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字の制御可能な属性の値を取得する。

ステップ３０４において、制御可能な属性がグローバル属性である場合、後文テキストにおける各文字の制御可能な属性の値が当該目標値であると決定する。

ここで、グローバル属性は、文の全体から属性制御を行う制御可能な属性である。例えば、グローバル属性は、文の長さ及び言語のスタイルタイプなどを含むことができる。したがって、後文テキストにおける各文字の利用可能な属性の値をいずれも目標値として決定することにより、生成された文のスタイルを統一することができる。

ステップ３０５において、符号化シーケンスと前記後文テキストにおける最初の文字の制御可能な属性とを融合させて、第１の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字の隠れ状態を取得する。

選択的に、前文テキストの符号化シーケンスと後文テキストにおける最初の文字の制御可能な属性とを直接スプライシングするか、又は重み付け加算し、第１の循環ニューラルネットワークの入力ベクトルを取得する。当該入力ベクトルを第１のトレーニングニューラルネットワークに入力してから、第１の循環ニューラルネットワークによって復号化し、後文テキストにおける最初の文字の隠れ状態を取得する。第１の循環ニューラルネットワークによって出力された隠れ状態には、制御可能な属性の関連情報が含まれているが、前文テキストに応答する意味が含まれていない。

ステップ３０６において、後文テキストにおける第（ｎ－１）個の文字の隠れ状態と、前記後文テキストにおける第ｎ個の文字の制御可能な属性と、前記前文テキストの第ｎ個の文字の復号化とを融合させて、前記第１の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字の隠れ状態を取得し、ｎは１より大きい整数である。

第１の循環ニューラルネットワークによって後文テキストにおける最初の文字の隠れ状態を入力した後、当該隠れ状態、後文テキストにおける後続の文字に対応する制御可能な属性及び前文テキストの符号化シーケンスに基づいて、後文テキストにおける後続の文字の復号化を続ける。

ステップ３０７において、符号化シーケンスと前記後文テキストにおける最初の文字の隠れ状態とを融合させて、第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得する。

選択的に、符号化シーケンスにおける前文テキストの最後の文字に対応するコードが、通常、前のテキスト全体の意味を含むため、符号化シーケンスにおける前文テキストの最後の文字に対応するコードと後文テキストにおける最初の文字の隠れ状態とを融合させて、第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得することができる。

ステップ３０８において、前記後文テキストにおける第（ｎ－１）個の文字のコードと、前記後文テキストにおける第ｎ個の文字の隠れ状態と、前記前文テキストにおける第ｎ個のコードとを融合させて、前記第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字のコードを取得する。

ステップ３０９において、前記後文テキストにおける各文字のコードに基づいて、後文テキストを決定する。

後文テキストにおける各文字のコードは、辞書の各文字の後文テキストにおける確率を示し、当該確率に基づいて辞書から後文テキストの当該文字位置における文字コンテンツを決定する。

本実施例をはっきり説明するために、本実施例は、図４に示す後文テキスト生成の原理図をさらに提供する。

図４に示すように、前文テキスト、例えば、「Ｈｏｗｄｏｙｏｕｌｉｋｅｔｈｅｐｉｚｚａｈｅｒｅ？」を入力し、後文テキストにおける各文字がそれぞれ対応する制御属性を有し、ここでの制御属性は、ローカル属性及びグローバル属性を含み、ここで、ローカル属性は、白丸で識別され、グローバル属性は、黒丸で識別される。後文テキストにおける各文字の制御属性及び前文テキストの符号化シーケンスに基づいて、後文テキストにおける各文字の隠れ状態ｈｎ^ｚを取得し、ここで、ｎは、正整数であり、対応する文字の後文テキストにおける順番又は位置番号を示す。後文テキストにおける各文字の隠れ状態ｈｎ^ｚ、及び前文テキストの符号化シーケンスに基づいて復号化して、後文テキストのコードｈｎ^ｒを取得する。後文テキストの各コードｈｎ^ｒに基づいて、最終的な後文テキスト、例えば、「Ｐｅｒｆａｃｅｔ！Ｉｔｒｅａｌｌｙｈｉｔｓ．．．」を取得する。

本実施例において、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得することにより、後文テキストの隠れ状態が制御可能な属性に適合するようにする。さらに制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスに対して次の復号化を行い、復号化された後文テキストの隠れ状態が意味的に当該前文テキストへの応答であるようにする。後文テキスト生成プロセスを２つのステップに分割することで、第１のステップで生成された後文テキストの隠れ状態が制御可能な属性に適合するようにし、これに基づいて、次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにするとともに、前記制御可能な属性を保留し、後文テキストの生成品質が向上する。同時に、ローカル属性及びグローバル属性に対してそれぞれ異なる処理を行って、後文テキストにおける制御可能な属性の各文字に対応する値を決定し、後文テキストの生成品質がさらに向上する。

図５は、本開示の実施例により提供されるテキスト生成装置の概略構成図である。図５に示すように、当該装置は、符号化モジュール５１、取得モジュール５２、予測モジュール５３及び復号化モジュール５４を含む。

符号化モジュール５１は、前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するように構成される。

取得モジュール５２は、生成対象の後文テキストの制御可能な属性を取得するように構成される。

予測モジュール５３は、前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するように構成される。

復号化モジュール５４は、前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するように構成される。

さらに、本実施例の可能な一実施形態において、取得モジュール５２は、
前記制御可能な属性の目標値を取得するように構成される取得ユニットと、
前記制御可能な属性がローカル属性である場合、前記目標値及び前記符号化シーケンスにおける前文テキストの各文字のコードに基づいて、前記後文テキストにおける各文字の制御可能な属性の値を予測するように構成される予測ユニットと、を含む。

さらに、本実施例の可能な一実施形態において、取得モジュール５２は、
前記制御可能な属性がグローバル属性である場合、前記後文テキストにおける各文字の制御可能な属性の値が前記目標値であると決定するように構成される決定ユニットをさらに含む。

さらに、本実施例の可能な一実施形態において、取得ユニットは、具体的には、
ユーザの操作に応答して、前記制御可能な属性の目標値を決定し、
あるいは、前記前文テキストの符号化シーケンスに基づいて前記制御可能な属性を予測して、前記目標値を取得するように構成される。

さらに、本実施例の可能な一実施形態において、予測モジュール５３は、
前記符号化シーケンスと前記後文テキストにおける最初の文字の制御可能な属性とを融合させて、第１の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字の隠れ状態を取得するように構成される第１の復号化ユニットと、
前記後文テキストにおける第（ｎ－１）個の文字の隠れ状態と、前記後文テキストにおける第ｎ個の文字の制御可能な属性と、前記前文テキストの符号化シーケンスとを融合させて、前記第１の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字の隠れ状態を取得するように構成される第２の復号化ユニットであって、ｎは１より大きい整数である第２の復号化ユニットと、を含む。

さらに、本実施例の可能な一実施形態において、復号化モジュール５４は、
前記符号化シーケンスと前記後文テキストにおける最初の文字の隠れ状態とを融合させて、第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得するように構成される第３の復号化ユニットと、
前記後文テキストにおける第（ｎ－１）個の文字のコードと、前記後文テキストにおける第ｎ個の文字の隠れ状態と、前記前文テキストの符号化シーケンスとを融合させて、前記第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字のコードを取得するように構成される第４の復号化ユニットと、
前記後文テキストにおける各文字のコードに基づいて、前記後文テキストを決定するように構成される出力ユニットと、を含む。

さらに、本実施例の可能な一実施形態において、予測ユニットは、具体的には、
前記目標値と前記前文テキストの符号化シーケンスとを融合させて、第３の循環ニューラルネットワークに入力し、前記後文テキストにおける最初の文字の制御可能な属性の値を取得し、
前記後文テキストにおける第（ｎ－１）個の文字の制御可能な属性の値と、前記目標値と、前記前文テキストの符号化シーケンスとを融合させて、前記第３の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字の制御可能な属性の値を取得するように構成される。

本実施例によって提供される装置は、前文テキストを符号化して符号化シーケンスが取得された後、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得することにより、後文テキストの隠れ状態が制御可能な属性に適合するようにする。さらに制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスに対して次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにする。後文テキスト生成プロセスを２つのステップに分割することで、第１のステップで生成された後文テキストの隠れ状態が制御可能な属性に適合するようにし、これに基づいて、次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにするとともに、制御可能な属性に適合するようにし、後文テキストの生成品質が向上する。

なお、前記方法実施例に対する解釈説明は、本実施例の装置にも適用され、原理が同じであり、本実施例では説明を省略する。

本開示の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるテキスト生成方法が実現される。

図６は、本開示の実施例を実施するための例示的な電子機器６００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限するものではない。

図６に示すように、デバイス６００は、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、リードオンリーメモリ）６０２に記憶されているコンピュータプログラム、又は記憶ユニット６０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）６０３にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット６０１を含む。ＲＡＭ６０３には、デバイス６００の動作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）インターフェース６０５もバス６０４に接続されている。

デバイス６００内の複数のコンポーネントは、Ｉ／Ｏインターフェース６０５に接続され、キーボード、マウスなどの入力ユニット６０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット６０９と、を含む。通信ユニット６０９は、デバイス６００がインタ-ネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット６０１は、処理及び計算能力を有する様々な汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理ユニット）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、グラフィックス処理ユニット）、様々な専用ＡＩ（Ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ、人工知能）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、デジタルシグナルプロセッサ）、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット６０１は、上述した各方法及び処理、例えば、テキスト生成方法を実行する。例えば、いくつかの実施例では、テキスト生成方法は、記憶ユニット６０８のような機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ６０２及び／又は通信ユニット６０９を介してデバイス６００にロッド及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ６０３にロッドされて計算ユニット６０１によって実行される場合、上述したテキスト生成方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット６０１は、テキスト生成方法を実行するように、他の任意の適切な形態で（例えば、ファーとウェアを介して）構成されてもよい。

本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、特定用途向け集積回路）、ＡＳＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰｒｏｄｕｃｔ、特定用途向け標準製品）、ＳＯＣ（ＳｙｓｔｅｍＯｎＣｈｉｐ、システムオンチップ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、コンプレックス・プログラマブル・ロジック・デバイス）、コンピュータハードウェア、ファームウェア、ソフトウェア及び／又はそれらの組合せで実現されてもよい。これらの様々な実施形態は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されることができる１つ又は複数のコンピュータプログラムで実現されてもよく、当該プログラマブルプロセッサは、専用及び／又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置にデータ及び命令を伝送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行されるか、又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することが可能な有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のワイヤによる電気的接続、ポータブルコンピュータディスク、ハードディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－Ｏｎｌｙ－Ｍｅｍｏｒｙ、消去可能プログラマブルリードオンリーメモリ）又はフラッシュメモリ、光ファイバ、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ポータブルコンパクトディスクリードオンリーメモリ）、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（Ｃａｔｈｏｄｅ－ＲａｙＴｕｂｅ、陰極線管）又はＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドユニットを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルエリアネットワーク）と、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ワイドエリアネットワーク）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）における、管理難度が大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の１つである。サーバは、分散システムのサーバであってもよく、ブロックチェーンを組み合わせたサーバであってもよい。

ここで、なお、人工知能はコンピュータに人間のある思考過程と知能行為（例えば、学習、推理、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能ハードウェア技術には、一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等の技術が含まれる。人工知能ソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

テキスト生成方法であって、
前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するステップと、
生成対象の後文テキストの制御可能な属性を取得するステップと、
前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するステップと、
前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するステップと、を含む、
ことを特徴とするテキスト生成方法。
前記生成対象の後文テキストの制御可能な属性を取得するステップは、
前記制御可能な属性の目標値を取得するステップと、
前記制御可能な属性がローカル属性である場合、前記目標値及び前記符号化シーケンスにおける前文テキストの各文字のコードに基づいて、前記後文テキストにおける各文字の制御可能な属性の値を予測するステップと、を含む、
ことを特徴とする請求項１に記載のテキスト生成方法。
前記制御可能な属性の目標値を取得するステップの後に、
前記制御可能な属性がグローバル属性である場合、前記後文テキストにおける各文字の制御可能な属性の値が前記目標値であると決定するステップをさらに含む、
ことを特徴とする請求項２に記載のテキスト生成方法。
前記制御可能な属性の目標値を取得するステップは、
ユーザの操作に応答して、前記制御可能な属性の目標値を決定するステップ、
あるいは、前記前文テキストの符号化シーケンスに基づいて前記制御可能な属性を予測して、前記目標値を取得するステップ、をさらに含む、
ことを特徴とする請求項２に記載のテキスト生成方法。
前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するステップは、
前記符号化シーケンスと前記後文テキストにおける最初の文字の制御可能な属性とを融合させて、第１の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字の隠れ状態を取得するステップと、
前記後文テキストにおける第（ｎ－１）個の文字の隠れ状態と、前記後文テキストにおける第ｎ個の文字の制御可能な属性と、前記前文テキストの符号化シーケンスとを融合させて、前記第１の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字の隠れ状態を取得するステップであって、ｎは１より大きい整数であるステップと、を含む、
ことを特徴とする請求項２又は３に記載のテキスト生成方法。
前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するステップは、
前記符号化シーケンスと前記後文テキストにおける最初の文字の隠れ状態とを融合させて、第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得するステップと、
前記後文テキストにおける第（ｎ－１）個の文字のコードと、前記後文テキストにおける第ｎ個の文字の隠れ状態と、前記前文テキストの符号化シーケンスとを融合させて、前記第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字のコードを取得するステップと、
前記後文テキストにおける各文字のコードに基づいて、前記後文テキストを決定するステップと、を含む、
ことを特徴とする請求項５に記載のテキスト生成方法。
前記目標値及び前記前文テキストの各文字のコードに基づいて、前記後文テキストにおける各文字の制御可能な属性の値を決定するステップは、
前記目標値と前記前文テキストの符号化シーケンスとを融合させて、第３の循環ニューラルネットワークに入力し、前記後文テキストにおける最初の文字の制御可能な属性の値を取得するステップと、
前記後文テキストにおける第（ｎ－１）個の文字の制御可能な属性の値と、前記目標値と、前記前文テキストの符号化シーケンスとを融合させて、前記第３の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字の制御可能な属性の値を取得するステップと、を含む、
ことを特徴とする請求項２に記載のテキスト生成方法。
テキスト生成装置であって、
前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するように構成される符号化モジュールと、
生成対象の後文テキストの制御可能な属性を取得するように構成される取得モジュールと、
前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するように構成される予測モジュールと、
前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するように構成される復号化モジュールと、を含む、
ことを特徴とするテキスト生成装置。
前記取得モジュールが、
前記制御可能な属性の目標値を取得するように構成される取得ユニットと、
前記制御可能な属性がローカル属性である場合、前記目標値及び前記符号化シーケンスにおける前文テキストの各文字のコードに基づいて、前記後文テキストにおける各文字の制御可能な属性の値を予測するように構成される予測ユニットと、を含む、
ことを特徴とする請求項８に記載のテキスト生成装置。
前記取得モジュールが、
前記制御可能な属性がグローバル属性である場合、前記後文テキストにおける各文字の制御可能な属性の値が前記目標値であると決定するように構成される決定ユニットをさらに含む、
ことを特徴とする請求項９に記載のテキスト生成装置。
前記取得ユニットが、
ユーザの操作に応答して、前記制御可能な属性の目標値を決定し、
あるいは、前記前文テキストの符号化シーケンスに基づいて前記制御可能な属性を予測して、前記目標値を取得するように構成される、
ことを特徴とする請求項９に記載のテキスト生成装置。
前記予測モジュールが、
前記符号化シーケンスと前記後文テキストにおける最初の文字の制御可能な属性とを融合させて、第１の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字の隠れ状態を取得するように構成される第１の復号化ユニットと、
前記後文テキストにおける第（ｎ－１）個の文字の隠れ状態と、前記後文テキストにおける第ｎ個の文字の制御可能な属性と、前記前文テキストの符号化シーケンスとを融合させて、前記第１の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字の隠れ状態を取得するように構成される第２の復号化ユニットであって、ｎは１より大きい整数である第２の復号化ユニットと、を含む、
ことを特徴とする請求項９又は１０に記載のテキスト生成装置。
前記復号化モジュールが、
前記符号化シーケンスと前記後文テキストにおける最初の文字の隠れ状態とを融合させて、第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得するように構成される第３の復号化ユニットと、
前記後文テキストにおける第（ｎ－１）個の文字のコードと、前記後文テキストにおける第ｎ個の文字の隠れ状態と、前記前文テキストの符号化シーケンスとを融合させて、前記第２の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字のコードを取得するように構成される第４の復号化ユニットと、
前記後文テキストにおける各文字のコードに基づいて、前記後文テキストを決定するように構成される出力ユニットと、を含む、
ことを特徴とする請求項１２に記載のテキスト生成装置。
前記予測ユニットが、
前記目標値と前記前文テキストの符号化シーケンスとを融合させて、第３の循環ニューラルネットワークに入力し、前記後文テキストにおける最初の文字の制御可能な属性の値を取得し、
前記後文テキストにおける第（ｎ－１）個の文字の制御可能な属性の値と、前記目標値と、前記前文テキストの符号化シーケンスとを融合させて、前記第３の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第ｎ個の文字の制御可能な属性の値を取得するように構成される、
ことを特徴とする請求項９に記載のテキスト生成装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～７のいずれかに記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記命令は、コンピュータに請求項１～７のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～７のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータプログラム。