JP2021051710A

JP2021051710A - テキスト処理装置、方法、デバイス及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2021051710A
Application number: JP2019209175A
Authority: JP
Inventors: ティエンシャンリュー; Tianshang Liu; シーホングオ; Xihong Guo; シンユグオ; xin yu Guo; アンシンリー; Anxin Li; ランチン; Lan Chen; 大志池田; Hiroshi Ikeda; 拓藤本; Hiroshi Fujimoto
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2019-09-20
Filing date: 2019-11-19
Publication date: 2021-04-01
Also published as: CN112541325A

Abstract

【課題】ソーステキストに対して何らかの外部情報を考慮した結果をテキストとして出力する方法、装置、デバイス及びコンピュータ読み取り可能な記録媒体を提供する。【解決手段】テキスト処理装置１００は、ソーステキスト符号化非表示状態を取得するためにソーステキストを符号化する符号化部と、復号化非表示状態を決定する復号化部と、外部情報、ソーステキスト非表示状態及び復号化非表示状態に基づいて現在タイムステップのアテンション分布を決定するアテンション生成部と、出力単語を決定するために、前記アテンション分布、ソーステキスト非表示状態、復号化非表示状態に基づいて出力単語確率分布を決定する出力部とを含む。【選択図】図１

Description

本開示はテキスト処理分野に関し、より具体的には、テキスト処理装置、方法、デバイス及びコンピュータ読み取り可能な記録媒体に関する。

従来のテキスト処理では、テキスト変換、テキスト生成等のプロセスにおいて、入力されたソーステキストを処理することで最終的なテキスト処理結果を取得することができる。

いくつかの場合には、さらに理想的な結果が得られるように、ユーザはテキスト処理プロセスのために何らかの外部情報を指定することができる。このような外部情報は、ユーザが指定したテキストにおける重要な情報であってもよいし、ソーステキストに関連付けられる他のテキスト情報であってもよい。このような外部情報がテキスト処理結果に表れる可能性をより高くするためには、テキスト処理プロセスにおいて外部情報を十分に考慮したテキスト処理方法が必要となる。

テキスト処理プロセスにおいて外部情報を十分に考慮するために、本開示では、テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記録媒体を提供する。

本開示の一態様によれば、ソーステキスト符号化非表示状態を取得するためにソーステキストを符号化するように構成される符号化部と、復号化非表示状態を決定するように構成される復号化部と、外部情報、前記ソーステキスト非表示状態及び前記復号化非表示状態に基づいて現在タイムステップのアテンション分布を決定するように構成されるアテンション生成部と、出力単語を決定するために、前記アテンション分布、前記ソーステキスト非表示状態、前記復号化非表示状態に基づいて出力単語確率分布を決定するように構成される出力部とを含むテキスト処理装置が提供される。

一部の実施例において、前記アテンション生成部は、前記ソーステキスト符号化非表示状態及び前記復号化非表示状態に基づいて前記ソーステキストの符号化アテンション分布を決定し、前記外部情報に基づいて、前記ソーステキストに対する、前記ソーステキストにおける各単語用の選択確率を含む選択確率分布を決定し、前記アテンション分布を取得するために、前記ソーステキストにおける各単語に対して、当該単語の選択確率に基づいて当該単語のアテンションを決定するように構成される。

一部の実施例において、前記外部情報に基づいて前記ソーステキストの選択確率を決定することは、前記ソーステキストにおける、前記外部情報に属する少なくとも１つの単語に対して、当該少なくとも１つの単語の選択確率を少なくとも予め定義された確率値として決定することを含む。

一部の実施例において、前記ソーステキストにおける各単語に対して、当該単語の選択確率に基づいて当該単語のアテンションを決定することは、当該単語の選択確率が所定の選択確率閾値より小さい場合、前記現在タイムステップのアテンション分布における当該単語のアテンションを０と決定し、当該単語の選択確率が所定の選択確率閾値以上である場合、前記現在タイムステップのアテンション分布における当該単語用のアテンションをソーステキストの符号化アテンション分布における当該単語のアテンションとして決定することを含む。

一部の実施例において、前記アテンション分布は、前記外部情報の符号化アテンション分布と、ソーステキストの符号化アテンション分布とを含み、前記符号化部は、さらに、外部情報符号化非表示状態を取得するために前記外部情報を符号化するように構成され、前記アテンション生成部は、前記外部情報符号化非表示状態と前記復号化非表示状態とに基づいて前記外部情報の符号化アテンション分布を決定し、前記ソーステキスト符号化非表示状態及び前記復号化非表示状態に基づいて前記ソーステキストのアテンション分布を決定するように構成され、前記出力部は、前記ソーステキスト符号化非表示状態、前記復号化非表示状態、前記外部情報の符号化アテンション分布及び前記ソーステキストの符号化アテンション分布に基づいて前記出力単語確率分布を決定するように構成される。

一部の実施例において、前記出力部は、前記ソーステキスト符号化非表示状態と前記復号化非表示状態とに基づいて生成確率分布を決定し、前記外部情報アテンション分布に基づいて前記生成確率分布、前記符号化アテンション分布及び前記外部情報アテンション分布用の重み係数を決定し、前記出力単語確率分布を決定するために、前記重み係数に基づいて前記生成確率分布、前記符号化アテンション分布及び前記外部情報アテンション分布を加算するように構成される。

一部の実施例において、前記符号化部、前記アテンション生成部及び前記復号化部は、トレーニングソーステキスト符号化非表示状態を取得するためにトレーニングソーステキストを符号化するステップと、トレーニング復号化非表示状態を決定するステップと、前記外部情報、前記トレーニングソーステキスト符号化非表示状態及び前記トレーニング復号化非表示状態に基づいて現在タイムステップのトレーニングアテンション分布を決定するステップと、トレーニング出力単語を決定するために、前記トレーニングアテンション分布、前記トレーニングソーステキスト符号化非表示状態、前記トレーニング復号化非表示状態に基づいてトレーニング出力単語確率分布を決定するステップと、前記トレーニング出力単語と前記外部情報に含まれる単語との間の差異が最小となるように、前記符号化部、前記アテンション生成部、前記復号化部におけるパラメータを調整するステップとによってトレーニングされる。

本開示の他の態様によれば、ソーステキスト符号化非表示状態を取得するために、ソーステキストを符号化するステップと、復号化非表示状態を決定するステップと、前記外部情報、前記ソーステキスト非表示状態及び前記復号化非表示状態に基づいて現在タイムステップのアテンション分布を決定するステップと、出力単語を決定するために、前記アテンション分布、前記ソーステキスト非表示状態、前記復号化非表示状態に基づいて出力単語確率分布を決定するステップとを含むテキスト処理方法が提供される。

一部の実施例において、前記外部情報、前記ソーステキスト符号化非表示状態及び前記復号化非表示状態に基づいて現在タイムステップのアテンション分布を決定するステップは、前記ソーステキスト符号化非表示状態と前記復号化非表示状態とに基づいて前記ソーステキストの符号化アテンション分布を決定するステップと、前記外部情報に基づいて前記ソーステキストに対する、前記ソーステキストにおける各単語用の選択確率を含む選択確率分布を決定するステップと、前記アテンション分布を取得するために、前記ソーステキストにおける各単語に対して、当該単語の選択確率に基づいて当該単語のアテンションを決定するステップとを含む。

一部の実施例において、前記外部情報に基づいて前記ソーステキストの選択確率を決定するステップは、前記ソーステキストにおける、前記外部情報に属する少なくとも１つの単語に対して、当該少なくとも１つの単語の選択確率を少なくとも予め定義された確率値として決定するステップを含む。

一部の実施例において、前記ソーステキストにおける各単語に対して、当該単語の選択確率に基づいて当該単語のアテンションを決定するステップは、当該単語の選択確率が所定の選択確率閾値より小さい場合、前記現在タイムステップのアテンション分布における当該単語のアテンションを０と決定するステップと、当該単語の選択確率が所定の選択確率閾値以上である場合、前記現在タイムステップのアテンション分布における当該単語用のアテンションをソーステキストの符号化アテンション分布における当該単語のアテンションとして決定するステップとを含む。

一部の実施例において、前記アテンション分布は、外部情報の符号化アテンション分布とソーステキストの符号化アテンション分布とを含み、前記符号化は、さらに、外部情報符号化非表示状態を取得するために前記外部情報を符号化するステップを含み、前記外部情報、前記ソーステキスト符号化非表示状態及び前記復号化非表示状態に基づいて現在タイムステップのアテンションを決定するステップは、前記外部情報符号化非表示状態と前記復号化非表示状態とに基づいて前記外部情報の符号化アテンション分布を決定し、前記ソーステキスト符号化非表示状態と前記復号化非表示状態とに基づいて前記ソーステキストのアテンション分布を決定するステップと、前記ソーステキスト符号化非表示状態、前記復号化非表示状態、前記外部情報の符号化アテンション分布及び前記ソーステキストの符号化アテンション分布に基づいて前記出力単語確率分布を決定するステップとを含む。

一部の実施例において、出力単語を決定するために、前記アテンション分布、前記ソーステキスト符号化非表示状態及び前記復号化非表示状態に基づいて単語確率分布を決定するステップは、前記ソーステキスト符号化非表示状態と前記復号化非表示状態とに基づいて生成確率分布を決定するステップと、前記外部情報アテンション分布に基づいて前記生成確率分布、前記符号化アテンション分布及び前記外部情報アテンション分布用の重み係数を決定するステップと、前記出力単語確率分布を決定するために、前記重み係数に基づいて前記生成確率分布、前記符号化アテンション分布及び前記外部情報アテンション分布を加算するステップとを含む。

本開示のまた別の一態様によれば、プロセッサと、コンピュータ読み取り可能なプログラミングコマンドを記憶したメモリと、を含み、前記コンピュータ読み取り可能なプログラミングコマンドが前記プロセッサによって実行される場合、前記のようなテキスト処理方法を実行するテキスト処理デバイスが提供される。

本開示のさらに別の一態様によれば、コンピュータによって実行される場合、前記コンピュータが前記のようなテキスト処理方法を実行するコンピュータ読み取り可能なコマンドが記録されるコンピュータ読み取り可能な記録媒体が提供される。

本開示にかかるテキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記録媒体を利用することにより、テキストの生成プロセスにおいて、外部情報を利用して現在タイムステップのアテンション分布を決定する、及び／又は外部情報に基づいて現在タイムステップの出力単語を決定することで、テキスト処理プロセスにおいて外部情報の内容を効果的に考慮し、テキスト生成プロセスにおいて外部情報を生成する確率を向上させることができ、外部情報を考慮した場合、テキストを生成する効果を向上させることができる。

図面を参照して本開示の実施例についてより詳細に説明する。本開示の上記及びその他の目的、特徴及び利点がさらに明らかになる。図面は本開示の実施例に対する理解をさらに深めるためのものであって、明細書の一部として本開示実施例とともに本開示を解釈するために用いられ、本開示を制限するものではない。図面において、同一の符号は通常同じ部品又はステップを示している。

本開示にかかるテキスト処理装置の概略的なブロック図を示している。本願の実施例にかかる出力確率分布に基づいて候補出力単語を決定する概略的な実施例を示している。本願の実施例にかかる出力確率分布に基づいて候補出力単語を決定する概略的な実施例を示している。本開示の実施例にかかるアテンション生成部の概略的なブロック図を示している。本願の実施例にかかるアテンション生成部が現在タイムステップのアテンション分布を決定する概略的なプロセスを示している。本願の実施例にかかるアテンション生成部の他の概略的なブロック図を示している。本願の実施例にかかるテキスト処理装置の他の概略的なブロック図を示している。本願にかかるテキスト処理方法の概略的なフローチャートを示している。本願の実施例にかかる外部情報に基づいて現在タイムステップのアテンション分布を決定する概略的なフローチャートを示している。本願の実施例にかかる外部情報に基づいて現在タイムステップのアテンション分布を決定する他の概略的なフローチャートを示している。本願の実施例にかかる他のテキスト処理方法の概略的なフローチャートを示している。本願の実施例にかかるもう１つのテキスト処理方法の例示的フローチャートを示している。本開示実施例にかかるコンピュータデバイスの概略図である。

以下、本開示実施例における図面を参照して、本開示実施例の技術案について明確に、かつ全面的に説明する。記載される実施例が本開示の一部の実施例において、全部の実施例ではないことは明らかである。本開示における実施例に基づいて、当業者が創造的な労働をせずに取得したすべての他の実施例は、本開示の保護範囲に含まれる。

特に定義されない限り、ここで使用される技術的用語又は科学的用語は当業者が理解する通常の意味である。本願で使用される「第一」、「第二」及びそれに類似する単語は何らかの順序、数又は重要性を示すわけではなく、単に異なる構成部分を区別するためのものである。同様に、「含む」や「含まれる」等、それに類似する単語は、当該単語の前に現れる部品或いはものは、当該単語の後に挙げられる部品或いはもの、及びその均等物を含むことを指し、他の部品或いはものを排除しない。「接続する」や「互いに接続する」等、それに類似する単語は、物理的或いは機械的な接続に限定されず、直接的か間接的かを問わず、電気的接続をも含む。「上」、「下」、「左」、「右」等は、単に相対的な位置関係を示すために用いられ、説明対象の絶対的な位置が変わった後、当該相対的な位置もそれに応じて変更される可能性がある。

以下、テキスト要約の生成を例として本開示の原理について説明する。しかしながら、本開示の原理から逸脱しない限り、本開示によって提供される方法は、例えば、テキスト変換プロセス、機械翻訳プロセス等、他のテキスト処理プロセスに適用されてもよいことは、当業者が理解しうる。

図１は、本開示にかかるテキスト処理装置の概略的なブロック図を示している。図１に示すように、テキスト処理装置１００は、符号化部１１０と、復号化部１２０と、アテンション生成部１３０と、出力部１４０と、を含んでもよい。テキスト処理装置１００は、ソーステキストＩに対してテキスト処理を行って、対応するテキスト処理結果を生成することができる。例えば、テキスト処理装置１００を利用してソーステキストＩ用の要約を生成してもよい。ソーステキストＩは、少なくとも１つの文を含んでもよく、各文は少なくとも１つの単語を含む。

本開示によって提供されるテキスト処理装置１００は、外部情報を受信し、外部情報に基づいてソーステキストに対するテキスト処理プロセスを実行することができる。一部の実施例において、外部情報とは、予め定義された、ソーステキストの処理結果として期待されるテキスト情報を指す。一部の例において、外部情報は、ソーステキストにおける少なくとも１つの単語又は文である。他の一部の例において、外部情報は、ソーステキストにおける、所定位置の単語又は文であり、例えば、ソーステキストの先頭の文、最後の文、又は任意の他の指定位置のテキスト情報である。また他の一部の例において、外部情報はソーステキストに関連付けられる追加テキストである。例えば、ソーステキストのタイトルである。ある実現形態において、外部情報は、ユーザの入力に基づいて決定される追加テキストであってもよい。本願はここで外部情報の決定方法について限定しない。実際には、テキスト処理プロセスに使用する外部情報をいかなる可能な方法で決定してもよい。

テキスト処理装置１００を利用してソーステキストを処理する場合、テキスト処理の各段階で外部情報を考慮することで、外部情報がテキスト処理結果に表れる確率を高めることができる。例えば、ソーステキストにおける文章のタイトルが外部情報として決定された場合、本願によって提供されるテキスト処理装置１００から出力されるソーステキストの要約に、文章タイトルにおける単語及び／又は文が必ず現れるか又は現れる可能性が極めて高い。

コンピュータでテキスト処理方法を実行する場合、コンピュータは、往々にしてテキストデータを直接に処理できないため、ソーステキスト及び／又は外部情報を処理するとき、まずソーステキストを数値データに変換する必要がある。

一部の実施例において、ソーステキストＩは自然言語の形で実装される。この場合、テキスト処理装置１００は、前処理部（図示せず）をさらに含んでもよい。前処理部は、ソーステキストが符号化部に入力される前にソーステキストを数値データに変換するために用いられてもよい。例えば、ソーステキストＩにおける各文に対して単語分割処理を実行することで、各文を複数の単語に分割してもよい。その後、例えば、単語埋め込み（ｗｏｒｄｅｍｂｅｄｄｉｎｇ）の方法で単語分割処理によって得られた複数の単語をそれぞれ特定次元の単語ベクトルに変換してもよい。

同様に、外部情報に対応する少なくとも１つの単語ベクトルを取得してその後のテキスト処理に用いるために、外部情報を変換してもよい。

一部の実施例において、本開示にかかるソーステキストＩは、数値データの形で実現されてもよく、例えば、少なくとも１つの単語ベクトルでソーステキストＩを示してもよい。この場合、符号化部１１０でソーステキストＩを直接処理してもよい。テキスト処理装置１００から独立して設けられる前処理装置で自然言語に対して前処理を行ってもよい。

以下は、外部情報とソーステキストとが自然言語の形であるか、又は数値データの形であるかを区別せず、コンピュータを利用して自然言語の形の外部情報及び／又はソーステキストを処理する必要がある場合、当業者は、必要に応じて自然言語の形の外部情報及び／又はソーステキストを数値データに変換してもよい。

符号化部１１０は、ソーステキスト符号化非表示状態ｈを取得するために、処理対象であるソーステキストＩを符号化するように構成されてもよい。

一部の実施例において、符号化部１１０は符号化ネットワークとして実装されてもよい。例示的な符号化ネットワークは、長・短期記憶（ＬＳＴＭ）ネットワークを含み、ＬＳＴＭネットワークシステムは、例えば、機械翻訳、テキスト要約生成等のタスクに適用されてもよい。なお、符号化ネットワークは、単語ベクトルを符号化可能ないかなる機械学習モデルとして実装されてもよい。

例えば、ソーステキストＩに対応する少なくとも１つの単語ベクトルを入力とする場合、符号化部は、各単語ベクトルｘ_１、ｘ_２、ｘ_３…にそれぞれ対応するソーステキスト符号化非表示状態ｈ_１、ｈ_２、ｈ_３…を出力してもよい。ソーステキスト符号化非表示状態の数とソーステキストの単語ベクトルの数は同じであってもよいし、異なってもよい。例えば、ソーステキストＩに基づいてｋ個の単語ベクトルを生成する場合、符号化部は、ｋ個の対応するソーステキスト符号化非表示状態を生成するために、これらｋ個の単語ベクトルを処理してもよい。ｋは１より大きい整数である。

復号化部１２０は、復号化非表示状態ｓを決定するために用いられてもよい。一部の実施例において、復号化部１２０は、現在タイムステップの復号化非表示状態ｓ_ｔを取得するために、直前のタイムステップｔ−１の復号化非表示状態ｓ_ｔ−１、及び直前のタイムステップでテキスト処理装置が取得した出力単語ｘ_ｔを受信し、ｓ_ｔ−１とｘ_ｔとを処理してもよい。先頭のタイムステップの処理において、ｓ_０及びｘ_１がデフォルトの初期値として決定されてもよい。復号化非表示状態ｓはソーステキストＩに対応する複数の復号化非表示状態ｓ_１、ｓ_２、ｓ_３…を含んでもよい。

一部の実施例において、復号化部１２０は、復号化ネットワークとして実装されてもよい。例示的な復号化ネットワークは長・短期記憶ネットワークを含む。なお、復号化ネットワークは、符号化ネットワークの出力を復号化可能ないかなる機械学習モデルとして実装されてもよい。

一部の実施例において、前期符号化ネットワーク及び復号化ネットワークは、シーケンス・ツー・シーケンスモデル（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅ，Ｓｅｑ２Ｓｅｑ）で示すことができ、１つの入力系列、（例えば、入力テキストとしての）例えば「ＷＸＹＺ」をもう１つの出力系列、（例えば、テキスト要約としての）例えば「ＡＸＹ」に変換することを実現するために用いられてもよい。

アテンション生成部１３０は、前記ソーステキスト符号化非表示状態ｈと前記復号化非表示状態ｓとに基づいてアテンション分布Ａを決定し、現在タイムステップの後続のテキスト処理プロセスのためのアテンション分布Ａを出力するように構成されてもよい。

一部の実施例において、現在タイムステップｔのアテンション分布Ａ^ｔは、ソーステキストの符号化アテンション分布であってもよい。

一部の実装形態において、各タイムステップ（ｔｉｍｅｓｔｅｐ）ｔで現在タイムステップのソーステキスト符号化非表示状態ｈ_ｔと復号化非表示状態ｓ_ｔとを利用して現在タイムステップのソーステキストの符号化アテンション分布ａ^ｔを決定してよい。例えば、式（１）、（２）を利用してソーステキストの符号化アテンション分布ａ^ｔを決定してもよい。

ｔは現在タイムステップを示し、ｓｏｆｔｍａｘは正規化指数関数を示し、ｅ^ｔは式（２）によって下記のように決定される。

ｉは単語ベクトルのインデクス番号であり、ｈ_ｉは第ｉ個の単語ベクトルに対応するソーステキスト符号化非表示状態であり、ｖ^Ｔ、Ｗ_ｈ、Ｗ_Ｓ、ｂ_ａｔｔｎはトレーニング対象である学習パラメータであり、ｈは現在タイムステップのソーステキスト符号化非表示状態であり、ｓ_ｔは現在タイムステップの復号化非表示状態である。

他の一部の実施例において、アテンション生成部１３０は、外部情報及び式（１）によって決定されるソーステキストのアテンション分布ａ^ｔに基づいて、外部情報を含む現在タイムステップのアテンション分布Ａ^ｔを決定し、後続の各部の処理プロセスのための、外部情報を含むアテンション分布Ａ^ｔを出力してもよい。

一部の実装形態において、外部情報を含む現在タイムステップのアテンション分布Ａ^ｔは、外部情報を利用してソーステキストのアテンション分布ａ^ｔを調整した後に決定されるものであってもよい。

他の一部の実施方法において、外部情報を含む現在タイムステップのアテンション分布Ａ^ｔは、ソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔの双方を含んでもよい。

以下、図３Ａ、図３Ｂ及び図４を参照して外部情報を含むアテンション分布Ａ^ｔの決定プロセスについて説明するため、ここでは詳しく説明しない。

出力部１４０は、現在タイムステップの出力単語Ｏを決定するために、前記アテンション分布Ａ、前記ソーステキスト符号化非表示状態ｈ、前記復号化非表示状態ｓに基づいて出力単語確率分布を決定するように構成されてもよい。

出力単語確率分布は、生成確率分布Ｐ_{ｖｏｃａｂ}を含んでもよい。式（３）及び式（４）によって生成確率分布Ｐ_{ｖｏｃａｂ}を決定してもよい。

Ｖ’、Ｖ、ｂ、ｂ’は、出力部におけるトレーニング対象である学習パラメータであり、ｈ_ｔ ^＊はアテンション分布ａ^ｔに基づいて決定したコンテキストベクトルである。例えば、式（４）によってｈ_ｔ ^＊を決定してもよい。

Ａ_ｉ ^ｔはアテンション生成部から出力されるアテンション分布Ａｔにおける第ｉ個要素であり、ｈ_ｉは第ｉ個の単語ベクトルのソーステキスト符号化非表示状態である。

一部の実施例において、出力単語確率分布はアテンション生成部１３０から出力されるアテンション分布Ａ^ｔを含んでもよい。

例えば、前記生成確率分布と前記アテンション分布Ａとを重み付け加算することで出力単語確率分布を決定してもよい。

一部の実装形態において、現在タイムステップのソーステキスト符号化非表示状態、復号化非表示状態、アテンション分布及び現在タイムステップの復号化部の入力ｘ_ｔに基づいて生成確率分布及びアテンション分布用の重み係数Ｐ_ｇｅｎを決定してもよい。

例えば、前記生成確率分布及び前記アテンション分布に対して重み付け加算を行うための重み係数Ｐ_ｇｅｎは、式（５）によって示されてもよい。

σは、例えばｓｉｇｍｏｉｄ関数のような活性化関数を示し、ｗ_ｈ ^Ｔ、ｗ_ｓ ^Ｔ、ｗ_ｘ ^Ｔ及びｂ_ｐｔｒは、トレーニングパラメータであり、ｈ_ｔ ^＊はタイムステップｔで式（４）によって決定されるパラメータであり、ｓ_ｔはタイムステップｔの復号化非表示状態であり、ｘ_ｔはタイムステップｔの復号化部の入力であり、即ち直前のタイムステップｔ−１の出力部の出力である。式（５）によって決定される重み係数Ｐ_ｇｅｎは、スカラーの形によって実装されてもよい。重み係数Ｐ_ｇｅｎを利用して生成確率分布Ｐ_{ｖｏｃａｂ}とアテンション分布Ａ^ｔとに対して加重平均を行うことで出力単語確率分布を取得することができる。

アテンション分布Ａ^ｔにソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔの双方が含まれる場合、ソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔとの重み係数パラメータは同じであってもよく、異なってもよい。以下、図４を参照して、生成確率分布Ｐ_{ｖｏｃａｂ}、ソーステキストのアテンション分布ａ^ｔ及び外部情報のアテンション分布ａ’^ｔの重み係数パラメータをそれぞれ決定する方法について説明するため、ここでは詳しく説明しない。

一部の実施例において、出力部１４０は、出力単語確率分布における確率の最も高い単語を現在タイムステップの出力単語に決定してもよい。

他の一部の実施例において、出力部１４０は、外部情報に基づいて単語確率分布を決定して出力し、現在タイムステップの出力単語を決定してもよい。

一部の実装形態において、出力部１４０は、前記外部情報に基づいて、前記候補出力単語のうち、確率が出力確率閾値以上でありかつ前記外部情報に属する単語を現在タイムステップの候補出力単語として決定する。一部の例において、出力部１４０は、ビームサーチの原則を利用して前記候補出力単語を決定してもよい。

例えば、出力部１４０は、各タイムステップで少なくとも２つの単語を現在タイムステップの候補出力単語として決定し、その後、候補出力単語を次のタイムステップのテキスト処理プロセスにおいて使用するようにしてもよい。同様に、次のタイムステップにおいても出力部１４０は少なくとも２つの候補出力単語を決定してもよい。

具体的には、候補出力単語の数が２であることを例として、タイムステップｔで２つの候補出力単語ａ、ｂを出力することができる。その後、候補出力単語ａ、ｂを次のタイムステップのテキスト処理プロセスに使用し、タイムステップｔ＋１の候補出力単語ｃ、ｄを決定することができる。

図２Ａ及び図２Ｂでは、本願の実施例にかかる出力確率分布に基づいて候補出力単語を決定する例示的な実施例を示している。

一部の実施例において、各タイムステップの候補出力単語を決定する場合、出力確率分布における出力確率の最も高い所定数のＭ個（上記の例では、Ｍは２である）の単語を候補出力単語として決定する。Ｍは２以上の整数である。

図２Ａに示している出力単語確率分布で出力確率の最も高い２つの単語はｗ３とｗ１１であり、そのためｗ３とｗ１１を候補出力単語として決定する。

他の一部の実施例において、各タイムステップの候補出力単語を決定する場合、事前定義の方法で出力確率分布における出力確率の最も高いＮ個の単語を選出して決定し、これらＮ個の単語のうちＭ個の単語を候補出力単語として決定する。ＮはＭより大きい整数である。一部の実装形態において、事前にＮの数値を特定してもよい。

他の一部の実施方法において、事前に出力確率閾値を決定し、かつ出力確率が前記出力確率閾値より大きいＮ個の単語のうちＭ個の単語を候補出力単語として決定してもよい。

出力確率の最も高いＮ個の単語のうち外部情報に属する単語が存在しない場合、これらのＮ個の単語のうち出力確率の最も高いＭ個の単語を候補出力単語として決定してもよい。

出力確率の最も高いＮ個の単語のうち外部情報に属する単語が存在する場合、これらのＮ個の単語に存在する、外部情報に属する単語数ｎがＭ以上であれば、これらのＮ個の単語のうち出力確率の最も高くかつ外部情報に属するＭ個の単語を候補出力単語として決定し、Ｎ個の単語に存在する、外部情報に属する単語数ｎが所定数Ｍより小さいであれば、Ｎ個の単語のうち外部情報に属する単語、及び残りのＮ−ｎ個の単語のうち出力確率の最も高いＭ−ｎ個の単語を候補出力単語として決定する。

図２Ｂに示すように、出力単語確率分布における最も高い２個の単語はｗ３とｗ１１であり、出力確率が予め設定した出力確率閾値より大きい単語にはｗ３、ｗ７及びｗ１１が含まれ、ｗ２とｗ７は、外部情報に属する。

この場合、ｗ７が外部情報に属しかつｗ７の出力確率が出力確率閾値より大きいため、出力確率がより高いｗ３を選択するのではなく、ｗ７とｗ１１を候補出力単語として選択する。

このような方法で外部情報における単語が出力単語として決定される確率を高めることができる。

タイムステップｔに出力した候補出力単語ａ、ｂとタイムステップｔ＋１の候補出力単語ｃ、ｄとを利用して少なくとも４個の出力候補系列ａｃ、ａｄ、ｂｃ、ｂｄを決定でき、同時確率の方法で各出力候補系列の出力確率を決定し、４個の出力系列ａｃ、ａｄ、ｂｃ、ｂｄ候補のうち出力確率の最も高い２つをタイムステップｔ＋１の後の候補テキストとして決定する。

例えば、候補出力単語ａ、ｂ、ｃ、ｄの出力確率はそれぞれＰ_ａ、Ｐ_ｂ、Ｐ_ｃ及びＰ_ｄで示すことができる。出力候補系列ａｃ、ａｄ、ｂｃ、ｂｄはそれぞれＰ_ａｃ＝Ｐ_ａ＊Ｐ_ｃ、Ｐ_ａｄ＝Ｐ_ａ＊Ｐ_ｄ、Ｐ_ｂｃ＝Ｐ_ｂ＊Ｐ_ｃ、及びＰ_ｂｄ＝Ｐ_ｂ＊Ｐ_ｄで示すことができる。Ｐ_ａｃ＞Ｐ_ａｄ＞Ｐ_ｂｃ＞Ｐ_ｂｄである場合、タイムステップｔ＋１で出力系列ａｃ、ａｄを後続のテキスト処理に使用する。

一部の実施例において、さらに外部情報に基づいて出力候補系列を決定してもよい。例えば、式（６）を利用して出力候補系列のペナルティ値を決定できる。式（６）によって決定されるペナルティ値は、出力候補系列の同時出力確率を調整することができる。

一実装形態において、いかなる可能なテキスト類似度アルゴリズムでタイムステップｔの前に生成した候補テキスト系列と外部情報との間の類似度を決定してもよい。例えば、コサイン類似度の方法を使用してタイムステップｔの前に生成した候補テキスト系列と外部情報との間の類似度を決定することができる。

上記式（６）を利用して、タイムステップｔの前に生成された候補テキスト系列と外部情報との間の類似度が高いほど、ペナルティ値は、出力候補系列の出力確率を増やすために用いられる。一部の実装形態において、ペナルティ値ｓ（ｘ，ｙ）と出力候補系列における出力確率とを乗算又は加算し、タイムステップｔの前に生成された候補テキスト系列と外部情報との間の類似度に基づいて出力候補系列を決定する効果を実現することができる。

即ち、外部情報に基づいて上記出力候補系列に使用されるペナルティ値を決定することにより、外部情報が候補テキスト系列に現れる確率を高めることができる。それによって、外部情報が最終的に出力されるテキスト処理結果に表れる確率を高めることができる。

他の実装形態において、前記出力部は、さらに外部情報と前記ソーステキスト符号化非表示状態との間の類似度を決定し、外部情報と前記ソーステキスト符号化非表示状態との間の類似度に基づいて現在タイムステップで出力しようとする単語を決定するように構成されてもよい。

例えば、符号化部１１０を利用して前記外部情報を符号化して、外部情報符号化非表示状態を取得するようにしてもよい。

出力部１４０は、前記外部情報符号化非表示状態と前記復号化非表示状態の類似度を決定するように構成されてもよい。外部情報符号化非表示状態と前記復号化非表示状態の類似度が事前定義された類似度閾値以上である場合、前記出力部は、前記外部情報を出力して現在タイムステップの出力とする。

前記外部情報が単語である場合、前記外部情報を現在タイムステップの単語として出力してもよい。前記外部情報が文である場合、前記外部情報を直接現在タイムステップｔの前に生成されたテキスト系列の後に挿入してもよい。

なお、現在タイムステップｔの前に既に生成されたテキスト系列は、前記出力確率分布における確率の最も高い単語に基づいて生成されてもよく、出力確率分布における確率の最も高いいくつかの候補出力単語に基づいて生成されてもよい。前記実装方法で説明したプロセスを採用して候補出力単語を決定してもよく、ここでは、詳しく説明しない。

外部情報符号化非表示状態と前記復号化非表示状態との類似度が事前定義の類似度閾値より小さい場合、前記出力部は復号化部及びアテンション生成部から出力される結果に基づいて現在タイムステップの出力単語確率分布を決定し、現在タイムステップの出力単語確率分布に基づいて現在タイムステップの出力単語を決定する。

上記方法を利用して、復号化部から出力される結果と外部情報との間の類似度が比較的高い場合、直接外部情報で復号化部から出力される結果を置き換えてもよい。即ち、この場合、現在タイムステップの出力後に決定したテキスト系列の結果は直前のタイムステップの出力後に決定したテキスト系列の後に外部情報を挿入して得られた結果である。

その後、次のタイムステップの処理を行う場合、復号化部を利用して外部情報を符号化して次のタイムステップの復号化非表示状態を得て、後続の復号化プロセスが外部情報の結果を利用できるようにすることで、後の復号化で得られた結果と挿入した外部情報との間のセマンティック一貫性を保証することができる。

外部情報が単語である場合、直前のタイムステップの復号化非表示状態と外部情報を利用して復号化部の入力として処理を行い、現在タイムステップの復号化非表示状態を取得することができる。

外部情報に複数の単語を含む場合、復号化部で数回のループ処理を行う。第１個目のループにおける復号化部の入力は直前のタイムステップの復号化非表示状態と外部情報の第１個目の単語であり、その後のループにおける復号化部の入力は前回ループで得られた復号化非表示状態と外部情報の次の単語である。数回のループにより外部情報における単語毎に処理することができ、全ての外部情報を含む復号化非表示状態を取得して現在タイムステップの復号化非表示状態とする。

一部の実装形態において、既に外部情報で復号化部から出力される結果を置き換えてテキスト処理結果に挿入した後は、上記外部情報符号化非表示状態と前記復号化非表示状態との類似度比較を実行しない。

一部の例において、上記類似度閾値は所定のタイムステップｔに関する関数によって実装されてもよい。

前述したように、外部情報符号化非表示状態と前記復号化非表示状態の類似度が事前定義された類似度閾値より小さい場合、上記外部情報で復号化部出力を置き換えて出力にする動作を実行せず、出力単語確率分布に基づいて出力結果を決定する。この場合、外部情報が最終のテキスト処理結果に表れる確率を高めるために、前記現在タイムステップの類似度閾値を調整することで調整後の類似度閾値を決定し、前記調整後の類似度閾値は、前記現在タイムステップの類似度閾値より小さく、かつ前記調整後の類似度閾値は次のタイムステップの類似度閾値として使用される。

例えば、式（７）を利用して類似度閾値を調整する。

ｔは現在タイムステップであり、ｋは、ソーステキストの長さであり、ｅは自然対数である。一部の変更例において、ｋは、ソーステキスト長さに関する関数で表示されてもよい。例えば、ｋをβとソーステキスト長さの積で表示されてもよく、βは０より大きく１より小さい事前定義されたパラメータである。

上記方法を利用して、タイムステップ毎に類似度閾値について単調減少の調整を実行することで、外部情報と復号化部の出力結果間の類似度がテキスト処理プロセスにて類似度閾値がより低いレベルまで低減されるため、外部情報と復号化部の出力結果間の類似度が現在タイムステップの類似度閾値より大きくなる確率が増えるようになる。即ち、外部情報が最終のテキスト処理結果に現れる確率が増えるようになる。

本願によって提供されるテキスト処理装置１００はテキスト要約の生成プロセスにおいて、外部情報を利用して現在タイムステップのアテンション分布を決定すると同時に／又は、外部情報に基づいて現在タイムステップの出力単語を決定することで、テキスト処理のプロセス有効に外部情報の内容を考慮することができ、テキスト生成のプロセスにおいて外部情報を生成する確率を高め、外部情報を考慮する場合のテキスト生成の効果が改善できるようになる。

本願によって提供されるテキスト処理装置１００を実装する場合、当業者は上記技術案に対して任意の組み合わせをしてもよい。例えば、テキスト処理装置１００でソーステキストについてテキスト処理を行うプロセスにおいて、アテンション生成部だけを利用して外部情報に基づいて外部情報を含むアテンション分布を生成し後続のテキスト処理で使用するようにし、かつ後続のテキスト処理プロセスにおいては、外部情報を考慮しないようにしてもよい。例えば、出力部だけを利用して外部情報に基づいて現在タイムステップで出力しようとする単語を決定し、その前の符号化、復号化とアテンション生成プロセスにおいては、外部情報を考慮しないようにしてもよい。さらに、アテンション生成部で現在タイムステップのアテンション分布を生成する及び出力部で現在タイムステップで出力しようとする単語を決定するプロセスにおいて外部情報を考慮することで、テキスト処理結果に外部情報を含む可能性をさらに増やすようにしてもよい。

図３Ａで本開示の実施例にかかるアテンション生成部の概略的なブロック図を示している。図３Ａに示すアテンション生成部３００を利用して、外部情報に基づいてソーステキストのアテンション分布ａ^ｔを調整し、かつ外部情報を含むアテンション分布Ａ’を決定することができる。

図３Ａに示すように、アテンション生成部３００には、ソーステキストアテンション決定部３１０、コンテンツ選択部３２０が含まれる。

ソーステキストアテンション決定部３１０は、前記ソーステキスト符号化非表示状態と前記復号化非表示状態に基づいて前記ソーステキストの符号化アテンション分布ａ^ｔを決定するために用いられる。一部の実施例において、前記式（１）を利用してソーステキストの符号化アテンション分布ａ^ｔを決定することができる。

コンテンツ選択部３２０は、ソーステキストにおける単語毎の選択確率を決定するのに使用されてもよい。一部の実施例において、コンテンツ選択部３２０は、外部情報に基づいて前記ソーステキストに対する選択確率分布を決定するのに使用されてもよく、前記選択確率分布には、前記ソーステキストに対する単語毎の選択確率が含まれる。

一部の実施例において、コンテンツ選択部２２０コンテンツ選択ネットワーク（例えばＬＳＴＭネットワーク）を利用してソーステキストＩを処理し前記ソーステキストにおける単語毎の第一選択確率を決定するようにしてもよい。

参考となるテキスト処理結果ｒｅｆ（即ち予め決定されるトレーニングデータのテキスト処理結果）を利用して使用するコンテンツ選択ネットワークに対してトレーニングを行う。コンテンツ選択ネットワークのトレーニングプロセスにおいて、ソーステキストＩと参考となるテキスト処理結果ｒｅｆとに基づいて生成したタグ付け系列をコンテンツ選択ネットワークに入力して処理を行う。タグ付け系列とソーステキストＩの単語系列の長さは同じであり、タグ付け系列の第ｉ個要素の値は、ソーステキストＩの第ｉ個の単語が参考となるテキスト処理結果ｒｅｆに属しているか否かを識別する内容である。上記方法を利用してコンテンツ選択ネットワークについてトレーニングすることでコンテンツ選択ネットワークは、ソーステキストＩを処理しかつ前記ソーステキストにおける単語毎の第一選択確率の結果を出力することができ、第一選択確率はコンテンツ選択ネットワークに基づいてソーステキストＩにおけるこの単語が選択され最終のテキスト処理結果に表れる確率を示している。

一部の実施例において、前記ソーステキストにおける外部情報に属する少なくとも１つの単語に対して、当該少なくとも１つの単語の選択確率を少なくとも事前定義された確率値λに決定してもよい。例えば、ソーステキストにおける各外部情報に属する単語の第二選択確率を事前定義された確率値λに決定し、外部情報に属してない他の単語の第二選択確率を０に決定する。

上記第一選択確率と第二選択確率に基づいてソーステキストにおける単語毎の選択確率を決定してもよい。例えば、ソーステキストにおける単語毎の選択確率を第一選択確率と第二選択確率の和に決定してもよい。上記からわかるように、外部情報に属する単語に対してその選択確率は事前定義された確率値λ以上である。

前記選択確率分布に基づいて、コンテンツ選択部２２０は、前記ソーステキストにおける単語毎に対して、当該単語の選択確率によって当該単語のアテンションが決定できアテンション分布Ａが得られるために用いられる。一部の実施例において、コンテンツ選択部２２０は当該単語の選択確率が所定の選択確率閾値εより低い場合、現在タイムステップのアテンション分布において当該単語に使用されるアテンションをゼロとして決定するように構成されてもよい。また、コンテンツ選択部２２０は当該単語の選択確率が所定の選択確率閾値ε以上である場合、現在タイムステップのアテンション分布において当該単語に使用されるアテンションをソーステキストの符号化アテンション分布ａ^ｔにおける当該単語のアテンションとして決定するように構成されてもよい。

上記アテンション生成部を利用することで、ソーステキストにおける単語毎に選択確率が生成でき、即ち、単語毎のアテンションを決定する時、少なくとも式（１）を利用して計算したアテンションの大きさと当該単語の選択確率との双方を考慮すべきである。当該単語の選択確率が所定の選択閾値より低い場合は、当該単語が現在タイムステップに現れる確率が低いと見なしてよく、そのため、後続のテキスト処理プロセスにおいては当該単語のアテンションを考慮しなくてもよい。

式（９）でコンテンツ選択部を利用して決定したアテンション分布の結果を示してもよい。

外部情報に含まれた単語の選択確率を少なくとも事前定義された確率値λに設定することで、事前定義された確率値が所定の選択確率閾値εより大きいと、外部情報における単語がコンテンツ選択のステップにフィルタリングされるのを防止でき、外部情報における単語が後続のテキスト処理プロセスに入ることを保証し、これによって外部情報における単語がテキスト処理結果に現れる確率を高めることができる。なお、一部の実装形態において、事前定義された確率値λは所定の選択確率閾値ε以下に設定してもよい。この場合では、単語毎の選択確率を上記第一選択確率と第二選択確率の和に決定することで、外部情報における単語の選択確率を高めることができ、かつ外部情報における単語がテキスト処理結果に現れる確率を高める効果が実装できる。

図３Ｂで図３Ａに示すアテンション生成部を利用して現在タイムステップのアテンション分布を決定する例示的プロセスを示している。

図３Ｂに示すように、ソーステキストにおける四つの単語を例とし、コンテンツ選択ネットワークを利用して第一、三項目の単語のアテンションを選択し、後続のテキスト処理プロセスにおいて使用する。

図４では本願の実施例のアテンション生成部を利用する他の概略的なブロック図を示している。図４に示すように、アテンション生成部４００は、ソーステキストアテンション決定部４１０と外部情報アテンション決定部４２０を含んでもよい。図４に示しているアテンション生成部を利用して決定したアテンション分布Ａは、ソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔとの双方を含む。

一部の実施例において、ソーステキストアテンション決定部４１０は式（２）を利用して現在タイムステップのソーステキスト符号化非表示状態と現在タイムステップの復号化非表示状態とに基づいてソーステキストにおける単語毎の符号化アテンションパラメータｅ_ｉ ^ｔを決定する。

外部情報アテンション決定部４２０は、前記ソーステキストにおける単語毎の外部アテンションパラメータを決定するのに使用され、外部情報に属する単語の外部アテンションパラメータは所定の第一外部アテンションパラメータに決定され、外部情報に属してない単語の外部アテンションパラメータは所定の第二外部アテンションパラメータに決定される。一部の実装形態において、第一外部アテンションパラメータはλ’として設置され、第二外部アテンションパラメータは０に設置されてもよく、λ’は０より大きい値である。

前記符号化アテンションパラメータと外部アテンションパラメータとに基づいて前記ソーステキストに使用される単語毎のアテンションパラメータを決定する。例えば、単語毎の符号化アテンションパラメータと外部アテンションパラメータとの和を計算すること当該単語のアテンションパラメータｅ’_ｉ ^ｔを求めることができる。

その後、アテンションパラメータｅ’_ｉ ^ｔに基づいてソーステキストの現在タイムステップのアテンション分布を決定する。例えば、アテンションパラメータｅ’_ｉ ^ｔに対してｓｏｆｔｍａｘ関数を運用することで、ソーステキストに使用される単語毎の現在タイムステップのアテンションを取得することができる。

上記方法を利用して、事前定義された外部アテンションパラメータで、ソーステキストにおける外部情報に属する単語のアテンションパラメータを調整でき、外部情報に属する単語アテンションに対する調整を実装することができる。なお、第一外部アテンションパラメータが０より大きいハイパーパラメータλ’で、第二外部アテンションパラメータが０に設置された場合、外部情報に基づいてソーステキストの単語毎のアテンション分布を調整することで、外部情報に属する単語のアテンションがさらに重要になるようにすることができる。

上記の例では、第一外部アテンションパラメータをλ’に、第二外部アテンションパラメータを０の場合を例として本願の原理を説明したが、本願の範囲がそれに限られるわけではない。当業者は実際状況に基づいてソーステキストに使用される単語毎の外部アテンションのパラメータを設置してよく、最終的に外部情報に属する単語のアテンションがさらに重要になる効果だけを実装できればよい。例えば、第一外部アテンションｗｐパラメータλ_１’と設置し、第二外部アテンションをパラメータλ_２’と設置し、λ_１’、λ_２’はいかなる実数であり、λ_１’＞λ_２’だけ満足すればよい。

一部の実施例において、ソーステキストアテンション決定部４１０は、前記式（１）、（２）を利用してソーステキストの符号化アテンション分布ａ^ｔを決定するのに使用されてもよい。外部情報アテンション決定部４２０は、前記外部情報の符号化アテンション分布ａ’^ｔを決定するのに使用されてもよい。

この場合、図１で示している符号化部１１０を利用して前記外部情報を符号化して外部情報符号化非表示状態ｈ’を取得する。外部情報アテンション部４２０は、外部情報符号化非表示状態ｈ’と復号化非表示状態ｓとに基づいて外部情報の符号化アテンション分布を決定する。

例えば、上記式（１）、（２）を利用して外部情報の符号化アテンション分布ａ’^ｔを決定し、式（１）、（２）におけるソーステキスト符号化非表示状態ｈは、外部情報符号化非表示状態ｈ’に置き換えられるべきである。

一部の実装形態において、それぞれ外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔを計算する時、シェアパラメータの式（１）、（２）で計算し、即ち、外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔを計算する時に使用するパラメータｖ^Ｔ、Ｗ_ｈ、Ｗ_Ｓ、ｂ_ａｔｔｎは同じであってもよい。他の一部の実施方法において、外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔとを計算するために用いられるトレーニングパラメータに対してそれぞれトレーニングしてもよく、即ち、外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔを計算する時に使用するパラメータｖ^Ｔ、Ｗ_ｈ、Ｗ_Ｓ、ｂ_ａｔｔｎは異なってもよい。

図４で示しているアテンション生成部４００で外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔを生成し、図１で示している出力部で外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔに対して更なる処理を行い、現在タイムステップの出力単語確率分布を決定する。

アテンション分布Ａ^ｔにソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔとの双方を含む場合、出力単語確率分布は、生成確率分布、ソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔの加重平均で示されてもよい。

一部の実施例において、式（１０）で出力単語確率分布を決定してもよい。

一部の実装形態において、現在タイムステップｔのソーステキスト符号化非表示状態、復号化非表示状態、外部情報の符号化アテンション分布及び直前のタイムステップｔ−１の出力部の出力に基づいてＰ_generator、Ｐ_pointer、及びＰ_Tを決定してもよい。

例えば、式（１１）に基づいてＰ_generator、Ｐ_pointer、及びＰ_Tを決定できる。

一部の実施例において、出力部が出力単語確率分布を決定する時、他の方法で決定される確率分布結果を考慮してもよい。例えば、ソーステキストＩにおける単語ベクトルの形成した複数の文ベクトル間の相関性を考慮してソーステキストＩにおける各単語のソーステキストにおける重要度を決定してもよい。出力単語確率分布は、さらに上記重要度によって形成した単語確率分布を含んでもよい。当業者にとって、出力単語確率分布の生成方式はこれに限られなく、本開示原理を逸脱しない状況で、出力単語確率分布は各種形の単語確率分布を含んでもよい。

上記方式を利用して、アテンション生成部４００で外部情報の現在タイムステップでのアテンション分布ａ’^ｔを決定し、かつ外部情報の現在タイムステップでのアテンション分布ａ’^ｔを現在タイムステップの出力確率分布を決定してもよい。本開示によって提供される実施例において、外部情報の特徴ではなく外部情報のアテンション分布を利用して現在タイムステップの出力確率分布を決定することで、外部情報の特徴における無効情報が現在タイムステップの出力確率分布に与える影響を避けることができる。

図５は本願の実施例にかかるテキスト処理装置の他の例示的な一実施例を示している。

図５に示すように、テキスト処理装置５００は符号化部５１０、復号化部５２０、アテンション生成部５３０、出力部５４０及び後処理部５５０を含んでもよい。符号化部５１０、復号化部５２０、アテンション生成部５３０、出力部５４０は、図１〜図３で説明している符号化部１１０、復号化部１２０、アテンション生成部１３０と出力部１４０で実装すればよく、ここでは、詳しく説明しない。

後処理部５５０は、外部情報に基づいて前記候補テキストに対して後処理を行うことで、外部情報を含む出力テキストを決定するように構成されてもよい。

前述のように、符号化部５１０、復号化部５２０、アテンション生成部５３０、出力部５４０が図１〜図３で説明している符号化部１１０、復号化部１２０、アテンション生成部１３０と出力部１４０に合わせて実装できるので、出力部５４０は、外部情報を含むテキスト処理結果を出力できる。

出力部５４０から出力される結果に既に外部情報を含む場合は、出力部５４０から出力される結果を直接テキスト処理の結果としてもよい。

出力部５４０から出力される結果に外部情報を含まない場合は、出力部５４０から出力される結果を候補テキストとし、後処理部５５０により外部情報に基づいて前記候補テキストについて後処理を行い、外部情報を含む出力テキストを決定するようにする。

一部の実施例において、外部情報は予め指定された情報を含んでもよい。例えば、外部情報は予め指定された文であり、又は予め指定された単語を含むソーステキストにおける文であってもよい。

前記予め指定された外部情報が文である場合、後処理部５５０は、前記候補テキストにおける文と前記外部情報の類似度を決定するように構成されてもよい。前記類似度が所定の候補類似度閾値より大きい場合、前記候補テキストにおける前記文を前記外部情報に置き換えてもよい。

事前決定される外部情報が単語である場合、後処理部５５０は、前記候補テキストにおける文と前記外部情報の類似度を決定し、前記類似度が所定の候補類似度閾値より大きい場合、前記候補テキストにおける前記文を前記外部情報に置き換えるように構成されてもよい。

一部の実装形態において、前記類似度が所定の候補類似度閾値より大きい場合、後処理部５５０は、前記候補テキストにおける前記文を削除し、外部情報としての文又は、外部情報としての単語を含む文で削除された候補テキストにおける文に置き換えるように構成されてもよい。

一部の例において、ソーステキストにおける外部情報と候補テキストにおける余剰情報のソーステキストにおける相関性に基づいて前記残りの情報に外部情報を挿入する。例えば、外部情報と候補テキストにおける余剰情報がソーステキストに現れる順番に基づいて外部情報を候補テキストの余剰情報に挿入する。

他の一部の実施方法において、前記類似度が所定の候補類似度閾値より小さい場合、後処理部５５０は、前記外部情報と前記候補テキストにおける文の前記ソーステキストにおける相関性に基づいて、前記候補テキストに外部情報を挿入する。

前記外部情報と前記候補テキストにおける各文の間の類似度を比較してもよい。前記外部情報と前記候補テキストにおける各文の類似度とも所定の候補類似度閾値より小さい場合、生成したテキスト処理結果に外部情報に類似する情報が含まれてないことを意味する。この場合、外部情報と候補テキストについて直接つづり合いを行い、最終のテキスト処理結果を決定してもよい。

例えば、外部情報と候補テキストにおける文がソーステキストに現れる順番に従って、外部情報を候補テキストに挿入することで、最終のテキスト処理結果を決定してもよい。

本願にかかる上記テキスト処理装置を利用して、効果的にテキスト処理結果に外部情報の内容を追加することができ、テキスト処理結果に期待する外部情報の内容を追加することが保証できる。

前記に示すように、図１〜図３を参照して示しているテキスト処理装置における符号化部１１０、復号化部１２０、アテンション生成部１３０にはすべてトレーニングする必要のあるパラメータを含んでいる。そのため、機械学習を利用して符号化部１１０、復号化部１２０、アテンション生成部１３０における少なくとも１つに対してトレーニングを行う必要がある。

一部の実施例において、所定のソーステキストトレーニングセットを利用して前記符号化部、前記アテンション生成部、前記復号化部に対してトレーニングを行う。前記ソーステキストトレーニングセットは複数のトレーニングソーステキストを含む。

図１で示しているテキスト処理装置を利用してトレーニングソーステキストについて処理を行い、トレーニングソーステキストに対するトレーニングテキスト処理結果を取得することができる。例えば、符号化部を利用してトレーニングソーステキストを符号化してトレーニングソーステキスト符号化非表示状態を取得することができる。その後、復号化部を利用してトレーニング復号化非表示状態を決定することができる。またその後、アテンション生成部を利用して前記外部情報、前記トレーニングソーステキスト符号化非表示状態と前記トレーニング復号化非表示状態に基づいて現在タイムステップのトレーニングアテンション分布を決定することができる。出力部を利用して、前記トレーニングアテンション分布、前記トレーニングソーステキスト符号化非表示状態、前記トレーニング復号化非表示状態に基づいてトレーニング出力単語確率分布を決定することで、トレーニング出力単語を決定することができる。

前記符号化部、前記アテンション生成部、前記復号化部におけるパラメータを調整することで、トレーニングプロセスにおいて使用する損失関数を最小化し、前記符号化部、前記アテンション生成部、前記復号化部に対するトレーニングを実装するようにする。

一部の例において、トレーニングプロセスにおいて使用する損失関数ｌｏｓｓは下記の式（１２）として実装されてもよい。

他の例において、トレーニングプロセスにおいて使用する損失関数ｌｏｓｓは下記式（１３）、（１４）によって実装することができる。

図６は本願のテキスト処理方法による例示的フローチャートを示している。図６に示すように、ステップＳ６０２において、前記ソーステキストに対して符号化を行い、ソーステキスト符号化非表示状態を取得することができる。一部の実施例において、符号化ネットワークを利用してソーステキストについて符号化を行ってもよい。例示的符号化ネットワークには長・短期記憶（ＬＳＴＭ）ネットワークを含み、ＬＳＴＭネットワークベースのシステムは例えば機械翻訳、テキスト要約生成等のタスクに適用される。ここからわかるように、符号化ネットワークは単語ベクトルに対して符号化を行ういかなる機械学習モデルとして実装されてもよい。

例えば、ソーステキストＩに対応する少なくとも１つの単語ベクトルを入力とする場合、符号化ネットワークは各単語ベクトルｘ_１、ｘ_２、ｘ_３…にそれぞれ対応するソーステキスト符号化非表示状態ｈ_１、ｈ_２、ｈ_３…を出力する。ソーステキスト符号化非表示状態の数とソーステキストの単語ベクトルの数は同じでもよいし、異なってもよい。例えば、ソーステキストＩに基づいてｋ個の単語ベクトルを生成する場合、符号化ネットワークはこのｋ個の単語ベクトルを処理してｋ個の対応するソーステキスト符号化非表示状態を生成する。Ｋは１より大きい整数である。

ステップＳ６０４において、復号化非表示状態を決定できる。一部の実施例において、復号化部１２０は直前のタイムステップｔ−１の復号化非表示状態ｓ_ｔ−１及び直前のタイムステップテキスト処理装置で得られた出力単語ｘ_ｔを受信し、かつｓ_ｔ−１とｘ_ｔとを処理することで現在タイムステップの復号化非表示状態ｓ_ｔを取得する。最初のタイムステップの処理でｓ_０とｘ_１はデフォルトの初期値として決定される。復号化非表示状態ｓは、ソーステキストＳに対応する複数の復号化非表示状態ｓ_１、ｓ_２、ｓ_３…を含んでもよい。例示的な復号化ネットワークは長・短期記憶ネットワークを含む。なお、復号化ネットワークは符号化ネットワークの出力に対して復号化を行ういかなる機械学習モデルによって実装されてもよい。

ステップＳ６０６において、外部情報、前記ソーステキスト符号化非表示状態と前記復号化非表示状態に基づいて現在タイムステップのアテンション分布を決定してもよい。

一部の実施例において、現在タイムステップｔのアテンション分布Ａ^ｔは、ソーステキストの符号化アテンション分布である。例えば、式（１）、（２）を利用してソーステキストの符号化アテンション分布ａ^ｔを決定することができる。

他の一部の実施例において、外部情報及び式（１）に基づいて決定したソーステキストのアテンション分布ａ^ｔに基づいて外部情報を含む現在タイムステップのアテンション分布Ａ^ｔを決定し、かつ外部情報を含むアテンション分布Ａ^ｔを出力し、後続のテキスト処理プロセスにおいて使用する。

図７で本願の実施例にかかる外部情報に基づいて現在タイムステップのアテンション分布を決定する例示的フローチャートを示している。

ステップＳ７０２において、前記ソーステキスト符号化非表示状態と前記復号化非表示状態に基づいて前記ソーステキストの符号化アテンション分布を決定する。一部の実施例において、前記式（１）を利用してソーステキストの符号化アテンション分布ａ^ｔを決定することができる。

ステップＳ７０４において、外部情報に基づいて前記ソーステキストに対する選択確率分布を決定し、前記選択確率分布は、前記ソーステキストにおける単語毎に使用される選択確率を含む。

一部の実施例において、コンテンツ選択ネットワーク（例えば、ＬＳＴＭネットワーク）を利用してソーステキストＩについて処理を行うことで、前記ソーステキストにおける単語毎の第一選択確率を決定する。

コンテンツ選択ネットワークは、ソーステキストＩについて処理を行い前記ソーステキストにおける単語毎の第一選択確率の結果を出力し、第一選択確率はコンテンツ選択ネットワークに基づいてソーステキストＩにおけるこの単語が選択され最終のテキスト処理結果に現れる確率を表示する。

一部の実施例において、前記ソーステキストにおける外部情報に属する少なくとも１つの単語について、当該少なくとも１つの単語の選択確率を少なくとも事前定義した確率値λに決定する。例えば、ソーステキストにおける各外部情報に属する単語の第二選択確率を事前定義した確率値λに決定し、外部情報に属する他の単語の第二選択確率を０に決定する。

上記第一選択確率と第二選択確率に基づいてソーステキストにおける単語毎の選択確率を決定する。例えば、ソーステキストにおける単語毎の選択確率を第一選択確率と第二選択確率の合計に決定することができる。わかるように、外部情報に属する単語に対して、その選択確率は事前定義した確率値λ以上である。

ステップＳ７０６において、前記ソーステキストにおける各単語に対して当該単語の選択確率に基づいて当該単語のアテンションを決定することで前記アテンション分布を取得することができる。

前記選択確率分布に基づいて、ステップＳ７０６は、前記ソーステキストにおける各単語に対して当該単語の選択確率に基づいて当該単語のアテンションを決定しアテンション分布Ａを取得することを含んでもよい。一部の実施例において、ステップＳ７０６は当該単語の選択確率が所定の選択確率閾値εより小さい時、現在タイムステップのアテンション分布における当該単語に使用されるアテンションを０と決定することを含んでもよい。また、ステップＳ７０６は当該単語の選択確率が所定の選択確率閾値ε以上である時、現在タイムステップのアテンション分布における当該単語に使用されるアテンションをソーステキストの符号化アテンション分布ａ^ｔにおける当該単語のアテンションに決定することを含んでもよい。

上記アテンション生成の方法を利用して、ソーステキストにおける単語毎に選択確率を生成することができ、即ち、単語毎のアテンションを決定する時、少なくとも式（１）を利用して計算したアテンションの大きさ及び当該単語の選択確率の双方を考慮するべきである。当該単語の選択確率が所定の選択閾値より低い時、当該単語が現在タイムステップに現れる確率が非常に低いと判断できるため、後続のテキスト処理プロセスにおいて当該単語のアテンションを考慮しなくてもよい。

外部情報に含まれた単語の選択確率を少なくとも事前定義された確率値λに設置し、事前定義された確率値が所定の選択確率閾値εより大きい場合は、外部情報における単語がコンテンツ選択のステップでフィルタリングされないように保証することで、外部情報における単語が後続のテキスト処理プロセスにおいて処理されることを保証し、それによって外部情報における単語がテキスト処理結果に現れる確率を高めることができる。なお、一部の実装形態において、事前定義された確率値λを所定の選択確率閾値ε以下に設置してもよい。この場合、単語毎の選択確率を上記第一選択確率と第二選択確率との合計に決定することで、外部情報における単語の選択確率を増やすことが実装でき、外部情報における単語がテキスト処理結果に現れる確率を高める効果が実装できる。

図８では、本願の実施例にかかる外部情報に基づいて現在タイムステップのアテンション分布を決定するステップの他の一例示的なフローチャートを示している。

ステップＳ８０２において、現在タイムステップのソーステキストの符号化アテンションを決定できる。

一部の実施例において、式（２）を利用して現在タイムステップのソーステキスト符号化非表示状態と現在タイムステップの復号化非表示状態に基づいてソーステキストにおける単語毎の符号化アテンションパラメータｅ_ｉ ^ｔを決定することができる。その後、前記式（１）、（２）を利用してソーステキストの符号化アテンション分布ａ^ｔを決定する。

ステップＳ８０４において、現在タイムステップの外部情報符号化アテンションを決定できる。

一部の実施例において、前記ソーステキストにおける単語毎の外部アテンションパラメータが決定でき、外部情報に属する単語の外部アテンションパラメータは所定の第一外部アテンションパラメータに決定され、外部情報に属しない単語の外部アテンションパラメータは所定の第二外部アテンションパラメータに決定される。一部の実装形態において、第一外部アテンションパラメータはλ’に設置され、第二外部アテンションパラメータは０に設置され、λ’は０より大きい値である。

ステップＳ８０２で決定される前記符号化アテンションパラメータと上記外部アテンションパラメータに基づいて前記ソーステキストにおける単語毎に使用されるアテンションパラメータを決定できる。例えば、単語毎の符号化アテンションパラメータと外部アテンションパラメータの合計を求めることで当該単語のアテンションパラメータｅ’_ｉ ^ｔを決定してもよい。

その後、アテンションパラメータｅ’_ｉ ^ｔに基づいてソーステキストの現在タイムステップのアテンション分布を決定してもよい。例えば、アテンションパラメータｅ’_ｉ ^ｔにｓｏｆｔｍａｘ関数を適用することで、ソーステキストの単語毎に使用される現在タイムステップのアテンションを決定することができる。

上記方法を利用して、事前定義された外部アテンションパラメータを利用してソーステキストにおける外部情報に属する単語のアテンションパラメータを調整することができ、外部情報に属する単語アテンションの調整を実装することができる。なお、第一外部アテンションパラメータは０より大きいハイパーパラメータλ’に設置され、第二外部アテンションパラメータは０に設置された場合、外部情報に基づいてソーステキストの単語毎のアテンション分布を調整し、外部情報に属する単語のアテンションがさらに重要になるようにできる。

一部の実施例において、前記外部情報を符号化することで外部情報符号化非表示状態ｈ’を取得することができる。また上記式（１）、（２）を利用して外部情報の符号化アテンション分布ａ’^ｔを決定することができ、式（１）、（２）におけるソーステキスト符号化非表示状態ｈは、外部情報符号化非表示状態ｈ’に置き換えられるべきである。

一部の実装形態において、外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔとをそれぞれ計算する時、シェアパラメータを利用して式（１）、（２）の計算を行い、即ち外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔを計算する時に使用するパラメータｖ^Ｔ、Ｗ_ｈ、Ｗ_Ｓ、ｂ_ａｔｔｎは同じであってもよい。他の一部の実施方法において、外部情報の符号化アテンション分布ａ’^ｔとソーステキスト的符号化アテンション分布ａ^ｔとを計算するためのトレーニングパラメータをそれぞれトレーニングし、即ち、外部情報の符号化アテンション分布ａ’^ｔとソーステキストの符号化アテンション分布ａ^ｔを計算する時に使用するパラメータｖ^Ｔ、Ｗ_ｈ、Ｗ_Ｓ、ｂ_ａｔｔｎは異なってもよい。

図６に戻り参照すると、ステップＳ６０８において前記アテンション分布、前記ソーステキスト符号化非表示状態、前記復号化非表示状態に基づいて出力単語確率分布を決定してもよい。

出力単語確率分布は、生成確率分布Ｐ_{ｖｏｃａｂ}を含んでもよい。式（３）と式（４）を利用して生成確率分布Ｐ_{ｖｏｃａｂ}を決定できる。

一部の実施例において、出力単語確率分布は現在タイムステップのアテンション分布Ａ^ｔを含んでもよい。

例えば、前記生成確率分布と前記アテンション分布Ａについて重み付け加算を行うことで、出力単語確率分布を決定できる。

一部の実装形態において、現在タイムステップのソーステキスト符号化非表示状態、ソーステキスト復号化非表示状態、アテンション分布及び直前のタイムステップ復号化ネットワークの出力に基づいて生成確率分布とアテンション分布用の重み係数Ｐ_ｇｅｎを決定する。

例えば、前記生成確率分布及び前記アテンション分布について重み付け加算を行う重み係数Ｐ_ｇｅｎは式（５）のように示すことができる。

アテンション分布Ａ^ｔにソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔの双方を含む場合、ソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔの重み係数パラメータは同じであってもよく、異なってもよい。

アテンション分布Ａ^ｔにソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔとの双方を含む場合、出力単語確率分布は、生成確率分布、ソーステキストのアテンション分布ａ^ｔと外部情報のアテンション分布ａ’^ｔとの加重平均で示すことができる。

一部の実施例において、式（１０）を利用して出力単語確率分布を決定してもよい。

一部の実装形態において、現在タイムステップｔのソーステキスト符号化非表示状態、ソーステキストの復号化非表示状態、外部情報の符号化アテンション分布及び直前のタイムステップｔ−１の復号化ネットワークの出力に基づいてＰ_generator、Ｐ_pointer、及びＰ_Tを決定してもよい。例えば、式（１１）を利用してＰ_generator、Ｐ_pointer、及びＰ_Tを決定する。

一部の実施例において、ステップＳ６０８は、出力単語確率分布における確率の最も高い単語を現在タイムステップの出力単語に決定することを含んでもよい。

図９は本願の実施例にかかるあるテキスト処理方法の例示的フローチャートを示している。

図９に示すように、ステップＳ９０２において、前記ソーステキストについて符号化を行うことでソーステキスト符号化非表示状態を取得することができる。

ステップＳ９０４において、復号化非表示状態を決定することができる。一部の実施例において、図６に示すステップＳ６０４を利用して復号化非表示状態を決定することができ、繰り返して説明しない。

ステップＳ９０６において、外部情報、前記ソーステキスト符号化非表示状態、前記復号化非表示状態に基づいて出力単語確率分布を決定し、出力単語を決定する。

他の一部の実施例において、ステップＳ９０６は、さらに外部情報に基づいて単語確率分布を決定かつ出力することで現在タイムステップの出力単語を決定してもよい。

一実装形態において、ステップＳ９０６は、前記外部情報に基づいて、前記候補出力単語において確率が出力確率閾値以上でありかつ前記外部情報に属する単語を現在タイムステップの候補出力単語に決定することを含んでもよい。

例えば、各タイムステップ毎に少なくとも２つの単語を現在タイムステップの候補出力単語と決定し、その後、候補出力単語は次のタイムステップのテキスト処理プロセスにおいて使用される。同様に、次のタイムステップにおいても、少なくとも２つの候補出力単語を決定してもよい。

具体的に候補出力単語の数が２の場合を例として、タイムステップｔにおいて２つの候補出力単語ａ、ｂを決定することができる。その後、候補出力単語ａ、ｂは次のタイムステップのテキスト処理プロセスに利用され、タイムステップｔ＋１の候補出力単語ｃ、ｄを決定することができる。

一部の実施例において、各タイムステップ毎の候補出力単語を決定する時、出力確率分布における出力確率が最も高い所定数のＭ個（上記の例では、Ｍは２である）の単語を候補出力単語として決定する。Ｍは２以上の整数である。

他の一部の実施例において、各タイムステップ毎の候補出力単語を決定する時、事前定義された方法に基づいて出力確率分布における選択出力確率が最も高いＮ個の単語を決定し、かつこれらのＮ個の単語のうちＭ個の単語を候補出力単語として決定してもよい。ＮはＭより大きい整数である。一部の実装形態において、予めＮの数値を指定してもよい。

他の一部の実施方法において、出力確率閾値を事前に決定し、出力確率が前記出力確率閾値より大きいＮ個の単語の中からＭ個の単語を候補出力単語として決定してもよい。

出力確率の最も高いＮ個の単語のうち外部情報に属する単語が存在しない場合、これらのＮ個の単語のうち出力確率の最も高いＭ個の単語を候補出力単語として決定する。

出力確率の最も高いＮ個の単語のうち外部情報に属する単語が存在する場合、これらのＮ個の単語に存在する、外部情報に属する単語の数ｎがＭ以上であるとこれらのＮ個の単語における出力確率の最も高いかつ外部情報に属するＭ個の単語を候補出力単語として決定する。これらのＮ個の単語に存在する、外部情報に属する単語数ｎが所定数Ｍより小さいと、これらのＮ個の単語における外部情報に属する単語と残りのＮ−ｎ個の単語における出力確率の最も高いＭ−ｎ個の単語を候補出力単語として決定する。

タイムステップｔに出力した候補出力単語ａ、ｂとタイムステップｔ＋１の候補出力単語ｃ、ｄとを利用して少なくとも４個の出力候補系列ａｃ、ａｄ、ｂｃ、ｂｄが決定でき、同時確率の方法で各出力候補系列の出力確率を決定し、４個の出力系列ａｃ、ａｄ、ｂｃ、ｂｄ候補のうち出力確率の最も高い２つをタイムステップｔ＋１後の候補テキストとして決定する。

一部の実施例において、また外部情報に基づいて出力候補系列を決定してもよい。例えば、式（６）を利用して出力候補系列のペナルティ値を決定できる。

他の実装形態において、ステップＳ９０６は部情報と前記ソーステキスト符号化非表示状態との間の類似度を決定し、外部情報と前記ソーステキスト符号化非表示状態との間の類似度に基づいて現在タイムステップで出力しようとする単語を決定することを含んでもよい。

例えば、符号化ネットワークを利用して前記外部情報を符号化して外部情報符号化非表示状態を得てもよい。

ステップＳ９０６は、前記外部情報符号化非表示状態と前記復号化非表示状態の類似度を決定することを含んでもよい。外部情報符号化非表示状態と前記復号化非表示状態との類似度が事前定義された類似度閾値以上である場合、前記外部情報を出力して現在タイムステップの出力としてもよい。

なお、現在タイムステップｔの前に既に生成されたテキスト系列は、前記出力確率分布における確率の最も高い単語に基づいて生成されたのであってもよく、出力確率分布における確率の最も高いいくつかの候補出力単語に基づいて生成されてもよい。前記実装方法にで説明したプロセスを採用候補出力単語を決定すればよく、ここでは、詳しく説明しない。

外部情報符号化非表示状態と前記復号化非表示状態との類似度が事前定義の類似度閾値より小さい場合、前記復号化ネットワークから出力される結果に基づいて現在タイムステップの出力単語確率分布を決定し、現在タイムステップの出力単語確率分布に基づいて現在タイムステップの出力単語を決定する。

上記方法を利用して、復号化ネットワークから出力される結果と外部情報との間の類似度がより高い時、直接外部情報で復号化ネットワークから出力される結果を置き換えてもよい。即ち、この場合、現在タイムステップの出力後に決定したテキスト系列の結果は直前のタイムステップの出力後に決定したテキスト系列の後に外部情報を挿入して得られた結果である。

その後、次のタイムステップの処理を行う時、復号化ネットワークを利用して外部情報を符号化して次のタイムステップの復号化非表示状態を得て、後の復号化プロセスが外部情報の結果を利用できるようにすることで、後の復号化で得られた結果と挿入した外部情報との間のセマンティック一貫性を保証することができる。

外部情報が単語である場合、直前のタイムステップの復号化非表示状態と外部情報を利用して復号化ネットワークの入力として処理を行い、現在タイムステップの復号化非表示状態を取得することができる。

外部情報に複数の単語を含む場合、復号化ネットワークで数回のループ処理を行う。第１個目のループにおける復号化ネットワークの入力は直前のタイムステップの復号化非表示状態と外部情報の第１個目の単語であり、その後のループにおける復号化ネットワークの入力は前回ループで得られた復号化非表示状態と外部情報の次の単語である。数回のループにより外部情報における単語毎に処理することができ、全ての外部情報を含む復号化非表示状態を取得して現在タイムステップの復号化非表示状態とする。

一部の実装形態において、既に外部情報で復号化ネットワークから出力される結果に置き換えテキスト処理結果に挿入した後は、上記外部情報符号化非表示状態と前記復号化非表示状態との類似度比較を実行しない。

前述したように、外部情報符号化非表示状態と前記復号化非表示状態の類似度が事前定義された類似度閾値より小さい場合、上記外部情報で復号化ネットワークの出力を置き換えて出力にする動作を実行せず、出力単語確率分布に基づいて出力結果を決定する。この場合、外部情報が最終のテキスト処理結果に表れる確率を高めるために、前記現在タイムステップの類似度閾値を調整することで調整後の類似度閾値を決定し、前記調整後の類似度閾値は、前記現在タイムステップの類似度閾値より小さく、かつ前記調整後の類似度閾値は次のタイムステップの類似度閾値として使用される。

例えば、式（７）を利用して類似度閾値を調整する。

各タイムステップ毎に類似度閾値について単調減少の調整を実行することで、外部情報と復号化部の出力結果間の類似度がテキスト処理プロセスにて類似度閾値がより低いレベルまで低減されるため、外部情報と復号化ネットワークの出力結果間の類似度が現在タイムステップの類似度閾値より大きくなる確率が増えるようになる。即ち、外部情報が最終のテキスト処理結果に現れる確率が増えるようになる。

図１０で本願の実施例にかかるあるテキスト処理方法の例示的フローチャートを示している。

ステップＳ１００２において、前記ソーステキスト符号化非表示状態を取得するためにソーステキストを符号化する。

ステップＳ１００４において、復号化非表示状態を決定する。

ステップＳ１００６において、前記ソーステキスト符号化非表示状態と前記復号化非表示状態とに基づいて各タイムステップ毎の出力単語を決定し、候補テキストを決定する。

ステップＳ１００８において、外部情報に基づいて前記候補テキストに対して後処理を行い、外部情報を含む出力テキストを決定する。

ステップＳ１００６から出力される結果に外部情報を含まない場合、ステップＳ１００６から出力される結果を候補テキストとし、外部情報に基づいて前記候補テキストに対して後処理を行い、外部情報を含む出力テキストを決定する。

一部の実施例において、外部情報は予め指定された情報を含んでもよい。例えば、外部情報は予め指定された文であってもよく、予め指定された単語を含むソーステキストにおける文であってもよい。

前記予め指定された外部情報が文である場合、前記候補テキストにおける文と前記外部情報の類似度を決定してもよい。前記類似度が所定の候補類似度閾値より大きい場合、前記候補テキストにおける前記文を前記外部情報に置き換えてもよい。

事前決定される外部情報が単語である場合、前記候補テキストにおける文と前記外部情報の類似度を決定し、前記類似度が所定の候補類似度閾値より大きい場合、前記候補テキストにおける前記文を前記外部情報に置き換えてもよい。

一部の実装形態において、前記類似度が所定の候補類似度閾値より大きい場合、前記候補テキストにおける前記文を削除し、外部情報としての文又は、外部情報としての単語を含む文で削除された候補テキストにおける文に置き換えてもよい。

他の一部の実施方法において、前記類似度が所定の候補類似度閾値より小さい場合、前記外部情報と前記候補テキストにおける文の前記ソーステキストにおける相関性に基づいて、前記候補テキストに外部情報を挿入する。

本願にかかる上記テキスト処理方法を利用して、効果的にテキスト処理結果に外部情報の内容を追加することができ、テキスト処理結果に期待する外部情報の内容を追加することが保証できる。

本願にかかるテキスト処理方法を利用して、テキストの生成プロセスにおいて、外部情報を利用して現在タイムステップのアテンション分布を決定すること及び／又は、外部情報に基づいて現在タイムステップの出力単語を決定することで、テキスト処理のプロセスにおいて外部情報の内容を有効に考慮でき、テキスト生成のプロセスにおいて外部情報を生成する確率を高め、外部情報を考慮する場合にテキストを生成する效果を改善することができる。

また、本願の実施例にかかる方法又は装置は、図１１に示す計算デバイスの構造によって実装されてもよい。図１１で当該計算デバイスの構造を示している。図１１に示すように、計算デバイス１１００はバス１１１０、１つ又は少なくとも２つのＣＰＵ１１２０、読み取り専用メモリ（ＲＯＭ）１１３０、ランダムアクセスメモリ（ＲＡＭ）１１４０、ネットワークに接続された通信ポート１１５０、入力／出力部品１１６０、ハードディスク１１７０等を含んでもよい。計算デバイス１１００におけるメモリデバイス、例えばＲＯＭ１１３０又はハードディスク１１７０は本願によって提供されるビデオにおいて目標を検出ための方法の処理及び／又は通信で使用する各種データ又はファイル及びＣＰＵの実行するプログラミングコマンドを記録してもよい。計算デバイス１１００はユーザインタフェース１１８０を含んでもよい。当然のことながら、図１１に示す構造は例示的なものであって、異なるデバイスを実装する場合、実際のニーズに応じて図１１に示す計算デバイスにおける１つ以上の部品を省略してもよい。

本願の実施例は、さらにコンピュータ読み取り可能な記録媒体によって実装されてもよい。本願の実施例のコンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコマンドが記録されている。前記コンピュータ読み取り可能なコマンドはプロセッサによって実行される場合、上記図面で説明している本願の実施例の方法を参照して実行してよい。前記コンピュータ読み取り可能な記録媒体は例えば揮発性メモリ及び／又は非揮発性メモリを含んでもよいがこれに限られない。前記揮発性メモリは例えばランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュ（ｃａｃｈｅ）等を含んでもよい。前記非発揮性メモリは例えば読み取り専用メモリ（ＲＯＭ）、ハードディスク、フラッシュメモリ等を含んでもよい。

当業者が理解できるように、本願に記載される内容は各種の変形及び改善ができる。例えば、上記で説明した各種デバイス又は部品はハードウェアによって実装されてもよく、ソフトウェア、ファームウェア、又はそれらのうち、一部又は全部の組み合わせで実装されもよい。

また、本願及び特許請求の範囲に示すように、文脈で例外のケースが明確に示される場合以外、「一」、「一個」、「一種」及び／又は「当該」等単語は単数形を指すわけではなく、複数形を含んでもよい。一般的には、「含む」や「含まれる」は、単に既に明確に符合をつけたステップ及び要素を含むことを示すだけで、これらのステップ及び要素は、網羅的なものではなく、方法又はデバイスは、他のステップ又は要素を含む可能性もある。

また、本願では、本願の実施例にかかるシステムにおける一部のユニットに対して各種の援用をしているが、任意の数の異なるユニットは、ユーザ側及び／又はサーバ側に使用され、実行されうる。前記ユニットは説明的なものであって、前記システムと方法の異なる態様は異なるユニットを使用してもよい。

なお、本願では、フローチャートで本願の実施例にかかるシステムが実行する動作について説明している。なお、前の、又は後の動作は順番で実行されなくてもよい。逆に、逆の順序で、又は同時に各ステップを処理してもよい。それとともに、ほかの動作をこれらのプロセスに追加してもよく、又はこれらのプロセスから、あるステップ又は複数のステップを省略してもよい。

特に定義されない限り、ここで使用される全ての用語（技術及び科学的用語を含む）は、当業者が一般的に理解する意味と同じ意味を有している。なお、特に定義されない限り、例えば、通常辞書によって定義される用語は、それらの関連技術の文脈での意味と一致する意味を有し、理想化又は形式上の意味で解釈するものではない。

以上は本発明についての説明であり、本発明を制限するものではない。本発明の複数の例示的な実施例について説明したが、本発明の斬新の教示及び利点から背離しない限り、上記例示的な実施例に対して各種の修正を行ってもよいことは、当業者が理解しうる。したがって、これらの修正意図は請求項で限定する本発明の範囲に含まれるものである。なお、上記は本発明についての説明であり、開示された特定の実施例に限られるものではなく、開示された実施例及び他の実施例に対する修正意図も添付の特許請求の範囲に含まれる。本発明は特許請求の範囲及びその均等物に限定されるものである。

Claims

ソーステキスト符号化非表示状態を取得するためにソーステキストを符号化するように構成される符号化部と、
復号化非表示状態を決定するように構成される復号化部と、
外部情報、前記ソーステキスト非表示状態及び前記復号化非表示状態に基づいて現在タイムステップのアテンション分布を決定するように構成されるアテンション生成部と、
出力単語を決定するために、前記アテンション分布、前記ソーステキスト非表示状態、前記復号化非表示状態に基づいて出力単語確率分布を決定するように構成される出力部と、を含むテキスト処理装置。
前記アテンション生成部は、
前記ソーステキスト符号化非表示状態と前記復号化非表示状態とに基づいて前記ソーステキストにおける各単語の符号化アテンションパラメータを決定し、
前記ソーステキストにおける各単語の外部アテンションパラメータを決定し、外部情報に属する単語の外部アテンションパラメータは所定の第一外部アテンションパラメータに決定され、外部情報に属しない単語の外部アテンションパラメータは所定の第二外部アテンションパラメータに決定され、
前記符号化アテンションパラメータと外部アテンションパラメータとに基づいて前記ソーステキストにおける各単語用のアテンションパラメータを決定し、
前記アテンションパラメータに基づいて前記ソーステキスト用の現在タイムステップのアテンション分布を決定するように構成される請求項１に記載のテキスト処理装置。
前記アテンション生成部は、
前記ソーステキスト符号化非表示状態及び前記復号化非表示状態に基づいて前記ソーステキストの符号化アテンション分布を決定し、
前記外部情報に基づいて、前記ソーステキストに対する、前記ソーステキストにおける各単語用の選択確率を含む選択確率分布を決定し、
前記アテンション分布を取得するために、前記ソーステキストにおける各単語に対して、当該単語の選択確率に基づいて当該単語のアテンションを決定するように構成される請求項１に記載のテキスト処理装置。
前記外部情報に基づいて前記ソーステキストの選択確率を決定することは、前記ソーステキストにおける、前記外部情報に属する少なくとも１つの単語に対して、当該少なくとも１つの単語の選択確率を少なくとも予め定義された確率値として決定することを含む請求項３に記載のテキスト処理装置。
前記ソーステキストにおける各単語に対して、当該単語の選択確率に基づいて当該単語のアテンションを決定することは、
当該単語の選択確率が所定の選択確率閾値より小さい場合、前記現在タイムステップのアテンション分布における当該単語のアテンションを０と決定し、
当該単語の選択確率が所定の選択確率閾値以上である場合、前記現在タイムステップのアテンション分布における当該単語用のアテンションをソーステキストの符号化アテンション分布における当該単語のアテンションとして決定することを含む請求項３に記載のテキスト処理装置。
前記アテンション分布は、前記外部情報の符号化アテンション分布と、ソーステキストの符号化アテンション分布とを含み、
前記符号化部は、さらに、外部情報符号化非表示状態を取得するために前記外部情報を符号化するように構成され、
前記アテンション生成部は、
前記外部情報符号化非表示状態と前記復号化非表示状態とに基づいて前記外部情報の符号化アテンション分布を決定し、
前記ソーステキスト符号化非表示状態及び前記復号化非表示状態に基づいて前記ソーステキストのアテンション分布を決定するように構成され、
前記出力部は、前記ソーステキスト符号化非表示状態、前記復号化非表示状態、前記外部情報の符号化アテンション分布及び前記ソーステキストの符号化アテンション分布に基づいて前記出力単語確率分布を決定するように構成される請求項１に記載のテキスト処理装置。
前記出力部は、
前記ソーステキスト符号化非表示状態と前記復号化非表示状態とに基づいて生成確率分布を決定し、
前記外部情報アテンション分布に基づいて前記生成確率分布、前記符号化アテンション分布及び前記外部情報アテンション分布用の重み係数を決定し、
前記出力単語確率分布を決定するために、前記重み係数に基づいて前記生成確率分布、前記符号化アテンション分布及び前記外部情報アテンション分布を加算するように構成される請求項６に記載のテキスト処理装置。
前記符号化部、前記アテンション生成部及び前記復号化部は、
トレーニングソーステキスト符号化非表示状態を取得するためにトレーニングソーステキストを符号化するステップと、
トレーニング復号化非表示状態を決定するステップと、
前記外部情報、前記トレーニングソーステキスト符号化非表示状態及び前記トレーニング復号化非表示状態に基づいて現在タイムステップのトレーニングアテンション分布を決定するステップと、
トレーニング出力単語を決定するために、前記トレーニングアテンション分布、前記トレーニングソーステキスト符号化非表示状態、前記トレーニング復号化非表示状態に基づいてトレーニング出力単語確率分布を決定するステップと、
前記トレーニング出力単語と前記外部情報に含まれる単語との間の差異が最小となるように、前記符号化部、前記アテンション生成部、前記復号化部におけるパラメータを調整するステップとによってトレーニングされる請求項１から７のいずれかに記載のテキスト処理装置。
ソーステキスト符号化非表示状態を取得するために、ソーステキストを符号化するステップと、
復号化非表示状態を決定するステップと、
前記外部情報、前記ソーステキスト非表示状態及び前記復号化非表示状態に基づいて現在タイムステップのアテンション分布を決定するステップと、
出力単語を決定するために、前記アテンション分布、前記ソーステキスト非表示状態、前記復号化非表示状態に基づいて出力単語確率分布を決定するステップと、を含むテキスト処理方法。
プロセッサと、
コンピュータ読み取り可能なプログラミングコマンドを記憶したメモリと、を含み、
前記コンピュータ読み取り可能なプログラミングコマンドが前記プロセッサによって実行される場合、請求項９に記載のテキスト処理方法を実行するテキスト処理デバイス。