JP2021033995A

JP2021033995A - テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体

Info

Publication number: JP2021033995A
Application number: JP2019209172A
Authority: JP
Inventors: シーホングオ; Xihong Guo; シンユグオ; xin yu Guo; アンシンリー; Anxin Li; ランチン; Lan Chen
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2019-08-16
Filing date: 2019-11-19
Publication date: 2021-03-01
Also published as: CN112446211A

Abstract

【課題】テキスト要約において数字実体が入力テキストにおける対応する数字実体と一致することができるテキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体を提供する。【解決手段】テキスト処理装置１０００は、入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得するように配置される語彙分割ユニットと、複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、文字実体語彙を選択的文字実体ベクトルに変換するとともに、数字実体語彙を未知実体ベクトルに変換するように配置されるベクトル変換ユニットと、文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで未知実体ベクトルに対して、入力テキストから未知実体ベクトルに対応する実体語彙をテキスト要約における語彙としてコピーするように配置される予測ユニットと、を含む。【選択図】図５

Description

本開示は、自然言語処理の技術分野に関し、より具体的には、テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体に関する。

自然言語処理（ＮａｔｕｒｅＬａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ、ＮＬＰ）とは、計算機科学分野と人工知能分野において重要な応用技術であり、人間と計算機との間で自然言語によって効果的な通信を実現するための様々な理論と方法に関する。自然言語処理技術は、テキスト処理に適用可能であり、テキスト要約、機械翻訳等の分野に関する。テキスト要約処理を行う過程において、生成系ニューラルネットワーク（ＧｅｎｅｒｉｔｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋ）はテキストデータセットによって入力テキストに基づいて新たなテキスト要約語彙を生成し、即ち、生成されたテキスト要約には入力テキスト以外の語彙が含まれている。生成されたテキスト要約語彙は、ニューラルネットワークによって入力テキストを「読み取れた」上で纏められた語彙とみなしてもよく、生成されたテキスト要約を更に入力テキストの語義の主旨に近接させ、単に入力テキストにおける情報を抽出することが回避される。

しかしながら、テキスト要約語彙を生成する過程においては、入力テキストに含まれる例えば細部の特徴、例えば数字実体に対して、生成されたテキスト要約語彙には誤りを招く恐れがあり、生成されたテキスト要約における数字実体は入力テキストにおける対応する数字実体と一致しなく、テキスト要約に誤り情報が含まれることを招き、テキスト要約の正確性が低下され、自動的に生成されたテキスト要約の例えば新聞要約等の分野への適用に影響を及ぼす。

本開示は、テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体を提供し、テキスト処理の正確性を向上し、テキスト要約における例えば数字実体の細部の特徴が入力テキストと一致することを確保するために用いる。

本開示の一方面によれば、テキスト処理装置が提供される。前記テキスト処理装置は、入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得するように配置される語彙分割ユニットと、前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換するとともに、前記数字実体語彙を未知実体ベクトルに変換するように配置されるベクトル変換ユニットと、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする予測ユニットと、を備える。

本開示のいくつかの実施例によれば、前記装置は辞書ユニットをさらに備える。前記辞書ユニットは、テキストデータセットを獲得し、前記テキストデータセットにおける文字実体を識別し、前記文字実体辞書を得られるように前記テキストデータセットにおける文字実体を文字実体ベクトルにマッピングし、ここで前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表すように配置される。

本開示のいくつかの実施例によれば、前記ベクトル変換ユニットは、文字実体辞書に当該文字実体語彙が含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する。

本開示のいくつかの実施例によれば、前記予測ユニットは前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定し、且つ前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定し、ここで前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。

本開示のいくつかの実施例によれば、前記予測ユニットは、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、ここで前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、且つ前記予測確率分布における確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定する。

本開示のいくつかの実施例によれば、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記予測ユニットは前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーし、且つ前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記予測ユニットは前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とする。

本開示のいくつかの実施例によれば、前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークであり、時間ステップ（ｔｉｍｅｓｔｅｐ）毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成し、時間ステップ毎に、前記予測ユニットは前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成し、復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成し、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成し、ここで前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表し、そして前記注意力確率分布と生成語彙確率分布に基づいて現在の時間ステップにおける予測確率分布を決定する。

本開示のいくつかの実施例によれば、前記装置は、前記生成系ニューラルネットワークをトレーニングするように配置されるトレーニングユニットをさらに備える。前記生成系ニューラルネットワークをトレーニングすることは、テキストデータセットからトレーニングサンプルを前記入力テキストとして獲得することと、前記入力テキストのテキスト要約サンプルを決定することと、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングすることとを含む。

本開示の他の方面によれば、テキスト処理方法がさらに提供される。前記テキスト処理方法は、入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得することと、前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換し、前記数字実体語彙を未知実体ベクトルに変換することと、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることとを含む。

本開示のいくつかの実施例によれば、前記方法は、テキストデータセットを獲得することと、前記テキストデータセットにおける文字実体を識別することと、前記文字実体辞書を獲得するように前記テキストデータセットにおける文字実体を文字実体ベクトルにマッピングし、ここで前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表すこととをさらに含む。

本開示のいくつかの実施例によれば、前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて前記文字実体語彙を選択的に文字実体ベクトルに変換し、前記数字実体語彙を未知実体ベクトルに変換することは、文字実体辞書には当該実体語彙が含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書には含まれていない文字実体語彙を未知実体ベクトルに変換することを含む。

本開示のいくつかの実施例によれば、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定することは、前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することと、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定することと、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定し、ここで前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることとを含む。

本開示のいくつかの実施例によれば、前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することは、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、ここで前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表すことを含む。前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定することは、前記予測確率分布において確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定することを含む。

本開示のいくつかの実施例によれば、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することは、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることと、前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とすることとを含む。

本開示のいくつかの実施例によれば、前記生成系ニューラルネットワークは、符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークであり、時間ステップ毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成し、前記の文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することは、時間ステップ毎に、前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成することと、復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成することと、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成し、ここで前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙される確率の分布を表すことと、前記注意力確率分布と生成語彙確率分布に基づいて、現在の時間ステップにおける予測確率分布を決定することとを含む。

本開示のいくつかの実施例によれば、前記方法は、前記生成系ニューラルネットワークをトレーニングすることをさらに含み、前記生成系ニューラルネットワークをトレーニングすることは、テキストデータセットからトレーニングサンプルを前記入力テキストとして獲得することと、前記入力テキストのテキスト要約サンプルを決定することと、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングすることとを含む。

本開示の他の方面によれば、プロセッサーと、コンピューター読み取り可能なコードが記憶され、前記コンピューター読み取り可能なコードが前記プロセッサーによって実行される場合、上記のテキスト処理方法が実行されるメモリと、を備えるテキスト処理デバイスを提供する。

本開示の他の方面によれば、命令が記憶され、前記命令がプロセッサーによって実行される場合、前記プロセッサーが上記のテキスト処理方法が実行されるコンピューター読み取り可能な記憶媒体を提供する。

本開示に提供されるテキスト処理方法によれば、文字実体辞書によって入力テキストのテキスト処理に基づいて、入力テキストから数字実体をテキスト要約における語彙としてコピーし、テキスト要約における例えば数字実体の細部の特徴が入力テキストと一致するように確保され、生成されたテキスト要約の正確性が向上される。

本開示の実施例または従来技術の技術案を更に明らかに説明するために、以下、実施例または従来技術の説明に必要な図面を簡単に説明する。以下説明する図面は本開示のいくつかの実施例に過ぎず、創造的な労力をしない前提で、これらの図面によってその他の図面が得られることは、当業者にとって明らかである。

図１は本開示の実施例に係るテキスト処理方法のフローチャートを示す。図２は本開示の実施例に係る生成系ニューラルネットワークの全体的な模式図を示す。図３は図２に示す生成系ニューラルネットワークによってテキスト処理を行う模式的なフローチャートを示す。図４は生成系ニューラルネットワークをトレーニングする模式図を示す。図５は本開示の実施例に係るテキスト処理装置の模式的なブロック図を示す。図６は本開示の実施例に係るテキスト処理デバイスの模式的なブロック図を示す。図７は本開示の実施例に係る例示的な計算デバイスのフレームワークの模式図を示す。図８は本開示の実施例に係る記憶媒体の模式図を示す。

以下、本開示の実施例の図面に基づいて本開示の実施例の技術案を明瞭且つ完全に説明する。説明された実施例は本開示の一部の実施例に過ぎず、全ての実施例ではないことは、明らかである。本開示の実施例に基づいて、当業者が創造的な労力をしなく得られる全ての他の実施例は、本開示の保護範囲に属する。

本開示に用いる「第１」、「第２」及び類似する語彙は、いかなる順序、数量又は重要度を表すわけではなく、異なる構成部分を区分するためである。同様に、「備える」又は「含む」等の語彙は、当該語彙の前に現れた素子又は物品が当該語彙の後に列挙された素子又は物品を含むあるいはそれと均等であることを意味するが、その他の素子又は物品を除外する意味ではない。「接続」又は「繋がる」等の語彙は、物理的または機械的な接続に限定されることはなく、直接的又は間接的な電気的な接続を含む。

本開示においては、フローチャートを用いて本開示に係る実施例の方法のステップを説明する。先行または後続のステップは必ずしも厳密に順次行われることとは限らないことは理解される。逆に、各ステップを逆順で又は同時に処理してもよい。また、その他の操作をこの過程に追加してもよい。

本開示は、テキスト処理方法を提供して、テキスト要約における例えば数字実体の細部の特徴が入力テキストと一致することを確保するとともに生成されたテキスト要約の正確性を向上する。前記入力テキストに文字と数字が含まれてもよく、ここで前記文字は文字実体として表すことができ、前記数字は数字実体として表すことができる。

本文においては、入力テキストに基づいてテキスト要約を生成することを例として本開示に係るテキスト処理方法を説明する。注意すべきであることは、本開示に係るテキスト処理方法は、例えば、テキストの書き直し、テキストの抽出、語義の理解等の自然言語処理に関連する分野に適用されてもよく、ここで前記テキスト要約は入力テキストの語義上の纏めと広義に理解することができる。

図１は、本開示の実施例に係るテキスト処理方法のフローチャートを示す。図１に示すように、まず、ステップＳ１０１において、入力テキストに対して語彙分割を行って複数の実体語彙が得られ、ここで前記複数の実体語彙は文字実体語彙と数字実体語彙を含む。例えば、前記入力テキストは、単一または複数の語句からなり、語句毎に単一または複数の語彙を含むことができる。例えば、前記入力テキストは、
であってもよい。

前記語彙分割とは、入力テキストをその意味に応じて単一または複数の実体語彙に分解される過程であると理解してもよい。例えば、テキストである「ＡＡＢＢＣＣ」に対して、語彙分割を行った後に得られた複数の実体語彙は「ＡＡ，ＢＢ，ＣＣ」であってもよい。例示として、辞書による語彙分割アルゴリズムによって前記入力テキストに対して語彙分割を行ってもよい。その他の例示として、シーケンスラベリングによる語彙分割方法によって語彙分割を行い、例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）の語彙分割アルゴリズムによって行ってもよい。注意すべきであることは、本開示は語彙分割を実現する具体的なアルゴリズムを制限しないことである。

次に、ステップＳ１０２においては、前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換し、前記数字実体語彙を未知実体ベクトルに変換する。前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表す。本開示の実施例によれば、前記文字実体辞書においては文字実体が含まれ、文字実体辞書を獲得する過程を以下に詳細に説明する。

このステップにおいて、入力テキストにおける複数の実体語彙をそれぞれ当該実体語彙に対応するベクトルに変換して例えばニューラルネットワークの処理対象とすることができる。前記ベクトルは実体語彙に対する数値表示と理解してもよく、例えば、一次元又は多次元のマトリックスのデータ態様と理解してもよい。

一つの実施態様として、前記複数の実体語彙のうちの実体語彙毎に、前記文字実体辞書に当該する文字実体語彙が含まれているか否かを決定してもよい。さらに、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換し、例えばＵＮＫと表してもよい。

他の実施態様として、前記複数の実体語彙については、表現抽出アルゴリズムに基づいてその中に含まれる数字実体語彙を識別し、前記数字実体語彙を未知実体ベクトルに変換してもよい。次に、前記複数の実体語彙のうち、数字実体語彙以外の実体語彙が前記文字実体辞書に含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する。

前記表現抽出アルゴリズムは、固有表現抽出（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ、ＮＥＲ）と呼ばれてもよいし、「専用名称識別」と呼ばれてもよいし、テキストにおける特定の実質的な意味を有する実体（例えば、上記文字実体、数字実体）を識別することに用いられる。前記表現抽出アルゴリズムは例えば条件付き確率場アルゴリズム（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ、ＣＲＦ）、表現抽出ディープラーニングアルゴリズム等であってもよく、ここでは特には制限しない。

本開示の実施例によれば、前記テキスト処理方法は上記ステップＳ１０２において使用される前記文字実体辞書を生成することを含んでもよい。先ず、例えば数字実体、文字実体等のテキストを含むテキストデータセットを獲得してもよい。前記テキストデータセットは例えばコーパスであってもよく、前記コーパスにおいては、実際に言語を使う際に確実に現れた言語データが記憶されており、つまり、前記コーパスは合理的なサンプリングと編集加工が行われた大規模の電子テキストライブラリであってもよい。次に、前記テキストデータセットにおける文字実体を識別してもよい。例えば、前記テキストデータセットに含まれるあらゆる文字実体を識別するように、上記ＣＲＦアルゴリズムによって表現抽出を行ってもよい。

次に、前記文字実体辞書を獲得するように前記テキストデータセットにおけるあらゆる文字実体を文字実体ベクトルにマッピングする。前記マッピングはテキストをそれと一意に対応する数値ベクトルにマッピングする過程であってもよく、つまり、前記マッピングは前記テキストデータセットにおけるあらゆる文字実体をそれぞれ当該文字実体と一意に対応するベクトルにマッピングすることである。一例示として、語彙組み込み（ｗｏｒｄｅｍｂｅｄｄｉｎｇ）アルゴリズムによって前記マッピングを実現してもよい。例えば、文字実体である「我」を第１の文字実体ベクトルＶ１に、文字実体である「北京」を第２の文字実体ベクトルＶ２に、諸々マッピングしてもよい。

上記ステップに基づいて、前記文字実体辞書を獲得可能であり、前記文字実体辞書においては、文字実体及び前記文字実体に対応する文字実体ベクトルのみが含まれる。前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表す。言い換えると、前記文字実体辞書においては、文字実体及びそのベクトルは一対一に対応する。そして、生成された文字実体辞書において数字実体が含まれず文字実体のみが含まれるゆえに、入力テキストにおける実体語彙をベクトルに変換する過程においては、あらゆる数字実体語彙はいずれも前記文字実体ベクトルに含まれていないので、入力テキストにおける数字実体語彙はいずれも未知実体ベクトルに変換される。

例えば、上記ステップＳ１０２においては、入力テキストにおける文字実体である「我」に対して、例えば、検索、索引等の方式によって前記文字実体辞書において当該文字実体である「我」が含まれているか否かを決定してもよい。含まれていると決定する場合、前記文字実体辞書に基づいて、前記入力テキストにおける文字実体である「我」を文字実体ベクトル、即ち第１の文字実体ベクトルＶ１に変換する。入力テキストにおける数字実体である「２００５」について、前記文字実体辞書においては当該数字実体である「２００５」が含まれていないので、当該数字実体である「２００５」を未知実体ベクトルであるＵＮＫに変換することができる。前記未知とは、当該数字実体である「２００５」が前記文字実体辞書に対して未知であると理解してもよく、即ち、前記文字実体辞書に含まれていない。

次に、図１に示すように、ステップＳ１０３においては、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定する。ここで、前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。本開示の実施例によれば、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて前記テキスト要約を決定してもよい。一つの例示として、前記生成系ニューラルネットワークは符号化ニューラルネットワーク（Ｅｎｃｏｄｅｒ）と復号化ニューラルネットワーク（Ｄｅｃｏｄｅｒ）を含むポインター生成ニューラルネットワーク（ＰｏｉｎｔｅｒｔｏＧｅｎｅｒａｔｏｒ）であってもよい。前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定する具体的な過程については、以下に詳細に説明する。

本開示の実施例によれば、上記ステップＳ１０３において行われる、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定することは、前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することと、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定することと、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することとを含み、ここで、前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。上記のように、ベクトル変換後の実体語彙は当該実体語彙のベクトルと一対一に対応し、そして前記予測確率分布に基づいて決定されたテキスト要約語彙ベクトルは前記文字実体辞書と入力テキストにおけるある語彙と一意に対応するものであり、よって前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表す。

この例示においては、前記予測確率分布は、前記Ｍ個の文字実体語彙及び数字実体語彙である「００」と「２００５」（即ち、Ｍ＋２個の実体語彙）のうちのそれぞれの実体語彙がテキスト要約における語彙となる確率を表す。言い換えると、生成された前記予測確率分布は、前記文字実体辞書における語彙と入力テキストにおける語彙との和集合における語彙の予測確率値を表す。

本開示の実施例によれば、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定することは、前記予測確率分布における確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定することを含む。前記文字実体辞書における語彙と入力テキストにおける語彙との和集合に対して、前記予測確率分布は例えば生成系ニューラルネットワークによって予測された上記集合におけるそれぞれの語彙のベクトルが現在のテキスト要約語彙として出力される確率値を表す。次に、前記予測確率分布において確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定する。上記のように、前記語彙ベクトルが前記語彙と一対一に対応するため、確率値が最も高いベクトルに基づいて前記テキスト要約語彙を決定することができる。

本開示の実施例によれば、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することは、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることを含む。例えば、前記予測確率分布によって、確率が最も高いベクトルが未知実体ベクトルとして決定される場合、入力テキストから直接当該未知実体ベクトルに対応する実体語彙、例えば数字実体語彙をコピーするとともに、当該数字実体語彙をテキスト要約語彙として決定することができる。前記コピーする過程はコピーメカニズムと呼ばれてもよく、以下に詳細に説明する。

前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することは、前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とすることを含む。例えば、前記予測確率分布によって、確率が最も高いベクトルが文字実体ベクトルとして決定される場合、上記文字実体辞書に基づいて当該文字実体ベクトルに対応する文字実体語彙を決定し、当該文字実体ベクトルを前記文字実体辞書に基づいて当該文字実体語彙に変換し、当該文字実体語彙を前記テキスト要約語彙として決定してもよい。前記文字実体ベクトルを文字実体語彙に変換する過程は生成メカニズムと呼ばれてもよく、以下に詳細に説明する。

本開示の実施例によれば、前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークである。時間ステップ（ｔｉｍｅｓｔｅｐ）毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成し、現在の時間ステップにおいて生成された前記予測確率分布に基づいて決定されたテキスト要約における語彙を現在の時間ステップにおいて出力されるテキスト要約語彙として表すことができる。前記ポインター生成ニューラルネットワークは、時間ステップ毎に逐一に更新された予測確率分布を生成し、現在の時間ステップにおいて生成された予測確率分布は現在の時間ステップにおけるテキスト要約語彙を決定することに用いられる。言い換えると、逐一にテキスト要約語彙を決定することによってテキスト要約は得られる。

本開示の実施例によれば、前記の前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することは、時間ステップ毎に、前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成することと、復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成することと、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成することとを含んでもよい。前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表す。次に、前記注意力確率分布と生成語彙確率分布に基づいて現在の時間ステップにおける予測確率分布を決定してもよい。

図２は、本開示の実施例に係る生成系ニューラルネットワークの全体的な模式図を示す。以下、図２に基づいて本開示の実施例に係るテキスト処理方法によって、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定する詳細な過程を具体的に説明する。

図２に示すように、複数の実体語彙を含む入力テキストに対して、文字実体辞書に基づいて文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙と数字実体語彙（即ち、前記文字実体辞書に対して未知のもの）を未知実体ベクトルであるＵＮＫに変換してもよい。前記文字実体辞書には文字実体語彙及び当該文字実体語彙に対応するベクトルのみが含まれるので、入力テキストに含まれる数字実体語彙が文字実体辞書に対していずれも未知であり、言い換えると、前記入力テキストに含まれる数字実体語彙はいずれも未知実体ベクトルであるＵＮＫに変換される。

次に、前記生成された文字実体ベクトルと未知実体ベクトルを生成系ニューラルネットワークに入力する。ここで、図２に示すように、前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含んでもよく、例えば、前記符号化ニューラルネットワークと復号化ニューラルネットワークを一つの入力シーケンス、例えば「ＷＸＹＺ」（例えば、入力テキストとする）をその他の出力シーケンス、例えば「ＡＢＣ」（例えば、テキスト要約とする）に変換することを実現するためのシーケンス−シーケンスモデル（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅ、Ｓｅｑ２Ｓｅｑ）として表してもよい。具体的には、前記符号化ニューラルネットワークは前記入力シーケンスのベクトルを受け取り、符号化隠れ状態ベクトルに変換してもよく、前記符号化隠れ状態ベクトルは前記符号化ニューラルネットワークによる前記入力シーケンスに対する理解と表現態様であることができる。次に、復号化ニューラルネットワークは前記符号化隠れ状態ベクトルを入力とし、復号化処理によって復号化隠れ状態ベクトルを生成して出力シーケンスを生成してもよい。具体的には、前記符号化ニューラルネットワークと復号化ニューラルネットワークは前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて生成語彙確率分布を獲得してもよく、ここで前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布に基づいて、上記生成メカニズムを実現することができる。

例を挙げると、前記符号化ニューラルネットワークと復号化ニューラルネットワークはいずれも長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）によって実現することができる。ＬＳＴＭネットワークによるシステムは例えば機械翻訳、テキスト要約生成等のタスクに適用されてもよい。

この上で、前記生成系ニューラルネットワークは、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布を生成するために、ポインターネットワーク（ＰｏｉｎｔｅｒＮｅｔｗｏｒｋｓ）をさらに含むことができる。前記注意力確率分布は、前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表すことに用いられ、前記注意力確率分布に基づいて上記コピーメカニズムを実現することができる。

なお、前記注意力確率分布は注意力メカニズムの実現に用いてもよい。具体的には、前記注意力確率分布によって前記符号化隠れ状態ベクトルに重み付けを行ってもよい（例えば、乗じることにより）。その後、重み付け後の符号化隠れ状態ベクトルを前記復号化ニューラルネットワークの入力としてもよい。

前記注意力確率分布と生成確率分布に基づいて、前記予測確率分布を生成し、前記予測確率の確率分布において確率値が最も高いベクトルを現在に出力されたテキスト要約語彙ベクトルとして決定してもよく、次に前記文字実体辞書に基づいて前記テキスト要約語彙ベクトルを語彙に変換して前記テキスト要約語彙としてもよい。図２に示す出力テキストは、複数の語彙を含むテキスト要約であってもよい。

図３は図２に示す生成系ニューラルネットワークによってテキスト処理を行う模式的なフローチャートを示す。ここで、入力テキストである
を具体的な例として説明する。注意すべきであることは、前記入力テキストはその他のテキストであってもよい。次に、前記入力テキストにおける実体語彙をそれぞれベクトルに変換して処理に用いてもよい。

図３に示すように、前記生成系ニューラルネットワークは、時間ステップの単位で一個ずつテキスト要約語彙を生成してもよい。例えば、テキスト要約語彙である「我」を生成する時間ステップをｔ１に、テキスト要約語彙である「是」を生成する時間ステップをｔ２に、テキスト要約語彙である「２００５」を生成する時間ステップをｔ３に諸々表してもよい。

以下、数式に基づいてある時間ステップ、例えば、時間ステップｔにおける前記生成系ニューラルネットワークの処理フローを具体的に説明する。

先ず、前記生成系ニューラルネットワークにおける符号化ニューラルネットワークは前記入力テキストにおける実体語彙のベクトルに基づいて符号化隠れ状態ベクトルを生成し、ｈ_ｉと表し、但し、ｉは入力テキストにおける実体語彙の順序を表す。例えば、文字実体語彙である「我」に基づいて生成された符号化隠れ状態ベクトルはｈ_１と表してもよい。前記復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成し、ｓ_ｔと表し、但し、ｔは現在の時間ステップ（ｔｉｍｅｓｔｅｐ）を表す。

次に、注意力メカニズムに基づいて前記符号化隠れ状態ベクトルの注意力確率分布を生成してもよい。前記符号化隠れ状態ベクトルと、前記復号化ニューラルネットワークが出力した復号化隠れ状態ベクトルとに基づいて前記符号化隠れ状態ベクトルの注意力確率分布を生成し、具体的には前記注意力確率分布は以下の数式（１）〜（２）によって得られることができる。

但し、ｅ_i ^tは中間ベクトルを表し、ｖ^Ｔ、Ｗ_ｈ、Ｗ_ｓ、ｂ_ａｔｔｎは、学習可能なネットワークパラメータであり、例えば以下説明するトレーニングステップによって得られてもよい。ｈ_ｉは、入力テキストにおけるｉ個目の実体語彙の符号化隠れ状態ベクトルを表し、ｓ_ｔは、時間ステップｔに際する復号化隠れ状態ベクトルを表し、ａ^ｔは時間ステップｔの注意力確率分布を表し、数式（２）はＳｏｆｔｍａｘ層によってｅ_i ^tベクトルにおける各要素を０から１の間の確率値に帰一化させることを表す。

例えば、上記ポインターネットワークによって上記注意力確率分布を得てもよく、前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表すことに用いられる。

次に、符号化隠れ状態ベクトルと前記符号化隠れ状態ベクトルの注意力確率分布に基づいて中身ベクトルを生成してもよい。ここで、前記注意力確率分布とは、前記入力テキストにおける複数の実体語彙の注意力の度合いを表す。前記中身ベクトルは以下の数式（３）で表すことができる。

次に、前記中身ベクトル及び前記復号化ニューラルネットワークによってその直前の時間ステップにおいて出力された復号化隠れ状態ベクトルに基づいて現在の時間ステップにおける生成語彙確率分布を生成し、数式（４）と表すことができる。

但し、Ｐ_{ｖｏｃａｂ}は生成語彙確率分布を表し、Ｖ´、Ｖ、ｂ、ｂ´は学習可能なネットワークパラメータを表し、Ｓｏｆｔｍａｘ層によって０から１の間の確率値が得られる。ここで、前記生成語彙確率分布は、前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表す。

次に、前記生成語彙確率分布と注意力確率分布に基づいて現在の時間ステップにおける予測確率分布を生成してもよい。例えば、活性化関数によって、前記中身ベクトルｈ_ｔ ^＊、前記復号化ニューラルネットワークが出力した復号化隠れ状態ベクトルｓ_ｔ及び前記生成系ニューラルネットワークがその直前の時間ステップにおいて出力したテキスト要約語彙ｘ_ｔに基づいて選択係数Ｐ_ｇｅｎを生成してもよい。次に、前記選択係数Ｐ_ｇｅｎによって前記生成語彙確率分布Ｐ_{ｖｏｃａｂ}と注意力確率分布ａ^ｔとの和集合に基づいて現在の時間ステップにおける予測確率分布Ｐ（ｗ）を生成してもよい。具体的には、以下の数式（５）−（６）に示す。

前記生成語彙確率分布Ｐ_{ｖｏｃａｂ}と注意力確率分布ａ^ｔとの和集合に基づいて生成された予測確率分布Ｐ（ｗ）を図３に示す。ここで、文字実体辞書と入力テキストとのいずれにも含まれる文字実体語彙である「我」は、予測確率値が生成語彙確率値と注意力確率値の和となり、入力テキストのみに含まれる数字実体語彙である「２００５」は、予測確率値が注意力確率値のみとなり、即ち、前記生成語彙確率分布Ｐ_{ｖｏｃａｂ}と注意力確率分布ａ^ｔとの和集合に基づいて生成された予測確率分布Ｐ（ｗ）となる。

図３に示すように、生成された予測確率分布において確率値が最も高いベクトルが文字実体語彙である「我」に対応する場合、その確率値は生成語彙確率値と注意力確率値との和となる。また、文字実体辞書に含まれるので、前記文字実体辞書に基づいて前記確率値が最も高いベクトルを文字実体語彙である「我」に変換してテキスト要約語彙とし、即ち、前記生成系ニューラルネットワークネットワークは文字実体辞書の上で前記テキスト要約語彙である「我」を生成する。上記過程は上記の生成メカニズムとなる。上記例示においては、上記テキスト要約語彙である「我」も入力テキストに含まれる。注意すべきであることは、他の例示においては、上記生成メカニズムによって文字実体辞書に含まれるが入力テキストに含まれていない語彙、例えば「出生」を生成可能である。

テキスト要約語彙である「我」と「是」が予測された場合、前記生成系ニューラルネットワークは直後の時間ステップにおいて次のテキスト要約語彙、例えば数字実体語彙である「２００５」を予測することができる。この場合、前記数字実体語彙である「２００５」は入力テキストのみに含まれ、図３に示すように、その予測確率値は注意力確率値によって決定される。図３に示す予測確率分布においては、数字実体語彙である「２００５」のベクトルの確率値が最も高く、前記テキスト要約語彙ベクトルとすることができる。さらに、前記テキスト要約語彙ベクトルは未知実体ベクトルであるＵＮＫであるので、前記入力テキストから前記未知実体ベクトルに対応する実体語彙（即ち、「２００５」）を前記テキスト要約における語彙としてコピーする。上記過程はコピーメカニズムと呼ばれてもよい。

本開示の実施例によれば、前記テキスト処理方法は前記生成系ニューラルネットワークをトレーニングすることをさらに含む。図４は生成系ニューラルネットワークをトレーニングする模式図を示す。具体的には、テキストデータセットから前記入力テキストとしてトレーニングサンプルを獲得し、例えば上記コーパスから一段落のテキストを前記入力テキストとして獲得し、前記入力テキストのテキスト要約サンプルを決定し、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングすることができる。ここで、前記テキスト要約サンプルは本物のサンプルとして前記生成系ニューラルネットワークの予測結果をトレーニングする。

例えば、生成系ニューラルネットワークによって現在の時間ステップにおいて予測された語彙はｗであり、この時間ステップにおける本物のサンプル語彙はｗ_ｔ ^＊であり、次に、前記予測された語彙であるｗを本物のサンプル語彙であるｗ_ｔ ^＊に近接させるように、損失関数によって前記生成系ニューラルネットワークをトレーニングすることができる。前記損失関数は例えば以下の数式（７）〜（８）で表すことができる。

本開示はテキスト処理装置をさらに提供する。図５は本開示の実施例に係るテキスト処理装置の模式的なブロック図を示す。図５に示すように、前記装置１０００は語彙分割ユニット１０１０、ベクトル変換ユニット１０２０及び予測ユニット１０３０を備える。本開示に係るテキスト処理装置は例えば機械翻訳、自然言語理解、人間−機械の対話、情報検索などの人工知能に関する分野に適用されてもよい。

前記語彙分割ユニット１０１０は、入力テキストに対して語彙分割を行って複数の実体語彙を獲得するように配置されてもよい。ここで、前記複数の実体語彙は文字実体語彙と数字実体語彙を含む。例えば、前記入力テキストは単一または複数の語句からなる文言表現であり、語句毎に単一又は複数の語彙を含むことができる。例を挙げると、前記入力テキストは
であってもよい。

前記語彙分割とは、入力テキストをその意味に応じて単一または複数の実体語彙に分解する過程と理解してもよい。例えば、テキストであるＡＡＢＢＣＣに対して語彙分割を行って得られる複数の実体語彙は［ＡＡ，ＢＢ，ＣＣ］であってもよい。一例示としては、辞書による語彙分割アルゴリズムによって前記入力テキストに対して語彙分割を行ってもよい。他の例示としては、シーケンスラベリングによる語彙分割方法、例えば隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）による語彙分割アルゴリズムによって語彙分割を行ってもよい。注意すべきであることは、本開示は語彙分割を実現する具体的なアルゴリズムを制限しない。

前記ベクトル変換ユニット１０２０は前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて前記文字実体語彙を選択的に文字実体ベクトルに変換し、前記数字実体語彙を未知実体ベクトルに変換するように配置されてもよい。

前記ベクトル変換ユニット１０２０は、入力テキストにおける複数の実体語彙をそれぞれ当該実体語彙に対応するベクトルに変換して例えばニューラルネットワークの処理対象としてもよい。前記ベクトルは、実体語彙に対する数値的な表示、例えば、一次元又は多次元マトリックスのデータ態様を有するものと理解してもよい。

本開示のいくつかの実施例によれば、前記ベクトル変換ユニット１０２０は、文字実体辞書において当該文字実体語彙が含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する。

一つの実施態様としては、前記複数の実体語彙のうちの実体語彙毎に、前記文字実体辞書において当該文字実体語彙が含まれているか否かを決定することができる。さらに、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換し、例えばＵＮＫと表すことができる。

他の実施態様としては、表現抽出アルゴリズムに基づいて前記複数の実体語彙に含まれる数字実体語彙を識別し、前記数字実体語彙を未知実体ベクトルに変換することができる。次に、前記複数の実体語彙のうちの数字実体語彙以外の実体語彙が前記文字実体辞書に含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する。

前記表現抽出アルゴリズムは固有表現抽出（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ、ＮＥＲ）と呼ばれてもよいし、“専用名称抽出”と呼ばれてもよいし、テキストにおける特定の実質的な意味を有する実体（例えば、上記文字実体、数字実体）を識別するために用いられる。前記表現抽出アルゴリズムは例えば、条件付き確率場アルゴリズム（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ、ＣＲＦ）、表現抽出ディープラーニングアルゴリズム等であってもよく、ここで制限しない。

本開示のいくつかの実施例によれば、前記装置１０００は辞書ユニット１０４０をさらに含むことができる。前記辞書ユニット１０４０は、テキストデータセットを獲得するように配置されてもよい。前記テキストデータセットは例えばコーパスであってもよく、前記コーパスにおいては言語を実際に使用する過程中において確実に現れたことがある言語データが記憶されている。言い換えると、前記コーパスは、合理的なサンプリングと編集加工が行われた大規模の電子テキストライブラリであってもよい。

次に、前記辞書ユニット１０４０は前記テキストデータセットにおける文字実体を識別することができる。例えば、前記テキストデータセットに含まれるあらゆる文字実体を識別するように上記ＣＲＦアルゴリズムによって表現抽出を行ってもよい。

次に、前記辞書ユニット１０４０は、前記文字実体辞書を獲得するように前記テキストデータセットにおける文字実体を文字実体ベクトルにマッピングすることができる。ここで、前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表す。前記マッピングはテキストをそれと一意に対応する数値ベクトルにマッピングする過程であってもよい。言い換えると、前記マッピングは、前記テキストデータセットにおけるあらゆる文字実体をそれぞれ当該文字実体と一意に対応するベクトルにマッピングすることである。一例示としては、語彙組み込み（ｗｏｒｄｅｍｂｅｄｄｉｎｇ）アルゴリズムによって前記マッピングを実現することができる。例えば、文字実体である「我」を第１の文字実体ベクトルＶ１に、文字実体である「北京」を第２の文字実体ベクトルＶ２に諸々マッピングしてもよい。

前記辞書ユニット１０４０は、前記文字実体辞書を獲得することができ、前記文字実体辞書においては文字実体及び前記文字実体に対応する文字実体ベクトルのみが含まれる。前記文字実体辞書は、文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表す。言い換えると、前記文字実体辞書においては、文字実体及びそのベクトルは一対一に対応する。そして、生成された文字実体辞書においては数字実体が含まれず文字実体のみが含まれるゆえに、入力テキストにおける実体語彙をベクトルに変換する過程においては、あらゆる数字実体語彙がいずれも前記文字実体ベクトルに含まれていないので、入力テキストにおける数字実体語彙がいずれも未知実体ベクトルに変換される。

次に、前記予測ユニット１０３０は、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定するように配置されてもよい。ここで、前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。本開示の実施例によれば、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて前記テキスト要約を決定することができる。

本開示のいくつかの実施例によれば、前記予測ユニット１０３０は前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定し、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することができる。ここで、前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。上記のように、ベクトルの変換を行った後の実体語彙が当該実体語彙のベクトルと一対一に対応し、そして前記予測確率分布に基づいて決定されたテキスト要約語彙ベクトルは前記文字実体辞書と入力テキストにおけるある語彙と一意に対応するものであり、よって前記予測確率分布は、前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表す。

本開示のいくつかの実施例によれば、前記予測ユニット１０３０は生成系ニューラルネットワークによって文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、ここで前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記予測確率分布において確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定する。上記のように、ベクトルの変換を行った後の実体語彙が当該実体語彙のベクトルと一対一に対応し、前記予測確率分布に基づいて決定されたテキスト要約語彙ベクトルは前記文字実体辞書と入力テキストにおけるある語彙と一意に対応するものであり、よって前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表す。

本開示のいくつかの実施例によれば、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記予測ユニット１０３０は前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。例えば、前記予測確率分布によって、確率が最も高いベクトルが未知実体ベクトルとして決定される場合、入力テキストから当該未知実体ベクトルに対応する実体語彙、例えば数字実体語彙を直接コピーし、当該数字実体語彙をテキスト要約語彙として決定してもよい。前記コピーする過程はコピーメカニズムと呼ばれてもよい。

前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記予測ユニット１０３０は、前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とする。例えば、前記予測確率分布によって、確率が最も高いベクトルが文字実体ベクトルとして決定される場合、上記文字実体辞書に基づいて当該文字実体ベクトルに対応する文字実体語彙を決定し、当該文字実体ベクトルを前記文字実体辞書に基づいて当該文字実体語彙に変換し、当該文字実体語彙を前記テキスト要約語彙として決定することができる。前記の文字実体ベクトルを文字実体語彙に変換する過程は生成メカニズムと呼ばれてもよい。

本開示のいくつかの実施例によれば、前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークであり、時間ステップ毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成する。時間ステップ毎に、前記予測ユニット１０３０は前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成し、復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成し、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成し、ここで前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表し、そして前記注意力確率分布と生成語彙確率分布に基づいて現在の時間ステップにおける予測確率分布を決定する。前記予測ユニット１０３０によって予測確率分布を生成する過程は上記図３に基づいて説明された過程と類似するため、ここではその説明を省略する。

本開示のいくつかの実施例によれば、前記装置１０００はトレーニングユニット１０５０をさらに含むことができる。前記トレーニングユニット１０５０は前記生成系ニューラルネットワークをトレーニングするように配置されてもよい。具体的には、前記トレーニングユニット１０５０はテキストデータセットからトレーニングサンプルを前記入力テキストとして獲得し、前記入力テキストのテキスト要約サンプルを決定し、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングする。具体的には、テキストデータセットからトレーニングサンプルを前記入力テキストとして獲得してもよく、例えば上記コーパスから一段落のテキストを前記入力テキストとして獲得して前記入力テキストのテキスト要約サンプルを決定し、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングしてもよい。ここで、前記テキスト要約サンプルは本物のサンプルとして前記生成系ニューラルネットワークの予測結果をトレーニングする。

本開示の他の方面によれば、テキスト処理デバイスをさらに提供する。図６は本開示の実施例に係るテキスト処理デバイス２０００の模式的なブロック図を示す。

図６に示すように、前記デバイス２０００は、プロセッサー２０１０とメモリ２０２０を含むことができる。前記メモリ２０２０においてはコンピューター読み取り可能なコードが記憶されており、前記コンピューター読み取り可能なコードが前記プロセッサー２０１０によって実行される際に、上記のようなテキスト処理方法を実行することができる。

本開示の実施例による方法又は装置は、図７に示す計算デバイス３０００のフレームワークによって実現することができる。図７に示すように、計算デバイス３０００は、バス３０１０、単一又は複数のＣＰＵ３０２０、読み出し専用メモリ（ＲＯＭ）３０３０、ランダムアクセスメモリ（ＲＡＭ）３０４０、ネットワークに接続されている通信ポート３０５０、入力／出力コンポーネント３０６０、ハードディスク３０７０等を含むことができる。計算デバイス３０００における記憶デバイス、例えばＲＯＭ３０３０またはハードディスク３０７０は、本開示によって提供されるテキスト処理方法の処理及び／又は通信に用いられる各種データまたはファイル及びＣＰＵによって実行されるプログラム命令を記憶することができる。計算デバイス８００はユーザインタフェース３０８０をさらに含むことができる。勿論、図７に示すフレームワークは例示的なものに過ぎず、異なるデバイスを実現する場合、必要に応じて、図７に示す計算デバイスにおける単一又は複数のコンポーネントを省略してもよい。

本開示の他の方面によれば、さらに、コンピューター読み取り可能な記憶媒体を提供する。図８は、本開示に係る記憶媒体の模式図４０００を示す。

図８に示すように、前記計算機記憶媒体４０２０においては、コンピューター読み取り可能な命令４０１０が記憶されている。前記コンピューター読み取り可能な命令４０１０がプロセッサーによって実行される時、上記図面を参照して説明した本開示の実施例に係るテキスト処理方法を実行することができる。前記コンピューター読み取り可能な記憶媒体は、例えば揮発性メモリ及び／又は非揮発性メモリを含むがこれに限らない。前記揮発性メモリは、例えばランダムアクセスメモリ（ＲＡＭ）及び／又は高速バッファーメモリ（ｃａｃｈｅ）等を含むことができる。前記非揮発性メモリは例えば読み出し専用メモリ（ＲＯＭ）、ハードディスク、フラッシュメモリー等を含むことができる。

本開示に掲示された内容は、様々な変更と改良を行ってもよいことは、当業者であれば理解すべきである。例えば、以上説明した各種デバイスまたはコンポーネントは、ハードウェアで実現してもよいし、ソフトウェア、ファームウェア、又はそれらの一部又はすべての組み合わせによって実現してもよい。

なお、本開示は本開示の実施例に係るシステムにおけるいくつかのユニットに対して様々な援用を行ったが、任意の数量の異なるユニットはクライアント側及び／又はサーバで使用されてもよい。前記ユニットは、説明のためのものに過ぎず、前記システムと方法の異なる方面は異なるユニットを用いてもよい。

上記方法のすべて又は一部のステップはプログラムによって関連ハードウェアによる完成を指示してもよく、前記プログラムはコンピューター読み取り可能な記憶媒体、例えば読み出し専用メモリ、磁気ディスク又は光ディスク等に記憶されてもよいことは、当業者であれば理解すべきである。上記実施例のすべて又は一部のステップは、単一又は複数の集積回路によって実現してもよい。これに応じて、上記実施例におけるそれぞれのモジュール／ユニットは、ハードウェアとして実現してもよいし、ソフトウェアによる機能モジュールとして実現してもよい。本開示は、いかなる特定の態様のハードウェアとソフトウェアの組み合わせに限らない。

特に断りがない場合、ここで使用するすべての用語（技術と科学用語を含む）は、当業者が理解できる意味と同じ意味を有する。例えば通常辞書において定義された用語は、関連技術において文脈によって理解された意味と一致する意味を有すると解釈すべきであり、特に明記的に定義しない限り、想定された意味又は極めて様式化された意味で解釈してはいけない。

以上が本開示に対する説明となるが、それを制限するものではないと考えられる。本開示のいくつかの例示的な実施例を説明したにもかかわらず、本開示の新規な教示とメリットに違反しない前提で、例示的な実施例に沢山の補正を加えてもよいことは、当業者であれば容易に理解すべきである。従って、これらのすべての補正が特許請求の範囲に限定された本開示の範囲に落ちることを意図する。以上が本開示への説明となるが、開示された特定の実施例に限られると考えられるべきではなく、開示された実施例及びその他の実施例への補正が特許請求の範囲に含まれることを意図する。本開示は、特許請求の範囲及びその均等物によって限定される。

Claims

入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得するように配置される語彙分割ユニットと、
前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換するとともに、前記数字実体語彙を未知実体ベクトルに変換するように配置されるベクトル変換ユニットと、
前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーするように配置される予測ユニットと
を備える、テキスト処理装置。
辞書ユニットをさらに備え、
前記辞書ユニットは、
テキストデータセットを獲得し、
前記テキストデータセットにおける文字実体を識別し、
前記文字実体辞書を得られるように前記テキストデータセットにおける文字実体を文字実体ベクトルにマッピングし、ここで前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表すように配置される、
請求項１に記載の装置。
前記ベクトル変換ユニットは、
文字実体辞書には当該文字実体語彙が含まれているか否かを決定し、
前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換し、且つ
前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する、
請求項１に記載の装置。
前記予測ユニットは、前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定し、且つ前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定し、ここで前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーし、
前記予測ユニットは、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、ここで前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、且つ
前記予測確率分布において確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定する、
請求項１に記載の装置。
前記予測ユニットは、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーし、且つ
前記予測ユニットは、前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とする、
請求項４に記載の装置。
前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークであり、時間ステップ毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成し、
前記予測ユニットは、
時間ステップ毎に、前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成し、
復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成し、
前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成し、ここで前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表し、
前記注意力確率分布と生成語彙確率分布に基づいて現在の時間ステップにおける予測確率分布を決定する、
請求項５に記載の装置。
トレーニングユニットをさらに備え、
前記トレーニングユニットは、前記生成系ニューラルネットワークをトレーニングするように配置され、
前記生成系ニューラルネットワークをトレーニングすることは、
テキストデータセットからトレーニングサンプルを前記入力テキストとして獲得することと、
前記入力テキストのテキスト要約サンプルを決定することと、
前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングすることとを含む、
請求項４に記載の装置。
入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得することと、
前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換するとともに、前記数字実体語彙を未知実体ベクトルに変換することと、
前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることと
を含む、テキスト処理方法。
プロセッサーと
コンピューター読み取り可能なコードが記憶され、前記コンピューター読み取り可能なコードが前記プロセッサーによって実行される時、請求項８に記載のテキスト処理方法を実行するメモリと、
を備える、テキスト処理デバイス。
命令が記憶され、前記命令がプロセッサーによって実行される時、前記プロセッサーによって請求項８に記載のテキスト処理方法を実行させる、
コンピューター読み取り可能な記憶媒体。