JP2021033995A - テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 - Google Patents
テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP2021033995A JP2021033995A JP2019209172A JP2019209172A JP2021033995A JP 2021033995 A JP2021033995 A JP 2021033995A JP 2019209172 A JP2019209172 A JP 2019209172A JP 2019209172 A JP2019209172 A JP 2019209172A JP 2021033995 A JP2021033995 A JP 2021033995A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- entity
- vector
- text
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
【課題】テキスト要約において数字実体が入力テキストにおける対応する数字実体と一致することができるテキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体を提供する。【解決手段】テキスト処理装置1000は、入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得するように配置される語彙分割ユニットと、複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、文字実体語彙を選択的文字実体ベクトルに変換するとともに、数字実体語彙を未知実体ベクトルに変換するように配置されるベクトル変換ユニットと、文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで未知実体ベクトルに対して、入力テキストから未知実体ベクトルに対応する実体語彙をテキスト要約における語彙としてコピーするように配置される予測ユニットと、を含む。【選択図】図5
Description
本開示は、自然言語処理の技術分野に関し、より具体的には、テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体に関する。
自然言語処理(Nature Language processing、NLP)とは、計算機科学分野と人工知能分野において重要な応用技術であり、人間と計算機との間で自然言語によって効果的な通信を実現するための様々な理論と方法に関する。自然言語処理技術は、テキスト処理に適用可能であり、テキスト要約、機械翻訳等の分野に関する。テキスト要約処理を行う過程において、生成系ニューラルネットワーク(Generitive Neural Network)はテキストデータセットによって入力テキストに基づいて新たなテキスト要約語彙を生成し、即ち、生成されたテキスト要約には入力テキスト以外の語彙が含まれている。生成されたテキスト要約語彙は、ニューラルネットワークによって入力テキストを「読み取れた」上で纏められた語彙とみなしてもよく、生成されたテキスト要約を更に入力テキストの語義の主旨に近接させ、単に入力テキストにおける情報を抽出することが回避される。
しかしながら、テキスト要約語彙を生成する過程においては、入力テキストに含まれる例えば細部の特徴、例えば数字実体に対して、生成されたテキスト要約語彙には誤りを招く恐れがあり、生成されたテキスト要約における数字実体は入力テキストにおける対応する数字実体と一致しなく、テキスト要約に誤り情報が含まれることを招き、テキスト要約の正確性が低下され、自動的に生成されたテキスト要約の例えば新聞要約等の分野への適用に影響を及ぼす。
本開示は、テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体を提供し、テキスト処理の正確性を向上し、テキスト要約における例えば数字実体の細部の特徴が入力テキストと一致することを確保するために用いる。
本開示の一方面によれば、テキスト処理装置が提供される。前記テキスト処理装置は、入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得するように配置される語彙分割ユニットと、前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換するとともに、前記数字実体語彙を未知実体ベクトルに変換するように配置されるベクトル変換ユニットと、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする予測ユニットと、を備える。
本開示のいくつかの実施例によれば、前記装置は辞書ユニットをさらに備える。前記辞書ユニットは、テキストデータセットを獲得し、前記テキストデータセットにおける文字実体を識別し、前記文字実体辞書を得られるように前記テキストデータセットにおける文字実体を文字実体ベクトルにマッピングし、ここで前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表すように配置される。
本開示のいくつかの実施例によれば、前記ベクトル変換ユニットは、文字実体辞書に当該文字実体語彙が含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する。
本開示のいくつかの実施例によれば、前記予測ユニットは前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定し、且つ前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定し、ここで前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。
本開示のいくつかの実施例によれば、前記予測ユニットは、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、ここで前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、且つ前記予測確率分布における確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定する。
本開示のいくつかの実施例によれば、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記予測ユニットは前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーし、且つ前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記予測ユニットは前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とする。
本開示のいくつかの実施例によれば、前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークであり、時間ステップ(time step)毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成し、時間ステップ毎に、前記予測ユニットは前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成し、復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成し、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成し、ここで前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表し、そして前記注意力確率分布と生成語彙確率分布に基づいて現在の時間ステップにおける予測確率分布を決定する。
本開示のいくつかの実施例によれば、前記装置は、前記生成系ニューラルネットワークをトレーニングするように配置されるトレーニングユニットをさらに備える。前記生成系ニューラルネットワークをトレーニングすることは、テキストデータセットからトレーニングサンプルを前記入力テキストとして獲得することと、前記入力テキストのテキスト要約サンプルを決定することと、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングすることとを含む。
本開示の他の方面によれば、テキスト処理方法がさらに提供される。前記テキスト処理方法は、入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得することと、前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換し、前記数字実体語彙を未知実体ベクトルに変換することと、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることとを含む。
本開示のいくつかの実施例によれば、前記方法は、テキストデータセットを獲得することと、前記テキストデータセットにおける文字実体を識別することと、前記文字実体辞書を獲得するように前記テキストデータセットにおける文字実体を文字実体ベクトルにマッピングし、ここで前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表すこととをさらに含む。
本開示のいくつかの実施例によれば、前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて前記文字実体語彙を選択的に文字実体ベクトルに変換し、前記数字実体語彙を未知実体ベクトルに変換することは、文字実体辞書には当該実体語彙が含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書には含まれていない文字実体語彙を未知実体ベクトルに変換することを含む。
本開示のいくつかの実施例によれば、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定することは、前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することと、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定することと、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定し、ここで前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることとを含む。
本開示のいくつかの実施例によれば、前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することは、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、ここで前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表すことを含む。前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定することは、前記予測確率分布において確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定することを含む。
本開示のいくつかの実施例によれば、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することは、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることと、前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とすることとを含む。
本開示のいくつかの実施例によれば、前記生成系ニューラルネットワークは、符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークであり、時間ステップ毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成し、前記の文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することは、時間ステップ毎に、前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成することと、復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成することと、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成し、ここで前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙される確率の分布を表すことと、前記注意力確率分布と生成語彙確率分布に基づいて、現在の時間ステップにおける予測確率分布を決定することとを含む。
本開示のいくつかの実施例によれば、前記方法は、前記生成系ニューラルネットワークをトレーニングすることをさらに含み、前記生成系ニューラルネットワークをトレーニングすることは、テキストデータセットからトレーニングサンプルを前記入力テキストとして獲得することと、前記入力テキストのテキスト要約サンプルを決定することと、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングすることとを含む。
本開示の他の方面によれば、プロセッサーと、コンピューター読み取り可能なコードが記憶され、前記コンピューター読み取り可能なコードが前記プロセッサーによって実行される場合、上記のテキスト処理方法が実行されるメモリと、を備えるテキスト処理デバイスを提供する。
本開示の他の方面によれば、命令が記憶され、前記命令がプロセッサーによって実行される場合、前記プロセッサーが上記のテキスト処理方法が実行されるコンピューター読み取り可能な記憶媒体を提供する。
本開示に提供されるテキスト処理方法によれば、文字実体辞書によって入力テキストのテキスト処理に基づいて、入力テキストから数字実体をテキスト要約における語彙としてコピーし、テキスト要約における例えば数字実体の細部の特徴が入力テキストと一致するように確保され、生成されたテキスト要約の正確性が向上される。
本開示の実施例または従来技術の技術案を更に明らかに説明するために、以下、実施例または従来技術の説明に必要な図面を簡単に説明する。以下説明する図面は本開示のいくつかの実施例に過ぎず、創造的な労力をしない前提で、これらの図面によってその他の図面が得られることは、当業者にとって明らかである。
以下、本開示の実施例の図面に基づいて本開示の実施例の技術案を明瞭且つ完全に説明する。説明された実施例は本開示の一部の実施例に過ぎず、全ての実施例ではないことは、明らかである。本開示の実施例に基づいて、当業者が創造的な労力をしなく得られる全ての他の実施例は、本開示の保護範囲に属する。
本開示に用いる「第1」、「第2」及び類似する語彙は、いかなる順序、数量又は重要度を表すわけではなく、異なる構成部分を区分するためである。同様に、「備える」又は「含む」等の語彙は、当該語彙の前に現れた素子又は物品が当該語彙の後に列挙された素子又は物品を含むあるいはそれと均等であることを意味するが、その他の素子又は物品を除外する意味ではない。「接続」又は「繋がる」等の語彙は、物理的または機械的な接続に限定されることはなく、直接的又は間接的な電気的な接続を含む。
本開示においては、フローチャートを用いて本開示に係る実施例の方法のステップを説明する。先行または後続のステップは必ずしも厳密に順次行われることとは限らないことは理解される。逆に、各ステップを逆順で又は同時に処理してもよい。また、その他の操作をこの過程に追加してもよい。
本開示は、テキスト処理方法を提供して、テキスト要約における例えば数字実体の細部の特徴が入力テキストと一致することを確保するとともに生成されたテキスト要約の正確性を向上する。前記入力テキストに文字と数字が含まれてもよく、ここで前記文字は文字実体として表すことができ、前記数字は数字実体として表すことができる。
本文においては、入力テキストに基づいてテキスト要約を生成することを例として本開示に係るテキスト処理方法を説明する。注意すべきであることは、本開示に係るテキスト処理方法は、例えば、テキストの書き直し、テキストの抽出、語義の理解等の自然言語処理に関連する分野に適用されてもよく、ここで前記テキスト要約は入力テキストの語義上の纏めと広義に理解することができる。
図1は、本開示の実施例に係るテキスト処理方法のフローチャートを示す。図1に示すように、まず、ステップS101において、入力テキストに対して語彙分割を行って複数の実体語彙が得られ、ここで前記複数の実体語彙は文字実体語彙と数字実体語彙を含む。例えば、前記入力テキストは、単一または複数の語句からなり、語句毎に単一または複数の語彙を含むことができる。例えば、前記入力テキストは、
であってもよい。
であってもよい。
前記語彙分割とは、入力テキストをその意味に応じて単一または複数の実体語彙に分解される過程であると理解してもよい。例えば、テキストである「AABBCC」に対して、語彙分割を行った後に得られた複数の実体語彙は「AA,BB,CC」であってもよい。例示として、辞書による語彙分割アルゴリズムによって前記入力テキストに対して語彙分割を行ってもよい。その他の例示として、シーケンスラベリングによる語彙分割方法によって語彙分割を行い、例えば、隠れマルコフモデル(Hidden Markov Model、HMM)の語彙分割アルゴリズムによって行ってもよい。注意すべきであることは、本開示は語彙分割を実現する具体的なアルゴリズムを制限しないことである。
次に、ステップS102においては、前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換し、前記数字実体語彙を未知実体ベクトルに変換する。前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表す。本開示の実施例によれば、前記文字実体辞書においては文字実体が含まれ、文字実体辞書を獲得する過程を以下に詳細に説明する。
このステップにおいて、入力テキストにおける複数の実体語彙をそれぞれ当該実体語彙に対応するベクトルに変換して例えばニューラルネットワークの処理対象とすることができる。前記ベクトルは実体語彙に対する数値表示と理解してもよく、例えば、一次元又は多次元のマトリックスのデータ態様と理解してもよい。
一つの実施態様として、前記複数の実体語彙のうちの実体語彙毎に、前記文字実体辞書に当該する文字実体語彙が含まれているか否かを決定してもよい。さらに、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換し、例えばUNKと表してもよい。
他の実施態様として、前記複数の実体語彙については、表現抽出アルゴリズムに基づいてその中に含まれる数字実体語彙を識別し、前記数字実体語彙を未知実体ベクトルに変換してもよい。次に、前記複数の実体語彙のうち、数字実体語彙以外の実体語彙が前記文字実体辞書に含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する。
前記表現抽出アルゴリズムは、固有表現抽出(Named Entity Recognition、NER)と呼ばれてもよいし、「専用名称識別」と呼ばれてもよいし、テキストにおける特定の実質的な意味を有する実体(例えば、上記文字実体、数字実体)を識別することに用いられる。前記表現抽出アルゴリズムは例えば条件付き確率場アルゴリズム(Conditional Random Field、CRF)、表現抽出ディープラーニングアルゴリズム等であってもよく、ここでは特には制限しない。
本開示の実施例によれば、前記テキスト処理方法は上記ステップS102において使用される前記文字実体辞書を生成することを含んでもよい。先ず、例えば数字実体、文字実体等のテキストを含むテキストデータセットを獲得してもよい。前記テキストデータセットは例えばコーパスであってもよく、前記コーパスにおいては、実際に言語を使う際に確実に現れた言語データが記憶されており、つまり、前記コーパスは合理的なサンプリングと編集加工が行われた大規模の電子テキストライブラリであってもよい。次に、前記テキストデータセットにおける文字実体を識別してもよい。例えば、前記テキストデータセットに含まれるあらゆる文字実体を識別するように、上記CRFアルゴリズムによって表現抽出を行ってもよい。
次に、前記文字実体辞書を獲得するように前記テキストデータセットにおけるあらゆる文字実体を文字実体ベクトルにマッピングする。前記マッピングはテキストをそれと一意に対応する数値ベクトルにマッピングする過程であってもよく、つまり、前記マッピングは前記テキストデータセットにおけるあらゆる文字実体をそれぞれ当該文字実体と一意に対応するベクトルにマッピングすることである。一例示として、語彙組み込み(word embedding)アルゴリズムによって前記マッピングを実現してもよい。例えば、文字実体である「我」を第1の文字実体ベクトルV1に、文字実体である「北京」を第2の文字実体ベクトルV2に、諸々マッピングしてもよい。
上記ステップに基づいて、前記文字実体辞書を獲得可能であり、前記文字実体辞書においては、文字実体及び前記文字実体に対応する文字実体ベクトルのみが含まれる。前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表す。言い換えると、前記文字実体辞書においては、文字実体及びそのベクトルは一対一に対応する。そして、生成された文字実体辞書において数字実体が含まれず文字実体のみが含まれるゆえに、入力テキストにおける実体語彙をベクトルに変換する過程においては、あらゆる数字実体語彙はいずれも前記文字実体ベクトルに含まれていないので、入力テキストにおける数字実体語彙はいずれも未知実体ベクトルに変換される。
例えば、上記ステップS102においては、入力テキストにおける文字実体である「我」に対して、例えば、検索、索引等の方式によって前記文字実体辞書において当該文字実体である「我」が含まれているか否かを決定してもよい。含まれていると決定する場合、前記文字実体辞書に基づいて、前記入力テキストにおける文字実体である「我」を文字実体ベクトル、即ち第1の文字実体ベクトルV1に変換する。入力テキストにおける数字実体である「2005」について、前記文字実体辞書においては当該数字実体である「2005」が含まれていないので、当該数字実体である「2005」を未知実体ベクトルであるUNKに変換することができる。前記未知とは、当該数字実体である「2005」が前記文字実体辞書に対して未知であると理解してもよく、即ち、前記文字実体辞書に含まれていない。
次に、図1に示すように、ステップS103においては、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定する。ここで、前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。本開示の実施例によれば、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて前記テキスト要約を決定してもよい。一つの例示として、前記生成系ニューラルネットワークは符号化ニューラルネットワーク(Encoder)と復号化ニューラルネットワーク(Decoder)を含むポインター生成ニューラルネットワーク(Pointer to Generator)であってもよい。前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定する具体的な過程については、以下に詳細に説明する。
本開示の実施例によれば、上記ステップS103において行われる、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定することは、前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することと、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定することと、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することとを含み、ここで、前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。上記のように、ベクトル変換後の実体語彙は当該実体語彙のベクトルと一対一に対応し、そして前記予測確率分布に基づいて決定されたテキスト要約語彙ベクトルは前記文字実体辞書と入力テキストにおけるある語彙と一意に対応するものであり、よって前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表す。
この例示においては、前記予測確率分布は、前記M個の文字実体語彙及び数字実体語彙である「00」と「2005」(即ち、M+2個の実体語彙)のうちのそれぞれの実体語彙がテキスト要約における語彙となる確率を表す。言い換えると、生成された前記予測確率分布は、前記文字実体辞書における語彙と入力テキストにおける語彙との和集合における語彙の予測確率値を表す。
本開示の実施例によれば、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定することは、前記予測確率分布における確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定することを含む。前記文字実体辞書における語彙と入力テキストにおける語彙との和集合に対して、前記予測確率分布は例えば生成系ニューラルネットワークによって予測された上記集合におけるそれぞれの語彙のベクトルが現在のテキスト要約語彙として出力される確率値を表す。次に、前記予測確率分布において確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定する。上記のように、前記語彙ベクトルが前記語彙と一対一に対応するため、確率値が最も高いベクトルに基づいて前記テキスト要約語彙を決定することができる。
本開示の実施例によれば、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することは、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることを含む。例えば、前記予測確率分布によって、確率が最も高いベクトルが未知実体ベクトルとして決定される場合、入力テキストから直接当該未知実体ベクトルに対応する実体語彙、例えば数字実体語彙をコピーするとともに、当該数字実体語彙をテキスト要約語彙として決定することができる。前記コピーする過程はコピーメカニズムと呼ばれてもよく、以下に詳細に説明する。
前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することは、前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とすることを含む。例えば、前記予測確率分布によって、確率が最も高いベクトルが文字実体ベクトルとして決定される場合、上記文字実体辞書に基づいて当該文字実体ベクトルに対応する文字実体語彙を決定し、当該文字実体ベクトルを前記文字実体辞書に基づいて当該文字実体語彙に変換し、当該文字実体語彙を前記テキスト要約語彙として決定してもよい。前記文字実体ベクトルを文字実体語彙に変換する過程は生成メカニズムと呼ばれてもよく、以下に詳細に説明する。
本開示の実施例によれば、前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークである。時間ステップ(time step)毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成し、現在の時間ステップにおいて生成された前記予測確率分布に基づいて決定されたテキスト要約における語彙を現在の時間ステップにおいて出力されるテキスト要約語彙として表すことができる。前記ポインター生成ニューラルネットワークは、時間ステップ毎に逐一に更新された予測確率分布を生成し、現在の時間ステップにおいて生成された予測確率分布は現在の時間ステップにおけるテキスト要約語彙を決定することに用いられる。言い換えると、逐一にテキスト要約語彙を決定することによってテキスト要約は得られる。
本開示の実施例によれば、前記の前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成することは、時間ステップ毎に、前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成することと、復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成することと、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成することとを含んでもよい。前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表す。次に、前記注意力確率分布と生成語彙確率分布に基づいて現在の時間ステップにおける予測確率分布を決定してもよい。
図2は、本開示の実施例に係る生成系ニューラルネットワークの全体的な模式図を示す。以下、図2に基づいて本開示の実施例に係るテキスト処理方法によって、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定する詳細な過程を具体的に説明する。
図2に示すように、複数の実体語彙を含む入力テキストに対して、文字実体辞書に基づいて文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙と数字実体語彙(即ち、前記文字実体辞書に対して未知のもの)を未知実体ベクトルであるUNKに変換してもよい。前記文字実体辞書には文字実体語彙及び当該文字実体語彙に対応するベクトルのみが含まれるので、入力テキストに含まれる数字実体語彙が文字実体辞書に対していずれも未知であり、言い換えると、前記入力テキストに含まれる数字実体語彙はいずれも未知実体ベクトルであるUNKに変換される。
次に、前記生成された文字実体ベクトルと未知実体ベクトルを生成系ニューラルネットワークに入力する。ここで、図2に示すように、前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含んでもよく、例えば、前記符号化ニューラルネットワークと復号化ニューラルネットワークを一つの入力シーケンス、例えば「WXYZ」(例えば、入力テキストとする)をその他の出力シーケンス、例えば「ABC」(例えば、テキスト要約とする)に変換することを実現するためのシーケンス−シーケンスモデル(Sequence toSequence、Seq2Seq)として表してもよい。具体的には、前記符号化ニューラルネットワークは前記入力シーケンスのベクトルを受け取り、符号化隠れ状態ベクトルに変換してもよく、前記符号化隠れ状態ベクトルは前記符号化ニューラルネットワークによる前記入力シーケンスに対する理解と表現態様であることができる。次に、復号化ニューラルネットワークは前記符号化隠れ状態ベクトルを入力とし、復号化処理によって復号化隠れ状態ベクトルを生成して出力シーケンスを生成してもよい。具体的には、前記符号化ニューラルネットワークと復号化ニューラルネットワークは前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて生成語彙確率分布を獲得してもよく、ここで前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布に基づいて、上記生成メカニズムを実現することができる。
例を挙げると、前記符号化ニューラルネットワークと復号化ニューラルネットワークはいずれも長短期記憶ネットワーク(Long Short−Term Memory、LSTM)によって実現することができる。LSTMネットワークによるシステムは例えば機械翻訳、テキスト要約生成等のタスクに適用されてもよい。
この上で、前記生成系ニューラルネットワークは、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布を生成するために、ポインターネットワーク(Pointer Networks)をさらに含むことができる。前記注意力確率分布は、前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表すことに用いられ、前記注意力確率分布に基づいて上記コピーメカニズムを実現することができる。
なお、前記注意力確率分布は注意力メカニズムの実現に用いてもよい。具体的には、前記注意力確率分布によって前記符号化隠れ状態ベクトルに重み付けを行ってもよい(例えば、乗じることにより)。その後、重み付け後の符号化隠れ状態ベクトルを前記復号化ニューラルネットワークの入力としてもよい。
前記注意力確率分布と生成確率分布に基づいて、前記予測確率分布を生成し、前記予測確率の確率分布において確率値が最も高いベクトルを現在に出力されたテキスト要約語彙ベクトルとして決定してもよく、次に前記文字実体辞書に基づいて前記テキスト要約語彙ベクトルを語彙に変換して前記テキスト要約語彙としてもよい。図2に示す出力テキストは、複数の語彙を含むテキスト要約であってもよい。
図3は図2に示す生成系ニューラルネットワークによってテキスト処理を行う模式的なフローチャートを示す。ここで、入力テキストである
を具体的な例として説明する。注意すべきであることは、前記入力テキストはその他のテキストであってもよい。次に、前記入力テキストにおける実体語彙をそれぞれベクトルに変換して処理に用いてもよい。
を具体的な例として説明する。注意すべきであることは、前記入力テキストはその他のテキストであってもよい。次に、前記入力テキストにおける実体語彙をそれぞれベクトルに変換して処理に用いてもよい。
図3に示すように、前記生成系ニューラルネットワークは、時間ステップの単位で一個ずつテキスト要約語彙を生成してもよい。例えば、テキスト要約語彙である「我」を生成する時間ステップをt1に、テキスト要約語彙である「是」を生成する時間ステップをt2に、テキスト要約語彙である「2005」を生成する時間ステップをt3に諸々表してもよい。
以下、数式に基づいてある時間ステップ、例えば、時間ステップtにおける前記生成系ニューラルネットワークの処理フローを具体的に説明する。
先ず、前記生成系ニューラルネットワークにおける符号化ニューラルネットワークは前記入力テキストにおける実体語彙のベクトルに基づいて符号化隠れ状態ベクトルを生成し、hiと表し、但し、iは入力テキストにおける実体語彙の順序を表す。例えば、文字実体語彙である「我」に基づいて生成された符号化隠れ状態ベクトルはh1と表してもよい。前記復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成し、stと表し、但し、tは現在の時間ステップ(time step)を表す。
次に、注意力メカニズムに基づいて前記符号化隠れ状態ベクトルの注意力確率分布を生成してもよい。前記符号化隠れ状態ベクトルと、前記復号化ニューラルネットワークが出力した復号化隠れ状態ベクトルとに基づいて前記符号化隠れ状態ベクトルの注意力確率分布を生成し、具体的には前記注意力確率分布は以下の数式(1)〜(2)によって得られることができる。
但し、ei tは中間ベクトルを表し、vT、Wh、Ws、battnは、学習可能なネットワークパラメータであり、例えば以下説明するトレーニングステップによって得られてもよい。hiは、入力テキストにおけるi個目の実体語彙の符号化隠れ状態ベクトルを表し、stは、時間ステップtに際する復号化隠れ状態ベクトルを表し、atは時間ステップtの注意力確率分布を表し、数式(2)はSoftmax層によってei tベクトルにおける各要素を0から1の間の確率値に帰一化させることを表す。
例えば、上記ポインターネットワークによって上記注意力確率分布を得てもよく、前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表すことに用いられる。
次に、符号化隠れ状態ベクトルと前記符号化隠れ状態ベクトルの注意力確率分布に基づいて中身ベクトルを生成してもよい。ここで、前記注意力確率分布とは、前記入力テキストにおける複数の実体語彙の注意力の度合いを表す。前記中身ベクトルは以下の数式(3)で表すことができる。
次に、前記中身ベクトル及び前記復号化ニューラルネットワークによってその直前の時間ステップにおいて出力された復号化隠れ状態ベクトルに基づいて現在の時間ステップにおける生成語彙確率分布を生成し、数式(4)と表すことができる。
但し、Pvocabは生成語彙確率分布を表し、V´、V、b、b´は学習可能なネットワークパラメータを表し、Softmax層によって0から1の間の確率値が得られる。ここで、前記生成語彙確率分布は、前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表す。
次に、前記生成語彙確率分布と注意力確率分布に基づいて現在の時間ステップにおける予測確率分布を生成してもよい。例えば、活性化関数によって、前記中身ベクトルht *、前記復号化ニューラルネットワークが出力した復号化隠れ状態ベクトルst及び前記生成系ニューラルネットワークがその直前の時間ステップにおいて出力したテキスト要約語彙xtに基づいて選択係数Pgenを生成してもよい。次に、前記選択係数Pgenによって前記生成語彙確率分布Pvocabと注意力確率分布atとの和集合に基づいて現在の時間ステップにおける予測確率分布P(w)を生成してもよい。具体的には、以下の数式(5)−(6)に示す。
前記生成語彙確率分布Pvocabと注意力確率分布atとの和集合に基づいて生成された予測確率分布P(w)を図3に示す。ここで、文字実体辞書と入力テキストとのいずれにも含まれる文字実体語彙である「我」は、予測確率値が生成語彙確率値と注意力確率値の和となり、入力テキストのみに含まれる数字実体語彙である「2005」は、予測確率値が注意力確率値のみとなり、即ち、前記生成語彙確率分布Pvocabと注意力確率分布atとの和集合に基づいて生成された予測確率分布P(w)となる。
図3に示すように、生成された予測確率分布において確率値が最も高いベクトルが文字実体語彙である「我」に対応する場合、その確率値は生成語彙確率値と注意力確率値との和となる。また、文字実体辞書に含まれるので、前記文字実体辞書に基づいて前記確率値が最も高いベクトルを文字実体語彙である「我」に変換してテキスト要約語彙とし、即ち、前記生成系ニューラルネットワークネットワークは文字実体辞書の上で前記テキスト要約語彙である「我」を生成する。上記過程は上記の生成メカニズムとなる。上記例示においては、上記テキスト要約語彙である「我」も入力テキストに含まれる。注意すべきであることは、他の例示においては、上記生成メカニズムによって文字実体辞書に含まれるが入力テキストに含まれていない語彙、例えば「出生」を生成可能である。
テキスト要約語彙である「我」と「是」が予測された場合、前記生成系ニューラルネットワークは直後の時間ステップにおいて次のテキスト要約語彙、例えば数字実体語彙である「2005」を予測することができる。この場合、前記数字実体語彙である「2005」は入力テキストのみに含まれ、図3に示すように、その予測確率値は注意力確率値によって決定される。図3に示す予測確率分布においては、数字実体語彙である「2005」のベクトルの確率値が最も高く、前記テキスト要約語彙ベクトルとすることができる。さらに、前記テキスト要約語彙ベクトルは未知実体ベクトルであるUNKであるので、前記入力テキストから前記未知実体ベクトルに対応する実体語彙(即ち、「2005」)を前記テキスト要約における語彙としてコピーする。上記過程はコピーメカニズムと呼ばれてもよい。
本開示の実施例によれば、前記テキスト処理方法は前記生成系ニューラルネットワークをトレーニングすることをさらに含む。図4は生成系ニューラルネットワークをトレーニングする模式図を示す。具体的には、テキストデータセットから前記入力テキストとしてトレーニングサンプルを獲得し、例えば上記コーパスから一段落のテキストを前記入力テキストとして獲得し、前記入力テキストのテキスト要約サンプルを決定し、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングすることができる。ここで、前記テキスト要約サンプルは本物のサンプルとして前記生成系ニューラルネットワークの予測結果をトレーニングする。
例えば、生成系ニューラルネットワークによって現在の時間ステップにおいて予測された語彙はwであり、この時間ステップにおける本物のサンプル語彙はwt *であり、次に、前記予測された語彙であるwを本物のサンプル語彙であるwt *に近接させるように、損失関数によって前記生成系ニューラルネットワークをトレーニングすることができる。前記損失関数は例えば以下の数式(7)〜(8)で表すことができる。
本開示はテキスト処理装置をさらに提供する。図5は本開示の実施例に係るテキスト処理装置の模式的なブロック図を示す。図5に示すように、前記装置1000は語彙分割ユニット1010、ベクトル変換ユニット1020及び予測ユニット1030を備える。本開示に係るテキスト処理装置は例えば機械翻訳、自然言語理解、人間−機械の対話、情報検索などの人工知能に関する分野に適用されてもよい。
前記語彙分割ユニット1010は、入力テキストに対して語彙分割を行って複数の実体語彙を獲得するように配置されてもよい。ここで、前記複数の実体語彙は文字実体語彙と数字実体語彙を含む。例えば、前記入力テキストは単一または複数の語句からなる文言表現であり、語句毎に単一又は複数の語彙を含むことができる。例を挙げると、前記入力テキストは
であってもよい。
であってもよい。
前記語彙分割とは、入力テキストをその意味に応じて単一または複数の実体語彙に分解する過程と理解してもよい。例えば、テキストであるAABBCCに対して語彙分割を行って得られる複数の実体語彙は[AA,BB,CC]であってもよい。一例示としては、辞書による語彙分割アルゴリズムによって前記入力テキストに対して語彙分割を行ってもよい。他の例示としては、シーケンスラベリングによる語彙分割方法、例えば隠れマルコフモデル(Hidden Markov Model、HMM)による語彙分割アルゴリズムによって語彙分割を行ってもよい。注意すべきであることは、本開示は語彙分割を実現する具体的なアルゴリズムを制限しない。
前記ベクトル変換ユニット1020は前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて前記文字実体語彙を選択的に文字実体ベクトルに変換し、前記数字実体語彙を未知実体ベクトルに変換するように配置されてもよい。
前記ベクトル変換ユニット1020は、入力テキストにおける複数の実体語彙をそれぞれ当該実体語彙に対応するベクトルに変換して例えばニューラルネットワークの処理対象としてもよい。前記ベクトルは、実体語彙に対する数値的な表示、例えば、一次元又は多次元マトリックスのデータ態様を有するものと理解してもよい。
本開示のいくつかの実施例によれば、前記ベクトル変換ユニット1020は、文字実体辞書において当該文字実体語彙が含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する。
一つの実施態様としては、前記複数の実体語彙のうちの実体語彙毎に、前記文字実体辞書において当該文字実体語彙が含まれているか否かを決定することができる。さらに、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換し、例えばUNKと表すことができる。
他の実施態様としては、表現抽出アルゴリズムに基づいて前記複数の実体語彙に含まれる数字実体語彙を識別し、前記数字実体語彙を未知実体ベクトルに変換することができる。次に、前記複数の実体語彙のうちの数字実体語彙以外の実体語彙が前記文字実体辞書に含まれているか否かを決定し、前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換するとともに、前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する。
前記表現抽出アルゴリズムは固有表現抽出(Named Entity Recognition、NER)と呼ばれてもよいし、“専用名称抽出”と呼ばれてもよいし、テキストにおける特定の実質的な意味を有する実体(例えば、上記文字実体、数字実体)を識別するために用いられる。前記表現抽出アルゴリズムは例えば、条件付き確率場アルゴリズム(Conditional Random Field、CRF)、表現抽出ディープラーニングアルゴリズム等であってもよく、ここで制限しない。
本開示のいくつかの実施例によれば、前記装置1000は辞書ユニット1040をさらに含むことができる。前記辞書ユニット1040は、テキストデータセットを獲得するように配置されてもよい。前記テキストデータセットは例えばコーパスであってもよく、前記コーパスにおいては言語を実際に使用する過程中において確実に現れたことがある言語データが記憶されている。言い換えると、前記コーパスは、合理的なサンプリングと編集加工が行われた大規模の電子テキストライブラリであってもよい。
次に、前記辞書ユニット1040は前記テキストデータセットにおける文字実体を識別することができる。例えば、前記テキストデータセットに含まれるあらゆる文字実体を識別するように上記CRFアルゴリズムによって表現抽出を行ってもよい。
次に、前記辞書ユニット1040は、前記文字実体辞書を獲得するように前記テキストデータセットにおける文字実体を文字実体ベクトルにマッピングすることができる。ここで、前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表す。前記マッピングはテキストをそれと一意に対応する数値ベクトルにマッピングする過程であってもよい。言い換えると、前記マッピングは、前記テキストデータセットにおけるあらゆる文字実体をそれぞれ当該文字実体と一意に対応するベクトルにマッピングすることである。一例示としては、語彙組み込み(word embedding)アルゴリズムによって前記マッピングを実現することができる。例えば、文字実体である「我」を第1の文字実体ベクトルV1に、文字実体である「北京」を第2の文字実体ベクトルV2に諸々マッピングしてもよい。
前記辞書ユニット1040は、前記文字実体辞書を獲得することができ、前記文字実体辞書においては文字実体及び前記文字実体に対応する文字実体ベクトルのみが含まれる。前記文字実体辞書は、文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表す。言い換えると、前記文字実体辞書においては、文字実体及びそのベクトルは一対一に対応する。そして、生成された文字実体辞書においては数字実体が含まれず文字実体のみが含まれるゆえに、入力テキストにおける実体語彙をベクトルに変換する過程においては、あらゆる数字実体語彙がいずれも前記文字実体ベクトルに含まれていないので、入力テキストにおける数字実体語彙がいずれも未知実体ベクトルに変換される。
次に、前記予測ユニット1030は、前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定するように配置されてもよい。ここで、前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。本開示の実施例によれば、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて前記テキスト要約を決定することができる。
本開示のいくつかの実施例によれば、前記予測ユニット1030は前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定し、前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定することができる。ここで、前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。上記のように、ベクトルの変換を行った後の実体語彙が当該実体語彙のベクトルと一対一に対応し、そして前記予測確率分布に基づいて決定されたテキスト要約語彙ベクトルは前記文字実体辞書と入力テキストにおけるある語彙と一意に対応するものであり、よって前記予測確率分布は、前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表す。
本開示のいくつかの実施例によれば、前記予測ユニット1030は生成系ニューラルネットワークによって文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、ここで前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記予測確率分布において確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定する。上記のように、ベクトルの変換を行った後の実体語彙が当該実体語彙のベクトルと一対一に対応し、前記予測確率分布に基づいて決定されたテキスト要約語彙ベクトルは前記文字実体辞書と入力テキストにおけるある語彙と一意に対応するものであり、よって前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表す。
本開示のいくつかの実施例によれば、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記予測ユニット1030は前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーする。例えば、前記予測確率分布によって、確率が最も高いベクトルが未知実体ベクトルとして決定される場合、入力テキストから当該未知実体ベクトルに対応する実体語彙、例えば数字実体語彙を直接コピーし、当該数字実体語彙をテキスト要約語彙として決定してもよい。前記コピーする過程はコピーメカニズムと呼ばれてもよい。
前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記予測ユニット1030は、前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とする。例えば、前記予測確率分布によって、確率が最も高いベクトルが文字実体ベクトルとして決定される場合、上記文字実体辞書に基づいて当該文字実体ベクトルに対応する文字実体語彙を決定し、当該文字実体ベクトルを前記文字実体辞書に基づいて当該文字実体語彙に変換し、当該文字実体語彙を前記テキスト要約語彙として決定することができる。前記の文字実体ベクトルを文字実体語彙に変換する過程は生成メカニズムと呼ばれてもよい。
本開示のいくつかの実施例によれば、前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークであり、時間ステップ毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成する。時間ステップ毎に、前記予測ユニット1030は前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成し、復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成し、前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成し、ここで前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表し、そして前記注意力確率分布と生成語彙確率分布に基づいて現在の時間ステップにおける予測確率分布を決定する。前記予測ユニット1030によって予測確率分布を生成する過程は上記図3に基づいて説明された過程と類似するため、ここではその説明を省略する。
本開示のいくつかの実施例によれば、前記装置1000はトレーニングユニット1050をさらに含むことができる。前記トレーニングユニット1050は前記生成系ニューラルネットワークをトレーニングするように配置されてもよい。具体的には、前記トレーニングユニット1050はテキストデータセットからトレーニングサンプルを前記入力テキストとして獲得し、前記入力テキストのテキスト要約サンプルを決定し、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングする。具体的には、テキストデータセットからトレーニングサンプルを前記入力テキストとして獲得してもよく、例えば上記コーパスから一段落のテキストを前記入力テキストとして獲得して前記入力テキストのテキスト要約サンプルを決定し、前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングしてもよい。ここで、前記テキスト要約サンプルは本物のサンプルとして前記生成系ニューラルネットワークの予測結果をトレーニングする。
本開示の他の方面によれば、テキスト処理デバイスをさらに提供する。図6は本開示の実施例に係るテキスト処理デバイス2000の模式的なブロック図を示す。
図6に示すように、前記デバイス2000は、プロセッサー2010とメモリ2020を含むことができる。前記メモリ2020においてはコンピューター読み取り可能なコードが記憶されており、前記コンピューター読み取り可能なコードが前記プロセッサー2010によって実行される際に、上記のようなテキスト処理方法を実行することができる。
本開示の実施例による方法又は装置は、図7に示す計算デバイス3000のフレームワークによって実現することができる。図7に示すように、計算デバイス3000は、バス3010、単一又は複数のCPU3020、読み出し専用メモリ(ROM)3030、ランダムアクセスメモリ(RAM)3040、ネットワークに接続されている通信ポート3050、入力/出力コンポーネント3060、ハードディスク3070等を含むことができる。計算デバイス3000における記憶デバイス、例えばROM3030またはハードディスク3070は、本開示によって提供されるテキスト処理方法の処理及び/又は通信に用いられる各種データまたはファイル及びCPUによって実行されるプログラム命令を記憶することができる。計算デバイス800はユーザインタフェース3080をさらに含むことができる。勿論、図7に示すフレームワークは例示的なものに過ぎず、異なるデバイスを実現する場合、必要に応じて、図7に示す計算デバイスにおける単一又は複数のコンポーネントを省略してもよい。
本開示の他の方面によれば、さらに、コンピューター読み取り可能な記憶媒体を提供する。図8は、本開示に係る記憶媒体の模式図4000を示す。
図8に示すように、前記計算機記憶媒体4020においては、コンピューター読み取り可能な命令4010が記憶されている。前記コンピューター読み取り可能な命令4010がプロセッサーによって実行される時、上記図面を参照して説明した本開示の実施例に係るテキスト処理方法を実行することができる。前記コンピューター読み取り可能な記憶媒体は、例えば揮発性メモリ及び/又は非揮発性メモリを含むがこれに限らない。前記揮発性メモリは、例えばランダムアクセスメモリ(RAM)及び/又は高速バッファーメモリ(cache)等を含むことができる。前記非揮発性メモリは例えば読み出し専用メモリ(ROM)、ハードディスク、フラッシュメモリー等を含むことができる。
本開示に掲示された内容は、様々な変更と改良を行ってもよいことは、当業者であれば理解すべきである。例えば、以上説明した各種デバイスまたはコンポーネントは、ハードウェアで実現してもよいし、ソフトウェア、ファームウェア、又はそれらの一部又はすべての組み合わせによって実現してもよい。
なお、本開示は本開示の実施例に係るシステムにおけるいくつかのユニットに対して様々な援用を行ったが、任意の数量の異なるユニットはクライアント側及び/又はサーバで使用されてもよい。前記ユニットは、説明のためのものに過ぎず、前記システムと方法の異なる方面は異なるユニットを用いてもよい。
上記方法のすべて又は一部のステップはプログラムによって関連ハードウェアによる完成を指示してもよく、前記プログラムはコンピューター読み取り可能な記憶媒体、例えば読み出し専用メモリ、磁気ディスク又は光ディスク等に記憶されてもよいことは、当業者であれば理解すべきである。上記実施例のすべて又は一部のステップは、単一又は複数の集積回路によって実現してもよい。これに応じて、上記実施例におけるそれぞれのモジュール/ユニットは、ハードウェアとして実現してもよいし、ソフトウェアによる機能モジュールとして実現してもよい。本開示は、いかなる特定の態様のハードウェアとソフトウェアの組み合わせに限らない。
特に断りがない場合、ここで使用するすべての用語(技術と科学用語を含む)は、当業者が理解できる意味と同じ意味を有する。例えば通常辞書において定義された用語は、関連技術において文脈によって理解された意味と一致する意味を有すると解釈すべきであり、特に明記的に定義しない限り、想定された意味又は極めて様式化された意味で解釈してはいけない。
以上が本開示に対する説明となるが、それを制限するものではないと考えられる。本開示のいくつかの例示的な実施例を説明したにもかかわらず、本開示の新規な教示とメリットに違反しない前提で、例示的な実施例に沢山の補正を加えてもよいことは、当業者であれば容易に理解すべきである。従って、これらのすべての補正が特許請求の範囲に限定された本開示の範囲に落ちることを意図する。以上が本開示への説明となるが、開示された特定の実施例に限られると考えられるべきではなく、開示された実施例及びその他の実施例への補正が特許請求の範囲に含まれることを意図する。本開示は、特許請求の範囲及びその均等物によって限定される。
Claims (10)
- 入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得するように配置される語彙分割ユニットと、
前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換するとともに、前記数字実体語彙を未知実体ベクトルに変換するように配置されるベクトル変換ユニットと、
前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーするように配置される予測ユニットと
を備える、テキスト処理装置。 - 辞書ユニットをさらに備え、
前記辞書ユニットは、
テキストデータセットを獲得し、
前記テキストデータセットにおける文字実体を識別し、
前記文字実体辞書を得られるように前記テキストデータセットにおける文字実体を文字実体ベクトルにマッピングし、ここで前記文字実体辞書は文字実体と当該文字実体の文字実体ベクトルとの間のマッピング関係を表すように配置される、
請求項1に記載の装置。 - 前記ベクトル変換ユニットは、
文字実体辞書には当該文字実体語彙が含まれているか否かを決定し、
前記文字実体辞書に含まれる文字実体語彙を文字実体ベクトルに変換し、且つ
前記文字実体辞書に含まれていない文字実体語彙を未知実体ベクトルに変換する、
請求項1に記載の装置。 - 前記予測ユニットは、前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、前記予測確率分布に基づいてテキスト要約語彙ベクトルを決定し、且つ前記テキスト要約語彙ベクトルに基づいてテキスト要約における語彙を決定し、ここで前記テキスト要約語彙ベクトルが未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーし、
前記予測ユニットは、生成系ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて予測確率分布を生成し、ここで前記予測確率分布は前記文字実体辞書と入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、且つ
前記予測確率分布において確率値が最も高いベクトルを前記テキスト要約語彙ベクトルとして決定する、
請求項1に記載の装置。 - 前記予測ユニットは、前記テキスト要約語彙ベクトルが前記未知実体ベクトルである場合、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーし、且つ
前記予測ユニットは、前記テキスト要約語彙ベクトルが前記文字実体ベクトルである場合、前記文字実体辞書に基づいて前記文字実体ベクトルを文字実体語彙に変換して前記テキスト要約における語彙とする、
請求項4に記載の装置。 - 前記生成系ニューラルネットワークは符号化ニューラルネットワークと復号化ニューラルネットワークを含むポインター生成ニューラルネットワークであり、時間ステップ毎に、前記ポインター生成ニューラルネットワークは前記予測確率分布を生成し、
前記予測ユニットは、
時間ステップ毎に、前記符号化ニューラルネットワークによって前記文字実体ベクトルと未知実体ベクトルに基づいて符号化隠れ状態ベクトルを生成し、
復号化ニューラルネットワークによって前記符号化隠れ状態ベクトルに基づいて復号化隠れ状態ベクトルを生成し、
前記符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意力確率分布と生成語彙確率分布を生成し、ここで前記注意力確率分布は前記入力テキストにおける語彙がテキスト要約における語彙となる確率の分布を表し、前記生成語彙確率分布は前記文字実体辞書における語彙がテキスト要約における語彙となる確率の分布を表し、
前記注意力確率分布と生成語彙確率分布に基づいて現在の時間ステップにおける予測確率分布を決定する、
請求項5に記載の装置。 - トレーニングユニットをさらに備え、
前記トレーニングユニットは、前記生成系ニューラルネットワークをトレーニングするように配置され、
前記生成系ニューラルネットワークをトレーニングすることは、
テキストデータセットからトレーニングサンプルを前記入力テキストとして獲得することと、
前記入力テキストのテキスト要約サンプルを決定することと、
前記入力テキストと前記テキスト要約サンプルに基づいて前記生成系ニューラルネットワークをトレーニングすることとを含む、
請求項4に記載の装置。 - 入力テキストに対して語彙分割を行って文字実体語彙と数字実体語彙を含む複数の実体語彙を獲得することと、
前記複数の実体語彙のうちの実体語彙毎に、文字実体辞書に基づいて、前記文字実体語彙を選択的に文字実体ベクトルに変換するとともに、前記数字実体語彙を未知実体ベクトルに変換することと、
前記文字実体ベクトルと未知実体ベクトルに基づいてテキスト要約を決定し、ここで前記未知実体ベクトルに対して、前記入力テキストから前記未知実体ベクトルに対応する実体語彙を前記テキスト要約における語彙としてコピーすることと
を含む、テキスト処理方法。 - プロセッサーと
コンピューター読み取り可能なコードが記憶され、前記コンピューター読み取り可能なコードが前記プロセッサーによって実行される時、請求項8に記載のテキスト処理方法を実行するメモリと、
を備える、テキスト処理デバイス。 - 命令が記憶され、前記命令がプロセッサーによって実行される時、前記プロセッサーによって請求項8に記載のテキスト処理方法を実行させる、
コンピューター読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910757236.2 | 2019-08-16 | ||
CN201910757236.2A CN112446211A (zh) | 2019-08-16 | 2019-08-16 | 文本处理装置、方法、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021033995A true JP2021033995A (ja) | 2021-03-01 |
Family
ID=74675981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019209172A Pending JP2021033995A (ja) | 2019-08-16 | 2019-11-19 | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021033995A (ja) |
CN (1) | CN112446211A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010666A (zh) * | 2021-03-18 | 2021-06-22 | 京东数字科技控股股份有限公司 | 摘要生成方法、装置、计算机系统及可读存储介质 |
CN113032415A (zh) * | 2021-03-03 | 2021-06-25 | 西北工业大学 | 一种基于用户偏好与知识图谱的个性化产品描述生成方法 |
CN113449490A (zh) * | 2021-06-22 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 一种文档信息汇总方法、系统、电子设备及介质 |
CN113704481A (zh) * | 2021-03-11 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN113743121A (zh) * | 2021-09-08 | 2021-12-03 | 平安科技(深圳)有限公司 | 长文本实体关系抽取方法、装置、计算机设备及存储介质 |
CN114547287A (zh) * | 2021-11-18 | 2022-05-27 | 电子科技大学 | 一种生成式文本摘要方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989807B (zh) * | 2021-03-11 | 2021-11-23 | 重庆理工大学 | 一种基于连续数字压缩编码的长数字实体抽取方法 |
-
2019
- 2019-08-16 CN CN201910757236.2A patent/CN112446211A/zh active Pending
- 2019-11-19 JP JP2019209172A patent/JP2021033995A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032415A (zh) * | 2021-03-03 | 2021-06-25 | 西北工业大学 | 一种基于用户偏好与知识图谱的个性化产品描述生成方法 |
CN113032415B (zh) * | 2021-03-03 | 2024-04-19 | 西北工业大学 | 一种基于用户偏好与知识图谱的个性化产品描述生成方法 |
CN113704481A (zh) * | 2021-03-11 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN113704481B (zh) * | 2021-03-11 | 2024-05-17 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN113010666A (zh) * | 2021-03-18 | 2021-06-22 | 京东数字科技控股股份有限公司 | 摘要生成方法、装置、计算机系统及可读存储介质 |
CN113010666B (zh) * | 2021-03-18 | 2023-12-08 | 京东科技控股股份有限公司 | 摘要生成方法、装置、计算机系统及可读存储介质 |
CN113449490A (zh) * | 2021-06-22 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 一种文档信息汇总方法、系统、电子设备及介质 |
CN113449490B (zh) * | 2021-06-22 | 2024-01-26 | 上海明略人工智能(集团)有限公司 | 一种文档信息汇总方法、系统、电子设备及介质 |
CN113743121A (zh) * | 2021-09-08 | 2021-12-03 | 平安科技(深圳)有限公司 | 长文本实体关系抽取方法、装置、计算机设备及存储介质 |
CN113743121B (zh) * | 2021-09-08 | 2023-11-21 | 平安科技(深圳)有限公司 | 长文本实体关系抽取方法、装置、计算机设备及存储介质 |
CN114547287A (zh) * | 2021-11-18 | 2022-05-27 | 电子科技大学 | 一种生成式文本摘要方法 |
CN114547287B (zh) * | 2021-11-18 | 2023-04-07 | 电子科技大学 | 一种生成式文本摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112446211A (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021033995A (ja) | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 | |
CN112528672B (zh) | 一种基于图卷积神经网络的方面级情感分析方法及装置 | |
CN110888966B (zh) | 自然语言问答 | |
CN111666427B (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN111401084B (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
WO2019118256A1 (en) | Generation of text from structured data | |
CN108132932B (zh) | 带有复制机制的神经机器翻译方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN112364660A (zh) | 语料文本处理方法、装置、计算机设备及存储介质 | |
WO2023051148A1 (zh) | 用于多语言处理的方法和装置 | |
JP7230576B2 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
CN113836271B (zh) | 自然语言处理的方法和产品 | |
WO2023226292A1 (zh) | 从文本中进行关系抽取的方法、关系抽取模型及介质 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN111401037A (zh) | 自然语言的生成方法、装置、电子设备及存储介质 | |
JP7103264B2 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
CN112711943B (zh) | 一种维吾尔文语种识别方法、装置及存储介质 | |
CN111814479B (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN113947091A (zh) | 用于语言翻译的方法、设备、装置和介质 | |
CN115129826B (zh) | 电力领域模型预训练方法、精调方法、装置及设备 | |
JP7211103B2 (ja) | 系列ラベリング装置、系列ラベリング方法、およびプログラム | |
CN113822044B (zh) | 语法纠错数据生成方法、装置、计算机设备及存储介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 |