JP7178441B2

JP7178441B2 - 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体

Info

Publication number: JP7178441B2
Application number: JP2021048484A
Authority: JP
Inventors: ウェンハオウー; ウェイリー; シンヤンシャオ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-21
Filing date: 2021-03-23
Publication date: 2022-11-25
Anticipated expiration: 2041-03-23
Also published as: CN112148871A; KR20220039576A; JP2022051666A; CN112148871B; US20220092252A1; EP3971761A1

Description

本出願はコンピュータ応用技術に関し、特に自然言語処理、ディープラーニング及び知識グラフ分野における要約生成方法、装置、プログラム、電子デバイス及び記憶媒体に関する。

自動要約技術とは、1つまたは複数のテーマに関連するテキスト（文書）に対して要約を自動的に生成する技術である。情報爆発の現在、自動要約技術は、読者に簡潔で重要な要約情報を提供することにより、読者の読書時間を大幅に節約して情報取得効率等を向上させることができる。

現在一般的に使用されている自動要約方法には、抽出型方法と生成型方法が含まれる。ここで、抽出型方法とは、テキストから複数の重要文を抽出して1つの要約にまとめることである。生成型方法は通常エンドツーエンド生成型アーキテクチャを採用し、まずデコーダを利用してテキスト情報を高次元ベクトルにマッピングし、次にデコーダを利用して高次元ベクトルから復号化して要約を生成する。

しかし、抽出型方法で抽出される文言には語義の一貫性が乏しく、正確度も劣ることが多い。また、生成型方法は人間のようにテキストの語義を真に理解しておらず、生成される要約の正確度も劣る。

これに鑑み、本出願は、要約生成方法、装置、電子デバイス、及び記憶媒体を提供する。

要約を生成する方法であって、処理待ちテキストに対応する知識グラフを取得することであって、前記知識グラフにおけるノードが前記処理待ちテキストの中の語義概念を示し、前記知識グラフにおけるエッジが語義概念間の語義関係を示す、知識グラフを取得することと、前記処理待ちテキストを単語レベルで符号化して各単語の文脈符号化表現を得ることと、各単語の文脈符号化表現に基づいて前記知識グラフにおける各ノードの初期表示をそれぞれ特定することと、各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得ることと、各ノードのノード表現に基づいて復号化して前記処理待ちテキストの要約を得ることと、を含む。

要約を生成する装置であって、グラフ解析モジュールと、単語符号化モジュールと、統合モジュールと、グラフ符号化モジュールと、グラフ復号化モジュールと、を備え、前記グラフ解析モジュールは、処理待ちテキストに対応する知識グラフを取得し、前記知識グラフにおけるノードが前記処理待ちテキストの中の語義概念を示し、前記知識グラフにおけるエッジが語義概念間の語義関係を示し、前記単語符号化モジュールは、前記処理待ちテキストを単語レベルで符号化して各単語の文脈符号化表現を得、前記統合モジュールは、各単語の文脈符号化表現に基づいて前記知識グラフにおける各ノードの初期表現をそれぞれ特定し、前記グラフ符号化モジュールは、各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得、前記グラフ復号化モジュールは、各ノードのノード表現に基づいて復号化して前記処理待ちテキストの要約を得る。

電子デバイスであって、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記の方法を実行させる。

非一時的なコンピュータ可読記憶媒体であって、コンピュータに前記の方法を実行させるためのコンピュータコマンドが記憶された。

前記の出願の一実施形態は、以下の利点または有益な効果を有する。即ち、エンドツーエンド生成型アーキテクチャに基づいてテキスト情報を知識グラフ構造情報に変換し、文脈情報の単語レベルにおける符号化を考慮した上で、テキスト中の語義概念および語義概念間の語義関係を明示的にモデル化することにより、テキスト中の重要な情報をより明確かつ正確に理解して絞り込むことができ、生成された要約の語義の一貫性や正確度などを向上させることができる。

理解すべきなのは、この部分で説明される内容は、本開示の実施形態の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本出願に記載された要約生成方法の実施形態のフローチャートである。本出願に記載された知識グラフの模式図である。本出願に記載された要約生成方法の全体的な実施プロセスの模式図である。本出願に記載された要約生成装置の実施形態４０の構造の模式図である。本出願の実施形態に記載の方法による電子デバイスのブロック図である。

以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

また、理解すべきなのは、本願中の専門語である「及び／又は」は、関連対象を描画する関連関係に過ぎず、三つの関係がある可能性を示す。例えば、Ａ及び／又はＢは、Ａだけが存在すること、ＡとＢが同時に存在すること、Ｂだけが存在する、という三つの状況を示すことができる。また、本願中の文字である“／”は、一般的に、前後の関連対象が「又は」の関係を有すると示す。

図１は、本出願に記載の要約生成方法の実施形態のフローチャートである。図１に示されたように、以下の具体的な実施形態を含む。

ステップ１０１において、処理待ちテキストに対応する知識グラフを取得し、知識グラフにおけるノードが処理待ちテキストの中の語義概念を示し、知識グラフにおけるエッジが語義概念間の語義関係を示す。

ステップ１０２において、処理待ちテキストを単語レベルで符号化して各単語の文脈符号化表現を得る。

ステップ１０３において、各単語の文脈符号化表現に基づいて、知識グラフにおける各ノードの初期表現をそれぞれ特定する。

ステップ１０４において、各ノードの初期表現および各ノード間の接続関係に基づいて符号化を行って各ノードのノード表現を得る。

ステップ１０５において、各ノードのノード表現に基づいて復号化を行って処理待ちテキストの要約を得る。

前記の実施形態では、エンドツーエンド生成型アーキテクチャに基づいてテキスト情報を知識グラフ構造情報に変換し、文脈情報の単語レベルにおける符号化を考慮した上で、テキスト中の語義概念および語義概念間の語義関係を明示的にモデル化することにより、テキスト中の重要な情報をより明確かつ正確に理解して絞り込むことができ、生成される要約の語義の一貫性や正確度などを向上させることができる。

処理待ちテキストにはＮ個のテキストを含んでも良い。Ｎは正の整数であり、具体的な値は実際の必要に応じて決定することができる。つまり、処理待ちテキストには、1つのテキストだけを含んでも良く、複数のテキストを含んでも良い。複数の場合に、これら複数のテキストは通常にテーマに関連するテキストである。

ステップ１０１で説明したように、処理待ちテキストに対応する知識グラフを取得することができる。知識グラフにおけるノードは処理待ちテキストの中の語義概念を示し、知識グラフにおけるエッジは語義概念間の語義関係を示す。

テキスト中の語義概念および語義概念間の語義関係は、テキストの理解や要約生成時の情報選択などに重要な役割を果たす。処理待ちテキストについて、グラフ解析器のようなテキスト解析ツールを介して対応する知識グラフを取得し、即ちテキスト構造を、語義構造を有するグラフに変換して表現することができる。構文解析変換に基づく知識グラフは、テキスト中の比較的小さく完全な語義概念をノードとして効率的に抽出し、語義概念間の語義関係をエッジで表現する。語義概念は、分割可能な最小語義単位として理解することもできる。

図２は、本出願に記載の知識グラフの模式図である。図２に示されたように、処理待ちテキストに、アルベルト・アインシュタイン（Albert Einstein）、ドイツの理論物理学者（a German theoretical physicist）、相対性理論を発表した（published the theory of relativity）、彼はノーベル賞を受賞した（He won the Nobel Prize）、相対性理論は現代物理学の二つの柱の一つである（The theory of relativity is one of the two pillars of modern physics）、この偉大な賞は彼の光電効果の解釈を表彰する（The great Prize was for his explanation of the photoelectric effect）、という内容を含むテキストが含まれていると仮定する。このテキストに対して図２のような知識グラフが得られる。知識グラフは、異なる語句の中の語義概念等を統合することにより、語義関係を導入しつつ、クロスセンテンス関係とニューラルネットワークモデルによるモデル化が困難な長依存関係とを同時に提供する。

ステップ１０２で説明されたように、処理待ちテキストについて、単語（token）レベルで符号化して各単語の文脈符号化表現（ベクトル表現）を取得しても良い。具体的には、事前訓練モジュールを利用して、処理待ちテキストを単語レベルで符号化して処理待ちテキストの中の各単語の文脈符号化表現を得ることができる。処理待ちテキストを単語レベルで符号化することにより、テキストの文脈依存の語義を保持することができる。

ステップ１０３で説明されたように、各単語の文脈符号化表現が得られた後、各単語の文脈符号化表現から知識グラフにおける各ノードの初期表現（ベクトル表現）をそれぞれ特定することもできる。

なお、何れか一つのノードに対して、そのノードに対応する統合すべき単語を取得できれば、統合すべき単語の文脈符号化表現からそのノードの初期表現を特定することができ、統合すべき単語の数は１より大きい。さもなければ、そのノードに対応する語義概念の文脈符号化表現をそのノードの初期表現とすることができ、そのノードに対応する語義概念は一つの単語である。

具体的には、対応する語義概念が一つの単語である何れか一つのノードについて、処理待ちテキスト内の少なくとも２つの異なる位置に当該単語が存在すると確定された場合、異なる位置に出現した当該単語をすべて当該ノードに対応する統合すべき単語とすることができる。当該単語と表現方式は異なるが表現の語義は同じである他の単語が存在すると確定すれば、前記他の単語と当該単語をすべて当該ノードに対応する統合すべき単語とすることができる。

同じ単語について、処理待ちテキスト内の異なる位置に出現すると、その文脈符号化表現が異なる場合がある。例えば、あるノードａについて、その対応する語義概念が単語ａであり、かつ単語ａが処理待ちテキスト内の３つの異なる位置に出現している場合に、その３つの異なる位置に出現している単語ａをすべてノードａに対応する統合すべき単語とすることができる。

また、あるノードａについて、対応する語義概念が単語ａであり、単語ｂと単語ａの表現方式は異なるが、表現された語義が単語ａであり、すなわち両者の表現された語義が同じであれば、単語ｂと単語ａをすべてノードａに対応する統合すべき単語とすることができる。

また、対応する語義概念が一つのフレーズである何れか一つのノードについて、処理待ちテキスト内の各位置に現れる、そのフレーズを構成する各単語を、そのノードに対応する統合すべき単語とすることができる。また、そのノードに対応する語義概念の表現方式は異なるが、表現された語義が同じ単語が存在すると確定された場合に、確定された単語もそのノードに対応する統合すべき単語とすることができる。

図２に示されたノード「Albert Einstein」を例にすると、それに対応する語義概念はフレーズであり、「Albert」と「Einstein」の２つの単語で構成されるため、この２つの単語をすべてそのノードに対応する統合すべき単語とすることができる。なお、この２つの単語が何れも処理待ちテキスト内の異なる２つの位置に出現したと仮定すると、異なる位置に出現したこの２つの単語を全てそのノードに対応する統合すべき単語とすることができる。また、図２に示されたように、単語「he」と「his」は「Albert Einstein」とは表現が異なるが、表現の語義が何れも「Albert Einstein」であるため、「he」と「his」もそのノードに対応する統合すべき単語とすることができる。

知識グラフにおける何れか一つのノードについて、それに対応する語義概念の表現方式は異なるが、同じ語義を表す単語が存在すると確定した場合に、そのノードを共参照関係ノードと呼ぶことができ、例えば図２に示されたノード「Albert Einstein」や「the Nobel Prize」などである。なお、ノード「the Nobel Prize」について、「the great Prize」は表現方式が異なるが、表現された語義が「the Nobel Prize」となる。

統合すべき単語をどのように特定するかに関する上記の方式は例示にすぎず、本願の技術案を限定するためのものではなく、具体的な実施形態は実際の必要に応じて決定することができる。

何れか一つのノードについて、対応する統合すべき単語の文脈符号化表現から、そのノードの初期表現を特定することができる。例えば、そのノードに対応する各統合すべき単語の文脈符号化表現の加算値を計算し、加算値とそのノードに対応する統合すべき単語の数との商を計算し、計算された商をそのノードの初期表現とすることができる。

処理待ちテキストを前記の「Albert Einstein、a German theoretical physicist、published the theory of relativity；He won the Nobel Prize；The theory of relativity is one of the two pillars of modern physics；The great Prize was for his explanation of the photoelectric effect」とすると、対応する知識グラフは図２に示された。その中のノード「Albert Einstein」を例にすると、「Albert」と「Einstein」の２つの単語からなる。この２つの単語は、処理待ちテキストにおいて１つの位置にしか出現されなく、それをすべて当該ノードの統合すべきノードとする。また、単語「he」と「his」は「Albert Einstein」との表現方式が異なるが、表現の語義が「Albert Einstein」であるため、そのノードに対応する統合すべき単語とすることもできる。これにより、合計４つの統合すべき単語を得ることができる。これら４つの統合すべき単語の文脈符号化表現を加算し、加算値を４で割ることで得られた商をノード「Albert Einstein」の初期表現とすることができる。

上記の処理により、知識グラフにおける各ノードの初期表現を正確に取得し、後続の処理に良い基盤を築くことができる。

ステップ１０４で説明されたように、各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現（ベクトル表現）を得、つまりグラフエンコーダで知識グラフをノードレベルで符号化して知識グラフの構造を考慮したノード表現を得ることができる。

従来におけるグラフニューラルネットワークに基づくグラフエンコーダは、マルチホップ関係をうまくモデル化できないことが多いが、実際の応用においてマルチホップ関係は非常に重要である。具体的には、本出願では、処理待ちテキストが知識グラフに変換された後、語句の中の主語と目的語は二階隣接関係になることが多く、主語と目的語の関係は、一般的に主語と述語、述語と目的語よりも重要である。

そこで、本出願では、知識グラフにノードと、そのノードに他のノードを介して接続されているノードである二階隣接ノードとの間の近道エッジを追加できることを提案した。図２に示したノード「Albert Einstein」を例にすると、ノード「the Nobel Prize」などが二階隣接ノードであり、二階隣接ノード「the Nobel Prize」などとノード「Albert Einstein」をエッジで直接に接続することができる。さらに、各ノードの初期表現および近道エッジが追加された各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得ることができる。

前記の処理方式では、ノードから二階隣接ノードへの近道エッジを追加することにより、グラフエンコーダによるグラフにおけるマルチホップ関係モデリングの強化を実現し、得られたノード表現の正確度などを向上させる。

ステップ１０５で説明されたように、各ノードのノード表現に基づいて復号化して処理待ちテキストの要約を得、つまりグラフデコーダを用いて、知識グラフにおける各ノードのノード表現に基づいて復号化して最終的に必要な処理待ちテキストの要約を得ることができる。

好ましくは、グラフによって伝達された注意メカニズムに基づいて、各ノードのノード表現に基づいて復号化して処理待ちテキストの要約を得ることができる。従来の注意メカニズムは、符号化情報に対してグラフ構造を考慮せずに線形的にシリアライズすることが多い。本出願では、グラフによって伝達された注意メカニズムを使用し、すなわち従来の注意メカニズムのように各ノードの重要度を線形的に予測した後に、重要度をグラフ中に伝達させることでグラフ構造を考慮した注意を取得することにより、復号化結果の正確度等を向上させることを提案する。

また、知識グラフを用いて符号化と復号化を行い、前記のグラフによって伝達された注意メカニズムなどを用いることにより、従来方式と比べて、入力された長いテキストを効率的かつ正確に処理することが可能となる。

前記の説明に基づいて、図３は、本出願に記載された要約生成方法の全体的な実施プロセスの模式図である。図３に示されたように、前処理の段階で、グラフ解析器による解析を介して処理待ちテキストに対応する知識グラフを得、また、処理待ちテキストに対して事前訓練モデルを用いて単語レベルの符号化を行って処理待ちテキストの中の各単語の文脈符号化表現を得、その後に得られた各単語の文脈符号化表現に基づいて統合などの処理により知識グラフにおける各ノードの初期表現をそれぞれ特定し、その後に各ノードの初期表現や各ノード間の接続関係などに基づいて符号化して各ノードのノード表現を得、さらに、各ノードのノード表現に基づいて復号化して処理待ちテキストの要約を得ることができる。なお、復号化を行う場合に、グラフによって伝達された注意メカニズムなどを用いることができる。

処理待ちテキストに対応する知識グラフをどのように取得するか、各単語の文脈符号化表現をどのように取得するか、および符号化と復号化をどのように行うかなどは何れも従来技術であり、その他の具体的な実現は前記の関連説明を参照でき、ここでは詳しく説明しない。

説明すべきなのは、前記の各方法実施例について、説明を簡単にするために、一連の動作の組合せとして記述された。しかし、当業者であればわかるように、本願により幾つかのステップが他の順番を採用し、或いは同時に実行可能であるため、本願は説明された動作の順番に限定されない。次に、当業者であればわかるように、明細書に説明された実施例は何れも好適な実施例であり、関わる動作とモジュールが必ずしも本願に必要なものではない。

以上は、方法の実施形態に関する説明である。以下で装置の実施形態により本出願に記載された方案をさらに説明する。

図４は、本出願に記載の要約生成装置の実施形態４０の構造の模式図である。図４に示されたように、グラフ解析モジュール４０１と、単語符号化モジュール４０２と、統合モジュール４０３と、グラフ符号化モジュール４０４と、グラフ復号化モジュール４０５とを備える。

グラフ解析モジュール４０１は、処理待ちテキストに対応する知識グラフを取得し、知識グラフにおけるノードは処理待ちテキストの中の語義概念を表し、知識グラフの中のエッジは語義概念間の語義関係を表す。

単語符号化モジュール４０２は、処理待ちテキストを単語レベルで符号化して各単語の文脈符号化表現を得る。

統合モジュール４０３は、各単語の文脈符号化表現に基づいて、知識グラフにおける各ノードの初期表現をそれぞれ特定する。

図符号化モジュール４０４は、各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得る。

図復号化モジュール４０５は、各ノードのノード表現に基づいて復号化して処理待ちテキストの要約を得る。

ここで、処理待ちテキストにはＮ個のテキストを含み、Ｎは正の整数である。つまり、処理待ちテキストには、1つのテキストだけを含んでも良く、複数のテキストを含んでも良い。複数の場合に、これら複数のテキストは通常にテーマに関連するテキストである。

グラフ解析モジュール４０１は、処理待ちテキストについて、グラフ解析器のようなテキスト解析ツールを介して対応する知識グラフを得、すなわちテキスト構造を、語義構造を有するグラフ表現に変換することができる。

単語符号化モジュール４０２は、更に事前訓練モデルを用いて、処理待ちテキストを単語レベルで符号化して各単語の文脈符号化表現を得ることができる。

各単語の文脈符号化表現が得られた後、統合モジュール４０３は、更に各単語の文脈符号化表現に基づいて、知識グラフにおける各ノードの初期表現をそれぞれ特定することができる。

なお、統合モジュール４０３は、何れか一つのノードに対して、そのノードに対応する統合すべき単語を取得できれば、統合すべき単語の文脈符号化表現からそのノードの初期表現を特定することができ、統合すべき単語の数が1より大きい。さもなければ、そのノードに対応する語義概念の文脈符号化表現をそのノードの初期表現とすることができ、そのノードに対応する語義概念が一つの単語である。

具体的には、統合モジュール４０３は、対応する語義概念が一つの単語である何れか一つのノードについて、処理待ちテキスト内の少なくとも２つの異なる位置に当該単語が存在すると確定された場合、異なる位置に出現した当該単語をすべて当該ノードに対応する統合すべき単語とすることができる。当該単語と表現方式は異なるが表現の語義は同じである他の単語が存在すると確定すれば、前記他の単語と当該単語をすべて当該ノードに対応する統合すべき単語とすることができる。

さらに、統合モジュール４０３は、対応する語義概念が一つのフレーズである何れか一つのノードについて、処理待ちテキスト内の各位置に現れる、そのフレーズを構成する各単語を、そのノードに対応する統合すべき単語とすることができる。また、そのノードに対応する語義概念の表現方式は異なるが、表現された語義が同じ単語が存在すると確定された場合に、確定された単語もそのノードに対応する統合すべき単語とすることができる。

統合モジュール４０３は、何れか一つのノードについて、そのノードに対応する統合すべき単語の文脈符号化表現の加算値を計算し、加算値とそのノードに対応する統合すべき単語の数との商を計算し、計算された商をそのノードの初期表現とすることができる。

さらに、グラフ符号化モジュール４０４は、各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得ることができる。好ましくは、グラフ符号化モジュール４０４は更に、知識グラフにおいてノードと、他のノードを介してそのノードに接続されているノードである二階隣接ノードとの間の近道エッジを追加し、各ノードの初期表現と近道エッジを追加された各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得ることができる。

グラフ復号化モジュール４０５は、各ノードのノード表現に基づいて復号化して処理待ちテキストの要約を得ることができる。好ましくは、グラフ復号化モジュール４０５は、グラフによって伝達された注意メカニズムに基づいて、各ノードのノード表現に従って復号化して処理待ちテキストの要約を得ることができる。

図４に示された装置の実施形態の具体的なワークフローは、前記の方法の実施形態の関連説明を参照でき、ここでは詳しく説明しない。

要するには、本出願の装置の実施形態に記載の方案によれば、エンドツーエンド生成型アーキテクチャに基づいて、テキスト情報を知識グラフ構造情報に変換し、文脈情報を考慮した単語レベルの符号化に基づいて、テキストの中の語義概念および語義概念間の語義関係を明示的にモデル化することにより、テキストの中の重要な情報をより明確かつ正確に理解して絞り込むことができ、ひいては生成された要約の語義の一貫性や正確度などを向上させることができる。

本出願の実施形態によれば、本出願は更に電子デバイスおよび可読記憶媒体を提供する。

図５は、本出願の実施形態に記載の方法による電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、ＰＤＡ、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、ＰＤＡ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本出願の実現を限定することが意図されない。

図５に示すように、この電子デバイスは、一つ又は複数のプロセッサＹ０１、メモリＹ０２、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力／出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図５において、一つのプロセッサＹ０１を例とする。

メモリＹ０２は、本出願で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供された方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記憶媒体は、本願に提供された方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリＹ０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例における方法に対応するプログラムコマンド/ユニットを記憶するために用いられる。プロセッサＹ０１は、メモリＹ０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における方法を実現する。

メモリＹ０２は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリＹ０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリＹ０２は、プロセッサＹ０１に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

電子デバイスは、更に、入力装置Ｙ０３と出力装置Ｙ０４とを備えても良い。プロセッサＹ０１、メモリＹ０２、入力装置Ｙ０３及び出力装置Ｙ０４は、バス又は他の手段により接続されても良く、図５においてバスによる接続を例とする。

入力装置Ｙ０３は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置Ｙ０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであって良く、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホストとＶＰＳサービスにおいて管理が難しく、ビジネスの拡張性が低いという欠点を解決する。

上記で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

前記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims

コンピュータにより実行される、要約生成方法であって、
処理待ちテキストファイルに対応する知識グラフを取得することであって、前記知識グラフにおけるノードが前記処理待ちテキストファイルの中の語義概念を表し、前記知識グラフにおけるエッジが語義概念間の語義関係を表す、知識グラフを取得することと、
前記処理待ちテキストファイルを単語レベルで符号化して各単語の文脈符号化表現を得ることと、
各単語の文脈符号化表現に基づいて前記知識グラフにおける各ノードの初期表現をそれぞれ特定することと、
各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得ることと、
各ノードのノード表現に基づいて復号化して前記処理待ちテキストファイルの要約を得ることと、を含み、
ノードと、他の1つのノードを介して前記ノードに接続されているノードである二階隣接ノードとの間の近道エッジを前記知識グラフに追加することと、
各ノードの初期表現と、前記近道エッジが追加された各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得ることと、をさらに含む、方法。
前記処理待ちテキストファイルは、Ｎ個のテキストを含み、Ｎは正整数であり、
前記処理待ちテキストファイルを単語レベルで符号化することは、事前訓練モデルを用いて前記処理待ちテキストファイルを単語レベルで符号化することを含む、請求項１に記載の方法。
前記各単語の文脈符号化表現に基づいて、前記知識グラフにおける各ノードの初期表現をそれぞれ特定することは、
何れか一つのノードについて、
前記ノードに対応する、数が１より多い統合すべき単語を取得できる場合、前記統合すべき単語の文脈符号化表現に基づいて前記ノードの初期表現を特定することと、
取得できない場合、前記ノードに対応する語義概念の文脈符号化表現を前記ノードの初期表現とすることであって、前記ノードに対応する語義概念は一つの単語である、初期表現とすることと、を含む請求項１に記載の方法。
前記ノードに対応する統合すべき単語を取得できることは、
対応する語義概念が一つの単語である何れか一つのノードについて、前記単語が前記処理待ちテキストファイルの中の少なくとも２つの異なる位置に出現したと判定された場合、異なる位置に出現した前記単語をすべて前記ノードに対応する統合すべき単語とし、表現方式が前記単語と異なるが、表現された語義が同じである他の単語が存在したと判定された場合に、前記他の単語及び前記単語をすべて前記ノードに対応する統合すべき単語とし、
対応する語義概念が一つのフレーズである何れか一つのノードについて、前記処理待ちテキストファイルの中の各位置に出現した、前記フレーズを構成する各単語を全て前記ノードに対応する統合すべき単語とし、かつ、表現方式が前記ノードに対応する語義概念と異なるが、表現された語義が同じである単語が存在したと判定された場合に、判定された単語を前記ノードに対応する統合すべき単語とする、ことを含む、請求項３に記載の方法。
前記統合すべき単語の文脈符号化表現に基づいて前記ノードの初期表現を特定することは、
何れか一つのノードについて、前記ノードに対応する各統合すべき単語の文脈符号化表現の加算値を算出し、前記加算値と前記ノードに対応する統合すべき単語の数との商を算出し、算出された商を前記ノードの初期表現とする、ことを含む請求項３に記載の方法。
前記各ノードのノード表現に基づいて符号化して前記処理待ちテキストファイルの要約を得ることは、
グラフによって伝達される注意メカニズムに基づいて、各ノードのノード表現に従って復号化して前記処理待ちテキストファイルの要約を得ること、を含む請求項１に記載の方法。
グラフ解析モジュールと、単語符号化モジュールと、統合モジュールと、グラフ符号化モジュールと、グラフ復号化モジュールと、を備える要約生成装置であって、
前記グラフ解析モジュールは、処理待ちテキストファイルに対応する知識グラフを取得し、前記知識グラフにおけるノードは前記処理待ちテキストファイルの中の語義概念を表し、前記知識グラフにおけるエッジが語義概念間の語義関係を表し、
前記単語符号化モジュールは、前記処理待ちテキストファイルを単語レベルで符号化して各単語の文脈符号化表現を得、
前記統合モジュールは、各単語の文脈符号化表現に基づいて前記知識グラフにおける各ノードの初期表現をそれぞれ特定し、
前記グラフ符号化モジュールは、各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得、
前記グラフ復号化モジュールは、各ノードのノード表現に基づいて復号化して前記処理待ちテキストファイルの要約を得、
前記グラフ符号化モジュールは、さらに、ノードと、他の1つのノードを介して前記ノードに接続されているノードである二階隣接ノードとの間の近道エッジを前記知識グラフに追加し、各ノードの初期表現と前記近道エッジが追加された各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得る、装置。
前記処理待ちテキストファイルは、Ｎ個のテキストを含み、Ｎは正整数であり、
前記単語符号化モジュールは、事前訓練モデルを用いて、前記処理待ちテキストファイルを単語レベルで符号化する、請求項７に記載の装置。
前記統合モジュールは、
何れか一つのノードに対して、前記ノードに対応する、数が１より多い統合すべき単語を取得できる場合、前記統合すべき単語の文脈符号化表現に基づいて前記ノードの初期表現を特定し、
できない場合、前記ノードに対応する語義概念の文脈符号化表現を前記ノードの初期表現とし、この場合、前記ノードに対応する語義概念は一つの単語である、請求項７に記載の装置。
前記統合モジュールは、対応する語義概念が一つの単語である何れか一つのノードに対して、前記単語が前記処理待ちテキストファイルの中の少なくとも2つの異なる位置に出現したと判定された場合、異なる位置に出現した前記単語をすべて前記ノードに対応する統合すべき単語とし、表現方法が前記単語と異なるが、表現された語義が同じである他の単語が存在したと判定された場合に、前記他の単語及び前記単語をすべて前記ノードに対応する統合すべき単語とし、
前記統合モジュールは、対応する語義概念が一つのフレーズである何れか一つのノードに対して、前記処理待ちテキストファイルの中の各位置に出現した、前記フレーズを構成する各単語を前記ノードに対応する統合すべき単語とし、かつ、表現方法が前記ノードに対応する語義概念と異なるが、表現された語義が同じである単語が存在したと判定された場合に、判定された単語を前記ノードに対応する統合すべき単語とする、請求項９に記載の装置。
前記統合モジュールは、何れか一つのノードについて、前記ノードに対応する各統合すべき単語の文脈符号化表現の加算値を算出し、前記加算値と前記ノードに対応する統合すべき単語の数との商を算出し、算出された商を前記ノードの初期表現とする、請求項９に記載の装置。
前記グラフ復号化モジュールは、グラフによって伝達された注意メカニズムに基づいて、各ノードのノード表現に基づいて復号化して前記処理待ちテキストファイルの要約を得る、請求項７に記載の装置。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項１～６の何れか１項に記載の方法を実行させる電子デバイス。
コンピュータに請求項１～６の何れか1項に記載の方法を実行させるコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項１～６の何れか1項に記載の方法を実行させるコンピュータプログラム。