JP4493397B2 - テキスト圧縮装置 - Google Patents

テキスト圧縮装置 Download PDF

Info

Publication number
JP4493397B2
JP4493397B2 JP2004140818A JP2004140818A JP4493397B2 JP 4493397 B2 JP4493397 B2 JP 4493397B2 JP 2004140818 A JP2004140818 A JP 2004140818A JP 2004140818 A JP2004140818 A JP 2004140818A JP 4493397 B2 JP4493397 B2 JP 4493397B2
Authority
JP
Japan
Prior art keywords
text
rule
sentence
determined
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004140818A
Other languages
English (en)
Other versions
JP2004342104A5 (ja
JP2004342104A (ja
Inventor
リーズラー ステファン
エス.クラウチ リチャード
エイチ.キング トレイシー
イー.ゼイネン アニー
ヴァサーマン アレキサンダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2004342104A publication Critical patent/JP2004342104A/ja
Publication of JP2004342104A5 publication Critical patent/JP2004342104A5/ja
Application granted granted Critical
Publication of JP4493397B2 publication Critical patent/JP4493397B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、テキスト構造を圧縮することに関する。
従来のテキスト圧縮システムは、nグラムモデル(n-grams)および単語集合モデル(bag-of-word )に基づいて要約語句を選択および配列することを用いるものである。(例えば、非特許文献1参照)
非特許文献2、3に開示のテキスト圧縮システムは、言語学的な構文解析および生成に基づくものであり、包含および/または削除のために、センテンスおよびそれに関連する要約に対する構文解析のコーパスから学習された確率モデルに基づいて、テキスト下位構造を選択する。これらの従来のシステムによって生成される要約は、内容を表現してはいるが、それらの要約は、文法性に欠けるために、理解するのが難しい。
なお、本発明に関連する技術として、例えば、特許文献1〜4及び非特許文献1〜3などがある。
米国特許第5,778,397号 米国特許第5,918,240号 米国特許第5,689,716号 米国特許第5,745,602号 ウィットブロック 外(Witbrock et al.)、「超要約化:抽出式では無い高凝縮要約を生成するための統計的アプローチ(Ultra Summarization: A Statistical Approach to Generating HighlyCondensed Non-Extractive Summaries)」、第22回 エーシーエム 情報修正における研究開発についてのシグアイアールコンファレンス(in Proceedings of the 22nd ACM SIGIRConference on Research and Development in Information Retrieval)、バークレー(Berkeley)、1999年 ナイト 外(Knight et al.)、「統計学に基づいた要約化(Statistics based summarization)」、第17回 人工知能についてのナショナルコンファレンス(エーエーエーアイ−2000)(Proceedings of the17th National Conference on Artificial Intelligence (AAAI-2000))、オースチン(Austin)、2000年 ホンヤン ジン(Hongyan Jing)、「自動テキスト要約化のための文章削減(Sentence Reduction for Automatic Text Summarization)」、第6回 応用自然言語処理コンファレンス(エーエヌエルピー’00)シアトル(Proceedings of the 6th Applied Natural Language Processing Conference (ANLP'00)Seattle)、ワシントン(WA)、2000年
本発明によるシステムおよび方法は、文法的に圧縮されたテキスト構造を生成する。
本発明によるテキスト圧縮装置は、複数種類の言語学上の要素を含む文を備えたテキストのデータを受信する受信手段と、複数種類の言語学上の複数の要素各々の内容に応じ、かつ、テキストを圧縮するために予め定められた、各要素を編集するための規則を記憶する記憶手段と、を備えたテキスト圧縮装置であって、前記受信手段により受信された前記データから文を決定し、前記決定された前記文を、構文解析文法に基づいて、複数種類の言語学上の複数の要素に分解し、前記文が分解されて得られた前記複数の要素各々と、前記記憶手段に記憶された規則と、に基づいて、前記文が分解されて得られた前記複数の要素各々を編集して複数の編集結果を生成し、前記編集されて生成された前記複数の編集結果各々の、前記テキストの圧縮結果として適合する順位を、編集結果の単語数に基づく長さ及び文法に基づいて、決定し、各編集結果について前記決定された順位に基づいて、前記テキストの圧縮結果として最も適合する編集結果を選択する。
図1は、本発明による典型的な文法的テキスト圧縮システムの概略図である。文法的テキスト圧縮システム100、および、テキスト1000へのアクセスを通信リンク99を介して提供する情報レポジトリ200には、ウェブ対応型パーソナルコンピュータ300、ウェブ対応型タブレットコンピュータ400、および、電話500を接続することができる。
情報レポジトリ200は、HTML、XML、および/または、WMLでコード化されたものを提供するウェブサーバ、Word(登録商標)ドキュメントおよび/またはPDF(登録商標)ドキュメントへのアクセスを提供するディジタルライブラリ、または、テキスト1000へのアクセスを提供するその他の何らかの良く知られている方法かまたは今後開発されるであろう方法を含む。
第1の実施形態において、ウェブ対応型タブレットコンピュータ400のユーザは、テキスト1000の圧縮されたバージョンを要求することを開始する。一実施形態においては、圧縮されたテキストの要求は、文法的テキスト圧縮システム100によって仲介され、その文法的テキスト圧縮システム100は、テキスト圧縮バージョンの要求を受信し、その要求を通信リンク99を介して情報レポジトリ200へ転送する。
情報レポジトリ200は、要求されたテキスト1000をリトリーブし、文法的テキスト圧縮システム100へ転送し、その文法的テキスト圧縮システム100は、構文解析文法を使用し、テキスト構造に対応するパック構造を決定する。
変換がパック構造に適用され、縮小されたパック構造が決定される。その縮小パック構造の曖昧性解消モデルに基づいて、候補構造が決定される。例えば、有望な候補構造を表現する確率的曖昧性解消モデルおよび/またはその他の曖昧性解消モデルが決定され、縮小パック構造に適用され、有望な候補構造が選択される。しかしながら、すべての候補構造が、必ずしも、文法的な英語のセンテンスに対応しなければならないわけではない。生成文法が、候補構造に適用され、文法的なセンテンスに対応する候補構造が決定される。生成の後、文法的なセンテンスに対応する候補構造は、順位づけられる。例えば、センテンス長の縮小率が、確率モデルまたは予測モデルから得られた候補の順位と組み合わせられてもよい。その縮小パック構造から得られた総合的に最も高い順位を有するテキスト構造が、選択される。
別の実施形態においては、電話500のユーザが、情報レポジトリ200に含まれるテキスト1000の圧縮されたバージョンを要求する。テキスト1000の要求は、(図示しない)自動音声認識装置、電話翻音オペレータ(telephone transcription operator)、または、音声要求を認識するその他の何らかの方法によって処理される。認識された音声要求は、通信リンク99を介して情報レポジトリ200へ転送され、その情報レポジトリ200は、テキスト1000を、通信リンク99を介して文法的テキスト圧縮システム100へ転送する。文法的テキスト圧縮システム100は、テキスト構造を決定する。変換規則がテキスト構造に適用され、縮小パック構造が決定される。その結果として得られた縮小パック構造は、曖昧性解消モデルおよび決定された候補構造を用いて、曖昧性を解消される。異なる実施形態においては、確率的曖昧性解消が、候補構造を決定するのに使用されてもよい。文法的に正しい生成文法が、候補構造に対応する文法的圧縮センテンスを決定する。文法的圧縮センテンスは、通信リンク99を介して電話500へ転送され、(図示しない)音声合成器を用いて出力される。
第3の実施形態においては、ウェブ対応型コンピュータ300のユーザが、情報レポジトリ200に存在するテキスト1000の圧縮バージョンを要求することを開始する。この要求は、文法的テキスト圧縮システム100によって仲介される。例えば、文法的テキスト圧縮システム100は、プロキシサーバとして使用されてもよく、情報レポジトリ200へのアクセスを仲介し、かつ、要求されたテキスト1000の圧縮バージョンを提供する。異なる実施形態においては、文法的テキスト圧縮システム100は、情報レポジトリ200またはウェブ対応型コンピュータ300内に含まれ、あるいは、通信リンク99を介してアクセスすることのできるいずれかの場所に配置される。
情報レポジトリ200は、テキスト1000の圧縮バージョンの要求を受信し、要求されたテキスト1000をリトリーブし、それを通信リンク99を介して情報圧縮システム100へ転送する。テキスト圧縮システム100は、テキスト1000のテキスト構造に基づいてパック構造を決定する。縮小パック構造が、パック構造および変換規則に基づいて決定される。曖昧性解消モデルまたは予測モデルが使用され、縮小パック構造に基づいて、候補構造が決定される。文法的に正しい生成文法が候補構造に適用され、テキスト1000の文法的圧縮センテンスが決定される。要求されたテキスト1000の圧縮バージョンに対応する文法的圧縮テキストセンテンスが、通信リンク99を介して転送され、ウェブ対応型パーソナルコンピュータ300上でユーザに表示される。
図2は、本発明による文法的テキスト圧縮の典型的な方法を示すフローチャートである。処理は、ステップS10から開始し、すぐにステップS20へ進み、そのステップS20において、圧縮されるべきテキストが決定される。テキストは、ファイルから選択されてもよく、ユーザによって入力されてもよく、あるいは、何らかの良く知られているかまたは今後開発されるであろう選択および/または入力する方法を用いて決定されてもよい。そして、制御はステップS30へ進み、そのステップS30において、そのテキストの言語特徴が、決定される。
別の実施形態においては、テキストの言語特徴は、XMLおよび/またはHTML言語識別タグ、テキストの言語学的解析、または、何らかの良く知られているかまたは今後開発されるであろう言語決定方法を用いて決定される。そして、制御はステップS40へ進む。
ステップS40において、構文解析文法が決定される。構文解析文法は、決定された言語特徴、テキストのジャンル、および/または、何らかの良く知られているかまたは今後開発されるであろうテキスト特徴に基づいて決定される。例えば、「英語」(言語)および「新聞」ジャンル特徴に基づいた第1の構文解析文法が、選択される。「英語」(言語)および「科学関係出版物」ジャンル特徴に基づいた第2の構文解析文法が、英語「生物工学」記事を構文解析するために選択される。このようにして、構文解析文法が選択され、その構文解析文法が、それぞれのテキストに対応する言語構造を認識する。異なる実施形態においては、構文解析文法は、予め決定された汎用文法、テキストに基づいた文法、または、何らかの良く知られているかまたは今後開発されるであろうテキスト特徴を用いて決定された文法である。そして、制御は、ステップS50へ進む。
ステップS50において、生成文法が決定される。生成文法は、生成されるテキスト構造の文法性を保証するものである。生成文法は、構文解析文法と同じものであってもよい。例えば、語彙・機能文法(lexical functional grammar)、主要語句構造文法(head-phrase structure grammar)、語彙化木結合文法(lexicalized tree adjoining grammar)、結合範疇文法(combinatory categorical grammar)、または、テキストを構文解析しパック構造を決定するのに有効な何らかの良く知られているかまたは今後開発されるであろう文法のいずれか1つまたはそれらを組み合わせたものが、本発明において使用されてもよい。本発明の一実施形態においては、言語学的機能文法の文法的に正しいバージョンが、生成文法として使用される。しかしながら、文法的に正しい構造を生成する何らかの良く知られているかまたは今後開発されるであろう文法が、本発明の構文解析部分および生成部分の両方に使用されてもよい。そして、制御は、ステップS60へ進む。
ステップS60において、第1のテキスト構造が決定される。この構造は、限定はしないが、センテンス構造、パラグラフ構造、談話構造、または、何らかの良く知られているかまたは今後開発されるであろう言語学的構造を含んでもよい。例えば、テキストは、センテンスレベルのテキスト構造に分割されてもよい。パラグラフ、談話、および、それらに類似するもののようなより大きなテキスト構造を表現する文法的に圧縮されたセンテンスは、重要なセンテンスを選択する統計学的選択法を用いて、決定されてもよい。
別の実施形態においては、代表的なセンテンスは、米国特許出願第09/883,345号および米国特許出願第09/689,779号においてLivia PolanyiおよびMartin Henk van den Bergによって記載される、談話に基づいた技術を用いて選択される。さらに別の実施形態においては、より大きなテキスト構造の代表的なセンテンスは、Kupiecらの米国特許第5,778,397号(特許文献1)、米国特許第5,918,240号(特許文献2)、Chenらの米国特許第5,689,716号(特許文献3)、米国特許第5,745,602号(特許文献4)に記載される技術に基づいて選択されてもよい。そして、より大きなテキスト構造に対して選択された代表的なセンテンスは、本発明によるシステムおよび方法を用いて圧縮される。
本発明によるシステムおよび方法は、情報検索業務に従事しているユーザに文脈情報を提供するのに使用されてもよい。例えば、従来の情報検索システムは、検索語を取り囲むテキスト部分をリターンする。これらの非文法的なセンテンス断片は、読むのが難しいので、典型的には、ユーザにとって、認識するのに大きな負担となる。それとは対照的に、本発明は、検索語および文脈情報が文法的センテンス内に提供されので、認識するのに小さな負担しかかけないような形式で文脈情報を提供する。そして、制御は、ステップS70に進む。
ステップS70において、パック構造が、決定されたテキスト構造に基づいて決定される。Xerox XLE環境のパックf構造表現が、テキストのパックされた表現として使用されてもよい。しかしながら、本発明を実施する場合、何らかの良く知られているかまたは今後開発されるであろうテキスト表現が、使用されてもよい。上述したように、XLEパックf構造表現は、テキスト構造に対する文脈事実(facts)のリストを決定することによって、自然言語曖昧性を効果的にコード化する。文脈化された事実は、Ci→Fiの形態を有し、ここで、Ciは、文脈であり、Fiは、言語学的事実である。文脈は、典型的には、テキスト構造またはセンテンスの曖昧性を表現するAND−ORフォレストから取り出された一組の選択肢である。Xerox XLE環境のパックf構造表現に存在するそれぞれの事実は、それぞれの構造において1回しか発生しない。事実の正規化は、要素を検出および変換するのを容易にする。自然言語曖昧性は、1つのパックf構造表現に対して可能性のある複数の意味をもたらすことがある。Xerox XLE環境においては、パックf構造は、複数の意味をコード化するが、それぞれの意味の共通要素を重複させなくてもよい。したがって、パックf構造に含まれる情報を操作する回数が、減少する。そして、制御は、ステップS80へ進む。
ステップS80において、縮小構造が、パック構造の要素に適用された変換に基づいて決定される。パック構造の要素に適用される変換は、あまり重要でない要素を削除し、より簡潔な要素に置換し、および/または、要素を変更することを含んでもよい。XLEパックf構造表現内にコード化された事実は、変換規則に基づいて変換される。変換規則は、事実を追加、削除、または、変更することによって、パック構造表現内にあまり重要でない情報が発生するのを抑制するアクションおよび手順をコード化する。結果として得られた縮小パック構造は、可能性のあるそれぞれの圧縮テキスト構造を効果的にコード化する。そして、制御は、ステップS90へ進む。
ステップS90において、縮小パック構造ごとの候補構造が、縮小パック構造の確率的または予測的な曖昧性解消モデルに基づいて決定される。候補構造は、曖昧性解消の確率的な方法、語彙的な方法、意味論的な方法、または、何らかの良く知られているかまたは今後開発されるであろう方法を用いて決定される。例えば、一実施形態においては、典型的な縮小構造の統計学的解析が、使用される。最尤曖昧性解消モデルが、一組の縮小パック構造に対して決定される。そして、予測曖昧性解消モデルが使用され、最も有望な縮小構造が、属性、属性の組み合わせ、属性値対、動詞語幹の共起、下位範疇化フレーム、規則追跡情報、および/または、テキスト構造およびそれに対応するパック構造の何らかの良く知られているかまたは今後開発されるであろう特徴のような特性関数に基づいて、パック構造から決定される。例えば、本発明による一実施形態においては、訓練データ
Figure 0004493397
、に存在するセンテンスyごとの可能性のある一組の要約された構造S(y)が、決定される。次の式、すなわち、
Figure 0004493397
に基づいて、予測曖昧性解消モデルが与えられたセンテンスごとの要約構造の条件付尤度L(λ)に基づいて訓練される。ここで、fは、特性関数であり、yおよびsは、至適標準要約構造対のための元々のセンテンスである。候補構造が、予測曖昧性解消モデルおよび縮小パック構造に基づいて決定される。そして、制御は、ステップS100へ進む。
ステップS100において、最も有望な候補構造に対応する文法的テキスト構造が、文法的に正しい生成文法を用いて決定され、その結果が出力される。
ステップS110において、圧縮すべきさらなるテキスト構造が存在するかどうかが判定される。圧縮すべきさらなるテキスト構造が存在すれば、制御は、ステップS120へ進み、次のテキスト構造が選択され、制御はステップS70へ分岐する。さらなるテキスト構造が存在しなくなるまで、ステップS70〜ステップS110が反復される。そして、制御は、ステップS130へ進み、そのステップS130において、圧縮された文法的テキスト構造が、出力される。
圧縮された文法的テキスト構造は、ファイル、ビデオディスプレイ、または、何らかの良く知られているかまたは今後開発されるであろう表示装置に出力される。そして、制御は、ステップS140へ進み、処理が終了する。
図3は、本発明による典型的な文法的テキスト圧縮システム100を示す。文法的テキスト圧縮システム100は、プロセッサ15、メモリ20、言語(決定)回路25、構文解析文法回路30、生成文法回路35、パック構造回路40、縮小(パック)構造回路45、候補(テキスト)構造回路50、および、文法的圧縮テキスト構造回路55を備え、それらのそれぞれは、入力/出力回路10を介して通信リンク99に接続される。
文法的テキスト圧縮システム100は、通信リンク99を介して、ウェブ対応型コンピュータ300、ウェブ対応型タブレットコンピュータ400、電話500、および、テキスト1000を含む情報レポジトリ200に接続することができる。
異なる実施形態においては、ウェブ対応型コンピュータ300のユーザが、情報レポジトリ200に含まれるテキスト1000の圧縮されたバージョンの要求を開始する。圧縮されたテキストは、テキスト内のキーコンセプトをより素早く識別するのに役立つ。あるいは、テキストの圧縮バージョンは、テキストがユーザの目的とする情報に関係する情報を含むかどうかを判定するのに使用される。テキスト1000の圧縮バージョンは、重要な情報がほとんど除去されていないので、入念に吟味する必要がない。また、テキスト1000の圧縮バージョンは、ウェブ対応型携帯電話およびウェブ対応型個人用携帯情報端末のような小画面装置上において有益である。また、文法的圧縮は、音声合成器、動的な点字のような触覚型表示装置、または、何らかの良く知られているかまたは今後開発されるであろう表示装置または出力方法の場合、テキスト1000の文法的に圧縮されたバージョンを決定するのに使用される。
情報レポジトリ200に存在するテキスト1000の圧縮バージョンの要求は、ウェブ対応型コンピュータシステム300から通信リンク99を介して文法的テキスト圧縮システム100の入力/出力回路10へ転送される。プロセッサ15は、要求を開始し、通信リンク99を介して、テキスト1000を情報レポジトリ200からリトリーブする。情報レポジトリ200は、HTML、XML、および/または、WMLでコード化されたドキュメントを提供するウェブサーバ、PDFまたはWordの形式でコード化されたドキュメントを提供するディジタル・ライブラリ、および/または、何らかの良く知られているかまたは今後開発されるであろう情報ソースを含む。
情報レポジトリ200は、要求されたテキスト1000を通信リンク99を介して文法的テキスト圧縮システム100の入力/出力回路10へ転送する。そして、要求されたテキスト1000は、メモリ20へ転送される。プロセッサ15は、オプションとして、言語決定回路25を起動し、テキスト1000に対応する言語を決定する。言語決定回路25は、テキスト特徴解析、組み込まれた言語識別タグ、または、テキストの言語を決定する何らかの良く知られている方法を使用してもよい。
そして、プロセッサ15は、構文解析文法回路30を起動し、構文解析文法を決定する。構文解析文法は、メモリ20から予め選択およびリトリーブされてもよく、要求されたテキスト1000の特徴に基づいて動的に選択されてもよく、あるいは、構文解析文法を決定する何らかの方法を用いて決定されてもよい。構文解析文法は、テキスト言語、テキストジャンル、および/または、テキスト特徴に基づいて選択されてもよい。また、言語学的機能文法のような文法的に正しい生成文法が構文解析文法として使用されてもよい。しかしながら、構文解析文法は文法的に正しいものでなくてもよい。
パック構造回路40が起動され、要求されたテキスト1000のためのパック構造が決定される。自然言語テキストに関連する曖昧性を効果的にコード化するために、XLEパック構造表現が使用されてもよい。しかしながら、テキスト構造を表現するその他の方法もまた使用されてもよい。
プロセッサ15は縮小パック構造回路45を起動し、パック構造の要素を減少させる。縮小パック構造回路45は、メモリ20、ディスク記憶装置、または、その他の記憶装置から、パック構造および予め記憶された変換規則をリトリーブする。変換規則は、パターン部分およびアクション部分を備えてもよい。変換規則の照合パターン部分が検出されたパック構造の部分が、規則のアクション部分に基づいて変換される。変換規則は、テキストの一部分を削除するようなただ1つのアクション、または、複数のアクションを備えてもよい。しかしながら、本発明を実施するために、要求されたテキストに規則を条件付きで適用する何らかの方法が、使用されてもよい。
パック構造の要素への変換規則の適用は、パック構造内にあまり重要でない情報が発生するのを抑制する。変換規則は、受身化、名詞化、または、あまり重要でない情報を減少させるのに有効な何らかの良く知られているかまたは今後開発されるであろう言語学的変換を含んでもよい。
プロセッサ15は候補構造(決定)回路50を起動し、縮小構造の曖昧性を解消する。一実施形態においては、確率的曖昧性解消モデルのような予測曖昧性解消モデルが、候補構造ごとの順位スコアまたは尤度スコアに基づいて候補構造を決定するのに使用される。候補構造の尤度スコアは、テキストコーパスにおけるテキスト構造およびそれに対応する縮小構造の統計的解析に基づいて予め決定されたものであってもよい。そして、候補構造回路50は、尤度スコアまたは順位スコアに基づいて候補構造を順位づける。
そして、文法的圧縮テキスト構造回路55が起動され、候補構造およびメモリ20からリトリーブされた文法的生成文法に基づいて圧縮テキスト構造を決定する。決定された文法的圧縮テキスト構造は、オプションとして、さらなる処理のために表示および/または記憶される。
図4は、本発明による典型的なパック構造を変換する方法のより詳細なフローチャートである。処理は、ステップS80から開始し、ステップS81へ進む。ステップS81において、予め決定されたテキスト構造に対応するパック構造が決定される。例えば、テキストは、テキスト構造に分割され、メモリ、ディスク、または、メモリ・ストレージに記憶されてもよい。異なる実施形態においては、テキスト構造は、メモリ・ストレージからリトリーブされ、および/または、動的に決定される。そして、制御はステップS82へ進み、ステップS82において、変換規則が決定される。
変換規則はユーザによって入力されてもよく、メモリ・ストレージからリトリーブされてもよく、あるいは、何らかの方法を用いて入力されてもよい。変換規則は、PERL言語および/またはAWK言語のパターン照合技術、PROLOG言語およびLISP言語に関連するコード化、あるいは、変換規則をコード化する何らかの良く知られているかまたは今後開発されるであろう方法を用いてコード化されてもよい。そして、制御はステップS83へ進み、ステップS83において、変換規則が決定される。
変換規則は、メモリからリトリーブされ、ユーザによって動的に入力され、あるいは、何らかの良く知られているかまたは今後開発されるであろう技術を用いて決定される。変換規則のパターン部分は、パック構造内の単語または句のような特定の要素、品詞タグ、あるいは、何らかの良く知られているかまたは今後開発されるであろう言語学的構造または値に対応づけられる。
したがって、典型的なパターンである「付加詞(X,Y)」は、テキスト表現Xにおける一組の付加詞Yを決定する。変換規則のアクション部分は、パック構造に含まれる要素のパターン部分照合に基づいて実行される1つかまたはそれ以上のアクションを含んでもよい。規則のアクション部分は、要素を付加し、要素を削除し、要素を変更し、適用された変換規則を記録し、あるいは、何らかの良く知られているかまたは今後開発されるであろうパック構造要素の変換を実行するアクションを含む。そして、制御は、ステップS84に進む。
ステップS84において、縮小パック構造が、パック構造内に含まれる要素に変換規則を適用することによって、決定される。一実施形態においては、変換規則は、アンパックすることなくXLEパック構造要素に変換を適用するのを可能にするMaxwell IIIの同時係属出願である共通に譲渡された米国特許出願第10/338,846号に記載される技術を用いて、パック構造に直接に適用される。これらの技術は、曖昧なパック構造を変換することに関連する組み合わせ拡張問題を抑制する。XLEパック構造は、処理効率を改善するが、テキストをコード化する何らかの方法が、使用されてもよい。そして、制御はステップS85へ進み、処理は図2のステップS90に戻る。
図5は、候補構造を決定する本発明による典型的な方法のより詳細なフローチャートである。制御はステップS90から開始し、ステップS91へ進む。
ステップS91において、縮小構造が決定される。縮小構造は、メモリ、ディスク記憶装置、記憶装置からリトリーブされ、動的に決定され、あるいは、何らかの良く知られているかまたは今後開発されるであろう方法を用いて決定される。縮小構造は、パックf構造のようなパック構造に変換規則を適用することによって、決定される。典型的な変換規則は、あまり重要でない要素を除去し、明瞭なものにする要素を追加し、名詞化、受身化、および、その他のアクションをサポートするために要素を変更し、および、それらに類似することをなすことによって、パック構造の要素を圧縮する。そして、制御は、ステップS92へ進み、ステップS92において、順位が縮小構造間で決定される。
例えば、それぞれの縮小構造の統計学的な確率順位が、決定されてもよい。そして、制御は、ステップS94に進み、ステップS94において、最も確かと思われる縮小構造が、順位に基づいて決定される。
最も確かと思われる縮小構造は、曖昧性解消モデルに基づいて最も有望な構造を選択することによって決定される。最も有望な候補構造が選択され、制御はステップS95へ進み、そして、処理は図2のステップS100に戻る。
図6は、候補テキスト構造を決定する本発明による典型的な方法のフローチャートである。処理はステップS100から開始し、ステップS101へ進む。
ステップS101において、生成文法が決定される。生成文法は、予め記憶されたパラメータに基づいて、動的にユーザ入力に基づいて、あるいは、その他の何らかの選択方法を用いて、選択される。そして、制御はステップS102へ進む。
ステップS102において、候補構造が決定される。候補構造は、メモリ、ディスク記憶装置、および、それらに類似するものからリトリーブされてもよい。そして、制御はステップS103へ進む。
ステップS103において、文法的センテンスが、予め決定された生成文法および候補構造に基づいて決定される。生成文法は、生成されるセンテンスが文法的に正しいことを保証する。文法的センテンスは、確率モデルまたは予測モデルから得られた候補の順位に加えて、センテンス長の縮小率によって、順位づけられてもよい。縮小パック構造から得られた総合的に最も高い順位を有するセンテンスが、選択される。そして、生成された文法的センテンスは、圧縮された文法的なテキストセンテンスとして出力される。異なる実施形態においては、圧縮された文法的なテキストセンテンスは、オプションとして、メモリ・ストレージに保存され、表示装置に出力され、あるいは、それらに類似することがなされる。そして、制御はステップS104へ進み、処理は図2のステップS110に戻る。
図7は、変換規則を記憶する本発明による典型的なデータ構造を示す。第1の典型的な実施形態においては、変換規則700を記憶するためのデータ構造は、規則識別子部分705、規則部分710、および、コメント部分720を備える。規則部分710は、パターン部分およびアクション部分を備える。
規則識別子部分705は、個々のそれぞれの規則に識別子を対応づける。規則識別子は、数字識別子、英数字ストリング、または、その他の何らかの個々の規則識別子であってもよい。変換規則を記憶するための典型的なデータ構造の規則部分710は、パック構造の要素を照合しかつ変換を実行するのに使用されるパターンおよびアクションを含む。パック構造内の要素が、規則710の規則部分に一致すれば、規則710の対応するアクション部分に含まれるアクションが適用され、パック構造を変換する。規則710のアクション部分に含まれるアクションは、要素を削除し、要素を追加し、要素を変更し、あるいは、何らかの良く知られているかまたは今後開発されるであろう言語学的変換を実行するのに使用されてもよい。規則710のアクション部分は、テキストに適用される1つかまたは複数のアクションを含む。規則のオプションとしてのコメント部分720は、実行されるアクションを説明するコメントを含む。
変換規則700を記憶するデータ構造の第1行目のエントリは、規則識別子部分705に「13」を含み、規則710のパターン部分に「+in_set(X,_Y),PRED(X,of)」を含み、規則710のアクション部分に「keep(X,yes)」を含み、また、コメント部分720に「「of句」を維持する」を含む。
規則識別子部分705は規則を識別し、そして、規則追跡または規則履歴を展開するのに使用される。規則710のパターン部分、規則710のアクション部分、および、コメント部分720は、パック構造を変換するための変換規則を備える。センテンス圧縮に関連する規則は、限定はしないが、パック構造の否定語を除いて、付加詞を削除、追加、または、変更し、等位構造の部分を削除し、簡略化し、また、それらに類似することを実行することを含む。変換規則は、結果として得られる縮小構造の文法性または適格性を維持することを強いられないことに注意されたい。したがって、結果として得られた縮小パック構造には、どの英語センテンスにも対応しないものもある。
変換規則700を記憶するデータ構造の規則部分710のパターン部分は、値「+in_set(X,_Y),+PRED(X,of)」を含む。「+」は、構造ごとに、パターンが、PRED(X,of)形式の「of句」を決定することを示す。
変換規則700を記憶するデータ構造の規則部分710のアクション部分は、パック構造において対応するパターン部分が識別されたときに実行されるアクションを表現するエントリ「keep(X,yes)」を含む。「keep(X,yes)」修正オペレーションは、語句「+in_set(X,_Y),+PRED(X,of)」を有するパック構造に対して実行される。修正オペレーションアクションは、表現Xに関連するそれぞれの「of句」を維持する。
第2行は、規則識別子部分705に「161」を含み、規則710のパターン部分に「+adjunct(X,Y),PRED(X,HEAD)」を含み、アクション部分に「keep(X,yes)」を含み、また、コメント部分720に「ほかの場所で指定された特定の主要語に対して付加詞を維持する」を含む。
第3行は、規則識別子部分705に「1」を含み、規則710のパターン部分に「+adjunct(X,Y),PRED(X,P1),in_set(Z,Y)」を含み、また、アクション部分に「?=>delete_node(Z,r1)」を含む。オプションとしての修正インジケータ「?=>」は、この規則がオプションとして任意の付加詞を削除することを指定する。値「オプションとして任意の付加詞を削除する」であるコメント部分720は、規則の機能を説明するものである。
第4行は、規則識別子部分705に「20」を含み、規則710のパターン部分に「coord(X,’+_’),+in_set(Y,X)」を含み、また、アクション部分に「==>equal(Y,Y)」を含む。規則は、等位構造におけるアイテムの自己等価を主張する。コメント部分720の値は、規則の機能を説明するものである。
第5行は、規則識別子部分705に「2」を含み、規則710のパターン部分に「coord(X,AND),+in_set(Y,X),pred(Y,P1)」を含み、また、アクション部分に「==>delete_node(Y,r2)」を含む。規則は、オプションとして、等位構造からアイテムYを削除する。コメント部分720のエントリは、規則の機能を説明するものである。
最後の行は、規則識別子部分705に「22」を含み、規則710のパターン部分に「coord_form(X,AND),in_set(Z,X),keep(X,yes)」を含み、また、アクション部分に「==>delete_between([X,Z],r22)」を含む。規則は、等位構造におけるすべてのアイテムが削除されたならば、等位なものを削除する。コメント部分720のエントリは、規則の機能を説明するものである。また、後の処理のために、追跡または蓄積された規則履歴内に規則の適用を記録するために、フラグまたは設定が、セットされてもよい。
図8は、22個の単語を含む典型的な圧縮されるべきセンテンスを示す。
図9は、本発明に基づいて圧縮されるべき典型的なセンテンスに対応する典型的なアンパック構造800を示す。構造の最初の2つのレベルにおいて、典型的なアンパック構造800は、COORD要素805、PRED要素810および840、SUBJ要素815および845、XCOMP要素820および850、ADJUNCT要素825、TNS−ASP要素830および860、および、PASSIVE要素835および865を備える。付加詞下位構造内の第3レベルの構造における副詞的分類マーク801は、付加詞を「ADV−TYPE vpadv,PSEM unspecified,PTYPE sem」分類に対応させる。
例示的なパック構造は、構文解析文法を用いて、センテンスのテキスト構造「A prototype is ready for testing,and Leary hopes to set requirements for a full system by the end of the year」のコード化を表現する。例示的なパック構造は、「a prototype is ready for testing」である第1の構成素802と、「Leary hopes to set requirements for a full system by the end of the year」である第2の構成素804との等位からなる。
図10は、本発明による例示的な縮小パック構造を示す。縮小パック構造は、PRED要素810、SUBJ要素815、および、XCOMP要素820、そして、ADJUNCT要素825、TSN−ASP要素830、および、PASSIVE要素835を備える。付加詞下位構造内の第3レベルの構造における副詞的分類マーク801は、付加詞に関連する様々な分類をコード化する。
図11は、本発明による第1の例示的な候補構造1000を示す。構造の最初の2つのレベルにおいて、第1の例示的な候補構造は、PRED要素810、SUBJ要素815、XCOMP要素820、ADJUNCT要素825、TNS−ASP要素830、および、PASSIVE要素835を備える。付加詞下位構造内の第3レベルの構造における副詞的分類マーク801は、付加詞が「ADV−TYPE vpadv,PSEM unspecified,PTYPE sem」分類に対応していることを示す。
第1の例示的な候補構造1000は、等位において第2の構成素804を除去する変換規則の適用を表現している。すなわち、第1の例示的なデータ構造は、第2の構成素804に関連する、等位(COORD)要素805、そして、PRED要素840、SUBJ要素845、XCOMP要素850、TNS−ASP要素860、および、PASSIVE要素865を除去されている。最も重要な情報である「a prototype is ready for testing」は、維持されている。しかしながら、第2の構成素804に関連するあまり重要でない情報である「Leary hopes to set requirements for a full system by the end of the year」は、除去されている。
図12は、本発明による第2の例示的な候補構造1100を示す。構造の最初の2つのレベルにおいて、候補構造1100は、PRED要素810、SUBJ要素815、XCOMP要素820、TNS−ASP要素830、および、PASSIVE要素835を備える。
第2の例示的な候補構造1100は、第2の構成素804を除去するために適用された変換規則およびADJUNCT825を除去するためのさらなる規則の適用を表現している。第2の例示的な候補構造は、第1の構成素802に関連するADJUNCT構造の除去を表現している。「a prototype is ready」という最も重要な情報は、維持されている。しかしながら、あまり重要ではない付加詞情報「for testing」は、除去されている。
図13は、本発明による第3の例示的な候補構造1200を示す。第3の例示的な候補構造1200は、構造の第1および第2のレベルにおいて、PRED要素810、SUBJ要素815、XCOMP要素820、ADJUNCT要素825、TNS−ASP要素830、および、PASSIVE要素835を備える。付加詞下位構造内の第3レベルの構造における付加詞分類マーク801は、付加詞が「ADJUNCT−TYPE parenthetical,PSEM unspecified,PTYPE sem」分類に対応していることを示す。
第3の例示的な候補構造1200は、曖昧性解消モデルが縮小パック構造に適用されることを表現している。曖昧性解消モデルは、訓練テキストのコーパスから得られた確率的または予測的な曖昧性解消モデル、言語学的規則、または、何らかの良く知られているかまたは今後開発されるであろう曖昧性解消モデルであってもよい。曖昧性解消モデルは、自然言語テキスト構造またはセンテンス構造に必ずしも対応するとは限らない候補構造を選択する。
そして、文法的に正しい生成文法が、決定された候補構造のそれぞれに適用され、確かと思われる文法的テキスト構造またはセンテンスが、生成される。この例においては、テキスト構造における要素の配列が、付加詞分類マーク801の値によって示されるように、変更されている。異なる実施形態においては、文法的テキスト構造は、確率モデルまたは予測モデルから得られた順位に加えて、センテンス長の縮小率によって順位づけられる。縮小パック構造から得られた総合的に最も高い順位を有するテキスト構造が、選択される。生成された文法的テキスト構造が、決定され、そして、文法的に圧縮されたテキストセンテンスとして出力される。異なる実施形態においては、文法的に圧縮されたテキストセンテンスは、オプションとして、メモリ・ストレージに保存され、表示装置に出力され、また、それらに類似することがなされる。
図14は、本発明による第4の例示的な候補構造1300を示す。構造の最初の2つのレベルにおいて、第4の例示的な候補構造は、PRED要素810、SUBJ要素815、XCOMP要素820、ADJUNCT要素825、TNS−ASP要素830、および、PASSIVE要素835を備える。付加詞下位構造内の第3レベルの構造における付加詞分類マーク801は、付加詞が「ADV−TYPE sadv,PSEM unspecified,PTYPE sem」分類に対応していることを示す。
第4の例示的な候補構造1300は、曖昧性解消モデルが縮小パック構造に適用されることを表現している。上述したように、様々な実施形態において、曖昧性解消モデルは、訓練テキストのコーパスから得られた確率的曖昧性解消モデルまたは予測的曖昧性解消モデル、言語学的な規則、または、何らかの良く知られているかまたは今後開発されるであろう曖昧性解消モデルであってもよい。曖昧性解消モデルは、自然言語テキスト構造またはセンテンス構造に必ずしも対応するとは限らない候補構造を選択する。
文法的に正しい生成文法が、それぞれの候補構造に適用され、確かと思われる文法的テキスト構造またはセンテンスが、生成される。この場合、要素の配列の変更が、付加詞分類マーク801の値によって示される。異なる実施形態においては、文法的テキスト構造は、確率モデルまたは予測モデルから得られた順位に加えて、センテンス長の縮小量によって順位づけられる。縮小パック構造から得られた総合的に最も高い順位を有するテキスト構造が、選択される。そして、所望の圧縮特徴を有する生成された文法的テキスト構造が、決定され、文法的に圧縮されたテキストセンテンスとして出力される。異なる実施形態においては、文法的に圧縮されたテキストセンテンスは、オプションとして、メモリ・ストレージに保存され、表示装置に出力され、また、それらに類似することがなされる。
図15は、例示的な候補テキストデータ構造1400を示す。候補テキスト構造データ構造1400は、候補構造ID部分1410、候補テキスト構造部分1420、および、順位部分1430を備える。候補テキストデータ構造1400のID部分1410は、候補テキスト構造部分1420が生成される候補構造を識別する。順位部分1430は、生成された候補テキスト構造の長さ、文法性、および、適合度に基づいた候補テキスト構造の順位を示す。例えば、候補テキストデータ構造1400の第1行は、候補構造ID部分1410に「A2」を含み、候補テキスト構造部分1420に「a prototype is ready」を含み、また、順位部分1430に「1」を含む。これは、「A2」候補構造から生成された候補テキスト構造「A prototype is ready」がテキスト構造を最もよく圧縮していることを示す最も高い順位「1」に対応することを示す。
図16は、本発明による例示的な規則追跡記憶構造1500を示す。例示的な規則追跡記憶構造1500は、規則識別子部分1505、規則部分1510、および、コメント部分1520を備える。
第1行は、規則追跡エントリが規則13の適用に対応していることを示す規則識別子部分1505エントリ「13」を含む。
規則部分1510エントリ「keep(var(98),of)」は、規則識別子部分1505内に示される規則の適用において実行される個々のアクションの1つである。規則追跡記憶構造1500のコメント部分1520は、値「規則13によって実行されるアクション」を含む。コメント部分は、それぞれの規則追跡エントリの機能に関する注釈を提供する。
上述した文法的テキスト圧縮システム100の回路10〜55のそれぞれは、ASIC、あるいは、FPGA、PDL、PLA、または、PALを用いて、あるいは、個別論理素子または個別回路素子を用いて、適切にプログラムされた汎用コンピュータの一部分として実施されてもよい。上述した文法的テキスト圧縮システム100の回路10〜55それぞれが有する特定の形態は、設計上の選択に関することであり、この分野に精通する者には、明白なことであり、容易に考え出すことができるものである。
上述した文法的テキスト圧縮システム100および/またはそれぞれの様々な回路は、それぞれ、プログラムされた汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、または、それらに類似するもので動作するソフトウェアルーチン、マネージャー、または、オブジェクトとして実施されてもよく、また、上述した様々な回路は、通信ネットワークに組み込まれた1つかまたはそれ以上のルーチンとして、サーバに存在する資源として、または、それらに類似するものとして、実施されてもよい。また、上述した文法的テキスト圧縮システム100および様々な回路は、文法的テキスト圧縮システム100を、ウェブサーバまたはクライアント装置のハードウェアおよびソフトウェアのようなソフトウェアおよび/またはハードウェアシステムの中に物理的に組み込むことによって、実施されてもよい。
図3に示されるように、メモリ20は、書き換え可能な、揮発性の、あるいは、不揮発性のメモリ、または、書き換え不能な、または、固定メモリの何らかの適切な組み合わせを用いて、実施されてもよい。
図1および図3に示される通信リンク99は、それぞれ、何らかの良く知られているかまたは今後開発されるであろう接続システム、または、装置を接続しかつ通信を容易にするのに使用することのできる機構であってもよい。
上述した例示的な実施形態に基づいて、本発明を説明したが、この分野に精通する者は、多くの別法、変更、および、変形を容易に考え出すことができることは明白である。
本発明による例示的な文法的テキスト圧縮システムの概略図である。 文法的にテキストを圧縮するための本発明による例示的な方法のフローチャートである。 本発明による例示的な文法的テキスト圧縮システムを示す図である。 文法的にテキストを圧縮するための本発明による例示的な方法のより詳細なフローチャートである。 候補構造を決定するための本発明による例示的な方法のより詳細なフローチャートである。 候補テキスト構造を決定するための本発明による例示的な方法のフローチャートである。 変換規則を記憶するための本発明による例示的なデータ構造を示す図である。 圧縮されるべき例示的なセンテンスである。 例示的なアンパック構造を示す図である。 例示的なアンパック構造を示す図である。 本発明による例示的なパック構造を示す図である。 本発明による第1の例示的な候補構造を示す図である。 本発明による第2の例示的な候補構造を示す図である。 本発明による第3の例示的な候補構造を示す図である。 本発明による第4の例示的な候補構造を示す図である。 本発明による例示的な候補テキストデータ構造を示す図である。 本発明による例示的な規則追跡記憶構造を示す図である。
符号の説明
99 通信リンク
100 文法的テキスト圧縮システム
200 情報レポジトリ
300 ウェブ対応型パーソナルコンピュータ
400 ウェブ対応型タブレットコンピュータ
500 電話
1000 テキスト

Claims (1)

  1. 複数種類の言語学上の要素を含む文を備えたテキストのデータを受信する受信手段と、
    複数種類の言語学上の複数の要素各々の内容に応じ、かつ、テキストを圧縮するために予め定められた、各要素を編集するための規則を記憶する記憶手段と、
    を備えたテキスト圧縮装置であって、
    前記受信手段により受信された前記データから文を決定し、
    前記決定された前記文を、構文解析文法に基づいて、複数種類の言語学上の複数の要素に分解し、
    前記文が分解されて得られた前記複数の要素各々と、前記記憶手段に記憶された規則と、に基づいて、前記文が分解されて得られた前記複数の要素各々を編集して複数の編集結果を生成し、
    前記編集されて生成された前記複数の編集結果各々の、前記テキストの圧縮結果として適合する順位を、編集結果の単語数に基づく長さ及び文法に基づいて、決定し、
    各編集結果について前記決定された順位に基づいて、前記テキストの圧縮結果として最も適合する編集結果を選択する
    テキスト圧縮装置。
JP2004140818A 2003-05-12 2004-05-11 テキスト圧縮装置 Expired - Fee Related JP4493397B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/435,036 US20040230415A1 (en) 2003-05-12 2003-05-12 Systems and methods for grammatical text condensation

Publications (3)

Publication Number Publication Date
JP2004342104A JP2004342104A (ja) 2004-12-02
JP2004342104A5 JP2004342104A5 (ja) 2009-02-19
JP4493397B2 true JP4493397B2 (ja) 2010-06-30

Family

ID=33299561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004140818A Expired - Fee Related JP4493397B2 (ja) 2003-05-12 2004-05-11 テキスト圧縮装置

Country Status (3)

Country Link
US (1) US20040230415A1 (ja)
EP (1) EP1486885A3 (ja)
JP (1) JP4493397B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610190B2 (en) * 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
US7657420B2 (en) * 2003-12-19 2010-02-02 Palo Alto Research Center Incorporated Systems and methods for the generation of alternate phrases from packed meaning
US7801723B2 (en) * 2004-11-30 2010-09-21 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive condensation
US7827029B2 (en) * 2004-11-30 2010-11-02 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive note-taking
JP4938298B2 (ja) 2004-11-30 2012-05-23 パロ・アルト・リサーチ・センター・インコーポレーテッド テキストの要約に含める文の候補を出力する方法およびプログラム
US7401077B2 (en) * 2004-12-21 2008-07-15 Palo Alto Research Center Incorporated Systems and methods for using and constructing user-interest sensitive indicators of search results
US7613664B2 (en) * 2005-03-31 2009-11-03 Palo Alto Research Center Incorporated Systems and methods for determining user interests
US20060253205A1 (en) * 2005-05-09 2006-11-09 Michael Gardiner Method and apparatus for tabular process control
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
US20090162818A1 (en) * 2007-12-21 2009-06-25 Martin Kosakowski Method for the determination of supplementary content in an electronic device
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US11468243B2 (en) 2012-09-24 2022-10-11 Amazon Technologies, Inc. Identity-based display of text
US10497366B2 (en) * 2018-03-23 2019-12-03 Servicenow, Inc. Hybrid learning system for natural language understanding

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5438511A (en) * 1988-10-19 1995-08-01 Xerox Corporation Disjunctive unification
US5338976A (en) * 1991-06-20 1994-08-16 Ricoh Company, Ltd. Interactive language conversion system
US5689716A (en) * 1995-04-14 1997-11-18 Xerox Corporation Automatic method of generating thematic summaries
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US6061675A (en) * 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5903860A (en) * 1996-06-21 1999-05-11 Xerox Corporation Method of conjoining clauses during unification using opaque clauses
US5819210A (en) * 1996-06-21 1998-10-06 Xerox Corporation Method of lazy contexted copying during unification
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
JP3879321B2 (ja) * 1998-12-17 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
AU2001261506A1 (en) * 2000-05-11 2001-11-20 University Of Southern California Discourse parsing and summarization
US7092872B2 (en) * 2001-06-19 2006-08-15 Fuji Xerox Co., Ltd. Systems and methods for generating analytic summaries

Also Published As

Publication number Publication date
EP1486885A2 (en) 2004-12-15
US20040230415A1 (en) 2004-11-18
JP2004342104A (ja) 2004-12-02
EP1486885A3 (en) 2006-08-30

Similar Documents

Publication Publication Date Title
US7401077B2 (en) Systems and methods for using and constructing user-interest sensitive indicators of search results
US9069750B2 (en) Method and system for semantic searching of natural language texts
US9495358B2 (en) Cross-language text clustering
US6654731B1 (en) Automated integration of terminological information into a knowledge base
US9098489B2 (en) Method and system for semantic searching
US8224641B2 (en) Language identification for documents containing multiple languages
US7970600B2 (en) Using a first natural language parser to train a second parser
US7788083B2 (en) Systems and methods for the generation of alternate phrases from packed meaning
US8280721B2 (en) Efficiently representing word sense probabilities
US20050203900A1 (en) Associative retrieval system and associative retrieval method
JP4493397B2 (ja) テキスト圧縮装置
JP2009266244A (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
KR20160105400A (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
MXPA04002816A (es) Modelos estadisticos informados linguisticamente de una estructura compuesta para ordenar la comprension de una oracion para un sistema de generacion de lenguaje natural.
US7827029B2 (en) Systems and methods for user-interest sensitive note-taking
US7801723B2 (en) Systems and methods for user-interest sensitive condensation
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
Choi et al. Neural attention model with keyword memory for abstractive document summarization
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2005531857A (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
Ouersighni Robust rule-based approach in Arabic processing
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP4938298B2 (ja) テキストの要約に含める文の候補を出力する方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081023

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100406

R150 Certificate of patent or registration of utility model

Ref document number: 4493397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140416

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees