JP4706227B2 - ハイブリッドテキスト要約を決定する方法、システム、及び、制御プログラム、談話構文解析方法、システム、及び、該システムにおける方法、談話構成要素にテキストを分割する方法及びシステム、談話の構造表現を決定する方法及びシステム、ハイブリッドテキスト要約システム - Google Patents

ハイブリッドテキスト要約を決定する方法、システム、及び、制御プログラム、談話構文解析方法、システム、及び、該システムにおける方法、談話構成要素にテキストを分割する方法及びシステム、談話の構造表現を決定する方法及びシステム、ハイブリッドテキスト要約システム Download PDF

Info

Publication number
JP4706227B2
JP4706227B2 JP2004299833A JP2004299833A JP4706227B2 JP 4706227 B2 JP4706227 B2 JP 4706227B2 JP 2004299833 A JP2004299833 A JP 2004299833A JP 2004299833 A JP2004299833 A JP 2004299833A JP 4706227 B2 JP4706227 B2 JP 4706227B2
Authority
JP
Japan
Prior art keywords
discourse
node
constituent
score
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004299833A
Other languages
English (en)
Other versions
JP2005122743A (ja
JP2005122743A5 (ja
Inventor
ポラーニー リビア
ヘンク ヴァン デン バーグ マーティン
エル.ティオーネ ジョバンニ
エス.クラウチ リチャード
ディー.カリー クリストファー
ディー.アーン デイビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2005122743A publication Critical patent/JP2005122743A/ja
Publication of JP2005122743A5 publication Critical patent/JP2005122743A5/ja
Application granted granted Critical
Publication of JP4706227B2 publication Critical patent/JP4706227B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明はテキスト情報の要約を決定することに関する。詳細には、ハイブリッドテキスト要約を決定する方法、システム、及び、制御プログラム、談話構文解析方法、システム、及び、該システムにおける方法、談話構成要素にテキストを分割する方法及びシステム、談話の構造表現を決定する方法及びシステム、ハイブリッドテキスト要約システムに関する。
企業、政府政策者、情報分析者、他の研究者及び知識労働者は増え続ける大量の情報を検討し、理解することに直面している。最も関連性のある情報に基づき要約を作成することにより情報量の削減を試みた研究者もいた。関連性の基準は、多くの場合、キーワード及び/又は用語頻度、並びに情報リポジトリ内の文書の集合についての文書逆頻度統計等の非構造特徴に基づいている。しかしながら、これらの従来の非構造テキスト要約は頻繁に解体され、読むのが困難である。さらに、非構造テキスト要約のために選択される要素は統計学上の重要度の基準に基づいている。したがって、順次選択されたテキスト要約要素の代名詞は、これらの従来の要約の有用性を削減する省かれた先行する参考文献を参照することがある。
構造に基づいた要約からあまり重要ではない情報を選択的に削除することによりテキスト要約の質の改善を試みた他の研究者もいた。これらの従来の構造に基づいたテキスト要約システムでは、テキストの構造表現が決定される。あまり重要ではない情報は、テキスト要約に含まれる所望される従属のレベルを選択することにより構造表現から取り除かれる。これらの従来の構造テキスト要約は対象情報を含むことによって文法性を失わないようにする。しかしながら、結果として生じるテキスト要約は多くの場合、前記対象を解決するために必要とされる以上の情報を含んでいる。
例えば、特許文献1、2及び非特許文献1は、本願に関連する技術について記載している。詳細には、特許文献1は、コンピュータ解析支援を用いた読解技能向上システムについて記載し、特許文献2は、ワード・プロセッサのための文書要約に関する技術について記載している。
米国特許出願公開第2004/0067472 A1号明細書 米国特許第6、349、316 B2号明細書 E.ホヴィ(E. Hovy)、「談話構造関係を用いた自動談話生成(Automated Discourse Generation Using Discourse Structure Relations)」、人工知能(Artificial Intelligence)、アムステルダム、1993年、巻63、頁341〜385
ハイブリッドテキスト要約を決定する上で構造情報及び非構造情報の組み合わせを可能にするシステム及び方法が有用となるであろう。本発明のシステム及び方法による多様な例示的な実施形態は、文法的なハイブリッドテキスト要約を決定する際の構造情報及び非構造情報の組み合わせを可能にする。テキストは談話構成要素を決定するために談話分析の理論の分割規則に基づいて分割される。決定された談話構成要素は、談話分析の理論の結合規則に基づいて談話の構造表現に結合される。関連性スコアは、統計、キーワード、知識ベース、又は任意の既知の又は今後開発される、関連性を決定する非構造方法に基づいて決定される。関連性スコアは談話の構造表現中の構造的に関連する談話構成要素ノードに浸透されている。選択可能及び/又は調整可能な重要度スコアは、談話の構造表現から談話構成要素のサブツリーを選択するために使用される。浸透方法及び/又は関連性スコアに対する調整は、談話構成要素の前記サブツリーの圧縮を調整し、ハイブリッドテキスト要約を形成するために使用される。テキストを基本的な談話構成要素に分割し、談話構成要素を談話分析の理論に基づいて分類するシステム及び方法が提供される。各種の決定された談話構成要素を談話の構造表現に結合させるシステム及び方法も提供される。
本発明の第1の態様のハイブリッドテキスト要約を決定する方法は、テキストの談話構成要素を決定するステップと、テキストの談話の構造表現を決定するステップと、統計、キーワード、知識ベースの少なくとも一つに基づいて決定される少なくとも一つの関連性の非構造基準に基づいて談話構成要素の関連性スコアを決定するステップと、談話の構造表現に基づいて関連性スコアを浸透するステップと、閾値重要性スコアと比較した関連性スコアにより、談話構成要素に基づいてハイブリッドテキスト要約を決定するステップと、を有する。
本発明の第2の態様は、第1の態様のハイブリッドテキスト要約を決定する方法であって、前記談話分析の理論が、言語談話モデル、統一言語談話モデル、修辞構造理論、談話構造理論及び構造化談話表現理論の少なくとも一つである。
本発明の第3の態様は、第1の態様のハイブリッドテキスト要約を決定する方法であって、前記関連性スコアを浸透するステップが、子の談話構成要素ノードがより関連性のある場合に、構造表現中の子の談話構成要素ノードごとに、子の談話構成要素ノードの関連性スコアを親の談話構成要素ノードに割り当てるステップと、被従属談話構成要素がより関連性がある場合に、任意の従属ノードについて、従属談話構成要素に被従属談話構成要素の関連性スコアを割り当てるステップと、任意の等位ノードについて、最も関連性のある子の関連性スコアを他の子の談話構成要素ノードに割り当てるステップと、を有する。
本発明の第4の態様は、第1の態様のハイブリッドテキスト要約を決定する方法であって、前記関連性スコアを浸透するステップが、子の談話構成要素ノードが親より関連性がある場合に、構造表現中の子の談話構成要素ノードごとに、親の談話構成要素ノードに子の談話構成要素ノードの関連性スコアを割り当てるステップと、等位にされた談話構成要素ノードごとに、等位にされた談話構成要素ノードの関連性スコアをそれぞれの先行より関連性がない同位のノードに割り当てるステップと、等位にされた談話構成要素ノードではなく、被従属談話構成要素ノードではない子の談話構成要素ノードごとに、親の談話構成要素が子より関連性がある場合に、親の談話構成要素ノードの関連性スコアを子の談話構成要素ノードに割り当てるステップと、等位にされた談話構成要素ノードごとに、等位にされた談話ノード及びすべての同位が親のノードより関連性がない場合に、親の談話構成要素ノードの関連性スコアを等位にされた談話構成要素ノードに割り当てるステップと、被従属談話構成要素が従属ノードより関連性がある場合に、被従属談話構成要素ノードごとに、被従属談話構成要素ノードの関連性スコアを従属談話構成要素に割り当てるステップと、ノードごとに、その関連性スコアが別のノードの関連性スコアに変更されるノードが見つからなくなるまで前記ステップを繰り返すステップと、を有する。
本発明の第5の態様は、ハイブリッドテキスト要約を決定する方法であって、テキストの談話構成要素を決定するステップと、テキストの談話の構造表現を決定するステップと、談話構成要素の関連性スコアを決定するステップと、談話の構造表現に基づいて関連性スコアを浸透するステップと、閾値重要性スコアに比較した関連性スコアにより談話構成要素に基づいてハイブリッドテキスト要約を決定するステップと、を有し、前記関連性スコアを浸透するステップは、談話構成要素リーフノードごとに、被従属エッジに1を加えた数を決定するステップと、被従属エッジ+1の逆数に基づいてスコアを決定するステップと、スコアの関連性がより少ない場合に、談話構成要素ノードごとに、子の談話構成要素ノードのスコアを親の談話構成要素ノードに割り当てるステップと、被従属談話構成要素スコアがより低い場合に、任意の従属談話構成要素ノードについて、被従属談話構成要素ノードのスコアを従属談話構成要素ノードに割り当てるステップと、任意の等位構造談話構成要素ノードの関連性スコアを、より低い場合に、子の談話構成要素の等位のそれぞれに割り当てるステップと、スコア及び従属レベルに基づいて、調整された関連性スコアを決定するステップと、を有する。
本発明の第6の態様は、第1の態様のハイブリッドテキスト要約を決定する方法であって、照応を含むあらゆるリーフ談話構成要素を決定するステップと、照応ごとに、照応のユニークな先行する対象を決定するステップと、照応について、リーフ談話構成要素にユニークな先行する対象を代入するステップと、閾値重要性スコアよりさらに関連性のある関連性スコアにより、談話構成要素の集合からユニークな先行する対象を含む談話構成要素を削除するステップと、をさらに有する。
本発明の第7の態様は、第1の態様のハイブリッドテキスト要約を決定する方法であって、関連性スコアを浸透するステップが、重要談話構成要素ノードを決定するステップと、未解決照応を決定するステップと、照応を解決する可能性のある潜在的な先行する対象を含む潜在的な解決する談話構成要素を決定するステップと、潜在的な解決する談話構成要素の縮小された範囲を通して、重要談話構成要素の関連性スコアを浸透するステップと、関連性スコアに基づいて、談話構成要素の縮小された範囲を決定するステップと、を有する。
本発明の第8の態様は、ハイブリッドテキスト要約を決定するシステムであって、テキストを取り出す入力/出力回路と、テキストの談話構成要素を決定し、談話の構造表現に談話構成要素を結合するプロセッサと、キーワード、知識ベースの少なくとも一つに基づいて決定される少なくとも一つの関連性の非構造基準に基づいて、談話構成要素の関連性スコアを決定する関連性スコア決定回路と、談話の構造表現に基づいて、談話構成要素関連性スコアを浸透する浸透回路と、を備え、前記プロセッサが、閾値重要性スコアを超える関連性スコアにより談話構成要素に基づいて、ハイブリッドテキスト要約を決定する。
本発明の第9の態様は、第8の態様のハイブリッドテキスト要約を決定するシステムであって、前記談話分析の理論が、言語談話モデル、統一言語談話モデル、修辞構造理論、談話構造理論及び構造化談話表現理論の少なくとも一つである。
本発明の第10の態様は、第8の態様のハイブリッドテキスト要約を決定するシステムであって、前記浸透回路が、子の談話構成要素ノードがより関連性がある場合に、構造表現中の子の談話構成要素ノードごとに、子の談話構成要素ノードの関連性スコアを親の談話構成要素ノードに割り当て、前記浸透回路が、被従属談話構成要素がより関連性がある場合に、任意の従属ノードについて、従属談話構成要素に被従属談話構成要素の関連性スコアを割り当て、前記浸透回路が、任意の等位ノードについて、最も関連性のある子の関連性スコアを他の子の談話構成要素ノードに割り当てる。
本発明の第11の態様は、第8の態様のハイブリッド要約を決定するシステムであって、前記浸透回路が、子の談話構成要素ノードが親より関連性がある場合に、構造表現中の子の談話構成要素ごとに、子の談話構成要素ノードの関連性スコアを親の談話構成要素ノードに割り当て、前記浸透回路が、等位にされた談話構成要素ノードごとに、それぞれの先行より関連性がない同位のノードに、等位にされた談話構成要素ノードの関連性スコアを割り当て、前記浸透回路が、等位にされた談話構成要素ノードではなく、被従属談話構成要素ノードではない子の談話構成要素ノードごとに、親の談話構成要素が子より関連性がある場合に、子の談話構成要素ノードに親の談話構成要素ノードの関連性スコアを割り当て、前記浸透回路が、等位にされた談話ノード及びすべての同位が親のノードより関連性が少ない場合に、等位にされた談話構成要素ノードごとに、親の談話構成要素ノードの関連性スコアを等位にされた談話構成要素ノードに割り当て、前記浸透回路が、被従属談話構成要素が従属ノードより関連性がある場合に、被従属談話構成要素ノードごとに、被従属談話構成要素ノードの関連性スコアを従属談話構成要素に割り当て、前記浸透回路が、関連性スコアが別のノードの関連性スコアに変更されるノードを見つけられなくなるまで、ノードごとに、前記ステップを繰り返す。
本発明の第12の態様は、ハイブリッドテキスト要約を決定するシステムであって、テキストを取り出す入力/出力回路と、テキストの談話構成要素を決定し、談話構成要素を談話の構造表現の中に結合するプロセッサと、少なくとも一つの関連性の非構造基準に基づいて、談話構成要素の関連性スコアを決定する関連性スコア決定回路と、談話の構造表現に基づいて、談話構成要素関連性スコアを浸透する浸透回路と、を有し、前記浸透回路が、談話構成要素リーフノードごとに、被従属エッジに1を加えた数の逆数に基づいて、被従属エッジに1を加えた数及びスコアを決定し、前記浸透回路が、スコアの関連性がより少ない場合に、談話構成要素ノードごとに、子の談話構成要素ノードのスコアを親の談話構成要素に割り当て、前記浸透回路が、被従属談話構成要素スコアがより低い場合に、任意の従属談話構成要素ノードについて、被従属談話構成要素ノードのスコアを従属談話構成要素ノードに割り当て、前記浸透回路が、より低い場合に、等位の子の談話構成要素のそれぞれに任意の等位談話構成要素ノードのスコアを割り当て、前記プロセッサが、スコア及び従属レベルに基づき調整された関連性スコアを決定し、ハイブリッドテキスト要約が閾値重要性スコアを超える関連性スコアにより談話構成要素に基づいて決定される。
本発明の第13の態様は、第8の態様のハイブリッド要約を決定するシステムであって、前記プロセッサが、照応を含むあらゆるリーフ談話構成要素を決定し、前記プロセッサが、照応ごとに、照応の任意のユニークな先行する対象を決定し、前記プロセッサが、ユニークな先行する対象を、照応対象の先行する談話構成要素に代入し、前記プロセッサが、閾値重要性スコアを超える関連性スコアにより談話構成要素からユニークな対象を含む先行する談話を削除する。
本発明の第14の態様は、第8の態様のハイブリッド要約を決定するシステムであって、前記浸透回路が、照応を含むあらゆるリーフ談話構成要素を決定し、前記浸透回路が、照応ごとに、照応の任意のユニークな先行する対象を決定し、前記浸透回路が、ユニークな先行する対象を照応のリーフ談話構成要素に代入し、前記浸透回路が、より関連性のある関連性スコアにより談話構成要素の集合からユニークな先行する対象を含む談話構成要素を削除する。
本発明の第15の態様は、第8の態様のハイブリッド要約を決定するシステムであって、前記プロセッサが、関連性の非構造基準に基づいて重要談話構成要素ノードを決定し、重要談話構成要素の中の未解決対象を決定し、対象を解決する可能性がある潜在的な解決する談話構成要素を決定し、潜在的な解決する談話構成要素の縮小された範囲を通して重要談話構成要素の関連性スコアを浸透し、関連性スコアに基づいて談話構成要素の縮小された範囲を決定する。
本発明の第16の態様は、ハイブリッドテキスト要約を決定するためにコンピュータをプログラミングするために使用可能な制御プログラムであって、テキストの談話構成要素を決定する命令と、テキストの談話の構造表現を決定する命令と、キーワード、知識ベースの少なくとも一つに基づいて決定される少なくとも一つの関連性の非構造基準に基づいて、談話構成要素の関連性スコアを決定する命令と、談話の構造表現に基づいて関連性スコアを浸透する命令と、閾値重要性スコアと比較した関連性スコアにより談話構成要素に基づいて、ハイブリッドテキスト要約を決定する命令と、を有する。
本発明の第17の態様は、談話構成要素にテキストを分割する方法であって、談話分析の理論を決定するステップと、候補セグメントを決定するステップと、談話を続行することに関連付けられる候補セグメントの品詞(part−of−speech)タグ、蓋然性構文解析ツール、統計構文解析ツール、有限状態構文解析ツール、記号構文解析ツール、語彙目録及びWordNet関係の少なくとも一つに基づいて決定される属性を決定するステップと、を有する。
本発明の第18の態様は、構造表現を決定する方法であって、テキストの談話構成要素を決定するステップと、談話構成要素の談話分析分類の理論、及び統語的な制限、意味論的な制限及び語彙的−意味論的な制限の少なくとも一つに基づいて談話の構造表現に談話構成要素を結合するステップと、を有する。
本発明の第19の態様は、ハイブリッドテキスト要約システムであって、テキストの談話構成要素を決定する手段と、テキストの談話の構造表現を決定する手段と、キーワード、知識ベースの少なくとも一つに基づいて決定される少なくとも一つの関連性の非構造基準に基づいて談話構成要素の関連性スコアを決定する手段と、談話の構造表現に基づいて関連性スコアを浸透する手段と、閾値重要性スコアと比較した関連性スコアにより談話構成要素に基づいてハイブリッドテキスト要約を決定する手段と、を有する。
本発明の第20の態様は、ハイブリッドテキスト要約システムであって、テキストの談話構成要素を決定する手段と、テキストの談話の構造表現を決定する手段と、談話構成要素の関連性スコアを決定する手段と、談話の構造表現に基づいて関連性スコアを浸透する手段と、閾値重要性スコアと比較した関連性スコアにより談話構成要素に基づいてハイブリッドテキスト要約を決定するための手段と、を有し、前記関連性スコアを浸透する手段は、談話構成要素リーフノードごとに、被従属エッジに1を加えた数を決定し、被従属エッジ+1の逆数に基づいてスコアを決定し、スコアの関連性がより少ない場合に、談話構成要素ノードごとに、親の談話構成要素ノードに子の談話構成要素ノードのスコアを割り当て、被従属談話構成要素スコアがより低い場合に、任意の従属談話構成要素ノードについて、従属談話構成要素ノードに被従属談話構成要素ノードのスコアを割り当て、等位の子の談話構成要素のそれぞれに任意の等位談話構成要素ノードの関連性スコアを、より低い場合に、割り当て、スコア及び従属レベルに基づいて調整された関連性スコアを決定する。
図1は、本発明による例示的なハイブリッド要約システム100の概要である。ハイブリッド要約システム100は、ウェブ使用可能なパーソナルコンピュータ300、ウェブ使用可能なタブレットコンピュータ400、及び文書10000〜10002を含む情報リポジトリ200に通信リンク99を介して接続されている。
本発明による多様な例示的な実施形態の一つでは、ウェブ使用可能なパーソナルコンピュータ300が情報リポジトリ200に含まれている文書10000のハイブリッドテキスト要約に対する要求を開始する。前記要求は通信リンク99を介してハイブリッド要約システム100に転送される。ハイブリッド要約システム100はハイブリッドテキスト要約に対する要求を取り次ぐ。次に、ハイブリッド要約システム100は情報リポジトリ200から文書10000を取り出す。それから、テキスト文書10000は談話分析の理論のための決定された分割規則に基づき談話構成要素に分割される。
本発明による多様な例示的な実施形態では、分割規則はテキストを基本的な談話構成要素単位(BDU)に分割するために使用される。基本談話構成要素単位は、統一言語談話モデル(ULDM)、修辞構造理論(RST)、談話構造理論、構造化談話表現理論(SDRT)又は談話分析の他の既知の、あるいは今後開発される理論について作成される分割規則に基づいて決定される。例えば、言語談話モデルのそれぞれの基本談話構成要素は、1)多くとも一つの考えられる世界の情勢についての情報、及び、2)先に発生した言語学的なジェスチャ、あるいはおそらく次の言語学的なジェスチャが、談話又は談話が発生する文脈の中の他の単位に構造上、意味論上、インタラクティブに、あるいは修辞学的にどのように関係するのかについての情報を符号化する関数情報、を伝達する文脈を基準にして解釈される言語学上のジェスチャから構成されている。言語学的に実現された基本談話構成要素単位の文の統語的な反射作用は、それが見つけられる文の外部からの連続のために利用しやすいセグメントである。事象に対する参照は必要であるが、ある単語が大部分の談話構成要素の先頭になるためには十分ではない。したがって、助動詞及び法動詞はそれらの本動詞から別個の談話構成要素を形成しないであろう。それらは別個の事象を参照しないため、「しなければならない」、「すべきである」等の不定詞を含む他の法助動詞構造も同じ論法によって、それらの補語と単一のセグメントを構成する。
このようにして、談話構成要素単位を決定するために、候補談話構成要素セグメントは事象を参照し、談話の中で後に事象を「続行する」ために十分な文脈を提供しなければならない。「試す」又は「説得する」などの同一動詞及び「と思われる」及び「信じる」などの繰り上げ動詞は、両方の事象とも続行できるためそれらの動詞補語から別個の文法項を形成する。対照的に、動名詞を含む事象名詞語句は、それらが文法項又は修飾語句である動詞とおそらく識別可能である事象を参照しても、それらの事象は容易に続行しない。
統一言語談話モデルは決定された基本的な談話構成要素を結合規則に基づいて談話の構造表現に連結する。結合規則は、基本談話構成要素が談話の右に開いたツリー構造表現にどのように連結されるのかを突き止めるために使用される。
例えば、統一言語談話モデルは、基本談話構成要素を右に開いたツリーに基づいて談話の構造表現に連結するために単独で、あるいは組み合わせて使用できる統語的、意味論的、語彙的−意味論的、構造上及びデフォルトの結合規則を提供する。統計的なキーワード及び/又は重要談話構成要素を決定する他の既知の、あるいは今後開発される方法は、連結された談話構成要素のサブツリーを定義するために使用される。追加の支持する談話構成要素は、談話分析の理論に関連付けられる結合規則に基づいて含まれる。本発明による多様な他の例示的な実施形態において、結合又は連結支持情報が統計的なキーワード及び/又は他の関連性情報と、各談話構成要素と関連付けられた単一の関連性スコアに合体されてよいことが明らかとなるであろう。ハイブリッド要約システムがハイブリッドテキスト要約を決定した後で、ハイブリッドテキスト要約はウェブ使用可能なパーソナルコンピュータ300に転送される。
本発明による別の例示的な実施形態では、ウェブ使用可能なタブレットコンピュータ400のユーザが情報リポジトリ200の中の文書10001のハイブリッドテキスト要約を要求する。前記要求は通信リンク99を介してハイブリッド要約システム100に転送される。ハイブリッド要約システム100は通信リンク99を介して情報リポジトリ200から文書10001を取り出す。談話の構造表現が、決定される談話構成要素間のリンクを指定する談話分析の理論に基づき要求された文書10001について決定される。テキスト中の重要談話構成要素を突き止めるために、統計的な分析、キーワード、知識ベースの検索又は重要な情報を決定する任意の既知のあるいは今後開発される方法が使用されてよい。例えば、統計的な及び/又はキーワードに基づいた技法は、閾値重要度スコアを超える関連性スコアを有する談話構成要素を決定するために適用される。決定された重要談話構成要素及び談話の構造表現中の支持する先行談話構成要素が、談話構成要素のサブツリーを定義する。
本発明による多様な例示的な実施形態では、談話構成要素リーフノードの関連性スコアが他の談話構成要素の関連性スコアを調整するために談話の構造表現を通して浸透される。関連性スコアの浸透は、変化する数の支持する利用しやすい談話構成要素を含むために談話分析の理論に基づいて調整されてよい。異なる浸透方法がテキストの異なるジャンル、テキストの異なる言語又は任意の属性、あるいは談話の構造表現に影響を及ぼす可能性のある文書に基づいて指定されてよい。
談話分析の他の理論は、情報が構造にどのように符号化されるのかの詳細で異なる可能性があるが、先行の支持する談話構成要素の識別及び関連性スコアの構造に基づいた浸透は、文法性を保つ任意のテキスト要約機能とともに使用されてよい。例えば談話の構造表現が統一言語談話モデル(ULDM)に基づいている場合、リーフノードとして重要談話構成要素を有する談話の構造表現からの関連する談話構成要素の縮小されたサブツリーがハイブリッドテキスト要約として決定される。
図2は、本発明の例示的な実施形態によるハイブリッドテキスト要約を決定する第1の方法である。プロセスはステップS100で開始し、談話分析の理論が決定されるステップS200に続行する。制御は次にステップS300に続行する。
ステップS300では、要約されるテキストが決定される。テキストは、ドロップダウンダイアログボックスから先に作成されたテキストを選択することにより決定され、エディタ又はワープロを使用して入力され、ウェブサーバ又はデジタルライブラリなどの情報リポジトリから取り出され、あるいは、既知のあるいは今後開発されるテキスト選択方法を使用して決定されてよい。テキストが決定された後、制御は、テキストが次に談話分析の理論の分割規則に基づいて談話構成要素に分割されるステップS400に続行する。
テキストは、談話構成要素のグラフを決定する談話分析の任意の理論に基づいて分割されてよい。例えば、言語談話モデル及び統一言語談話モデルはそれぞれテキスト内の談話構成要素を決定するための分割規則を提供する。統一言語談話モデルの分割規則は、それぞれの識別された談話構成要素が、等位接続、従位接続、及びN分(N−ary)ノード又は二分ノードに基づいて右に開いたツリーに結合できるようにテキストを分割する。しかしながら、本発明の多様な他の例示的な実施形態において、本発明の実践では談話構成要素を連結し、順序付けることができる他の談話分析の理論が使用されてもよい。テキストが分割された後、制御はステップS500に続行する。
ステップS500では、談話構成要素間のリンクが決定される。統一言語談話モデルでは、談話構成要素を談話の一つの構造表現に連結するための結合規則が、1)統語的、2)意味論的、3)語彙的−意味論的、4)構造上、及び、5)デフォルトの規則、として分類されてよい。統語的な規則は、時制、相、主語、目的語、又は、挿入句(parentheticals)、コンマで区切られた部分等の文の構文識別可能な特徴などの文の構成要素によって伝えられる統語的な属性の談話構成要素内での存在に基づいて談話構成要素間の関係を指定するために使用される。
統一言語談話モデルの意味論的な規則は、自然な言語談話構成要素に割り当てられる意味論上の表現における特定の属性、真の値、又は関係の発生により確立される関係性を指定する。例えば、付加的な文脈がない場合、第2の談話構成要素の特定の要素が後に続く第1の談話構成要素の一般的な要素の存在は、意味論上の従位接続規則に一致するパターンを定義するために使用される。意味論的な従位接続規則に一致すると、特定の要素を含む談話構成要素は、2つの談話構成要素を連結する談話の構造表現に従位接続ノードを挿入することによって一般的な要素を含む談話構成要素に従属する。本発明による多様な他の例示的な実施形態では、特定の数量詞、「定冠詞the」と「不定冠詞a」などの限定詞、あるいは談話構成要素の一般的な解釈と特定の解釈を区別することができる他のパターン又は構造が、本発明に従って意味論的な従位接続を決定するために使用される。
統一言語談話モデルの語彙的−意味論的な規則は、単純な語彙項目又は複雑な語彙項目、語彙的な集合、又は構成要素の中のエンティティ又は特性を示す慣用語句が特定の種類の互いの関係性を示す談話構成要素間の関係性を指定する。例えば、「衣服」及び「ジャケット」は特定の種類の関係性を有する。同様に、玄関は建物に対する特定の関係の建築の特徴である。すなわち、建物は必ずしも玄関を含まない場合があるが、玄関はつねに建物の内部で見つけられる。別の例は文「ヨーロッパ人は異なる言語を話す。フランス人はフランス語を話す」によって提示される。第1の文の「ヨーロッパ人」と第2の文の「フランス人」の間には一般対特定の関係性が存在する。一般対特定の関係性は、ありうる従位接続を示している。句「例えば、しかし〜に限られない」は、続く項目が互いになんらかの関係性があることを指定している。形式「の型である」、「の一部である」、「を有する」、「に同等である」、「と対照的である」等の句も、語彙的−意味論的な規則を使用して談話ツリーに談話構成要素が結合されるという情報を提供する。これらの句のどれか又はすべての発生は、語彙的−意味論的な規則の付加的な集合を使用可能にする及び/又は使用不能にするために使用されてよい。
統一言語談話モデルの構造上の規則は、談話の構造表現とその表現に結合されている談話構成要素の間で当てはまる関係の型を指定する。構造上の規則は、その結合の性質だけではなく構造表現に対する談話構成要素の構造上の結合点も制限する。構造表現に結合される談話構成要素は単一の文から導出され、談話単位の主ノードに対応する単位に基づいて結合される一つ又は複数の単位から構成される。したがって、構造上の規則が、談話構成要素を談話の構造表現に追加するときに考慮する必要のある候補結合点の数を削減する上で役立つことが明らかになるであろう。
本発明による多様な他の例示的な実施形態では、結合点変数(AP)、主要基本談話単位変数(M−BDU)、現在の談話構成要素又は他の定義された変数などの変数が結合規則に関連付けられたパターンと一致すると、結合規則は始動(fired)されることが明らかとなるであろう。結合規則は随意的に相互に排他的な規則の集合、特定の規則又は規則の集合が始動した後にだけ有効にされる規則の集合、あるいは他のカテゴリに編成されてよい。本発明によるさらに他の実施形態では、複数の規則が適用されてよく、それぞれの規則は異なる重要性と関連付けられている。談話構成要素間のリンクが決定された後で、制御はステップS600に続行する。
ステップS600では、談話構成要素のための関連性スコアが決定される。談話構成要素の関連性スコアは、統計、キーワード検索、知識ベース又は既知のあるいは今後開発される関連性基準に基づいて決定される。談話構成要素の関連性スコアを決定した後、制御はステップS700に続行する。
閾値重要性スコアがステップS700で決定される。閾値重要性スコアはユーザプロファイルから取り出される、及び/又は、動的に入力されてよい。閾値重要性スコアは重要であると見なされる談話構成要素に必要な重要性値を指定する。閾値重要性値が決定された後、制御はステップS800に続行する。
ステップS800では、閾値重要性スコアを超える関連性スコアを有する重要談話構成要素が決定される。関連性スコア及び閾値重要性スコアが、負のスコア、相互作用を表すスコア、又は既知のあるいは今後開発される単調な機能を使用して比較できる他の値で指定されてもよいことは明らかとなるであろう。次に、制御はステップS900に続行する。
重要談話構成要素に連結された支持する先行談話構成要素はステップS900で決定される。支持する先行談話構成要素は、照応に対する先行する対象を見つけることができる談話構成要素である。重要談話構成要素ノードとルートノードの間のノードが決定され、制御はステップS1000に続行する。
ステップS1000では、ハイブリッドテキスト要約が、リーフノード又はリーフノードとして重要談話構成要素を有する範囲又はサブツリーに基づいて決定される。支持する先行ノードの子ノードが談話分析の選択された理論のための結合規則に基づいてハイブリッドテキスト要約に選択的に含まれる。ハイブリッドテキスト要約が決定された後、制御はステップS1100に続行する。
ハイブリッドテキスト要約はステップS1100で表示される。本発明による多様な例示的な実施形態では、S700からS1000が、異なる選択された閾値重要性値に基づいてハイブリッドテキスト要約を動的に調整するために反復されることが明らかとなるであろう。
図3は、本発明の例示的な実施形態による第1のハイブリッド要約システムである。ハイブリッドテキスト要約システム100は、メモリ20、プロセッサ30、談話構成要素分割ルーチン又は回路(手段)40、談話構成要素リンク決定ルーチン又は回路(手段)50、関連性スコア決定ルーチン又は回路(手段)60、及び連結先行談話構成要素決定ルーチン又は回路(手段)70を備えている。これらの各々は、通信リンク99及び入力/出力回路(手段)10を介して、ウェブ使用可能なパーソナルコンピュータ300、ウェブ使用可能なタブレットコンピュータ400、及び、文書10000から10002を含む情報リポジトリ200に接続される
本発明による多様な例示的な実施形態の一つでは、ウェブ使用可能パーソナルコンピュータ300のユーザが、情報リポジトリ200に含まれる文書10000のハイブリッド要約に対する要求を開始する。前記要求は通信リンク900を介してハイブリッド要約システム100の入力/出力回路10に転送される。プロセッサ30は、通信リンク99を介して情報リポジトリ200から要求された文書10000を取り出し、文書10000をメモリ20に記憶するために入力/出力回路10を起動する。
プロセッサ30は、テキストを談話構成要素に分割するために談話構成要素分割ルーチン又は回路40を起動する。分割は統一言語談話モデル、修辞構造理論又は任意の既知の又は今後開発される談話分析の理論を使用して実行されてよい。
テキストが談話構成要素に分割された後に、プロセッサ30は、談話構成要素リンク決定ルーチン又は回路50を活性化することによって談話分析の決定された理論に基づき、談話構成要素間のリンクを決定する。例えば、統一言語談話モデルの分割規則を使用して分割された談話構成要素は、結合規則に基づいて談話の右に開いたツリー構造表現に挿入される。前述したように、統一言語談話モデルは、統語的、意味論的、語彙的−意味論的、構造上、及びデフォルトの結合規則の型を指定する。一つ又は複数の異なる型の結合規則及び/又は制限を備える複合結合規則も提供される。
本発明による多様な他の例示的な実施形態では、始動する規則の条件及び/又はシーケンスを指定するために、異なる範囲の変数が使用されてよい。例えば、規則は、第1の集合での第1の規則の始動が第2のあるいは除外された集合での第2の規則の始動を一時的にあるいは恒久的に抑制できるように除外集合に合体されてよい。規則は第1の規則の始動が、第3の集合の第3の規則を始動のために検討できるように使用可能にする集合に合体されてもよい。しかしながら、規則が本発明の範囲から逸脱することなく、既知の又は今後開発されるシーケンス及び/又は組み合わせに基づいて起動できることが明らかでなければならない。
次にプロセッサ30が関連性スコア決定ルーチン又は回路60を起動することにより重要な又は関連する談話構成要素を決定する。重要談話構成要素は、統計、キーワード、知識ベース及び/又は他の関連性情報に基づいて決定される。関連性スコアは先に決定された閾値重要性スコアに比較される。閾値重要性スコアを超える関連性スコアの談話構成要素が重要談話構成要素と見なされる。しかしながら、関連性スコアの任意の順序付けが本発明の範囲から逸脱することなく使用されてよいことが明らかとなるであろう。
連結された先行する談話構成要素決定ルーチン又は回路70は、重要談話構成要素とルート談話構成要素間の支持する談話構成要素を決定するために起動される。例えば、統一言語談話モデルでは、談話構成要素は談話の正しいツリー構造表現に追加される。重要談話構成要素は、談話の構造表現のサブツリーのリーフノードとしての役割を果たす。決定された重要談話構成要素ノードの各親の談話構成要素、及び親の親が支持する先行談話構成要素ノードとして決定される。重要な支持する先行談話構成要素ノードのサブツリーがハイブリッドテキスト要約を定義する。本発明による多様な例示的な実施形態では、サブツリー、ハイブリッドテキスト要約のために選択された先行する支持する談話構成要素を決定するために各談話構成要素と関連付けられる関連性スコアに対して調整が行われる。
図4は、本発明の例示的な実施形態によるハイブリッドテキスト要約を決定する第2の方法である。プロセスはステップS1300で開始し、ステップS1400に続行する。
ステップS1400では、要約されるテキストが決定される。テキストは、エディタ又はワープロを使用してテキストを手動で入力する、ウェブサーバ、デジタルライブラリ等の情報リポジトリからテキストを選択する、ボイス・ディクテーションを使用する及び/又は既知の又は今後開発される入力及び/又は選択方法を使用して決定されるテキストを入力することによって決定されてよい。要約されるテキストが決定された後、制御はステップS1500に続行する。
談話分析の理論はステップS1500で決定される。談話分析の理論は、統一言語談話モデル、言語談話モデル、修辞構造理論あるいは談話の構造表現に談話構成要素を連結し、順序付けることができる他の又は今後開発される談話分析の理論を含んでよいが、それらに限られない。談話分析の理論が決定された後、制御はステップS1600に続行する。
次にステップS1600でテキストを談話構成要素に分割するための規則が決定される。例えば、統一言語談話モデルに関連付けられる多様な分割規則は、品詞(part−of−speech)タグ、語彙目録及び決定された談話構成要素を従位接続、等位接続、及び二分ノード又はN分(N−ary)ノードに分割、分類するための他の属性又は特徴を使用する。分割規則は分割規則記憶構造から取り出されるか、あるいは談話分析の理論に基づいて動的に入力される。分割規則が決定された後、制御はステップS1700に続行する。
ステップS1700では、結合規則が談話分析の理論に基づき決定される。統一言語談話モデルの結合規則は、統語的、意味論的、語彙的−意味論的、構造上、及びデフォルトの規則の型を含む。結合規則は談話構成要素が談話の構造表現にどのように結合されるのかを決定する規則シーケンス又は組み合わせに合体される。結合規則は結合規則記憶構造から取り出されるか、あるいは動的に入力されてよい。結合規則が決定された後、制御は分割されるテキストの部分が決定されるステップS1800に続行する。
本発明による多様な例示的な実施形態では、テキストの部分は、強調表示、カーソルコマンド、音声制御、あるいは既知の又は今後開発されるテキスト選択方法によって決定されてよい。制御は、次に、決定されたテキスト部分が、決定された分割規則に基づいて談話構成要素に分割されるステップS1900に続行する。それから制御はステップS2000に続行する。
次にステップS2000で談話の構造表現が決定される。談話の構造表現は談話分析の理論に関連付けられる結合規則に基づき決定された談話構成要素を連結する。統一言語談話モデルの統合的、意味論的、語彙的−意味論的、構造上及びデフォルトの規則が説明されるが、本発明の実践では談話構成要素間の順序付けられたリンクを決定する際に有効な既知の又は今後開発される結合規則も使用されてよいことが明らかとなるであろう。談話の構造表現が決定された後に、制御は次にステップS2100に続行する。
ステップS2100では、談話構成要素のための関連性スコアが関連性の少なくとも一つの基準に基づいて決定される。談話構成要素の関連性スコアは、統計的なスコア、キーワード等に基づいて決定されてよい。しかしながら、本発明の実践では既知の又は今後開発される関連性基準も使用されてよい。関連性スコアが決定された後、制御は、関連性スコアが談話の構造表現中の利用しやすい談話構成要素に浸透されるステップS2200に続行する。例えば、各談話構成要素の終端の子のノード又はリーフノードには、より関連性が高い関連性スコアの任意の直接的に又は間接的に従属する子の談話構成要素ノードの関連性スコアが割り当てられる。
多様な他の例示的な実施形態では、関連性スコアは、潜在的に照応を分割できる先行する談話構成要素に浸透される。さらに他の例示的な実施形態では、任意の一つの先行する対象が談話構成要素リーフノードの中の照応に代用される。関連性スコアが談話の構造表現を通して浸透された後で、制御はステップS2300に続行する。
ステップS2300では、閾値重要性スコアが決定される。閾値重要性スコアはユーザによってインタラクティブに入力され、メモリから取り出され、ユーザid等に基づき決定される。閾値重要性スコアは重要と見なされるために必要な関連性スコアを反映する。次に、制御は、談話構成要素のための関連性スコアが閾値重要性スコアと比較されるステップS2400に続行する。談話構成要素関連性スコアの比較は、テキストの圧縮を選択的に調整するために使用される。次に、制御は、照応が随意的に代用されるステップS2500に続行する。照応の任意の一つの先行する対象が決定され、随意的に照応に代用される。閾値重要性スコアを超える関連性スコアの談話構成要素がステップS2600で決定され、随意的に表示される。次に、制御はステップS2700に続行し、プロセスは終了する。
図5は、本発明の例示的な実施形態による第2のハイブリッド要約システムである。ハイブリッド要約システム110は、メモリ20、プロセッサ30、分割規則記憶装置40、結合規則記憶装置50、談話構造表現決定ルーチン又は回路(手段)60、関連性スコア決定ルーチン又は回路(手段)70、浸透ルーチン又は回路(手段)80、及び、表示ルーチン又は回路(手段)90を備える。これらは、入力/出力回路10に、及び、通信リンク99を介してウェブ使用可能パーソナルコンピュータ300、ウェブ使用可能タブレットコンピュータ400、及び、文書10000から10002を含む情報リポジトリ200に、接続される、
本発明による多様な例示的な実施形態の一つでは、ウェブ使用可能パーソナルコンピュータ300のユーザが情報リポジトリ200に含まれる文書10000のハイブリッドテキスト要約に対する要求を開始する。前記要求は通信リンク99を介してハイブリッド要約システム110の入力/出力回路10に転送される。プロセッサ30は、通信リンク99を介して情報リポジトリ200から文書10000を取り出し、それをメモリ20に記憶するために入力/出力回路10を起動する。
プロセッサ30は分割規則記憶装置40から取り出された分割規則を適用する。分割規則は先に決定された談話分析の理論に関連付けられている。分割規則は、テキストを談話構成要素にどのようにして分割するのかを指定する。本発明による多様な例示的な実施形態では、談話分析の理論が、本発明の範囲から逸脱することなく、ユーザによる入力、テキストのジャンル、要約されるテキストの一部に基づいて、又は他の方法によって決定されてよいことが明らかとなるであろう。
談話構造表現決定ルーチン又は回路60は、談話の構造表現に談話構成要素を結合するために起動される。例えば、統一言語談話モデル(ULDM)は、談話構成要素が談話の構造表現にどのようにして結合されるのかを定義する結合規則を指定する。統一言語談話モデルは、5種類の結合規則、つまり1)統語的、2)意味論的、3)語彙的−意味論的、4)構造上、及び5)デフォルト、を指定する。結合規則の異なる種類は単独で使用されてよいし、あるいは、組み合わせ及び/又は規則シーケンスに合体されてよい。
統語的結合規則は、時制、相、主語、目的語又は挿入句、コンマで区切られた部分等の文の構文識別可能特徴などの文の構成要素により運ばれる統語的な属性の談話構成要素での存在に基づいた談話構成要素間の関係を指定する。
意味論的な結合規則は、自然な言語談話構成要素に割り当てられる意味論的な表現における特定の属性、真の値又は関係の発生により確立される関係性を指定する。例えば、付加的な文脈がない場合、第2の談話構成要素におけるより特定的な要素が後に続く第1の談話構成要素のより一般的な要素の存在が、意味論的な従位接続規則に一致するために使用できるパターンを定義する。意味論的な従位接続規則は、より一般的な談話構成要素に特定の談話構成要素を従属させる。特定の数量詞、「定冠詞the」及び「不定冠詞a」などの限定詞、又は談話構成要素の一般的な解釈及び特定の解釈を区別することに関連付けられた他の決定されたパターン及び/又は構造も、特定の談話構成要素の一般的な談話構成要素に対する従属をトリガするために使用されてよい。
統一言語談話モデルの語彙的−意味論的な規則は、単純な語彙項目又は複雑な語彙項目、語彙的な集合、又は構成要素の中のエンティティ又は特性を示す慣用語句が特定の種類の互いの関係性を示す談話構成要素間の関係性を指定する。例えば、「衣服」及び「ジャケット」は特定の種類の関係性を有する。同様に、玄関は建物に対する特定の関係の建築の特徴である。すなわち、建物は必ずしも玄関を含まない場合があるが、玄関はつねに建物の内部で見つけられる。別の例は文「ヨーロッパ人は異なる言語を話す。フランス人はフランス語を話す」によって提示される。第1の文の「ヨーロッパ人」と第2の文の「フランス人」の間には一般対特定の関係性が存在する。一般対特定の関係性は、ありうる従位接続を示している。句「例えば、しかし〜に限られない」は、続く項目が互いになんらかの関係性があることを指定している。形式「の型である」、「の一部である」、「を有する」、「に同等である」、「と対照的である」等の句も、語彙的−意味論的な規則を使用して談話ツリーに談話構成要素が結合されるという情報を提供する。これらの句のどれか又はすべての発生は、語彙的−意味論的な規則の付加的な集合を使用可能にする及び/又は使用不能にするために使用されてよい。
構造上の結合規則は、結合されている談話構成要素の一つ又は両方と、すでに談話構造の一部を形成している他の談話構成要素の間に当てはまる関係の種類を指定する。構造上の結合規則は、結合される一つ又は複数の談話構成要素のための結合を制限するために使用される。例えば、結合される2つの談話構成要素の場合、規則はどの談話結合物がツリーに直接的に結合されなければならないのか、及び、どこで結合が起こらなければならないのかを指定する。このようにして構造上の規則は、考慮しなければならない候補結合点の数を削減するために使用できる。デフォルトの結合規則は、他の規則が当てはまらないときに講じる処置を指定する。デフォルトの規則は他の種類の結合規則の組み合わせを含んでよい。
本発明による多様な別の例示的な実施形態では、談話構成要素の属性が規則の属性に一致すると規則が始動することが明らかとなるであろう。規則は、相互に排他的な規則、他の規則が始動した後にだけ、あるいは他の既知の又は今後開発される規則シーケンスに基づいて有効にされる規則集合に編成されてよい。本発明による多様な実施形態では、複数の規則が適用されてよく、各規則はさまざまな重みと関連付けられる。
プロセッサ30は、次に、各談話構成要素ごとに関連性スコアを決定するために関連性スコア決定ルーチン又は回路70を起動する。関連性の基準は、統計、キーワード、知識ベース、あるいは既知の又は今後開発される非構造方法に基づいて決定されてよい。
プロセッサ30は、談話構成要素リーフノードから先行する談話構成要素ノードに関連性スコアを浸透するために浸透ルーチン又は回路80を起動する。初期の関連性スコアは、談話の構造表現を通して上に浸透される。重要談話構成要素の文法性を保証するために必要な支持する利用しやすい談話構成要素は関連性スコアに基づいて選択される。多様な例示的な実施形態では、非構造関連性スコアは、ハイブリッドテキスト要約の文法性が保たれるように談話の構造表現を通して浸透される。支持する利用しやすい談話構成要素の数は、テキストジャンル、言語、要約の関数及び/又は既知のあるいは今後開発される属性又は特徴に基づいて動的に選択可能である。
表示ルーチン又は回路90は、先に決定された閾値重要性スコアを超える関連性スコアの談話構成要素ノードを決定するために起動される。本発明による多様な別の例示的な実施形態では、支持する談話構成要素からの一つの識別された先行する対象が、ハイブリッドテキスト要約をさらに圧縮するために談話構成要素リーフノードへの照応に代用される。
図6は、本発明の実施形態による分割規則600を記憶するための例示的なデータ構造である。分割規則600を記憶するための例示的なデータ構造は各規則を一意的に識別する識別子部分610、異なる種類の規則を分類する一つ又は複数の型部分620、規則を始動するために必要とされる制限を指定するパターン部分630、及び規則の制限が一致される場合に実行される動作を指定する動作部分640から構成されている。
分割規則は、談話構成要素及び/又は文の単位の主要な談話構成要素として候補セグメントを分類するための条件を定義する。談話構文解析は、文の単位を談話構成要素に分割することと、一つ又は複数の主要な談話構成要素を決定することと、主要な談話構成要素に従属する文の談話構成要素のサブツリーを決定することと、談話の理論に基づいて結合規則を使用して談話の現存の構造表現に対するサブツリーの結合を決定することとを含む。結合規則は、文の主要な談話構成要素及び/又は結合点談話構成要素に対する制限を指定する。例えば、異なる結合規則は、談話構成要素が修飾語句であるのか、関係詞節であるのか、文の主語等であるのかに応じてトリガされる。候補セグメントの属性又は特徴が品詞タグ、環境変数、ゼロックス言語環境(XLE)の出力、蓋然論的な、統計上の、有限状態の又は記号の、構文解析ツール、WordNetなどの語彙目録、あるいは他の既知の又は今後開発される候補談話構成要素の特徴を決定する方法から決定されることが明らかとなるであろう。
分割規則情報を記憶するための例示的なデータ構造の第1列は識別子部分610に値「1」を、型部分620に値「SIMPLE_EVENTS(単純事象)」を含む。これは、規則「1」として識別される規則が単純事象型規則であることを示している。本発明による多様な例示的な実施形態では、規則は型部分620の値に基づいて規則の異なる集合に集められてよい。規則及び/又は型の異なる集合は、指定の規則の後に始動してよい規則のシーケンスを制限する多様な他の規則を除外する、及び/又は有効にしてよい。本発明によるさらに他の例示的な実施形態では、複数の規則が適用されてよく、それぞれの規則がさまざまな重要性と関連付けられている。
パターン部分630は値「(SIMPLE_EVENT)」を含む。これは、単純事象が、規則が始動する前に候補セグメントで決定されなければならないことを示す。単純事象の決定が、蓋然論的な、統計的な、有限状態の又は記号の構文解析ツール、文の構文解析ツール、ゼロックス言語環境(XLE)などの言語処理環境あるいは既知の又は今後開発される方法の出力に基づいてよいことは明らかとなるであろう。
規則の動作部分640は、パターン部分630が一致されると起動される。動作部分640は、パターン部分630の制限が一致すると、規則の動作部分が、フラグ又は候補セグメントが基本的な談話単位である旨の他の表示を設定するために呼び出されることを示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第2列は、識別子部分610に値「2」及び型部分620に値「DISCLOSURE_OPERATOR(開示演算子)」を含む。これは、規則「2」として識別される規則が開示演算子型規則であることを示している。
パターン部分630は値「MODIFIER(修飾語句)」を含む。これは、候補談話構成要素セグメントが規則を始動するための修正語句でなければならないことを示している。前述されたように、修正語句の決定は、文の構文解析ツール、言語処理環境等の出力に基づいてよい。
規則の動作部分640は、パターン部分630が一致すると起動される。動作部分640は、パターン部分630の制限が一致すると実行される動作を示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第3列は、識別子部分610に値「3」を、型部分620に値「INTERPOLATION(補間)」を含む。これは、規則「3」として識別される規則が補間型規則であることを示している。
パターン部分630は値「APPOSITIVE OR PARENTHETICALOR INTERRUPTION OR NON_RESTRICTIVE_CLAUSE OR REFERENCE(同格又は挿入又は中断又は非制限節又は参照)」を含む。これは、候補セグメントが同格、挿入、中断、又は非制限節又は参照であると判断される場合、規則が始動することを示している。前述したように、制限は蓋然的な、統計的な、有限状態の、記号の、文の構文解析ツール、ゼロックス言語環境(XLE)などの言語処理環境あるいは既知の又は今後開発される方法の出力に基づいて決定される。
規則の動作部分640は、パターン部分630が一致すると起動される。動作部分640は、パターン部分630の制限が一致すると、フラグ又は候補セグメントが基本的な談話単位である旨の他の表示を設定するために、規則の動作部分が呼び出されることを示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第4列は、識別子部分610に値「4」を、型部分620に値「SUBORDINATE_CLAUSES(従属節)」を含む。これは、規則「4」として識別される規則が従属節型の規則であることを示している。
パターン部分630は、候補セグメントが、規則が始動する前に補語節、文の主語、又は関係節でなければならないことを示す値「COMPLEMENT_CLAUSE OR
SENTENTIAL_SUBJECT OR RELATIVE_CLAUSE(補語節又は文の主語又は関係節)」を含む。規則の動作部分640は、パターン部分630が一致すると起動される。動作部分640は、パターン部分630に含まれる制限が一致すると、規則の動作部分が、候補セグメントが基本的な談話単位であることを示すために呼び出されることを示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第5列は、識別子部分610に値「5」を、型部分620に値「POSTNOMINAL_MODIFIER(名詞後位修飾語)」を含む。これは、規則「5」と識別された規則が名詞後位修飾語型の規則であることを示している。
パターン部分630は、値「(DISCRETE_EVENT AND (POSTNOMINAL_MODIFIER OR RELATIVE_CLAUSE OR PARTCIPIAL_MODIFIER))((非連続事象及び(名詞後位修飾語又は関係節又は分詞修飾語)))」を含む。これは、これらの制限が、規則が始動する前に候補セグメントと関連付けられていると判断されなければならないことを示している。
規則の動作部分640は、パターン部分630が一致すると起動される。動作部分640は、パターン部分630の制限が一致すると、規則の動作部分が、フラグ又は候補セグメントが基本的な談話単位である旨の他の表示を設定するために呼び出されることを示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第6列は、識別子部分610に値「6」を、型部分620に値「MORPHOLOGICAL_FORM(形態的形)」を含む。これは、「6」と識別される規則が形態型規則であることを示している。パターン部分630は、候補セグメントが、規則が始動する前に非連続事象であり、不定詞又は動名詞のどちらかであると判断されなければならないことを示す値「(DISCRETE_EVENT AND (INFINITIVES OR GERUNDS))((非連続事象と(不定詞又は動名詞)))」を含む。
規則の動作部分640は、パターン部分630が一致すると起動される。動作部分640は、パターン部分630の制限が一致すると、規則の動作部分がフラグ又は候補セグメントが基本的な談話単位である旨の他の表示を設定するために呼び出されることを示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第7列は、識別子部分610に値「7」を、型部分620に値「OTHER_PREDICTION(他の予測)」を含む。これは、規則が他の予測型の規則と識別されることを示している。パターン部分630は値「(COPULAR_PREDICTION OR SECONDARY PREDICTION OR DISCREAT_EVENT)((連結詞予測又は二次予測又は非連続事象))」を含む。これは、連結詞予測、二次予測又は非連続事象が、規則が始動する前に決定されなければならないことを示している。
規則の動作部分640は、パターン部分630が一致すると起動される。動作部分640は、パターン部分630の制限が一致すると、フラグ又は候補セグメントが基本的な談話単位である旨の他の表示を設定するために、規則の動作部分が呼び出されることを示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第8列は、識別子部分610に値「8」を、型部分620に値「SUBORDINATING_CONJUNCTION(従属接続)」を含む。これは、規則「8」と識別される規則が従属接続詞型の規則であることを示している。パターン部分630は、値「(SUBORDINATING_CONJUNCTION AND DISCRETE_EVENT)((従属接続と非連続事象))」を含む。これは、これらの制限が、規則が始動する前に候補セグメントで決定されなければならないことを示している。
規則の動作部分640は、パターン部分630が一致すると起動される。動作部分640は、パターン部分630の制限が一致されると、フラグ又は候補セグメントが基本的な談話単位である旨の他の表示を設定するために、規則の動作部分が呼び出されることを示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第9列は、識別子部分610に値「9」を、型部分620に値「COORDINATING_CONJUNCTIONS(等位接続)」を含む。これは、規則「9」として識別される規則が等位接続詞型規則であることを示している。パターン部分630は、値「((COORDINATING_CONJUNCTION AND LENGTH=1) OR ((X COORDINATING_CONJUNCTION Y) AND (X ISA BDU AND Y ISA BDU))(((等位接続 及び 長さ=1) 又は ((X 等位接続 Y)
及び (XはBDU 及び YはBDU)))」を含む。これは、規則が始動する前に、等位接続詞が1)長さ=1によって示されるように候補談話構成要素セグメント内の唯一の要素、又は、2)それぞれがBDUである要素XとYを連結する等位接続詞、のどちらかであることを判断されなければならないことを示している。候補セグメントが指定された制限のどちらかに一致すると、規則が始動する。
パターン部分630が一致すると、規則の動作部分640が起動される。動作部分640は、パターン部分630の制限が一致すると、フラグ又は候補セグメントが基本的な談話単位である旨の他の表示を設定するために、規則の動作部分が呼び出されることを示す値「BDU=TRUE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第10列は、識別子部分610に値「10」を、型部分620に値「INFORMATION_STRUCTURE(情報構造)」を含む。これは、規則「10」として識別される規則が情報構造型の規則であることを示している。パターン部分630は値「(COPULA AND (CLEFT OR PSEUDO_CLEFT))((連結詞及び分裂又は擬似分裂))」を含む。これは、候補セグメントが、規則が始動する前に連結詞、及び分裂又は擬似分裂のどちらかでなければならないことを示している。
パターン部分630が一致すると規則の動作部分640が起動される。動作部分640は、パターン部分630の制限が一致すると、フラグ又は候補セグメントが基本的な談話単位ではない旨の他の表示を設定するために、規則の動作部分が呼び出されることを示す値「BDU=FALSE」を含んでいる。
分割規則情報を記憶するための例示的なデータ構造の第11列は、識別子部分610に値「11」を、型部分620に値「EVENT_MODIFIER(事象修飾語句)」を含む。これは、規則「11」と識別される規則が事象修飾語句型の規則であることを示している。パターン部分630は、候補セグメントが、規則が始動するための非連続事象の修飾語句であり、非連続事象と関連付けられてはならないことを示す値「(EVENT_MODIFIER AND NOT(DISCRETE_EVENT))((事象修飾語及び非(非連続事象)))」を含む。
パターン部分630が一致すると、規則の動作部分640は起動される。動作部分640は、パターン部分630の制限が一致すると、フラグ又は候補セグメントが基本的な談話単位ではない旨の他の表示を設定するために、規則の動作部分が呼び出されることを示す値「BDU=FALSE」を含む。
分割規則情報を記憶するための例示的なデータ構造の第14列は、識別子部分610に値「14」を、型部分620に値「INITIAL_MODIFIER(初期修飾子)」を含む。これは、第14の規則が初期修飾子型の規則であることを示している。パターン部分630は、値「(INITIAL_MODIFIER AND SCENE_SETTING)((初期修飾子及び状況設定))」を含む。これは、候補セグメントが初期修飾語句でなければならず、規則の始動をトリガするためにシーン設定値と関連付けられなければならないことを示している。
パターン部分630が一致すると、規則の動作部分640が起動される。動作部分640は値「BDU=TRUE」を含む。パターン部の630の制限が一致すると、フラグ、若しくは、候補セグメントが基本的な談話単位でないことを示す他の表示を設定するために、規則の動作部分が呼び出されることを、該値は示す。
図7は、本発明の実施形態による結合規則情報700を記憶するための例示的なデータ構造である。結合規則情報700を記憶するための例示的なデータ構造は、識別子部分710及び規則部分720から構成される。
結合規則情報を記憶するための例示的なデータ構造の第1列は、規則識別子部分710に値「1」を含む。規則部分720は、複合規則「<Sx:(M−BDU/TYPE)=“BetweenParenthesis”;St:AP is BottomOfTree;>→Subordinate(AP,M−BDU)」を含む。規則「1」は、主要なBDUが括弧によって区切られることを示す「Sx:(M−BDU/TYPE)=“BetweenParenthesis”」、及び、結合点が談話の構造表現の右に開いたツリーの底部になければならないことを示す第2の構造上の制限「St:AP is BottomOfTree」によって示される第1の統語制限から構成される複合規則である。第1の制限及び第2の制限は、両方の制限が、主要な基本談話単位(M−BDU)の、結合点変数(AP)により示される現在の結合点に対する従属をトリガするために一致しなければならないことを示す開いた制限「<」タグと閉じた制限「>」タグの間で結合される。
結合規則情報を記憶するための例示的なデータ構造の第2列は、規則識別子部分710に「2」を含む。規則部分720は、複合規則「<Sx:(AP/Tense)=“Present”;Sx:(M−BDU/Tense)=“Past”;>→Subordinate(AP,M−BDU)」を含む。規則「2」は、候補結合点談話構成要素が現在時制でなければならないことを示す「Sx:(AP/Tense)=“Present”」によって示される第1の統語制限、及び結合点(AP)に結合される主要な基本談話構成要素が規則をトリガするために過去時制でなければならないことを示す第2の統語制限「Sx:(M−BDU/Tense)=“Past”;」から構成される複合規則である。第1の制限及び第2の制限は、両方の制限が現在の結合点(AP)に対する主要な基本談話単位(M−BDU)の従属をトリガするために一致しなければならないことを示す開いた制限「<」タグと閉じた制限「>」タグの間で結合される。
結合規則情報を記憶するための例示的なデータ構造の第3列は、規則識別子部分710に「3」を含む。規則部分720は、複合規則「<LS:(AP)isa(KB/Event);LS:(M−BDU)isa(KB/Event);Sx:(AP/Tense)=(M−BDU/Tense)>→Coordinate(AP,M−BDU)」を含む。規則「3」は、「LS:(AP)isa(KB/Event);」によって示される第1の語彙的−意味論的制限から構成される複合規則である。これは、候補結合点が知識ベースKBに対する比較により決定されるように事象と関連付けられることを示す。第2の語彙的−意味論的制限「LS:(M−BDU)isa(KB/Event);」は、主要な基本談話単位も、知識ベースKBに対する比較により決定されるように事象と関連付けられることを示す。第3の統語制限「Sx:(AP/Tense)=(M−BDU/Tense)」は、結合点AP及び主要な基本談話単位(M−BDU)の時制が一致しなければならないことを示す。第1の制限、第2の制限及び第3の制限は、すべて3つの制限が、主要な基本談話単位(M−BDU)及び現在の結合点(AP)の等位構造をトリガするために始動しなければならないことを示す開いた制限「<」タグと閉じた制限「>」タグの間で結合される。
結合規則情報を記憶するための例示的なデータ構造の第4列は、規則識別子部分710に「4」を含む。規則部分720は複合規則「<LS:(AP/Lexeme)hasa(M−BDU/Lexeme):$1:$2;Sx:(AP/*/COMP)is $1;Sx:(M−BDU/*/SUBJ)is $2;>→Subordinate(AP,M−BDU)」を含む。規則「4」は、2つの統語制限が後に続く語彙的−意味論的制限から構成される複合規則である。第1、第2、第3の制限は、3の全ての制限が主要な基本談話単位(M−BDU)の現在の結合点(AP)に対する従属をトリガするために始動しなければならないことを示す開いた制限「<」タグと閉じた制限「>」タグの間で結合される。
結合規則情報を記憶するための例示的なデータの第5列は、規則識別子部分710に「5」を含む。規則部分720は、複合規則「<Sx:(M−BDU/Type)=“Temporal”;St:M−BDU isSubordinatedTo AP;>→CreateNary(Cx,AP,M−BDU)」を含む。規則「5」は、「Sx:(M−BDU/Type)=“Temporal”;」によって示される第1の統語制限から構成される複合規則である。これは、主要な基本談話単位(M−BDU)談話構成要素が、「時制(Temporal)」型の談話構成要素でなければならないことを示している。第2の統語制限「St:M−BDU isSubordinatedTo AP」は、主要な基本談話単位M−BDUが結合点に従属することを示している。第1の制限及び第2の制限は、両方の制限が結合点(AP)及び主要な基本談話単位(M−BDU)の等位構造をトリガするために一致しなければならないことを示す、開いた制限「<」タグと閉じた制限「>」タグの間で結合される。項「Cx」は質疑応答型等位などの等位型を示す。
結合規則情報を記憶するための例示的なデータ構造の第6列は規則識別子部分710に「6」を含む。規則部分720は、複合規則「<Sm:Σ(AP)is“Generic”;SM:Σ(M−BDU)is“Specific”;>→Subordinate(AP,M−BDU)」を含む。規則「6」は、「Sm:Σ(AP)is“Generic”;」により示される第1の意味論的な制限から構成される複合規則である。これは、結合点が総称的な言語要素を含むことを示している。「Sm:Σ(M−BDU)is“Specific”;」により示される第2の意味論的な制限は、主要な基本談話単位(M−BDU)が特定の言語要素を含むことを示している。第1の制限及び第2の制限は、両方の制限が、主要な基本談話単位(M−BDU)の、変数PAによって示される現在の結合点への従属をトリガするために一致しなければならないことを示す開いた制限「<」タグと閉じた制限「>」タグの間で結合される。
結合規則情報を記憶するための例示的なデータ構造の第7列は規則識別子部分710に「7」を含む。規則部分720は、複合規則「<Sm:Σ(AP)is“Irrealis”;SM:Σ(M−BDU)is“Realis”;Sx:if AP then M−BDU;>→CreateNary(HYP,AP,M−BDU)」を含む。規則「7」はAPが「非現実相(Irrealis)」であること、及び主要な基本談話構成要素が「現実相(Realis)」であること、並びに結合点(AP)が、結合点と主要な基本談話構成要素の間のN分関係を作成するために規則が始動される前に一致するという構造制限を必要とする。同様に、8から12の列は、談話の構造表現を決定する上で有用な他の統一言語談話モデル結合規則を記述する。
結合規則情報を記憶するための例示的なデータ構造の第99列は規則識別子部分710に「99」を含む。規則部分720は複合規則「<St:AP is BottomOfTree;Px:Ifnot Anyrule applies;>→Subordinate(AP,M−BDU)」を含む。規則「7」は、候補結合点がツリーの底部で発生しなければならないことを示す第1の構造上の制限「St:AP is BottomOfTree」から構成される複合規則である。先手(preemptor)制限「Px:IfnotAnyrule applies;」は、他の制限が適用しない場合にだけ一致される。第1の制限及び第2の制限は、両方の制限が、主要な基本談話単位(M−BDU)の現在の結合点(AP)に対する従属をトリガするために一致しなければならないことを示す開いた制限「<」タグと閉じた制限「>」タグの間で結合される。
図8は、本発明の実施形態による関連性スコアを浸透する第1の例示的な方法の展開図である。プロセスはステップS2200で開始し、ステップS2202に続行する。
ステップS2202では、各談話構成要素の子のノードの関連性スコアが親の談話構成要素ノードに割り当てられる。これが、重要談話構成要素の関連性スコアを支持する先行する談話構成要素ノードに浸透し、結果として生じるハイブリッドテキスト要約の文法性を保つのに役立つ。制御は次にステップS2204に続行する。
ステップS2204では、被従属談話構成要素ノードの関連性スコアがより関連性がある場合には、各被従属ノードの関連性スコアが従属談話構成要素に割り当てられる。これにより、支持する従属談話構成要素ノードがハイブリッドテキスト要約に含まれることが確実になる。次に制御は、各等位構造又はN分(N−ary)ノードの関連性スコアが、関連性スコアがより関連性がある場合に、すべての等位とされた子の談話構成要素ノードに割り当てられるステップS2206に続行する。これにより、すべての等位構造情報が捕捉されることが確実になる。次に、制御はステップS2208に続行し、ただちに図4のステップS2300にジャンプする。
図9は、本発明の実施形態に従って関連性スコアを浸透する第2の例示的な方法の展開図である。プロセスはステップS2210で開始し、ステップS2212に続行する。
談話構成要素の子のノードのそれぞれの関連性スコアが、ステップS2212で、親の談話構成要素ノードに割り当てられる。これは、重要談話構成要素の関連性スコアを、支持する先行する談話構成要素ノードに浸透し、結果として生じるハイブリッドテキスト要約の文法性を保つのに役立つ。次に制御はステップS2214に続行する。
ステップS2214では、被従属談話構成要素ノードの関連性スコアがより関連性があり、ノードが被従属ノードの左側にあると思われる場合には、各被従属ノードの関連性スコアが従属談話構成要素に割り当てられる。これにより、支持する従属談話構成要素ノードがハイブリッドテキスト要約に含まれるが、支持する談話構成要素の、左側にある談話構成要素への追加をさらに制限することが確実になる。言語談話モデルの構造表現では、従属ノードの左側の子のノードは従属ノードである。しかしながら、多様な他の談話分析の理論と関連付けられる談話の構造表現での差異のために、支持する先行する談話構成要素情報を識別する他の方法が、本発明の範囲から逸脱することなく使用されてよいことが明らかになるであろう。次に、制御は、各等位構造又はN分(n−ary)談話構成要素ノード又は二分談話構成要素ノードでは、子の談話構成要素のさらに関連性のある関連性スコアが左側のすべての子の談話構成要素に割り当てられるステップS2216に続行する。次に、制御は、ステップS2218に続行し、図4のステップS2300にジャンプする。
図10は、本発明の例示的な実施形態に従って関連性スコアを浸透する第3の例示的な方法の展開図である。プロセスはステップS2234で開始し、ステップS2236に続行する。
ステップS2236では、各談話構成要素ノードは、談話構成要素ノードとルートノードに1を加えたものの間の被従属エッジの数でマーキングされる。これは、談話の構造表現のノードレベルを示している。各談話構成要素ノードのレベルがマーキングされてから、制御はステップS2238に続行する。
ステップS2238では、各終端の子又はリーフノード談話構成要素が談話の構造表現での被従属エッジの数の逆数に等しいスコアを割り当てられる。スコアがノードごとに決定された後に、制御はステップS2240に続行する。
ステップS2240では、低い方のスコアが談話の構造表現を通して浸透される。したがって、親のノードのスコアが子のノードより関連性がある場合には、スコアは親のノードに割り当てられる。次に制御はステップS2242に続行する。
任意の被従属ノードのスコアは、被従属スコアがステップS2242でより低い場合には従属ノードに割り当てられる。次に制御はステップS2244に続行する。ステップS2244では、子のノードがより低いスコアを有さない限り、任意の等位構造又はN分(N−ary)ノードのスコアが各子のノードに割り当てられる。次に制御はステップS2246に続行する。
ステップS2246では、談話構成要素ノードのそれぞれについて調整された関連性スコアが従属レベル及びスコアに基づいて決定される。例示的な関連性スコアは、以下の式(1)に基づいて決定される。
r=1−(L−1)*i (1)
ここで、Lはノードの従属レベルであり、iは各ノードに割り当てられるスコアである。項「−1」は、より低い関連性と関連するより低い数値を有する実際の値に、関連性スコアをするために追加される。ルートノードは関連性「1」を有し、リーフノードは1/Lという初期関連性スコアを有する。関連性スコアを決定した後、制御はステップS2248に続行し、図4のステップS2300にジャンプする。
図11は、本発明の実施形態による照応置換の第1の例示的な方法の展開図である。プロセスはステップS2500で開始し、代名詞などの照応を含む各談話構成要素の子のノードが決定されるステップS2505に続行する。制御は次にステップS2510に続行する。
ステップS2510では、照応の任意のユニークな先行する対象が決定される。代名詞などの照応が通常それらの対象に続くことが明らかとなるであろう。このようにして、照応又は代名詞の、任意のユニークな先行する対象は、通常、談話の構造表現中の照応又は代名詞の前に発生する。これにより、調べられなければならない先行する談話構成要素の数が削減される。次に、任意の決定されたユニークな先行する対象が照応又は代名詞に代用される。次に制御はステップS2515に続行し、それから図4のステップS2600にジャンプする。
図12は、本発明の実施形態による照応置換の第2の例示的な方法の展開図である。プロセスはステップS2520で開始し、ステップS2525に続行する。
重要談話構成要素はステップS2525で決定される。重要談話構成要素は、通常、前のステップで決定され、取り出される。しかしながら、重要談話構成要素は、統計、キーワード、知識ベース等を使用して動的に決定されてもよい。重要談話構成要素が決定されてから、制御はステップS2530に続行する。
次に重要談話構成要素の解決されていない照応がステップS2530で決定される。例えば、重要談話構成要素の中の任意の代名詞は、解決されていない照応としてフラグが立てられる。次に制御はステップS2535に続行する。
ステップS2535では、潜在的な解決先行談話構成要素が決定される。代名詞又は他の未解決照応の潜在的な先行する参照を含む任意の談話構成要素は潜在的な解決先行談話構成要素である。本発明による多様な例示的な実施形態では、潜在的に解決する先行談話構成要素はWordNet関係、存在論又は他の任意の関係連鎖の方法に基づいて決定される。潜在的な解決先行談話構成要素が決定されてから、制御はステップS2540に続行する。
重要談話構成要素の関連性スコアは、ステップS2540で決定された潜在的な解決先行談話構成要素を通して浸透される。潜在的な解決先行談話構成要素を通して浸透する関連性スコアは、考慮される分岐の範囲を削減してよい。これは、頻繁に、より縮約されたハイブリッドテキスト要約を生じさせる。次に制御はステップS2545に続行する。
ステップS2545では、談話構成要素の縮約された集合が重要談話構成要素、談話の構造表現及び関連性スコアに基づいて決定される。浸透チャネルは重要談話構成要素の中で潜在的に照応を解決できる談話構成要素に制限される。談話構成要素の縮約された集合がハイブリッドテキスト要約として選択されてから、制御はステップS2550に続行し、図4のステップS2600にジャンプする。
図13は要約されるテキストである。テキストは12の文から構成されている。
図14は、要約されるテキストの談話の例示的な構造表現である。談話の例示的な構造表現は結合されている談話構成要素から構成されている。例示的なテキストの行10は、重要談話構成要素910として示されている。談話構成要素は、統計、キーワード、知識ベース又は他の任意の重要性の非構造基準に基づいて重要であると決定されてよい。
図15は、本発明による関連性スコアを浸透する第1の例示的な方法を示す談話の例示的な構造表現である。重要談話構成要素1018は、なんらかの関連性の非構造基準に基づいて識別される。矢印はR値「1」により示される関連性スコア情報の談話の構造表現を通る浸透を示している。重要談話構成要素1018の関連性スコアは子であるため、より関連性のある子の談話構成要素の関連性スコアは親の談話構成要素ノードに割り当てられる。選択された関連性の非構造基準により決定されるように、重要な談話1018は最も関連性のある談話構成要素ノードであるため、重要談話構成要素1018の関連性スコアは親の従属ノード1016に割り当てられる。親のノードの関連性スコアは、順に、同じ理論的根拠に基づいて等位ノード1012、従属ノード1010、等位ノード1002及びルート従属ノード1016に割り当てられる。
従属談話構成要素ノード1001、1004、1011、1014及び1017のそれぞれには、矢印により示されている被従属談話構成要素の関連性スコアが割り当てられる。最も関連性のある子のノードの関連性スコアは、等位ノードのそれぞれに割り当てられる。等位ノード1002と1012は、重要談話構成要素の親のノードとしてのそれらのステータスに基づいて含まれる。次に関連性スコアは識別された等位ノード1002と1012のそれぞれの子達に浸透される。このようにして、従属ノード1013と1011及びリーフノード1019と1020にも関連性スコアが割り当てられる。最も関連性のある関連性スコアの各談話構成要素がハイブリッドテキスト要約に選択される。
図16は、本発明に従って関連性スコアを浸透する第2の例示的な方法を示す談話の例示的な構造表現である。重要談話構成要素1016は、一つ又は複数の関連性の非構造基準に基づいて決定される。浸透は等位構造及び二分の子のノードの処理において前述した方法とは異なる。等位ノード又は二分ノードの子達のより関連性のある関連性スコアはそれぞれの先行する同位に割り当てられる。これにより、ハイブリッドテキスト要約920に含まれる談話構成要素の数が削減する。
図17は、本発明に従って逆数スコアを浸透する第3の例示的な方法を示す談話の例示的な構造表現の第1の図である。例示的なテキストの行4と5は例示的な目的のために省略されている。談話構成要素のそれぞれは、被従属エッジに1を加えたものの数に基づいて従属レベルLでマーキングされる。各リーフノードには、従属レベルの逆数に等しいスコア「i」が割り当てられる。
i=1/L (2)
次に、スコアの低い方の値が、以下の規則に基づき談話の構造表現を通して浸透される。スコア「i」の任意のノードでは、親がさらに低いスコアを有さない場合にはスコアを親に割り当てる。スコア「i」の任意の従属ノードでは、従属の子のノードのスコアがさらに低くない場合には従属子のノードにスコアを割り当てる。スコア「i」の任意の等位ノード又は二分ノードでは、子のノードがさらに低いスコアを有さない場合、各子のノードにスコア「i」を割り当てる。関連性スコアは、次に以下のようなスコア及び従属レベルに基づいて決定される。
r=1−(L−1)*i (3)
ここで、rは関連性スコアであり、Lは従属レベルであり、「i」はスコア1/Lである。
図18は、本発明に従って逆数スコアを浸透する第3の例示的な方法を示す談話の例示的な構造表現の第2の図である。次に関連付けられる関連性スコアは、式(3)又は他の関数に基づいて決定される。
図19は、本発明による閾値重要性レベルに基づいてハイブリッドテキスト要約に談話構成要素を選択する例示的な方法を示す談話の例示的な構造表現の第3の図である。例示的なテキストの行4と5は、例示的な目的のために省略されている。「1/2」の重要性閾値関連性レベルが指定される。ハイブリッドテキスト要約930は、「1/2」閾値関連性レベルを超えて関連性スコアと関連付けられる談話構成要素から構成される。
図20は、本発明に従った照応解決に基づいて関連性スコアの浸透を示す談話の例示的な構造表現の第1図である。行5は、重要談話構成要素として識別される。この方法では、関連性スコアは、談話構成要素関連性スコアの調整が、談話構成要素が選択された談話構成要素リーフノードの対象を潜在的に解決できる場合にだけ発生するように限定的に浸透される。このようにして、語「温かいスープ(a hot soup)」が行5の「そのスープ(the
soup)」に対する参照を潜在的に解決するために、行4が追加される。しかしながら、行4を加えると、対象「それらは(they)」を導く。語「それらは(they)」は、行3に関連性スコアを浸透することにより解決される。行3は、対象を一意的に識別する語「麺類(Noodles)」を含む。本発明による多様な他の例示的な実施形態では、語「麺類(Noodles)」はさらに圧縮されたハイブリッドテキスト要約923を形成するために行4に代入されてよい。
図3及び図5に説明されるハイブリッド要約システム100、110の回路10〜90のそれぞれは、適切にプログラミングされた汎用コンピュータの部分として実現できる。代わりに、前記に概略されたハイブリッド要約システム100、110の10〜90は、ASIC内の物理的に別個のハードウェア回路として、つまりFPGA、PDL、PLA又はPALを使用して、あるいは離散論理要素又は離散回路要素を使用して実現できる。前記に概略されたハイブリッド要約システム100、110の回路10〜90のそれぞれが採る特定の形式は設計選択肢であり、当業者にとって明白であり予測できるであろう。
さらに、ハイブリッド要約システム100、110及び/又は前述された多様な回路のそれぞれは、それぞれソフトウェアルーチン、プログラミングされた汎用コンピュータで実行するマネージャ又はオブジェクト、特殊目的コンピュータ、マイクロプロセッサ等として実現できる。このケースでは、ハイブリッド要約システム100、110及び/又は前述された多様な回路のそれぞれは、それぞれ、サーバ等上に常駐するリソースとして、通信網に埋め込まれる一つ又は複数のルーチンとして実現できる。ハイブリッド要約システム100、110及び前述された多様な回路は、ウェブサーバ又はクライアントデバイスのハードウェアシステム及びソフトウェアシステムなどのソフトウェア及び/又はハードウェアシステムの中にハイブリッド要約システム100、110を物理的に組み込むことによっても実現できる。
図3及び図5に図示されるように、メモリ20は、改変可能な揮発性又は不揮発性のメモリ又は改変不可つまり固定されたメモリの任意の適切な組み合わせを使用して実現できる。改変可能なメモリは、揮発性であるか、不揮発性であるかに関係なく、スタティック又はダイナミックRAM、フロッピー(登録商標)ディスクとディスクドライブ、書き込み可能又は再書き込み可能の光ディスクとディスクドライブ、ハードディスクドライブ、フラッシュメモリ等の一つ又は複数を使用して実現できる。同様に、改変不可つまり固定されたメモリはROM、PROM、EPROM、EEPROM、CD−ROM又はDVD−ROMディスクなどの光ROMディスク、及びディスクドライブ等の任意の一つ又は複数を使用して実現できる。
図1、図3及び図5に示される通信リンク99は、それぞれ直接ケーブル接続、ワイドエリアネットワーク又はローカルエリアネットワーク上の接続、イントラネット上の接続、インターネット上の接続、又は他の分散処理ネットワーク又はシステム上の接続を含む、ハイブリッド要約システム100、110に通信装置を接続するための既知の又は今後開発される装置又はシステムである場合がある。一般的には、通信リンク99は装置を接続し、通信を容易にするために有用な任意の既知の又は今後開発される接続システム又は構造である場合がある。
さらに、通信リンク99がネットワークに対する有線リンク又は無線リンクである場合があることが理解される必要がある。ネットワークはローカルエリアネットワーク、ワイドエリアネットワーク、イントラネット、インターネット、又は他の分散処理記憶ネットワークである場合がある。
本発明は上記概略された例示的な実施形態とともに説明されてきたが、多くの代替策、変型及び変形が当業者に明らかになるであろうことは確かである。したがって、上述されたような本発明の例示的な実施形態は、制限的ではなく例証となることが意図される。多様な変更は本発明の精神及び範囲を逸脱することなく加えられてよい。
本発明による例示的なハイブリッド要約システムの概要である。 本発明の例示的な実施形態によるハイブリッドテキスト要約を決定する第1の方法である。 本発明の例示的な実施形態による第1のハイブリッド要約システムである。 本発明の例示的な実施形態によるハイブリッドテキスト要約を決定する第2の方法である。 本発明の例示的な実施形態による第2のハイブリッド要約システムである。 本発明の実施形態による分割規則を記憶するための例示的なデータ構造である。 本発明の実施形態による結合規則情報を記憶するための例示的なデータ構造である。 本発明の実施形態による関連性スコアを浸透する第1の例示的な方法の展開図である。 本発明の実施形態による関連性スコアを浸透する第2の例示的な方法の展開図である。 本発明の例示的な実施形態による関連性スコアを浸透する第3の例示的な方法の展開図である。 本発明の実施形態による照応置換の第1の例示的な方法の展開図である。 本発明の実施形態による照応置換の第2の例示的な方法の展開図である。 要約されるテキストである。 要約されるテキストのための談話の例示的な構造表現である。 本発明による関連性スコアを浸透する第1の例示的な方法を示す談話の例示的な構造表現である。 本発明による関連性スコアを浸透する第2の例示的な方法を示す談話の例示的な構造表現である。 本発明による逆スコアを浸透する第3の例示的な方法を示す談話の例示的な構造表現の第1の図である。 本発明による逆スコアを浸透する第3の例示的な方法を示す談話の例示的な構造表現の第2の図である。 本発明による閾値重要度レベルに基づいたハイブリッドテキスト要約のために談話構成要素を選択する例示的な方法を示す談話の例示的な構造表現である第3の図である。 本発明による照応解決に基づいた関連性スコアの浸透を示す談話の例示的な構造表現の第1の図である。
符号の説明
100 ハイブリッド要約システム
200 情報リポジトリ
300 ウェブ使用可能パーソナル・コンピュータ
400 ウェブ使用可能タブレット・コンピュータ
10000、10001、10002 文書

Claims (12)

  1. 分割規則を使用してテキストを談話構成要素に分割する分割手段と、
    前記分割手段により分割された談話構成要素を、結合規則を使用して、談話構成要素を談話構成要素ノードとして談話構成要素ノードをエッジでリンクするツリー型の談話の構造表現に結合する談話構造表現決定手段と、
    統計、キーワード、知識ベースの少なくとも一つを含む非構造方法による関連性基準に基づいて談話構成要素ノードの関連性スコアを決定する関連性スコア決定手段と、
    前記談話構造表現決定手段により結合された談話の構造表現に従って前記関連性スコア決定手段により決定された関連性スコアを談話構成要素ノードに浸透する浸透手段であって、
    関連性スコアに基づいて談話構成要素ノード関連性が親の談話構成要素ノードの関連性りある場合に、談話構成要素ノードの関連性スコアを親の談話構成要素ノードに割り当て、
    関連性スコアに基づいて談話構成要素ノードの関連性が、該談話構成要素ノードを被従属談話構成要素ノードとしたとき従属する従属談話構成要素ノードの関連性りある場合に、従属談話構成要素ノードに被従属談話構成要素ノードの関連性スコアを割り当て、
    関連性スコアに基づいて等の談話構成要素ノードの子の談話構成要素ノードのうち最も関連性ある談話構成要素ノードの関連性スコアを他の等位の談話構成要素ノードの子の談話構成要素ノードに割り当てる、
    ことにより前記関連性スコアを談話構成要素ノードに浸透する、前記浸透手段と、
    前記浸透手段により浸透された関連性スコアが閾値重要性スコアを超える談話構成要素ノードを決定し、該決定された談話構成要素に基づいてテキストの要約を表示する表示手段と、
    を有するテキストを要約するシステム。
  2. 分割規則を使用してテキストを談話構成要素に分割する分割手段と、
    前記分割手段により分割された談話構成要素を、結合規則を使用して、談話構成要素を談話構成要素ノードとして談話構成要素ノードをエッジでリンクするツリー型の談話の構造表現に結合する談話構造表現決定手段と、
    統計、キーワード、知識ベースの少なくとも一つを含む非構造方法による関連性基準に基づいて談話構成要素ノードの関連性スコアを決定する関連性スコア決定手段と、
    前記談話構造表現決定手段により結合された談話の構造表現に従って前記関連性スコア決定手段により決定された関連性スコアを談話構成要素ノードに浸透する浸透手段であって、
    関連性スコアに基づいて談話構成要素ノードの関連性がの談話構成要素ノードの関連性りある場合に、談話構成要素ノードの関連性スコアを親の談話構成要素ノードに割り当て
    関連性スコアに基づいて談話構成要素ノードの関連性が、該談話構成要素ノードを被従属談話構成要素ノードとしたとき従属し且つ先行する従属談話構成要素ノードの関連性よりある場合に、該従属談話構成要素ノードに被従属談話構成要素ノードの関連性スコアを割り当て、
    関連性スコアに基づいて、等位の談話構成要素ノードの子の談話構成要素ノードのうち最も関連性がある子の談話構成要素ノードの関連性スコアを、他の等位の談話構成要素ノードの子の談話構成要素ノードのうちの該他の等位の談話構成要素ノードに先行する談話構成要素ノードに割り当てる、
    ことにより前記関連性スコアを談話構成要素ノードに浸透する、前記浸透手段と、
    前記浸透手段により浸透された関連性スコアが閾値重要性スコアを超える談話構成要素ノードを決定し、該決定された談話構成要素に基づいてテキストの要約を表示する表示手段と、
    を有するテキストを要約するシステム。
  3. 分割規則を使用してテキストを談話構成要素に分割する分割手段と、
    前記分割手段により分割された談話構成要素を、結合規則を使用して、談話構成要素を談話構成要素ノードとして談話構成要素ノードをエッジでリンクするツリー型の談話の構造表現に結合する談話構造表現決定手段と、
    統計、キーワード、知識ベースの少なくとも一つを含む非構造方法による関連性基準に基づいて談話構成要素ノードの関連性スコアを決定する関連性スコア決定手段と、
    前記談話構造表現決定手段により結合された談話の構造表現に従って前記関連性スコア決定手段により決定された関連性スコアを談話構成要素ノードに浸透する浸透手段であって、
    談話構成要素ノドに、エッジ数+1を従属レベルとして割り当て
    談話構成要素ノードのうち終端のノードにエッジ数+1の逆数をスコアとして割り当て
    関連性スコアに基づいて談話構成要素ノードの関連性が親の談話構成要素ノードの関連性より少ない場合に、談話構成要素ノードのスコアを親の談話構成要素ノードに割り当て、
    該談話構成要素ノードを被従属談話構成要素ノードとしたとき従属する従属談話構成要素ノードより被従属談話構成要素ノードのスコアが低い場合に、被従属談話構成要素ノードのスコアを従属談話構成要素ノードに割り当て、
    等位の談話構成要素ノードの子の談話構成要素ノードのスコアが等位の談話構成要素ノードのスアより低くない場合に、等位の談話構成要素ノードのスコアを子の談話構成要素ノードに割り当て、
    談話構成要素ノードのスコア及び従属レベルに基づいて、談話構成要素ノードの関連性スコアを調整する、
    ことにより前記関連性スコアを談話構成要素ノードに浸透する、前記浸透手段と、
    前記浸透手段により浸透された関連性スコアが閾値重要性スコアを超える談話構成要素ノードを決定し、該決定された談話構成要素に基づいてテキストの要約を表示する表示手段と、
    を有するテキストを要約するシステム。
  4. 前記分割規則が、言語談話モデル、統一言語談話モデル、修辞構造理論、談話構造理論及び構造化談話表現理論の少なくとも一つである、請求項1〜3のいずれかに記載のテキストを要約するシステム。
  5. 前記浸透手段が、さらに、
    照応を含む談話構成要素の談話構成要素ノードを決定し、
    前記決定された談話構成要素ノードに先行する談話構成要素ノードの談話構成要素から前記照応の対象を決定して、該照応の対象を前記照応に代入する、
    ことにより前記関連性スコアを談話構成要素ノードに浸透する
    請求項1〜3のいずれかに記載のテキストを要約するシステム。
  6. 前記浸透手段が、さらに、
    関連性スコアに基づいて重要談話構成要素ノードを識別し
    前記識別された重要談話構成要素ノードの談話構成要素に含まれる照応を決定し、
    前記決定された照応の対象を含む可能性のある前記重要談話構成要素ノードより先行する先行談話構成要素ノードを所定の方法により決定し、
    前記決定された先行談話構成要素ノードに前記重要談話構成要素ノードの関連性スコアを浸透し、
    前記浸透された関連性スコアに基づいて、テキストの要約に使用される談話構成要素ノードサブセットを決定する、
    ことにより前記関連性スコアを談話構成要素ノードに浸透する
    請求項1〜3のいずれかに記載のテキストを要約するシステム。
  7. コンピュータに、
    テキスト談話構成要素に分割規則を使用して分割するステップと、
    結合規則を使用して、前記分割された談話構成要素を、談話構成要素を談話構成要素ノードとして談話構成要素ノードをエッジでリンクするツリー型の談話の構造表現に結合するステップと、
    統計、キーワード、知識ベースの少なくとも一つを含む非構造方法による関連性基準に基づいて談話構成要素ノードの関連性スコアを決定するステップと、
    前記談話の構造表現に従って前記決定された関連性スコアを談話構成要素ノードに浸透するステップであって、
    関連性スコアに基づいて談話構成要素ノードの関連性が親の談話構成要素ノードの関連性よりある場合に、談話構成要素ノードの関連性スコアを親の談話構成要素ノードに割り当てるステップと、
    関連性スコアに基づいて談話構成要素ノードの関連性が、該談話構成要素ノードを被従属談話構成要素ノードとしたとき従属する従属談話構成要素ノードの関連性よりある場合に、従属談話構成要素ノードに被従属談話構成要素ノードの関連性スコアを割り当てるステップと、
    関連性スコアに基づいて等位の談話構成要素ノードの子の談話構成要素ノードのうち最も関連性がある談話構成要素ノードの関連性スコアを他の等位の談話構成要素ノードの子の談話構成要素ノードに割り当てるステップと、
    を有する、前記関連性スコアを談話構成要素ノードに浸透するステップと、
    前記浸透された関連性スコアが閾値重要性スコアを超える談話構成要素ノードを決定し、該決定された談話構成要素に基づいてテキスト要約を表示するステップと、
    を実行させるためのプログラム。
  8. コンピュータに、
    分割規則を使用してテキストを談話構成要素に分割するステップと、
    前記分割された談話構成要素を、結合規則を使用して、談話構成要素を談話構成要素ノードとして談話構成要素ノードをエッジでリンクするツリー型の談話の構造表現に結合するステップと、
    統計、キーワード、知識ベースの少なくとも一つを含む非構造方法による関連性基準に基づいて談話構成要素ノードの関連性スコアを決定するステップと、
    前記談話の構造表現に従って前記決定された関連性スコアを談話構成要素ノードに浸透するステップであって、
    関連性スコアに基づいて談話構成要素ノードの関連性が親の談話構成要素ノードの関連性よりある場合に、談話構成要素ノードの関連性スコアを親の談話構成要素ノードに割り当てるステップと、
    関連性スコアに基づいて談話構成要素ノードの関連性が、該談話構成要素ノードを被従属談話構成要素ノードとしたとき従属し且つ先行する従属談話構成要素ノードの関連性よりある場合に、該従属談話構成要素ノードに被従属談話構成要素ノードの関連性スコアを割り当てるステップと、
    関連性スコアに基づいて、等位の談話構成要素ノードの子の談話構成要素ノードのうち最も関連性がある子の談話構成要素ノードの関連性スコアを、他の等位の談話構成要素ノードの子の談話構成要素ノードのうちの該他の等位の談話構成要素ノードに先行する談話構成要素ノードに割り当てるステップと、
    を有する、前記関連性スコアを談話構成要素ノードに浸透するステップと、
    前記浸透された関連性スコアが閾値重要性スコアを超える談話構成要素ノードを決定し、該決定された談話構成要素に基づいてテキストの要約を表示するステップと、
    を実行させるためのプログラム。
  9. コンピュータに、
    分割規則を使用してテキストを談話構成要素に分割するステップと、
    前記分割された談話構成要素を、結合規則を使用して、談話構成要素を談話構成要素ノードとして談話構成要素ノードをエッジでリンクするツリー型の談話の構造表現に結合するステップと、
    統計、キーワード、知識ベースの少なくとも一つを含む非構造方法による関連性基準に基づいて談話構成要素ノードの関連性スコアを決定するステップと、
    前記談話の構造表現に従って前記決定された関連性スコアを談話構成要素ノードに浸透するステップであって、
    談話構成要素ノードに、エッジ数+1を従属レベルとして割り当てるステップと、
    談話構成要素ノードのうち終端のノードにエッジ数+1の逆数をスコアとして割り当てるステップと、
    関連性スコアに基づいて談話構成要素ノードの関連性が親の談話構成要素ノードの関連性より少ない場合に、談話構成要素ノードのスコアを親の談話構成要素ノードに割り当てるステップと、
    該談話構成要素ノードを被従属談話構成要素ノードとしたとき従属する従属談話構成要素ノードより被従属談話構成要素ノードのスコアが低い場合に、被従属談話構成要素ノードのスコアを従属談話構成要素ノードに割り当てるステップと、
    等位の談話構成要素ノードの子の談話構成要素ノードのスコアが等位の談話構成要素ノードのスコアより低くない場合に、等位の談話構成要素ノードのスコアを子の談話構成要素ノードに割り当てるステップと、
    談話構成要素ノードのスコア及び従属レベルに基づいて、談話構成要素ノードの関連性スコアを調整するステップと、
    を有する、前記関連性スコアを談話構成要素ノードに浸透するステップと、
    前記浸透された関連性スコアが閾値重要性スコアを超える談話構成要素ノードを決定し、該決定された談話構成要素に基づいてテキストの要約を表示するステップと、
    を実行させるためのプログラム。
  10. 前記分割規則が、言語談話モデル、統一言語談話モデル、修辞構造理論、談話構造理論及び構造化談話表現理論の少なくとも一つである、請求項7〜9のいずれかに記載のプログラム
  11. 前記関連性スコアを談話構成要素ノードに浸透するステップが、
    照応を含む談話構成要素の談話構成要素ノードを決定するステップと、
    前記決定された談話構成要素ノードに先行する談話構成要素ノードの談話構成要素から前記照応の対象を決定して、該照応の対象を前記照応に代入するステップと、
    をさらに有する請求項7〜9のいずれかに記載のプログラム
  12. 前記関連性スコアを談話構成要素ノードに浸透するステップが、
    関連性スコアに基づいて重要談話構成要素ノードを識別するステップと、
    前記識別された重要談話構成要素ノードの談話構成要素に含まれる照応を決定するステップと、
    前記決定された照応の対象を含む可能性のある前記重要談話構成要素ノードより先行する先行談話構成要素ノードを所定の方法により決定するステップと、
    前記決定された先行談話構成要素ノードに前記重要談話構成要素ノードの関連性スコアを浸透するステップと、
    前記浸透された関連性スコアに基づいて、テキストの要約に使用される談話構成要素ノードのサブセットを決定するステップと、
    を有する請求項7〜9のいずれかに記載のプログラム
JP2004299833A 2003-10-15 2004-10-14 ハイブリッドテキスト要約を決定する方法、システム、及び、制御プログラム、談話構文解析方法、システム、及び、該システムにおける方法、談話構成要素にテキストを分割する方法及びシステム、談話の構造表現を決定する方法及びシステム、ハイブリッドテキスト要約システム Active JP4706227B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/684,508 US7610190B2 (en) 2003-10-15 2003-10-15 Systems and methods for hybrid text summarization
US684508 2003-10-15

Publications (3)

Publication Number Publication Date
JP2005122743A JP2005122743A (ja) 2005-05-12
JP2005122743A5 JP2005122743A5 (ja) 2007-11-29
JP4706227B2 true JP4706227B2 (ja) 2011-06-22

Family

ID=34520584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004299833A Active JP4706227B2 (ja) 2003-10-15 2004-10-14 ハイブリッドテキスト要約を決定する方法、システム、及び、制御プログラム、談話構文解析方法、システム、及び、該システムにおける方法、談話構成要素にテキストを分割する方法及びシステム、談話の構造表現を決定する方法及びシステム、ハイブリッドテキスト要約システム

Country Status (2)

Country Link
US (1) US7610190B2 (ja)
JP (1) JP4706227B2 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813916B2 (en) * 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
US7542903B2 (en) * 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US7801723B2 (en) * 2004-11-30 2010-09-21 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive condensation
US7827029B2 (en) * 2004-11-30 2010-11-02 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive note-taking
US7401077B2 (en) * 2004-12-21 2008-07-15 Palo Alto Research Center Incorporated Systems and methods for using and constructing user-interest sensitive indicators of search results
JP2006252047A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd 言語処理装置および言語処理プログラム
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
US7739279B2 (en) * 2005-12-12 2010-06-15 Fuji Xerox Co., Ltd. Systems and methods for determining relevant information based on document structure
US8977953B1 (en) * 2006-01-27 2015-03-10 Linguastat, Inc. Customizing information by combining pair of annotations from at least two different documents
US8731954B2 (en) 2006-03-27 2014-05-20 A-Life Medical, Llc Auditing the coding and abstracting of documents
US9471562B2 (en) * 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US7908552B2 (en) 2007-04-13 2011-03-15 A-Life Medical Inc. Mere-parsing with boundary and semantic driven scoping
US8682823B2 (en) 2007-04-13 2014-03-25 A-Life Medical, Llc Multi-magnitudinal vectors with resolution based on source vector features
US7925496B1 (en) * 2007-04-23 2011-04-12 The United States Of America As Represented By The Secretary Of The Navy Method for summarizing natural language text
US20080270119A1 (en) * 2007-04-30 2008-10-30 Microsoft Corporation Generating sentence variations for automatic summarization
US20080282153A1 (en) * 2007-05-09 2008-11-13 Sony Ericsson Mobile Communications Ab Text-content features
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
US9946846B2 (en) 2007-08-03 2018-04-17 A-Life Medical, Llc Visualizing the documentation and coding of surgical procedures
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US8606815B2 (en) * 2008-12-09 2013-12-10 International Business Machines Corporation Systems and methods for analyzing electronic text
US20100293179A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
JP5341732B2 (ja) * 2009-11-30 2013-11-13 株式会社野村総合研究所 談話要約生成システムおよび談話要約生成プログラム
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US9317595B2 (en) * 2010-12-06 2016-04-19 Yahoo! Inc. Fast title/summary extraction from long descriptions
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
US10541053B2 (en) 2013-09-05 2020-01-21 Optum360, LLCq Automated clinical indicator recognition with natural language processing
US10133727B2 (en) 2013-10-01 2018-11-20 A-Life Medical, Llc Ontologically driven procedure coding
US10621390B1 (en) * 2014-12-01 2020-04-14 Massachusetts Institute Of Technology Method and apparatus for summarization of natural language
US10176228B2 (en) * 2014-12-10 2019-01-08 International Business Machines Corporation Identification and evaluation of lexical answer type conditions in a question to generate correct answers
JP2017151863A (ja) * 2016-02-26 2017-08-31 国立大学法人東京工業大学 文書要約装置
US10216832B2 (en) 2016-12-19 2019-02-26 Interactions Llc Underspecification of intents in a natural language processing system
US10599885B2 (en) * 2017-05-10 2020-03-24 Oracle International Corporation Utilizing discourse structure of noisy user-generated content for chatbot learning
US11373632B2 (en) * 2017-05-10 2022-06-28 Oracle International Corporation Using communicative discourse trees to create a virtual persuasive dialogue
US10839154B2 (en) * 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
US11586827B2 (en) * 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
EP3622412A1 (en) * 2017-05-10 2020-03-18 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
US11960844B2 (en) * 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US10679011B2 (en) * 2017-05-10 2020-06-09 Oracle International Corporation Enabling chatbots by detecting and supporting argumentation
US11386274B2 (en) * 2017-05-10 2022-07-12 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US11615145B2 (en) 2017-05-10 2023-03-28 Oracle International Corporation Converting a document into a chatbot-accessible form via the use of communicative discourse trees
US10817670B2 (en) * 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
US11100144B2 (en) 2017-06-15 2021-08-24 Oracle International Corporation Data loss prevention system for cloud security based on document discourse analysis
US10839161B2 (en) 2017-06-15 2020-11-17 Oracle International Corporation Tree kernel learning for text classification into classes of intent
US11182412B2 (en) 2017-09-27 2021-11-23 Oracle International Corporation Search indexing using discourse trees
CN111149100B (zh) 2017-09-28 2023-08-29 甲骨文国际公司 基于命名实体的解析和识别确定跨文档的修辞相互关系
US11809825B2 (en) 2017-09-28 2023-11-07 Oracle International Corporation Management of a focused information sharing dialogue based on discourse trees
JP7214719B2 (ja) 2017-09-28 2023-01-30 オラクル・インターナショナル・コーポレイション 質問と要求とを自律エージェントが区別できるようにすること
US10949623B2 (en) 2018-01-30 2021-03-16 Oracle International Corporation Using communicative discourse trees to detect a request for an explanation
US11537645B2 (en) 2018-01-30 2022-12-27 Oracle International Corporation Building dialogue structure by using communicative discourse trees
WO2019217722A1 (en) 2018-05-09 2019-11-14 Oracle International Corporation Constructing imaginary discourse trees to improve answering convergent questions
US11455494B2 (en) 2018-05-30 2022-09-27 Oracle International Corporation Automated building of expanded datasets for training of autonomous agents
US11449682B2 (en) 2019-08-29 2022-09-20 Oracle International Corporation Adjusting chatbot conversation to user personality and mood
US11599731B2 (en) * 2019-10-02 2023-03-07 Oracle International Corporation Generating recommendations by using communicative discourse trees of conversations
US11556698B2 (en) 2019-10-22 2023-01-17 Oracle International Corporation Augmenting textual explanations with complete discourse trees
US11580298B2 (en) 2019-11-14 2023-02-14 Oracle International Corporation Detecting hypocrisy in text
US11775772B2 (en) 2019-12-05 2023-10-03 Oracle International Corporation Chatbot providing a defeating reply

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348696A (ja) * 1993-06-03 1994-12-22 Xerox Corp 自動識別方法
JPH0711801B2 (ja) * 1990-07-10 1995-02-08 工業技術院長 文章構造解析装置
JPH11345233A (ja) * 1998-04-02 1999-12-14 Sony Corp 文書処理方法および装置ならびに記録媒体
JP2002091276A (ja) * 2000-06-30 2002-03-27 Fuji Xerox Co Ltd 解説的な著述を教示するための方法及びシステム
JP2003085193A (ja) * 2001-06-19 2003-03-20 Fuji Xerox Co Ltd テキストサマリ生成システム及び方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658436A (en) * 1982-10-28 1987-04-14 Cincinnati Electronics Corporation Disguised transmission system and method
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6341372B1 (en) * 1997-05-01 2002-01-22 William E. Datig Universal machine translator of arbitrary languages
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6067515A (en) * 1997-10-27 2000-05-23 Advanced Micro Devices, Inc. Split matrix quantization with split vector quantization error compensation and selective enhanced processing for robust speech recognition
WO1999052237A1 (en) * 1998-04-03 1999-10-14 Vertical Networks Inc. System and method for transmitting voice and data using intelligent bridged tdm and packet buses
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6363381B1 (en) * 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching
US6721707B1 (en) * 1999-05-14 2004-04-13 Nortel Networks Limited Method and apparatus for controlling the transition of an audio converter between two operative modes in the presence of link impairments in a data communication channel
US6571238B1 (en) * 1999-06-11 2003-05-27 Abuzz Technologies, Inc. System for regulating flow of information to user by using time dependent function to adjust relevancy threshold
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
AU2001261505A1 (en) * 2000-05-11 2001-11-20 University Of Southern California Machine translation techniques
US20020040363A1 (en) * 2000-06-14 2002-04-04 Gadi Wolfman Automatic hierarchy based classification
US6738759B1 (en) * 2000-07-07 2004-05-18 Infoglide Corporation, Inc. System and method for performing similarity searching using pointer optimization
US7813915B2 (en) * 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
US20020065857A1 (en) * 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
US6866510B2 (en) * 2000-12-22 2005-03-15 Fuji Xerox Co., Ltd. System and method for teaching second language writing skills using the linguistic discourse model
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US7379993B2 (en) * 2001-09-13 2008-05-27 Sri International Prioritizing Bayes network alerts
US7386453B2 (en) * 2001-11-14 2008-06-10 Fuji Xerox, Co., Ltd Dynamically changing the levels of reading assistance and instruction to support the needs of different individuals
US7010017B2 (en) * 2002-01-30 2006-03-07 Qualcomm Inc. Receiver noise estimation
WO2003077152A2 (en) * 2002-03-04 2003-09-18 University Of Southern California Sentence generator
US6618702B1 (en) * 2002-06-14 2003-09-09 Mary Antoinette Kohler Method of and device for phone-based speaker recognition
JP2004054631A (ja) * 2002-07-19 2004-02-19 Internatl Business Mach Corp <Ibm> 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム
US7305336B2 (en) * 2002-08-30 2007-12-04 Fuji Xerox Co., Ltd. System and method for summarization combining natural language generation with structural analysis
US20040049391A1 (en) * 2002-09-09 2004-03-11 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency proficiency assessment
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
EP1573562A4 (en) * 2002-10-31 2007-12-19 Arizan Corp METHOD AND DEVICES FOR SUMMARY OF DOCUMENT CONTENT FOR MOBILE COMMUNICATION DEVICES
US7089231B2 (en) * 2002-12-31 2006-08-08 International Business Machines Corporation System and method for searching a plurality of databases distributed across a multi server domain
US20040153440A1 (en) * 2003-01-30 2004-08-05 Assaf Halevy Unified management of queries in a multi-platform distributed environment
US20040230415A1 (en) * 2003-05-12 2004-11-18 Stefan Riezler Systems and methods for grammatical text condensation
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
EP1869896B1 (en) * 2005-03-10 2010-01-20 QUALCOMM Incorporated A decoder architecture for optimized error management in streaming multimedia
US7865148B2 (en) * 2005-04-04 2011-01-04 Research In Motion Limited System and method for encoding and decoding information signals using a priori information
US7840896B2 (en) * 2006-03-30 2010-11-23 Microsoft Corporation Definition and instantiation of metric based business logic reports

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0711801B2 (ja) * 1990-07-10 1995-02-08 工業技術院長 文章構造解析装置
JPH06348696A (ja) * 1993-06-03 1994-12-22 Xerox Corp 自動識別方法
JPH11345233A (ja) * 1998-04-02 1999-12-14 Sony Corp 文書処理方法および装置ならびに記録媒体
JP2002091276A (ja) * 2000-06-30 2002-03-27 Fuji Xerox Co Ltd 解説的な著述を教示するための方法及びシステム
JP2003085193A (ja) * 2001-06-19 2003-03-20 Fuji Xerox Co Ltd テキストサマリ生成システム及び方法

Also Published As

Publication number Publication date
JP2005122743A (ja) 2005-05-12
US20050086592A1 (en) 2005-04-21
US7610190B2 (en) 2009-10-27

Similar Documents

Publication Publication Date Title
JP4706227B2 (ja) ハイブリッドテキスト要約を決定する方法、システム、及び、制御プログラム、談話構文解析方法、システム、及び、該システムにおける方法、談話構成要素にテキストを分割する方法及びシステム、談話の構造表現を決定する方法及びシステム、ハイブリッドテキスト要約システム
JP2005122743A5 (ja)
JP5538820B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
JP4647336B2 (ja) グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム
JP5243167B2 (ja) 情報検索システム
US9424294B2 (en) Method for facet searching and search suggestions
JP4654780B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8055592B2 (en) Clustering data objects
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US9098489B2 (en) Method and system for semantic searching
US9069750B2 (en) Method and system for semantic searching of natural language texts
US7113905B2 (en) Method and apparatus for determining unbounded dependencies during syntactic parsing
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
US20150057992A1 (en) Exhaustive automatic processing of textual information
EP2643770A2 (en) Text segmentation with multiple granularity levels
US9075864B2 (en) Method and system for semantic searching using syntactic and semantic analysis
US20090112845A1 (en) System and method for language sensitive contextual searching
JP2011118689A (ja) 検索方法及びシステム
KR20060043583A (ko) 언어 데이터의 로그의 압축 방법 및 시스템
KR102395926B1 (ko) 복합명사 분석장치 및 방법, 컴퓨터 프로그램
US7171403B2 (en) Systems and methods for efficient conjunction of Boolean variables
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
US20170220557A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
WO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071011

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100813

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110228