JPH08297677A - 主題の要約を生成する自動的な方法 - Google Patents
主題の要約を生成する自動的な方法Info
- Publication number
- JPH08297677A JPH08297677A JP8084297A JP8429796A JPH08297677A JP H08297677 A JPH08297677 A JP H08297677A JP 8084297 A JP8084297 A JP 8084297A JP 8429796 A JP8429796 A JP 8429796A JP H08297677 A JPH08297677 A JP H08297677A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- processor
- sentence
- document
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 機械で読み取り可能なドキュメントの主題の
要約を自動的に生成する方法を提供する。 【解決手段】 第1の複数の文と第2の複数の用語を含
んだドキュメントを機械で読み取り、プロセッサはプロ
セッサに結合されたメモリ内に電子的な形態で格納され
た命令を実行することにより、次のステップを実施す
る。a)主題の用語として、前記第2の複数の用語から
第1の数の用語を選択し、b)各々の文の中の主題の用
語の発生に基づいて前記第1の複数の文の各々の文にス
コアを付け、c)主題の文として、各々の文のスコアに
基づいて前記第1の複数の文から第2の数の文を選択す
る。
要約を自動的に生成する方法を提供する。 【解決手段】 第1の複数の文と第2の複数の用語を含
んだドキュメントを機械で読み取り、プロセッサはプロ
セッサに結合されたメモリ内に電子的な形態で格納され
た命令を実行することにより、次のステップを実施す
る。a)主題の用語として、前記第2の複数の用語から
第1の数の用語を選択し、b)各々の文の中の主題の用
語の発生に基づいて前記第1の複数の文の各々の文にス
コアを付け、c)主題の文として、各々の文のスコアに
基づいて前記第1の複数の文から第2の数の文を選択す
る。
Description
【0001】
【発明の属する技術分野】本発明は、自動的なテキスト
処理の方法に関する。特に本発明は、ドキュメントの主
題の要約を生成する自動的な方法に関する。
処理の方法に関する。特に本発明は、ドキュメントの主
題の要約を生成する自動的な方法に関する。
【0002】
【従来の技術】ドキュメント要約及び概要は、ドキュメ
ントを検討するのに必要な時間を減少させることによっ
て有効な機能を果たす。要約及び概要は、ドキュメント
作成の後に手動或いは自動的に生成することができる。
手動の要約及び概要は、高品質であるが人間の労働が必
要であるので高価になるおそれがある。別法として、要
約及び概要は、自動的に生成することができる。自動的
な要約及び概要は、安価に作成することができるが、高
品質を一貫して得ることは困難である。
ントを検討するのに必要な時間を減少させることによっ
て有効な機能を果たす。要約及び概要は、ドキュメント
作成の後に手動或いは自動的に生成することができる。
手動の要約及び概要は、高品質であるが人間の労働が必
要であるので高価になるおそれがある。別法として、要
約及び概要は、自動的に生成することができる。自動的
な要約及び概要は、安価に作成することができるが、高
品質を一貫して得ることは困難である。
【0003】
【発明が解決しようとする課題】自動的な要約を生成す
るためのシステムは、二つの計算機的な技法、すなわ
ち、自然言語処理、或いは、量的な内容分析の一つに頼
っている。自然言語処理は、計算機的な処理を集中的に
行う。これに加えて、ドキュメント内容が限定されてい
ないときには、自然言語処理を使って意味的に正しい要
約及び概要を作成することは困難である。
るためのシステムは、二つの計算機的な技法、すなわ
ち、自然言語処理、或いは、量的な内容分析の一つに頼
っている。自然言語処理は、計算機的な処理を集中的に
行う。これに加えて、ドキュメント内容が限定されてい
ないときには、自然言語処理を使って意味的に正しい要
約及び概要を作成することは困難である。
【0004】量的な内容分析は、テキストの統計上の特
性に頼って要約を作成する。ジェラルド・サルトン(Ger
ald Salton)は、「自動テキスト処理(Automatic Text P
rocessing)」(1989)において、ドキュメントを要約する
ための量的な内容分析の使用について議論している。サ
ルトン要約器(Salton summarizer)は、最初に、ドキュ
メント集成の中のテキスト語を分離する。次に、サルト
ン要約器は、タイトル、図、キャプション、脚注におい
て使用された語を、タイトル語としてフラグを立てる。
その後、ドキュメント集成の中の残りのテキスト語の発
生頻度が決定される。次いで、発生頻度とテキスト語の
位置は、語の重みを生成するために使われる。サルトン
要約器は、語の重みを使用して、ドキュメント集成の中
の各々のドキュメントの各々の文にスコアを付ける。こ
れらの文スコアは順番に使用されて、ドキュメント集成
の中の各々のドキュメント毎に、所定の長さの要約を作
成する。語の重みは、各々の個別のドキュメントの中よ
りは、ドキュメント集成の全体での発生に基づいて決定
されるので、個別のドキュメントのテーマを正確には反
映していない恐れがある。
性に頼って要約を作成する。ジェラルド・サルトン(Ger
ald Salton)は、「自動テキスト処理(Automatic Text P
rocessing)」(1989)において、ドキュメントを要約する
ための量的な内容分析の使用について議論している。サ
ルトン要約器(Salton summarizer)は、最初に、ドキュ
メント集成の中のテキスト語を分離する。次に、サルト
ン要約器は、タイトル、図、キャプション、脚注におい
て使用された語を、タイトル語としてフラグを立てる。
その後、ドキュメント集成の中の残りのテキスト語の発
生頻度が決定される。次いで、発生頻度とテキスト語の
位置は、語の重みを生成するために使われる。サルトン
要約器は、語の重みを使用して、ドキュメント集成の中
の各々のドキュメントの各々の文にスコアを付ける。こ
れらの文スコアは順番に使用されて、ドキュメント集成
の中の各々のドキュメント毎に、所定の長さの要約を作
成する。語の重みは、各々の個別のドキュメントの中よ
りは、ドキュメント集成の全体での発生に基づいて決定
されるので、個別のドキュメントのテーマを正確には反
映していない恐れがある。
【0005】
【課題を解決するための手段】機械で読み取り可能なド
キュメントの主題の要約を自動的に生成する技法が説明
される。この技法は、ドキュメント内の主題の用語の識
別で始まる。次に、ドキュメントの各々の文に、その文
に含まれる主題の用語の数に基づいて、スコアが付けら
れる。その後、最もスコアが高い文が、主題の文として
選択される。
キュメントの主題の要約を自動的に生成する技法が説明
される。この技法は、ドキュメント内の主題の用語の識
別で始まる。次に、ドキュメントの各々の文に、その文
に含まれる主題の用語の数に基づいて、スコアが付けら
れる。その後、最もスコアが高い文が、主題の文として
選択される。
【0006】
【発明の実施の形態】図1は、自動的にドキュメントの
主題の要約を生成するためのコンピュータシステムを示
す。
主題の要約を生成するためのコンピュータシステムを示
す。
【0007】図2は、図1のコンピュータシステムを使
用するドキュメントの主題の要約を生成する方法のフロ
ーチャートである。
用するドキュメントの主題の要約を生成する方法のフロ
ーチャートである。
【0008】図1は、本方法が実施されたコンピュータ
システム10を、ブロック図形式で示す。本方法は、コ
ンピュータシステム10の動作を変え、機械が読み取り
可能な形態で表されたどのようなドキュメントの主題の
要約も生成することを可能にする。簡単に説明されたよ
うに、コンピュータシステム10は、ドキュメント内で
主題の用語を識別し、次いで、文内に含まれる主題の用
語の数に基づいてドキュメントの各々の文にスコアを付
けることにより、主題の要約を生成する。その後、コン
ピュータシステム10は、最も高いスコアが付けられた
文を、主題の文として選択し、そしてそれらの文をコン
ピュータシステム10のユーザに提示する。
システム10を、ブロック図形式で示す。本方法は、コ
ンピュータシステム10の動作を変え、機械が読み取り
可能な形態で表されたどのようなドキュメントの主題の
要約も生成することを可能にする。簡単に説明されたよ
うに、コンピュータシステム10は、ドキュメント内で
主題の用語を識別し、次いで、文内に含まれる主題の用
語の数に基づいてドキュメントの各々の文にスコアを付
けることにより、主題の要約を生成する。その後、コン
ピュータシステム10は、最も高いスコアが付けられた
文を、主題の文として選択し、そしてそれらの文をコン
ピュータシステム10のユーザに提示する。
【0009】本方法のより詳細な議論の前に、コンピュ
ータシステム10について検討する。コンピュータシス
テム10は、コンピュータユーザへ情報を視覚的に表示
するためのモニタ12を含む。コンピュータシステム1
0は、プリンタ13によってもコンピュータユーザに情
報を出力する。コンピュータシステム10は、コンピュ
ータユーザに、データを入力するための幾つもの方法を
提供する。キーボード14は、コンピュータユーザがタ
イピングによってコンピュータシステム10にデータを
入力することを可能にする。マウス16を移動すること
によって、コンピュータユーザは、モニタ12に表示さ
れたポインタを移動することが可能になる。また、コン
ピュータユーザは、スタイラス或いはペンで電子タブレ
ット18に書くことによっても、コンピュータシステム
10に情報を入力することができる。別法として、コン
ピュータユーザは、フロッピーディスクドライブ22に
ディスクをさしこむことによって、フロッピーディスク
のような磁気媒体に格納されたデータを入力することが
できる。光学的文字認識ユニット(OCRユニット)2
4により、コンピュータユーザがハードコピードキュメ
ントをコンピュータシステムに入力することが可能にな
り、次いで、OCRユニット24は、符号化された電子
的表現、典型的には情報交換用米国標準コード(ASC
II)に変換される。
ータシステム10について検討する。コンピュータシス
テム10は、コンピュータユーザへ情報を視覚的に表示
するためのモニタ12を含む。コンピュータシステム1
0は、プリンタ13によってもコンピュータユーザに情
報を出力する。コンピュータシステム10は、コンピュ
ータユーザに、データを入力するための幾つもの方法を
提供する。キーボード14は、コンピュータユーザがタ
イピングによってコンピュータシステム10にデータを
入力することを可能にする。マウス16を移動すること
によって、コンピュータユーザは、モニタ12に表示さ
れたポインタを移動することが可能になる。また、コン
ピュータユーザは、スタイラス或いはペンで電子タブレ
ット18に書くことによっても、コンピュータシステム
10に情報を入力することができる。別法として、コン
ピュータユーザは、フロッピーディスクドライブ22に
ディスクをさしこむことによって、フロッピーディスク
のような磁気媒体に格納されたデータを入力することが
できる。光学的文字認識ユニット(OCRユニット)2
4により、コンピュータユーザがハードコピードキュメ
ントをコンピュータシステムに入力することが可能にな
り、次いで、OCRユニット24は、符号化された電子
的表現、典型的には情報交換用米国標準コード(ASC
II)に変換される。
【0010】コンピュータユーザの命令を実行するため
に、プロセッサ11は、コンピュータシステム10の動
作を制御すると共に調整する。メモリに電子的に、すな
わち、メモリ28或いはディスクドライブ22内のフロ
ッピーディスクのいずれかに、格納された命令を実行す
ることによって、プロセッサ11は、各々のユーザコマ
ンドに応じた適切な挙動を決定し且つ行う。典型的に
は、プロセッサ11に対する動作命令は、固体メモリ2
8に格納され、命令への頻繁で迅速なアクセスが可能と
なる。使うことができる半導体メモリ装置には、読み出
し専用メモリ(ROM)、ランダムアクセスメモリ(R
AM)、ダイナミックランダムアクセスメモリ(DRA
M)、プログラム可能な読み出し専用メモリ(PRO
M)、消去可能なプログラム可能な読み出し専用メモリ
(EPROM)、フラッシュメモリのような電気的に消
去可能なプログラム可能な読み出し専用メモリ(EEP
ROM)が含まれる。
に、プロセッサ11は、コンピュータシステム10の動
作を制御すると共に調整する。メモリに電子的に、すな
わち、メモリ28或いはディスクドライブ22内のフロ
ッピーディスクのいずれかに、格納された命令を実行す
ることによって、プロセッサ11は、各々のユーザコマ
ンドに応じた適切な挙動を決定し且つ行う。典型的に
は、プロセッサ11に対する動作命令は、固体メモリ2
8に格納され、命令への頻繁で迅速なアクセスが可能と
なる。使うことができる半導体メモリ装置には、読み出
し専用メモリ(ROM)、ランダムアクセスメモリ(R
AM)、ダイナミックランダムアクセスメモリ(DRA
M)、プログラム可能な読み出し専用メモリ(PRO
M)、消去可能なプログラム可能な読み出し専用メモリ
(EPROM)、フラッシュメモリのような電気的に消
去可能なプログラム可能な読み出し専用メモリ(EEP
ROM)が含まれる。
【0011】図2は、機械が読み取り可能な主題の要約
を生成するために、プロセッサ11によって実行された
命令40をフローチャート形式で示す。命令40は、固
体メモリ28内に、或いは、フロッピーディスクドライ
ブ22内に置かれたフロッピーディスクに格納すること
ができる。命令40は、LISPとC++を含むどのよ
うなコンピュータ言語でも実現することができる。
を生成するために、プロセッサ11によって実行された
命令40をフローチャート形式で示す。命令40は、固
体メモリ28内に、或いは、フロッピーディスクドライ
ブ22内に置かれたフロッピーディスクに格納すること
ができる。命令40は、LISPとC++を含むどのよ
うなコンピュータ言語でも実現することができる。
【0012】命令40の実行を開始するためには、ドキ
ュメントを電子的な形態で選択して入力することが必要
である。もし所望であるならば、命令40の実行開始前
に、コンピュータユーザは、「S」で示された主題の要
約の長さを、デフォルトの長さから変えてもよい。主題
の要約のデフォルトの長さは、任意の数の文に設定する
ことができる。ドキュメントの拾い読みを意図している
実施態様においては、主題の要約のデフォルトの長さ
は、五つの文に設定される。
ュメントを電子的な形態で選択して入力することが必要
である。もし所望であるならば、命令40の実行開始前
に、コンピュータユーザは、「S」で示された主題の要
約の長さを、デフォルトの長さから変えてもよい。主題
の要約のデフォルトの長さは、任意の数の文に設定する
ことができる。ドキュメントの拾い読みを意図している
実施態様においては、主題の要約のデフォルトの長さ
は、五つの文に設定される。
【0013】プロセッサ11は、ステップ42に分岐す
ることによって、要約すべきドキュメントの選択に応答
する。ステップ42の期間では、プロセッサ11は、選
択された語及び文をトークン化する。すなわち、プロセ
ッサ11は、選択されたドキュメントの、機械が読み取
り可能な表現を分析し、文の境界及び各文の中の語を識
別する。自然言語テキストのトークン化は周知であり、
したがって、ここでは詳細には説明されない。これに加
えて、トークン化の期間中は、プロセッサ11は、ドキ
ュメントの各々の文に文I.D.を割り当てる。一つの
実施態様においては、各々の文は、ドキュメントの開始
に関してその位置を表している数によって識別される。
文を識別する他の方法が、本方法に影響を与えることな
く使用できる。選択されたドキュメントのトークン化の
後で、プロセッサ11はステップ42からステップ44
へ分岐する。
ることによって、要約すべきドキュメントの選択に応答
する。ステップ42の期間では、プロセッサ11は、選
択された語及び文をトークン化する。すなわち、プロセ
ッサ11は、選択されたドキュメントの、機械が読み取
り可能な表現を分析し、文の境界及び各文の中の語を識
別する。自然言語テキストのトークン化は周知であり、
したがって、ここでは詳細には説明されない。これに加
えて、トークン化の期間中は、プロセッサ11は、ドキ
ュメントの各々の文に文I.D.を割り当てる。一つの
実施態様においては、各々の文は、ドキュメントの開始
に関してその位置を表している数によって識別される。
文を識別する他の方法が、本方法に影響を与えることな
く使用できる。選択されたドキュメントのトークン化の
後で、プロセッサ11はステップ42からステップ44
へ分岐する。
【0014】プロセッサ11は、ステップ44の間に、
ドキュメントの各々の語トークンを調べ、その語を用語
リストに既に含まれている用語を比較する。語トークン
がリストにまだ含まれていない場合には、次いで、プロ
セッサ11は、その語を用語リストに加えて、その語が
発生した文の文I.D.を注記する。他方、語が用語リ
ストに既にある場合には、プロセッサ11は、その用語
についてのエントリ或いはリストへ、その語についての
文I.D.を単純に加える。言い換えれば、ステップ4
4の期間中、プロセッサ11は、その言葉の発生毎の位
置とドキュメントの語を関連させるデータ構造を生成す
る。このように、たとえば、「背教(apostasy)、7、
9、12」の用語リストエントリは、用語「背教」が、
ドキュメントの文7と9と12で発生するということを
示す。
ドキュメントの各々の語トークンを調べ、その語を用語
リストに既に含まれている用語を比較する。語トークン
がリストにまだ含まれていない場合には、次いで、プロ
セッサ11は、その語を用語リストに加えて、その語が
発生した文の文I.D.を注記する。他方、語が用語リ
ストに既にある場合には、プロセッサ11は、その用語
についてのエントリ或いはリストへ、その語についての
文I.D.を単純に加える。言い換えれば、ステップ4
4の期間中、プロセッサ11は、その言葉の発生毎の位
置とドキュメントの語を関連させるデータ構造を生成す
る。このように、たとえば、「背教(apostasy)、7、
9、12」の用語リストエントリは、用語「背教」が、
ドキュメントの文7と9と12で発生するということを
示す。
【0015】好ましくは、用語リストを生み出している
間、プロセッサ11は、ストップ語を取り除く。ここで
使用されたように、「ストップ語(stop word)」は、主
題の意味を伝達せず、また、自然語テキストにおいて非
常に頻繁に発生する語である。ほとんどの代名詞、前置
詞、決定詞、及び、動詞「である(to be)」は、ストッ
プ語として分類される。このように、例えば、「そして
(and)、一つの(a)、その(the)、〜の上の(on)、〜によ
って(by)、〜について(about)、彼(he)、彼女(she)」の
ような語は、ストップ語である。ドキュメント内のスト
ップ語は、ストップ語のリストとドキュメントについて
の語トークンを比較することによって識別される。用語
リストからストップ語を削除することは必要でないが、
削除すれば、ドキュメントの主題の要約を生成するのに
必要な全体の処理時間が減少する。
間、プロセッサ11は、ストップ語を取り除く。ここで
使用されたように、「ストップ語(stop word)」は、主
題の意味を伝達せず、また、自然語テキストにおいて非
常に頻繁に発生する語である。ほとんどの代名詞、前置
詞、決定詞、及び、動詞「である(to be)」は、ストッ
プ語として分類される。このように、例えば、「そして
(and)、一つの(a)、その(the)、〜の上の(on)、〜によ
って(by)、〜について(about)、彼(he)、彼女(she)」の
ような語は、ストップ語である。ドキュメント内のスト
ップ語は、ストップ語のリストとドキュメントについて
の語トークンを比較することによって識別される。用語
リストからストップ語を削除することは必要でないが、
削除すれば、ドキュメントの主題の要約を生成するのに
必要な全体の処理時間が減少する。
【0016】プロセッサ11は、用語リストを完成した
後でステップ44からステップ46へ分岐する。ステッ
プ46の間に、プロセッサ11は用語リストを分析し
て、ドキュメント中で各用語の発生回数を決定する。こ
れは、単純に、その言葉に関係している文I.D.の数
を数えることによって行なわれる。それが行なわれて、
プロセッサ11は、ステップ50に分岐する。
後でステップ44からステップ46へ分岐する。ステッ
プ46の間に、プロセッサ11は用語リストを分析し
て、ドキュメント中で各用語の発生回数を決定する。こ
れは、単純に、その言葉に関係している文I.D.の数
を数えることによって行なわれる。それが行なわれて、
プロセッサ11は、ステップ50に分岐する。
【0017】実行の開始より後で、ステップ50の実行
の前に、ステップ48の間に、プロセッサ11は、主題
の文を選ぶ際に使用されるべき主題の用語の数を決定す
る。「K」で示されたその数は、主題の要約の長さに基
づいて、すなわち、Sに基づいて、決定される。一般
に、KはS未満で1より大きくあるべきである。KをS
より小さくすることにより、選択された主題の文の間の
幾分かの共通性を確実にする。好ましくは、Kは下式に
従って決定される。
の前に、ステップ48の間に、プロセッサ11は、主題
の文を選ぶ際に使用されるべき主題の用語の数を決定す
る。「K」で示されたその数は、主題の要約の長さに基
づいて、すなわち、Sに基づいて、決定される。一般
に、KはS未満で1より大きくあるべきである。KをS
より小さくすることにより、選択された主題の文の間の
幾分かの共通性を確実にする。好ましくは、Kは下式に
従って決定される。
【0018】
【数1】 ここで、c1 はその値が1未満の定数、Sは主題の要
約の中の文の数、Kは主題の用語の数である。
約の中の文の数、Kは主題の用語の数である。
【0019】一つの実施態様においては、c1の値が、
0.7と等しくされる。
0.7と等しくされる。
【0020】Kの値とステップ46の間に生成された用
語カウントが与えられ、プロセッサ11は、K個の主題
の用語を選択する処理を始める。ステップ50の間、プ
ロセッサ11は、それらのカウント、すなわち、ドキュ
メントの中の各々の用語の総発生回数に従って用語リス
トの用語をソートする。二つの用語が同じカウントを有
する場合には、最大文字数を含む用語の方が選択され
る。ソートされた用語リストが生成され、そのリストが
メモリに格納されると、プロセッサ11は、ステップ5
0からステップ52に分岐する。ステップ52の間に、
プロセッサは、ソートされた用語リストから最も高いカ
ウントを有するK個の用語を選択する。それが行なわれ
て、プロセッサ11は、ステップ54に進む。
語カウントが与えられ、プロセッサ11は、K個の主題
の用語を選択する処理を始める。ステップ50の間、プ
ロセッサ11は、それらのカウント、すなわち、ドキュ
メントの中の各々の用語の総発生回数に従って用語リス
トの用語をソートする。二つの用語が同じカウントを有
する場合には、最大文字数を含む用語の方が選択され
る。ソートされた用語リストが生成され、そのリストが
メモリに格納されると、プロセッサ11は、ステップ5
0からステップ52に分岐する。ステップ52の間に、
プロセッサは、ソートされた用語リストから最も高いカ
ウントを有するK個の用語を選択する。それが行なわれ
て、プロセッサ11は、ステップ54に進む。
【0021】ステップ54の間に、プロセッサ11は、
ドキュメントの中のK個の主題の用語の総発生回数を計
算する。「N」で示されるその数は、K個の主題の用語
のカウントを合計することによって計算される。プロセ
ッサ11は、ステップ54からステップ56に分岐す
る。
ドキュメントの中のK個の主題の用語の総発生回数を計
算する。「N」で示されるその数は、K個の主題の用語
のカウントを合計することによって計算される。プロセ
ッサ11は、ステップ54からステップ56に分岐す
る。
【0022】主題の用語が選択され、それらのカウント
が決定されると、プロセッサ11は、ドキュメントの文
の主題の内容を評価することを始める準備ができる。ス
テップ56、58、60、62の間に、プロセッサ11
は、K個の主題の用語の少なくとも一つを含むそれらの
文だけを考慮する。プロセッサ11は、ソートされた用
語リストのK個の最も高いスコアが付けられた用語を調
べることによってそれを行う。tsで示された用語を選
択した後に、ステップ56の間に、プロセッサ11は、
ステップ58の間にtsに関係している各々の文I.
D.を調べる。tsに関係している各々の文I.D.に
ついて、プロセッサ11は、文のスコアを増加する。好
ましくは、各々の文毎のスコアが、下式で表されるsだ
け増加される。
が決定されると、プロセッサ11は、ドキュメントの文
の主題の内容を評価することを始める準備ができる。ス
テップ56、58、60、62の間に、プロセッサ11
は、K個の主題の用語の少なくとも一つを含むそれらの
文だけを考慮する。プロセッサ11は、ソートされた用
語リストのK個の最も高いスコアが付けられた用語を調
べることによってそれを行う。tsで示された用語を選
択した後に、ステップ56の間に、プロセッサ11は、
ステップ58の間にtsに関係している各々の文I.
D.を調べる。tsに関係している各々の文I.D.に
ついて、プロセッサ11は、文のスコアを増加する。好
ましくは、各々の文毎のスコアが、下式で表されるsだ
け増加される。
【0023】 s=count ts 〔c2+freq ts〕; ここで、count tsは、文の中のtsの発生回数、
c2は、ゼロでない正の値を有する定数、freq ts
は、選択された用語tsの頻度である。freq t
sは、下式で表される。 freq ts=count ts/N; ここで、Nは、ドキュメント内の主題の用語の総発生回
数を表す。好ましくは、c2は1の値に設定される。
c2は、ゼロでない正の値を有する定数、freq ts
は、選択された用語tsの頻度である。freq t
sは、下式で表される。 freq ts=count ts/N; ここで、Nは、ドキュメント内の主題の用語の総発生回
数を表す。好ましくは、c2は1の値に設定される。
【0024】文スコアは、ステップ58の間に文スコア
リストを生成することによって跡を追うことができる。
プロセッサ11が文I.D.を選択する毎に、文スコア
リストが調べられ、その文I.D.を含んでいるかどう
かを見る。含んでいない場合には、その文I.D.が文
スコアリストに追加され、そのスコアが適切に増加され
る。他方、文スコアリストが既に特定の文I.D.を含
んでいる場合には、次いで、その文と既に関係があるス
コアが、先に述べたような方法で増加される。
リストを生成することによって跡を追うことができる。
プロセッサ11が文I.D.を選択する毎に、文スコア
リストが調べられ、その文I.D.を含んでいるかどう
かを見る。含んでいない場合には、その文I.D.が文
スコアリストに追加され、そのスコアが適切に増加され
る。他方、文スコアリストが既に特定の文I.D.を含
んでいる場合には、次いで、その文と既に関係があるス
コアが、先に述べたような方法で増加される。
【0025】選択された用語tsに関係する全てのスコ
アを増加した後に、プロセッサ11は、ステップ58か
らステップ60へ分岐する。ステップ60の間、プロセ
ッサ11は、全ての主題の用語が評価されたかどうか決
定する。そうでない場合には、プロセッサ11はステッ
プ56へ戻って、選択された用語として他の主題の用語
を選択する。プロセッサ11は、すべての主題の用語が
調べられるまで、先に説明したように、ステップ56、
58、60を通って分岐する。その事象が発生すると
き、プロセッサ11は、ステップ60からステップ62
に分岐する。
アを増加した後に、プロセッサ11は、ステップ58か
らステップ60へ分岐する。ステップ60の間、プロセ
ッサ11は、全ての主題の用語が評価されたかどうか決
定する。そうでない場合には、プロセッサ11はステッ
プ56へ戻って、選択された用語として他の主題の用語
を選択する。プロセッサ11は、すべての主題の用語が
調べられるまで、先に説明したように、ステップ56、
58、60を通って分岐する。その事象が発生すると
き、プロセッサ11は、ステップ60からステップ62
に分岐する。
【0026】ステップ62の間、プロセッサ11は、主
題の要約として、最も高いスコアを有するS個の文を選
択する。プロセッサ11は、スコアによって文スコアリ
ストをソートすることによってこれを行なう。主題の文
が選択されると、プロセッサ11は、主題の要約をユー
ザにモニタ12或いはプリンタ13を介して提示するこ
とができ、また、主題の要約を後で使用するためにメモ
リやフロッピディスクに格納することもできる。主題の
要約の文は、好ましくは、ドキュメント内の発生順に提
示される。文は、パラグラフ形式で提示することができ
るが、文は論理的にパラグラフを形成しないかもしれな
いので、各々の文について個別に提示することが好まし
い。主題の要約の生成が完了すると、プロセッサ11
は、ステップ62からステップ64に分岐する。
題の要約として、最も高いスコアを有するS個の文を選
択する。プロセッサ11は、スコアによって文スコアリ
ストをソートすることによってこれを行なう。主題の文
が選択されると、プロセッサ11は、主題の要約をユー
ザにモニタ12或いはプリンタ13を介して提示するこ
とができ、また、主題の要約を後で使用するためにメモ
リやフロッピディスクに格納することもできる。主題の
要約の文は、好ましくは、ドキュメント内の発生順に提
示される。文は、パラグラフ形式で提示することができ
るが、文は論理的にパラグラフを形成しないかもしれな
いので、各々の文について個別に提示することが好まし
い。主題の要約の生成が完了すると、プロセッサ11
は、ステップ62からステップ64に分岐する。
【0027】このように、ドキュメントのための主題の
要約を自動的に生成する方法が説明された。この方法
は、量的な内容分析に頼って主題の用語を識別し、これ
は次に主題の文を識別するために使用される。付録Aと
付録Bは、主題の要約を自動的に生成するこの方法を使
って生成された要約を含む。
要約を自動的に生成する方法が説明された。この方法
は、量的な内容分析に頼って主題の用語を識別し、これ
は次に主題の文を識別するために使用される。付録Aと
付録Bは、主題の要約を自動的に生成するこの方法を使
って生成された要約を含む。
【0028】付録A:シュワルナゼの辞任演説の要約 私がこのような演説のテキストを作成し、私がそれを書
記局に渡し、そして代理人がそれを知ることができる−
−国の指導者によって、大統領によって、そして外務省
によって行われたきた現在の政策の範囲は何か、また、
国の発展、我々の民主化と国の再生、経済発展等のため
に、どのようにして現在の状況が形作られてきたかであ
る。
記局に渡し、そして代理人がそれを知ることができる−
−国の指導者によって、大統領によって、そして外務省
によって行われたきた現在の政策の範囲は何か、また、
国の発展、我々の民主化と国の再生、経済発展等のため
に、どのようにして現在の状況が形作られてきたかであ
る。
【0029】昨日、何人かの同志による演説があった。
−−彼らは退役軍人である。−−彼らは、大統領と国の
指導者がペルシャ湾へ軍隊を送ること禁止することを採
択する宣言の必要性に疑義を呈した。そして、これらの
昨日の同志の演説は、忍耐の杯を満たし、そして溢れさ
せた。
−−彼らは退役軍人である。−−彼らは、大統領と国の
指導者がペルシャ湾へ軍隊を送ること禁止することを採
択する宣言の必要性に疑義を呈した。そして、これらの
昨日の同志の演説は、忍耐の杯を満たし、そして溢れさ
せた。
【0030】国内及び海外の双方で、10回程、私はこ
の対立に対するソビエト連邦の態度を講演し、説明しな
ければならなかった。
の対立に対するソビエト連邦の態度を講演し、説明しな
ければならなかった。
【0031】その場合には、新しい政治的な思想の原則
を主張する分野において、我々の全てによって、国全体
によって、及び、我々の人民の全てによって、近年行わ
れた全てのことに衝突しなければならなかった。
を主張する分野において、我々の全てによって、国全体
によって、及び、我々の人民の全てによって、近年行わ
れた全てのことに衝突しなければならなかった。
【0032】第2に、私がくり返して説明し、そして、
ミハイル・セルゲイビッチが最高議会における彼の演説
でこれを話したように、ソビエト指導者は何も計画を持
っていない。−−少なくとも私は知らない。多分誰かが
何らかの計画を持っているかもしれないが、あるグルー
プ−−但し公の機関、国防省−−外務大臣がペルシャ湾
付近で軍隊を上陸させる計画を立てることが非難され
た。
ミハイル・セルゲイビッチが最高議会における彼の演説
でこれを話したように、ソビエト指導者は何も計画を持
っていない。−−少なくとも私は知らない。多分誰かが
何らかの計画を持っているかもしれないが、あるグルー
プ−−但し公の機関、国防省−−外務大臣がペルシャ湾
付近で軍隊を上陸させる計画を立てることが非難され
た。
【0033】第3の問題は、私がそこで言ったことであ
り、そして、私が確認し公に述べたことであるが、ソビ
エトの人民の利益が侵略される場合には、ただ一人の人
民が被害を受ける場合であっても、どこで起きた場合で
あっても、どの国においてであっても、イラクにおいて
だけではなく、他のどの国においても、−−無論、ソビ
エト政府においても、ソビエト側の意思は、その市民の
利益を擁護する。
り、そして、私が確認し公に述べたことであるが、ソビ
エトの人民の利益が侵略される場合には、ただ一人の人
民が被害を受ける場合であっても、どこで起きた場合で
あっても、どの国においてであっても、イラクにおいて
だけではなく、他のどの国においても、−−無論、ソビ
エト政府においても、ソビエト側の意思は、その市民の
利益を擁護する。
【0034】それでもやはり、私は、これは偶発的な事
象ではないと主張する。失礼、私はいまソビエト最高会
議の議会を召還するところである。同志ルカノフのイニ
シアティブで、文字通り会議の前に、ドイツ民主共和国
との条約に関する協議事項に重大な問題が含められた。
象ではないと主張する。失礼、私はいまソビエト最高会
議の議会を召還するところである。同志ルカノフのイニ
シアティブで、文字通り会議の前に、ドイツ民主共和国
との条約に関する協議事項に重大な問題が含められた。
【0035】私は、私の国で起こっていること、そし
て、我々の人民を待つ裁判に甘んじることはできない。
て、我々の人民を待つ裁判に甘んじることはできない。
【0036】付録B:ジョン・シーリイ・ブラウン(Joh
n Seely Brown)による「会社を再発明する研究(Researc
h that Reinvents Corporation)」の要約 会社が技術の急速な変化にペースを合わせ、そして、不
安定なビジネス環境に対処しようとするとき、研究部門
は、単に新製品を発明すること以上のことを行わなけれ
ばならない。
n Seely Brown)による「会社を再発明する研究(Researc
h that Reinvents Corporation)」の要約 会社が技術の急速な変化にペースを合わせ、そして、不
安定なビジネス環境に対処しようとするとき、研究部門
は、単に新製品を発明すること以上のことを行わなけれ
ばならない。
【0037】次の十年間で、PARCの研究員は、パー
ソナルコンピュータの革命的であるだけの基本的な発明
のいくつかに対して責任があり、他の会社がゼロックス
より速くこれらの発明を商業化するのを見ていた。
ソナルコンピュータの革命的であるだけの基本的な発明
のいくつかに対して責任があり、他の会社がゼロックス
より速くこれらの発明を商業化するのを見ていた。
【0038】これらの問題に対する一つの人気がある解
答は、研究部門の焦点を革新的なブレークスルーから離
れて、段階的な発明の方向に移動させることであり、基
本的な研究から離れて応用研究の方向に移動させること
である。
答は、研究部門の焦点を革新的なブレークスルーから離
れて、段階的な発明の方向に移動させることであり、基
本的な研究から離れて応用研究の方向に移動させること
である。
【0039】パイオニア的な研究を行うことを我々が強
調することが、我々に技術、発明、そして実際研究自身
が何を意味するのかを再定義させた。
調することが、我々に技術、発明、そして実際研究自身
が何を意味するのかを再定義させた。
【0040】そのような活動は、情報技術「遍在する計
算(ubiquitous computing)」、すなわち、広範囲な毎日
の目的における情報技術の組み込みおける次の偉大なブ
レークスルーを成功裏に開発するために、会社にとって
不可欠である。
算(ubiquitous computing)」、すなわち、広範囲な毎日
の目的における情報技術の組み込みおける次の偉大なブ
レークスルーを成功裏に開発するために、会社にとって
不可欠である。
【0041】会社組織の研究が、その製品だけでなく会
社の営業に集中することを始めるとき、他の原則は急速
に明確になる。発明は、研究部門の特権的な活動ではな
い。PARCにおいて、我々は、ゼロックスのビジネス
の最前線の従業員による局地的な発明のこの処理を検討
し、技術を発展させて、全体として会社のための収穫を
得るための技術を開発する。
社の営業に集中することを始めるとき、他の原則は急速
に明確になる。発明は、研究部門の特権的な活動ではな
い。PARCにおいて、我々は、ゼロックスのビジネス
の最前線の従業員による局地的な発明のこの処理を検討
し、技術を発展させて、全体として会社のための収穫を
得るための技術を開発する。
【0042】結果:ゼロックスのコア製品への重要な貢
献だけでなく、我々の会社を遙に越えて実施される発明
への独特なアプローチ。
献だけでなく、我々の会社を遙に越えて実施される発明
への独特なアプローチ。
【図1】 自動的にドキュメントの主題の要約を生成す
るためのコンピュータシステムを示す。
るためのコンピュータシステムを示す。
【図2】 図1のコンピュータシステムを使用するドキ
ュメントの主題の要約を生成する方法のフローチャート
である。
ュメントの主題の要約を生成する方法のフローチャート
である。
10 コンピュータシステム、11 プロセッサ、12
モニタ、13 プリンタ、14 キーボード、16
マウス、18 タブレット、22 ディスクドライブ、
24 OCRユニット、28 固体メモリ
モニタ、13 プリンタ、14 キーボード、16
マウス、18 タブレット、22 ディスクドライブ、
24 OCRユニット、28 固体メモリ
Claims (3)
- 【請求項1】機械が読み取り可能な形態でプロセッサに
対して提示されたドキュメントの主題の要約を生成する
プロセッサにより実施される方法であって、ドキュメン
トは第1の複数の文と第2の複数の用語を含んでおり、
前記プロセッサはプロセッサに結合されたメモリ内に電
子的な形態で格納された命令を実行することにより前記
方法を実施するものであり、 a)主題の用語として、前記第2の複数の用語から第1
の数の用語を選択するステップと、 b)各々の文の中の主題の用語の発生に基づいて前記第
1の複数の文の各々の文にスコアを付けるステップと、 c)主題の文として、各々の文のスコアに基づいて前記
第1の複数の文から第2の数の文を選択するステップと
を含むプロセッサにより実施される方法。 - 【請求項2】前記ドキュメントの中で主題の文が発生す
る順に主題の文をプロセッサのユーザに提示するステッ
プを更に含む請求項1に記載のプロセッサにより実施さ
れる方法。 - 【請求項3】前記ステップb)が、文章の中で主題の用
語が発生する度に、ドキュメントの中での主題の用語の
発生頻度に関連した量だけ、各文のスコアを増加するス
テップを含む請求項1に記載のプロセッサにより実施さ
れる方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/422,573 US5689716A (en) | 1995-04-14 | 1995-04-14 | Automatic method of generating thematic summaries |
US422573 | 1995-04-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08297677A true JPH08297677A (ja) | 1996-11-12 |
Family
ID=23675470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8084297A Pending JPH08297677A (ja) | 1995-04-14 | 1996-04-05 | 主題の要約を生成する自動的な方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5689716A (ja) |
EP (1) | EP0737927B1 (ja) |
JP (1) | JPH08297677A (ja) |
DE (1) | DE69617515T2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10307837A (ja) * | 1997-05-09 | 1998-11-17 | Sharp Corp | 検索装置並びに検索プログラムを記録した記録媒体 |
US6369811B1 (en) | 1998-09-09 | 2002-04-09 | Ricoh Company Limited | Automatic adaptive document help for paper documents |
US6457026B1 (en) | 1997-12-22 | 2002-09-24 | Ricoh Company, Ltd. | System to facilitate reading a document |
US6582475B2 (en) | 1998-09-09 | 2003-06-24 | Ricoh Company Limited | Automatic adaptive document printing help system |
US6638317B2 (en) | 1998-03-20 | 2003-10-28 | Fujitsu Limited | Apparatus and method for generating digest according to hierarchical structure of topic |
US6647534B1 (en) | 1999-06-30 | 2003-11-11 | Ricoh Company Limited | Method and system for organizing document information in a non-directed arrangement of documents |
US7228492B1 (en) | 1999-07-06 | 2007-06-05 | Ricoh Company, Ltd. | 2D graph displaying document locations of user-specified concept of interest |
US7552381B2 (en) | 2003-03-31 | 2009-06-23 | Ricoh Co., Ltd. | Check boxes for identifying and processing stored documents |
US7730423B2 (en) | 1999-03-23 | 2010-06-01 | Ricoh Company, Ltd. | Method and system for organizing document information |
US8995767B2 (en) | 1997-12-22 | 2015-03-31 | Ricoh Company, Ltd. | Multimedia visualization and integration environment |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5628004A (en) * | 1994-11-04 | 1997-05-06 | Optima Direct, Inc. | System for managing database of communication of recipients |
JP2809341B2 (ja) * | 1994-11-18 | 1998-10-08 | 松下電器産業株式会社 | 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。 |
US5887120A (en) | 1995-05-31 | 1999-03-23 | Oracle Corporation | Method and apparatus for determining theme for discourse |
US5924108A (en) | 1996-03-29 | 1999-07-13 | Microsoft Corporation | Document summarizer for word processors |
US7051024B2 (en) * | 1999-04-08 | 2006-05-23 | Microsoft Corporation | Document summarizer for word processors |
US5918236A (en) * | 1996-06-28 | 1999-06-29 | Oracle Corporation | Point of view gists and generic gists in a document browsing system |
US6484168B1 (en) * | 1996-09-13 | 2002-11-19 | Battelle Memorial Institute | System for information discovery |
US5836771A (en) | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
JP3001047B2 (ja) * | 1997-04-17 | 2000-01-17 | 日本電気株式会社 | 文書要約装置 |
US6353824B1 (en) * | 1997-11-18 | 2002-03-05 | Apple Computer, Inc. | Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments |
US7257589B1 (en) | 1997-12-22 | 2007-08-14 | Ricoh Company, Ltd. | Techniques for targeting information to users |
US6021411A (en) * | 1997-12-30 | 2000-02-01 | International Business Machines Corporation | Case-based reasoning system and method for scoring cases in a case database |
US6167368A (en) * | 1998-08-14 | 2000-12-26 | The Trustees Of Columbia University In The City Of New York | Method and system for indentifying significant topics of a document |
US6338067B1 (en) | 1998-09-01 | 2002-01-08 | Sector Data, Llc. | Product/service hierarchy database for market competition and investment analysis |
US6104990A (en) * | 1998-09-28 | 2000-08-15 | Prompt Software, Inc. | Language independent phrase extraction |
US7447626B2 (en) * | 1998-09-28 | 2008-11-04 | Udico Holdings | Method and apparatus for generating a language independent document abstract |
US6317708B1 (en) | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
AU775978B2 (en) * | 1999-02-19 | 2004-08-19 | Trustees Of Columbia University In The City Of New York, The | Multi-document summarization system and method |
US7366711B1 (en) | 1999-02-19 | 2008-04-29 | The Trustees Of Columbia University In The City Of New York | Multi-document summarization system and method |
US6513027B1 (en) * | 1999-03-16 | 2003-01-28 | Oracle Corporation | Automated category discovery for a terminological knowledge base |
US7162413B1 (en) * | 1999-07-09 | 2007-01-09 | International Business Machines Corporation | Rule induction for summarizing documents in a classified document collection |
US6766287B1 (en) | 1999-12-15 | 2004-07-20 | Xerox Corporation | System for genre-specific summarization of documents |
US6581057B1 (en) | 2000-05-09 | 2003-06-17 | Justsystem Corporation | Method and apparatus for rapidly producing document summaries and document browsing aids |
US6941513B2 (en) | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
WO2002021324A1 (en) * | 2000-09-07 | 2002-03-14 | Intel Corporation | Method and apparatus for summarizing multiple documents using a subsumption model |
US6461166B1 (en) | 2000-10-17 | 2002-10-08 | Dennis Ray Berman | Learning system with learner-constructed response based testing methodology |
US20020108112A1 (en) * | 2001-02-02 | 2002-08-08 | Ensequence, Inc. | System and method for thematically analyzing and annotating an audio-visual sequence |
US7074128B2 (en) | 2001-08-03 | 2006-07-11 | Drb Lit Ltd. | Method and system for enhancing memorization by using a mnemonic display |
US20040034832A1 (en) * | 2001-10-19 | 2004-02-19 | Xerox Corporation | Method and apparatus for foward annotating documents |
US7712028B2 (en) * | 2001-10-19 | 2010-05-04 | Xerox Corporation | Using annotations for summarizing a document image and itemizing the summary based on similar annotations |
US7149957B2 (en) | 2001-11-19 | 2006-12-12 | Ricoh Company, Ltd. | Techniques for retrieving multimedia information using a paper-based interface |
US7117200B2 (en) * | 2002-01-11 | 2006-10-03 | International Business Machines Corporation | Synthesizing information-bearing content from multiple channels |
DE10202799C1 (de) * | 2002-01-25 | 2003-08-14 | Oliver Scheib | Massagegerät |
US7650562B2 (en) * | 2002-02-21 | 2010-01-19 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US8370761B2 (en) * | 2002-02-21 | 2013-02-05 | Xerox Corporation | Methods and systems for interactive classification of objects |
US7228507B2 (en) | 2002-02-21 | 2007-06-05 | Xerox Corporation | Methods and systems for navigating a workspace |
US7549114B2 (en) | 2002-02-21 | 2009-06-16 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US7487462B2 (en) | 2002-02-21 | 2009-02-03 | Xerox Corporation | Methods and systems for indicating invisible contents of workspace |
JP2004030021A (ja) * | 2002-06-24 | 2004-01-29 | Oki Electric Ind Co Ltd | 文書処理装置および方法 |
US7376893B2 (en) * | 2002-12-16 | 2008-05-20 | Palo Alto Research Center Incorporated | Systems and methods for sentence based interactive topic-based text summarization |
US7451395B2 (en) * | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US20040230415A1 (en) * | 2003-05-12 | 2004-11-18 | Stefan Riezler | Systems and methods for grammatical text condensation |
US7357640B2 (en) * | 2003-07-02 | 2008-04-15 | Drb Lit Ltd. | Lock-In Training system |
TWM249950U (en) * | 2004-01-02 | 2004-11-11 | Cvc Technologies Inc | Cap tightening machine capable of controlling tightening torque |
US7364432B2 (en) * | 2004-03-31 | 2008-04-29 | Drb Lit Ltd. | Methods of selecting Lock-In Training courses and sessions |
US7389299B2 (en) * | 2004-09-02 | 2008-06-17 | International Business Machines Corporation | Document content analysis technology for reducing cognitive load |
JP4938298B2 (ja) | 2004-11-30 | 2012-05-23 | パロ・アルト・リサーチ・センター・インコーポレーテッド | テキストの要約に含める文の候補を出力する方法およびプログラム |
US7827029B2 (en) * | 2004-11-30 | 2010-11-02 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive note-taking |
US7801723B2 (en) * | 2004-11-30 | 2010-09-21 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive condensation |
US7401077B2 (en) | 2004-12-21 | 2008-07-15 | Palo Alto Research Center Incorporated | Systems and methods for using and constructing user-interest sensitive indicators of search results |
US20060200464A1 (en) * | 2005-03-03 | 2006-09-07 | Microsoft Corporation | Method and system for generating a document summary |
US7702680B2 (en) * | 2006-11-02 | 2010-04-20 | Microsoft Corporation | Document summarization by maximizing informative content words |
US9292601B2 (en) * | 2008-01-09 | 2016-03-22 | International Business Machines Corporation | Determining a purpose of a document |
US8359531B2 (en) * | 2008-06-27 | 2013-01-22 | International Business Machines Corporation | Method and apparatus for highlighting diverse aspects in a document |
US8458105B2 (en) * | 2009-02-12 | 2013-06-04 | Decisive Analytics Corporation | Method and apparatus for analyzing and interrelating data |
US20100235314A1 (en) * | 2009-02-12 | 2010-09-16 | Decisive Analytics Corporation | Method and apparatus for analyzing and interrelating video data |
US8874529B2 (en) * | 2009-03-16 | 2014-10-28 | Bert A. Silich | User-determinable method and system for manipulating and displaying textual and graphical information |
GB2472250A (en) * | 2009-07-31 | 2011-02-02 | Stephen Timothy Morris | Method for determining document relevance |
US8862461B2 (en) * | 2011-11-30 | 2014-10-14 | Match.Com, Lp | Fraud detection using text analysis |
US10224025B2 (en) * | 2012-12-14 | 2019-03-05 | Robert Bosch Gmbh | System and method for event summarization using observer social media messages |
USD854025S1 (en) | 2016-08-30 | 2019-07-16 | Match Group, Llc | Display screen or portion thereof with a graphical user interface of an electronic device |
USD781882S1 (en) | 2016-08-30 | 2017-03-21 | Tinder, Inc. | Display screen or portion thereof with a graphical user interface of an electronic device |
USD781311S1 (en) | 2016-08-30 | 2017-03-14 | Tinder, Inc. | Display screen or portion thereof with a graphical user interface |
USD780775S1 (en) | 2016-08-30 | 2017-03-07 | Tinder, Inc. | Display screen or portion thereof with a graphical user interface of an electronic device |
USD852809S1 (en) | 2016-08-30 | 2019-07-02 | Match Group, Llc | Display screen or portion thereof with a graphical user interface of an electronic device |
WO2018170876A1 (en) * | 2017-03-24 | 2018-09-27 | Microsoft Technology Licensing, Llc | A voice-based knowledge sharing application for chatbots |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61117658A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文章抄録装置 |
JPH02181261A (ja) * | 1989-01-05 | 1990-07-16 | Nippon Telegr & Teleph Corp <Ntt> | 自動抄録生成装置 |
JPH03105566A (ja) * | 1989-09-20 | 1991-05-02 | Hitachi Ltd | 抄録作成方式 |
JPH06348696A (ja) * | 1993-06-03 | 1994-12-22 | Xerox Corp | 自動識別方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
US5495349A (en) * | 1990-01-13 | 1996-02-27 | Canon Kabushiki Kaisha | Color image processing apparatus that stores processing parameters by character data |
JP3691844B2 (ja) * | 1990-05-21 | 2005-09-07 | 株式会社東芝 | 文書処理方法 |
CA2077274C (en) * | 1991-11-19 | 1997-07-15 | M. Margaret Withgott | Method and apparatus for summarizing a document without document image decoding |
US5384703A (en) * | 1993-07-02 | 1995-01-24 | Xerox Corporation | Method and apparatus for summarizing documents according to theme |
-
1995
- 1995-04-14 US US08/422,573 patent/US5689716A/en not_active Expired - Lifetime
-
1996
- 1996-03-29 EP EP96302250A patent/EP0737927B1/en not_active Expired - Lifetime
- 1996-03-29 DE DE69617515T patent/DE69617515T2/de not_active Expired - Lifetime
- 1996-04-05 JP JP8084297A patent/JPH08297677A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61117658A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文章抄録装置 |
JPH02181261A (ja) * | 1989-01-05 | 1990-07-16 | Nippon Telegr & Teleph Corp <Ntt> | 自動抄録生成装置 |
JPH03105566A (ja) * | 1989-09-20 | 1991-05-02 | Hitachi Ltd | 抄録作成方式 |
JPH06348696A (ja) * | 1993-06-03 | 1994-12-22 | Xerox Corp | 自動識別方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10307837A (ja) * | 1997-05-09 | 1998-11-17 | Sharp Corp | 検索装置並びに検索プログラムを記録した記録媒体 |
US6457026B1 (en) | 1997-12-22 | 2002-09-24 | Ricoh Company, Ltd. | System to facilitate reading a document |
US7395501B2 (en) | 1997-12-22 | 2008-07-01 | Ricoh Company, Ltd. | Techniques for annotating portions of a document relevant to concepts of interest |
US8995767B2 (en) | 1997-12-22 | 2015-03-31 | Ricoh Company, Ltd. | Multimedia visualization and integration environment |
US6638317B2 (en) | 1998-03-20 | 2003-10-28 | Fujitsu Limited | Apparatus and method for generating digest according to hierarchical structure of topic |
US6369811B1 (en) | 1998-09-09 | 2002-04-09 | Ricoh Company Limited | Automatic adaptive document help for paper documents |
US6582475B2 (en) | 1998-09-09 | 2003-06-24 | Ricoh Company Limited | Automatic adaptive document printing help system |
US7096424B2 (en) | 1998-09-09 | 2006-08-22 | Ricoh Company, Ltd. | Automatic adaptive document printing help system |
US7730423B2 (en) | 1999-03-23 | 2010-06-01 | Ricoh Company, Ltd. | Method and system for organizing document information |
US6647534B1 (en) | 1999-06-30 | 2003-11-11 | Ricoh Company Limited | Method and system for organizing document information in a non-directed arrangement of documents |
US7228492B1 (en) | 1999-07-06 | 2007-06-05 | Ricoh Company, Ltd. | 2D graph displaying document locations of user-specified concept of interest |
US7552381B2 (en) | 2003-03-31 | 2009-06-23 | Ricoh Co., Ltd. | Check boxes for identifying and processing stored documents |
Also Published As
Publication number | Publication date |
---|---|
US5689716A (en) | 1997-11-18 |
EP0737927A2 (en) | 1996-10-16 |
DE69617515D1 (de) | 2002-01-17 |
EP0737927B1 (en) | 2001-12-05 |
EP0737927A3 (en) | 1998-11-18 |
DE69617515T2 (de) | 2002-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH08297677A (ja) | 主題の要約を生成する自動的な方法 | |
EP1679617B1 (en) | Method for automatically performing conceptual highlighting in electronic text | |
US5745602A (en) | Automatic method of selecting multi-word key phrases from a document | |
JP3981734B2 (ja) | 質問応答システムおよび質問応答処理方法 | |
US20060123338A1 (en) | Method and system for filtering website content | |
JP2004157981A (ja) | 要約表現装置 | |
Iida et al. | Multi-modal reference resolution in situated dialogue by integrating linguistic and extra-linguistic clues | |
EP1445707B1 (en) | System and method for checking and resolving publication design problems | |
Maarek et al. | The use of lexical affinities in requirements extraction | |
JP2013250925A (ja) | 回答タイプ推定装置、方法、及びプログラム | |
Louis et al. | Unsupervised discovery of relations for analysis of textual data | |
US9330085B2 (en) | Assisting users to generate desired meme in document | |
Upadhyay | Comparing non-visual and visual information foraging on the web | |
Albers | Goal-driven task analysis: improving situation awareness for complex problem-solving | |
McKeown et al. | Using question-answer pairs in extractive summarization of email conversations | |
Roberts et al. | A comparison of selectional preference models for automatic verb classification | |
Chai et al. | Two Dimensional Generalization in Information Extraction. | |
Baron et al. | Collocations as cues to semantic orientation | |
Iida et al. | Investigation of annotator’s behaviour using eye-tracking data | |
Malireddy et al. | Gold corpus for telegraphic summarization | |
Wacholder et al. | Evaluation of automatically identified index terms for browsing electronic documents | |
JP2002073644A (ja) | 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
Ogawa | The role of design guidelines in assisting the interface design task | |
HOOVER | Collocations, authorship attribution, and authorial style | |
Saeki et al. | Feasibility of Estimating Concentration Level of Japanese Document Workers Based on Kana-Kanji Conversion Confirmation Time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041022 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050926 |