JPH0424869A - 文書処理システム - Google Patents
文書処理システムInfo
- Publication number
- JPH0424869A JPH0424869A JP2129226A JP12922690A JPH0424869A JP H0424869 A JPH0424869 A JP H0424869A JP 2129226 A JP2129226 A JP 2129226A JP 12922690 A JP12922690 A JP 12922690A JP H0424869 A JPH0424869 A JP H0424869A
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- processing system
- importance
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 abstract description 16
- 230000000699 topical effect Effects 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 10
- 239000002245 particle Substances 0.000 description 6
- 241000581652 Hagenia abyssinica Species 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
め要約のデータは記録されません。
Description
抽出等の処理を行なう文書処理システムに関する。
及することにより、文書処理の合理化が進み、誰でもが
簡便に美しい文書を作成できるようになってきている。
ル等の大規模な文書を作成する場合には、全体の構成の
見通しが悪く、同じような内容を二重に記述してしまっ
たり、全体として書くへき内容を見落としたりしてしま
うことがあった。
いる時点で、作成済文書内容の構造を表示する方式が実
現されている。ここでは文書の題名、章名、節名等の書
式構造のみを表示する。しかしながら、これらは文書の
表面上の特徴のみを示すものであり、文章の内容自体ま
で関わったものではない。従ってユーザはこの書式構造
のみを見ても、文書を構成する各文章の内容自体を理解
することが出来ず、いちいち全文書の詳細に渡って内容
を確認する必要があった。
の文章のみを参照したい場合が生じる。
語を含む文を検索するよう要求する。しかしながら、従
来では指定された単語と単゛に表層上で一致がとれる文
のみを検索結果としていた。従って、その単語を含んで
いる文では有るが、内容的には殆ど無関係なものや、ユ
ーザの全く意図しない文が検索されてしまう場合が生じ
た。つまりユーザの所望とする、重要なつぼを押さえた
文章のみを検索することが出来なかった。
ワードを付しておく必要がある。このため従来ではユー
ザが文書を構成する各文に対し、キーワードとなるべき
単語を逐一指定する方式を採っていた。このためユーザ
にとってはキーワード付けの作業のみでも非常に手間が
かかり、非効率的であった。
書の内容を参照するのに単に書式構造のみを表示してい
たためユーザにとっては内容把握が難しい。又、単語を
指定して所望の文章を検索する場合、単に表層上一致の
とれる文章のみを検索していたため、内容的には無関係
な文章も検索結果とされていた。更に検索のための文章
のキーワード付けを、ユーザが逐一指定していたため手
間がかかっていた。この様に文書編集を効率良く行なう
ための種々のサポート処理が、真にユーザにとって役立
つものでは無いという問題点が有った。 そこで本発明
はこれら種々のサポート処理を文書の内容まで立ち入っ
たものとする事によりユーザが文書編集を効率良く行な
える文書処理システムを提供することを目的とする。
段が作成中の文書や既存の文書の各文章に対して、隣接
する他の文章との関係により重要度を算出する。
除去等の処理を施すことにより話題を抽出する。そして
処理手段が種々の文書処理結果に重要度、話題を用いて
最終の処理結果を得るものである。
文の重要度1話題を表示する。
、検索された文章をその重要度が高いが、話題語を含ん
でいるか等に基づいて真の検索結果か否かを判定する。
ドと想定して抽出された単語に対し該文章の重要度が高
いか、該キーワードが話題語とされているか等により、
真のキーワードとすべきか否かを決定する。
対して表層上の特徴のみでは無く、その内容までも評価
尺度で表わす事ができる。
反映した単語を話題として抽出できる。
文の重要度、話題を合わせて表示することにより、ユー
ザは文書全体の構造がその内容まで含めて理解できる。
された単語に真に関連する文のみを検索結果とするため
、ユーザにとって不要な検索結果をいちいち確認する作
業が大幅に削減される。更に文書を構成する各文に対し
、真にその内容に関連する単語をキーワードとして抽出
できるため、ユーザによるキーワード付は作業が省略で
きる。
は本発明の一実施例の文書処理システムの構成図である
。先ず本システムの各構成部の動作の概略を説明する。
して文重要度判定部3、話題抽出部4、処理部5へ送ら
れる。ここで文重要度判定部3、話題抽出部4は本発明
の特徴と言える機能を有する部分である。先ず文重要度
判定部3では文書を構成する各文に対し隣接する他の文
との関係に従って重要度を計算する。そして文書を構成
する全ての文について重要度が求まると、この処理を数
回繰り返す。又、話題抽出部4では文書を構成する各文
に対し形態素解析、自立語抽出、不要語除去を行なって
話題語を抽出する。これらの重要度、話題は夫々の文番
号と対応付けられて制御部2へ送られる。制御部2は受
は取った重要度、話題を対応する文番号と共に処理部5
へ送る。処理部5は文書構造抽出部6、文書検索部7、
キーワード抽出部8から成り、夫々が文の重要度、話題
を受は取る。文書構造抽出部6では文書内容に対し題名
・章名・節名等の表層上の書式構造を抽出する。そして
この書式構造と文の重要度、話題を対応付けて制御部2
へ送る。
語に従い文書中から該当文を検索する。
検索結果を決定し、これを制御部2へ送る。
ーワードとなるべき単語を抽出する。この結果に対し文
の重要度、話題を参照して真のキーワードを決定する。
。表示部9では、これらの処理結果をユーザの理解しや
すい形式で表示する。
ザからの文書データや各種の編集指示を入力するための
ものである。ここではOCRやファクシミリを介して文
書データを入力することも出来るし、図示しない外部記
憶装置から一括入力しても良い。
し、そこから所望の処理を選択する。ここで構造抽出、
検索、キーワード抽出が夫々選択されたときは文書構造
抽出部6、文書検索部7、キーワード抽出部8が対応し
て起動する。又1編集が選択されたときは図示しない編
集機能が起動される。
の特徴となる部である。
の表現を使って文書中のパラグラフ内で重要な文を取り
出す。まず文章の表現の中から接続的な表現を抽出する
、いわゆる接続詞を抽出することになる。そして接続詞
毎に決められた又聞の重要性判定を行い、パラグラフ内
で重要な文を逐次判定する。例えば、「だから」などで
結合された二つの文がある場合は、前の文は後の文の理
由を示しているので、重要な文は後の文であることが判
断できる。これをパラグラフの最初の文から後方の文へ
、2文づつ取り出して順次判定して行き、処理を繰り返
すことによりパラグラフ全体の各文の重要度を判定でき
る。この過程をまとめたものが第3図である。
1)。ここで接続詞が使用されていない場合には、後の
文は単に文の展開になっているので、前方の文が後の文
より重要性が高いと判定する。
302)。次に全ての文について、所定の回数だけ以下
の繰り返し処理を行う(ステップ303,304)(こ
こでα、によりパラグラフ内の第1文のスコアを、また
β、により第1文と第i+1文の間の接続関係を示す)
。
続関係から決められる式により更新する(ステップ30
5)。
てf()は、接続関係β□毎によって決められるもので
、符号を持つ数値であり、例えば第4図のように決めら
れる。このような連続的な値により又聞の重要性を判定
して前方の文のスコアを現時点の文のスコアに反映する
役割を果している。また上記の式の他に下の様な式を用
いて、前後の文から重要度を計算しても良いことは当然
である。
)・α、+1この様な漸化式により、すべての文につい
て所定の回数、例えば5回処理を繰り返すことにより、
各文に対するスコアの順にパラグラフ内における文の重
要性が順次得られることになる。この漸化式の計算過程
において、繰り返し処理を全文に施したときにスコアの
値が一様でなくなる場合がある。このときは、必要に応
じて、繰り返し毎に次のようにしてスコアの正規化を行
うようにすればよい。
こでステップ303において、全ての文について所定の
回数繰り返すのは、そのパラグラフ内における全ての文
の内容の影響を各文にゆき渡らせて真に重要な文を発見
するために、少なくとも5回程度計算を行なう必要があ
るからである。
まず文章が述べている話題の流れを取り出す。これは助
詞の「は」などの表現から話題となっている言葉を取り
出すことにより実行する。
態素解析する(ステップ501)。これにより文を構成
する単語とその品詞に区分される。例えば、 「登録方法には2種類あります」 という文の場合。
2)十名詞(種類)十動詞(あり)十助動詞(まず)」
などのように解析される。次に助詞の「は、も」なとの
直前の言葉(自立語)を取り出すことにより話題提示表
現を取り出す(ステップ502)。ここで話題を取り出
すときの手がかりとして使う表現は、助詞や他の表現も
含めて「は、も、とは、ときたら、といえば、こそ、さ
え、しも」などである。この様にして話題となる表現が
抽出できる。
テップ503)。これは、「最近は」 「この場合は」
といったもので文章の内容と直接関連を持たない言葉を
除去するものである。この話題抽出の処理により、パラ
グラフ内の詳細な文章の内容が把握できることになる。
なったときの処理結果を示すものである。
とする。これに対し話題抽出部が上述した方法により第
6図(b)に示す様に適当な話題を抽出する。ここでは
第1.2,5.7文中に助詞の「は」の直前の自立語が
あり、且つこれらは不要語では無い。従ってこれらは文
内容を反映した適当な話題として抽出される。次に第6
図(c)は第6図(a)の7文に対し重要度計算を2回
行なった例である。これら7文の接続詞としては「まず
(2文と3文)、つまり(3文と4文)、このとき(4
文と5文)、例えば(5文と6文)、もう一つ(6文と
7文)」が挙げられる(1文と2文は接続詞無しの展開
である)。これら接続詞の第4図の関数値と各文の初期
値を用いて1回目の重要度が夫々求められる。これを更
に1回繰り返した結果、4文の重要度が2.1で最高で
ある。つまりこの文書中では4文が内容的に重要なもの
となっている。
書検索部7、キーワード抽出部8の夫々について説明す
る。これらの各部は文書作成前、或いは作成中にユーザ
ーがファンクションキーを押すことにより起動される。
従来より知られているものであるが、これを各文の重要
度、話題とともに対応付は表示して、ユーザに文書内容
自体を把握させ易くした点が特徴である。
を提示する。書式構造の抽出では、0DA(Offic
e Document Archtecture)やハ
イパーテキストとして予め構造の一部が作成済みの文書
の場合は、それを利用する。また作成中の文書の書式構
造が取り出されていない場合は、次のようにして先ず、
題名や章名などの構造を取り出す。題名は文書の第1行
に示されているので容易に抽出できる。また章名などは
通常数字と共に一つの行に書かれるので、数字の表現の
パターンを準備することにより抽出できる。例えば、 「第N章abcJ+ rN、 a b QJ v r[N]a b cJ などの表現(Nは数字)に対し文字列として照会が取れ
る表現からrabcJの部分を取り出せば、章名(見出
し)が得られる。また部名も同様にして抽出することが
できる。パラグラフは改行記号を検出することにより抽
出することができる。第7図に書式構造の例を示す。こ
の場合は、題目、著者1章見出し、パラグラフの順に書
式的な構造が取り出される。
号の手法を用いることにより容易に実現できる。
書のみならず、既に作成された文書のファイルに対して
も実行できるようにすることtt容易である。そのとき
には、第8図(a) (b)に示すように、まず作成中
文書か既に作成された他のファイルの文書かをまずマウ
スなどで選択し、続b1て他のファイルが指示されれば
、対象となるファイルの一覧を表示し、マウスで指示さ
れた文書を書式構造表示処理の対象とすればよい。この
様に処理して書式構造を抽出した文書を編集の対象とし
て、一部分を作成中の文章に転送したりできるのは当然
である。
のウィンドウとは異なったウィンドウを生成し、そこに
文書の書式構造を表示する。ウィンドウの大きさの制約
から全文書の書式構造の詳細な表示ができない場合は、
題目、章名1節名、更にパラグラフ等のレベルを区別し
て表示し、マウスによる位置指定と詳細/概要の動作指
定により順次細かなレベルを表示したり、逆に大きなレ
ベルを表示するようにすれば良い。(第9図では文書の
題目、章見出しのみを書式構造として表示している。) 本発明では、この書式構造に対応付けて、これが内包す
る各文章の重要度・話題を第10図に示す様にウィンド
ウ内に表示する。つまり上述した様に5文書構造抽出部
は文書データ及びこの書式構造に対し、制御部2より送
られた重要度・話題(これらは文番号と対で送られる)
をその文番号を基に対応付けて制御部2へ返す。制御部
2では表示部9へ第10図の様に表示させる。ここで文
書データ、書式構造、文重要度、話題は文書構造抽出部
6内の図示しないメモリに、第11図に示す様に格納管
理される。つまりメモリ内に題目テーブル、見出しテー
ブル、パラグラフテーブル、文重要度テーブル、話題テ
ーブルを設置し、夫々をポインタ、文字位置に従って関
連付けておく。この文字位置は該当する文章の先頭文字
位置の、文書データの1文字目からカウントした物理位
置であり、重要度・話題の場合は該当文のパラグラフ内
での相対位置(パラグラフの場合はこれを含む見出し内
の相対位置)と共に記憶される。
内検索と既存文書検索の2種類に分かれるが、ここでは
文書の検索方法の要点を説明する。
全く同一のものを照会するだけであり、表記が少しでも
異なると検索できない欠点がある。
膨大な候補が出現してしまい、希望する内容を判定する
ための利用者の手間が大きくなってしまう欠点があった
。本発明における文書検索機能は、検索対象の文章の内
容を考慮することにより、これらの欠点を補う方式であ
る。
純検索、拡張検索、重要性判定検索、話題検索の4種類
がある。まず単純検索を説明する。
201.1202)、これは、マウスにより作成中の文
章の一部を指示することにより実行する。或は単語を別
途指示しても良いことは当然である。これにより検索す
べき単語や文字列が指定される。
列として一致する部分を捜し出す。この様にして、指示
された単語が文字列として存在する文章が得られること
になる(ステップ1203)。従来のテキスト検索では
この時点で候補を表示し、処理をいったん終了し、次の
検索指示により次の候補を検索していた。本発明では、
得られた候補の文書部分の内容を判定し、順序づけるこ
とによりユーザに提示する。
された文章の文書中での重要度を判定する(ステップ1
205)。つまり制御部2より送られた各文の重要度を
参照して、検索された文章が文書の中で(或いは該当パ
ラグラフ中で)所定値より高い場合のみ、その文章を正
式な検索結果とするものである。これにより重要度の低
い文章は、検索すべき単語との内容的関連が低いと見な
せるため(つまり検索すべき単語を説明したものでは無
い)、最初から排除できる。また話題検索では、検索す
べき単語が、その検索された文章中で話題として用いら
れている場合のみ、その文章を正式な検索結果とするも
のである(ステップ1206)。
定する。これにより、検索すべき単語との関連性が真に
強い(つまり検索すべき単語をキーとして説明している
)文章のみを検索結果とすることができる。
たときには、その単語が使われている文章内で、関連す
る話題や類似の言葉などの情報を併用することができる
。これを拡張検索と呼ぶ(ステップ1204)。 ここ
では検索のための単語を指示したとき、その単語が含ま
れている文章やパラグラフの話題を抽出し、その抽出さ
れた話題を検索すべき単語とともに検索対象とすること
により、全く無関係な分野の文書を誤って検索してしま
う不具合を防ぐことができる。つまり検索すべき単語及
び話題が両方とも含まれている文章を検索結果とするこ
とにより、内容的にも関係の深い文章をユーザに呈示す
ることができる。
備し、抽出した話題が関連する語を、その上位及び兄第
の所に位置するもの、更に子供から選ぶ。また「ワープ
ロ」と「ワードプロセッサ」のように単に表記が異なる
ものも登録しておくことにより、意味は同じでも表記が
異なるものまで関連語とできることになる。これら関連
語が上述の指示単語とともに検索された文章、節、或は
パラグラフに含まれている際には関連度が大きいとして
、優先順位が高いと判定する。また必ずしも、話題を抽
出するまでもなく、単に指示された単語と関連する語を
関連語辞書から探しだし、それらが多く含まれる文章を
優先的に出力することも可能である。これらの機能はそ
れぞれ任意の組合せをメニューなどにより指示できるよ
うにできるのは当然である。
関連語を余さず検索することも可能である。まず動詞や
形容詞などの用言の述語を検索の単語とする場合は、そ
九らを名詞化することにより検索すべき関連語を作り畠
してもよい。まず動詞の場合、す変の動詞ならその語幹
を取り出すことにより名詞が得られる。またその動詞が
和語の場合には、別途用意されるテーブルにより名詞化
すれば良い。例えば、「考える」という動詞の場合では
、「考察」という単語を対応させることができる。和語
の動詞は高々2−3千語であるので。
関連語辞書の内部に登録しておくことも可能である。形
容詞の場合には、「美しいJに対して「語幹+さJとい
う操作を施すことにより。
の単語を関連語辞書の中で「美しい」の兄第として登録
できる。これらとは逆に、名詞が探索対象として指示さ
れたときには、動詞や形容詞などの品詞の単語も含めて
検素するようにすればよい。
様に、表示文書の横にウィンドウを1つ開き、ここに表
示する(ステップ1207)。
述した話題抽出部と同様に文中から重要な単語を抽出す
るが、こ九に全文書中の出願頻度、及び制御部2より送
られた各文の重要度・話題を参照して真のキーワードを
求める。第14図はその処理フローである。まず作成し
た文章の解析を行い、自立語を抽出する(ステップ14
01)。 これは形態素解析を行えば良く、文章に表れ
る単語の位置と品詞を認定することになる。次に名詞、
動詞、形容詞等の自立語と判定された単語に対して、不
要語辞書を調べ、不必要な単語を除外する(ステップ1
402)。 これは目的とする文書の内容に依存するが
、非常に一般的な用語である[場合、時、部分、全体」
などの単語をキーワードとして検出することを防ぐ。次
に残った単語の文書中での出現回数を調べる(ステップ
1403)。 これにより頻度の極めて高いもの及び低
いものは除外することができる。(頻度の極めて高いも
のは単なる一般語であることが多いため除外する。) 次に、重要度判定処理では、残った単語のそれぞれにつ
いて出現した文章の重要度を判定する。
を、キーワ一ドの候補が含まれる文について行うことに
より、文の重要度をもってそのキーワード候補の重要度
とする。ここで全く重要度がない場合、すなわちある所
定の値以下の重要度である場合には、その状況における
キーワードの候補は無視するようにすれば良い(ステッ
プ1404)。
後のキーワード候補が、その出現した文章において話題
として取り上げられているかどうかを調べることにより
、話題として取り上げられておらず内容が十分説明され
ていない場合を取り除くことになる(ステップ1405
)。
はその内から必要なものを適宜判定して選ぶことにより
、文書中のインデックスを作成する(ステップ1406
)。提示方法としては、第15図に示す様に抽出された
キーワードが、重要度判定や話題表現として認められて
いるかのマークとその出現位置(X章、Y節、第Zパラ
グラフ、第N行目等)とともに示せばよい。
を抽出する方法として、文を解析することにより、各単
語の品詞を取り出し、主要な構成要素である述語を取り
出すことにより、その文のキーワードとすることも可能
である。
部及び話題抽出部を備えたことにより、ユーザの必要と
するサポート処理を文書内容まで立ち入ったものとする
事が出来る。つまり文書構造表示では文書内容の重要な
部分が一目で把握でき、文書検索ではユーザの所望する
重要文が検索でき、更にキーワード抽出では各文の内容
を真に反映したキーワーばが抽出できる。従ってユーザ
はこれら文書内容まで立ち入ったサポート処理を参考に
して本来の文書編集作業に専念することが出来、文書の
作成や編集効率を格段に向上させることができる。
表示例を示す図、第3図は本発明での文重要度判定部の
処理フロー図、第4図は接続関係による文重要度の関数
の例を示す図、第5図は本発明での話題抽出部の処理フ
ロー図、第6図は本発明を適用して文書の重要度・話題
を求めた例を示す図、第7図は文書の書式構造の例を示
す図、第8図は文書構造表示の対象選択の例を示す図、
第9図は書式構造表示の例を示す図、第10図は本発明
を適用して書式構造と共に文重要度・話題を表示した例
を示す図、第11図は本発明を適用した書式構造・文重
要度・話題の格納形式を示す図、第12図は本発明の文
書検索部の処理フローを示す図、第13図は本発明によ
る単語の関連語辞書の例を示す図、第14図は本発明の
キーワード抽出部の処理フローを示す図、第15図は本
発明によるキーワード抽出結果の表示例を示す図である
。 1・・・文書入力部、 2・・・制御部、3・・・
文重要度判定部、 4・・・話題抽圧部、5・・・処理
部、 6・・・文書構造抽出部、7・・・文
書検索部、 8・・・キーワード抽出部。 9・・・表示部。 第 図 第 図 第 図 第 図 第 図 第 図 (a) (b) 第 図 第 図 第 図 第 図 第 図
Claims (18)
- (1)文書を入力するための入力手段と、この入力手段
より入力された文書を構成する各文の重要度を他の文と
の関係により算出する文重要度判定手段と、前記入力手
段より入力された文書に対して処理を行ないこの結果に
前記文重要度判定手段より算出された重要度を用いて最
終の処理結果を得る処理手段と、この処理手段により得
られた最終の処理結果を出力する出力手段とを具備した
ことを特徴とする文書処理システム。 - (2)文書を入力するための入力手段と、この入力手段
より入力された文書を構成する文章から話題を抽出する
話題抽出手段と、前記入力手段より入力された文書に対
して処理を行ないこの結果に前記話題抽出手段より抽出
された話題を用いて最終の処理結果を得る処理手段と、
この処理手段より得られた最終の処理結果を出力する出
力手段とを具備したことを特徴とする文書処理システム
。 - (3)処理手段は、文書内容の書式構造を抽出するもの
である請求項1及び2記載の文書処理システム。 - (4)処理手段は、前記入力手段より入力された検索す
べき単語情報に従って、文書中から該当する文章を検索
するものである請求項1及び2記載の文書処理システム
。 - (5)処理手段は、文書中からキーワードを抽出するも
のである請求項1及び2記載の文書処理システム。 - (6)文重要度判定手段は、文書を構成する各文に対し
初期値を設定する手段と、各文に対し隣接する文との接
続関係に従って該文の値の更新を順次行なう手段と、こ
の手段に対し文書を構成する全ての文に対する値の更新
を数回行なわせる手段とからなるものである請求項1記
載の文書処理システム。 - (7)文重要度判定手段は、文書を構成する全ての文に
ついて値が更新される毎に値の正規化を行なう手段を更
に備えたものである請求項6記載の文書処理システム。 - (8)話題抽出手段は、文書を構成する各文について形
態素解析を行なう手段と、各文の形態素解析結果に従っ
て自立語を取り出す手段と、取り出された自立語から不
要語を除去する手段とからなるものである請求項7記載
の文書処理システム。 - (9)処理手段は、文書から題名、章名、節名等の書式
構造を抽出する手段と、この抽出された書式構造と対応
付けて各文の重要度を前記出力手段に出力させる手段と
からなるものである請求項3記載の文書処理システム。 - (10)処理手段は、文書から題名、章名、節名等の書
式構造を抽出する手段と、この抽出された書式構造と対
応付けて話題を前記出力手段に出力させる手段とからな
るものである請求項3記載の文書処理システム。 - (11)処理手段は、前記検索すべき単語の関連語が、
検索された文章中又は該文章を含むパラグラフ中に存在
する場合、該文章を検索結果として優先するものである
請求項4記載の文書処理システム。 - (12)処理手段は、前記入力手段より検索すべき単語
情報が指示されたとき、この単語を含んだ文章又はパラ
グラフ中の話題を抽出し、この話題を前記検索すべき単
語と共に検索対象とするものである請求項4記載の文書
処理システム。 - (13)処理手段は、検索すべき単語と共に、その品詞
変換を行なった単語を検索対象とするものである請求項
4記載の文書処理システム。 - (14)処理手段は、検索された文の重要度が所定値以
上の場合に該文を検索結果とするものである請求項4、
11、12及び13記載の文書処理システム。 - (15)処理手段は、検索された文に対し検索すべき単
語が話題として用いられている文を検索結果とするもの
である請求項4、11、12及び13記載の文書処理シ
ステム。 - (16)処理手段は、文書を構成する各文について形態
素解析を行ない自立語を抽出する手段と、抽出された自
立語に対して不要語を除去する手段と、残された自立語
について文書中での頻度を計数し、低頻度及び極めて高
頻度のものを除去する手段とから成るものである請求項
5記載の文書処理システム。 - (17)処理手段は、低頻度及び極めて高頻度のものを
除去した自立語に対し、これを含む文のパラグラフ内で
の重要度が所定値以上の場合に該自立語をキーワードと
するものである請求項16記載の文書処理システム。 - (18)処理手段は、低頻度及び極めて高頻度のものを
除去した自立語に対し、これが該文中で話題とされてい
る場合に該自立語をキーワードとするものである請求項
16記載の文書処理システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12922690A JP3691844B2 (ja) | 1990-05-21 | 1990-05-21 | 文書処理方法 |
US07/702,809 US5257186A (en) | 1990-05-21 | 1991-05-21 | Digital computing apparatus for preparing document text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12922690A JP3691844B2 (ja) | 1990-05-21 | 1990-05-21 | 文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0424869A true JPH0424869A (ja) | 1992-01-28 |
JP3691844B2 JP3691844B2 (ja) | 2005-09-07 |
Family
ID=15004275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12922690A Expired - Fee Related JP3691844B2 (ja) | 1990-05-21 | 1990-05-21 | 文書処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5257186A (ja) |
JP (1) | JP3691844B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612447A (ja) * | 1992-03-31 | 1994-01-21 | Toshiba Corp | 要約文章作成装置 |
JPH06195336A (ja) * | 1992-12-24 | 1994-07-15 | Fuji Xerox Co Ltd | 文書編集方法及び文書編集装置 |
US5704270A (en) * | 1995-05-18 | 1998-01-06 | Aisin Seiki Kabushiki Kaisha | Vacuum brake booster for automotive vehicle |
JPH11272686A (ja) * | 1998-03-19 | 1999-10-08 | Nippon Telegr & Teleph Corp <Ntt> | 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体 |
JP2005346485A (ja) * | 2004-06-03 | 2005-12-15 | Fuji Xerox Co Ltd | 分類符号処理装置 |
JP2005346486A (ja) * | 2004-06-03 | 2005-12-15 | Fuji Xerox Co Ltd | ドキュメント検索装置 |
JP2011039717A (ja) * | 2009-08-10 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法および情報検索プログラム |
JP2017068833A (ja) * | 2015-09-29 | 2017-04-06 | 株式会社東芝 | 単一文書からのキーワード抽出装置及び方法 |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754766A (en) * | 1991-04-17 | 1998-05-19 | Shaw; Venson M. | Integrated circuit system for direct document execution |
US5499329A (en) * | 1992-04-30 | 1996-03-12 | Ricoh Company, Ltd. | Method and system to handle context of interpretation in a document processing language |
EP0615201B1 (en) * | 1993-03-12 | 2001-01-10 | Kabushiki Kaisha Toshiba | Document detection system using detection result presentation for facilitating user's comprehension |
US5384703A (en) * | 1993-07-02 | 1995-01-24 | Xerox Corporation | Method and apparatus for summarizing documents according to theme |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
US5642520A (en) * | 1993-12-07 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for recognizing topic structure of language data |
US5640581A (en) * | 1994-08-12 | 1997-06-17 | Masashi Saraki | CD-ROM information editing apparatus |
US7467137B1 (en) | 1994-09-02 | 2008-12-16 | Wolfe Mark A | System and method for information retrieval employing a preloading procedure |
US6604103B1 (en) * | 1994-09-02 | 2003-08-05 | Mark A. Wolfe | System and method for information retrieval employing a preloading procedure |
US5671427A (en) * | 1994-10-12 | 1997-09-23 | Kabushiki Kaisha Toshiba | Document editing apparatus using a table to link document portions |
US5689716A (en) * | 1995-04-14 | 1997-11-18 | Xerox Corporation | Automatic method of generating thematic summaries |
US5708822A (en) * | 1995-05-31 | 1998-01-13 | Oracle Corporation | Methods and apparatus for thematic parsing of discourse |
US5887120A (en) | 1995-05-31 | 1999-03-23 | Oracle Corporation | Method and apparatus for determining theme for discourse |
US7302638B1 (en) * | 1995-06-07 | 2007-11-27 | Wolfe Mark A | Efficiently displaying and researching information about the interrelationships between documents |
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
US5701498A (en) * | 1995-11-17 | 1997-12-23 | International Business Machines Corporation | Method and apparatus for a structured ASCII browser for online publications formatted in a bookmaster format |
US5892842A (en) * | 1995-12-14 | 1999-04-06 | Xerox Corporation | Automatic method of identifying sentence boundaries in a document image |
US5850476A (en) * | 1995-12-14 | 1998-12-15 | Xerox Corporation | Automatic method of identifying drop words in a document image without performing character recognition |
US5848191A (en) * | 1995-12-14 | 1998-12-08 | Xerox Corporation | Automatic method of generating thematic summaries from a document image without performing character recognition |
JP3254642B2 (ja) * | 1996-01-11 | 2002-02-12 | 株式会社日立製作所 | 索引の表示方法 |
US6684188B1 (en) * | 1996-02-02 | 2004-01-27 | Geoffrey C Mitchell | Method for production of medical records and other technical documents |
US6098034A (en) * | 1996-03-18 | 2000-08-01 | Expert Ease Development, Ltd. | Method for standardizing phrasing in a document |
JP3305191B2 (ja) * | 1996-03-19 | 2002-07-22 | 富士通株式会社 | 文書管理装置及びデータ圧縮方法及びデータ復元方法 |
US6457004B1 (en) | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US6006252A (en) * | 1996-10-08 | 1999-12-21 | Wolfe; Mark A. | System and method for communicating information relating to a network resource |
US5963969A (en) * | 1997-05-08 | 1999-10-05 | William A. Tidwell | Document abstraction system and method thereof |
US8626763B1 (en) | 1997-05-22 | 2014-01-07 | Google Inc. | Server-side suggestion of preload operations |
US7257604B1 (en) | 1997-11-17 | 2007-08-14 | Wolfe Mark A | System and method for communicating information relating to a network resource |
US6353824B1 (en) * | 1997-11-18 | 2002-03-05 | Apple Computer, Inc. | Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments |
US6542888B2 (en) * | 1997-11-26 | 2003-04-01 | International Business Machines Corporation | Content filtering for electronic documents generated in multiple foreign languages |
US6473730B1 (en) * | 1999-04-12 | 2002-10-29 | The Trustees Of Columbia University In The City Of New York | Method and system for topical segmentation, segment significance and segment function |
US7130879B1 (en) * | 1999-08-10 | 2006-10-31 | Alexandre Dayon | System for publishing, organizing, accessing and distributing information in a computer network |
US6876991B1 (en) | 1999-11-08 | 2005-04-05 | Collaborative Decision Platforms, Llc. | System, method and computer program product for a collaborative decision platform |
US20020178190A1 (en) * | 2001-05-22 | 2002-11-28 | Allison Pope | Systems and methods for integrating mainframe and client-server data into automatically generated business correspondence |
US7487462B2 (en) | 2002-02-21 | 2009-02-03 | Xerox Corporation | Methods and systems for indicating invisible contents of workspace |
US7228507B2 (en) | 2002-02-21 | 2007-06-05 | Xerox Corporation | Methods and systems for navigating a workspace |
US8370761B2 (en) * | 2002-02-21 | 2013-02-05 | Xerox Corporation | Methods and systems for interactive classification of objects |
US7549114B2 (en) | 2002-02-21 | 2009-06-16 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US7650562B2 (en) * | 2002-02-21 | 2010-01-19 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
WO2009048130A1 (ja) * | 2007-10-12 | 2009-04-16 | Nec Corporation | 文書重要度算出システム、文書重要度算出方法およびプログラム |
JP5412903B2 (ja) * | 2009-03-17 | 2014-02-12 | コニカミノルタ株式会社 | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
US8990200B1 (en) | 2009-10-02 | 2015-03-24 | Flipboard, Inc. | Topical search system |
JP6099046B2 (ja) * | 2013-06-11 | 2017-03-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置および方法 |
EP3789987A1 (en) | 2019-09-05 | 2021-03-10 | Obrizum Group Ltd. | Tracking concepts and presenting content in a learning system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61117658A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文章抄録装置 |
JPS62229368A (ja) * | 1986-03-29 | 1987-10-08 | Toshiba Corp | 文書処理装置 |
JPH01304575A (ja) * | 1988-06-01 | 1989-12-08 | Sharp Corp | 文書処理装置 |
JPH02297157A (ja) * | 1989-03-09 | 1990-12-07 | Matsushita Electric Ind Co Ltd | 文章要約装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4876655A (en) * | 1985-12-02 | 1989-10-24 | Tektronix, Inc. | Method and apparatus for evaluating jitter |
JPS6438866A (en) * | 1987-08-05 | 1989-02-09 | Hitachi Ltd | Document editing device |
JPH0244462A (ja) * | 1988-08-05 | 1990-02-14 | Nippon Telegr & Teleph Corp <Ntt> | 自然言語処理装置 |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
US4955066A (en) * | 1989-10-13 | 1990-09-04 | Microsoft Corporation | Compressing and decompressing text files |
-
1990
- 1990-05-21 JP JP12922690A patent/JP3691844B2/ja not_active Expired - Fee Related
-
1991
- 1991-05-21 US US07/702,809 patent/US5257186A/en not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61117658A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文章抄録装置 |
JPS62229368A (ja) * | 1986-03-29 | 1987-10-08 | Toshiba Corp | 文書処理装置 |
JPH01304575A (ja) * | 1988-06-01 | 1989-12-08 | Sharp Corp | 文書処理装置 |
JPH02297157A (ja) * | 1989-03-09 | 1990-12-07 | Matsushita Electric Ind Co Ltd | 文章要約装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612447A (ja) * | 1992-03-31 | 1994-01-21 | Toshiba Corp | 要約文章作成装置 |
JPH06195336A (ja) * | 1992-12-24 | 1994-07-15 | Fuji Xerox Co Ltd | 文書編集方法及び文書編集装置 |
US5704270A (en) * | 1995-05-18 | 1998-01-06 | Aisin Seiki Kabushiki Kaisha | Vacuum brake booster for automotive vehicle |
JPH11272686A (ja) * | 1998-03-19 | 1999-10-08 | Nippon Telegr & Teleph Corp <Ntt> | 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体 |
JP2005346485A (ja) * | 2004-06-03 | 2005-12-15 | Fuji Xerox Co Ltd | 分類符号処理装置 |
JP2005346486A (ja) * | 2004-06-03 | 2005-12-15 | Fuji Xerox Co Ltd | ドキュメント検索装置 |
JP4569178B2 (ja) * | 2004-06-03 | 2010-10-27 | 富士ゼロックス株式会社 | 分類符号処理装置 |
JP4569179B2 (ja) * | 2004-06-03 | 2010-10-27 | 富士ゼロックス株式会社 | ドキュメント検索装置 |
JP2011039717A (ja) * | 2009-08-10 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法および情報検索プログラム |
JP2017068833A (ja) * | 2015-09-29 | 2017-04-06 | 株式会社東芝 | 単一文書からのキーワード抽出装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
US5257186A (en) | 1993-10-26 |
JP3691844B2 (ja) | 2005-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3691844B2 (ja) | 文書処理方法 | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JPH03172966A (ja) | 類似文書検索装置 | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
JP2669601B2 (ja) | 情報検索方法及びシステム | |
JP4967133B2 (ja) | 情報取得装置、そのプログラム及び方法 | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH0484271A (ja) | 文書内情報検索装置 | |
JP3596210B2 (ja) | 関連語辞書作成装置 | |
JP3178421B2 (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH0844771A (ja) | 情報検索装置 | |
JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
JPH1145252A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH06231178A (ja) | 文書検索装置 | |
JPH03132872A (ja) | 索引情報生成装置 | |
JPH0877196A (ja) | 文書情報抽出装置 | |
Moulay Lakhdar et al. | Building an extractive Arabic text summarization using a hybrid approach | |
JP3851712B2 (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002108894A (ja) | 文書分類装置、文書分類方法及び該方法を実行するための記録媒体 | |
JP2001067364A (ja) | 複合メディア検索方法および複合メディア検索用プログラム記録媒体 | |
JPH11126204A (ja) | 速読支援方法、文書検索方法およびその装置 | |
JP4138048B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040401 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050519 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050617 |
|
LAPS | Cancellation because of no payment of annual fees |