JPH0424869A - 文書処理システム - Google Patents

文書処理システム

Info

Publication number
JPH0424869A
JPH0424869A JP2129226A JP12922690A JPH0424869A JP H0424869 A JPH0424869 A JP H0424869A JP 2129226 A JP2129226 A JP 2129226A JP 12922690 A JP12922690 A JP 12922690A JP H0424869 A JPH0424869 A JP H0424869A
Authority
JP
Japan
Prior art keywords
document
sentence
processing system
importance
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2129226A
Other languages
English (en)
Other versions
JP3691844B2 (ja
Inventor
Teruhiko Ukita
浮田 輝彦
Kazuo Sumita
一男 住田
Satoshi Kinoshita
聡 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP12922690A priority Critical patent/JP3691844B2/ja
Priority to US07/702,809 priority patent/US5257186A/en
Publication of JPH0424869A publication Critical patent/JPH0424869A/ja
Application granted granted Critical
Publication of JP3691844B2 publication Critical patent/JP3691844B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) 本発明は文書に対して構造抽出、文章検索、キーワード
抽出等の処理を行なう文書処理システムに関する。
(従来の技術) 近年日本語ワードプロセッサ等の文書処理システムが普
及することにより、文書処理の合理化が進み、誰でもが
簡便に美しい文書を作成できるようになってきている。
しかし数ページ以上の文書を作成する場合やマニキュア
ル等の大規模な文書を作成する場合には、全体の構成の
見通しが悪く、同じような内容を二重に記述してしまっ
たり、全体として書くへき内容を見落としたりしてしま
うことがあった。
この問題点を改良するためユーザが文書作成を行なって
いる時点で、作成済文書内容の構造を表示する方式が実
現されている。ここでは文書の題名、章名、節名等の書
式構造のみを表示する。しかしながら、これらは文書の
表面上の特徴のみを示すものであり、文章の内容自体ま
で関わったものではない。従ってユーザはこの書式構造
のみを見ても、文書を構成する各文章の内容自体を理解
することが出来ず、いちいち全文書の詳細に渡って内容
を確認する必要があった。
又、ユーザが文書作成している際、作成済文書から所望
の文章のみを参照したい場合が生じる。
この時ユーザは検索のキーとなる単語を指定し、この単
語を含む文を検索するよう要求する。しかしながら、従
来では指定された単語と単゛に表層上で一致がとれる文
のみを検索結果としていた。従って、その単語を含んで
いる文では有るが、内容的には殆ど無関係なものや、ユ
ーザの全く意図しない文が検索されてしまう場合が生じ
た。つまりユーザの所望とする、重要なつぼを押さえた
文章のみを検索することが出来なかった。
更に、所望の文章を検索するためには各文に適切なキー
ワードを付しておく必要がある。このため従来ではユー
ザが文書を構成する各文に対し、キーワードとなるべき
単語を逐一指定する方式を採っていた。このためユーザ
にとってはキーワード付けの作業のみでも非常に手間が
かかり、非効率的であった。
(発明が解決しようとする課題) この様に従来の文書処理システムにおいては、作成済文
書の内容を参照するのに単に書式構造のみを表示してい
たためユーザにとっては内容把握が難しい。又、単語を
指定して所望の文章を検索する場合、単に表層上一致の
とれる文章のみを検索していたため、内容的には無関係
な文章も検索結果とされていた。更に検索のための文章
のキーワード付けを、ユーザが逐一指定していたため手
間がかかっていた。この様に文書編集を効率良く行なう
ための種々のサポート処理が、真にユーザにとって役立
つものでは無いという問題点が有った。 そこで本発明
はこれら種々のサポート処理を文書の内容まで立ち入っ
たものとする事によりユーザが文書編集を効率良く行な
える文書処理システムを提供することを目的とする。
〔発明の構成〕
(課題を解決するための手段) 本発明による文書処理システムでは、文書重要度判定手
段が作成中の文書や既存の文書の各文章に対して、隣接
する他の文章との関係により重要度を算出する。
又、話題抽出手段が各文章に対して自立語抽出、不要語
除去等の処理を施すことにより話題を抽出する。そして
処理手段が種々の文書処理結果に重要度、話題を用いて
最終の処理結果を得るものである。
先ず、文書構造を表示する際には、これに対応付けて各
文の重要度1話題を表示する。
又、検索指示に従って該当する文章を検索する場合には
、検索された文章をその重要度が高いが、話題語を含ん
でいるか等に基づいて真の検索結果か否かを判定する。
更に文章中からキーワードを抽出する場合にはキーワー
ドと想定して抽出された単語に対し該文章の重要度が高
いか、該キーワードが話題語とされているか等により、
真のキーワードとすべきか否かを決定する。
(作用) 本発明では文重要度判定手段を備えることにより文書に
対して表層上の特徴のみでは無く、その内容までも評価
尺度で表わす事ができる。
又、話題抽出手段を備えることにより各文の内容を真に
反映した単語を話題として抽出できる。
従って文書より書式構造を抽出して表示するときには各
文の重要度、話題を合わせて表示することにより、ユー
ザは文書全体の構造がその内容まで含めて理解できる。
又、文書中から所望の文を検索するときにも、検索指示
された単語に真に関連する文のみを検索結果とするため
、ユーザにとって不要な検索結果をいちいち確認する作
業が大幅に削減される。更に文書を構成する各文に対し
、真にその内容に関連する単語をキーワードとして抽出
できるため、ユーザによるキーワード付は作業が省略で
きる。
(実施例) 以下図面を用いて本発明の一実施例を説明する。第1図
は本発明の一実施例の文書処理システムの構成図である
。先ず本システムの各構成部の動作の概略を説明する。
文書入力部1より入力された文書データは制御部2を介
して文重要度判定部3、話題抽出部4、処理部5へ送ら
れる。ここで文重要度判定部3、話題抽出部4は本発明
の特徴と言える機能を有する部分である。先ず文重要度
判定部3では文書を構成する各文に対し隣接する他の文
との関係に従って重要度を計算する。そして文書を構成
する全ての文について重要度が求まると、この処理を数
回繰り返す。又、話題抽出部4では文書を構成する各文
に対し形態素解析、自立語抽出、不要語除去を行なって
話題語を抽出する。これらの重要度、話題は夫々の文番
号と対応付けられて制御部2へ送られる。制御部2は受
は取った重要度、話題を対応する文番号と共に処理部5
へ送る。処理部5は文書構造抽出部6、文書検索部7、
キーワード抽出部8から成り、夫々が文の重要度、話題
を受は取る。文書構造抽出部6では文書内容に対し題名
・章名・節名等の表層上の書式構造を抽出する。そして
この書式構造と文の重要度、話題を対応付けて制御部2
へ送る。
文書検索部7では、文書入力部1より指示された検索単
語に従い文書中から該当文を検索する。
この検索結果に対し文の重要度、話題を参照して最終の
検索結果を決定し、これを制御部2へ送る。
キーワード抽出部8では1文書を構成する各文に対しキ
ーワードとなるべき単語を抽出する。この結果に対し文
の重要度、話題を参照して真のキーワードを決定する。
制御部2はこれら受けとった処理結果を表示部9へ送る
。表示部9では、これらの処理結果をユーザの理解しや
すい形式で表示する。
次にこれら各部の処理について詳細に説明する。
文書入力部1はキーボードやマウスから構成され、ユー
ザからの文書データや各種の編集指示を入力するための
ものである。ここではOCRやファクシミリを介して文
書データを入力することも出来るし、図示しない外部記
憶装置から一括入力しても良い。
ユーザは文書入力部1より第2図に示すメニューを表示
し、そこから所望の処理を選択する。ここで構造抽出、
検索、キーワード抽出が夫々選択されたときは文書構造
抽出部6、文書検索部7、キーワード抽出部8が対応し
て起動する。又1編集が選択されたときは図示しない編
集機能が起動される。
文重要度判定部3、話題抽出部4は上述した様に本発明
の特徴となる部である。
文重要度判定部3では、文書を構成する各文の接続詞等
の表現を使って文書中のパラグラフ内で重要な文を取り
出す。まず文章の表現の中から接続的な表現を抽出する
、いわゆる接続詞を抽出することになる。そして接続詞
毎に決められた又聞の重要性判定を行い、パラグラフ内
で重要な文を逐次判定する。例えば、「だから」などで
結合された二つの文がある場合は、前の文は後の文の理
由を示しているので、重要な文は後の文であることが判
断できる。これをパラグラフの最初の文から後方の文へ
、2文づつ取り出して順次判定して行き、処理を繰り返
すことによりパラグラフ全体の各文の重要度を判定でき
る。この過程をまとめたものが第3図である。
まず隣接する又聞の接続関係を抽出する(ステップ30
1)。ここで接続詞が使用されていない場合には、後の
文は単に文の展開になっているので、前方の文が後の文
より重要性が高いと判定する。
次に各文に初期値としてスコアαを配分する(ステップ
302)。次に全ての文について、所定の回数だけ以下
の繰り返し処理を行う(ステップ303,304)(こ
こでα、によりパラグラフ内の第1文のスコアを、また
β、により第1文と第i+1文の間の接続関係を示す)
第1番目の文のスコアα、を、隣接する文とその間の接
続関係から決められる式により更新する(ステップ30
5)。
α、′←α、十f(β1−1)・α、−1この式におい
てf()は、接続関係β□毎によって決められるもので
、符号を持つ数値であり、例えば第4図のように決めら
れる。このような連続的な値により又聞の重要性を判定
して前方の文のスコアを現時点の文のスコアに反映する
役割を果している。また上記の式の他に下の様な式を用
いて、前後の文から重要度を計算しても良いことは当然
である。
α、′←α、+f(β1−1)・αi−1+f (β、
)・α、+1この様な漸化式により、すべての文につい
て所定の回数、例えば5回処理を繰り返すことにより、
各文に対するスコアの順にパラグラフ内における文の重
要性が順次得られることになる。この漸化式の計算過程
において、繰り返し処理を全文に施したときにスコアの
値が一様でなくなる場合がある。このときは、必要に応
じて、繰り返し毎に次のようにしてスコアの正規化を行
うようにすればよい。
α、′←α、÷Σα、 (nはパラグラフの全文数)こ
こでステップ303において、全ての文について所定の
回数繰り返すのは、そのパラグラフ内における全ての文
の内容の影響を各文にゆき渡らせて真に重要な文を発見
するために、少なくとも5回程度計算を行なう必要があ
るからである。
次に話題抽出部4の処理について説明する。ここでは、
まず文章が述べている話題の流れを取り出す。これは助
詞の「は」などの表現から話題となっている言葉を取り
出すことにより実行する。
第5図にその処理方法を示す。まず入力された文章を形
態素解析する(ステップ501)。これにより文を構成
する単語とその品詞に区分される。例えば、 「登録方法には2種類あります」 という文の場合。
「名詞(登録方法)十助詞(に)十助詞(は)十数側(
2)十名詞(種類)十動詞(あり)十助動詞(まず)」
などのように解析される。次に助詞の「は、も」なとの
直前の言葉(自立語)を取り出すことにより話題提示表
現を取り出す(ステップ502)。ここで話題を取り出
すときの手がかりとして使う表現は、助詞や他の表現も
含めて「は、も、とは、ときたら、といえば、こそ、さ
え、しも」などである。この様にして話題となる表現が
抽出できる。
次に不要話題語辞書を参照して不要な語を除去する(ス
テップ503)。これは、「最近は」 「この場合は」
といったもので文章の内容と直接関連を持たない言葉を
除去するものである。この話題抽出の処理により、パラ
グラフ内の詳細な文章の内容が把握できることになる。
第6図は実際の文書に対し話題抽出、文重要度判定を行
なったときの処理結果を示すものである。
先ず第6図(a)に示す7文から成る文書が入力された
とする。これに対し話題抽出部が上述した方法により第
6図(b)に示す様に適当な話題を抽出する。ここでは
第1.2,5.7文中に助詞の「は」の直前の自立語が
あり、且つこれらは不要語では無い。従ってこれらは文
内容を反映した適当な話題として抽出される。次に第6
図(c)は第6図(a)の7文に対し重要度計算を2回
行なった例である。これら7文の接続詞としては「まず
(2文と3文)、つまり(3文と4文)、このとき(4
文と5文)、例えば(5文と6文)、もう一つ(6文と
7文)」が挙げられる(1文と2文は接続詞無しの展開
である)。これら接続詞の第4図の関数値と各文の初期
値を用いて1回目の重要度が夫々求められる。これを更
に1回繰り返した結果、4文の重要度が2.1で最高で
ある。つまりこの文書中では4文が内容的に重要なもの
となっている。
次に本発明の処理部5を構成する文書構造抽出部6、文
書検索部7、キーワード抽出部8の夫々について説明す
る。これらの各部は文書作成前、或いは作成中にユーザ
ーがファンクションキーを押すことにより起動される。
先ず文書構造抽出部6では、その書式構造の抽出自体は
従来より知られているものであるが、これを各文の重要
度、話題とともに対応付は表示して、ユーザに文書内容
自体を把握させ易くした点が特徴である。
ここで構造表示では、文書の書式構造抽出を行い、それ
を提示する。書式構造の抽出では、0DA(Offic
e Document Archtecture)やハ
イパーテキストとして予め構造の一部が作成済みの文書
の場合は、それを利用する。また作成中の文書の書式構
造が取り出されていない場合は、次のようにして先ず、
題名や章名などの構造を取り出す。題名は文書の第1行
に示されているので容易に抽出できる。また章名などは
通常数字と共に一つの行に書かれるので、数字の表現の
パターンを準備することにより抽出できる。例えば、 「第N章abcJ+ rN、  a  b  QJ  v r[N]a b cJ などの表現(Nは数字)に対し文字列として照会が取れ
る表現からrabcJの部分を取り出せば、章名(見出
し)が得られる。また部名も同様にして抽出することが
できる。パラグラフは改行記号を検出することにより抽
出することができる。第7図に書式構造の例を示す。こ
の場合は、題目、著者1章見出し、パラグラフの順に書
式的な構造が取り出される。
この書式構造抽出は、例えば特開昭62−229368
号の手法を用いることにより容易に実現できる。
この文書構造抽出部では、上述した様に現在作成中の文
書のみならず、既に作成された文書のファイルに対して
も実行できるようにすることtt容易である。そのとき
には、第8図(a) (b)に示すように、まず作成中
文書か既に作成された他のファイルの文書かをまずマウ
スなどで選択し、続b1て他のファイルが指示されれば
、対象となるファイルの一覧を表示し、マウスで指示さ
れた文書を書式構造表示処理の対象とすればよい。この
様に処理して書式構造を抽出した文書を編集の対象とし
て、一部分を作成中の文章に転送したりできるのは当然
である。
この文書構造抽出部6は、第9図に示す様に文書作成中
のウィンドウとは異なったウィンドウを生成し、そこに
文書の書式構造を表示する。ウィンドウの大きさの制約
から全文書の書式構造の詳細な表示ができない場合は、
題目、章名1節名、更にパラグラフ等のレベルを区別し
て表示し、マウスによる位置指定と詳細/概要の動作指
定により順次細かなレベルを表示したり、逆に大きなレ
ベルを表示するようにすれば良い。(第9図では文書の
題目、章見出しのみを書式構造として表示している。) 本発明では、この書式構造に対応付けて、これが内包す
る各文章の重要度・話題を第10図に示す様にウィンド
ウ内に表示する。つまり上述した様に5文書構造抽出部
は文書データ及びこの書式構造に対し、制御部2より送
られた重要度・話題(これらは文番号と対で送られる)
をその文番号を基に対応付けて制御部2へ返す。制御部
2では表示部9へ第10図の様に表示させる。ここで文
書データ、書式構造、文重要度、話題は文書構造抽出部
6内の図示しないメモリに、第11図に示す様に格納管
理される。つまりメモリ内に題目テーブル、見出しテー
ブル、パラグラフテーブル、文重要度テーブル、話題テ
ーブルを設置し、夫々をポインタ、文字位置に従って関
連付けておく。この文字位置は該当する文章の先頭文字
位置の、文書データの1文字目からカウントした物理位
置であり、重要度・話題の場合は該当文のパラグラフ内
での相対位置(パラグラフの場合はこれを含む見出し内
の相対位置)と共に記憶される。
次に、文書検索部7について説明する。検索機能は文書
内検索と既存文書検索の2種類に分かれるが、ここでは
文書の検索方法の要点を説明する。
既に示したように、従来の文書検索では、文字列として
全く同一のものを照会するだけであり、表記が少しでも
異なると検索できない欠点がある。
更に、内容を全く判断せずに、検索してしまうために、
膨大な候補が出現してしまい、希望する内容を判定する
ための利用者の手間が大きくなってしまう欠点があった
。本発明における文書検索機能は、検索対象の文章の内
容を考慮することにより、これらの欠点を補う方式であ
る。
第12図にその処理フローを示す。検索モードには、単
純検索、拡張検索、重要性判定検索、話題検索の4種類
がある。まず単純検索を説明する。
ここでは利用者が指示する単語を取り出す(ステップ1
201.1202)、これは、マウスにより作成中の文
章の一部を指示することにより実行する。或は単語を別
途指示しても良いことは当然である。これにより検索す
べき単語や文字列が指定される。
指定された単語に従って、検索対象となる文書から文字
列として一致する部分を捜し出す。この様にして、指示
された単語が文字列として存在する文章が得られること
になる(ステップ1203)。従来のテキスト検索では
この時点で候補を表示し、処理をいったん終了し、次の
検索指示により次の候補を検索していた。本発明では、
得られた候補の文書部分の内容を判定し、順序づけるこ
とによりユーザに提示する。
まず重要性判定検索では、検索すべき単語の、その検索
された文章の文書中での重要度を判定する(ステップ1
205)。つまり制御部2より送られた各文の重要度を
参照して、検索された文章が文書の中で(或いは該当パ
ラグラフ中で)所定値より高い場合のみ、その文章を正
式な検索結果とするものである。これにより重要度の低
い文章は、検索すべき単語との内容的関連が低いと見な
せるため(つまり検索すべき単語を説明したものでは無
い)、最初から排除できる。また話題検索では、検索す
べき単語が、その検索された文章中で話題として用いら
れている場合のみ、その文章を正式な検索結果とするも
のである(ステップ1206)。
ここでも制御部2より送られた各文の話題を参照して決
定する。これにより、検索すべき単語との関連性が真に
強い(つまり検索すべき単語をキーとして説明している
)文章のみを検索結果とすることができる。
更に検索するための単語を作成中の文書の中から指示し
たときには、その単語が使われている文章内で、関連す
る話題や類似の言葉などの情報を併用することができる
。これを拡張検索と呼ぶ(ステップ1204)。 ここ
では検索のための単語を指示したとき、その単語が含ま
れている文章やパラグラフの話題を抽出し、その抽出さ
れた話題を検索すべき単語とともに検索対象とすること
により、全く無関係な分野の文書を誤って検索してしま
う不具合を防ぐことができる。つまり検索すべき単語及
び話題が両方とも含まれている文章を検索結果とするこ
とにより、内容的にも関係の深い文章をユーザに呈示す
ることができる。
また第13図のような単語間の意味的な関連語辞書を準
備し、抽出した話題が関連する語を、その上位及び兄第
の所に位置するもの、更に子供から選ぶ。また「ワープ
ロ」と「ワードプロセッサ」のように単に表記が異なる
ものも登録しておくことにより、意味は同じでも表記が
異なるものまで関連語とできることになる。これら関連
語が上述の指示単語とともに検索された文章、節、或は
パラグラフに含まれている際には関連度が大きいとして
、優先順位が高いと判定する。また必ずしも、話題を抽
出するまでもなく、単に指示された単語と関連する語を
関連語辞書から探しだし、それらが多く含まれる文章を
優先的に出力することも可能である。これらの機能はそ
れぞれ任意の組合せをメニューなどにより指示できるよ
うにできるのは当然である。
さらには、検索すべき単語の品詞を変換することにより
関連語を余さず検索することも可能である。まず動詞や
形容詞などの用言の述語を検索の単語とする場合は、そ
九らを名詞化することにより検索すべき関連語を作り畠
してもよい。まず動詞の場合、す変の動詞ならその語幹
を取り出すことにより名詞が得られる。またその動詞が
和語の場合には、別途用意されるテーブルにより名詞化
すれば良い。例えば、「考える」という動詞の場合では
、「考察」という単語を対応させることができる。和語
の動詞は高々2−3千語であるので。
変換テーブルも小規模のものですむ。これらは意味的な
関連語辞書の内部に登録しておくことも可能である。形
容詞の場合には、「美しいJに対して「語幹+さJとい
う操作を施すことにより。
「美しさ」を生成することができる。更に「美形jなど
の単語を関連語辞書の中で「美しい」の兄第として登録
できる。これらとは逆に、名詞が探索対象として指示さ
れたときには、動詞や形容詞などの品詞の単語も含めて
検素するようにすればよい。
こうして検素された文章は、文書構造抽呂部の場合と同
様に、表示文書の横にウィンドウを1つ開き、ここに表
示する(ステップ1207)。
次にキーワード抽出部8の処理を説明する。ここでは上
述した話題抽出部と同様に文中から重要な単語を抽出す
るが、こ九に全文書中の出願頻度、及び制御部2より送
られた各文の重要度・話題を参照して真のキーワードを
求める。第14図はその処理フローである。まず作成し
た文章の解析を行い、自立語を抽出する(ステップ14
01)。 これは形態素解析を行えば良く、文章に表れ
る単語の位置と品詞を認定することになる。次に名詞、
動詞、形容詞等の自立語と判定された単語に対して、不
要語辞書を調べ、不必要な単語を除外する(ステップ1
402)。 これは目的とする文書の内容に依存するが
、非常に一般的な用語である[場合、時、部分、全体」
などの単語をキーワードとして検出することを防ぐ。次
に残った単語の文書中での出現回数を調べる(ステップ
1403)。 これにより頻度の極めて高いもの及び低
いものは除外することができる。(頻度の極めて高いも
のは単なる一般語であることが多いため除外する。) 次に、重要度判定処理では、残った単語のそれぞれにつ
いて出現した文章の重要度を判定する。
即ち、先に説明した、文のパラグラフ内での重要度判定
を、キーワ一ドの候補が含まれる文について行うことに
より、文の重要度をもってそのキーワード候補の重要度
とする。ここで全く重要度がない場合、すなわちある所
定の値以下の重要度である場合には、その状況における
キーワードの候補は無視するようにすれば良い(ステッ
プ1404)。
話題提示表現フィルターでは、先の不要語が除去された
後のキーワード候補が、その出現した文章において話題
として取り上げられているかどうかを調べることにより
、話題として取り上げられておらず内容が十分説明され
ていない場合を取り除くことになる(ステップ1405
)。
これらの処理結果はそれぞれ利用者に提示され、利用者
はその内から必要なものを適宜判定して選ぶことにより
、文書中のインデックスを作成する(ステップ1406
)。提示方法としては、第15図に示す様に抽出された
キーワードが、重要度判定や話題表現として認められて
いるかのマークとその出現位置(X章、Y節、第Zパラ
グラフ、第N行目等)とともに示せばよい。
また文の重要度判定結果から、重要な文からキーワード
を抽出する方法として、文を解析することにより、各単
語の品詞を取り出し、主要な構成要素である述語を取り
出すことにより、その文のキーワードとすることも可能
である。
〔発明の効果〕
本発明によれば文書処理システムにおいて文重要度判定
部及び話題抽出部を備えたことにより、ユーザの必要と
するサポート処理を文書内容まで立ち入ったものとする
事が出来る。つまり文書構造表示では文書内容の重要な
部分が一目で把握でき、文書検索ではユーザの所望する
重要文が検索でき、更にキーワード抽出では各文の内容
を真に反映したキーワーばが抽出できる。従ってユーザ
はこれら文書内容まで立ち入ったサポート処理を参考に
して本来の文書編集作業に専念することが出来、文書の
作成や編集効率を格段に向上させることができる。
【図面の簡単な説明】
第1図は本発明の概略構成図、第2図は機能メニューの
表示例を示す図、第3図は本発明での文重要度判定部の
処理フロー図、第4図は接続関係による文重要度の関数
の例を示す図、第5図は本発明での話題抽出部の処理フ
ロー図、第6図は本発明を適用して文書の重要度・話題
を求めた例を示す図、第7図は文書の書式構造の例を示
す図、第8図は文書構造表示の対象選択の例を示す図、
第9図は書式構造表示の例を示す図、第10図は本発明
を適用して書式構造と共に文重要度・話題を表示した例
を示す図、第11図は本発明を適用した書式構造・文重
要度・話題の格納形式を示す図、第12図は本発明の文
書検索部の処理フローを示す図、第13図は本発明によ
る単語の関連語辞書の例を示す図、第14図は本発明の
キーワード抽出部の処理フローを示す図、第15図は本
発明によるキーワード抽出結果の表示例を示す図である
。 1・・・文書入力部、   2・・・制御部、3・・・
文重要度判定部、 4・・・話題抽圧部、5・・・処理
部、      6・・・文書構造抽出部、7・・・文
書検索部、   8・・・キーワード抽出部。 9・・・表示部。 第 図 第 図 第 図 第 図 第 図 第 図 (a) (b) 第 図 第 図 第 図 第 図 第 図

Claims (18)

    【特許請求の範囲】
  1. (1)文書を入力するための入力手段と、この入力手段
    より入力された文書を構成する各文の重要度を他の文と
    の関係により算出する文重要度判定手段と、前記入力手
    段より入力された文書に対して処理を行ないこの結果に
    前記文重要度判定手段より算出された重要度を用いて最
    終の処理結果を得る処理手段と、この処理手段により得
    られた最終の処理結果を出力する出力手段とを具備した
    ことを特徴とする文書処理システム。
  2. (2)文書を入力するための入力手段と、この入力手段
    より入力された文書を構成する文章から話題を抽出する
    話題抽出手段と、前記入力手段より入力された文書に対
    して処理を行ないこの結果に前記話題抽出手段より抽出
    された話題を用いて最終の処理結果を得る処理手段と、
    この処理手段より得られた最終の処理結果を出力する出
    力手段とを具備したことを特徴とする文書処理システム
  3. (3)処理手段は、文書内容の書式構造を抽出するもの
    である請求項1及び2記載の文書処理システム。
  4. (4)処理手段は、前記入力手段より入力された検索す
    べき単語情報に従って、文書中から該当する文章を検索
    するものである請求項1及び2記載の文書処理システム
  5. (5)処理手段は、文書中からキーワードを抽出するも
    のである請求項1及び2記載の文書処理システム。
  6. (6)文重要度判定手段は、文書を構成する各文に対し
    初期値を設定する手段と、各文に対し隣接する文との接
    続関係に従って該文の値の更新を順次行なう手段と、こ
    の手段に対し文書を構成する全ての文に対する値の更新
    を数回行なわせる手段とからなるものである請求項1記
    載の文書処理システム。
  7. (7)文重要度判定手段は、文書を構成する全ての文に
    ついて値が更新される毎に値の正規化を行なう手段を更
    に備えたものである請求項6記載の文書処理システム。
  8. (8)話題抽出手段は、文書を構成する各文について形
    態素解析を行なう手段と、各文の形態素解析結果に従っ
    て自立語を取り出す手段と、取り出された自立語から不
    要語を除去する手段とからなるものである請求項7記載
    の文書処理システム。
  9. (9)処理手段は、文書から題名、章名、節名等の書式
    構造を抽出する手段と、この抽出された書式構造と対応
    付けて各文の重要度を前記出力手段に出力させる手段と
    からなるものである請求項3記載の文書処理システム。
  10. (10)処理手段は、文書から題名、章名、節名等の書
    式構造を抽出する手段と、この抽出された書式構造と対
    応付けて話題を前記出力手段に出力させる手段とからな
    るものである請求項3記載の文書処理システム。
  11. (11)処理手段は、前記検索すべき単語の関連語が、
    検索された文章中又は該文章を含むパラグラフ中に存在
    する場合、該文章を検索結果として優先するものである
    請求項4記載の文書処理システム。
  12. (12)処理手段は、前記入力手段より検索すべき単語
    情報が指示されたとき、この単語を含んだ文章又はパラ
    グラフ中の話題を抽出し、この話題を前記検索すべき単
    語と共に検索対象とするものである請求項4記載の文書
    処理システム。
  13. (13)処理手段は、検索すべき単語と共に、その品詞
    変換を行なった単語を検索対象とするものである請求項
    4記載の文書処理システム。
  14. (14)処理手段は、検索された文の重要度が所定値以
    上の場合に該文を検索結果とするものである請求項4、
    11、12及び13記載の文書処理システム。
  15. (15)処理手段は、検索された文に対し検索すべき単
    語が話題として用いられている文を検索結果とするもの
    である請求項4、11、12及び13記載の文書処理シ
    ステム。
  16. (16)処理手段は、文書を構成する各文について形態
    素解析を行ない自立語を抽出する手段と、抽出された自
    立語に対して不要語を除去する手段と、残された自立語
    について文書中での頻度を計数し、低頻度及び極めて高
    頻度のものを除去する手段とから成るものである請求項
    5記載の文書処理システム。
  17. (17)処理手段は、低頻度及び極めて高頻度のものを
    除去した自立語に対し、これを含む文のパラグラフ内で
    の重要度が所定値以上の場合に該自立語をキーワードと
    するものである請求項16記載の文書処理システム。
  18. (18)処理手段は、低頻度及び極めて高頻度のものを
    除去した自立語に対し、これが該文中で話題とされてい
    る場合に該自立語をキーワードとするものである請求項
    16記載の文書処理システム。
JP12922690A 1990-05-21 1990-05-21 文書処理方法 Expired - Fee Related JP3691844B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP12922690A JP3691844B2 (ja) 1990-05-21 1990-05-21 文書処理方法
US07/702,809 US5257186A (en) 1990-05-21 1991-05-21 Digital computing apparatus for preparing document text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12922690A JP3691844B2 (ja) 1990-05-21 1990-05-21 文書処理方法

Publications (2)

Publication Number Publication Date
JPH0424869A true JPH0424869A (ja) 1992-01-28
JP3691844B2 JP3691844B2 (ja) 2005-09-07

Family

ID=15004275

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12922690A Expired - Fee Related JP3691844B2 (ja) 1990-05-21 1990-05-21 文書処理方法

Country Status (2)

Country Link
US (1) US5257186A (ja)
JP (1) JP3691844B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612447A (ja) * 1992-03-31 1994-01-21 Toshiba Corp 要約文章作成装置
JPH06195336A (ja) * 1992-12-24 1994-07-15 Fuji Xerox Co Ltd 文書編集方法及び文書編集装置
US5704270A (en) * 1995-05-18 1998-01-06 Aisin Seiki Kabushiki Kaisha Vacuum brake booster for automotive vehicle
JPH11272686A (ja) * 1998-03-19 1999-10-08 Nippon Telegr & Teleph Corp <Ntt> 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体
JP2005346485A (ja) * 2004-06-03 2005-12-15 Fuji Xerox Co Ltd 分類符号処理装置
JP2005346486A (ja) * 2004-06-03 2005-12-15 Fuji Xerox Co Ltd ドキュメント検索装置
JP2011039717A (ja) * 2009-08-10 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法および情報検索プログラム
JP2017068833A (ja) * 2015-09-29 2017-04-06 株式会社東芝 単一文書からのキーワード抽出装置及び方法

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754766A (en) * 1991-04-17 1998-05-19 Shaw; Venson M. Integrated circuit system for direct document execution
US5499329A (en) * 1992-04-30 1996-03-12 Ricoh Company, Ltd. Method and system to handle context of interpretation in a document processing language
EP0615201B1 (en) * 1993-03-12 2001-01-10 Kabushiki Kaisha Toshiba Document detection system using detection result presentation for facilitating user's comprehension
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system
US5642520A (en) * 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
US5640581A (en) * 1994-08-12 1997-06-17 Masashi Saraki CD-ROM information editing apparatus
US7467137B1 (en) 1994-09-02 2008-12-16 Wolfe Mark A System and method for information retrieval employing a preloading procedure
US6604103B1 (en) * 1994-09-02 2003-08-05 Mark A. Wolfe System and method for information retrieval employing a preloading procedure
US5671427A (en) * 1994-10-12 1997-09-23 Kabushiki Kaisha Toshiba Document editing apparatus using a table to link document portions
US5689716A (en) * 1995-04-14 1997-11-18 Xerox Corporation Automatic method of generating thematic summaries
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
US5887120A (en) 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US7302638B1 (en) * 1995-06-07 2007-11-27 Wolfe Mark A Efficiently displaying and researching information about the interrelationships between documents
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5701498A (en) * 1995-11-17 1997-12-23 International Business Machines Corporation Method and apparatus for a structured ASCII browser for online publications formatted in a bookmaster format
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
JP3254642B2 (ja) * 1996-01-11 2002-02-12 株式会社日立製作所 索引の表示方法
US6684188B1 (en) * 1996-02-02 2004-01-27 Geoffrey C Mitchell Method for production of medical records and other technical documents
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
JP3305191B2 (ja) * 1996-03-19 2002-07-22 富士通株式会社 文書管理装置及びデータ圧縮方法及びデータ復元方法
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US6006252A (en) * 1996-10-08 1999-12-21 Wolfe; Mark A. System and method for communicating information relating to a network resource
US5963969A (en) * 1997-05-08 1999-10-05 William A. Tidwell Document abstraction system and method thereof
US8626763B1 (en) 1997-05-22 2014-01-07 Google Inc. Server-side suggestion of preload operations
US7257604B1 (en) 1997-11-17 2007-08-14 Wolfe Mark A System and method for communicating information relating to a network resource
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6542888B2 (en) * 1997-11-26 2003-04-01 International Business Machines Corporation Content filtering for electronic documents generated in multiple foreign languages
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
US7130879B1 (en) * 1999-08-10 2006-10-31 Alexandre Dayon System for publishing, organizing, accessing and distributing information in a computer network
US6876991B1 (en) 1999-11-08 2005-04-05 Collaborative Decision Platforms, Llc. System, method and computer program product for a collaborative decision platform
US20020178190A1 (en) * 2001-05-22 2002-11-28 Allison Pope Systems and methods for integrating mainframe and client-server data into automatically generated business correspondence
US7487462B2 (en) 2002-02-21 2009-02-03 Xerox Corporation Methods and systems for indicating invisible contents of workspace
US7228507B2 (en) 2002-02-21 2007-06-05 Xerox Corporation Methods and systems for navigating a workspace
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
US7549114B2 (en) 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8990200B1 (en) 2009-10-02 2015-03-24 Flipboard, Inc. Topical search system
JP6099046B2 (ja) * 2013-06-11 2017-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置および方法
EP3789987A1 (en) 2019-09-05 2021-03-10 Obrizum Group Ltd. Tracking concepts and presenting content in a learning system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPS62229368A (ja) * 1986-03-29 1987-10-08 Toshiba Corp 文書処理装置
JPH01304575A (ja) * 1988-06-01 1989-12-08 Sharp Corp 文書処理装置
JPH02297157A (ja) * 1989-03-09 1990-12-07 Matsushita Electric Ind Co Ltd 文章要約装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4554631A (en) * 1983-07-13 1985-11-19 At&T Bell Laboratories Keyword search automatic limiting method
US4876655A (en) * 1985-12-02 1989-10-24 Tektronix, Inc. Method and apparatus for evaluating jitter
JPS6438866A (en) * 1987-08-05 1989-02-09 Hitachi Ltd Document editing device
JPH0244462A (ja) * 1988-08-05 1990-02-14 Nippon Telegr & Teleph Corp <Ntt> 自然言語処理装置
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US4955066A (en) * 1989-10-13 1990-09-04 Microsoft Corporation Compressing and decompressing text files

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPS62229368A (ja) * 1986-03-29 1987-10-08 Toshiba Corp 文書処理装置
JPH01304575A (ja) * 1988-06-01 1989-12-08 Sharp Corp 文書処理装置
JPH02297157A (ja) * 1989-03-09 1990-12-07 Matsushita Electric Ind Co Ltd 文章要約装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612447A (ja) * 1992-03-31 1994-01-21 Toshiba Corp 要約文章作成装置
JPH06195336A (ja) * 1992-12-24 1994-07-15 Fuji Xerox Co Ltd 文書編集方法及び文書編集装置
US5704270A (en) * 1995-05-18 1998-01-06 Aisin Seiki Kabushiki Kaisha Vacuum brake booster for automotive vehicle
JPH11272686A (ja) * 1998-03-19 1999-10-08 Nippon Telegr & Teleph Corp <Ntt> 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体
JP2005346485A (ja) * 2004-06-03 2005-12-15 Fuji Xerox Co Ltd 分類符号処理装置
JP2005346486A (ja) * 2004-06-03 2005-12-15 Fuji Xerox Co Ltd ドキュメント検索装置
JP4569178B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 分類符号処理装置
JP4569179B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 ドキュメント検索装置
JP2011039717A (ja) * 2009-08-10 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法および情報検索プログラム
JP2017068833A (ja) * 2015-09-29 2017-04-06 株式会社東芝 単一文書からのキーワード抽出装置及び方法

Also Published As

Publication number Publication date
US5257186A (en) 1993-10-26
JP3691844B2 (ja) 2005-09-07

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JPH03172966A (ja) 類似文書検索装置
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP2669601B2 (ja) 情報検索方法及びシステム
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0484271A (ja) 文書内情報検索装置
JP3596210B2 (ja) 関連語辞書作成装置
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0844771A (ja) 情報検索装置
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH06231178A (ja) 文書検索装置
JPH03132872A (ja) 索引情報生成装置
JPH0877196A (ja) 文書情報抽出装置
Moulay Lakhdar et al. Building an extractive Arabic text summarization using a hybrid approach
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002108894A (ja) 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
JP2001067364A (ja) 複合メディア検索方法および複合メディア検索用プログラム記録媒体
JPH11126204A (ja) 速読支援方法、文書検索方法およびその装置
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040401

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050519

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050617

LAPS Cancellation because of no payment of annual fees