JP3691844B2 - 文書処理方法 - Google Patents
文書処理方法 Download PDFInfo
- Publication number
- JP3691844B2 JP3691844B2 JP12922690A JP12922690A JP3691844B2 JP 3691844 B2 JP3691844 B2 JP 3691844B2 JP 12922690 A JP12922690 A JP 12922690A JP 12922690 A JP12922690 A JP 12922690A JP 3691844 B2 JP3691844 B2 JP 3691844B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- document
- importance
- word
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
(産業上の利用分野)
本発明は文書に対して構造抽出、文章検索、キーワード抽出等の処理を行なう文書処理方法に関する。
(従来の技術)
近年日本語ワードプロセッサ等の文書処理システムが普及することにより、文書処理の合理化が進み、誰でもが簡便に美しい文書を作成できるようになってきている。
しかし数ページ以上の文書を作成する場合やマニキュアル等の大規模な文書を作成する場合には、全体の構成の見通しが悪く、同じような内容を二重に記述してしまったり、全体として書くべき内容を見落としたりしてしまうことがあった。
この問題点を改良するためユーザが文書作成を行なっている時点で、作成済文書内容の構造を表示する方式が実現されている。ここでは文書の題名、章名、節名等の書式構造のみを表示する。しかしながら、これらは文書の表面上の特徴のみを示すものであり、文章の内容自体まで関わったものではない。従ってユーザはこの書式構造のみを見ても、文書を構成する各文章の内容自体を理解することが出来ず、いちいち全文書の詳細に渡って内容を確認する必要があった。
又、ユーザが文書作成している際、作成済文書から所望の文章のみを参照したい場合が生じる。この時ユーザは検索のキーとなる単語を指定し、この単語を含む文を検索するよう要求する。しかしながら、従来では指定された単語と単に表層上で一致がとれる文のみを検索結果としていた。従って、その単語を含んでいる文では有るが、内容的には殆ど無関係なものや、ユーザの全く意図しない文が検索されてしまう場合が生じた。つまりユーザの所望とする、重要なつぼを押さえた文章のみを検索することが出来なかった。
更に、所望の文章を検索するためには各文に適切なキーワードを付しておく必要がある。このため従来ではユーザが文書を構成する各文に対し、キーワードとなるべき単語を逐一指定する方式を採っていた。このためユーザにとってはキーワード付けの作業のみでも非常に手間がかかり、非効率的であった。
(発明が解決しようとする課題)
この様に従来の文書処理システムにおいては、作成済文書の内容を参照するのに単に書式構造のみを表示していたためユーザにとっては内容把握が難しい。又、単語を指定して所望の文章を検索する場合、単に表層上一致のとれる文章のみを検索していたため、内容的には無関係な文章も検索結果とされていた。更に検索のための文章のキーワード付けを、ユーザが逐一指定していたため手間がかかっていた。この様に文書編集を効率良く行なうための種々のサポート処理が、真にユーザにとって役立つものでは無いという問題点が有った。そこで本発明はこれら種々のサポート処理を文書の内容まで立ち入ったものとする事によりユーザが文書編集を効率良く行なえる文書処理方法を提供することを目的とする。
〔発明の構成〕
(課題を解決するための手段)
本発明による文書処理方法では、接続詞等の接続的な表現に対してそれぞれ数値を予め設定し、入力された文書から題名、章名、節名等の書式構造を抽出し、前記入力された文書を構成する各文の接続詞等の接続的な表現を抽出し、前記各文について重要度の初期値を設定し、前記重要度の初期値を設定した前記各文について、当該文の重要度、当該文の接続詞等の接続的な表現に対して予め設定された前記数値及び当該文の前方の文の重要度を用いて重要度の値を順次更新し、前記入力された文書の全ての文について、前記重要度の値を順次更新する処理を複数回行い、前記入力された文書の全ての文を前記書式構造と共に表示画面上に表示するために、各文の前記入力された文書内での相対位置と前記複数回行われた更新により得られた重要度とを前記書式構造の抽出結果に付加して出力することを特徴とする文書処理方法である。
(作用)
本発明では重要度を求めることにより、文書の表層上の特箪のみではなく、その内容にまでも評価尺度で表すことが出来る。また、話題を求めることにより各文の内容を真に反映したものが得られる。従って文書より書式構造を抽出して表示するときには各文の重要度、話題を合わせて表示することにより、ユーザは文書全体の構造がその内容まで含めて理解できる。又、文書中から所望の文を検索するときにも、検索指示された単語に真に関連する文のみを検索結果とするため、ユーザにとって不要な検索結果をいちいち確認する作業が大幅に削減される。更に文書を構成する各文に対し、真にその内容に関連する単語をキーワードとして抽出できるため、ユーザによるキーワード付け作業が省略できる。
(実施例)
以下図面を用いて本発明の一実施例を説明する。第1図は本発明の一実施例の文書処理システムの構成図である。先ず本システムの各構成部の動作の概略を説明する。文書入力部1より入力された文書データは制御部2を介して文重要度判定部3、話題抽出部4、処理部5へ送られる。ここで文重要度判定部3、話題抽出部4は本発明の特徴と言える機能を有する部分である。先ず文重要度判定部3では文書を構成する各文に対し隣接する他の文との関係に従って重要度を計算する。そして文書を構成する全ての文について重要度が求まると、この処理を数回繰り返す。又、話題抽出部4では文書を構成する各文に対し形態素解析、自立語抽出、不要語除去を行なって話題語を抽出する。これらの重要度、話題は夫々の文番号と対応付けられて制御部2へ送られる。制御部2は受け取った重要度、話題を対応する文番号と共に処理部5へ送る。処理部5は文書構造抽出部6、文書検索部7、キーワード抽出部8から成り、夫々が文の重要度、話題を受け取る。文書構造抽出部6では文書内容に対し題名・章名・節名等の表層上の書式構造を抽出する。そしてこの書式構造と文の重要度、話題を対応付けて制御部2へ送る。
文書検索部7では、文書入力部1より指示された検索単語に従い文書中から該当文を検索する。この検索結果に対し文の重要度、話題を参照して最終の検索結果を決定し、これを制御部2へ送る。
キーワード抽出部8では、文書を構成する各文に対しキーワードとなるべき単語を抽出する。この結果に対し文の重要度、話題を参照して真のキーワードを決定する。制御部2はこれら受けとった処理結果を表示部9へ送る。表示部9では、これらの処理結果をユーザの理解しやすい形式で表示する。
次にこれら各部の処理について詳細に説明する。
文書入力部1はキーボードやマウスから構成され、ユーザからの文書データや各種の編集指示を入力するためのものである。ここではOCRやファクシミリを介して文書データを入力することも出来るし、図示しない外部記憶装置から一括入力しても良い。
ユーザは文書入力部1より第2図に示すメニューを表示し、そこから所望の処理を選択する。ここで構造抽出、検索、キーワード抽出が夫々選択されたときは文書構造抽出部6、文書検索部7、キーワード抽出部8が対応して起動する。又、編集が選択されたときは図示しない編集機能が起動される。
文重要度判定部3、話題抽出部4は上述した様に本発明の特徴となる部である。
文重要度判定部3では、文書を構成する各文の接続詞等の表現を使って文書中のパラグラフ内で重要な文を取り出す。まず文章の表現の中から接続的な表現を抽出する、いわゆる接続詞を抽出することになる。そして接続詞毎に決められた文間の重要性判定を行い、パラグラフ内で重要な文を逐次判定する。例えば、「だから」などで結合された二つの文がある場合は、前の文は後の文の理由を示しているので、重要な文は後の文であることが判断できる。これをパラグラフの最初の文から後方の文へ、2文づつ取り出して順次判定して行き、処理を繰り返すことによりパラグラフ全体の各文の重要度を判定できる。この過程をまとめたものが第3図である。
まず隣接する文間の接続関係を抽出する(ステップ301)。ここで接続詞が使用されていない場合には、後の文は単に文の展開になっているので、前方の文が後の文より重要性が高いと判定する。次に各文に初期値としてスコアαを配分する(ステップ302)。次に全ての文について、所定の回数だけ以下の繰り返し処理を行う(ステップ303,304)(ここでαiによりパラグラフ内の第i文のスコアを、またβiにより第i文と第i+1文の間の接続関係を示す)。
第i番目の文のスコアαiを、隣接する文とその間の接続関係から決められる式により更新する(ステップ305)。
αi′←αi+f(βi−1)・αi−1
この式においてf()は、接続関係βi毎によって決められるもので、符号を持つ数値であり、例えば第4図のように決められる。このような連続的な値により文間の重要性を判定して前方の文のスコアを現時点の文のスコアに反映する役割を果たしている。また上記の式の他に下の様な式を用いて、前後の文から重要度を計算しても良いことは当然である。
αi′←αi+f(βi−1)・αi−1+f(βi)・αi+1
この様な漸化式により、すべての文について所定の回数、例えば5回処理を繰り返すことにより、各文に対するスコアの順にパラグラフ内における文の重要性が順次得られることになる。この漸化式の計算過程において、繰り返し処理を全文に施したときにスコアの値が一様でなくなる場合がある。このときは、必要に応じて、繰り返し毎に次のようにしてスコアの正規化を行うようにすればよい。
ここでステップ303において、全ての文について所定の回数繰り返すのは、そのパラグラフ内における全ての文の内容の影響を各文にゆき渡らせて真に重要な文を発見するために、少なくとも5回程度計算を行なう必要があるからである。
次に話題抽出部4の処理について説明する。ここでは、まず文章が述べている話題の流れを取り出す。これは助詞の「は」などの表現から話題となっている言葉を取り出すことにより実行する。第5図にその処理方法を示す。まず入力された文章を形態素解析する(ステップ501)。これにより文を構成する単語とその品詞に区分される。例えば、
「登録方法には2種類あります」
という文の場合、
「名詞(登録方法)+助詞(に)+助詞(は)+数詞(2)+名詞(種類)+動詞(あり)+助動詞(ます)」
などのように解析される。次に助詞の「は、も」などの直前の言葉(自立語)を取り出すことにより話題提示表現を取り出す(ステップ502)。ここで話題を取り出すときの手がかりとして使う表現は、助詞や他の表現も含めて「は、も、とは、ときたら、といえば、こそ、さえ、しも」などである。この様にして話題となる表現が抽出できる。次に不要話題語辞書を参照して不要な語を除去する(ステップ503)。これは、「最近は」「この場合は」といったもので文章の内容と直接関連を持たない言葉を除去するものである。この話題抽出の処理により、パラグラフ内の詳細な文章の内容が把握できることになる。
第6図は実際の文書に対し話題抽出、文重要度判定を行なったときの処理結果を示すものである。先ず第6図(a)に示す7文から成る文書が入力されたとする。これに対し話題抽出部が上述した方法により第6図(b)に示す様に適当な話題を抽出する。ここでは第1,2,5,7文中に助詞の「は」の直前の自立語があり、且つこれらは不要語では無い。従ってこれらは文内容を反映した適当な話題として抽出される。次に第6図(c)は第6図(a)の7文に対し重要度計算を2回行なった例である。これら7文の接続詞としては「まず(2文と3文)、つまり(3文と4文)、このとき(4文と5文)、例えば(5文と6文)、もう一つ(6文と7文)」が挙げられる(1文と2文は接続詞無しの展開である)。これら接続詞の第4図の数値と各文の初期値を用いて1回目の重要度が夫々求められる。これを更に1回繰り返した結果、4文の重要度が2.1で最高である。つまりこの文書中では4文が内容的に重要なものとなっている。
次に本発明の処理部5を構成する文書構造抽出部6、文書検索部7、キーワード抽出部8の夫々について説明する。これらの各部は文書作成前、或いは作成中にユーザーがファンクションキーを押すことにより起動される。
先ず文書構造抽出部6では、その書式構造の抽出自体は従来より知られているものであるが、これを各文の重要度、話題とともに対応付け表示して、ユーザに文書内容自体を把握させ易くした点が特徴である。
ここで構造表示では、文書の書式構造抽出を行い、それを提示する。書式構造の抽出では、ODA(Office Document Archtecture)やハイパーテキストとして予め構造の一部が作成済みの文書の場合は、それを利用する。また作成中の文書の書式構造が取り出されていない場合は、次のようにして先ず、題名や章名などの構造を取り出す。題名は文書の第1行に示されているので容易に抽出できる。また章名などは通常数字と共に一つの行に書かれるので、数字の表現のパターンを準備することにより抽出できる。例えば、
「第N章abc」,
「N.abc」,
「[N]abc」
などの表現(Nは数字)に対し文字列として照会が取れる表現から「abc」の部分を取り出せば、章名(見出し)が得られる。また節名も同様にして抽出することができる。パラグラフは改行記号を検出することにより抽出することができる。第7図に書式構造の例を示す。この場合は、題目、著者、章見出し、パラグラフの順に書式的な構造が取り出される。
この書式構造抽出は、例えば特開昭62−229368号の手法を用いることにより容易に実現できる。
この文書構造抽出部6では、上述した様に現在作成中の文書のみならず、既に作成された文書のファイルに対しても実行できるようにすることは容易である。そのときには、第8図(a)(b)に示すように、まず作成中文書か既に作成された他のファイルの文書かをまずマウスなどで選択し、続いて他のファイルが指示されれば、対象となるファイルの一覧を表示し、マウスで指示された文書を書式構造表示処理の対象とすればよい。この様に処理して書式構造を抽出した文書を編集の対象として、一部分を作成中の文章に転送したりできるのは当然である。
この文書構造抽出部6は、第9図に示す様に文書作成中のウィンドウとは異なったウィンドウを生成し、そこに文書の書式構造を表示する。ウィンドウの大きさの制約から全文書の書式構造の詳細な表示ができない場合は、題目、章名、節名、更にパラグラフ等のレベルを区別して表示し、マウスによる位置指定と詳細/概要の動作指定により順次細かなレベルを表示したり、逆に大きなレベルを表示するようにすれば良い。(第9図では文書の題目、章見出しのみを書式構造として表示している。)
本発明では、この書式構造に対応付けて、これが内包する各文章の重要度・話題を第10図に示す様にウィンドウ内に表示する。つまり上述した様に、文書構造抽出部は文書データ及びこの書式構造に対し、制御部2より送られた重要度・話題(これらは文番号と対で送られる)をその文番号を基に対応付けて制御部2へ返す。制御部2では表示部9へ第10の様に表示させる。ここで文書データ、書式構造、文重要度、話題は文書構造抽出部6内の図示しないメモリに、第11図に示す様に格納管理される。つまりメモリ内に題目テーブル、見出しテーブル、パラグラフテーブル、文重要度テーブル、話題テーブルを設置し、夫々をポインタ、文字位置に従って関連付けておく。この文字位置は該当する文章の先頭文字位置の、文書データの1文字目からカウントした物理位置であり、重要度・話題の場合は該当文のパラグラフ内での相対位置(パラグラフの場合はこれを含む見出し内の相対位置)と共に記憶される。
次に、文書検索部7について説明する。検索機能は文書内検索と既存文書検索の2種類に分かれるが、ここでは文書の検索方法の要点を説明する。既に示したように、従来の文書検索では、文字列として全く同一のものを照会するだけであり、表記が少しでも異なると検索できない欠点がある。更に、内容を全く判断せずに、検索してしまうために、膨大な候補が出現してしまい、希望する内容を判定するための利用者の手間が大きくなってしまう欠点があった。本発明における文書検索機能は、検索対象の文章の内容を考慮することにより、これらの欠点を補う方式である。
第12図にその処理フローを示す。検索モードには、単純検索、拡張検索、重要性判定検索、話題検索の4種類がある。まず単純検索を説明する。ここでは利用者が指示する単語を取り出す(ステップ1201,1202)。これは、マウスにより作成中の文章の一部を指示することにより実行する。或は単語を別途指示しても良いことは当然である。これにより検索すべき単語や文字列が指定される。指定された単語に従って、検索対象となる文書から文字列として一致する部分を捜し出す。この様にして、指示された単語が文字列として存在する文章が得られることになる(ステップ1203)。従来のテキスト検索ではこの時点で候補を表示し、処理をいったん終了し、次の検索指示により次の候補を検索していた。本発明では、得られた候補の文書部分の内容を判定し、順序づけることによりユーザに提示する。
まず重要性判定検索では、検索すべき単語の、その検索された文章の文書中での重要度を判定する(ステップ1205)。つまり制御部2より送られた各文の重要度を参照して、検索された文章が文書の中で(或いは該当パラグラフ中で)所定値より高い場合のみ、その文章を正式な検索結果とするものである。これにより重要度の低い文章は、検索すべき単語との内容的関連が低いと見なせるため(つまり検索すべき単語を説明したものでは無い)、最初から排除できる。また話題検索では、検索すべき単語が、その検索された文章中で話題として用いられている場合のみ、その文章を正式な検索結果とするものである(ステップ1206)。ここでも制御部2より送られた各文の話題を参照して決定する。これにより、検索すべき単語との関連性が真に強い(つまり検索すべき単語をキーとして説明している)文章のみを検索結果とすることができる。
更に検索するための単語を作成中の文書の中から指示したときには、その単語が使われている文章内で、関連する話題や類似の言葉などの情報を併用することができる。これを拡張検索と呼ぶ(ステップ1204)。ここでは検索のための単語を指示したとき、その単語が含まれている文章やパラグラフの話題を抽出し、その抽出された話題を検索すべき単語とともに検索対象とすることにより、全く無関係な分野の文書を誤って検索してしまう不具合を防ぐことができる。つまり検索すべき単語及び話題が両方とも含まれている文章を検索結果とすることにより、内容的にも関係の深い文章をユーザに呈示することができる。
また第13図のような単語間の意味的な関連語辞書を準備し、抽出した話題が関連する語を、その上位及び兄弟の所に位置するもの、更に子供から選ぶ。また「ワープロ」と「ワードプロセッサ」のように単に表記が異なるものも登録しておくことにより、意味は同じでも表記が異なるものまで関連語とできることになる。これら関連語が上述の指示単語とともに検索された文章、節、或はパラグラフに含まれている際には関連度が大きいとして、優先順位が高いと判定する。また必ずしも、話題を抽出するまでもなく、単に指示された単語と関連する語を関連語辞書から探しだし、それらが多く含まれる文章を優先的に出力することも可能である。これらの機能はそれぞれ任意の組合せをメニューなどにより指示できるようにできるのは当然である。
さらには、検索すべき単語の品詞を変換することにより関連語を余さず検索することも可能である。まず動詞や形容詞などの用言の述語を検索の単語とする場合は、それらを名詞化することにより検索すべき関連語を作り出してもよい。まず動詞の場合、サ変の動詞ならその語幹を取り出すことにより名詞が得られる。またその動詞が和語の場合には、別途用意されるテーブルにより名詞化すれば良い。例えば、「考える」という動詞の場合では、「考察」という単語を対応させることができる。和語の動詞は高々2−3千語であるので、変換テーブルも小規模のものですむ。これらは意味的な関連語辞書の内部に登録しておくことも可能である。形容詞の場合には、「美しい」に対して「語幹+さ」という操作を施すことにより、「美しさ」を生成することができる。更に「美形」などの単語を関連語辞書の中で「美しい」の兄弟として登録できる。これらとは逆に、名詞が探索対象として指示されたときには、動詞や形容詞などの品詞の単語も含めて検索するようにすればよい。
こうして検索された文章は、文章構造抽出部6の場合と同様に、表示文書の横にウィンドウを1つ開き、ここに表示する(ステップ1207)。
次にキーワード抽出部8の処理を説明する。ここでは上述した話題抽出部4と同様に文中から重要な単語を抽出するが、これに全文書中の出現頻度、及び制御部2より送られた各文の重要度・話題を参照して真のキーワードを求める。第14図はその処理フローである。まず作成した文章の解析を行い、自立語を抽出する(ステップ1401)。これは形態素解析を行えば良く、文章に表れる単語の位置と品詞を認定することになる。次に名詞、動詞、形容詞等の自立語と判定された単語に対して、不要語辞書を調べ、不必要な単語を除外する(ステップ1402)。これは目的とする文書の内容に依存するが、非常に一般的な用語である「場合、時、部分、全体」などの単語をキーワードとして検出することを防ぐ。次に残った単語の文書中での出現回数を調べる(ステップ1403)。これにより頻度の極めて高いもの及び低いものは除外することができる。(頻度の極めて高いものは単なる一般語であることが多いため除外する。)
次に、重要度判定処理では、残った単語のそれぞれについて出現した文章の重要度を判定する。即ち、先に説明した、文のパラグラフ内での重要度判定を、キーワードの候補が含まれる文について行うことにより、文の重要度をもってそのキーワード候補の重要度とする。ここで全く重要度がない場合、すなわちある所定の値以下の重要度である場合には、その状況におけるキーワードの候補は無視するようにすれば良い(ステップ1404)。
話題提示表現フィルターでは、先の不要語が除去された後のキーワード候補が、その出現した文章において話題として取り上げられているかどうかを調べることにより、話題として取り上げられておらず内容が十分説明されていない場合を取り除くことになる(ステップ1405)。
これらの処理結果はそれぞれ利用者に提示され、利用者はその内から必要なものを適宜判定して選ぶことにより、文書中のインデックスを作成する(ステップ1406)。提示方法としては、第15図に示す様に抽出されたキーワードが、重要度判定や話題表現として認められているかのマークとその出現位置(X章、Y章、第Zパラグラフ、第N行目等)とともに示せばよい。
また文の重要度判定結果から、重要な文からキーワードを抽出する方法として、文を解析することにより、各単語の品詞を取り出し、主要な構成要素である述語を取り出すことにより、その文のキーワードとすることも可能である。
〔発明の効果〕
本発明によれば文書処理システムにおいて文重要度判定部及び話題抽出部を備えたことにより、ユーザの必要とするサポート処理を文書内容まで立ち入ったものとする事が出来る。つまり文書構造表示では文書内容の重要な部分が一目で把握でき、文書検索ではユーザの所望する重要文が検索でき、更にキーワード抽出では各文の内容を真に反映したキーワードが抽出できる。従ってユーザはこれら文書内容まで立ち入ったサポート処理を参考にして本来の文書編集作業に専念することが出来、文書の作成や編集効率を格段に向上させることができる。
【図面の簡単な説明】
第1図は本発明の概略構成図、第2図は機能メニューの表示例を示す図、第3図は本発明での文重要度判定部の処理フロー図、第4図は接続関係による文重要度の関数の例を示す図、第5図は本発明での話題抽出部の処理フロー図、第6図は本発明を適用して文書の重要度・話題を求めた例を示す図、第7図は文書の書式構造の例を示す図、第8図は文書構造表示の対象選択の例を示す図、第9図は書式構造表示の例を示す図、第10図は本発明を適用して書式構造と共に文重要度・話題を表示した例を示す図、第11図は本発明を適用した書式構造・文重要度・話題の格納形式を示す図、第12図は本発明の文書検索部の処理フローを示す図、第13図は本発明による単語の関連語辞書の例を示す図、第14図は本発明のキーワード抽出部の処理フローを示す図、第15図は本発明によるキーワード抽出結果の表示例を示す図である。
1…文書入力部、 2…制御部、
3…文重要度判定部、 4…話題抽出部、
5…処理部、 6…文書構造抽出部、
7…文書検索部、 8…キーワード抽出部、
9…表示部。
Claims (2)
- 接続詞等の接続的な表現に対してそれぞれ数値を予め設定し、
入力された文書から題名、章名、節名等の書式構造を抽出し、
前記入力された文書を構成する各文の接続詞等の接続的な表現を抽出し、
前記各文について重要度の初期値を設定し、
前記重要度の初期値を設定した前記各文について、当該文の重要度、当該文の接続詞等の接続的な表現に対して予め設定された前記数値及び当該文の前方の文の重要度を用いて重要度の値を順次更新し、
前記入力された文書の全ての文について、前記重要度の値を順次更新する処理を複数回行い、
前記入力された文書の全ての文を前記書式構造と共に表示画面上に表示するために、各文の前記入力された文書内での相対位置と前記複数回行われた更新により得られた重要度とを前記書式構造の抽出結果に付加して出力することを特徴とする文書処理方法。 - 入力された文書を構成する各文に対し形態素解析、自立語抽出、不要語除去を行って各文から話題を抽出し、
この抽出された該話題を、前記文書に対する前記書式構造の抽出結果に付加して出力することを特徴とする請求項1記載の文書処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12922690A JP3691844B2 (ja) | 1990-05-21 | 1990-05-21 | 文書処理方法 |
US07/702,809 US5257186A (en) | 1990-05-21 | 1991-05-21 | Digital computing apparatus for preparing document text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12922690A JP3691844B2 (ja) | 1990-05-21 | 1990-05-21 | 文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0424869A JPH0424869A (ja) | 1992-01-28 |
JP3691844B2 true JP3691844B2 (ja) | 2005-09-07 |
Family
ID=15004275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12922690A Expired - Fee Related JP3691844B2 (ja) | 1990-05-21 | 1990-05-21 | 文書処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5257186A (ja) |
JP (1) | JP3691844B2 (ja) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754766A (en) * | 1991-04-17 | 1998-05-19 | Shaw; Venson M. | Integrated circuit system for direct document execution |
JPH0612447A (ja) * | 1992-03-31 | 1994-01-21 | Toshiba Corp | 要約文章作成装置 |
US5499329A (en) * | 1992-04-30 | 1996-03-12 | Ricoh Company, Ltd. | Method and system to handle context of interpretation in a document processing language |
JPH06195336A (ja) * | 1992-12-24 | 1994-07-15 | Fuji Xerox Co Ltd | 文書編集方法及び文書編集装置 |
DE69426541T2 (de) * | 1993-03-12 | 2001-06-13 | Toshiba Kawasaki Kk | Dokumentdetektionssystem mit Darstellung des Detektionsresultats zur Erleichterung des Verständnis des Benutzers |
US5384703A (en) * | 1993-07-02 | 1995-01-24 | Xerox Corporation | Method and apparatus for summarizing documents according to theme |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
US5642520A (en) * | 1993-12-07 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for recognizing topic structure of language data |
US5640581A (en) * | 1994-08-12 | 1997-06-17 | Masashi Saraki | CD-ROM information editing apparatus |
US6604103B1 (en) * | 1994-09-02 | 2003-08-05 | Mark A. Wolfe | System and method for information retrieval employing a preloading procedure |
US7467137B1 (en) | 1994-09-02 | 2008-12-16 | Wolfe Mark A | System and method for information retrieval employing a preloading procedure |
US5671427A (en) * | 1994-10-12 | 1997-09-23 | Kabushiki Kaisha Toshiba | Document editing apparatus using a table to link document portions |
US5689716A (en) * | 1995-04-14 | 1997-11-18 | Xerox Corporation | Automatic method of generating thematic summaries |
JP3528321B2 (ja) * | 1995-05-18 | 2004-05-17 | アイシン精機株式会社 | 負圧式倍力装置 |
US5887120A (en) | 1995-05-31 | 1999-03-23 | Oracle Corporation | Method and apparatus for determining theme for discourse |
US5708822A (en) * | 1995-05-31 | 1998-01-13 | Oracle Corporation | Methods and apparatus for thematic parsing of discourse |
US7302638B1 (en) * | 1995-06-07 | 2007-11-27 | Wolfe Mark A | Efficiently displaying and researching information about the interrelationships between documents |
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
US5701498A (en) * | 1995-11-17 | 1997-12-23 | International Business Machines Corporation | Method and apparatus for a structured ASCII browser for online publications formatted in a bookmaster format |
US5850476A (en) * | 1995-12-14 | 1998-12-15 | Xerox Corporation | Automatic method of identifying drop words in a document image without performing character recognition |
US5848191A (en) * | 1995-12-14 | 1998-12-08 | Xerox Corporation | Automatic method of generating thematic summaries from a document image without performing character recognition |
US5892842A (en) * | 1995-12-14 | 1999-04-06 | Xerox Corporation | Automatic method of identifying sentence boundaries in a document image |
JP3254642B2 (ja) * | 1996-01-11 | 2002-02-12 | 株式会社日立製作所 | 索引の表示方法 |
US6684188B1 (en) * | 1996-02-02 | 2004-01-27 | Geoffrey C Mitchell | Method for production of medical records and other technical documents |
US6098034A (en) * | 1996-03-18 | 2000-08-01 | Expert Ease Development, Ltd. | Method for standardizing phrasing in a document |
JP3305191B2 (ja) * | 1996-03-19 | 2002-07-22 | 富士通株式会社 | 文書管理装置及びデータ圧縮方法及びデータ復元方法 |
US6457004B1 (en) | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US6006252A (en) * | 1996-10-08 | 1999-12-21 | Wolfe; Mark A. | System and method for communicating information relating to a network resource |
US5963969A (en) * | 1997-05-08 | 1999-10-05 | William A. Tidwell | Document abstraction system and method thereof |
US8626763B1 (en) | 1997-05-22 | 2014-01-07 | Google Inc. | Server-side suggestion of preload operations |
US7257604B1 (en) | 1997-11-17 | 2007-08-14 | Wolfe Mark A | System and method for communicating information relating to a network resource |
US6353824B1 (en) * | 1997-11-18 | 2002-03-05 | Apple Computer, Inc. | Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments |
US6542888B2 (en) * | 1997-11-26 | 2003-04-01 | International Business Machines Corporation | Content filtering for electronic documents generated in multiple foreign languages |
JPH11272686A (ja) * | 1998-03-19 | 1999-10-08 | Nippon Telegr & Teleph Corp <Ntt> | 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体 |
US6473730B1 (en) * | 1999-04-12 | 2002-10-29 | The Trustees Of Columbia University In The City Of New York | Method and system for topical segmentation, segment significance and segment function |
US7130879B1 (en) * | 1999-08-10 | 2006-10-31 | Alexandre Dayon | System for publishing, organizing, accessing and distributing information in a computer network |
US6876991B1 (en) | 1999-11-08 | 2005-04-05 | Collaborative Decision Platforms, Llc. | System, method and computer program product for a collaborative decision platform |
US20020178190A1 (en) * | 2001-05-22 | 2002-11-28 | Allison Pope | Systems and methods for integrating mainframe and client-server data into automatically generated business correspondence |
US8370761B2 (en) * | 2002-02-21 | 2013-02-05 | Xerox Corporation | Methods and systems for interactive classification of objects |
US7549114B2 (en) | 2002-02-21 | 2009-06-16 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US7228507B2 (en) | 2002-02-21 | 2007-06-05 | Xerox Corporation | Methods and systems for navigating a workspace |
US7650562B2 (en) * | 2002-02-21 | 2010-01-19 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US7487462B2 (en) | 2002-02-21 | 2009-02-03 | Xerox Corporation | Methods and systems for indicating invisible contents of workspace |
JP4569178B2 (ja) * | 2004-06-03 | 2010-10-27 | 富士ゼロックス株式会社 | 分類符号処理装置 |
JP4569179B2 (ja) * | 2004-06-03 | 2010-10-27 | 富士ゼロックス株式会社 | ドキュメント検索装置 |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
WO2009048130A1 (ja) * | 2007-10-12 | 2009-04-16 | Nec Corporation | 文書重要度算出システム、文書重要度算出方法およびプログラム |
JP5412903B2 (ja) * | 2009-03-17 | 2014-02-12 | コニカミノルタ株式会社 | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
JP2011039717A (ja) * | 2009-08-10 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法および情報検索プログラム |
US8990200B1 (en) * | 2009-10-02 | 2015-03-24 | Flipboard, Inc. | Topical search system |
JP6099046B2 (ja) * | 2013-06-11 | 2017-03-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置および方法 |
CN106557460A (zh) * | 2015-09-29 | 2017-04-05 | 株式会社东芝 | 从单文档中提取关键词的装置及方法 |
US11915614B2 (en) | 2019-09-05 | 2024-02-27 | Obrizum Group Ltd. | Tracking concepts and presenting content in a learning system |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
JPS61117658A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文章抄録装置 |
US4876655A (en) * | 1985-12-02 | 1989-10-24 | Tektronix, Inc. | Method and apparatus for evaluating jitter |
JPH0823864B2 (ja) * | 1986-03-29 | 1996-03-06 | 株式会社東芝 | 見出し判定方法 |
JPS6438866A (en) * | 1987-08-05 | 1989-02-09 | Hitachi Ltd | Document editing device |
JPH0782497B2 (ja) * | 1988-06-01 | 1995-09-06 | シャープ株式会社 | 文書処理装置 |
JPH0244462A (ja) * | 1988-08-05 | 1990-02-14 | Nippon Telegr & Teleph Corp <Ntt> | 自然言語処理装置 |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
JP2638187B2 (ja) * | 1989-03-09 | 1997-08-06 | 松下電器産業株式会社 | 文章要約装置 |
US4955066A (en) * | 1989-10-13 | 1990-09-04 | Microsoft Corporation | Compressing and decompressing text files |
-
1990
- 1990-05-21 JP JP12922690A patent/JP3691844B2/ja not_active Expired - Fee Related
-
1991
- 1991-05-21 US US07/702,809 patent/US5257186A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0424869A (ja) | 1992-01-28 |
US5257186A (en) | 1993-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3691844B2 (ja) | 文書処理方法 | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JPH0418673A (ja) | テキスト情報抽出方法および装置 | |
JPH03172966A (ja) | 類似文書検索装置 | |
JP2669601B2 (ja) | 情報検索方法及びシステム | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4935243B2 (ja) | 検索プログラム、情報検索装置及び情報検索方法 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH09198395A (ja) | 文書検索装置 | |
JP3767763B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH08329108A (ja) | テキストのハイパーテキスト化方法 | |
JPH1145252A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JPH06231178A (ja) | 文書検索装置 | |
JP4000332B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3851712B2 (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH07134720A (ja) | 文章作成システムにおける関連情報提示方法及び装置 | |
JPH11126204A (ja) | 速読支援方法、文書検索方法およびその装置 | |
JP2002132789A (ja) | 文書検索方法 | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4138048B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH1145251A (ja) | 検索機能を用いた情報分析支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040401 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050415 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050519 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050617 |
|
LAPS | Cancellation because of no payment of annual fees |