JP3691844B2

JP3691844B2 - 文書処理方法

Info

Publication number: JP3691844B2
Application number: JP12922690A
Authority: JP
Inventors: 輝彦浮田; 一男住田; 聡木下
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1990-05-21
Filing date: 1990-05-21
Publication date: 2005-09-07
Anticipated expiration: 2020-09-07
Also published as: JPH0424869A; US5257186A

Description

〔発明の目的〕
（産業上の利用分野）
本発明は文書に対して構造抽出、文章検索、キーワード抽出等の処理を行なう文書処理方法に関する。
（従来の技術）
近年日本語ワードプロセッサ等の文書処理システムが普及することにより、文書処理の合理化が進み、誰でもが簡便に美しい文書を作成できるようになってきている。
しかし数ページ以上の文書を作成する場合やマニキュアル等の大規模な文書を作成する場合には、全体の構成の見通しが悪く、同じような内容を二重に記述してしまったり、全体として書くべき内容を見落としたりしてしまうことがあった。
この問題点を改良するためユーザが文書作成を行なっている時点で、作成済文書内容の構造を表示する方式が実現されている。ここでは文書の題名、章名、節名等の書式構造のみを表示する。しかしながら、これらは文書の表面上の特徴のみを示すものであり、文章の内容自体まで関わったものではない。従ってユーザはこの書式構造のみを見ても、文書を構成する各文章の内容自体を理解することが出来ず、いちいち全文書の詳細に渡って内容を確認する必要があった。
又、ユーザが文書作成している際、作成済文書から所望の文章のみを参照したい場合が生じる。この時ユーザは検索のキーとなる単語を指定し、この単語を含む文を検索するよう要求する。しかしながら、従来では指定された単語と単に表層上で一致がとれる文のみを検索結果としていた。従って、その単語を含んでいる文では有るが、内容的には殆ど無関係なものや、ユーザの全く意図しない文が検索されてしまう場合が生じた。つまりユーザの所望とする、重要なつぼを押さえた文章のみを検索することが出来なかった。
更に、所望の文章を検索するためには各文に適切なキーワードを付しておく必要がある。このため従来ではユーザが文書を構成する各文に対し、キーワードとなるべき単語を逐一指定する方式を採っていた。このためユーザにとってはキーワード付けの作業のみでも非常に手間がかかり、非効率的であった。
（発明が解決しようとする課題）
この様に従来の文書処理システムにおいては、作成済文書の内容を参照するのに単に書式構造のみを表示していたためユーザにとっては内容把握が難しい。又、単語を指定して所望の文章を検索する場合、単に表層上一致のとれる文章のみを検索していたため、内容的には無関係な文章も検索結果とされていた。更に検索のための文章のキーワード付けを、ユーザが逐一指定していたため手間がかかっていた。この様に文書編集を効率良く行なうための種々のサポート処理が、真にユーザにとって役立つものでは無いという問題点が有った。そこで本発明はこれら種々のサポート処理を文書の内容まで立ち入ったものとする事によりユーザが文書編集を効率良く行なえる文書処理方法を提供することを目的とする。
〔発明の構成〕
（課題を解決するための手段）
本発明による文書処理方法では、接続詞等の接続的な表現に対してそれぞれ数値を予め設定し、入力された文書から題名、章名、節名等の書式構造を抽出し、前記入力された文書を構成する各文の接続詞等の接続的な表現を抽出し、前記各文について重要度の初期値を設定し、前記重要度の初期値を設定した前記各文について、当該文の重要度、当該文の接続詞等の接続的な表現に対して予め設定された前記数値及び当該文の前方の文の重要度を用いて重要度の値を順次更新し、前記入力された文書の全ての文について、前記重要度の値を順次更新する処理を複数回行い、前記入力された文書の全ての文を前記書式構造と共に表示画面上に表示するために、各文の前記入力された文書内での相対位置と前記複数回行われた更新により得られた重要度とを前記書式構造の抽出結果に付加して出力することを特徴とする文書処理方法である。
（作用）
本発明では重要度を求めることにより、文書の表層上の特箪のみではなく、その内容にまでも評価尺度で表すことが出来る。また、話題を求めることにより各文の内容を真に反映したものが得られる。従って文書より書式構造を抽出して表示するときには各文の重要度、話題を合わせて表示することにより、ユーザは文書全体の構造がその内容まで含めて理解できる。又、文書中から所望の文を検索するときにも、検索指示された単語に真に関連する文のみを検索結果とするため、ユーザにとって不要な検索結果をいちいち確認する作業が大幅に削減される。更に文書を構成する各文に対し、真にその内容に関連する単語をキーワードとして抽出できるため、ユーザによるキーワード付け作業が省略できる。
（実施例）
以下図面を用いて本発明の一実施例を説明する。第１図は本発明の一実施例の文書処理システムの構成図である。先ず本システムの各構成部の動作の概略を説明する。文書入力部１より入力された文書データは制御部２を介して文重要度判定部３、話題抽出部４、処理部５へ送られる。ここで文重要度判定部３、話題抽出部４は本発明の特徴と言える機能を有する部分である。先ず文重要度判定部３では文書を構成する各文に対し隣接する他の文との関係に従って重要度を計算する。そして文書を構成する全ての文について重要度が求まると、この処理を数回繰り返す。又、話題抽出部４では文書を構成する各文に対し形態素解析、自立語抽出、不要語除去を行なって話題語を抽出する。これらの重要度、話題は夫々の文番号と対応付けられて制御部２へ送られる。制御部２は受け取った重要度、話題を対応する文番号と共に処理部５へ送る。処理部５は文書構造抽出部６、文書検索部７、キーワード抽出部８から成り、夫々が文の重要度、話題を受け取る。文書構造抽出部６では文書内容に対し題名・章名・節名等の表層上の書式構造を抽出する。そしてこの書式構造と文の重要度、話題を対応付けて制御部２へ送る。
文書検索部７では、文書入力部１より指示された検索単語に従い文書中から該当文を検索する。この検索結果に対し文の重要度、話題を参照して最終の検索結果を決定し、これを制御部２へ送る。
キーワード抽出部８では、文書を構成する各文に対しキーワードとなるべき単語を抽出する。この結果に対し文の重要度、話題を参照して真のキーワードを決定する。制御部２はこれら受けとった処理結果を表示部９へ送る。表示部９では、これらの処理結果をユーザの理解しやすい形式で表示する。
次にこれら各部の処理について詳細に説明する。
文書入力部１はキーボードやマウスから構成され、ユーザからの文書データや各種の編集指示を入力するためのものである。ここではＯＣＲやファクシミリを介して文書データを入力することも出来るし、図示しない外部記憶装置から一括入力しても良い。
ユーザは文書入力部１より第２図に示すメニューを表示し、そこから所望の処理を選択する。ここで構造抽出、検索、キーワード抽出が夫々選択されたときは文書構造抽出部６、文書検索部７、キーワード抽出部８が対応して起動する。又、編集が選択されたときは図示しない編集機能が起動される。
文重要度判定部３、話題抽出部４は上述した様に本発明の特徴となる部である。
文重要度判定部３では、文書を構成する各文の接続詞等の表現を使って文書中のパラグラフ内で重要な文を取り出す。まず文章の表現の中から接続的な表現を抽出する、いわゆる接続詞を抽出することになる。そして接続詞毎に決められた文間の重要性判定を行い、パラグラフ内で重要な文を逐次判定する。例えば、「だから」などで結合された二つの文がある場合は、前の文は後の文の理由を示しているので、重要な文は後の文であることが判断できる。これをパラグラフの最初の文から後方の文へ、２文づつ取り出して順次判定して行き、処理を繰り返すことによりパラグラフ全体の各文の重要度を判定できる。この過程をまとめたものが第３図である。
まず隣接する文間の接続関係を抽出する（ステップ301）。ここで接続詞が使用されていない場合には、後の文は単に文の展開になっているので、前方の文が後の文より重要性が高いと判定する。次に各文に初期値としてスコアαを配分する（ステップ302）。次に全ての文について、所定の回数だけ以下の繰り返し処理を行う（ステップ303,304）（ここでα_iによりパラグラフ内の第ｉ文のスコアを、またβ_iにより第ｉ文と第ｉ＋１文の間の接続関係を示す）。
第ｉ番目の文のスコアα_iを、隣接する文とその間の接続関係から決められる式により更新する（ステップ305）。
α_i′←α_i＋ｆ（β_i−１）・α_i−１
この式においてｆ（）は、接続関係β_i毎によって決められるもので、符号を持つ数値であり、例えば第４図のように決められる。このような連続的な値により文間の重要性を判定して前方の文のスコアを現時点の文のスコアに反映する役割を果たしている。また上記の式の他に下の様な式を用いて、前後の文から重要度を計算しても良いことは当然である。
α_i′←α_i＋ｆ（β_i−１）・α_i−１＋ｆ（β_i）・α_i＋１
この様な漸化式により、すべての文について所定の回数、例えば５回処理を繰り返すことにより、各文に対するスコアの順にパラグラフ内における文の重要性が順次得られることになる。この漸化式の計算過程において、繰り返し処理を全文に施したときにスコアの値が一様でなくなる場合がある。このときは、必要に応じて、繰り返し毎に次のようにしてスコアの正規化を行うようにすればよい。

ここでステップ303において、全ての文について所定の回数繰り返すのは、そのパラグラフ内における全ての文の内容の影響を各文にゆき渡らせて真に重要な文を発見するために、少なくとも５回程度計算を行なう必要があるからである。
次に話題抽出部４の処理について説明する。ここでは、まず文章が述べている話題の流れを取り出す。これは助詞の「は」などの表現から話題となっている言葉を取り出すことにより実行する。第５図にその処理方法を示す。まず入力された文章を形態素解析する（ステップ501）。これにより文を構成する単語とその品詞に区分される。例えば、
「登録方法には２種類あります」
という文の場合、
「名詞（登録方法）＋助詞（に）＋助詞（は）＋数詞（２）＋名詞（種類）＋動詞（あり）＋助動詞（ます）」
などのように解析される。次に助詞の「は、も」などの直前の言葉（自立語）を取り出すことにより話題提示表現を取り出す（ステップ502）。ここで話題を取り出すときの手がかりとして使う表現は、助詞や他の表現も含めて「は、も、とは、ときたら、といえば、こそ、さえ、しも」などである。この様にして話題となる表現が抽出できる。次に不要話題語辞書を参照して不要な語を除去する（ステップ503）。これは、「最近は」「この場合は」といったもので文章の内容と直接関連を持たない言葉を除去するものである。この話題抽出の処理により、パラグラフ内の詳細な文章の内容が把握できることになる。
第６図は実際の文書に対し話題抽出、文重要度判定を行なったときの処理結果を示すものである。先ず第６図（ａ）に示す７文から成る文書が入力されたとする。これに対し話題抽出部が上述した方法により第６図（ｂ）に示す様に適当な話題を抽出する。ここでは第１，２，５，７文中に助詞の「は」の直前の自立語があり、且つこれらは不要語では無い。従ってこれらは文内容を反映した適当な話題として抽出される。次に第６図（ｃ）は第６図（ａ）の７文に対し重要度計算を２回行なった例である。これら７文の接続詞としては「まず（２文と３文）、つまり（３文と４文）、このとき（４文と５文）、例えば（５文と６文）、もう一つ（６文と７文）」が挙げられる（１文と２文は接続詞無しの展開である）。これら接続詞の第４図の数値と各文の初期値を用いて１回目の重要度が夫々求められる。これを更に１回繰り返した結果、４文の重要度が2.1で最高である。つまりこの文書中では４文が内容的に重要なものとなっている。
次に本発明の処理部５を構成する文書構造抽出部６、文書検索部７、キーワード抽出部８の夫々について説明する。これらの各部は文書作成前、或いは作成中にユーザーがファンクションキーを押すことにより起動される。
先ず文書構造抽出部６では、その書式構造の抽出自体は従来より知られているものであるが、これを各文の重要度、話題とともに対応付け表示して、ユーザに文書内容自体を把握させ易くした点が特徴である。
ここで構造表示では、文書の書式構造抽出を行い、それを提示する。書式構造の抽出では、ODA（Office Document Archtecture）やハイパーテキストとして予め構造の一部が作成済みの文書の場合は、それを利用する。また作成中の文書の書式構造が取り出されていない場合は、次のようにして先ず、題名や章名などの構造を取り出す。題名は文書の第１行に示されているので容易に抽出できる。また章名などは通常数字と共に一つの行に書かれるので、数字の表現のパターンを準備することにより抽出できる。例えば、
「第Ｎ章ａｂｃ」，
「Ｎ．ａｂｃ」，
「［Ｎ］ａｂｃ」
などの表現（Ｎは数字）に対し文字列として照会が取れる表現から「ａｂｃ」の部分を取り出せば、章名（見出し）が得られる。また節名も同様にして抽出することができる。パラグラフは改行記号を検出することにより抽出することができる。第７図に書式構造の例を示す。この場合は、題目、著者、章見出し、パラグラフの順に書式的な構造が取り出される。
この書式構造抽出は、例えば特開昭62−229368号の手法を用いることにより容易に実現できる。
この文書構造抽出部６では、上述した様に現在作成中の文書のみならず、既に作成された文書のファイルに対しても実行できるようにすることは容易である。そのときには、第８図（ａ）（ｂ）に示すように、まず作成中文書か既に作成された他のファイルの文書かをまずマウスなどで選択し、続いて他のファイルが指示されれば、対象となるファイルの一覧を表示し、マウスで指示された文書を書式構造表示処理の対象とすればよい。この様に処理して書式構造を抽出した文書を編集の対象として、一部分を作成中の文章に転送したりできるのは当然である。
この文書構造抽出部６は、第９図に示す様に文書作成中のウィンドウとは異なったウィンドウを生成し、そこに文書の書式構造を表示する。ウィンドウの大きさの制約から全文書の書式構造の詳細な表示ができない場合は、題目、章名、節名、更にパラグラフ等のレベルを区別して表示し、マウスによる位置指定と詳細／概要の動作指定により順次細かなレベルを表示したり、逆に大きなレベルを表示するようにすれば良い。（第９図では文書の題目、章見出しのみを書式構造として表示している。）
本発明では、この書式構造に対応付けて、これが内包する各文章の重要度・話題を第10図に示す様にウィンドウ内に表示する。つまり上述した様に、文書構造抽出部は文書データ及びこの書式構造に対し、制御部２より送られた重要度・話題（これらは文番号と対で送られる）をその文番号を基に対応付けて制御部２へ返す。制御部２では表示部９へ第10の様に表示させる。ここで文書データ、書式構造、文重要度、話題は文書構造抽出部６内の図示しないメモリに、第11図に示す様に格納管理される。つまりメモリ内に題目テーブル、見出しテーブル、パラグラフテーブル、文重要度テーブル、話題テーブルを設置し、夫々をポインタ、文字位置に従って関連付けておく。この文字位置は該当する文章の先頭文字位置の、文書データの１文字目からカウントした物理位置であり、重要度・話題の場合は該当文のパラグラフ内での相対位置（パラグラフの場合はこれを含む見出し内の相対位置）と共に記憶される。
次に、文書検索部７について説明する。検索機能は文書内検索と既存文書検索の２種類に分かれるが、ここでは文書の検索方法の要点を説明する。既に示したように、従来の文書検索では、文字列として全く同一のものを照会するだけであり、表記が少しでも異なると検索できない欠点がある。更に、内容を全く判断せずに、検索してしまうために、膨大な候補が出現してしまい、希望する内容を判定するための利用者の手間が大きくなってしまう欠点があった。本発明における文書検索機能は、検索対象の文章の内容を考慮することにより、これらの欠点を補う方式である。
第12図にその処理フローを示す。検索モードには、単純検索、拡張検索、重要性判定検索、話題検索の４種類がある。まず単純検索を説明する。ここでは利用者が指示する単語を取り出す（ステップ1201,1202）。これは、マウスにより作成中の文章の一部を指示することにより実行する。或は単語を別途指示しても良いことは当然である。これにより検索すべき単語や文字列が指定される。指定された単語に従って、検索対象となる文書から文字列として一致する部分を捜し出す。この様にして、指示された単語が文字列として存在する文章が得られることになる（ステップ1203）。従来のテキスト検索ではこの時点で候補を表示し、処理をいったん終了し、次の検索指示により次の候補を検索していた。本発明では、得られた候補の文書部分の内容を判定し、順序づけることによりユーザに提示する。
まず重要性判定検索では、検索すべき単語の、その検索された文章の文書中での重要度を判定する（ステップ1205）。つまり制御部２より送られた各文の重要度を参照して、検索された文章が文書の中で（或いは該当パラグラフ中で）所定値より高い場合のみ、その文章を正式な検索結果とするものである。これにより重要度の低い文章は、検索すべき単語との内容的関連が低いと見なせるため（つまり検索すべき単語を説明したものでは無い）、最初から排除できる。また話題検索では、検索すべき単語が、その検索された文章中で話題として用いられている場合のみ、その文章を正式な検索結果とするものである（ステップ1206）。ここでも制御部２より送られた各文の話題を参照して決定する。これにより、検索すべき単語との関連性が真に強い（つまり検索すべき単語をキーとして説明している）文章のみを検索結果とすることができる。
更に検索するための単語を作成中の文書の中から指示したときには、その単語が使われている文章内で、関連する話題や類似の言葉などの情報を併用することができる。これを拡張検索と呼ぶ（ステップ1204）。ここでは検索のための単語を指示したとき、その単語が含まれている文章やパラグラフの話題を抽出し、その抽出された話題を検索すべき単語とともに検索対象とすることにより、全く無関係な分野の文書を誤って検索してしまう不具合を防ぐことができる。つまり検索すべき単語及び話題が両方とも含まれている文章を検索結果とすることにより、内容的にも関係の深い文章をユーザに呈示することができる。
また第13図のような単語間の意味的な関連語辞書を準備し、抽出した話題が関連する語を、その上位及び兄弟の所に位置するもの、更に子供から選ぶ。また「ワープロ」と「ワードプロセッサ」のように単に表記が異なるものも登録しておくことにより、意味は同じでも表記が異なるものまで関連語とできることになる。これら関連語が上述の指示単語とともに検索された文章、節、或はパラグラフに含まれている際には関連度が大きいとして、優先順位が高いと判定する。また必ずしも、話題を抽出するまでもなく、単に指示された単語と関連する語を関連語辞書から探しだし、それらが多く含まれる文章を優先的に出力することも可能である。これらの機能はそれぞれ任意の組合せをメニューなどにより指示できるようにできるのは当然である。
さらには、検索すべき単語の品詞を変換することにより関連語を余さず検索することも可能である。まず動詞や形容詞などの用言の述語を検索の単語とする場合は、それらを名詞化することにより検索すべき関連語を作り出してもよい。まず動詞の場合、サ変の動詞ならその語幹を取り出すことにより名詞が得られる。またその動詞が和語の場合には、別途用意されるテーブルにより名詞化すれば良い。例えば、「考える」という動詞の場合では、「考察」という単語を対応させることができる。和語の動詞は高々２−３千語であるので、変換テーブルも小規模のものですむ。これらは意味的な関連語辞書の内部に登録しておくことも可能である。形容詞の場合には、「美しい」に対して「語幹＋さ」という操作を施すことにより、「美しさ」を生成することができる。更に「美形」などの単語を関連語辞書の中で「美しい」の兄弟として登録できる。これらとは逆に、名詞が探索対象として指示されたときには、動詞や形容詞などの品詞の単語も含めて検索するようにすればよい。
こうして検索された文章は、文章構造抽出部６の場合と同様に、表示文書の横にウィンドウを１つ開き、ここに表示する（ステップ1207）。
次にキーワード抽出部８の処理を説明する。ここでは上述した話題抽出部４と同様に文中から重要な単語を抽出するが、これに全文書中の出現頻度、及び制御部２より送られた各文の重要度・話題を参照して真のキーワードを求める。第14図はその処理フローである。まず作成した文章の解析を行い、自立語を抽出する（ステップ1401）。これは形態素解析を行えば良く、文章に表れる単語の位置と品詞を認定することになる。次に名詞、動詞、形容詞等の自立語と判定された単語に対して、不要語辞書を調べ、不必要な単語を除外する（ステップ1402）。これは目的とする文書の内容に依存するが、非常に一般的な用語である「場合、時、部分、全体」などの単語をキーワードとして検出することを防ぐ。次に残った単語の文書中での出現回数を調べる（ステップ1403）。これにより頻度の極めて高いもの及び低いものは除外することができる。（頻度の極めて高いものは単なる一般語であることが多いため除外する。）
次に、重要度判定処理では、残った単語のそれぞれについて出現した文章の重要度を判定する。即ち、先に説明した、文のパラグラフ内での重要度判定を、キーワードの候補が含まれる文について行うことにより、文の重要度をもってそのキーワード候補の重要度とする。ここで全く重要度がない場合、すなわちある所定の値以下の重要度である場合には、その状況におけるキーワードの候補は無視するようにすれば良い（ステップ1404）。
話題提示表現フィルターでは、先の不要語が除去された後のキーワード候補が、その出現した文章において話題として取り上げられているかどうかを調べることにより、話題として取り上げられておらず内容が十分説明されていない場合を取り除くことになる（ステップ1405）。
これらの処理結果はそれぞれ利用者に提示され、利用者はその内から必要なものを適宜判定して選ぶことにより、文書中のインデックスを作成する（ステップ1406）。提示方法としては、第15図に示す様に抽出されたキーワードが、重要度判定や話題表現として認められているかのマークとその出現位置（Ｘ章、Ｙ章、第Ｚパラグラフ、第Ｎ行目等）とともに示せばよい。
また文の重要度判定結果から、重要な文からキーワードを抽出する方法として、文を解析することにより、各単語の品詞を取り出し、主要な構成要素である述語を取り出すことにより、その文のキーワードとすることも可能である。
〔発明の効果〕
本発明によれば文書処理システムにおいて文重要度判定部及び話題抽出部を備えたことにより、ユーザの必要とするサポート処理を文書内容まで立ち入ったものとする事が出来る。つまり文書構造表示では文書内容の重要な部分が一目で把握でき、文書検索ではユーザの所望する重要文が検索でき、更にキーワード抽出では各文の内容を真に反映したキーワードが抽出できる。従ってユーザはこれら文書内容まで立ち入ったサポート処理を参考にして本来の文書編集作業に専念することが出来、文書の作成や編集効率を格段に向上させることができる。
【図面の簡単な説明】
第１図は本発明の概略構成図、第２図は機能メニューの表示例を示す図、第３図は本発明での文重要度判定部の処理フロー図、第４図は接続関係による文重要度の関数の例を示す図、第５図は本発明での話題抽出部の処理フロー図、第６図は本発明を適用して文書の重要度・話題を求めた例を示す図、第７図は文書の書式構造の例を示す図、第８図は文書構造表示の対象選択の例を示す図、第９図は書式構造表示の例を示す図、第10図は本発明を適用して書式構造と共に文重要度・話題を表示した例を示す図、第11図は本発明を適用した書式構造・文重要度・話題の格納形式を示す図、第12図は本発明の文書検索部の処理フローを示す図、第13図は本発明による単語の関連語辞書の例を示す図、第14図は本発明のキーワード抽出部の処理フローを示す図、第15図は本発明によるキーワード抽出結果の表示例を示す図である。
１…文書入力部、２…制御部、
３…文重要度判定部、４…話題抽出部、
５…処理部、６…文書構造抽出部、
７…文書検索部、８…キーワード抽出部、
９…表示部。

Claims

接続詞等の接続的な表現に対してそれぞれ数値を予め設定し、
入力された文書から題名、章名、節名等の書式構造を抽出し、
前記入力された文書を構成する各文の接続詞等の接続的な表現を抽出し、
前記各文について重要度の初期値を設定し、
前記重要度の初期値を設定した前記各文について、当該文の重要度、当該文の接続詞等の接続的な表現に対して予め設定された前記数値及び当該文の前方の文の重要度を用いて重要度の値を順次更新し、
前記入力された文書の全ての文について、前記重要度の値を順次更新する処理を複数回行い、
前記入力された文書の全ての文を前記書式構造と共に表示画面上に表示するために、各文の前記入力された文書内での相対位置と前記複数回行われた更新により得られた重要度とを前記書式構造の抽出結果に付加して出力することを特徴とする文書処理方法。
入力された文書を構成する各文に対し形態素解析、自立語抽出、不要語除去を行って各文から話題を抽出し、
この抽出された該話題を、前記文書に対する前記書式構造の抽出結果に付加して出力することを特徴とする請求項１記載の文書処理方法。