JP3580004B2

JP3580004B2 - 文書処理装置および文書処理方法

Info

Publication number: JP3580004B2
Application number: JP01553596A
Authority: JP
Inventors: 仁樹京嶋
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1996-01-31
Filing date: 1996-01-31
Publication date: 2004-10-20
Anticipated expiration: 2016-01-31
Also published as: JPH09212492A

Description

【０００１】
【発明の属する技術分野】
本発明は利用者に提供すべき文書の作成を補助する文書処理装置および文書処理方法に関し、特に所定の用語に対する利用者の理解度を個別に管理している文書処理装置および文書処理方法に関する。
【０００２】
【従来の技術】
人間の情報伝達において文書が果たす役割は大きい。人間の知的活動の結果を保存して、後の他の人間の用に供するための手段として、文書の形にしておくのはもっともポピュラーな手段である。また、日々のコミュニケーションにおいても、昨今は電子メールという電子的な文書を利用して行われる事が多い。
【０００３】
ところが、このような文書による情報伝達には、文書の作成者が持つ知識と、文書の利用者が持つ知識との違いから、ミスコミュニケーションがもたらされ、文書作成者と利用者との相互にかかる負荷が増大するという大きな問題がある。例えば、文書の利用者が文書を読む場合に、文書中にある専門用語の定義や関連する情報を知らず、文書の内容を充分に理解できないことは頻繁に起こる。その結果、文書の内容についての価値を正確に判断できず、重要な情報を見逃してしまうことは多い。また、文書の内容を誤解し、その後の行動に支障をきたす事もある。このような、ミスコミュニケーションを防ぐためには、利用者は、文書作成者あるいは、文書作成者と同様の知識をもつ別人に種々の問合せを行わなければならず、これは文書作成者／利用者双方にとって大きな負荷になる。
【０００４】
そこで、文書の作成者は、ミスコミュニケーションや文書の利用者に必要以上の負荷がかかることを防ぐために、文書の利用者の知識レベルを想定して、用語を選択したり、用語の定義や関連情報を文書に追加したりする。したがって、文書の作成者と利用者の共有する知識が少ないほど、より多くの情報を文書に載せねばならず、文書作成者の大きな負荷となっている。
【０００５】
また、文書の利用者が多い場合、利用者の持つ知識は様々であり、文書作成者は、利用者毎に利用者に理解可能な文書を作るとか、あるいは、利用者に多いと思われる知識のレベルを想定して、そのレベルに合わせた単一の文書を作成することになる。ただし、前者の場合は、同じ情報を伝えるのに複数の文書を作成するという負荷を作成者に負わせる事になる。後者の場合は、文書作成者と多くの知識を共有している文書利用者には、不必要な情報が多い冗長な文章となり、読むのに必要以上に時間がかかる。逆に、文書作成者が想定したレベルの知識を持たない文書利用者にとっては充分理解できない文書になる。
【０００６】
このような、問題点を解消するために、特開平７−９３３３４号公報に開示された発明では、利用者が持つ単語の既知未知の状態を計算機がシミュレートし、文書中の単語のうち利用者が知らない単語を自動的に判別するステップと、前記未知の単語に利用者が知っている同義語を自動的に補足するステップと、前記同義語を補足した文書を自動的に表示するステップとからなる文書処理方法が示されている。
【０００７】
また、前記の公報には、利用者が持つ単語の既知未知の状態を計算機がシミュレートし、文書中の単語のうち利用者が知らない単語を自動的に判別する手段と、前記未知の単語に利用者が知っている同義語を自動的に補足する手段と、前記同義語を補足した文書を自動的に表示する手段と、を備えた文書処理装置も開示されている。
【０００８】
このような文書処理方法及び文書処理装置によって、文書利用者毎に、文書の利用者の知らない用語に文書の利用者が知っている同義語を自動的に付加する事で、文書の利用者の理解を助け、さらには、文書の作成者の負担を軽減している。
【０００９】
【発明が解決しようとする課題】
しかし、特開平７−９３３３４号公報に開示されたシステムでは、計算機上にシミュレートした利用者の単語の既知未知の状態は、システムの利用につれて徐々に利用者の実際の知識の状態を反映したものに近づいていく。したがって、このシステムは、比較的初期の状態には、利用者の状態に適合した同義語の付加ができず、ある程度以上使用しなければ、利用者に利益をもたらさない。
【００１０】
しかも、利用者の使う単語は少なくとも数万のオーダーの数にのぼり、これらの単語の既知未知の状態が利用者の実際のものと一致するには、非常に長い時間が必要になる。よって、システムが利用者に利益をもたらすようになるまで、利用者がシステムを使う意欲が継続せず、効果をまったく発揮せずに、使用されなくなる。
【００１１】
本発明はこのような点に鑑みてなされたものであり、知識状態の情報量の少ない利用者の知識状態を予測できる文書処理装置および文書処理方法を提供することを目的とする。
【００１２】
【課題を解決するための手段】
図１は本発明の原理構成図である。本発明では上記課題を解決するために、利用者に提供すべき文書の作成を補助する文書処理装置において、利用者毎に複数の用語と各用語の理解度から成る知識状態を記憶して管理する知識状態管理手段と、複数の利用者の前記知識状態を参照し、利用者を複数の集団に分類するための分類軸となる用語を決定する分類軸決定手段２と、前記分類軸となる用語に対する前記複数の利用者それぞれの理解度により前記知識状態を複数の集団に分類し、前記分類軸となる用語に対する予測対象者の理解度から、前記予測対象者の属する集団を決定する分類手段３と、前記予測対象者と同じ集団内の他の利用者の前記知識状態に基づき、前記予測対象者の前記知識状態の典型例を作成し、前記典型例を前記予測対象者の前記知識状態へ反映する典型例作成手段４と、を有することを特徴とする文書処理装置が提供される。
【００１３】
この構成によれば、分類軸決定手段２により、複数の利用者の知識状態が参照され、利用者を複数の集団に分類するための分類軸となる用語が定められる。次いで、分類手段３により、分類軸となる用語に対する予測対象者の知識状態から、予測対象者の属する集団が決定される。そして、典型例作成手段４により、予測対象者と同じ集団内の他の利用者の知識状態に基づき、予測対象者の知識状態の典型例が作成され、典型例が予測対象者の知識状態へ反映される。
【００１４】
これにより、その予測結果は、予測対象者の実際の知識状態と近いものとなる。
【００１５】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
図１は本発明の原理構成図である。複数の利用者の知識状態が知識状態管理手段１ａ〜１ｃでシミュレートされている。分類軸決定手段２は、知識状態管理手段１ａ〜１ｃ内の各利用者の知識状態を参照し、利用者を複数の集団に分類するための分類軸となる用語を決定する。分類手段３は、分類軸となる用語に対する予測対象者の知識状態から、予測対象者の属する集団を決定する。典型例作成手段４は、予測対象者と同じ集団内の他の利用者の知識状態に基づき、予測対象者の知識状態の典型例を作成し、その典型例を、予測対象者の知識状態を管理している知識状態管理手段５へ反映させる。
【００１６】
このような構成により、例えば、分類軸決定手段２が、「ＣＰＵ」と「ＶＯＤ」との２つの用語を分類軸として決定すると、分類手段３は予測対象者の「ＣＰＵ」と「ＶＯＤ」とに対する知識の入力を受け付ける。ここでは、「ＣＰＵ」は既知であり、「ＶＯＤ」は未知であったものとする。すると、典型例作成手段４は、知識状態管理手段１ａ〜１ｃから、「ＣＰＵ」は既知、「ＶＯＤ」は未知である利用者のみを抽出し、それらの利用者の知識状態を用いて、典型例を作成する。作成された典型例は、予測対象者の知識状態管理手段５に反映される。
【００１７】
このようにして、新たに文書処理装置を使用する者を予測対象者とし、その者の知識状態を予測することができる。従って、新たに文書処理装置を使用する者であっても、直ぐに文書処理装置の機能を有効に使用することが可能である。
【００１８】
図２は本発明を実施するための文書処理装置の具体例を示す構成図である。これは、利用者が理解すべき第１の文書を入力すると、利用者の理解可能な第２の文書に自動的に変換する文書処理装置に対して、本発明の機能を付加した場合の例である。
【００１９】
図２において、関連情報管理部４０は、利用者が文書の内容を理解するのに必要な情報（以後、関連情報と呼ぶ）の蓄積／管理／検索を行う部分である。関連情報管理部４０に管理されている関連情報の登録／削除／更新は、関連情報作成者２２が関連情報入出力ｉ／ｆ２１を通して行なうことができる。
【００２０】
また、利用者１５に対応して、知識状態管理部１１、追加情報抽出部１２、個別文書作成部１３、利用者入出力ｉ／ｆ１４、および知識状態予測部１６が設けられている。知識状態管理部１１は、対応する利用者１５の知識状態を表す情報を蓄積／管理する部分である。
【００２１】
追加情報抽出部１２は、専門用語抽出部１２ａと条件絞り込み部１２ｂとを含んでいる。専門用語抽出部１２ａは、第１の文書を解析し、その文書から専門用語を抽出する。そして、抽出された専門用語により専門用語リストを作る。条件絞り込み部１２ｂは、専門用語抽出部１２ａで抽出された用語に対して、その用語に関する情報で、利用者に必要な情報の関連種を決定する。条件絞り込み部１２ｂで決定された関連種の関連情報を、追加情報抽出部１２が関連情報管理部４０から取り出し、さらに、第１の文書と取り出した関連情報のリストを個別文書作成部１３に送る。なお、第１の文書は、利用者入出力ｉ／ｆ１４を介して入力される。
【００２２】
個別文書作成部１３は、追加情報抽出部１２から送られた文書と関連情報から、第２の文書を作成する。利用者１５は、利用者入出力ｉ／ｆ１４を通して、第２の文書を読むことができる。また、このとき知識状態管理部１１は、関連情報管理部から取り出された関連情報に応じて、利用者１５の知識状態を更新する。
【００２３】
知識状態予測部１６は、利用者１５の知識の状態を予測し、その結果を利用者の知識状態管理部１１の内容に反映させる部分である。この知識状態予測部１６は、利用者を分類する基準となる用語を決定する分類軸決定部１６ａ、利用者１５からの入力により利用者１５の該当する分類を決定する分類部１６ｃ、及び利用者１５と同じ分類の他の利用者の知識状態から利用者１５の典型例を作成する典型例作成部１６ｂを有している。
【００２４】
なお、利用者１５は、利用者入出力ｉ／ｆ１４を通して予測の指示を行うことができる。また、知識状態の予測は、多くの利用者の知識の状態を参照して行うので、利用者１５の知識状態予測部１６は、他の多くの利用者の知識状態管理部３１，３２の内容を参照することができる。
【００２５】
以上のような構成の文書処理装置において、利用者１５は新規にこの文書処理装置を利用する者であるとした場合、利用者１５に対応する知識状態管理部１１は、情報がほとんど格納されていないはずである。この状態では、第１の文書に関連情報を付加して第２の文書を作成しても、基準となるデータが十分にないために、正しい判断をすることができない。そこで、まず初めに、他の利用者の知識状態管理部３１，３２を利用して、利用者１５の知識状態管を予測する必要がある。以下に、知識状態予測部１６による、利用者１５の知識状態の予測処理について説明する。
【００２６】
新たにこの文書処理装置を利用する利用者１５は、利用者入出力ｉ／ｆ１４を介して、知識状態管理部１１の初期化指令を入力する。初期化指令を受け取った知識状態予測部１６は、知識状態の予測を行い、その結果を該利用者の知識状態管理部の初期内容とする処理を実行する。
【００２７】
図３は、知識状態の初期化の際の処理手順を示すフローチャートである。まず、分類軸決定部１６ａで分類の軸の決定が行われる（ステップＳ１）。この例では、２つの用語をどの程度知っているか知らないかを分類軸とする。したがって、予測対象の利用者１５の知識状態が属する可能性のある類は、４つである。この分類軸によって、知識状態予測部１６から参照可能な多くのユーザの知識状態も、４つの類の内のどれかに分類することができる。分類軸決定部１６ａは、知識状態予測部１６から参照可能な多くのユーザの知識状態を参照する。そして、任意の２つの用語を選択し、その用語に対する既知、未知の別により、ユーザの知識状態を分類する。このような分類処理を様々な用語を用いて行い、各類内に属する利用者の知識状態が、相互にもっとも似ている類に分類できるような用語を２つ見つけ出す。
【００２８】
次に、分類部１６ｃにおいて、利用者の知識状態が、分類軸決定部１６ａで決定された分類軸で規定される類の内のどれに該当するかが決定される（ステップＳ２）。さらに、典型例作成部１６ｂにおいて、分類部１６ｃで決定された類に属する、多くのユーザの知識状態を平均した知識状態が作成される（ステップＳ３）。最後に、典型例作成部１６ｂで作成した知識状態を、知識状態管理部１１の初期状態とすべく、現在の知識状態管理部１１の内容が消去され、知識状態の更新が行われ（ステップＳ４）、処理が終了する。
【００２９】
以上のようにして、知識状態管理部１１の内容が初期化される。ここで、分類軸の決定の処理（ステップＳ１）の詳細を説明する。図４は、分類軸決定部１６ａで行われる、分類軸の決定の処理の手順を示すフローチャートである。なお、各知識状態管理部３１，３２は、各用語に対する理解度を、既知レコードとして管理しているものとする。この既知レコードは、「キー部」、「関連種部」、「既知度」で構成されている。「キー部」は管理対象となる用語を示しており、「関連種部」は用語の種別（定義情報、詳細情報、付帯情報など）を示しており、「既知度」は該当する用語の該当する種別に対する理解度を数値（値が大きい程よく知っていることを示す）で示している。既知レコードの詳細は後述する。まず、分類軸となる用語の組合わせの候補のリストが作成される（ステップＳ１１）。この際、分類軸となり得る用語は、知識状態予測部１６から参照可能な多くのユーザの知識状態の既知レコードのキー部の文字列である。参照可能な全てのユーザの知識状態から、キー部に存在する文字列の集合を作り、そのなかから、可能な２つの用語組合せのリストを作成する。
【００３０】
次にリストが空かどうかのチェックを行う（ステップＳ１２）。リストが空であれば、平均距離が最小な用語の組み合わせを、分類軸として決定する（ステップＳ１３）。リストが空でなければ、用語の組合せをリストからひとつ取り出す（ステップＳ１４）。取り出された組合せは、リストから削除する。
【００３１】
次に、取り出した用語について既知かどうかで、知識状態予測部１６から参照可能な多くのユーザの知識状態を４つの集団に分類する（ステップＳ１５）。分類においては、取り出した用語をキー部に持つ定義情報の既知レコードの既知度が１５以上の場合は取り出した用語を既知なものとみなし、１５より少ない場合には、取り出した用語を未知なものとみなす。知識状態管理部１１の中に取り出した用語をキー部に持つ既知レコードがない場合には、既知および未知双方に重複して分類する。さらに、利用者間の平均距離を計算し（ステップＳ１６）、リストが空かどうかのチェック（ステップＳ１２）に戻る。
【００３２】
このような処理を行うことにより、分類軸を決定することができる。以下に、図４に示す処理を具体的なデータを用いて説明する。
図５は知識状態予測部１６から参照可能なユーザの知識状態の例を示した図である。知識状態予測部１６から参照可能な知識状態は、ユーザＡからユーザＯまでの１５人おり、分類軸に利用可能な用語は、「本体データ」、「追加情報」、「関連情報」、「知識状態」、「知識状態管理部」、「追加情報抽出部」、「関連情報管理部」、「関連種」、「既知レコード」、および「関連種属性」の１０個ある。それぞれの用語に対する定義情報の既知レコードがない場合には、空欄になっている。定義情報の既知レコードが存在し、その既知度が１５以上の場合は既知、１５より小さい場合は未知となっている。
【００３３】
図５の場合に、例えば「関連情報」と「既知レコード」の２つの用語によって知識状態を分類すると、以下のように分類される。
第１の集団は「関連情報」と「既知レコード」両方既知な集団であり、「Ｃ，Ｄ，Ｅ，Ｏ」のユーザが含まれる。第２の集団は「関連情報」は既知だが「既知レコード」は未知な集団であり、「Ｇ，Ｉ」のユーザが含まれる。第３の集団は「関連情報」は未知だが「既知レコード」は既知な集団であり、「Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｌ，Ｍ，Ｏ」のユーザが含まれる。第４の集団は「関連情報」と「既知レコード」両方未知な集団であり、「Ａ，Ｈ，Ｊ，Ｋ，Ｎ」のユーザが含まれる。
【００３４】
このような知識状態の分類が終了したら、その分類によって作られた集団の知識状態間の平均距離を計算する。ここで、集団を跨った距離は平均にカウントしない。つまり、同一集団内の利用者同士の知識状態間の距離の平均値が求まる。これにより、距離の平均が、取り出された用語によってどのぐらい似通った知識状態の集団に分類されたかの指標になる。
【００３５】
個々の知識状態間の距離は、既知を１、未知を−１、既知レコードがない場合を０としたときの知識状態間のユークリッド距離である。正確にいえば、用語がｍ個存在し、ユーザＡのｉ版目の用語の値がＸｉ、ユーザＢのｉ版目の用語の値がＹｉであるとき、ユーザＡの知識状態とユーザＢの知識状態の間の距離は、
【００３６】
【数１】
（（Ｘ１−Ｙ１）^２＋．．．＋（Ｘｉ−Ｙｉ）^２＋．．．＋（Ｘｍ−Ｙｍ）^２）^１／２・・・・・（１）
になる。
【００３７】
たとえば、図５におけるＡとＢの距離は、
【００３８】
【数２】
（（０−１）^２＋（１−（ −１））^２＋．．．＋（０−（ −１））^２）^１／２＝４．１２・・・・・（２）
である。
【００３９】
平均距離の計算が終了すると、リストが空かどうかのチェックにもどる。リストが空の場合、平均距離が最小な用語の組合せを分類の軸と決定し、処理が終了する。平均距離が最小ということは、その用語によって分類されてできた集団は、最も似通った知識状態の集まりであることを示している。
【００４０】
図６は用語の組合せごとに距離の平均を計算した例を示す図である。図６の場合、「関連情報」と「既知レコード」の２つの用語を分類軸とした場合が、平均距離が２．５４で最も小さい。したがって、この場合は、分類軸として「関連情報」と「既知レコード」の２つの用語を使うことに決定する。
【００４１】
このようにして決定された分類軸を用いて、分類部１６ｃは、分類軸となる用語を利用者１５が知っているかどうか、利用者入出力ｉ／ｆ１４を通して利用者１５に質問する。その質問に対する利用者１５の回答から、利用者が分類軸で規定される類の内のどれに属するかが決定される。
【００４２】
例えば、利用者１５が分類部１６ｃの発した質問に対して、「関連情報は知らないが、既知レコードは知っている」と答えた場合、分類軸で分類された集団のうちの第３の集団に分類されることになる。
【００４３】
典型例作成部１６ｂでは、分類部で決定された類に属する知識状態の用語毎の平均をとる。例えば、第３の集団に分類されることが決定された場合、第３の集団に属する知識状態の平均をとる。このとき、考慮するのは知識状態に含まれる用語に関する定義情報の既知度のみである。しかも、定義情報の既知レコードが存在し、その既知度が１５以上の場合は１、１５より小さい場合は−１、定義情報の既知レコードが存在しない場合は０として計算する。
【００４４】
種々のユーザの知識の状態が図５のようであり、上記の第３の集団の知識状態の平均を計算すると、「本体データ」の定義情報は０．５、「追加情報」の定義情報は０、「関連情報」の定義情報は−０．５、「知識状態」の定義情報は０．８７５、「知識状態管理部」の定義情報は１、「追加情報抽出部」の定義情報は０．２５、「関連情報管理部」の定義情報は−０．２５、「関連種」の定義情報は−０．５、「既知レコード」の定義情報は１、「関連種属性」の定義情報は−０．３７５となる。
【００４５】
これをみると、第３の集団の利用者は「本体データ」「知識状態」「知識状態管理部」「追加情報抽出部」「既知レコード」の用語は知っており、「関連情報」「関連情報抽出部」「関連種」「関連種属性」の用語は知らないという傾向にあることがわかる。これが、典型例になる。
【００４６】
典型例作成部１６ｂでの典型例の作成が終了すると、現在の知識状態管理部１１の内容が消去されたのち、典型例に基づいて、更新の指示が知識状態管理部１１に出される。上記の例では、「本体データ」「知識状態」「知識状態管理部」「追加情報抽出部」「既知レコード」の定義情報に対して既知モード、「関連情報」「関連情報抽出部」「関連種」「関連種属性」の定義情報に対して未知モードの更新が指示される。
【００４７】
以上のようにして、この文書管理装置を新たに利用する利用者１５の知識状態を作成することができる。この知識状態は、利用者１５と似た知識を有する他の利用者の知識状態に基づき作成されたため、利用者１５の実際の知識状態に近いものが作成できる。
【００４８】
ところで、上記の例は、利用者１５の知識状態管理部１１の内容を全て更新する場合であるが、すでに蓄積された知識状態はそのままにしておき、他の知識状態のみを更新することもできる。この場合、利用者１５から利用者入出力ｉ／ｆ１４をとおして知識状態の合成の指示を受け取た知識状態予測部１６は、知識状態の予測を行い、その結果を利用者１５の知識状態管理部１１の現在の知識状態と合成する。
【００４９】
図７は、知識状態の合成の際の処理の手順をフローチャートで示したものである。
まず、分類軸決定部で分類の軸の決定が行われる（ステップＳ２１）。その処理内容は図３に示したものとほぼ同じであるが、分類軸に使用される用語が、知識状態の予測の対象となる利用者の知識状態管理部内に定義情報の既知レコードが存在するものに限られる。
【００５０】
たとえば、各ユーザの知識の状態が図５のようであった場合に、ユーザＣの知識を予測する場合、分類軸として「追加情報」や「関連情報」は利用できない。この場合、分類軸は、「関連種属性」と「既知レコード」が利用される（図６によれば、「関連種属性」と「既知レコード」による平均距離は２．６７で、使用可能な用語の組合せの中で最も小さい）。
【００５１】
分類軸が決定されたら、分類部で分類先が決定される（ステップＳ２２）。分類先は、予測の対象となる利用者の知識状態を参照して行われる。例えば、各ユーザの知識の状態が図５、分類軸が「関連種属性」と「既知レコード」で、ユーザＣの知識状態を予測する場合、ユーザＣの知識状態管理部の内容が参照され、「関連種属性」の定義情報の既知度と「既知レコード」の定義情報の既知度で分類される。この場合、「関連種属性」「既知レコード」両方を知っている類に属すると決定される。
【００５２】
分類先が決定されたら、典型例作成部で該分類先の集団の知識状態の典型例が作成される（ステップＳ２３）。手順は、知識状態の初期化の部分で説明したものと同じである。たとえば、上記の例で、「関連種属性」「既知レコード」両方を知っている類には、「Ｃ，Ｅ，Ｆ，Ｌ，Ｍ，Ｏ」のユーザの知識状態がある。この集団の典型例は、「本体データ」の定義情報は０．５、「追加情報」の定義情報は０．３３、「関連情報」の定義情報は−０．５、「知識状態」の定義情報は０．８３、「知識状態管理部」の定義情報は１、「追加情報抽出部」の定義情報は０．３３、「関連情報管理部」の定義情報は−０．３３、「関連種」の定義情報は−０．５、「既知レコード」の定義情報は１、「関連種属性」の定義情報は０．８３となる。
【００５３】
典型例作成部１６ｂでの典型例の作成が終了すると、現在の知識状態と典型例が合成され（ステップＳ２４）、処理は終了する。合成は、現在の知識状態に定義情報の既知レコードのない用語に対して、典型例に従った既知レコードの更新をおこなうことになる。
【００５４】
上記の例の場合、ユーザＣの知識状態にない、「追加情報」「関連情報」「追加情報抽出部」「関連情報管理部」「関連種」の定義情報が更新される。上記典型例に従い、「追加情報」「追加情報抽出部」の定義情報の未知モードの更新と、「関連情報」「関連情報管理部」「関連種」の既知モードの更新がユーザＣの知識状態管理部に指示される。
【００５５】
このようにして、利用者１５の知識状態が作成された後は、利用者１５が第１の文書を利用者入出力ｉ／ｆ１４から入力すると、その文書に関連情報が付加された第２の文書が作成される。以下に、その処理機能の詳細について説明する。
【００５６】
関連情報管理部４０において、関連情報は、情報本体を示す本体データと、本体データがどんな種類の型のデータかを示すデータ型属性と、その情報が何に関する情報かを示す文字列を格納するキー属性と、キー部で指定された対象に対してどのような関連をもつ情報かを示す関連種属性と、からなるデータとして管理されている。本体データは、文字列あるいは各種図形などのデータ型のデータが格納されている。この例で利用可能なデータ型は、文字列型、表型、幾何図形型、数式型、イメージ型、そしてそれらの複合型である。本体データがどの型に属するかは、データ型属性に示されている。
【００５７】
関連種属性には、関連情報がキー属性で示された対象の定義であることを示す「定義情報」と、関連情報がキー属性で示された対象の詳細であることを示す「詳細情報」と、関連情報がキー属性で示された対象に付随するものであることを示す「付帯情報」の３種の値のうちのどれかが格納される。
【００５８】
そして、関連情報管理部４０は、検索機能を有している。この検索機能は、キー属性の値、関連種属性の値とともに関連情報の取り出しが指定された場合に、指定されたキー属性値、関連種属性値を持つ関連情報を検索し、その関連情報が存在すれば取り出しを行う。
【００５９】
図８は関連情報管理部に管理されている関連情報の例を示す図である。関連情報は、キー属性４１、関連種属性４２、データ型属性４３、本体データ４４の項目により管理されている。この図では、６種類の関連情報４０ａ〜４０ｆを示している。なお、この例に示す関連情報は全て「文字列型」のデータ型属性である。
【００６０】
キー属性が「関連情報」である関連情報は２種類あり、１つめの関連情報４０ａの関連種属性は「定義情報」、２つめの関連情報４０ｂの関連種属性は「詳細情報」である。キー属性が「知識状態」である関連情報は３種類あり、１つめの関連情報４０ｃの関連種属性は「定義情報」、２つめの関連情報４０ｄの関連種属性は「詳細情報」、３つめの関連情報４０ｅの関連種属性は「付帯情報」である。キー属性が「追加情報」である関連情報は１種類あり、その関連情報４０ｆの関連種属性は「定義情報」である。
【００６１】
次に、図２に示す知識状態管理部１１について説明する。知識状態管理部１１では、ユーザが知っている情報を表す既知レコードが管理されている。個々の既知レコードは、ユーザが知っている情報のカテゴリと、ユーザがその情報のカテゴリの情報をどの程度知っているかの度合を表す既知度（０から３０の整数値）と、からなる。
【００６２】
この例における情報のカテゴリは、情報が何に関するものであるかを示す文字列を保持しているキー部と、キー部で指定された対象に対するどのような情報かを示す関連種部と、からなる。関連種部には、情報がキー属性で示された対象の定義であることを示す「定義情報」と、情報がキー属性で示された対象の詳細であることを示す「詳細情報」と、情報がキー属性で示された対象に付随するものであることを示す「付帯情報」の３種の値のうちのどれかが格納される。
【００６３】
知識状態管理部１１は、知識状態の参照の指示が文字列とともに入力されると、該文字列をキー部に持つ既知レコードを出力する。なお、同じ文字列をキー部に持つ既知レコードは関連種ごとに複数存在し得るため、指示された文字列に該当する既知レコードが複数あれば、それら全てを出力する。
【００６４】
また、知識状態管理部１１は、キーを表す文字列、関連種の値、更新モード（「既知」、「未知」のどちらか）とともに、知識状態の更新が指定されれば、管理している既知レコードの登録／更新を行なう。更新モードが既知であった場合、該キーを表す文字列、関連種の値を持つ既知レコードが存在すれば、その既知度を３０にする。該当する既知レコードが存在しなければ、該キーを表す文字列、関連種の値を持つ既知レコードを作り、その既知度を３０にする。
【００６５】
更新モードが未知であった場合、該キーを表す文字列、関連種の値を持つ既知レコードが存在すれば、その既知度を０にする。該当する既知レコードが存在しなければ、該キーを表す文字列、関連種の値を持つ既知レコードを作り、その既知度を０にする。
【００６６】
さらに、知識状態管理部１１は、管理しているすべての既知レコードの既知度の値を、２４時間経過ごとに−１する機能を含んでいる。これは、時間の経過とともに忘却してしまう人間の特徴をシミュレートするためである。ただし、既知度が０であるものは、それ以上減少しない。
【００６７】
図９は知識状態管理部１１で管理されている既知レコードの例を示す図である。既知レコードは、キー部１１１、関連種部１１２、既知度１１３の項目により管理されている。この図では、５種類の既知レコード１１ａ〜１１ｅを示している。
【００６８】
キー部が「関連情報」である既知レコードは２種類あり、１つめの既知レコード１１ａの関連種部は「定義情報」、既知度は「２０」であり、２つめの既知レコード１１ｂの関連種部は「詳細情報」、既知度は「１０」である。キー部が「知識状態」である既知レコードは３種類あり、１つめの既知レコード１１ｃの関連種部は「定義情報」、既知度は「２５」であり、２つめの既知レコード１１ｄの関連種部は「詳細情報」、既知度は「２０」であり、３つめの既知レコード１１ｅの関連種属性は「付帯情報」、既知度は「０」である。
【００６９】
次に、追加情報抽出部１２について説明する。図１０は、第１の文書が追加情報抽出部に入力された場合の関連情報の抽出と知識状態の更新の手順を示したフローチャートである。
【００７０】
まず、専門用語抽出部１２ａで、利用者入出力ｉ／ｆ１４から入力された第１の文書を解析し、文書中の専門的な意味を持つ名詞（以降、専門用語と呼ぶ）のリストを作る（ステップＳ３１）。そのために、専門用語抽出部１２ａは、文書中の文を分類する形態素解析部と、一般用語の名詞辞書を持っている。専門用語抽出部１２ａは、形態素解析の結果抽出された名詞を一般用語の名詞辞書で調べ、そこになかったものを専門用語と判断する。
【００７１】
次に専門用語リストが空かどうかを調べる（ステップＳ３２）。空なら、第１の文書と関連情報のリストを個別文書作成部に送って（ステップＳ３３）、処理が終了する。専門用語リストが空でなければ、リストから専門用語を一つ取り出す（ステップＳ３４）。このとき、取り出した専門用語はリストから削除する。
【００７２】
次に、取得した用語に対して、条件絞り込み部で利用者が第１の文書を理解するために必要な情報の関連種の決定を行う（ステップＳ３５）。関連種の決定の結果、利用者に必要な関連情報があるか否かを判断する（ステップＳ３６）。関連種の決定の結果、利用者にはどの関連種の情報も必要ないと決定されれば、専門用語リストのチェック（ステップＳ３２）にもどる。
【００７３】
利用者には定義情報が必要であると決定された場合には、後述する定義情報が必要な場合の処理を行い（ステップＳ３７）、専門用語リストのチェック（ステップＳ３２）にもどる。利用者には詳細情報が必要であると決定された場合には、後述する詳細情報が必要な場合の処理を行い（ステップＳ３８）、専門用語リストのチェック（ステップＳ３２）にもどる。利用者には付帯情報が必要であると決定された場合には、後述する付帯情報が必要な場合の処理を行い（ステップＳ３９）、専門用語リストのチェック（ステップＳ３２）にもどる。
【００７４】
図１１は、条件絞り込み部で行われる関連種の決定（ステップＳ３５）の手順をフローチャートで示したものである。
関連種の決定処理では、まず、取り出した専門用語とともに知識状態の参照の指示が知識状態管理部に送られ、該専門用語をキー部に持つ既知レコードを取り出す（ステップＳ４１）。既知レコードがあるか否かを判断し（ステップＳ４２）、知識状態管理部内に既知レコードが存在しなければ、その専門用語に関するすべての情報が利用者にとって既知であり、どの関連種の情報も必要ないと決定し（ステップＳ４９）、終了する。
【００７５】
既知レコードが取り出せた場合、該既知レコードの内、関連種部の値が「定義情報」であるレコードの既知度を調べる（ステップＳ４３）。ここで、既知度が１５以下であった場合、利用者にとって定義情報が必要であると決定し（ステップＳ４４）、終了する。
【００７６】
関連種部の値が「定義情報」であるレコードの既知度が１５より大きい場合、その専門用語の定義情報は利用者にとって既知であると判断し、取り出した既知レコードの内の関連種部の値が「詳細情報」であるレコードの既知度を調べる（ステップＳ４５）。ここで、既知度が１５以下であった場合、利用者にとって詳細情報が必要であると決定し（ステップＳ４６）、終了する。
【００７７】
関連種部の値が「詳細情報」であるレコードの既知度が１５より大きい場合、その専門用語の詳細情報は利用者にとって既知であると判断し、取り出した既知レコードの内の関連種部の値が「付帯情報」であるレコードの既知度を調べる（ステップＳ４７）。ここで、既知度が１５以下であった場合、利用者にとって付帯情報が必要であると決定し（ステップＳ４８）、終了する。
【００７８】
関連種部の値が「付帯情報」であるレコードの既知度が１５より大きい場合、その専門用語に関するすべての情報が利用者にとって既知であり、どの関連種の情報も必要ないと決定し（ステップＳ４９）、終了する。
【００７９】
図１２は、定義情報が必要な場合の処理（ステップＳ３７）の手順を示したフローチャートである。
まず、該専門用語をキー属性値とし、関連種属性値が「定義情報」である関連情報の取り出しが関連情報管理部に指示される（ステップＳ５１）。ここで、定義情報が存在したか否かを判断する（ステップＳ５２）。関連情報の取り出しに失敗した場合、利用者は該専門用語について未知のままであるので、該専門用語をキーとし、関連種を「定義情報」、更新モードを「未知」とした知識状態の更新の指示が知識状態管理部に対して行なわれる。その結果、定義情報の既知度が０に更新される（ステップＳ５３）。
【００８０】
関連情報の取り出しに成功した場合、該関連情報を関連情報リストに追加（ステップＳ５４）した後、該専門用語をキーとし、関連種を「定義情報」、更新モードを「既知」とした知識状態の更新の指示が知識状態管理部に対して行なわれる。つまり、定義情報は利用者に対して提示されることになるので、「既知」になるのである。その結果、定義情報の既知度が３０に更新される（ステップＳ５５）。
【００８１】
詳細情報が必要な場合、付帯情報が必要な場合の処理も、図１２のフローチャートと同様の手順である。ただし、「定義情報」の部分が、それぞれ、「詳細情報」、「付帯情報」になる。
【００８２】
次に、個別文書作成部１３について説明する。個別文書作成部１３は、追加情報抽出部１２から第１の文書と後述する関連情報リストを受けとり、第１の文書の適当な位置に、関連情報を追加することによって、第２の文書を生成する。
【００８３】
図１３は、個別文書作成部での第２の文書作成の手順を示したフローチャートである。最初に、関連情報リストが空かどうかが調べられる（ステップＳ６１）。関連情報リストが空であれば、第２の文書は完成であり、処理は終了する。関連情報リストが空でなければ、関連情報がリストから取り出される（ステップＳ６２）。このとき、とりだされた関連情報はリストから削除される。
【００８４】
次に、第１の文書の中で、関連情報のキー属性の値と同じ文字列が出現する位置（正確には、マッチした文字列の再後尾の位置）を調べる（ステップＳ６３）。該当する文字列が複数ある場合、最初に出現した位置が採用される。
【００８５】
次に、関連情報のデータ型属性を調べる（ステップＳ６４）。データ型属性の値が文字列型でなければ、関連情報の本体データを前記文字列の位置の注釈とする（ステップＳ６８）。
【００８６】
データ型属性の値が文字列であれば、関連情報の関連種属性の値が調べられる（ステップＳ６５）。関連種属性の値が「定義情報」であった場合、本体データの内容を括弧でくくり、ステップＳ６３で検出した位置に置き（ステップＳ６７）、関連情報リストのチェック（ステップＳ６１）に戻る。
【００８７】
関連種属性の値が「詳細情報」であった場合、本体データの長さが調べられる（ステップＳ６６）。本体データの長さが２０文字以下であった場合、本体データの内容を括弧でくくり、ステップＳ６３で検出した位置に置き（ステップＳ６７）、関連情報リストのチェック（ステップＳ６１）に戻る。本体データの長さが２０文字より多かった場合、本体データを前記位置の注釈とし（ステップＳ６８）、関連情報リストのチェック（ステップＳ６１）に戻る。
【００８８】
関連種属性の値が「付帯情報」であった場合、本体データをステップＳ６３で検出した位置の注釈とし（ステップＳ６８）、関連情報リストのチェック（ステップＳ６１）に戻る。
【００８９】
なお、この例の注釈処理（ステップＳ６８）では、注釈を置く位置に注記号を置き、文書の後尾に、該注記号とともに関連情報を置き、関連情報リストのチェックに戻る。
【００９０】
ここで、以上のような文書処理装置の追加情報抽出部１２に第１の文書が入力された場合の各種情報の変化の様子について説明する。図１４は利用者入出力ｉ／ｆから送られる第１の文書５０を示す図である。このような第１の文書が入力されると、専門用語リストの作成処理により、専門用語リストが作成される。図１５は作成された専門用語リスト５１を示す図である。そして、この専門用語リスト５１は空でないため、最初の専門用語「関連情報」が取り出される。ここで、関連情報管理部４０には図８に示す関連情報が管理されており、知識状態管理部１１には図９に示す知識状態が管理されているものとする。
【００９１】
次に、「関連情報」をキー部に持つ既知レコードが取り出される。この場合、図９に示した既知レコードから、「関連情報」をキー部に持つ既知レコード１１ａ，１１ｂが取り出される。図１６は取り出された２つの既知レコード１１ａ，１１ｂを示す図である。取り出された既知レコードの内、関連種部の値が「定義情報」である既知レコード１１ａの既知度は１５より大きく、関連種部の値が「詳細情報」である既知レコード１１ｂの既知度は１５以下であるので、利用者に必要なのは、用語「関連情報」の「詳細情報」であると決定される。
【００９２】
そして、キー属性値が「関連情報」、関連種属性値が「詳細情報」である関連情報の取り出しが関連情報管理部に指示される。すると、図８に示した関連情報からキー属性値が「関連情報」、関連種属性値が「詳細情報」である関連情報がと取り出される。図１７は取り出された関連情報４０ｂを示す図である。
【００９３】
図１７に示す関連情報４０ｂを関連情報リストに追加した後、「関連情報」をキーとし、関連種を「詳細情報」、更新モードを「既知」とした知識状態の更新の指示が知識状態管理部に対して行なわれる。そして、専門用語リストのチェックに処理が戻る。
【００９４】
このような処理が専門用語リスト内の全ての専門用語に対して行われる。その結果、関連情報リストが完成する。図１８は作成された関連情報リスト５２を示す図である。図１８では、キー属性が「関連情報」、関連種属性が「詳細情報」である関連情報４０ｂと、キー属性が「知識状態」、関連種属性が「付帯情報」である関連情報４０ｅとが登録されている。この時、知識状態管理部で管理されている知識状態が更新される。図１９は更新された知識状態を示す図である。図１９は図９の知識状態から更新されたものである。更新されたのは、キー部が「関連情報」、関連種部が「詳細情報」である既知レコード１１ｆと、キー部が「知識状態」、関連種部が「付帯情報」である既知レコード１１ｇである。既知レコード１１ｆは、既知度が１０から３０に変更されている。既知レコード１１ｇは、既知度が０から３０に変更されている。このように、随時既知レコードの値が更新されることにより、利用者１５の知識状態がシミュレートされている。
【００９５】
図２０は第２の文書を示す図である。これは、第１の文書５０が図１４に示すものであり、関連情報リスト５２が図１８のようであった場合に、個別文書作成部１３で作成された第２の文書５３である。アンダーラインのついた部分が第１の文書に追加された部分である。
【００９６】
以上のようにして、利用者の知識の状態は知識状態管理手段でシミュレートされており、知識状態管理手段に管理されている複数の利用者の知識の状態から、予測の対象となる利用者の知識の状態を予測することができる。そして、この予測結果を、予測の対象となる利用者の知識状態の初期設定や充実に利用することができる。しかも、上記の例で示したような文書処理装置は、特定の組織で利用される場合が多く、知識状態管理手段に知識状態を管理されている複数の利用者は、比較的似かよった知識の状態を持つことが多いと予想される。従って、利用者はシステム使用開始直後から、知識状態管理手段に自分の実際の知識状態に近い知識状態を実現できる。
【００９７】
また、知識状態管理手段に管理されている複数の利用者の知識の状態から、多くの状態において似た傾向を持つ状態の集団に分類する分類軸を取り出し、その分類軸により各利用者を分類した結果、予測対象である利用者と同じ類に分類された集団から予測の対象となる利用者の知識の状態を予測するようにした。これにより、この予測結果をより正確なものとすることができ、予測の対象となる利用者の知識状態の初期設定や充実に利用することができる。つまり、文書処理装置は特定の組織で利用される場合が多く、そこで必要な知識、あるいは組織のメンバの構成は、組織毎に異なる。このような場合に、知識状態管理手段に管理されている複数の利用者の知識状態から、組織のメンバの知識の状態のタイプ分けをし、それを知識状態の予測に使うことは、利用者の知識の状態の予測に有効である。従って、利用者はシステム使用開始直後から、知識状態管理手段に自分の実際の知識状態に近い知識状態を実現できる。
【００９８】
【発明の効果】
以上説明したように本発明では、分類軸となる用語を定め、その用語により他の利用者と予測対象者とを複数の集団に分類し、予測対象者が属する集団内の他の利用者の知識状態に基づき、予測対象者の知識状態を予測するようにしたため、その予測結果は、予測対象者の実際の知識状態と近いものとなる。その結果、予測対象者は、自己の知識状態を利用した各種文書処理機能を、使用開始直後から有効に利用することが可能となる。
【図面の簡単な説明】
【図１】本発明の原理構成図である。
【図２】本発明を実施するための文書処理装置の具体例を示す構成図である。
【図３】知識状態の初期化の際の処理手順を示すフローチャートである。
【図４】分類軸決定部で行われる、分類軸の決定の処理の手順を示すフローチャートである。
【図５】知識状態予測部から参照可能なユーザの知識状態の例を示した図である。
【図６】用語の組合せごとに距離の平均を計算した例を示す図である。
【図７】知識状態の合成の際の処理の手順をフローチャートで示したものである。
【図８】関連情報管理部に管理されている関連情報の例を示す図である。
【図９】知識状態管理部で管理されている既知レコードの例を示す図である。
【図１０】第１の文書が追加情報抽出部に入力された場合の関連情報の抽出と知識状態の更新の手順を示したフローチャートである。
【図１１】条件絞り込み部で行われる関連種の決定の手順をフローチャートで示したものである。
【図１２】定義情報が必要な場合の処理の手順を示したフローチャートである。
【図１３】個別文書作成部での第２の文書作成の手順を示したフローチャートである。
【図１４】利用者入出力から送られる第１の文書を示す図である。
【図１５】作成された専門用語リストを示す図である。
【図１６】取り出された２つの既知レコードを示す図である。
【図１７】取り出された関連情報を示す図である。
【図１８】作成された関連情報リストを示す図である。
【図１９】更新された知識状態を示す図である。
【図２０】第２の文書を示す図である。
【符号の説明】
１ａ，１ｂ，１ｃ知識状態管理手段
２分類軸決定手段
３分類手段
４典型例作成手段
５知識状態管理手段
１１知識状態管理部
１２追加情報抽出部
１３個別文書作成部
１４利用者入出力ｉ／ｆ
１５利用者
１６知識状態予測部
１６ａ分類軸決定部
１６ｂ典型例作成部
１６ｃ分類部
２１関連情報入出力ｉ／ｆ
２２関連情報作成者
３１，３２知識状態管理部
４０関連情報管理部

Claims

利用者に提供すべき文書の作成を補助する文書処理装置において、
利用者毎に複数の用語と各用語の理解度から成る知識状態を記憶して管理する知識状態管理手段と、
複数の利用者の前記知識状態を参照し、利用者を複数の集団に分類するための分類軸となる用語を決定する分類軸決定手段と、
前記分類軸となる用語に対する前記複数の利用者それぞれの理解度により前記知識状態を複数の集団に分類し、前記分類軸となる用語に対する予測対象者の理解度から、前記予測対象者の属する集団を決定する分類手段と、
前記予測対象者と同じ集団内の他の利用者の前記知識状態に基づき、前記予測対象者の前記知識状態の典型例を作成し、前記典型例を前記予測対象者の前記知識状態へ反映する典型例作成手段と、
を有することを特徴とする文書処理装置。
前記分類軸決定手段は、同一集団内の利用者同士の前記知識状態の乖離の程度が小さくなるような用語を、前記分類軸として決定することを特徴とする請求項１記載の文書処理装置。
前記典型例作成手段は、前記典型例をそのまま前記予測対象者の前記知識状態とすることにより、前記典型例を前記予測対象者の前記知識状態へ反映させることを特徴とする請求項１記載の文書処理装置。
前記典型例作成手段は、理解度が設定されていない用語の理解度を前記典型例を用いて設定することにより、前記典型例を前記予測対象者の前記知識状態へ反映させることを特徴とする請求項１記載の文書処理装置。
利用者に提供すべき文書の作成を補助する文書処理方法において、
知識状態管理手段が利用者毎に複数の用語と各用語の理解度から成る知識状態を記憶して管理し、
分類軸決定手段が、複数の利用者の前記知識状態を参照し、利用者を複数の集団に分類するための分類軸となる用語を決定し、
分類手段が、前記分類軸となる用語に対する前記複数の利用者それぞれの理解度により前記知識状態を複数の集団に分類し、前記分類軸となる用語に対する予測対象者の理解度から、前記予測対象者の属する集団を決定し、
典型例作成手段が、前記予測対象者と同じ集団内の他の利用者の前記知識状態に基づき、前記予測対象者の前記知識状態の典型例を作成し、前記典型例を前記予測対象者の前記知識状態へ反映する、
ことを特徴とする文書処理方法。