JP3580004B2 - 文書処理装置および文書処理方法 - Google Patents
文書処理装置および文書処理方法 Download PDFInfo
- Publication number
- JP3580004B2 JP3580004B2 JP01553596A JP1553596A JP3580004B2 JP 3580004 B2 JP3580004 B2 JP 3580004B2 JP 01553596 A JP01553596 A JP 01553596A JP 1553596 A JP1553596 A JP 1553596A JP 3580004 B2 JP3580004 B2 JP 3580004B2
- Authority
- JP
- Japan
- Prior art keywords
- knowledge
- knowledge state
- user
- information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
【発明の属する技術分野】
本発明は利用者に提供すべき文書の作成を補助する文書処理装置および文書処理方法に関し、特に所定の用語に対する利用者の理解度を個別に管理している文書処理装置および文書処理方法に関する。
【0002】
【従来の技術】
人間の情報伝達において文書が果たす役割は大きい。人間の知的活動の結果を保存して、後の他の人間の用に供するための手段として、文書の形にしておくのはもっともポピュラーな手段である。また、日々のコミュニケーションにおいても、昨今は電子メールという電子的な文書を利用して行われる事が多い。
【0003】
ところが、このような文書による情報伝達には、文書の作成者が持つ知識と、文書の利用者が持つ知識との違いから、ミスコミュニケーションがもたらされ、文書作成者と利用者との相互にかかる負荷が増大するという大きな問題がある。例えば、文書の利用者が文書を読む場合に、文書中にある専門用語の定義や関連する情報を知らず、文書の内容を充分に理解できないことは頻繁に起こる。その結果、文書の内容についての価値を正確に判断できず、重要な情報を見逃してしまうことは多い。また、文書の内容を誤解し、その後の行動に支障をきたす事もある。このような、ミスコミュニケーションを防ぐためには、利用者は、文書作成者あるいは、文書作成者と同様の知識をもつ別人に種々の問合せを行わなければならず、これは文書作成者/利用者双方にとって大きな負荷になる。
【0004】
そこで、文書の作成者は、ミスコミュニケーションや文書の利用者に必要以上の負荷がかかることを防ぐために、文書の利用者の知識レベルを想定して、用語を選択したり、用語の定義や関連情報を文書に追加したりする。したがって、文書の作成者と利用者の共有する知識が少ないほど、より多くの情報を文書に載せねばならず、文書作成者の大きな負荷となっている。
【0005】
また、文書の利用者が多い場合、利用者の持つ知識は様々であり、文書作成者は、利用者毎に利用者に理解可能な文書を作るとか、あるいは、利用者に多いと思われる知識のレベルを想定して、そのレベルに合わせた単一の文書を作成することになる。ただし、前者の場合は、同じ情報を伝えるのに複数の文書を作成するという負荷を作成者に負わせる事になる。後者の場合は、文書作成者と多くの知識を共有している文書利用者には、不必要な情報が多い冗長な文章となり、読むのに必要以上に時間がかかる。逆に、文書作成者が想定したレベルの知識を持たない文書利用者にとっては充分理解できない文書になる。
【0006】
このような、問題点を解消するために、特開平7−93334号公報に開示された発明では、利用者が持つ単語の既知未知の状態を計算機がシミュレートし、文書中の単語のうち利用者が知らない単語を自動的に判別するステップと、前記未知の単語に利用者が知っている同義語を自動的に補足するステップと、前記同義語を補足した文書を自動的に表示するステップとからなる文書処理方法が示されている。
【0007】
また、前記の公報には、利用者が持つ単語の既知未知の状態を計算機がシミュレートし、文書中の単語のうち利用者が知らない単語を自動的に判別する手段と、前記未知の単語に利用者が知っている同義語を自動的に補足する手段と、前記同義語を補足した文書を自動的に表示する手段と、を備えた文書処理装置も開示されている。
【0008】
このような文書処理方法及び文書処理装置によって、文書利用者毎に、文書の利用者の知らない用語に文書の利用者が知っている同義語を自動的に付加する事で、文書の利用者の理解を助け、さらには、文書の作成者の負担を軽減している。
【0009】
【発明が解決しようとする課題】
しかし、特開平7−93334号公報に開示されたシステムでは、計算機上にシミュレートした利用者の単語の既知未知の状態は、システムの利用につれて徐々に利用者の実際の知識の状態を反映したものに近づいていく。したがって、このシステムは、比較的初期の状態には、利用者の状態に適合した同義語の付加ができず、ある程度以上使用しなければ、利用者に利益をもたらさない。
【0010】
しかも、利用者の使う単語は少なくとも数万のオーダーの数にのぼり、これらの単語の既知未知の状態が利用者の実際のものと一致するには、非常に長い時間が必要になる。よって、システムが利用者に利益をもたらすようになるまで、利用者がシステムを使う意欲が継続せず、効果をまったく発揮せずに、使用されなくなる。
【0011】
本発明はこのような点に鑑みてなされたものであり、知識状態の情報量の少ない利用者の知識状態を予測できる文書処理装置および文書処理方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
図1は本発明の原理構成図である。本発明では上記課題を解決するために、利用者に提供すべき文書の作成を補助する文書処理装置において、利用者毎に複数の用語と各用語の理解度から成る知識状態を記憶して管理する知識状態管理手段と、複数の利用者の前記知識状態を参照し、利用者を複数の集団に分類するための分類軸となる用語を決定する分類軸決定手段2と、前記分類軸となる用語に対する前記複数の利用者それぞれの理解度により前記知識状態を複数の集団に分類し、前記分類軸となる用語に対する予測対象者の理解度から、前記予測対象者の属する集団を決定する分類手段3と、前記予測対象者と同じ集団内の他の利用者の前記知識状態に基づき、前記予測対象者の前記知識状態の典型例を作成し、前記典型例を前記予測対象者の前記知識状態へ反映する典型例作成手段4と、を有することを特徴とする文書処理装置が提供される。
【0013】
この構成によれば、分類軸決定手段2により、複数の利用者の知識状態が参照され、利用者を複数の集団に分類するための分類軸となる用語が定められる。次いで、分類手段3により、分類軸となる用語に対する予測対象者の知識状態から、予測対象者の属する集団が決定される。そして、典型例作成手段4により、予測対象者と同じ集団内の他の利用者の知識状態に基づき、予測対象者の知識状態の典型例が作成され、典型例が予測対象者の知識状態へ反映される。
【0014】
これにより、その予測結果は、予測対象者の実際の知識状態と近いものとなる。
【0015】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
図1は本発明の原理構成図である。複数の利用者の知識状態が知識状態管理手段1a〜1cでシミュレートされている。分類軸決定手段2は、知識状態管理手段1a〜1c内の各利用者の知識状態を参照し、利用者を複数の集団に分類するための分類軸となる用語を決定する。分類手段3は、分類軸となる用語に対する予測対象者の知識状態から、予測対象者の属する集団を決定する。典型例作成手段4は、予測対象者と同じ集団内の他の利用者の知識状態に基づき、予測対象者の知識状態の典型例を作成し、その典型例を、予測対象者の知識状態を管理している知識状態管理手段5へ反映させる。
【0016】
このような構成により、例えば、分類軸決定手段2が、「CPU」と「VOD」との2つの用語を分類軸として決定すると、分類手段3は予測対象者の「CPU」と「VOD」とに対する知識の入力を受け付ける。ここでは、「CPU」は既知であり、「VOD」は未知であったものとする。すると、典型例作成手段4は、知識状態管理手段1a〜1cから、「CPU」は既知、「VOD」は未知である利用者のみを抽出し、それらの利用者の知識状態を用いて、典型例を作成する。作成された典型例は、予測対象者の知識状態管理手段5に反映される。
【0017】
このようにして、新たに文書処理装置を使用する者を予測対象者とし、その者の知識状態を予測することができる。従って、新たに文書処理装置を使用する者であっても、直ぐに文書処理装置の機能を有効に使用することが可能である。
【0018】
図2は本発明を実施するための文書処理装置の具体例を示す構成図である。これは、利用者が理解すべき第1の文書を入力すると、利用者の理解可能な第2の文書に自動的に変換する文書処理装置に対して、本発明の機能を付加した場合の例である。
【0019】
図2において、関連情報管理部40は、利用者が文書の内容を理解するのに必要な情報(以後、関連情報と呼ぶ)の蓄積/管理/検索を行う部分である。関連情報管理部40に管理されている関連情報の登録/削除/更新は、関連情報作成者22が関連情報入出力i/f21を通して行なうことができる。
【0020】
また、利用者15に対応して、知識状態管理部11、追加情報抽出部12、個別文書作成部13、利用者入出力i/f14、および知識状態予測部16が設けられている。知識状態管理部11は、対応する利用者15の知識状態を表す情報を蓄積/管理する部分である。
【0021】
追加情報抽出部12は、専門用語抽出部12aと条件絞り込み部12bとを含んでいる。専門用語抽出部12aは、第1の文書を解析し、その文書から専門用語を抽出する。そして、抽出された専門用語により専門用語リストを作る。条件絞り込み部12bは、専門用語抽出部12aで抽出された用語に対して、その用語に関する情報で、利用者に必要な情報の関連種を決定する。条件絞り込み部12bで決定された関連種の関連情報を、追加情報抽出部12が関連情報管理部40から取り出し、さらに、第1の文書と取り出した関連情報のリストを個別文書作成部13に送る。なお、第1の文書は、利用者入出力i/f14を介して入力される。
【0022】
個別文書作成部13は、追加情報抽出部12から送られた文書と関連情報から、第2の文書を作成する。利用者15は、利用者入出力i/f14を通して、第2の文書を読むことができる。また、このとき知識状態管理部11は、関連情報管理部から取り出された関連情報に応じて、利用者15の知識状態を更新する。
【0023】
知識状態予測部16は、利用者15の知識の状態を予測し、その結果を利用者の知識状態管理部11の内容に反映させる部分である。この知識状態予測部16は、利用者を分類する基準となる用語を決定する分類軸決定部16a、利用者15からの入力により利用者15の該当する分類を決定する分類部16c、及び利用者15と同じ分類の他の利用者の知識状態から利用者15の典型例を作成する典型例作成部16bを有している。
【0024】
なお、利用者15は、利用者入出力i/f14を通して予測の指示を行うことができる。また、知識状態の予測は、多くの利用者の知識の状態を参照して行うので、利用者15の知識状態予測部16は、他の多くの利用者の知識状態管理部31,32の内容を参照することができる。
【0025】
以上のような構成の文書処理装置において、利用者15は新規にこの文書処理装置を利用する者であるとした場合、利用者15に対応する知識状態管理部11は、情報がほとんど格納されていないはずである。この状態では、第1の文書に関連情報を付加して第2の文書を作成しても、基準となるデータが十分にないために、正しい判断をすることができない。そこで、まず初めに、他の利用者の知識状態管理部31,32を利用して、利用者15の知識状態管を予測する必要がある。以下に、知識状態予測部16による、利用者15の知識状態の予測処理について説明する。
【0026】
新たにこの文書処理装置を利用する利用者15は、利用者入出力i/f14を介して、知識状態管理部11の初期化指令を入力する。初期化指令を受け取った知識状態予測部16は、知識状態の予測を行い、その結果を該利用者の知識状態管理部の初期内容とする処理を実行する。
【0027】
図3は、知識状態の初期化の際の処理手順を示すフローチャートである。まず、分類軸決定部16aで分類の軸の決定が行われる(ステップS1)。この例では、2つの用語をどの程度知っているか知らないかを分類軸とする。したがって、予測対象の利用者15の知識状態が属する可能性のある類は、4つである。この分類軸によって、知識状態予測部16から参照可能な多くのユーザの知識状態も、4つの類の内のどれかに分類することができる。分類軸決定部16aは、知識状態予測部16から参照可能な多くのユーザの知識状態を参照する。そして、任意の2つの用語を選択し、その用語に対する既知、未知の別により、ユーザの知識状態を分類する。このような分類処理を様々な用語を用いて行い、各類内に属する利用者の知識状態が、相互にもっとも似ている類に分類できるような用語を2つ見つけ出す。
【0028】
次に、分類部16cにおいて、利用者の知識状態が、分類軸決定部16aで決定された分類軸で規定される類の内のどれに該当するかが決定される(ステップS2)。さらに、典型例作成部16bにおいて、分類部16cで決定された類に属する、多くのユーザの知識状態を平均した知識状態が作成される(ステップS3)。最後に、典型例作成部16bで作成した知識状態を、知識状態管理部11の初期状態とすべく、現在の知識状態管理部11の内容が消去され、知識状態の更新が行われ(ステップS4)、処理が終了する。
【0029】
以上のようにして、知識状態管理部11の内容が初期化される。ここで、分類軸の決定の処理(ステップS1)の詳細を説明する。図4は、分類軸決定部16aで行われる、分類軸の決定の処理の手順を示すフローチャートである。なお、各知識状態管理部31,32は、各用語に対する理解度を、既知レコードとして管理しているものとする。この既知レコードは、「キー部」、「関連種部」、「既知度」で構成されている。「キー部」は管理対象となる用語を示しており、「関連種部」は用語の種別(定義情報、詳細情報、付帯情報など)を示しており、「既知度」は該当する用語の該当する種別に対する理解度を数値(値が大きい程よく知っていることを示す)で示している。既知レコードの詳細は後述する。 まず、分類軸となる用語の組合わせの候補のリストが作成される(ステップS11)。この際、分類軸となり得る用語は、知識状態予測部16から参照可能な多くのユーザの知識状態の既知レコードのキー部の文字列である。参照可能な全てのユーザの知識状態から、キー部に存在する文字列の集合を作り、そのなかから、可能な2つの用語組合せのリストを作成する。
【0030】
次にリストが空かどうかのチェックを行う(ステップS12)。リストが空であれば、平均距離が最小な用語の組み合わせを、分類軸として決定する(ステップS13)。リストが空でなければ、用語の組合せをリストからひとつ取り出す(ステップS14)。取り出された組合せは、リストから削除する。
【0031】
次に、取り出した用語について既知かどうかで、知識状態予測部16から参照可能な多くのユーザの知識状態を4つの集団に分類する(ステップS15)。分類においては、取り出した用語をキー部に持つ定義情報の既知レコードの既知度が15以上の場合は取り出した用語を既知なものとみなし、15より少ない場合には、取り出した用語を未知なものとみなす。知識状態管理部11の中に取り出した用語をキー部に持つ既知レコードがない場合には、既知および未知双方に重複して分類する。さらに、利用者間の平均距離を計算し(ステップS16)、リストが空かどうかのチェック(ステップS12)に戻る。
【0032】
このような処理を行うことにより、分類軸を決定することができる。以下に、図4に示す処理を具体的なデータを用いて説明する。
図5は知識状態予測部16から参照可能なユーザの知識状態の例を示した図である。知識状態予測部16から参照可能な知識状態は、ユーザAからユーザOまでの15人おり、分類軸に利用可能な用語は、「本体データ」、「追加情報」、「関連情報」、「知識状態」、「知識状態管理部」、「追加情報抽出部」、「関連情報管理部」、「関連種」、「既知レコード」、および「関連種属性」の10個ある。それぞれの用語に対する定義情報の既知レコードがない場合には、空欄になっている。定義情報の既知レコードが存在し、その既知度が15以上の場合は既知、15より小さい場合は未知となっている。
【0033】
図5の場合に、例えば「関連情報」と「既知レコード」の2つの用語によって知識状態を分類すると、以下のように分類される。
第1の集団は「関連情報」と「既知レコード」両方既知な集団であり、「C,D,E,O」のユーザが含まれる。第2の集団は「関連情報」は既知だが「既知レコード」は未知な集団であり、「G,I」のユーザが含まれる。第3の集団は「関連情報」は未知だが「既知レコード」は既知な集団であり、「B,C,D,E,F,L,M,O」のユーザが含まれる。第4の集団は「関連情報」と「既知レコード」両方未知な集団であり、「A,H,J,K,N」のユーザが含まれる。
【0034】
このような知識状態の分類が終了したら、その分類によって作られた集団の知識状態間の平均距離を計算する。ここで、集団を跨った距離は平均にカウントしない。つまり、同一集団内の利用者同士の知識状態間の距離の平均値が求まる。これにより、距離の平均が、取り出された用語によってどのぐらい似通った知識状態の集団に分類されたかの指標になる。
【0035】
個々の知識状態間の距離は、既知を1、未知を−1、既知レコードがない場合を0としたときの知識状態間のユークリッド距離である。正確にいえば、用語がm個存在し、ユーザAのi版目の用語の値がXi、ユーザBのi版目の用語の値がYiであるとき、ユーザAの知識状態とユーザBの知識状態の間の距離は、
【0036】
【数1】
((X1−Y1)2+... +( Xi−Yi)2+... +(Xm−Ym)2)1/2・・・・・(1)
になる。
【0037】
たとえば、図5におけるAとBの距離は、
【0038】
【数2】
((0−1)2+( 1−( −1))2 +... +( 0−( −1))2)1/2 =4.12・・・・・(2)
である。
【0039】
平均距離の計算が終了すると、リストが空かどうかのチェックにもどる。リストが空の場合、平均距離が最小な用語の組合せを分類の軸と決定し、処理が終了する。平均距離が最小ということは、その用語によって分類されてできた集団は、最も似通った知識状態の集まりであることを示している。
【0040】
図6は用語の組合せごとに距離の平均を計算した例を示す図である。図6の場合、「関連情報」と「既知レコード」の2つの用語を分類軸とした場合が、平均距離が2.54で最も小さい。したがって、この場合は、分類軸として「関連情報」と「既知レコード」の2つの用語を使うことに決定する。
【0041】
このようにして決定された分類軸を用いて、分類部16cは、分類軸となる用語を利用者15が知っているかどうか、利用者入出力i/f14を通して利用者15に質問する。その質問に対する利用者15の回答から、利用者が分類軸で規定される類の内のどれに属するかが決定される。
【0042】
例えば、利用者15が分類部16cの発した質問に対して、「関連情報は知らないが、既知レコードは知っている」と答えた場合、分類軸で分類された集団のうちの第3の集団に分類されることになる。
【0043】
典型例作成部16bでは、分類部で決定された類に属する知識状態の用語毎の平均をとる。例えば、第3の集団に分類されることが決定された場合、第3の集団に属する知識状態の平均をとる。このとき、考慮するのは知識状態に含まれる用語に関する定義情報の既知度のみである。しかも、定義情報の既知レコードが存在し、その既知度が15以上の場合は1、15より小さい場合は−1、定義情報の既知レコードが存在しない場合は0として計算する。
【0044】
種々のユーザの知識の状態が図5のようであり、上記の第3の集団の知識状態の平均を計算すると、「本体データ」の定義情報は0.5、「追加情報」の定義情報は0、「関連情報」の定義情報は−0.5、「知識状態」の定義情報は0.875、「知識状態管理部」の定義情報は1、「追加情報抽出部」の定義情報は0.25、「関連情報管理部」の定義情報は−0.25、「関連種」の定義情報は−0.5、「既知レコード」の定義情報は1、「関連種属性」の定義情報は−0.375となる。
【0045】
これをみると、第3の集団の利用者は「本体データ」「知識状態」「知識状態管理部」「追加情報抽出部」「既知レコード」の用語は知っており、「関連情報」「関連情報抽出部」「関連種」「関連種属性」の用語は知らないという傾向にあることがわかる。これが、典型例になる。
【0046】
典型例作成部16bでの典型例の作成が終了すると、現在の知識状態管理部11の内容が消去されたのち、典型例に基づいて、更新の指示が知識状態管理部11に出される。上記の例では、「本体データ」「知識状態」「知識状態管理部」「追加情報抽出部」「既知レコード」の定義情報に対して既知モード、「関連情報」「関連情報抽出部」「関連種」「関連種属性」の定義情報に対して未知モードの更新が指示される。
【0047】
以上のようにして、この文書管理装置を新たに利用する利用者15の知識状態を作成することができる。この知識状態は、利用者15と似た知識を有する他の利用者の知識状態に基づき作成されたため、利用者15の実際の知識状態に近いものが作成できる。
【0048】
ところで、上記の例は、利用者15の知識状態管理部11の内容を全て更新する場合であるが、すでに蓄積された知識状態はそのままにしておき、他の知識状態のみを更新することもできる。この場合、利用者15から利用者入出力i/f14をとおして知識状態の合成の指示を受け取た知識状態予測部16は、知識状態の予測を行い、その結果を利用者15の知識状態管理部11の現在の知識状態と合成する。
【0049】
図7は、知識状態の合成の際の処理の手順をフローチャートで示したものである。
まず、分類軸決定部で分類の軸の決定が行われる(ステップS21)。その処理内容は図3に示したものとほぼ同じであるが、分類軸に使用される用語が、知識状態の予測の対象となる利用者の知識状態管理部内に定義情報の既知レコードが存在するものに限られる。
【0050】
たとえば、各ユーザの知識の状態が図5のようであった場合に、ユーザCの知識を予測する場合、分類軸として「追加情報」や「関連情報」は利用できない。この場合、分類軸は、「関連種属性」と「既知レコード」が利用される(図6によれば、「関連種属性」と「既知レコード」による平均距離は2.67で、使用可能な用語の組合せの中で最も小さい)。
【0051】
分類軸が決定されたら、分類部で分類先が決定される(ステップS22)。分類先は、予測の対象となる利用者の知識状態を参照して行われる。例えば、各ユーザの知識の状態が図5、分類軸が「関連種属性」と「既知レコード」で、ユーザCの知識状態を予測する場合、ユーザCの知識状態管理部の内容が参照され、「関連種属性」の定義情報の既知度と「既知レコード」の定義情報の既知度で分類される。この場合、「関連種属性」「既知レコード」両方を知っている類に属すると決定される。
【0052】
分類先が決定されたら、典型例作成部で該分類先の集団の知識状態の典型例が作成される(ステップS23)。手順は、知識状態の初期化の部分で説明したものと同じである。たとえば、上記の例で、「関連種属性」「既知レコード」両方を知っている類には、「C,E,F,L,M,O」のユーザの知識状態がある。この集団の典型例は、「本体データ」の定義情報は0.5、「追加情報」の定義情報は0.33、「関連情報」の定義情報は−0.5、「知識状態」の定義情報は0.83、「知識状態管理部」の定義情報は1、「追加情報抽出部」の定義情報は0.33、「関連情報管理部」の定義情報は−0.33、「関連種」の定義情報は−0.5、「既知レコード」の定義情報は1、「関連種属性」の定義情報は0.83となる。
【0053】
典型例作成部16bでの典型例の作成が終了すると、現在の知識状態と典型例が合成され(ステップS24)、処理は終了する。合成は、現在の知識状態に定義情報の既知レコードのない用語に対して、典型例に従った既知レコードの更新をおこなうことになる。
【0054】
上記の例の場合、ユーザCの知識状態にない、「追加情報」「関連情報」「追加情報抽出部」「関連情報管理部」「関連種」の定義情報が更新される。上記典型例に従い、「追加情報」「追加情報抽出部」の定義情報の未知モードの更新と、「関連情報」「関連情報管理部」「関連種」の既知モードの更新がユーザCの知識状態管理部に指示される。
【0055】
このようにして、利用者15の知識状態が作成された後は、利用者15が第1の文書を利用者入出力i/f14から入力すると、その文書に関連情報が付加された第2の文書が作成される。以下に、その処理機能の詳細について説明する。
【0056】
関連情報管理部40において、関連情報は、情報本体を示す本体データと、本体データがどんな種類の型のデータかを示すデータ型属性と、その情報が何に関する情報かを示す文字列を格納するキー属性と、キー部で指定された対象に対してどのような関連をもつ情報かを示す関連種属性と、からなるデータとして管理されている。本体データは、文字列あるいは各種図形などのデータ型のデータが格納されている。この例で利用可能なデータ型は、文字列型、表型、幾何図形型、数式型、イメージ型、そしてそれらの複合型である。本体データがどの型に属するかは、データ型属性に示されている。
【0057】
関連種属性には、関連情報がキー属性で示された対象の定義であることを示す「定義情報」と、関連情報がキー属性で示された対象の詳細であることを示す「詳細情報」と、関連情報がキー属性で示された対象に付随するものであることを示す「付帯情報」の3種の値のうちのどれかが格納される。
【0058】
そして、関連情報管理部40は、検索機能を有している。この検索機能は、キー属性の値、関連種属性の値とともに関連情報の取り出しが指定された場合に、指定されたキー属性値、関連種属性値を持つ関連情報を検索し、その関連情報が存在すれば取り出しを行う。
【0059】
図8は関連情報管理部に管理されている関連情報の例を示す図である。関連情報は、キー属性41、関連種属性42、データ型属性43、本体データ44の項目により管理されている。この図では、6種類の関連情報40a〜40fを示している。なお、この例に示す関連情報は全て「文字列型」のデータ型属性である。
【0060】
キー属性が「関連情報」である関連情報は2種類あり、1つめの関連情報40aの関連種属性は「定義情報」、2つめの関連情報40bの関連種属性は「詳細情報」である。キー属性が「知識状態」である関連情報は3種類あり、1つめの関連情報40cの関連種属性は「定義情報」、2つめの関連情報40dの関連種属性は「詳細情報」、3つめの関連情報40eの関連種属性は「付帯情報」である。キー属性が「追加情報」である関連情報は1種類あり、その関連情報40fの関連種属性は「定義情報」である。
【0061】
次に、図2に示す知識状態管理部11について説明する。知識状態管理部11では、ユーザが知っている情報を表す既知レコードが管理されている。個々の既知レコードは、ユーザが知っている情報のカテゴリと、ユーザがその情報のカテゴリの情報をどの程度知っているかの度合を表す既知度(0から30の整数値)と、からなる。
【0062】
この例における情報のカテゴリは、情報が何に関するものであるかを示す文字列を保持しているキー部と、キー部で指定された対象に対するどのような情報かを示す関連種部と、からなる。関連種部には、情報がキー属性で示された対象の定義であることを示す「定義情報」と、情報がキー属性で示された対象の詳細であることを示す「詳細情報」と、情報がキー属性で示された対象に付随するものであることを示す「付帯情報」の3種の値のうちのどれかが格納される。
【0063】
知識状態管理部11は、知識状態の参照の指示が文字列とともに入力されると、該文字列をキー部に持つ既知レコードを出力する。なお、同じ文字列をキー部に持つ既知レコードは関連種ごとに複数存在し得るため、指示された文字列に該当する既知レコードが複数あれば、それら全てを出力する。
【0064】
また、知識状態管理部11は、キーを表す文字列、関連種の値、更新モード(「既知」、「未知」のどちらか)とともに、知識状態の更新が指定されれば、管理している既知レコードの登録/更新を行なう。更新モードが既知であった場合、該キーを表す文字列、関連種の値を持つ既知レコードが存在すれば、その既知度を30にする。該当する既知レコードが存在しなければ、該キーを表す文字列、関連種の値を持つ既知レコードを作り、その既知度を30にする。
【0065】
更新モードが未知であった場合、該キーを表す文字列、関連種の値を持つ既知レコードが存在すれば、その既知度を0にする。該当する既知レコードが存在しなければ、該キーを表す文字列、関連種の値を持つ既知レコードを作り、その既知度を0にする。
【0066】
さらに、知識状態管理部11は、管理しているすべての既知レコードの既知度の値を、24時間経過ごとに−1する機能を含んでいる。これは、時間の経過とともに忘却してしまう人間の特徴をシミュレートするためである。ただし、既知度が0であるものは、それ以上減少しない。
【0067】
図9は知識状態管理部11で管理されている既知レコードの例を示す図である。既知レコードは、キー部111、関連種部112、既知度113の項目により管理されている。この図では、5種類の既知レコード11a〜11eを示している。
【0068】
キー部が「関連情報」である既知レコードは2種類あり、1つめの既知レコード11aの関連種部は「定義情報」、既知度は「20」であり、2つめの既知レコード11bの関連種部は「詳細情報」、既知度は「10」である。キー部が「知識状態」である既知レコードは3種類あり、1つめの既知レコード11cの関連種部は「定義情報」、既知度は「25」であり、2つめの既知レコード11dの関連種部は「詳細情報」、既知度は「20」であり、3つめの既知レコード11eの関連種属性は「付帯情報」、既知度は「0」である。
【0069】
次に、追加情報抽出部12について説明する。図10は、第1の文書が追加情報抽出部に入力された場合の関連情報の抽出と知識状態の更新の手順を示したフローチャートである。
【0070】
まず、専門用語抽出部12aで、利用者入出力i/f14から入力された第1の文書を解析し、文書中の専門的な意味を持つ名詞(以降、専門用語と呼ぶ)のリストを作る(ステップS31)。そのために、専門用語抽出部12aは、文書中の文を分類する形態素解析部と、一般用語の名詞辞書を持っている。専門用語抽出部12aは、形態素解析の結果抽出された名詞を一般用語の名詞辞書で調べ、そこになかったものを専門用語と判断する。
【0071】
次に専門用語リストが空かどうかを調べる(ステップS32)。空なら、第1の文書と関連情報のリストを個別文書作成部に送って(ステップS33)、処理が終了する。専門用語リストが空でなければ、リストから専門用語を一つ取り出す(ステップS34)。このとき、取り出した専門用語はリストから削除する。
【0072】
次に、取得した用語に対して、条件絞り込み部で利用者が第1の文書を理解するために必要な情報の関連種の決定を行う(ステップS35)。関連種の決定の結果、利用者に必要な関連情報があるか否かを判断する(ステップS36)。関連種の決定の結果、利用者にはどの関連種の情報も必要ないと決定されれば、専門用語リストのチェック(ステップS32)にもどる。
【0073】
利用者には定義情報が必要であると決定された場合には、後述する定義情報が必要な場合の処理を行い(ステップS37)、専門用語リストのチェック(ステップS32)にもどる。利用者には詳細情報が必要であると決定された場合には、後述する詳細情報が必要な場合の処理を行い(ステップS38)、専門用語リストのチェック(ステップS32)にもどる。利用者には付帯情報が必要であると決定された場合には、後述する付帯情報が必要な場合の処理を行い(ステップS39)、専門用語リストのチェック(ステップS32)にもどる。
【0074】
図11は、条件絞り込み部で行われる関連種の決定(ステップS35)の手順をフローチャートで示したものである。
関連種の決定処理では、まず、取り出した専門用語とともに知識状態の参照の指示が知識状態管理部に送られ、該専門用語をキー部に持つ既知レコードを取り出す(ステップS41)。既知レコードがあるか否かを判断し(ステップS42)、知識状態管理部内に既知レコードが存在しなければ、その専門用語に関するすべての情報が利用者にとって既知であり、どの関連種の情報も必要ないと決定し(ステップS49)、終了する。
【0075】
既知レコードが取り出せた場合、該既知レコードの内、関連種部の値が「定義情報」であるレコードの既知度を調べる(ステップS43)。ここで、既知度が15以下であった場合、利用者にとって定義情報が必要であると決定し(ステップS44)、終了する。
【0076】
関連種部の値が「定義情報」であるレコードの既知度が15より大きい場合、その専門用語の定義情報は利用者にとって既知であると判断し、取り出した既知レコードの内の関連種部の値が「詳細情報」であるレコードの既知度を調べる(ステップS45)。ここで、既知度が15以下であった場合、利用者にとって詳細情報が必要であると決定し(ステップS46)、終了する。
【0077】
関連種部の値が「詳細情報」であるレコードの既知度が15より大きい場合、その専門用語の詳細情報は利用者にとって既知であると判断し、取り出した既知レコードの内の関連種部の値が「付帯情報」であるレコードの既知度を調べる(ステップS47)。ここで、既知度が15以下であった場合、利用者にとって付帯情報が必要であると決定し(ステップS48)、終了する。
【0078】
関連種部の値が「付帯情報」であるレコードの既知度が15より大きい場合、その専門用語に関するすべての情報が利用者にとって既知であり、どの関連種の情報も必要ないと決定し(ステップS49)、終了する。
【0079】
図12は、定義情報が必要な場合の処理(ステップS37)の手順を示したフローチャートである。
まず、該専門用語をキー属性値とし、関連種属性値が「定義情報」である関連情報の取り出しが関連情報管理部に指示される(ステップS51)。ここで、定義情報が存在したか否かを判断する(ステップS52)。関連情報の取り出しに失敗した場合、利用者は該専門用語について未知のままであるので、該専門用語をキーとし、関連種を「定義情報」、更新モードを「未知」とした知識状態の更新の指示が知識状態管理部に対して行なわれる。その結果、定義情報の既知度が0に更新される(ステップS53)。
【0080】
関連情報の取り出しに成功した場合、該関連情報を関連情報リストに追加(ステップS54)した後、該専門用語をキーとし、関連種を「定義情報」、更新モードを「既知」とした知識状態の更新の指示が知識状態管理部に対して行なわれる。つまり、定義情報は利用者に対して提示されることになるので、「既知」になるのである。その結果、定義情報の既知度が30に更新される(ステップS55)。
【0081】
詳細情報が必要な場合、付帯情報が必要な場合の処理も、図12のフローチャートと同様の手順である。ただし、「定義情報」の部分が、それぞれ、「詳細情報」、「付帯情報」になる。
【0082】
次に、個別文書作成部13について説明する。個別文書作成部13は、追加情報抽出部12から第1の文書と後述する関連情報リストを受けとり、第1の文書の適当な位置に、関連情報を追加することによって、第2の文書を生成する。
【0083】
図13は、個別文書作成部での第2の文書作成の手順を示したフローチャートである。最初に、関連情報リストが空かどうかが調べられる(ステップS61)。関連情報リストが空であれば、第2の文書は完成であり、処理は終了する。関連情報リストが空でなければ、関連情報がリストから取り出される(ステップS62)。このとき、とりだされた関連情報はリストから削除される。
【0084】
次に、第1の文書の中で、関連情報のキー属性の値と同じ文字列が出現する位置(正確には、マッチした文字列の再後尾の位置)を調べる(ステップS63)。該当する文字列が複数ある場合、最初に出現した位置が採用される。
【0085】
次に、関連情報のデータ型属性を調べる(ステップS64)。データ型属性の値が文字列型でなければ、関連情報の本体データを前記文字列の位置の注釈とする(ステップS68)。
【0086】
データ型属性の値が文字列であれば、関連情報の関連種属性の値が調べられる(ステップS65)。関連種属性の値が「定義情報」であった場合、本体データの内容を括弧でくくり、ステップS63で検出した位置に置き(ステップS67)、関連情報リストのチェック(ステップS61)に戻る。
【0087】
関連種属性の値が「詳細情報」であった場合、本体データの長さが調べられる(ステップS66)。本体データの長さが20文字以下であった場合、本体データの内容を括弧でくくり、ステップS63で検出した位置に置き(ステップS67)、関連情報リストのチェック(ステップS61)に戻る。本体データの長さが20文字より多かった場合、本体データを前記位置の注釈とし(ステップS68)、関連情報リストのチェック(ステップS61)に戻る。
【0088】
関連種属性の値が「付帯情報」であった場合、本体データをステップS63で検出した位置の注釈とし(ステップS68)、関連情報リストのチェック(ステップS61)に戻る。
【0089】
なお、この例の注釈処理(ステップS68)では、注釈を置く位置に注記号を置き、文書の後尾に、該注記号とともに関連情報を置き、関連情報リストのチェックに戻る。
【0090】
ここで、以上のような文書処理装置の追加情報抽出部12に第1の文書が入力された場合の各種情報の変化の様子について説明する。図14は利用者入出力i/fから送られる第1の文書50を示す図である。このような第1の文書が入力されると、専門用語リストの作成処理により、専門用語リストが作成される。図15は作成された専門用語リスト51を示す図である。そして、この専門用語リスト51は空でないため、最初の専門用語「関連情報」が取り出される。ここで、関連情報管理部40には図8に示す関連情報が管理されており、知識状態管理部11には図9に示す知識状態が管理されているものとする。
【0091】
次に、「関連情報」をキー部に持つ既知レコードが取り出される。この場合、図9に示した既知レコードから、「関連情報」をキー部に持つ既知レコード11a,11bが取り出される。図16は取り出された2つの既知レコード11a,11bを示す図である。取り出された既知レコードの内、関連種部の値が「定義情報」である既知レコード11aの既知度は15より大きく、関連種部の値が「詳細情報」である既知レコード11bの既知度は15以下であるので、利用者に必要なのは、用語「関連情報」の「詳細情報」であると決定される。
【0092】
そして、キー属性値が「関連情報」、関連種属性値が「詳細情報」である関連情報の取り出しが関連情報管理部に指示される。すると、図8に示した関連情報からキー属性値が「関連情報」、関連種属性値が「詳細情報」である関連情報がと取り出される。図17は取り出された関連情報40bを示す図である。
【0093】
図17に示す関連情報40bを関連情報リストに追加した後、「関連情報」をキーとし、関連種を「詳細情報」、更新モードを「既知」とした知識状態の更新の指示が知識状態管理部に対して行なわれる。そして、専門用語リストのチェックに処理が戻る。
【0094】
このような処理が専門用語リスト内の全ての専門用語に対して行われる。その結果、関連情報リストが完成する。図18は作成された関連情報リスト52を示す図である。図18では、キー属性が「関連情報」、関連種属性が「詳細情報」である関連情報40bと、キー属性が「知識状態」、関連種属性が「付帯情報」である関連情報40eとが登録されている。この時、知識状態管理部で管理されている知識状態が更新される。図19は更新された知識状態を示す図である。図19は図9の知識状態から更新されたものである。更新されたのは、キー部が「関連情報」、関連種部が「詳細情報」である既知レコード11fと、キー部が「知識状態」、関連種部が「付帯情報」である既知レコード11gである。既知レコード11fは、既知度が10から30に変更されている。既知レコード11gは、既知度が0から30に変更されている。このように、随時既知レコードの値が更新されることにより、利用者15の知識状態がシミュレートされている。
【0095】
図20は第2の文書を示す図である。これは、第1の文書50が図14に示すものであり、関連情報リスト52が図18のようであった場合に、個別文書作成部13で作成された第2の文書53である。アンダーラインのついた部分が第1の文書に追加された部分である。
【0096】
以上のようにして、利用者の知識の状態は知識状態管理手段でシミュレートされており、知識状態管理手段に管理されている複数の利用者の知識の状態から、予測の対象となる利用者の知識の状態を予測することができる。そして、この予測結果を、予測の対象となる利用者の知識状態の初期設定や充実に利用することができる。しかも、上記の例で示したような文書処理装置は、特定の組織で利用される場合が多く、知識状態管理手段に知識状態を管理されている複数の利用者は、比較的似かよった知識の状態を持つことが多いと予想される。従って、利用者はシステム使用開始直後から、知識状態管理手段に自分の実際の知識状態に近い知識状態を実現できる。
【0097】
また、知識状態管理手段に管理されている複数の利用者の知識の状態から、多くの状態において似た傾向を持つ状態の集団に分類する分類軸を取り出し、その分類軸により各利用者を分類した結果、予測対象である利用者と同じ類に分類された集団から予測の対象となる利用者の知識の状態を予測するようにした。これにより、この予測結果をより正確なものとすることができ、予測の対象となる利用者の知識状態の初期設定や充実に利用することができる。つまり、文書処理装置は特定の組織で利用される場合が多く、そこで必要な知識、あるいは組織のメンバの構成は、組織毎に異なる。このような場合に、知識状態管理手段に管理されている複数の利用者の知識状態から、組織のメンバの知識の状態のタイプ分けをし、それを知識状態の予測に使うことは、利用者の知識の状態の予測に有効である。従って、利用者はシステム使用開始直後から、知識状態管理手段に自分の実際の知識状態に近い知識状態を実現できる。
【0098】
【発明の効果】
以上説明したように本発明では、分類軸となる用語を定め、その用語により他の利用者と予測対象者とを複数の集団に分類し、予測対象者が属する集団内の他の利用者の知識状態に基づき、予測対象者の知識状態を予測するようにしたため、その予測結果は、予測対象者の実際の知識状態と近いものとなる。その結果、予測対象者は、自己の知識状態を利用した各種文書処理機能を、使用開始直後から有効に利用することが可能となる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明を実施するための文書処理装置の具体例を示す構成図である。
【図3】知識状態の初期化の際の処理手順を示すフローチャートである。
【図4】分類軸決定部で行われる、分類軸の決定の処理の手順を示すフローチャートである。
【図5】知識状態予測部から参照可能なユーザの知識状態の例を示した図である。
【図6】用語の組合せごとに距離の平均を計算した例を示す図である。
【図7】知識状態の合成の際の処理の手順をフローチャートで示したものである。
【図8】関連情報管理部に管理されている関連情報の例を示す図である。
【図9】知識状態管理部で管理されている既知レコードの例を示す図である。
【図10】第1の文書が追加情報抽出部に入力された場合の関連情報の抽出と知識状態の更新の手順を示したフローチャートである。
【図11】条件絞り込み部で行われる関連種の決定の手順をフローチャートで示したものである。
【図12】定義情報が必要な場合の処理の手順を示したフローチャートである。
【図13】個別文書作成部での第2の文書作成の手順を示したフローチャートである。
【図14】利用者入出力から送られる第1の文書を示す図である。
【図15】作成された専門用語リストを示す図である。
【図16】取り出された2つの既知レコードを示す図である。
【図17】取り出された関連情報を示す図である。
【図18】作成された関連情報リストを示す図である。
【図19】更新された知識状態を示す図である。
【図20】第2の文書を示す図である。
【符号の説明】
1a,1b,1c 知識状態管理手段
2 分類軸決定手段
3 分類手段
4 典型例作成手段
5 知識状態管理手段
11 知識状態管理部
12 追加情報抽出部
13 個別文書作成部
14 利用者入出力i/f
15 利用者
16 知識状態予測部
16a 分類軸決定部
16b 典型例作成部
16c 分類部
21 関連情報入出力i/f
22 関連情報作成者
31,32 知識状態管理部
40 関連情報管理部
Claims (5)
- 利用者に提供すべき文書の作成を補助する文書処理装置において、
利用者毎に複数の用語と各用語の理解度から成る知識状態を記憶して管理する知識状態管理手段と、
複数の利用者の前記知識状態を参照し、利用者を複数の集団に分類するための分類軸となる用語を決定する分類軸決定手段と、
前記分類軸となる用語に対する前記複数の利用者それぞれの理解度により前記知識状態を複数の集団に分類し、前記分類軸となる用語に対する予測対象者の理解度から、前記予測対象者の属する集団を決定する分類手段と、
前記予測対象者と同じ集団内の他の利用者の前記知識状態に基づき、前記予測対象者の前記知識状態の典型例を作成し、前記典型例を前記予測対象者の前記知識状態へ反映する典型例作成手段と、
を有することを特徴とする文書処理装置。 - 前記分類軸決定手段は、同一集団内の利用者同士の前記知識状態の乖離の程度が小さくなるような用語を、前記分類軸として決定することを特徴とする請求項1記載の文書処理装置。
- 前記典型例作成手段は、前記典型例をそのまま前記予測対象者の前記知識状態とすることにより、前記典型例を前記予測対象者の前記知識状態へ反映させることを特徴とする請求項1記載の文書処理装置。
- 前記典型例作成手段は、理解度が設定されていない用語の理解度を前記典型例を用いて設定することにより、前記典型例を前記予測対象者の前記知識状態へ反映させることを特徴とする請求項1記載の文書処理装置。
- 利用者に提供すべき文書の作成を補助する文書処理方法において、
知識状態管理手段が利用者毎に複数の用語と各用語の理解度から成る知識状態を記憶して管理し、
分類軸決定手段が、複数の利用者の前記知識状態を参照し、利用者を複数の集団に分類するための分類軸となる用語を決定し、
分類手段が、前記分類軸となる用語に対する前記複数の利用者それぞれの理解度により前記知識状態を複数の集団に分類し、前記分類軸となる用語に対する予測対象者の理解度から、前記予測対象者の属する集団を決定し、
典型例作成手段が、前記予測対象者と同じ集団内の他の利用者の前記知識状態に基づき、前記予測対象者の前記知識状態の典型例を作成し、前記典型例を前記予測対象者の前記知識状態へ反映する、
ことを特徴とする文書処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01553596A JP3580004B2 (ja) | 1996-01-31 | 1996-01-31 | 文書処理装置および文書処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01553596A JP3580004B2 (ja) | 1996-01-31 | 1996-01-31 | 文書処理装置および文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09212492A JPH09212492A (ja) | 1997-08-15 |
JP3580004B2 true JP3580004B2 (ja) | 2004-10-20 |
Family
ID=11891510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01553596A Expired - Fee Related JP3580004B2 (ja) | 1996-01-31 | 1996-01-31 | 文書処理装置および文書処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3580004B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013092911A (ja) | 2011-10-26 | 2013-05-16 | Sony Corp | 情報処理装置、情報処理方法、および、プログラム |
-
1996
- 1996-01-31 JP JP01553596A patent/JP3580004B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09212492A (ja) | 1997-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5802504A (en) | Text preparing system using knowledge base and method therefor | |
US6389413B2 (en) | Structured-text cataloging method, structured-text searching method, and portable medium used in the methods | |
CN110188168A (zh) | 语义关系识别方法和装置 | |
JP2004534324A (ja) | 索引付きの拡張可能な対話的文書検索システム | |
JPWO2009063925A1 (ja) | 文書管理・検索システムおよび文書の管理・検索方法 | |
CN110134970B (zh) | 标题纠错方法和装置 | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
Martinez-Rico et al. | Can deep learning techniques improve classification performance of vandalism detection in Wikipedia? | |
KR100378240B1 (ko) | 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법 | |
EP1041499A1 (en) | File or database manager and systems based thereon | |
JP3580004B2 (ja) | 文書処理装置および文書処理方法 | |
JP2948159B2 (ja) | データベース装置 | |
JP2997469B2 (ja) | 自然言語理解方法および情報検索装置 | |
JP3752717B2 (ja) | 文書処理装置 | |
JP2006107143A (ja) | 学習型辞書管理システム | |
JP3428272B2 (ja) | 文書処理装置 | |
Alkaldi | Enhancing text readability using deep learning techniques | |
JP3088805B2 (ja) | 文書管理装置 | |
Elzanfaly et al. | Interactive Chatbot for Improving the Text Classification Data Quality | |
JP2685808B2 (ja) | 利用者支援型入力文応答処理装置 | |
Khovrichev et al. | Context-dependent synonym and concept extraction for dialogue systems training | |
JPH02165276A (ja) | 知識ベース検索方式 | |
JP3608253B2 (ja) | イメージ検索装置 | |
JP2001325293A (ja) | 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体 | |
KR20220008520A (ko) | 중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040712 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080730 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090730 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100730 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |