JP4900475B2

JP4900475B2 - 電子文書管理装置及び電子文書管理プログラム

Info

Publication number: JP4900475B2
Application number: JP2009504909A
Authority: JP
Inventors: 明彦小幡; 潤伊吹; 茂山田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-03-19
Filing date: 2007-03-19
Publication date: 2012-03-21
Anticipated expiration: 2027-03-19
Also published as: WO2008114316A1; JPWO2008114316A1

Description

本発明は、情報の共有を促進するために、電子文書に含まれる表現のうち匿名化すべき表現については匿名化して電子文書を管理する技術に関する。

組織内で知識の共有を促進するためのナレッジマネジメントは、今後企業等の組織においてはますます浸透していくものと思われる。ナレッジマネジメントにおいては、例えば現場での経験から得られた教訓や工夫を実際に生じた具体的な事例としてその内容を順次蓄積していく。蓄積した事例に基づいて組織内で議論や検索することができるようになるため、企業等の組織における知識創造においてナレッジマネジメントは非常に有益な手法である。

ここで、事例を記載した文書のデータをナレッジマネジメントのシステムに入力して用いる際に、実際の氏名や名称については匿名化した上で利用される場合が多い。すなわち、実名を公開することは不適切であるとして一般化した名称等に置き換えて匿名化し、その公開すべきでない表現については匿名化した文書を共有する。予め用意されている単語辞書に置換単語を格納しておき、単語辞書を参照して入力文書について伏字加工処理を行う技術が提供されている（例えば、特許文献１）。

文書について加工処理を行う技術に関しては、入力された変換対象分について、変形規則記憶部中の変形規則を用いて多くの変換の候補を生成し、生成した候補について評価をし、評価結果のよい表現の文字列を選択する技術について提供されている（例えば、特許文献２）。

また、世代管理方式の文書データベースにおいて、現世代から次世代への索引更新の際に、文書の更新内容を示す更新情報を作成し、作成した更新情報と索引とを用いて次世代の文書データベースを表現する技術について提供されている（例えば、特許文献３）。
特開２００２−２５９３６８号公報特開２００３−２２２６４号公報特開２００６−１８５３６８号公報

ナレッジマネジメントにおいて固有名詞等を匿名化した文書は、資料価値が低くよみづらいという問題がある。すなわち、共有すべき情報についても匿名化されてしまうことがあり、このような場合は、ユーザは必要な情報をその匿名化された文書から得ることができないことがある。また、既知の情報であっても匿名化されている場合には返って文書の内容が理解しにくくなることがある。

事例の中には、その内容の一部が新聞等のメディアを介して公知となる場合がある。公知とされた情報についてはナレッジマネジメントシステムにおいてももはや匿名化しておく必要はない。しかし、従来におけるナレッジマネジメントシステムにおいては、匿名化を行うことはできても、公表された内容については匿名化せずに原文のまま出力させる手段は存在しなかった。

本発明は、一度匿名化した電子文書について、ユーザが煩雑な作業を行うことなく非匿名化することを可能とすることにより、情報の共有を促進することのできる技術を提供することを目的とする。

上記課題を解決するために、本発明は、入力された電子文書のうち匿名化された表現を非匿名化して閲覧させる機能を備えた電子文書管理プログラムであって、指定された原文の表現（以下、原文表現という）と、該原文表現を匿名化して置き換える置換表現とを互いに対応付けて記憶手段に保持する手順、データベースに格納されている公表文書の内容に基づいて、前記置換表現を非匿名化することが可能か否かを判定し、該判定結果を非匿名化可否情報として前記原文表現と対応付けて前記記憶手段に記憶する判定手順、前記電子文書についての閲覧要求があったときは、前記非匿名化可否情報を参照して、前記置換表現について非匿名化が可能な場合は前記原文表現を用い、非匿名化が可能でない場合は前記置換表現のまま、該電子文書を閲覧させる手順をコンピュータに実行させる構成とする。

予め電子文書中の原文表現と匿名化した場合に置き換える表現とを互いに対応付けて、記憶手段に保持しておく。データベースには公表文書を蓄積してゆき、記憶手段に保持している原文表現がデータベース上の公表文書に含まれるときは、その表現については非匿名化が可能であることを示す非匿名化可否情報を設定する。ユーザにより電子文書の閲覧を求められたときに、非匿名化可否情報に非匿名化が可能であることを示す値が設定されている表現については、匿名化を行わずにその電子文書を閲覧させる。これにより、公表された表現については非匿名化がなされ、情報共有の促進に資する。

前記データベースに新たに公表文書が追加されたときは、該新たな公表文書中の文字列と前記記憶手段に記憶されている原文表現との比較に基づいて、該公表文書の内容が該電子文書に係わるものであるか否かを判定し、前記公表文書の内容が前記電子文書に係わると判定した場合は、該公表文書に基づいて前記非匿名化可否情報を設定する第二判定手順を更にコンピュータに実行させる構成としてもよい。

更には、前記判定手順は、新たに前記データベースに追加された公表文書に前記原文表現と一致する文字列が含まれているときは、該原文表現については非匿名化が可能であると判定する構成としてもよい。あるいは、前記原文表現についての１以上のキーワードを前記電子文書から抽出して前記記憶手段に該原文表現と対応付けて記憶する手順を更にコンピュータに実行させ、前記判定手順は、前記キーワードと一致する文字列を前記公表文書から検索し、対応する文字列が存在するときは、該キーワードに対応する置換表現については、非匿名化が可能であると判定する構成としてもよい。

本発明によれば、匿名化した表現が公表文書に含まれているときは、その表現については非匿名化して閲覧することができる。このため、ユーザは煩雑な処理を行うことなく、情報共有を促進させることができる。

本実施形態に係るナレッジマネジメントシステムについての原理図である。変換テーブルを作成する処理を説明する図である。広報文書に基づいて事例文書中の匿名表現を非匿名化する処理を説明する図である。変換テーブルを作成する処理を示したフローチャートである。事例文書の閲覧処理を示したフローチャートである。データベースに蓄積されている広報文書に基づいて非匿名化の可否を判定する処理を示したフローチャートである。類似度を算出する処理を示したフローチャート（その１）である。類似度を算出する処理を示したフローチャート（その２）である。

以下、本発明の好適な実施の形態について、図面を参照して詳細に説明する。
図１は、本実施形態に係るナレッジマネジメントシステムの原理図である。図１に示すナレッジマネジメントシステム１は、匿名化文書入力部２、匿名化文書管理部３、非匿名化指定部４、事例閲覧部５及び非匿名化通知部６を含んで構成される。

匿名化文書入力部２は、匿名化文書入力部２は、事例入力部２１、匿名箇所指定部２２及び匿名表現設定部２３から構成され、事例を記載した電子文書やその電子文書を匿名化するための情報の入力を受け付ける。以下、事例を記載した電子文書であり、匿名化を行っていない原文のままの電子文書を「事例文書」と定義する。

匿名化文書入力部２のうち、事例入力部２１には、事例文書が入力される。匿名箇所指定部２２には、原文中の匿名化すべき箇所についての情報が入力される。匿名化すべき箇所（以下、匿名箇所と表記）は、ユーザがディスプレイ等の出力手段に表示される原文に対して、キーボードやポインティングデバイス等の入力手段を用いて指定することにより設定される。匿名表現設定部２３には、匿名箇所の原文中の表現に対し、匿名化した場合に置き換えるべき表現（以下、匿名表現と表記）が入力される。匿名表現は、各匿名箇所に対してユーザが個別に設定する。

匿名化文書管理部３は、変換テーブル記憶部３１、キーワード抽出部３２及び匿名化事例記憶部３３から構成され、匿名化文書入力部２を介して入力された各種情報や匿名化／非匿名化に必要な情報を記憶して管理する。

匿名化文書管理部３のうち、変換テーブル記憶部３１は、事例文書について匿名化／非匿名化の変換を行うための変換テーブルを記憶する。変換テーブルには、匿名化文書入力部２を介して入力された各種情報や、各匿名表現について匿名化あるいは非匿名化のいずれを行うべきかを示す情報が登録される。キーワード抽出部３２は、事例文書の原文を検索して、匿名箇所の前後から匿名化すべき表現についての１以上のキーワードを抽出する。キーワードは各匿名表現について抽出され、抽出されたキーワードは上記の変換テーブル３１に登録される。キーワード抽出処理は公知の技術が用いられる。匿名化事例記憶部３３は、事例文書のうち、匿名箇所について匿名表現に置き換えた文書（以下匿名化事例文書あるいは匿名化文書と表記）を記憶する。なお、本実施形態においては匿名化事例文書を記憶することとしているが、これに限るものではなく、事例文書を記憶する構成としてもよい。

非匿名化指定部４は、非匿名化判定部４１及び広報文書記憶部４２から構成され、公表された電子文書（以下「広報文書」と表記）に基づいて、変換テーブルに登録されている匿名表現のうち、匿名箇所の原文中の表現（以下、原文表現と表記）に戻して非匿名化することのできる箇所を指定する。なお、広報文書としては、例えば新聞社等のメディアがホームページ等に掲載した記事等の内容を含む電子文書がこれに相当する。

非匿名化指定部４の非匿名化判定部４１は、広報文書に含まれる文字列に基づいて、匿名化文書に含まれる匿名表現のそれぞれについて非匿名化できるか否かを判定する。非匿名化判定部４１は、図１に示すように、変換テーブル照合部４３及び文脈性照合部４４から構成される。広報文書記憶部４２は、新聞等のメディアにより公表された広報文書を順次記憶してゆくデータベースからなる。

非匿名化判定部４１の変換テーブル照合部４３は、広報文書記憶部４２に蓄積されている広報文書に含まれる文字列と、変換テーブル記憶部３１上の変換テーブルに登録されている語とを照合する。文脈性照合部４４は、広報文書の文脈から、照合に用いようとしている広報文書の文字列が適切であるか否かを判断する。すなわち、文脈性照合部４４は、照合の対象とされている広報文書中の文字列の前後から抽出したキーワードを用いて、その文字列が適切に選択されていることを検証する。

事例閲覧部５は、ユーザから要求のあった事例文書について、匿名表現ごとに匿名化／非匿名化をしてユーザに閲覧させる。事例を出力表示させるときに、匿名化して出力すべき箇所については匿名表現を用い、広報文書において公表されている表現については原文表現を用いて出力する。

非匿名化通知部６は、広報文書中に原文表現と一致する文字列が含まれているときは、その原文表現については非匿名化することが可能である旨を管理者等に通知する。
図１に示すナレッジマネジメントシステム１は、事例文書中の事例をナレッジマネジメントシステム１に入力するときに、併せて匿名化すべき箇所及び置き換えた後の匿名表現を指定しておく。事例文書について匿名箇所及び匿名表現を変換テーブルで管理する一方で、公表された文書を順次データベースに蓄積してゆく。公表された文書に、ある事例文書の原文表現と一致する文字列が含まれるときは、もはや匿名表現を用いて匿名化する必要がないとして、原文での表現を用いてその事例を閲覧させる。匿名箇所ごとに、匿名表現を用いて匿名化して閲覧させるか、あるいは原文表現を用いて非匿名化して閲覧させるかを判断している。

図２は、本実施形態に係るナレッジマネジメントシステム１において事例文書ごとに変換テーブルを作成する処理を説明する図である。図中の左側の上段には入力された事例文書を、下段には匿名化文書を示し、図中の右側には、変換テーブル１０を示す。

まず、入力された事例文書に対し、ユーザが匿名箇所を指定していく。図２に示す例では、ユーザが指定した匿名箇所は、「事例データ共有プロジェクト」「山田さん（１）」「カサンドラ」「知識共有の装置」「山田さん（２）」の５箇所である。次に、ユーザは指定した匿名箇所のそれぞれについて、匿名表現を設定する。ユーザにより入力された情報を変換テーブル１０に登録する。

変換テーブル１０は、事例文書ごとに作成され、匿名箇所すなわち原文表現に対して、匿名表現、広報文書情報及び文脈キーワードが関連付けられている。
匿名箇所及び匿名表現については上記の定義のとおりである。上記の５つの匿名箇所（原文表現）に対してそれぞれユーザが設定した匿名表現が登録される。

広報文書情報は、変換テーブル１０に設定されている匿名箇所、すなわち原文表現が用いられている広報文書を示す。変換テーブル１０の広報文書情報については、ＮＵＬＬ値が格納されている匿名箇所については、広報文書にまだ原文での表現が用いられていないことを表し、値が設定されているときは、広報文書中に原文での表現が用いられていること、すなわち、その原文表現については公表されていることを表す。

なお、図２においては変換テーブル１０を作成する段階における変換テーブル１０を示しており、まだ事例文書に対応する広報文書についてはデータベースに登録されておらず、広報文書情報にはいずれも値が設定されていない。

文脈キーワードは、上記のとおり、事例文書中の匿名箇所の前後から公知技術を用いて抽出したキーワードであり、１つの原文表現に対して抽出された１以上の文脈キーワードが登録される。

図２に示す事例文書によれば、ユーザにより指定された匿名化すべき箇所のうち、個人名を表す「山田さん（１）」及び「山田さん（２）」は、互いに異なる個人を表す。すなわち、事例文書中にあるように、「山田さん（１）」は知識共有装置の開発プロジェクトのリーダであり、「山田さん（２）」は特許部のメンバである。重複する原文表現であっても、それぞれの原文表現に文脈キーワードを関連付けておくことで、原文中の同一の表現であっても互いに区別することができる。

図２に示す変換テーブル１０が登録されているときに、ナレッジマネジメントシステム１のユーザにより事例文書をディスプレイに表示するよう要求されると、ナレッジマネジメントシステム１においては、変換テーブル１０を参照して、事例文書中の匿名化すべき箇所については、対応する匿名表現に置き換えてユーザに閲覧させる。広報文書情報はいずれもＮＵＬＬ値が設定されているため、５つの匿名箇所全てについて匿名表現に置き換えた状態で事例を出力させる。

ここで、図２に示す事例文書においては、「山田さん」は「プロジェクトリーダの山田さん」及び「特許部の山田さん」の２人について記述がある。匿名化文書を出力する際における「山田さん（３）」の処理方法については、予めユーザに設定を求めることとしてもよい。あるいは、上記の文脈キーワードを用いて「Ｙ１さん」あるいは「Ｙ２さん」のいずれに置き換えるべきか判断することとしてもよい。

すなわち、図２に示す例で文脈キーワードを用いる場合は、「山田さん（３）」の前後の文脈中には「特許部」の表現があることから、「山田さん（３）」は「山田さん（２）」と同一と判断する。そして、「山田さん（３）」と表現されている箇所については、「山田さん（２）」に対応する匿名表現である「Ｙ２さん」へと置き換えて出力する。

図３は、本実施形態に係るナレッジマネジメントシステム１において広報文書に基づいて事例文書中の匿名表現を非匿名化する処理を説明する図である。以下、図３を参照して、匿名化すべき箇所としてユーザにより指定された表現が広報文書に含まれる場合にその表現については非匿名化してユーザに事例文書を閲覧させる処理について説明する。なお、非匿名化処理の前処理である、入力された事例文書に対して図２に示す変換テーブル１０を作成する処理については、既に実行されているものとする。

発行された広報文書は、順次図１の広報文書記憶部４２に蓄積されてゆく。蓄積された広報文書のそれぞれについて、保持している事例文書あるいは匿名化事例文書のうち類似性の高い文書を検索する。検索の結果得られた事例文書あるいは匿名化事例文書に対応する変換テーブル１０に、広報文書中に非匿名化して記載している表現については事例文書をユーザに閲覧させるときにも非匿名化が可能であることを示す情報を設定する。本実施形態においては、変換テーブル１０の広報文書情報がこれに相当する。

広報文書と事例文書（あるいは匿名化事例文書）との類似性の判定は、変換テーブル１０に設定されている表現と、広報文書に含まれる文字列との比較により行う。
広報文書１に含まれる文字列の中から変換テーブル１０に登録されている文字列と一致するものを検索する。一致する文字列が変換テーブル１０に登録されている文字列に対して所定の割合以上を占めるときは、広報文書１とその変換テーブル１０に対応する事例文書とは類似性が大きいと判定する。

具体的には、事例文書（あるいは匿名化事例文書）ごとに作成されている変換テーブルを順次参照してゆくと、図３に示すように、広報文書１と変換テーブル１０とでは、「事例データ共有プロジェクト」及び「カサンドラ」の文字列が一致する。例えば３０％以上の表現が一致すれば、広報文書１はその変換テーブル１０と対応付けることとする。図３の例では、変換テーブル１０では４つの「原文での表現」が登録されているのに対し、広報文書１から抽出された「原文での表現」は２つである。すなわち、一致する文字列の割合は２／４＝５０％であり、広報文書１は図３に示す変換テーブル１０に対応する事例文書あるいは匿名化事例文書と類似性ありと判定する。

類似性ありと判定された文書についての変換テーブル１０には、広報文書１に含まれる非匿名化された表現と一致する「原文での表現」に対応する広報文書情報に、「広報文書１」を設定する。広報文書情報に情報が設定されているときは、広報文書記憶部４２に記憶している広報文書の中に非匿名化して表現している広報文書が存在することを表す。

ユーザからの要求に対して事例文書を閲覧させるときは、変換テーブル１０の広報文書情報に情報が設定されているときは、その表現については非匿名化した表現すなわち変換テーブル１０の「原文での表現」を用いる。図３においては「非匿名化出力データ」に示すように、広報文書１に含まれる表現「事例データ共有プロジェクト」「カサンドラ」については、原文での表現を用いて閲覧させる。

図３に示す事例文書においては、プロジェクトリーダの山田さん（１）についての記述以外にも、特許部の山田さん（２）についての記述も存在する。しかし、上記の方法によれば、広報文書に含まれている原文表現についてのみ非匿名化を行う。このため、広報文書１によっても依然公表されていない内容、図３に示す例では「特許部の山田さん（２）」の実名については匿名化したまま「Ｙ２さん」と出力し、公表された内容、図３では「プロジェクトリーダの山田さん（１）」については、非匿名化して実名で出力する。このように、ナレッジマネジメントシステム１を用いて事例を共有する際に、既に公開されている情報については自動的に非匿名化して情報共有の促進を図ることができる。

なお、上記の実施形態においては、自動的に匿名化事例文書を非匿名化することとしているが、管理者等による承認があった場合にのみ非匿名化を行う構成としてもよい。すなわち、広報文書と類似性ありと判定された事例文書（あるいは匿名化事例文書）の変換テーブルに広報文書情報を設定する前に、ナレッジマネジメントシステム１の管理者あるいは事例文書の作成者に対して、非匿名化の可否を確認し、半自動的に非匿名化を行う構成としてもよい。かかる構成を備えたナレッジマネジメントシステム１によれば、管理者等は、公表された文書を参照して匿名表現ごとに非匿名化の可否を判断する必要がなく、かつ公表された原文表現のそれぞれについて最終的に非匿名化を実行するか否かを管理することができる。

以下、変換テーブル１０を用いて上記の非匿名化処理を実行する方法について、フローチャートを参照して具体的に説明する。
図４は、変換テーブルを作成する処理を示したフローチャートである。変換テーブル１０は、上記のとおり、事例文書ごとに作成される。

まず、ステップＳ１で、事例文書のデータの入力を受け付け、ステップＳ２で、入力された事例文書の中からユーザにより指定された匿名化すべき表現の入力、すなわち匿名箇所及び原文表現の入力を受け付ける。ステップＳ３で、ユーザにより指定された匿名化後の表現の入力、すなわち匿名表現の入力を受け付け、ステップＳ４で、匿名化すべき表現の前後からキーワードを抽出する。

ステップＳ５で、事例文書（あるいは匿名化事例文書）及び変換テーブル１０を登録し、処理を終了する。
図５は、事例文書の閲覧処理を示したフローチャートである。図５に示す処理は、ユーザからの事例文書の閲覧要求をナレッジマネジメントシステム１において認識すると、図５に示す一連の処理が実行される。

ステップＳ１１で、ユーザが閲覧を求めている事例を指定する。ステップＳ１１においては、ユーザが閲覧を求める事例文書を識別するための識別番号等の情報を入力することにより、閲覧対象となる事例文書が指定される。ステップＳ１２で、指定された事例文書に対応する変換テーブル１０を参照して、事例文書の匿名化を行う。ステップＳ１３で、選択した表現を用いて事例文書を表示し、処理を終了する。

ステップＳ１２の匿名化の処理に関しては、広報文書情報が登録されている匿名箇所については、非匿名化を行って原文での表現をそのままユーザに示してもよいとして、「原文表現」を選択する。広報文書情報の値がＮＵＬＬ値である匿名箇所については、原文での表現はまだ公表されていないとして、「匿名表現」を選択する。

上記のとおり、ナレッジマネジメントシステム１において保有する文書データは、事例文書であってもよいし、匿名化事例文書であってもよい。事例文書を保有する場合は、「原文表現」が選択された匿名箇所については特に処理を行わず、事例文書中の表現（原文表現）をそのまま出力するが、「匿名表現」が選択された匿名箇所については、変換テーブル１０を参照して「匿名表現」を読み出し、匿名箇所の表現を、原文での表現から匿名表現に置き換えて出力する。

一方、ナレッジマネジメントシステム１において保有する文書データが匿名化事例文書である場合は、「原文表現」が選択された匿名箇所については、変換テーブル１０を参照して「原文表現」を読み出し、匿名箇所の表現を、匿名表現から原文表現に置き換えて出力する。「匿名表現」が選択された匿名箇所については、特に処理を行わず、匿名化事例文書中の表現（匿名表現）をそのまま出力する。

図６は、データベースに蓄積されている広報文書に基づいて、事例文書中の匿名表現について非匿名化の可否を判定する処理を示したフローチャートである。ナレッジマネジメントシステム１においては常時データベースを監視しており、新たな広報文書がデータベースに蓄積されたことを認識すると、図６に示す処理が開始される。

ステップＳ２１で、データベースに蓄積されている広報文書の中から、新たに登録された広報文書を獲得する。ステップＳ２２で、獲得した広報文書中の文字列が、変換テーブル上の文字列と一致するか否かを判定する。ここで、ステップＳ２２においては、広報文書と文字列の一致度が高い変換テーブル１０については、その変換テーブル１０に対応する事例文書の内容と広報文書の内容とが合致する可能性が高いとの仮定に基づいて、広報文書中の文字列と変換テーブル中の文字列とを比較している。

ステップＳ２２において広報文書中の文字列と比較する変換テーブル１０上の文字列は、「原文表現」についての文字列であってもよいし、「匿名表現」についての文字列であってもよい。あるいは、原文表現及び匿名表現の両方の文字列と広報文書中の文字列とを比較することとしてもよい。

ステップＳ２３で、上記のステップにおいて一致する文字列が含まれると判定された各変換テーブル１０と広報文書とで類似度を求める。類似度の算出方法については後述する。ステップＳ２４で、求めた類似度（一致度）が所定の値を超えるか否かを判定する。

ステップＳ２４の判定において類似度が所定の値を超えるときはステップＳ２５に進み、非匿名化するか否かを管理する管理者あるいは事例文書の作成者に対して、事例文書と一致した文字列を通知し、その表現については非匿名化して閲覧させることを許可するか否かの確認を行う。非匿名化を了解する旨のメッセージ等を管理者等から受信すると、変換テーブル１０の広報文書情報に値を設定し、ステップＳ２１に戻る。求めた類似度が所定の値よりも小さいときは、特に処理を行わず、ステップＳ２１に戻り、他の新たな広報文書について、上記の匿名化の可否を判定する処理を開始する。

なお、ステップＳ２２において、広報文書の文字列と一致すると判定された変換テーブル１０が複数存在する場合は、各変換テーブルについてステップＳ２３以降の処理を実行してゆく。

上記のステップＳ２３の類似度の求め方について、更に詳細に説明する。
図７は、原文での表現を表す文字列に基づいて広報文書と変換テーブルとの類似度を算出する処理を示したフローチャートである。図７に示す方法では、変換テーブル１０に登録されている「原文表現」のうち広報文書に現れる割合に基づいて類似度を求めている。

ステップＳ３１で、広報文書中の文字列と一致する変換テーブルの文字列数を算出する。なお、類似度算出の対象となる変換テーブルは、予めその変換テーブル中の文字列と一致する文字列が広報文書に含まれるか否かを図６のステップＳ２２で判定している。言い換えると、広報文書と一致する文字列が含まれる変換テーブルが、ステップＳ３１で文字列検索の対象となる。そこで、ステップＳ３１においては、変換テーブルの「原文での表現」を表す文字列と一致する文字列を広報文書から検索し、一致する文字列数を求めている。

ステップＳ３２で、上記ステップＳ３１で求めた文字列の個数を用いて、変換テーブルに登録されている「原文での表現」数のうち、広報文書に記載されている表現の占める割合を求め、その割合が所定の値以上であるか否かを判定する。例えば図３に示す広報文書と変換テーブル１０とでは、登録されている原文表現の個数は４つであり、一致する原文表現の個数は「事例データ共有プロジェクト」と「カサンドラ」の２つである。この場合の類似度は２／４＝５０％である。

一致する文字列の占める割合が所定の値以上である場合は、ステップＳ３３に進み、広報文書と対象の変換テーブルに対応する事例文書とは類似性が大きいと判定し、処理を終了する。ステップＳ３３で類似性が大きいと判定された変換テーブルに対応する事例文書については、上記のとおり、更に図６のステップＳ２４において、事例文書中の文字列と広報文書中の文字列とを比較する処理を行う。

一致する文字列の示す割合が所定の値未満である場合は、ステップＳ３４に進み、広報文書と対象の変換テーブルに対応する事例文書とは類似性がないと判定し、処理を終了する。

図８は、文脈キーワードを表す文字列に基づいて広報文書と変換テーブルとの類似度を算出する処理を示したフローチャートである。図７に示す類似度の算出方法においては、変換テーブルと一致する文字列が広報文書に含まれる場合は、その文字列を類似度の算出に用いることとする。これに対し、図８に示す類似度算出方法においては、広報文書中の変換テーブルと一致する文字列が存在する場合は、その文字列の前後のキーワードの一致度を更に判定し、キーワードの一致度から類似度を算出している。以下、図７に示す処理と異なる処理を中心に説明する。

ステップＳ４１で、広報文書に含まれる文字列のうち、変換テーブルの「原文での表現」と一致する文字列の前後からキーワードを抽出する。ステップＳ４１において広報文書からキーワードを抽出する方法については、上記の事例文書からキーワードを抽出する方法と同様である。

ステップＳ４２で、変換テーブルから文脈キーワードを抽出する。ここでは、ステップＳ４１で広報文書と一致した文字列からなる「原文での表現」に対応する文脈キーワードを変換テーブル１０から抽出する。

ステップＳ４３で、一致するキーワードの割合が所定の値以上であるか否かを判定する。ステップＳ４３における「一致するキーワードの割合」とは、「原文での表現」について広報文書と変換テーブル１０とで一致したキーワード数の、変換テーブル１０に登録されている全文脈キーワード数に対する割合と定義する。例えば、１つの「原文での表現」に対して設定されている文脈キーワードの個数が３つであり、広報文書と変換テーブル１０に登録されているキーワードとで一致するキーワード数は２つである場合、「一致するキーワードの割合」は２／３＝６７％と求められる。

ここで、ある事例文書についての変換テーブル１０には複数の「原文での表現」が登録されていることから、本実施形態においては、「原文での表現」のそれぞれについて一致するキーワードの割合を求め、その平均値を算出してステップＳ４３の判定に用いる。

求めた平均値が所定の値以上であるときは、ステップＳ４４に進み、類似性が大と判定して処理を終了する。平均値が所定の値未満であるときは、ステップＳ４５に進み、類似性なしと判定して処理を終了する。

上記のとおり、図８に示す類似度算出処理においては、キーワードが一致するか否かに基づいて広報文書に含まれる文字列と変換テーブルに登録されている文字列とが同一の文字列からなるか否かを判断する。例えば図２や図３に示す事例文書においては同一の人名「山田さん」が変換テーブルの「原文での表現」に登録されているが、キーワードを用いることで、同一の文字列からなる「原文での表現」が同一の変換テーブルに登録されている場合であっても、互いに区別して類似度を求めることができる。

以上説明したように、本実施形態に係るナレッジマネジメントシステム１によれば、入力された事例文書について予め変換テーブルに匿名箇所、原文表現及び匿名表現を登録しておく。公表された電子文書については順次データベースに蓄積してゆき、公表された文書中に、匿名化する前の表現すなわち原文表現が含まれると判定すると、その原文表現については、匿名化が不要であると判断して、変換テーブルに公表された文書が存在することを示す情報（上記実施形態においては広報文書情報）を設定する。ナレッジマネジメントシステム１のユーザが事例文書を閲覧しようとすると、変換テーブルを参照して、すでに公表されている表現については非匿名化して、まだ公表されていない表現については匿名化して閲覧させる。これにより、匿名化しておくべき情報については匿名化しつつ、公表された表現については非匿名化することにより、情報共有の促進を図ることができる。

Claims

入力された電子文書のうち匿名化された表現を非匿名化して閲覧させる機能を備えた電子文書管理プログラムであって、
指定された原文の表現（以下、原文表現という）と、該原文表現を匿名化して置き換える置換表現とを互いに対応付けて記憶手段に保持する手順、
データベースに格納されている公表文書の内容に基づいて、前記置換表現を非匿名化することが可能か否かを判定し、該判定結果を非匿名化可否情報として前記原文表現と対応付けて前記記憶手段に記憶する判定手順、
前記電子文書についての閲覧要求があったときは、前記非匿名化可否情報を参照して、前記置換表現について非匿名化が可能な場合は前記原文表現を用い、非匿名化が可能でない場合は前記置換表現のまま、該電子文書を閲覧させる手順、
をコンピュータに実行させることを特徴とする電子文書管理プログラム。
前記データベースに新たに公表文書が追加されたときは、該新たな公表文書中の文字列と前記記憶手段に記憶されている原文表現との比較に基づいて、該公表文書の内容が該電子文書に係わるものであるか否かを判定し、
前記公表文書の内容が前記電子文書に係わると判定した場合は、該公表文書に基づいて前記非匿名化可否情報を設定する第二判定手順、
を更にコンピュータに実行させることを特徴とする請求項１記載の電子文書管理プログラム。
前記第二判定手順は、前記記憶手段に記憶されている原文表現のうち、前記公表文書中の文字列と一致する原文表現の割合が所定の値以上であるときは、該公表文書の内容が該電子文書に係わると判定する
ことを特徴とする請求項２記載の電子文書管理プログラム。
前記判定手順は、新たに前記データベースに追加された公表文書に前記原文表現と一致する文字列が含まれているときは、該原文表現については非匿名化が可能であると判定する
ことを特徴とする請求項１、２または３記載の電子文書管理プログラム。
前記原文表現についての１以上のキーワードを前記電子文書から抽出して前記記憶手段に該原文表現と対応付けて記憶する手順を更にコンピュータに実行させ、
前記判定手順は、前記キーワードと一致する文字列を前記公表文書から検索し、対応する文字列が存在するときは、該キーワードに対応する置換表現については、非匿名化が可能であると判定する
ことを特徴とする請求項１、２、３または４記載の電子文書管理プログラム。
入力された電子文書のうち匿名化された表現を非匿名化して閲覧させるための電子文書管理装置であって、
指定された原文の表現（以下、原文表現という）と、該原文表現を匿名化して置き換える置換表現と、該原文表現を非匿名化することが可能か否かを示す非匿名化可否情報とを互いに対応付けて保持する記憶手段と、
データベースに格納されている公表文書の内容に基づいて、前記置換表現を非匿名化することが可能か否かを判定し、該判定結果を前記非匿名化可否情報に設定する判定手段と、
前記電子文書についての閲覧要求があったときは、前記非匿名化可否情報を参照して、前記置換表現について非匿名化が可能な場合は前記原文表現を用い、非匿名化が可能でない場合は前記置換表現のまま、該電子文書を閲覧させる閲覧手段と
を備えたことを特徴とする電子文書管理装置。
入力された電子文書のうち匿名化表現を非匿名化して閲覧させる電子文書管理方法であって、
指定された原文の表現（以下、原文表現という）と、該原文表現を匿名化して置き換える置換表現とを互いに対応付けて記憶手段に保持し、
データベースに格納されている公表文書の内容に基づいて、前記置換表現を非匿名化することが可能か否かを判定し、該判定結果を非匿名化可否情報として前記原文表現と対応付けて前記記憶手段に記憶し、
前記電子文書についての閲覧要求があったときは、前記非匿名化可否情報を参照して、前記置換表現について非匿名化が可能な場合は前記原文表現を用い、非匿名化が可能でない場合は前記置換表現のまま、該電子文書を閲覧させる
処理を備えたことを特徴とする電子文書管理方法。