JP4900475B2 - 電子文書管理装置及び電子文書管理プログラム - Google Patents

電子文書管理装置及び電子文書管理プログラム Download PDF

Info

Publication number
JP4900475B2
JP4900475B2 JP2009504909A JP2009504909A JP4900475B2 JP 4900475 B2 JP4900475 B2 JP 4900475B2 JP 2009504909 A JP2009504909 A JP 2009504909A JP 2009504909 A JP2009504909 A JP 2009504909A JP 4900475 B2 JP4900475 B2 JP 4900475B2
Authority
JP
Japan
Prior art keywords
expression
document
anonymized
electronic document
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009504909A
Other languages
English (en)
Other versions
JPWO2008114316A1 (ja
Inventor
明彦 小幡
潤 伊吹
茂 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008114316A1 publication Critical patent/JPWO2008114316A1/ja
Application granted granted Critical
Publication of JP4900475B2 publication Critical patent/JP4900475B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • G06V30/1985Syntactic analysis, e.g. using a grammatical approach

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報の共有を促進するために、電子文書に含まれる表現のうち匿名化すべき表現については匿名化して電子文書を管理する技術に関する。
組織内で知識の共有を促進するためのナレッジマネジメントは、今後企業等の組織においてはますます浸透していくものと思われる。ナレッジマネジメントにおいては、例えば現場での経験から得られた教訓や工夫を実際に生じた具体的な事例としてその内容を順次蓄積していく。蓄積した事例に基づいて組織内で議論や検索することができるようになるため、企業等の組織における知識創造においてナレッジマネジメントは非常に有益な手法である。
ここで、事例を記載した文書のデータをナレッジマネジメントのシステムに入力して用いる際に、実際の氏名や名称については匿名化した上で利用される場合が多い。すなわち、実名を公開することは不適切であるとして一般化した名称等に置き換えて匿名化し、その公開すべきでない表現については匿名化した文書を共有する。予め用意されている単語辞書に置換単語を格納しておき、単語辞書を参照して入力文書について伏字加工処理を行う技術が提供されている(例えば、特許文献1)。
文書について加工処理を行う技術に関しては、入力された変換対象分について、変形規則記憶部中の変形規則を用いて多くの変換の候補を生成し、生成した候補について評価をし、評価結果のよい表現の文字列を選択する技術について提供されている(例えば、特許文献2)。
また、世代管理方式の文書データベースにおいて、現世代から次世代への索引更新の際に、文書の更新内容を示す更新情報を作成し、作成した更新情報と索引とを用いて次世代の文書データベースを表現する技術について提供されている(例えば、特許文献3)。
特開2002−259368号公報 特開2003−22264号公報 特開2006−185368号公報
ナレッジマネジメントにおいて固有名詞等を匿名化した文書は、資料価値が低くよみづらいという問題がある。すなわち、共有すべき情報についても匿名化されてしまうことがあり、このような場合は、ユーザは必要な情報をその匿名化された文書から得ることができないことがある。また、既知の情報であっても匿名化されている場合には返って文書の内容が理解しにくくなることがある。
事例の中には、その内容の一部が新聞等のメディアを介して公知となる場合がある。公知とされた情報についてはナレッジマネジメントシステムにおいてももはや匿名化しておく必要はない。しかし、従来におけるナレッジマネジメントシステムにおいては、匿名化を行うことはできても、公表された内容については匿名化せずに原文のまま出力させる手段は存在しなかった。
本発明は、一度匿名化した電子文書について、ユーザが煩雑な作業を行うことなく非匿名化することを可能とすることにより、情報の共有を促進することのできる技術を提供することを目的とする。
上記課題を解決するために、本発明は、入力された電子文書のうち匿名化された表現を非匿名化して閲覧させる機能を備えた電子文書管理プログラムであって、指定された原文の表現(以下、原文表現という)と、該原文表現を匿名化して置き換える置換表現とを互いに対応付けて記憶手段に保持する手順、データベースに格納されている公表文書の内容に基づいて、前記置換表現を非匿名化することが可能か否かを判定し、該判定結果を非匿名化可否情報として前記原文表現と対応付けて前記記憶手段に記憶する判定手順、前記電子文書についての閲覧要求があったときは、前記非匿名化可否情報を参照して、前記置換表現について非匿名化が可能な場合は前記原文表現を用い、非匿名化が可能でない場合は前記置換表現のまま、該電子文書を閲覧させる手順をコンピュータに実行させる構成とする。
予め電子文書中の原文表現と匿名化した場合に置き換える表現とを互いに対応付けて、記憶手段に保持しておく。データベースには公表文書を蓄積してゆき、記憶手段に保持している原文表現がデータベース上の公表文書に含まれるときは、その表現については非匿名化が可能であることを示す非匿名化可否情報を設定する。ユーザにより電子文書の閲覧を求められたときに、非匿名化可否情報に非匿名化が可能であることを示す値が設定されている表現については、匿名化を行わずにその電子文書を閲覧させる。これにより、公表された表現については非匿名化がなされ、情報共有の促進に資する。
前記データベースに新たに公表文書が追加されたときは、該新たな公表文書中の文字列と前記記憶手段に記憶されている原文表現との比較に基づいて、該公表文書の内容が該電子文書に係わるものであるか否かを判定し、前記公表文書の内容が前記電子文書に係わると判定した場合は、該公表文書に基づいて前記非匿名化可否情報を設定する第二判定手順を更にコンピュータに実行させる構成としてもよい。
更には、前記判定手順は、新たに前記データベースに追加された公表文書に前記原文表現と一致する文字列が含まれているときは、該原文表現については非匿名化が可能であると判定する構成としてもよい。あるいは、前記原文表現についての1以上のキーワードを前記電子文書から抽出して前記記憶手段に該原文表現と対応付けて記憶する手順を更にコンピュータに実行させ、前記判定手順は、前記キーワードと一致する文字列を前記公表文書から検索し、対応する文字列が存在するときは、該キーワードに対応する置換表現については、非匿名化が可能であると判定する構成としてもよい。
本発明によれば、匿名化した表現が公表文書に含まれているときは、その表現については非匿名化して閲覧することができる。このため、ユーザは煩雑な処理を行うことなく、情報共有を促進させることができる。
本実施形態に係るナレッジマネジメントシステムについての原理図である。 変換テーブルを作成する処理を説明する図である。 広報文書に基づいて事例文書中の匿名表現を非匿名化する処理を説明する図である。 変換テーブルを作成する処理を示したフローチャートである。 事例文書の閲覧処理を示したフローチャートである。 データベースに蓄積されている広報文書に基づいて非匿名化の可否を判定する処理を示したフローチャートである。 類似度を算出する処理を示したフローチャート(その1)である。 類似度を算出する処理を示したフローチャート(その2)である。
以下、本発明の好適な実施の形態について、図面を参照して詳細に説明する。
図1は、本実施形態に係るナレッジマネジメントシステムの原理図である。図1に示すナレッジマネジメントシステム1は、匿名化文書入力部2、匿名化文書管理部3、非匿名化指定部4、事例閲覧部5及び非匿名化通知部6を含んで構成される。
匿名化文書入力部2は、匿名化文書入力部2は、事例入力部21、匿名箇所指定部22及び匿名表現設定部23から構成され、事例を記載した電子文書やその電子文書を匿名化するための情報の入力を受け付ける。以下、事例を記載した電子文書であり、匿名化を行っていない原文のままの電子文書を「事例文書」と定義する。
匿名化文書入力部2のうち、事例入力部21には、事例文書が入力される。匿名箇所指定部22には、原文中の匿名化すべき箇所についての情報が入力される。匿名化すべき箇所(以下、匿名箇所と表記)は、ユーザがディスプレイ等の出力手段に表示される原文に対して、キーボードやポインティングデバイス等の入力手段を用いて指定することにより設定される。匿名表現設定部23には、匿名箇所の原文中の表現に対し、匿名化した場合に置き換えるべき表現(以下、匿名表現と表記)が入力される。匿名表現は、各匿名箇所に対してユーザが個別に設定する。
匿名化文書管理部3は、変換テーブル記憶部31、キーワード抽出部32及び匿名化事例記憶部33から構成され、匿名化文書入力部2を介して入力された各種情報や匿名化/非匿名化に必要な情報を記憶して管理する。
匿名化文書管理部3のうち、変換テーブル記憶部31は、事例文書について匿名化/非匿名化の変換を行うための変換テーブルを記憶する。変換テーブルには、匿名化文書入力部2を介して入力された各種情報や、各匿名表現について匿名化あるいは非匿名化のいずれを行うべきかを示す情報が登録される。キーワード抽出部32は、事例文書の原文を検索して、匿名箇所の前後から匿名化すべき表現についての1以上のキーワードを抽出する。キーワードは各匿名表現について抽出され、抽出されたキーワードは上記の変換テーブル31に登録される。キーワード抽出処理は公知の技術が用いられる。匿名化事例記憶部33は、事例文書のうち、匿名箇所について匿名表現に置き換えた文書(以下匿名化事例文書あるいは匿名化文書と表記)を記憶する。なお、本実施形態においては匿名化事例文書を記憶することとしているが、これに限るものではなく、事例文書を記憶する構成としてもよい。
非匿名化指定部4は、非匿名化判定部41及び広報文書記憶部42から構成され、公表された電子文書(以下「広報文書」と表記)に基づいて、変換テーブルに登録されている匿名表現のうち、匿名箇所の原文中の表現(以下、原文表現と表記)に戻して非匿名化することのできる箇所を指定する。なお、広報文書としては、例えば新聞社等のメディアがホームページ等に掲載した記事等の内容を含む電子文書がこれに相当する。
非匿名化指定部4の非匿名化判定部41は、広報文書に含まれる文字列に基づいて、匿名化文書に含まれる匿名表現のそれぞれについて非匿名化できるか否かを判定する。非匿名化判定部41は、図1に示すように、変換テーブル照合部43及び文脈性照合部44から構成される。広報文書記憶部42は、新聞等のメディアにより公表された広報文書を順次記憶してゆくデータベースからなる。
非匿名化判定部41の変換テーブル照合部43は、広報文書記憶部42に蓄積されている広報文書に含まれる文字列と、変換テーブル記憶部31上の変換テーブルに登録されている語とを照合する。文脈性照合部44は、広報文書の文脈から、照合に用いようとしている広報文書の文字列が適切であるか否かを判断する。すなわち、文脈性照合部44は、照合の対象とされている広報文書中の文字列の前後から抽出したキーワードを用いて、その文字列が適切に選択されていることを検証する。
事例閲覧部5は、ユーザから要求のあった事例文書について、匿名表現ごとに匿名化/非匿名化をしてユーザに閲覧させる。事例を出力表示させるときに、匿名化して出力すべき箇所については匿名表現を用い、広報文書において公表されている表現については原文表現を用いて出力する。
非匿名化通知部6は、広報文書中に原文表現と一致する文字列が含まれているときは、その原文表現については非匿名化することが可能である旨を管理者等に通知する。
図1に示すナレッジマネジメントシステム1は、事例文書中の事例をナレッジマネジメントシステム1に入力するときに、併せて匿名化すべき箇所及び置き換えた後の匿名表現を指定しておく。事例文書について匿名箇所及び匿名表現を変換テーブルで管理する一方で、公表された文書を順次データベースに蓄積してゆく。公表された文書に、ある事例文書の原文表現と一致する文字列が含まれるときは、もはや匿名表現を用いて匿名化する必要がないとして、原文での表現を用いてその事例を閲覧させる。匿名箇所ごとに、匿名表現を用いて匿名化して閲覧させるか、あるいは原文表現を用いて非匿名化して閲覧させるかを判断している。
図2は、本実施形態に係るナレッジマネジメントシステム1において事例文書ごとに変換テーブルを作成する処理を説明する図である。図中の左側の上段には入力された事例文書を、下段には匿名化文書を示し、図中の右側には、変換テーブル10を示す。
まず、入力された事例文書に対し、ユーザが匿名箇所を指定していく。図2に示す例では、ユーザが指定した匿名箇所は、「事例データ共有プロジェクト」「山田さん(1)」「カサンドラ」「知識共有の装置」「山田さん(2)」の5箇所である。次に、ユーザは指定した匿名箇所のそれぞれについて、匿名表現を設定する。ユーザにより入力された情報を変換テーブル10に登録する。
変換テーブル10は、事例文書ごとに作成され、匿名箇所すなわち原文表現に対して、匿名表現、広報文書情報及び文脈キーワードが関連付けられている。
匿名箇所及び匿名表現については上記の定義のとおりである。上記の5つの匿名箇所(原文表現)に対してそれぞれユーザが設定した匿名表現が登録される。
広報文書情報は、変換テーブル10に設定されている匿名箇所、すなわち原文表現が用いられている広報文書を示す。変換テーブル10の広報文書情報については、NULL値が格納されている匿名箇所については、広報文書にまだ原文での表現が用いられていないことを表し、値が設定されているときは、広報文書中に原文での表現が用いられていること、すなわち、その原文表現については公表されていることを表す。
なお、図2においては変換テーブル10を作成する段階における変換テーブル10を示しており、まだ事例文書に対応する広報文書についてはデータベースに登録されておらず、広報文書情報にはいずれも値が設定されていない。
文脈キーワードは、上記のとおり、事例文書中の匿名箇所の前後から公知技術を用いて抽出したキーワードであり、1つの原文表現に対して抽出された1以上の文脈キーワードが登録される。
図2に示す事例文書によれば、ユーザにより指定された匿名化すべき箇所のうち、個人名を表す「山田さん(1)」及び「山田さん(2)」は、互いに異なる個人を表す。すなわち、事例文書中にあるように、「山田さん(1)」は知識共有装置の開発プロジェクトのリーダであり、「山田さん(2)」は特許部のメンバである。重複する原文表現であっても、それぞれの原文表現に文脈キーワードを関連付けておくことで、原文中の同一の表現であっても互いに区別することができる。
図2に示す変換テーブル10が登録されているときに、ナレッジマネジメントシステム1のユーザにより事例文書をディスプレイに表示するよう要求されると、ナレッジマネジメントシステム1においては、変換テーブル10を参照して、事例文書中の匿名化すべき箇所については、対応する匿名表現に置き換えてユーザに閲覧させる。広報文書情報はいずれもNULL値が設定されているため、5つの匿名箇所全てについて匿名表現に置き換えた状態で事例を出力させる。
ここで、図2に示す事例文書においては、「山田さん」は「プロジェクトリーダの山田さん」及び「特許部の山田さん」の2人について記述がある。匿名化文書を出力する際における「山田さん(3)」の処理方法については、予めユーザに設定を求めることとしてもよい。あるいは、上記の文脈キーワードを用いて「Y1さん」あるいは「Y2さん」のいずれに置き換えるべきか判断することとしてもよい。
すなわち、図2に示す例で文脈キーワードを用いる場合は、「山田さん(3)」の前後の文脈中には「特許部」の表現があることから、「山田さん(3)」は「山田さん(2)」と同一と判断する。そして、「山田さん(3)」と表現されている箇所については、「山田さん(2)」に対応する匿名表現である「Y2さん」へと置き換えて出力する。
図3は、本実施形態に係るナレッジマネジメントシステム1において広報文書に基づいて事例文書中の匿名表現を非匿名化する処理を説明する図である。以下、図3を参照して、匿名化すべき箇所としてユーザにより指定された表現が広報文書に含まれる場合にその表現については非匿名化してユーザに事例文書を閲覧させる処理について説明する。なお、非匿名化処理の前処理である、入力された事例文書に対して図2に示す変換テーブル10を作成する処理については、既に実行されているものとする。
発行された広報文書は、順次図1の広報文書記憶部42に蓄積されてゆく。蓄積された広報文書のそれぞれについて、保持している事例文書あるいは匿名化事例文書のうち類似性の高い文書を検索する。検索の結果得られた事例文書あるいは匿名化事例文書に対応する変換テーブル10に、広報文書中に非匿名化して記載している表現については事例文書をユーザに閲覧させるときにも非匿名化が可能であることを示す情報を設定する。本実施形態においては、変換テーブル10の広報文書情報がこれに相当する。
広報文書と事例文書(あるいは匿名化事例文書)との類似性の判定は、変換テーブル10に設定されている表現と、広報文書に含まれる文字列との比較により行う。
広報文書1に含まれる文字列の中から変換テーブル10に登録されている文字列と一致するものを検索する。一致する文字列が変換テーブル10に登録されている文字列に対して所定の割合以上を占めるときは、広報文書1とその変換テーブル10に対応する事例文書とは類似性が大きいと判定する。
具体的には、事例文書(あるいは匿名化事例文書)ごとに作成されている変換テーブルを順次参照してゆくと、図3に示すように、広報文書1と変換テーブル10とでは、「事例データ共有プロジェクト」及び「カサンドラ」の文字列が一致する。例えば30%以上の表現が一致すれば、広報文書1はその変換テーブル10と対応付けることとする。図3の例では、変換テーブル10では4つの「原文での表現」が登録されているのに対し、広報文書1から抽出された「原文での表現」は2つである。すなわち、一致する文字列の割合は2/4=50%であり、広報文書1は図3に示す変換テーブル10に対応する事例文書あるいは匿名化事例文書と類似性ありと判定する。
類似性ありと判定された文書についての変換テーブル10には、広報文書1に含まれる非匿名化された表現と一致する「原文での表現」に対応する広報文書情報に、「広報文書1」を設定する。広報文書情報に情報が設定されているときは、広報文書記憶部42に記憶している広報文書の中に非匿名化して表現している広報文書が存在することを表す。
ユーザからの要求に対して事例文書を閲覧させるときは、変換テーブル10の広報文書情報に情報が設定されているときは、その表現については非匿名化した表現すなわち変換テーブル10の「原文での表現」を用いる。図3においては「非匿名化出力データ」に示すように、広報文書1に含まれる表現「事例データ共有プロジェクト」「カサンドラ」については、原文での表現を用いて閲覧させる。
図3に示す事例文書においては、プロジェクトリーダの山田さん(1)についての記述以外にも、特許部の山田さん(2)についての記述も存在する。しかし、上記の方法によれば、広報文書に含まれている原文表現についてのみ非匿名化を行う。このため、広報文書1によっても依然公表されていない内容、図3に示す例では「特許部の山田さん(2)」の実名については匿名化したまま「Y2さん」と出力し、公表された内容、図3では「プロジェクトリーダの山田さん(1)」については、非匿名化して実名で出力する。このように、ナレッジマネジメントシステム1を用いて事例を共有する際に、既に公開されている情報については自動的に非匿名化して情報共有の促進を図ることができる。
なお、上記の実施形態においては、自動的に匿名化事例文書を非匿名化することとしているが、管理者等による承認があった場合にのみ非匿名化を行う構成としてもよい。すなわち、広報文書と類似性ありと判定された事例文書(あるいは匿名化事例文書)の変換テーブルに広報文書情報を設定する前に、ナレッジマネジメントシステム1の管理者あるいは事例文書の作成者に対して、非匿名化の可否を確認し、半自動的に非匿名化を行う構成としてもよい。かかる構成を備えたナレッジマネジメントシステム1によれば、管理者等は、公表された文書を参照して匿名表現ごとに非匿名化の可否を判断する必要がなく、かつ公表された原文表現のそれぞれについて最終的に非匿名化を実行するか否かを管理することができる。
以下、変換テーブル10を用いて上記の非匿名化処理を実行する方法について、フローチャートを参照して具体的に説明する。
図4は、変換テーブルを作成する処理を示したフローチャートである。変換テーブル10は、上記のとおり、事例文書ごとに作成される。
まず、ステップS1で、事例文書のデータの入力を受け付け、ステップS2で、入力された事例文書の中からユーザにより指定された匿名化すべき表現の入力、すなわち匿名箇所及び原文表現の入力を受け付ける。ステップS3で、ユーザにより指定された匿名化後の表現の入力、すなわち匿名表現の入力を受け付け、ステップS4で、匿名化すべき表現の前後からキーワードを抽出する。
ステップS5で、事例文書(あるいは匿名化事例文書)及び変換テーブル10を登録し、処理を終了する。
図5は、事例文書の閲覧処理を示したフローチャートである。図5に示す処理は、ユーザからの事例文書の閲覧要求をナレッジマネジメントシステム1において認識すると、図5に示す一連の処理が実行される。
ステップS11で、ユーザが閲覧を求めている事例を指定する。ステップS11においては、ユーザが閲覧を求める事例文書を識別するための識別番号等の情報を入力することにより、閲覧対象となる事例文書が指定される。ステップS12で、指定された事例文書に対応する変換テーブル10を参照して、事例文書の匿名化を行う。ステップS13で、選択した表現を用いて事例文書を表示し、処理を終了する。
ステップS12の匿名化の処理に関しては、広報文書情報が登録されている匿名箇所については、非匿名化を行って原文での表現をそのままユーザに示してもよいとして、「原文表現」を選択する。広報文書情報の値がNULL値である匿名箇所については、原文での表現はまだ公表されていないとして、「匿名表現」を選択する。
上記のとおり、ナレッジマネジメントシステム1において保有する文書データは、事例文書であってもよいし、匿名化事例文書であってもよい。事例文書を保有する場合は、「原文表現」が選択された匿名箇所については特に処理を行わず、事例文書中の表現(原文表現)をそのまま出力するが、「匿名表現」が選択された匿名箇所については、変換テーブル10を参照して「匿名表現」を読み出し、匿名箇所の表現を、原文での表現から匿名表現に置き換えて出力する。
一方、ナレッジマネジメントシステム1において保有する文書データが匿名化事例文書である場合は、「原文表現」が選択された匿名箇所については、変換テーブル10を参照して「原文表現」を読み出し、匿名箇所の表現を、匿名表現から原文表現に置き換えて出力する。「匿名表現」が選択された匿名箇所については、特に処理を行わず、匿名化事例文書中の表現(匿名表現)をそのまま出力する。
図6は、データベースに蓄積されている広報文書に基づいて、事例文書中の匿名表現について非匿名化の可否を判定する処理を示したフローチャートである。ナレッジマネジメントシステム1においては常時データベースを監視しており、新たな広報文書がデータベースに蓄積されたことを認識すると、図6に示す処理が開始される。
ステップS21で、データベースに蓄積されている広報文書の中から、新たに登録された広報文書を獲得する。ステップS22で、獲得した広報文書中の文字列が、変換テーブル上の文字列と一致するか否かを判定する。ここで、ステップS22においては、広報文書と文字列の一致度が高い変換テーブル10については、その変換テーブル10に対応する事例文書の内容と広報文書の内容とが合致する可能性が高いとの仮定に基づいて、広報文書中の文字列と変換テーブル中の文字列とを比較している。
ステップS22において広報文書中の文字列と比較する変換テーブル10上の文字列は、「原文表現」についての文字列であってもよいし、「匿名表現」についての文字列であってもよい。あるいは、原文表現及び匿名表現の両方の文字列と広報文書中の文字列とを比較することとしてもよい。
ステップS23で、上記のステップにおいて一致する文字列が含まれると判定された各変換テーブル10と広報文書とで類似度を求める。類似度の算出方法については後述する。ステップS24で、求めた類似度(一致度)が所定の値を超えるか否かを判定する。
ステップS24の判定において類似度が所定の値を超えるときはステップS25に進み、非匿名化するか否かを管理する管理者あるいは事例文書の作成者に対して、事例文書と一致した文字列を通知し、その表現については非匿名化して閲覧させることを許可するか否かの確認を行う。非匿名化を了解する旨のメッセージ等を管理者等から受信すると、変換テーブル10の広報文書情報に値を設定し、ステップS21に戻る。求めた類似度が所定の値よりも小さいときは、特に処理を行わず、ステップS21に戻り、他の新たな広報文書について、上記の匿名化の可否を判定する処理を開始する。
なお、ステップS22において、広報文書の文字列と一致すると判定された変換テーブル10が複数存在する場合は、各変換テーブルについてステップS23以降の処理を実行してゆく。
上記のステップS23の類似度の求め方について、更に詳細に説明する。
図7は、原文での表現を表す文字列に基づいて広報文書と変換テーブルとの類似度を算出する処理を示したフローチャートである。図7に示す方法では、変換テーブル10に登録されている「原文表現」のうち広報文書に現れる割合に基づいて類似度を求めている。
ステップS31で、広報文書中の文字列と一致する変換テーブルの文字列数を算出する。なお、類似度算出の対象となる変換テーブルは、予めその変換テーブル中の文字列と一致する文字列が広報文書に含まれるか否かを図6のステップS22で判定している。言い換えると、広報文書と一致する文字列が含まれる変換テーブルが、ステップS31で文字列検索の対象となる。そこで、ステップS31においては、変換テーブルの「原文での表現」を表す文字列と一致する文字列を広報文書から検索し、一致する文字列数を求めている。
ステップS32で、上記ステップS31で求めた文字列の個数を用いて、変換テーブルに登録されている「原文での表現」数のうち、広報文書に記載されている表現の占める割合を求め、その割合が所定の値以上であるか否かを判定する。例えば図3に示す広報文書と変換テーブル10とでは、登録されている原文表現の個数は4つであり、一致する原文表現の個数は「事例データ共有プロジェクト」と「カサンドラ」の2つである。この場合の類似度は2/4=50%である。
一致する文字列の占める割合が所定の値以上である場合は、ステップS33に進み、広報文書と対象の変換テーブルに対応する事例文書とは類似性が大きいと判定し、処理を終了する。ステップS33で類似性が大きいと判定された変換テーブルに対応する事例文書については、上記のとおり、更に図6のステップS24において、事例文書中の文字列と広報文書中の文字列とを比較する処理を行う。
一致する文字列の示す割合が所定の値未満である場合は、ステップS34に進み、広報文書と対象の変換テーブルに対応する事例文書とは類似性がないと判定し、処理を終了する。
図8は、文脈キーワードを表す文字列に基づいて広報文書と変換テーブルとの類似度を算出する処理を示したフローチャートである。図7に示す類似度の算出方法においては、変換テーブルと一致する文字列が広報文書に含まれる場合は、その文字列を類似度の算出に用いることとする。これに対し、図8に示す類似度算出方法においては、広報文書中の変換テーブルと一致する文字列が存在する場合は、その文字列の前後のキーワードの一致度を更に判定し、キーワードの一致度から類似度を算出している。以下、図7に示す処理と異なる処理を中心に説明する。
ステップS41で、広報文書に含まれる文字列のうち、変換テーブルの「原文での表現」と一致する文字列の前後からキーワードを抽出する。ステップS41において広報文書からキーワードを抽出する方法については、上記の事例文書からキーワードを抽出する方法と同様である。
ステップS42で、変換テーブルから文脈キーワードを抽出する。ここでは、ステップS41で広報文書と一致した文字列からなる「原文での表現」に対応する文脈キーワードを変換テーブル10から抽出する。
ステップS43で、一致するキーワードの割合が所定の値以上であるか否かを判定する。ステップS43における「一致するキーワードの割合」とは、「原文での表現」について広報文書と変換テーブル10とで一致したキーワード数の、変換テーブル10に登録されている全文脈キーワード数に対する割合と定義する。例えば、1つの「原文での表現」に対して設定されている文脈キーワードの個数が3つであり、広報文書と変換テーブル10に登録されているキーワードとで一致するキーワード数は2つである場合、「一致するキーワードの割合」は2/3=67%と求められる。
ここで、ある事例文書についての変換テーブル10には複数の「原文での表現」が登録されていることから、本実施形態においては、「原文での表現」のそれぞれについて一致するキーワードの割合を求め、その平均値を算出してステップS43の判定に用いる。
求めた平均値が所定の値以上であるときは、ステップS44に進み、類似性が大と判定して処理を終了する。平均値が所定の値未満であるときは、ステップS45に進み、類似性なしと判定して処理を終了する。
上記のとおり、図8に示す類似度算出処理においては、キーワードが一致するか否かに基づいて広報文書に含まれる文字列と変換テーブルに登録されている文字列とが同一の文字列からなるか否かを判断する。例えば図2や図3に示す事例文書においては同一の人名「山田さん」が変換テーブルの「原文での表現」に登録されているが、キーワードを用いることで、同一の文字列からなる「原文での表現」が同一の変換テーブルに登録されている場合であっても、互いに区別して類似度を求めることができる。
以上説明したように、本実施形態に係るナレッジマネジメントシステム1によれば、入力された事例文書について予め変換テーブルに匿名箇所、原文表現及び匿名表現を登録しておく。公表された電子文書については順次データベースに蓄積してゆき、公表された文書中に、匿名化する前の表現すなわち原文表現が含まれると判定すると、その原文表現については、匿名化が不要であると判断して、変換テーブルに公表された文書が存在することを示す情報(上記実施形態においては広報文書情報)を設定する。ナレッジマネジメントシステム1のユーザが事例文書を閲覧しようとすると、変換テーブルを参照して、すでに公表されている表現については非匿名化して、まだ公表されていない表現については匿名化して閲覧させる。これにより、匿名化しておくべき情報については匿名化しつつ、公表された表現については非匿名化することにより、情報共有の促進を図ることができる。

Claims (7)

  1. 入力された電子文書のうち匿名化された表現を非匿名化して閲覧させる機能を備えた電子文書管理プログラムであって、
    指定された原文の表現(以下、原文表現という)と、該原文表現を匿名化して置き換える置換表現とを互いに対応付けて記憶手段に保持する手順、
    データベースに格納されている公表文書の内容に基づいて、前記置換表現を非匿名化することが可能か否かを判定し、該判定結果を非匿名化可否情報として前記原文表現と対応付けて前記記憶手段に記憶する判定手順、
    前記電子文書についての閲覧要求があったときは、前記非匿名化可否情報を参照して、前記置換表現について非匿名化が可能な場合は前記原文表現を用い、非匿名化が可能でない場合は前記置換表現のまま、該電子文書を閲覧させる手順、
    をコンピュータに実行させることを特徴とする電子文書管理プログラム。
  2. 前記データベースに新たに公表文書が追加されたときは、該新たな公表文書中の文字列と前記記憶手段に記憶されている原文表現との比較に基づいて、該公表文書の内容が該電子文書に係わるものであるか否かを判定し、
    前記公表文書の内容が前記電子文書に係わると判定した場合は、該公表文書に基づいて前記非匿名化可否情報を設定する第二判定手順、
    を更にコンピュータに実行させることを特徴とする請求項1記載の電子文書管理プログラム。
  3. 前記第二判定手順は、前記記憶手段に記憶されている原文表現のうち、前記公表文書中の文字列と一致する原文表現の割合が所定の値以上であるときは、該公表文書の内容が該電子文書に係わると判定する
    ことを特徴とする請求項2記載の電子文書管理プログラム。
  4. 前記判定手順は、新たに前記データベースに追加された公表文書に前記原文表現と一致する文字列が含まれているときは、該原文表現については非匿名化が可能であると判定する
    ことを特徴とする請求項1、2または3記載の電子文書管理プログラム。
  5. 前記原文表現についての1以上のキーワードを前記電子文書から抽出して前記記憶手段に該原文表現と対応付けて記憶する手順を更にコンピュータに実行させ、
    前記判定手順は、前記キーワードと一致する文字列を前記公表文書から検索し、対応する文字列が存在するときは、該キーワードに対応する置換表現については、非匿名化が可能であると判定する
    ことを特徴とする請求項1、2、3または4記載の電子文書管理プログラム。
  6. 入力された電子文書のうち匿名化された表現を非匿名化して閲覧させるための電子文書管理装置であって、
    指定された原文の表現(以下、原文表現という)と、該原文表現を匿名化して置き換える置換表現と、該原文表現を非匿名化することが可能か否かを示す非匿名化可否情報とを互いに対応付けて保持する記憶手段と、
    データベースに格納されている公表文書の内容に基づいて、前記置換表現を非匿名化することが可能か否かを判定し、該判定結果を前記非匿名化可否情報に設定する判定手段と、
    前記電子文書についての閲覧要求があったときは、前記非匿名化可否情報を参照して、前記置換表現について非匿名化が可能な場合は前記原文表現を用い、非匿名化が可能でない場合は前記置換表現のまま、該電子文書を閲覧させる閲覧手段と
    を備えたことを特徴とする電子文書管理装置。
  7. 入力された電子文書のうち匿名化表現を非匿名化して閲覧させる電子文書管理方法であって、
    指定された原文の表現(以下、原文表現という)と、該原文表現を匿名化して置き換える置換表現とを互いに対応付けて記憶手段に保持し、
    データベースに格納されている公表文書の内容に基づいて、前記置換表現を非匿名化することが可能か否かを判定し、該判定結果を非匿名化可否情報として前記原文表現と対応付けて前記記憶手段に記憶し、
    前記電子文書についての閲覧要求があったときは、前記非匿名化可否情報を参照して、前記置換表現について非匿名化が可能な場合は前記原文表現を用い、非匿名化が可能でない場合は前記置換表現のまま、該電子文書を閲覧させる
    処理を備えたことを特徴とする電子文書管理方法。
JP2009504909A 2007-03-19 2007-03-19 電子文書管理装置及び電子文書管理プログラム Expired - Fee Related JP4900475B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/000256 WO2008114316A1 (ja) 2007-03-19 2007-03-19 電子文書管理装置及び電子文書管理プログラム

Publications (2)

Publication Number Publication Date
JPWO2008114316A1 JPWO2008114316A1 (ja) 2010-06-24
JP4900475B2 true JP4900475B2 (ja) 2012-03-21

Family

ID=39765437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009504909A Expired - Fee Related JP4900475B2 (ja) 2007-03-19 2007-03-19 電子文書管理装置及び電子文書管理プログラム

Country Status (2)

Country Link
JP (1) JP4900475B2 (ja)
WO (1) WO2008114316A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5201676B2 (ja) * 2008-11-11 2013-06-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳支援方法、翻訳支援装置及びコンピュータプログラム
JP7017531B2 (ja) * 2019-02-12 2022-02-08 Kddi株式会社 リスク判定装置、リスク判定方法及びリスク判定プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3578450B2 (ja) * 2001-06-29 2004-10-20 株式会社東芝 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム
JP2003150602A (ja) * 2001-11-15 2003-05-23 Hitachi Ltd 文書情報管理方法および装置

Also Published As

Publication number Publication date
WO2008114316A1 (ja) 2008-09-25
JPWO2008114316A1 (ja) 2010-06-24

Similar Documents

Publication Publication Date Title
Ding et al. Entity discovery and assignment for opinion mining applications
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
JP5116775B2 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4464975B2 (ja) コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法
JP5229226B2 (ja) 情報共有システム、情報共有方法、および情報共有プログラム
US11281737B2 (en) Unbiasing search results
US20180181544A1 (en) Systems for Automatically Extracting Job Skills from an Electronic Document
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
Adrian et al. Contag: A semantic tag recommendation system
US11416907B2 (en) Unbiased search and user feedback analytics
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
Geiß et al. Neckar: A named entity classifier for wikidata
JP2008234550A (ja) 専門家情報検索装置、専門家情報検索方法およびプログラム。
US20100138414A1 (en) Methods and systems for associative search
JP4900475B2 (ja) 電子文書管理装置及び電子文書管理プログラム
US20160085850A1 (en) Knowledge brokering and knowledge campaigns
US8195458B2 (en) Open class noun classification
JP5903171B2 (ja) データ加工システムおよびデータ加工方法
US20090319505A1 (en) Techniques for extracting authorship dates of documents
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
JP2007299093A (ja) 文書管理システム
JP6361472B2 (ja) 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
US20080021875A1 (en) Method and apparatus for performing a tone-based search

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees