JP2009271573A

JP2009271573A - 情報処理システム、情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2009271573A
Application number: JP2008118677A
Authority: JP
Inventors: Iwao Inagaki; 巌稲垣; Takuma Murakami; 拓真村上
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-04-30
Filing date: 2008-04-30
Publication date: 2009-11-19
Anticipated expiration: 2028-04-30
Also published as: JP5153443B2

Abstract

【課題】自然言語解析処理を用いたアクセス制御を実現すること。
【解決手段】本発明の情報処理システム１００は、文書データを格納する文書格納部５０と、文書データのテキストに含まれる意味単位に対し、属性を付与する解析部５２と、文書データの意味単位と、該意味単位に付与された属性とを対応づけて格納する属性インデックス格納部（６６，６８）と、属性に関連付けられた意味単位を含む情報に対する、アクセス主体のアクセス権限を定義付ける権限定義データを格納する権限定義格納部７６、権限定義データを参照し、文書データ内の意味単位を含む情報につき、該意味単位に関連付けられた属性に応じて、アクセス主体によるアクセスの可否を判定するアクセス制御部７２と、文書データへのアクセス照会の入力に応答して、アクセス制御部の判定に従った照会結果を出力する入出力部７４とを含む。
【選択図】図３

Description

本発明は、情報に対するアクセス制御技術に関し、より詳細には、自然言語解析処理を用いたアクセス制御に関する。

企業内には、コール・センターのコンタクト履歴、故障報告、品質情報、営業日誌、アンケートなど、種々のテキスト情報が存在する。近年、このようなテキスト情報を有効に活用し、新たな価値を生み出すことの重要性が認識されている。例えば、上記コール・センターの例では、寄せられた「お客様の声」を分析し、問題の早期発見やお客様満足度の向上を図りたいという要望がある。また、近年、コンプライアンスの観点から、メールなどを含む全ての電子データを蓄積および管理するとともに、監査の要求などがあった場合に、非定型なテキスト情報からも、必要な情報を迅速に取り出すことができるような仕組みも求められている。

上述したように、種々の場面において、テキスト情報を活用することの重要性が高まる一方、テキスト情報には、お客様の個人情報、企業内の機密情報など、秘匿すべき情報が含まれる場合がある。このような場合、情報にアクセスできるユーザを制限しなければならない。しかしながら、文書内のテキスト情報に秘匿すべき情報が含まれるからといって、文書に対するアクセスを制限した場合には、文書に含まれる他の開示しても良いテキスト情報を有効に活用できない場面が生じる。例えば、お客様からの障害報告に個人情報が含まれていた場合、個人情報を保護するために文書ファイルへのアクセスを制限すると、ごく限られたユーザしか「お客様の声」などの他の有用な情報を参照することができず、文書中に埋もれた情報資源を有効に活用する機会が失われてしまう可能性があった。

情報へのアクセス制御という観点では、リレーショナル・データベース（以下、ＲＤＢとして参照する）に蓄積される構造化情報であれば、ＲＤＢのカラム単位でのアクセス制御も可能であり、ある程度、柔軟かつきめ細やかなアクセス制御が可能であるといえる。しかしながら、企業内に存在する情報の大部分を占めるテキスト情報といった非構造化情報は、開示できる情報と秘匿すべき情報が混在するため、従来では、単純な分類に基づく文書単位でのアクセス制御となっていた。

例えば、特開２００６−２０９６４９号公報（特許文献１）は、大量の電子文書から機密情報を含む文書を自動的に検出できるようにすることを目的として、格納された文書を参照し、その文書を、ヘッダ、本文、フッタ等の部分領域に分割し、部分領域毎に、部分領域に応じた特徴定義辞書を参照して、部分領域から特徴要素を抽出し、その部分領域が分類され得る機密情報カテゴリの候補を指定し、候補となった機密情報カテゴリ毎に、カテゴリに応じた特徴要素の配置状況を定量的に評価し、その部分領域がどの機密情報カテゴリに分類されるのかを判定し、各部分領域が分類された機密情報カテゴリと、各機密情報カテゴリの重要度とに基づいて、文書がどの機密情報カテゴリに分類されるのかを判定し、また、その文書の重要度を決定する機密文書検索システムを開示している。

テキスト情報に含まれる秘匿すべき情報を保護する技術としては、特開２００６−２２１５６０号公報（特許文献２）は、文書データを構文解析して個人情報など秘匿すべき特定の情報を抽出し、抽出した個人情報各々を当該個人情報とは異なる適当なデータに置き換えることによって、個人情報などの秘匿すべき情報
をマスクする技術を開示している。

また、アクセス制限された文書に含まれる情報を活用する技術として、特開２０００−４７９２２号公報（特許文献３）は、サーバの管理下にある実質的な内容を有する実体情報にアクセスしようとするユーザが、その実体情報を開示すべき対象でない場合にも、該実体情報を特定するための付随的な内容を有する情報をユーザに開示する手段を備える情報提供方式を開示している。特許文献３に開示される技術によれば、実質的な内容を有する実体情報の開示対象者でないとされたユーザであっても、どのような実体情報が存在するかを知ることができるようになる。

特開２００６−２０９６４９号公報特開２００６−２２１５６０号公報特開２０００− ４７９２２号公報

上記特許文献１に開示される技術は、比較的精度良く機密文書を検出できるよう文書の分類法に工夫を施しているといえる。しかしながら、特許文献１の技術は、文書単位でアクセス制御するものであり、機密文書として分類された文書は、その文書中に開示しても良い内容を含んでいたとしても、権限を有さないユーザは、全くアクセスすることができない。したがって、依然として、文書中に埋もれた情報資源を有効に活用する機会が失われてしまう可能性があった。

また、上記特許文献２に開示される技術は、秘匿すべき情報の抽出方法に工夫を施しているといえる。しかしながら、特許文献２の技術は、個人情報など秘匿すべき情報を異なるデータに置換する技術であり、マスク処理の対象は静的に決定され、また、ユーザに応じて柔軟に情報に対するアクセス制御を実現するものではない。

また、上記特許文献３の技術は、実体情報の開示対象者でないとされたユーザであっても、どのような実体情報が存在するかを知ることを可能としているが、該実体情報を特定するための極めて限られた付随的な内容の情報のみを開示するものであり、依然として、情報資源の有効な活用という観点から充分なものではなかった。

また、開示できる情報と秘匿すべき情報は、その情報にアクセスしようとするユーザの役割など以外にも、その情報の文脈上の位置づけ、状況に応じて変化する情報の重要性などの経時的な要因によっても変わってくる。例えば、同じ個人情報であっても、賞賛、苦情、質問など、個人情報に係る文章の意味内容によっても、開示してもよい場合とそうでない場合がある。

また、リピータやクレーマなど、統計的処理の結果導き出される情報の属性によっても開示すべき情報が変化する場合がある。また、ユーザの増加にともなって、多種多様なユーザがテキスト情報にアクセスするようになり、ユーザの多様な属性に応じて柔軟にアクセス権限を判断することが求められている。このように、非構造化情報であるテキスト情報に対して、柔軟かつ、きめ細やかなアクセス制御を実現する技術が望まれていた。

本発明は、上記問題点に鑑みてなされたものであり、本発明は、非構造化情報であるテキスト情報に含まれる、語、句、節、文、複数文など、種々の粒度を有する意味単位を含む情報に対し、アクセス主体に定義された権限に応じた、柔軟かつ、きめ細やかなアクセス制御を実現する、情報処理システム、情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

また本発明は、テキスト情報に含まれる、語、句、節、文、複数文など、種々の粒度を有する意味単位を含む情報につき、該意味単位が表現する意味内容に応じた、柔軟かつ、きめ細やかなアクセス制御を実現する、情報処理システム、情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

さらに、本発明は、テキスト情報に含まれる、語、句、節、文、複数文など、種々の粒度を有する意味単位の情報につき、統計処理により導き出される経時的な変化に応じた、柔軟かつ、きめ細やかなアクセス制御を実現する、情報処理システム、情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

本発明は、上記従来技術の不都合に鑑みてなされたものであり、本発明では、文書格納部に格納された文書データのテキストに含まれる意味単位に対し、解析により属性を付与し、文書データの意味単位と、該意味単位に付与された属性とを対応づけるインデックスとして格納する。また、属性に関連付けられた意味単位を含む情報に対するアクセス主体のアクセス権限を定義付け、権限定義データとして格納する。文書データへのアクセス照会の入力があると、権限定義データを参照し、文書データ内の意味単位を含む情報につき、該意味単位に関連付けられた属性に応じて、アクセス主体によるアクセスの可否を判定する。そして、アクセス制御部による判定に従った照会結果を照会元に出力する。

上記構成により、文書データ単位のアクセス制御だけでなく、文書データ内のテキストに含まれる種々の粒度を有する意味単位で、動的かつ、きめ細やかなアクセス制御が実現され、もって、情報資源を有効に活用することが可能となる。さらに、文書データ内の意味単位を含む情報に対するアクセスの可否は、アクセス主体の権限を定義付ける権限定義データを参照して、解析により該意味単位に関連付けられた属性に応じて判定されるため、アクセス主体、および該意味単位が表現する意味内容に応じた、柔軟なアクセス制御が可能となる。なお、意味単位に関連付けられた属性は、当該意味単位に直接対応付けられた属性、当該意味単位を含有する他の単位に対応付けられた属性、当該意味単位が含んでいる他の意味単位に対応付けられた属性とすることができる。

本発明では、さらに、意味単位に対し、統計解析処理によって算出された統計値を示す属性をさらに付与することができる。統計解析により導きだされる属性を用いて、各意味単位へのアクセスが動的に制御できるため、経時的な要因を考慮した柔軟なアクセス制御が可能となる。

また本発明では、文書データと、該文書データに対して付された属性とをさらに対応付けて格納し、文書データに付与された属性に応じて、さらに文書データ自体に対するアクセスの可否を判定することができる。これにより、文書データに対する一定の保護を保ちつつ、文書データ内の開示しても良い情報を、より広い範囲に開示することができ、もって、最大限に情報資源を活用する可能性が開かれる。さらに本発明では、アクセス制御部が閲覧不可と判定した意味単位を含む情報を文書データから削除または文書データにマスクし、そのデータを照会結果として出力することができる。

さらに本発明では、文書格納部から文書データを読み出して、テキストを取得し、辞書を用いた自然言語解析処理により、該テキストから意味単位を抽出して、各意味単位に属性を付与することができる。さらに本発明では、各々の意味単位は、語、句、節、文、および複数文からなる群から選択された粒度を有することができる。この構成により、文書データ内のテキストに含まれる、語、句、節、文、および複数文の言語上の意味レベルでの粒度の細かいアクセス制御が実現される。

以下、本発明について実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。なお、以下の実施形態では、情報に対するアクセスを制御する情報処理システムの一例として、文書内の情報に対する閲覧を制御する文書閲覧システムを例に説明する。

図１は、本実施形態の文書閲覧システム１００の概略図である。図１に示す文書閲覧システム１００は、複数のクライアント・コンピュータ（以下、クライアントとして参照する。）１０２ａ〜ｃと、クライアント１０２からの文書閲覧の照会を処理するサーバ・コンピュータ（以下、サーバとして参照する。）１０４とを含んで構成される。

クライアント１０２と、サーバ１０４とは、ネットワーク１０８を介して相互接続されている。本実施形態では、ネットワーク１０８は、イーサネット（登録商標）やＴＣＰ／ＩＰなどのトランザクション・プロトコルによるＬＡＮ（Local Area Network）や、ＶＰＮ（Virtual Private Network）や専用線を使用して接続されるＷＡＮ（Wide Area Network）などとして構成することができるが、特に限定されるものではない。クライアント１０２は、ネットワーク１０８に接続されるインターネット１１４を介してサーバ１０４に接続することもできる。

サーバ１０４は、ＣＧＩ(Common Gateway Interface)、ＳＳＩ（Server Side Include）、サーブレット、ウェブ・アプリケーションなどのサーバ・プログラムを実装して構成することができ、ＨＴＴＰプロトコルを使用して、クライアント１０２からの文書閲覧の照会を処理し、クライアント１０２に照会結果を返す。クライアント１０２は、ウェブ・ブラウザ、プラグインなどを実装して構成することができ、文書閲覧の照会をサーバ１０４に対して行い、サーバ１０４から取得される照会結果をディスプレイ画面上に表示する。

サーバ１０４は、文書データと、インデックスと、ユーザに関する情報（以下、ユーザ情報として参照する。）と、辞書データとを格納するデータ格納部１０６を含んで構成される。上記文書データは、少なくともテキスト情報を含み、より具体的な例としては、コール・センターにおいてオペレータによって自由形式にて入力された問い合わせ、苦情、お褒めの言葉、要望、障害報告などを含むコンタクト情報や、電子メールシステムで交換される電子メールのメッセージなど、非定型なテキスト情報を含むことができる。また文書データは、例えば、プレーン・テキスト、マルチスタイル・テキストなどのドキュメント、ＯＣＲ文字列をメタデータとして含むイメージなどとして、ファイルシステムやデータベース上に、コンピュータがアクセス可能なフォーマットで格納される。

サーバ１０４は、文書データを閲覧可能に登録する場合、文書データに含まれるテキスト情報に対して、辞書データを参照して、形態素解析、係り受け解析などの言語解析処理を適用する。サーバ１０４は、言語解析処理を適用することにより、文書に含まれる特定の単語が抽出され、閲覧制御に用いるための種々の属性を文書データにタグ付けするとともに、テキスト情報に含まれる語、句、節、文、複数文（以下、まとまった意味を構成する文および複数の文を、文章として参照する。）、種々の粒度を有する意味単位に対しても属性をタグ付けする。サーバ１０４は、さらに、文書データに含まれる意味単位のインデックスを作成し、さらに統計解析法を実装することにより、意味単位の絶対的または相対的な出現頻度など統計値を算出し、意味単位に対し属性として付加する。

上記辞書データは、形態素解析や係り受け解析で用いる自然言語解析用の辞書の他、特定の用途に応じて、固有表現を抽出するための固有表現辞書、製品の名称、その分類、問題表現など、特定の内容のテキスト情報に現れる可能性のある表現を辞書化した種々の表現辞書を含むことができる。サーバ１０４は、表現辞書を参照して、文書データ自体および該文書データに含まれる文章を、苦情、賞賛、要望、障害報告、好評、不評などに分類し、文書データや文章に対し、属性として付与することができる。

上記ユーザ情報は、文書閲覧システム１００の利用者のユーザに関する情報を登録し、ユーザ名、パスワード、ユーザの閲覧権限を定義付ける属性（以下、ユーザ属性として参照する）などを含む。ユーザ属性としては、例えば、部長、課長、スタッフといったユーザの役職・職位などの階位を示す属性、セールス部門、品質管理部門といったユーザの担当部門などの分野を示す属性、さらに、具体的な製品名といったユーザの担当製品などの項目を示す属性などを挙げることができる。

サーバ１０４は、クライアント１０２からの文書閲覧の照会を受信し、当該閲覧の主体であるユーザの閲覧権限の定義を参照し、照会のあった文書データに付された属性、該文書データのテキスト情報に含まれる各意味単位に付された属性とに従って、文書データ自体および該文書データ内の各文章情報について、閲覧の可否を動的に判定する。文書データ自体が閲覧不可と判定された場合には、その旨のエラーを閲覧データとして送信する。文書データ自体の閲覧が許可された場合であっても、その文書データ内の閲覧不可と判定された情報は、クライアント１０２が受信する閲覧データでは、削除またはマスクされることとなる。

以下、サーバ１０４のハードウェア構成について説明する。図２は、サーバ１０４のハードウェア構成の実施形態を示す。図２に示すサーバ１０４は、概ねパーソナル・コンピュータまたはワークステーションなどのコンピュータ装置３４として構成されている。図２に示すコンピュータ装置３４は、中央処理装置（ＣＰＵ）１２と、ＣＰＵ１２が使用するデータの高速アクセスを可能とするＬ１およびＬ２などのレベルを有するキャッシュ・メモリ１４と、ＣＰＵ１２の処理を可能とするＲＡＭ、ＤＲＡＭなどの固体メモリ素子から形成されるシステム・メモリ１６とを備えている。

ＣＰＵ１２、キャッシュ・メモリ１４、およびシステム・メモリ１６は、システム・バス１８を介して、他のデバイスまたはドライバ、例えば、グラフィックス・ドライバ２０およびネットワーク・インタフェース・カード（ＮＩＣ）２２へと接続されている。グラフィックス・ドライバ２０は、バスを介してディスプレイ２４に接続されて、ＣＰＵ１２による処理結果をディスプレイ画面上に表示させている。また、ＮＩＣ２２は、物理層レベルおよびリンク層レベルでサーバ１０４を、ＴＣＰ／ＩＰなどの適切な通信プロトコルを使用するネットワーク１０８へと接続している。

システム・バス１８には、さらにＩ／Ｏバス・ブリッジ２６が接続されている。Ｉ／Ｏバス・ブリッジ２６の下流側には、ＰＣＩなどのＩ／Ｏバス２８を介して、ＩＤＥ、ＡＴＡ、ＡＴＡＰＩ、シリアルＡＴＡ、ＳＣＳＩ、ＵＳＢなどにより、ハードディスクなどの記憶装置３０が接続されている。記憶装置３０は、上記文書データ、インデックス、ユーザ情報を格納するデータ格納部１０６の記憶領域を提供する。また、Ｉ／Ｏバス２８には、ＵＳＢなどのバスを介して、キーボードおよびマウスなどのポインティング・デバイスなどの入力装置３２が接続されていて、オペレータによるユーザ情報の登録および変更、辞書データの生成およびメンテナンスをコンピュータ装置３４に指令している。

コンピュータ装置３４のＣＰＵ１２としては、いかなるシングルコア・プロセッサまたはマルチコア・プロセッサを用いることができ、より具体的には、例えば、Ｘｅｏｎ（登録商標）、Ｉｔａｎｉｕｍ（登録商標）、ＰＯＷＥＲ５（登録商標）、ＰＯＷＥＲ６（登録商標）、ＰＯＷＥＲＰＣ（登録商標）などＣＩＳＣまたはＲＩＳＣチップなどを挙げることができる。

サーバ１０４は、ＷＩＮＤＯＷＳ（登録商標）２００Ｘ、ＵＮＩＸ（登録商標）、ＬＩＮＵＸ（登録商標）などのオペレーティング・システムにより制御され、クライアント１０２からの文書閲覧の照会を処理し、クライアント１０２に照会結果を返すことができる限り、ウェブ・アプリケーション・サーバとして実装することもできし、分散コンピューティングのプロキシ・サーバとして実装することもできる。なお、クライアント１０２についても、図２と同様なハードウェア構成により実現することができる。

図３は、本実施形態のサーバ１０４のコンピュータ装置３４上に実現される文書閲覧システム１００の機能ブロック１５０を示す。図３に示す各機能部は、コンピュータ装置３４のシステム・メモリ１６上などにプログラムを展開し、プログラムを実行することにより、各ハードウェア資源を動作制御することによって、サーバ１０４のコンピュータ装置３４上に実現することができる。サーバ１０４は、ＮＩＣ２２などを含む通信処理部を備え、ネットワーク１０８を介して、クライアント１０２からの文書閲覧の照会を受領し、照会結果をクライアント１０２へ送信する。以下、サーバ１０４の機能を、各処理段階ごとに分けて、より詳細に説明する。

（１）文書データ登録
サーバ１０４は、文書データ格納部５０を含んで構成される。文書データ格納部５０は、記憶装置３０上にデータベースまたはファイルシステムとして構成され、文書格納部としてコンピュータ装置３４上に実現される。文書データ格納部５０は、オペレータなどにより生成された非定型なテキスト情報を含む文書データを、順次蓄積してゆく。各文書データには、インデックス内で各文書データを一意に識別する文書識別値が割当てられる。この文書データ格納部５０に蓄積される文書データが、本文書閲覧システム１００において、クライアント１０２からの文書閲覧の照会に応答して提供される情報となる。

サーバ１０４は、さらに、自然言語解析部５２と、形態素辞書格納部６０と、係り受け辞書格納部６２と、表現辞書格納部６４とを含んで構成される。自然言語解析部５２は、文書データ格納部５０に蓄積されてゆく文書データに対し、順次、辞書格納部６０，６２，６４の辞書データを参照しながら、自然言語解析処理を施して、閲覧可能とする登録処理を施す。自然言語解析部５２は、ＣＰＵ１２の実行空間を提供するシステム・メモリ１６などにプログラムを展開することにより、解析部としてコンピュータ装置３４上に実現され、さらに、形態素解析部５４、係り受け解析部５６、属性付与部５８のモジュールを備える。以下、自然言語解析部５２の機能について、より詳細に説明する。

自然言語解析部５２は、まず、文書データ格納部５０」に格納された種々のデータ形式の文書データから、テキスト情報を取得する。より具体的には、自然言語解析部５２は、ＨＴＭＬ（HyperText Markup
Language）などのマルチスタイルテキストの文書データについては、書式などの修飾属性の除去処理などを施し、テキスト情報に変換する。また自然言語解析部５２は、ＤＯＣ形式、ＰＤＦ（Portable
Document Format）形式などバイナリ形式のデータについても、適切な文書フィルタを使用してテキスト情報に変換する。自然言語解析部５２が取扱可能なデータ形式は、特に限定されるものではなく、データ形式に応じた文書フィルタ・モジュールを備えることにより、種々の形式のデータからテキスト情報を抽出可能に構成することができる。

形態素解析部５４は、抽出された文書データのテキスト情報に対し、形態素辞書格納部６０が格納する文法規則や単語辞書などを含む形態素辞書データを参照しながら、形態素解析処理を施す。形態素解析処理により、テキスト情報は形態素ごとに切り出され、形態素の品詞などが同定され、付加される。図４は、自然言語解析部５２による自然言語解析処理を、各処理により生成されるデータ構造とともに示す概略図である。図４（Ａ）に示すテキスト情報２００が形態素解析部５４に入力されると、形態素解析部５４は、図４（Ｂ）に示すような形態素解析結果２１０を出力する。図４（Ｂ）に示すように、形態素解析結果２１０は、テキスト情報から切り出された形態素につき、読み、原形、品詞の種類、活用の種類、活用形などを付加情報として含んでいる。なお、形態素解析法については、最長一致法、文節数最小法、コスト最小法など、如何なる手法を採用することができ、特に限定されるものではない。また、英語などの非膠着語では、文字列を切り出す処理では、必ずしも形態素解析を用いなくてもよい。形態素解析部５４は、ひとつの文書データについての処理が完了すると、形態素解析結果２１０を記憶装置３０やシステム・メモリ１６上に一旦格納し、係り受け解析部５６にデータを渡す。

以下、再び図３を参照して説明する。係り受け解析部５６は、形態素解析結果２１０の入力を受けて、係り受け辞書格納部６２が格納する係り受け辞書データを参照しながら、係り受け解析処理を施す。係り受け解析処理により、形態素解析処理により切り出された形態素から、ひとつの自立語またはひとつの自立語に付属語が接続した形式の文節が生成され、各文節間の係り受け関係、同格関係、並列関係が同定される。なお、係り受け解析法については、機械学習による統計的手法など、特定の言語に応じた如何なる手法を採用することができる。係り受け解析部５６は、ひとつの文書データについての処理が完了すると、係り受け解析結果を記憶装置３０やシステム・メモリ１６上に一旦格納し、属性付与部５８にデータを渡す。

属性付与部５８は、係り受け解析結果の入力を受けて、さらに、表現辞書格納部６４が格納する表現辞書データを参照しながら、テキスト情報に含まれる語、句、節、文章など、種々の粒度を有する意味単位に対して、各意味単位が表す意味内容、その分類を示す種々の属性（以下、意味属性として参照する。）をタグ付ける。意味属性としては、人名、地名、組織名、ハードウェアといった、固有表現にタグ付けされる属性の他、苦情、障害報告、質問、賞賛といった文章の意味内容を表す属性を挙げることができる。

さらに属性付与部５８は、文書データ単位でも、表現辞書データを参照しながら、テキスト情報全体に含まれる表現に従って文書データを分類し、閲覧制御に用いるために、文書を分類する種々の属性（以下、文書属性として参照する。）をタグ付けることができる。文書属性としては、文書データが含む各意味単位に付された各意味属性を採用することができる。その他、「機密」、「Ｃｏｎｆｉｄｅｎｔｉａｌ」といった表現を有する文書データに対し付される機密文書である旨を示す意味属性や、「社外秘」、「部門外秘」、「関係者外秘」といった表現を有する文書データに対し付される開示範囲を示す意味属性、個人情報を含む文書データに対して付される個人情報を含む旨を示す意味属性などを挙げることができる。

上記表現辞書データは、特定の内容のテキスト情報に現れる可能性のある種々の表現を編纂した辞書データを含んで構成される。具体的な例を挙げると、製品名（例えば、「製品Ａ」、「製品Ｂ」「製品Ｃ」）、その分類（例えば、「ハードウェア」または「ソフトウェア」）、問題表現（「動かない」、「止まる」、「バグる」、「起動しない」など）、「苦情」そのものを表す表現、「不平」や「不満」を表す表現など、特定の用途によるデータ特性などに応じて編纂された辞書として構成することができる。表現辞書データとしては、苦情、障害報告、質問、賞賛などの種々の内容について表現を予め辞書化したものを挙げることができるが、特に限定されるものではない。また、文章が言及している内容を分類する他、文章中の形容詞と名詞との係り受け関係などから、「不平」や「不満」の対象なども特定することができる。その他、表現辞書データとしては、機密文書、社外秘、部門外秘、関係者外秘の文書データを分類するための辞書を挙げることができる。

図４（Ｃ）は、係り受け解析部５６および属性付与部５８の処理により生成される自然言語解析結果のデータ構造を模式的に示す図である。図４（Ｂ）に示すような形態素解析結果２１０が与えられると、係り受け解析部５６および属性付与部５８は、図４（Ｃ）に示すような、各文節間の係り受け構造を規定する自然言語解析結果２２０を生成する。また、自然言語解析結果２２０では、固有表現が抽出され、「ＯＳ＿Ａ」や「ＵＳＢ」などの語に対し、それぞれ＜ＯＳ＞や＜デバイス＞といった分類を示す意味属性がタグ付けされ、さらに、第１文や第２文には、それぞれ、＜質問＞や＜要望＞といった文章の内容を示す意味属性がタグ付けされている。また、上記テキスト情報２００を含む文書データについては、例えば、文書データが含む文章に付された＜質問＞および＜要望＞といった文章の意味属性が文書属性２２２として付与されている。

以下、再び図３を参照して説明する。サーバ１０４は、文書属性インデックス格納部６６および意味単位属性インデックス格納部６８を含んで構成される。文書属性インデックス格納部６６および意味単位属性インデックス格納部６８は、記憶装置３０上にデータベースまたはファイルシステムとして構成され、統合的に属性インデックス格納部としてコンピュータ装置３４上に実現される。属性付与部５８は、属性のタグ付けが完了した後、さらに、生成された自然言語解析結果２２０に従って、文書データを識別する文書識別値と、文書データに付与した文書属性を対応付けるインデックス（以下、文書属性インデックスとして参照する。）を作成し、文書属性インデックス格納部６６に格納する。

さらに、属性付与部５８は、生成された自然言語解析結果２２０に従って、文書データを識別する文書識別値と、文書データに含まれる語、句、節、文章など種々の粒度を有する各意味単位と、各意味単位に対して付与された意味属性とを対応づけるインデックス（以下、意味単位インデックスとして参照する。）を作成し、意味単位属性インデックス格納部６８に格納する。意味単位インデックス内では、各意味単位は、文書データ中での単語の出現位置によって、各意味単位の対応する位置範囲が定められ、対応付けられる。以上説明した機能により、文書データ格納部５０に蓄積される文書データは、文書閲覧システム１００において閲覧可能に登録される。

（２）統計処理
本実施形態の属性付与部５８は、さらに、意味単位インデックスに登録された意味属性が付与された語、句などの意味単位につき、統計解析法を適用する。属性付与部５８は、統計解析法により、文書データ格納部５０に格納された文書データ群中の相対的または絶対的な出現頻度などの統計値を算出し、統計解析結果を示す属性をさらに付与することができる。なお、統計解析を適用する文書データの範囲は、蓄積された全文書データとすることができ、その他、文書データのタイムスタンプなどにより、任意の時間範囲でフィルタリングされた文書データ群とすることができる。

また属性付与部５８は、予め設定されたスケジュールや、文書データの追加量等に応じて、適宜、統計値の更新を実行する。統計解析処理により意味単位に付された属性は、コンタクト履歴などの時系列的な文書データを蓄積する用途において、時期的状況の変化を反映した情報の重要度の指標として、文書閲覧の可否を判定する際に好適に用いることができる。

例えば、通常、文書データ中に出現するお客様といった個人名や住所などの個人情報は、特定範囲にのみ開示すべき秘匿情報である。しかしながら、頻繁に苦情を訴えるクレーマと判断される場合など、開示しても良い情報に変化することも考えられる。本実施形態の文書閲覧システム１００では、例えば、苦情の属性が付与された文書データ群から、お客様個人名の出現回数を計数して、閾値回数以上計数されたお客様または出現頻度上位のお客様個人名などをクレーマとして同定することができる。

その他、品質管理部門に開示されるような障害報告は、特定の製品に対する障害報告が頻発した場合、頻発事例として営業部門等を含めて広く周知すべき情報に変化することも考えられる。本文書閲覧システム１００では、障害報告の属性が付与された文章に関連する製品の出現回数を計数して、閾値回数以上計数された製品または出現頻度上位の製品に関する記述を含む障害報告を、頻発事例として同定することができる。

（３）意味単位の粒度によるユーザの閲覧権限の定義
以下、再び図３を参照し、文書データの意味単位を含む情報に対する閲覧権限の定義付けについて説明する。サーバ１０４は、さらに、ユーザ情報データベース（以下、ユーザ情報ＤＢとして参照する。）７６と、ユーザ情報登録部７８とを含んで構成される。ユーザ情報ＤＢ７６は、記憶装置３０上に、リレーショナル・データベースなどにより構成され、権限定義格納部としてコンピュータ装置３４上に実現される。ユーザ情報登録部７８は、ＣＰＵ１２の実行空間を提供するシステム・メモリ１６などにプログラムを展開することにより、コンピュータ装置３４上に実現される。

ユーザ情報ＤＢ７６は、文書閲覧システム１００の利用者のユーザ情報を記憶し、ユーザ識別値、ユーザ名、パスワードおよびユーザ属性を対応付けるテーブルを格納する。また、ユーザ情報ＤＢ７６は、ユーザに関連付けられる種々のユーザ属性と、該ユーザ属性によりユーザに包括的に付与される閲覧権限とを対応付けるテーブルを格納する。ユーザ情報ＤＢ７６に格納される上記テーブルは、ユーザの閲覧権限を定義づける権限定義データを構成する。ユーザ情報登録部７８は、オペレータから入力装置３２を介したユーザ情報の登録の指令に応答して、ユーザ情報ＤＢ７６へのユーザの新規登録・登録内容の変更処理を実行する。以下、権限定義データを構成する各種テーブルについて説明する。

図５は、ユーザ情報ＤＢ７６が格納する権限定義データの実施形態を示す図である。図５（Ａ）は、ユーザとユーザ属性とを対応づけるユーザ−属性テーブル２３０のデータ構造を一例として示す。図５（Ａ）に示すユーザ−属性テーブル２３０は、ユーザ識別値が入力されるフィールド２３０ａと、ユーザに関連付けられるユーザ属性のセットが入力されるフィールド２３０ｂとを含んで構成される。図５（Ａ）に示すように、各ユーザには、ユーザの役職・職位などの階位を示すユーザ属性、ユーザの担当部門などの分野を示すユーザ属性、ユーザの担当製品を示すユーザ属性が適宜付与されている。

図５（Ｂ）は、ユーザ属性と閲覧権限とを対応づけるユーザ属性−権限テーブル２４０のデータ構造を一例として示す。図５（Ｂ）に示すユーザ属性−権限テーブル２４０は、職位を示すユーザ属性が入力されるフィールド２４０ａと、該ユーザ属性が与える閲覧権限を表す条件式が入力されるフィールド２４０ｂとを含んで構成される。図５（Ｂ）に示した例では、ユーザ属性−権限テーブル２４０は、各職位を示すユーザ属性と、文書データ中の製品について言及する文章に対する閲覧権限とを対応付けている。

図５（Ｂ）に示した例では、上記条件式は、＜全分野＞、＜全製品＞、＜担当分野＞、＜担当製品＞など、分野および製品を包括的に表現する属性を含み、属性間の論理演算式により閲覧権限が定義付けられる。上記＜担当分野＞は、各ユーザに付与される＜マーケティング部門＞や＜配送部門＞といった担当部門を示す属性に置き換えられる。同様に、上記＜担当製品＞は、各ユーザに付与される＜製品Ａ＞や＜ハードウェア＞といった担当製品や担当製品群を示す属性に置き換えられる。上記閲覧権限を表す条件式は、最終的には、文書データ内の意味単位に付される意味属性の論理演算式に展開されることとなる。

図６は、属性間の関係を模式的に示す図である。図６（Ａ）は、＜全分野＞属性が外延として含んでいる属性、および属性間の関係を模式的に示す図である。図６（Ａ）に示されるように、＜全分野＞属性２５０は、＜好評＞〜＜遅延＞属性２５０ａ〜ｇを含んでいる。これらの属性中、＜好評＞〜＜問題＞属性２５０ａ〜ｅは、＜マーケティング部門＞属性２５２に関連付けられ、＜配送＞および＜遅延＞属性２５０ｆ，ｇは、＜配送部門＞属性２５４に関連付けられている。

同様に図６（Ｂ）は、＜全製品＞属性が外延として含んでいる属性、および属性間の関係を模式的に示す図である。図６（Ｂ）に示されるように、＜全製品＞属性２６０は、＜製品Ａ＞〜＜製品Ｄ＞属性２６０ａ〜ｄを含んでいる。これらの属性中、＜製品Ａ＞および＜製品Ｃ＞属性２６０ａ，ｃは、＜ハードウェア担当＞属性に関連付けられ、＜製品Ｂ＞および＜製品Ｄ＞属性２６０ｂ，ｄは、＜ソフトウェア担当＞属性に関連付けられている。なお、上述のような属性間の関係は、特定の用途に応じて、予め定義しておけばよい。

再び図５（Ａ）を参照すると、［Ｕｓｅｒ＿Ａ］は、＜部長＞および＜マーケティング部門＞属性が付与されており、条件式「（全分野）ＡＮＤ（全製品）」により定義される閲覧権限が与えられている。上記条件式において、＜全分野＞および＜全製品＞属性は、それぞれが含む属性間の論理和により展開される。上記条件式に従い、［Ｕｓｅｒ＿Ａ］には、製品および分野の属性が付され製品について言及している文章のうち、全製品中いずれかの製品について、全分野中いずれかの分野の内容を言及しているすべての文章に対する閲覧権限が与えられている。つまり、［Ｕｓｅｒ＿Ａ］には、製品について図６（Ａ）に示した内容を言及しているすべての文章に対する閲覧権限が与えられる。

同様に、［Ｕｓｅｒ＿Ｂ］は、＜課長＞、＜マーケティング部門＞、＜ハードウェア担当＞属性が付与されており、ハードウェアに分類される製品中いずれかの製品について、全分野中いずれかの分野の内容を言及している文章に対する閲覧権限が与えられている。

一方、［Ｕｓｅｒ＿Ｄ］には、＜スタッフ＞、＜マーケティング部門＞、＜製品Ａ＞属性が付与されており、製品Ａについて言及し、マーケティング部門の担当分野の内容、つまり＜好評＞属性〜＜問題＞属性のいずれかが付された文章に対する閲覧権限が与えられている。同様に、［Ｕｓｅｒ＿Ｅ］には、＜スタッフ＞、＜配送部門＞、＜全製品＞のユーザ属性が付与されており、全製品中いずれかの製品について、配送部門の担当分野の内容、つまり、＜遅延＞または＜問題＞属性が付された文章に対する閲覧権限が与えられている。

図７は、ユーザ情報ＤＢ７６が格納する権限定義データの他の実施形態を示す図である。図７（Ａ）に示すユーザ属性−権限テーブル２４２は、ユーザ属性の条件式が入力されるフィールド２４２ａと、該条件式を満たすユーザに与えられる閲覧権限を表す条件式が入力されるフィールド２４２ｂとを含んで構成される。図７（Ａ）に示した例では、ユーザ属性−権限テーブル２４２は、職位および部門の組み合わせとして規定されるユーザ属性の条件式と、文書データ中のお客様情報に対する閲覧権限とを対応付ける。

図７（Ａ）に示した例では、上記条件式は、＜全職位＞属性および＜全部門＞属性などの職位および部門を包括的に表現する属性を含み、これらの属性の論理演算式により権限付与されるユーザ属性が定義付けられる。上記＜全職位＞属性は、＜部長＞、＜課長＞、＜スタッフ＞などの属性を外延として含んでおり、＜全職位＞属性に含まれる各属性は、論理和により展開される。また、上記閲覧権限の条件式は、＜全個人情報＞属性および＜”苦情報告回数”１０以上＞属性など、個人情報および統計値を包括的に表現する属性を含んでいる。上記＜個人情報＞の属性は、＜個人名＞、＜住所＞、＜電話番号＞などの属性を外延として含んでおり、上記＜”苦情報告回数”１０以上＞の属性は、統計処理の結果として付される＜苦情報告回数Ｎ＞属性を内包的に表現し、＜苦情報告回数１２＞など、Ｎが１０以上の＜苦情報告回数Ｎ＞属性を含んでいる。

図７（Ａ）に示す例では、＜部長＞および＜カスタマー部門＞ユーザ属性の両方が付与されるユーザには、条件式「（全個人情報）」により定義される閲覧権限が与えられている。つまり、上記両方のユーザ属性が付与されるユーザは、文書単位の閲覧権限がある限り、文書データ中のお客様情報には、無条件に閲覧権限が与えられることとなる。同様に、＜課長＞および＜カスタマー部門＞ユーザ属性の両方が付与されるユーザには、お客様の個人情報であって、Ｎが１０以上の＜苦情報告回数Ｎ＞属性が付された個人情報に対する閲覧権限が与えられる。また、Ｎが１０以上の＜苦情報告回数Ｎ＞属性が付されたお客様の個人名については、いかなる職位およびいかなる部門のユーザ属性が付されるユーザに対しても、閲覧権限が与えられている。

さらに、図７（Ｂ）に示す例では、＜スタッフ＞および＜配送部門＞ユーザ属性の両方が付与されるユーザには、条件式「（個人情報）ＡＮＤ（文書：配送）」により定義される閲覧権限が与えられる。ここで、（文書：）は、個人情報を言及している文書データに付された文書属性を条件式に導入していることを表す。すなわち、上記両方のユーザ属性が付与されるユーザは、配送について言及する文書データ内の個人情報に限り、すべての個人情報の閲覧権限が与えられる。

図７（Ｂ）に示すユーザ属性−権限テーブル２４４は、ユーザ属性の条件式が入力されるフィールド２４４ａと、該条件式を満たすユーザに与えられる閲覧権限を表す条件式が入力されるフィールド２４４ｂとを含んで構成される。図７（Ｂ）に示した例では、ユーザ属性−権限テーブル２４２は、職位および部門の組み合わせとして規定されるユーザ属性の条件式と、個人を言及する文章中の個人情報に対する閲覧権限とを対応付ける。

図７（Ｂ）に示した例では、上記ユーザ属性の条件式には、図７（Ａ）と同様に、職位および部門を表現する属性を含み、これらの属性の論理演算式により権限付与されるユーザ属性が定義付けられる。そして、上記閲覧権限の条件式は、個人を言及する文章中の個人情報に対する閲覧権限を定義づける。

図７（Ｂ）に示す例では、＜部長＞および＜人事部門＞ユーザ属性の両方が付与されるユーザには、条件式「（全個人情報）ＡＮＤ（文章：全分野）」により定義される閲覧権限が与えられる。ここで、（文章：）は、個人情報を言及している文章に付された意味属性を条件式に導入していることを表す。つまり、上記両方のユーザ属性が付与されるユーザには、文書単位で閲覧権限がある限り、文書データ中の個人を言及している文章中すべての個人情報に対し、無条件に閲覧権限が与えられる。

同様に、＜課長＞および＜全部門＞ユーザ属性の両方が付与されるユーザには、
個人に対する苦情を言及している文章中、個人情報であって、Ｎが２以上の＜苦情対象回数Ｎ＞属性が付された個人情報に対する閲覧権限が与えられる。また、図７（Ｂ）に示す例では、個人に対する賞賛を言及している文章中の賞賛対象となる個人の個人名については、いかなる職位およびいかなる部門のユーザ属性が付されるユーザに対して、閲覧権限が与えられている。

図５〜図７を参照して、意味属性が付された文章、意味属性が付された語、意味属性が付された文章中の意味単位が付された語、文書属性が付された文書データ中の意味属性が付された語に対する閲覧権限の定義付けについて例示した。しかしながら、意味単位に対するユーザの閲覧権限を定義付ける権限定義データのデータ構造は、上述の例に限定されるものではなく、閲覧の主体となるユーザと、意味属性が関連付けられた語、句、節、文章など種々の粒度の意味単位に対する閲覧権限とを対応付けられる限り、特に限定されるものではない。また、意味属性が関連付けられた意味単位に対する閲覧権限を、文書属性をさらに用いて定義付けてもよい。また、上記例では、閲覧を許可する条件式を規定しているが、閲覧を禁止する条件式を規定してもよい。

また、複数の分野や複数の製品の意味属性が付された文章に対する閲覧権限などについても、複数の分野または製品間で論理和とするか、論理積とするかなどは、特定の用途やセキュリティ・ポリシーに応じて定めることができる。例えば、＜質問＞および＜配送＞属性の両方が付与された文章に対し、＜質問＞属性および＜配送＞属性の少なくとも一方の属性が関連付けられるユーザに、当該文章の閲覧権限を与えるよう構成することもでき、または上記属性の両方が与えられるユーザのみに当該文書の閲覧権限を与えるよう構成することもできる。

（４）文書閲覧制御
以下、再び図３を参照し、文書データの閲覧制御について説明する。サーバ１０４は、さらに、文書・属性取得部７０、文書閲覧制御部７２、照会入出力部７４およびファイル・アクセス機構部８０を含んで構成される。上記文書・属性取得部７０、文書閲覧制御部７２、および照会入出力部７４は、それぞれ、ＣＰＵ１２の実行空間を提供するシステム・メモリ１６などにプログラムを展開することにより、取得部、アクセス制御部、および入出力部として、コンピュータ装置３４上に実現される。

照会入出力部７４は、クライアント１０２からの文書閲覧の照会の入力を受け、文書閲覧制御部７２に対し、文書データの閲覧可能な情報から構成される閲覧データの作成を依頼する。文書閲覧の照会は、文書データを識別する文書識別値、またはＵＲＩ（Uniform Resource Identifier）といった格納位置を示す情報など、求める文書データを特定するための情報と、閲覧の主体となるユーザを識別するユーザ識別値とを含んでいる。照会入出力部７４は、ユーザ識別値に与えられる閲覧権限に応じて作成された閲覧データを、文書閲覧制御部７２から受け取り、クライアント１０２に出力する。

文書閲覧制御部７２は、依頼とともに受け取ったユーザ識別値をユーザ情報ＤＢ７６に与えて、該ユーザ識別値に関連付けられたユーザ属性と、該ユーザ識別値に付与される閲覧権限を定義する種々の条件式とを取得する。また文書閲覧制御部７２は、依頼とともに受け取った文書識別値またはＵＲＩを文書・属性取得部７０に与えて、文書データおよび該文書データの属性データの取得を依頼する。

文書・属性取得部７０は、ファイル・アクセス機構部８０を介して、文書データ格納部５０から、照会された文書データを取得する。文書・属性取得部７０は、さらに上記文書属性インデックス格納部６６および意味単位属性インデックス格納部６８から、照会された文書データに付与された文書属性と、文書データ内の意味単位に付与された意味属性とを含む属性データを取得する。ファイル・アクセス機構部８０は、文書・属性取得部７０と、文書データ格納部５０、文書属性インデックス格納部６６および意味単位属性インデックス格納部６８との間のデータ・アクセスを中継する。そして、文書・属性取得部７０は、取得した文書データおよび属性データを文書閲覧制御部７２に渡す。

文書閲覧制御部７２は、文書データに付された文書属性と、ユーザ識別値に付与されたユーザ属性とを用いて、文書データ単位の閲覧の可否をまず判定する。文書データ単位の閲覧制御では、文書データに付された文書属性から、役職・職位など階位を示すユーザ属性に関連付けられるような機密レベルや、部門などの分野を示すユーザ属性と関連付けられるような開示範囲が判定される。そして、ユーザ識別値に付されたユーザ属性が、判定された機密レベルや開示範囲の要求を満たすか否かに応じて、閲覧の可否が判定される。

例えば、「部門外秘」文書属性と、その開示範囲として「マーケティング部門」文書属性とが付与されていた場合、ユーザ識別値に付されたユーザ属性に「マーケティング部門」属性が有るか否かに応じて、文書データ単位の閲覧の可否を判定することができる。なお、文書データ単位の閲覧制御は、特に限定されるものではなく、他の実施形態では、ユーザ属性に関連付けられる意味属性につき、文書属性として付された数を計数およびスコアリングして、文書データの機密レベルを相対的に増減させたりすることもできる。

文書閲覧制御部７２は、文書データ単位の閲覧を可能と判定した場合、引き続き、ユーザの閲覧権限を定義する条件式を用いて、文書データのテキスト情報を構成する、意味属性が付与された意味単位毎に、閲覧の可否を判定する。意味単位毎の閲覧制御では、属性データに含まれる文書データ内の意味単位に付与された意味属性が、閲覧権限の条件式を満たしているか否かを判定する。

文書閲覧制御部７２は、特に意味属性が付されていない意味単位や、閲覧可能と判定した意味単位については、取得した文書データ内の対応する情報を維持する。一方、文書閲覧制御部７２は、閲覧不可とした意味単位については、文書データ内の該意味単位に対応する情報を削除するか、または、「■■■■」「＃＃＃−＃＃＃＃−＃＃＃＃」などの文字列等によりマスク処理する。そして、取得した文書データから閲覧不可の意味単位を削除またはマスクしたデータを、照会結果の閲覧データとして、照会入出力部７４に渡す。なお、閲覧不可とされた意味単位の情報に対する処理は、適宜、セキュリティ・ポリシーに応じて定めればよい。以下、文書データを例示して、閲覧制御について説明する。

図８は、文書データおよび属性データを概略的に示す図である。図８（Ａ）は、アンケートを標題とした文書データおよび属性データを一例として示す。図８（Ａ）に示す文書データ２７０は、受信日、受付者の氏名、お客様氏名２７２および標題を含む書誌情報と、第１文書２７４ａと、第２文章２７４ｂと、第３文章２７４ｃとを含んで構成されている。第３文章２７４ｃ内には、さらに電話番号２７６が含まれている。また属性データとして、お客様氏名２７２に対し、＜お客様氏名＞属性が付与され、第１文章２７４ａに対し＜好評＞属性、＜不評＞属性および＜製品Ａ＞属性が、第２文章２７４ｂに対し＜要望＞属性および＜製品Ｂ＞属性が、第３文章２７４ｃに対し＜配送＞属性、＜遅延＞属性および＜製品Ａ＞属性が、それぞれ付与されている。また、第３文章２７４ｃ内の電話番号２７６に対しては、＜お客様電話番号＞属性が付与されている。また文書データ２７０には、文書属性として、文書データに含まれる文章の内容を示す＜好評＞属性…＜遅延＞属性が付されている。

図５（Ａ）に示した「ＵＳＥＲ＿Ｂ」には、ハードウェア製品について全分野の内容を言及する文章に対し、閲覧権限が与えられている。したがって、図８（Ａ）に示す文書データおよび属性データが与えられた場合、ハードウェア製品である＜製品Ａ＞について言及している文章２７４ａ，ｃは、「ＵＳＥＲ＿Ｂ」に対して、閲覧可能と判定されることになる。一方、ソフトウェア製品である＜製品Ｂ＞について言及している文章２７４ｂは、「ＵＳＥＲ＿Ｂ」に対して、閲覧不可と判定されることになる。

また「ＵＳＥＲ＿Ｄ」には、＜製品Ａ＞属性の製品について、＜マーケティング部門＞属性が含む分野の内容を言及する文章に対し、閲覧権限が与えられている。したがって、＜製品Ａ＞について＜好評＞＜不評＞の内容を言及している文章２７４ａは、「ＵＳＥＲ＿Ｄ」には閲覧可能と判定される。一方、同じ＜製品Ａ＞属性の製品について言及している文章であっても、＜マーケティング部門＞属性が含まない分野の内容を言及している文章２７４ｃは、「ＵＳＥＲ＿Ｄ」には閲覧不可と判定される。

また、「ＵＳＥＲ＿Ｅ」には、＜配送＞属性が付された文書データ中のお客様個人情報に対して、図７（Ａ）に示した条件式「（全個人情報）ＡＮＤ(文書：配送)」により、閲覧権限が与えられている。したがって、「ＵＳＥＲ＿Ｅ」には、お客様氏名２７２および、お客様電話番号２７６の両方が閲覧可能と判定される。一方、「ＵＳＥＲ＿Ａ」や「ＵＳＥＲ＿Ｂ」などの他のユーザは、個人情報に対する閲覧権限が与えられていない。したがって、「ＵＳＥＲ＿Ａ」や「ＵＳＥＲ＿Ｂ」には、お客様氏名２７２は、閲覧不可と判定される。また、セキュリティ・ポリシーによっては、「ＵＳＥＲ＿Ａ」や「ＵＳＥＲ＿Ｂ」が閲覧許可される文章２７４ｃが包含しているお客様電話番号２７６についても、文章とは別に、閲覧不可と判定するよう構成することができる。

図８（Ｂ）は、苦情を標題とした文書データおよび属性データを一例として示す。図８（Ｂ）に示す文書データ２８０は、受信日、受付者氏名、お客様氏名２８２および標題を含む書誌情報と、文章２８４とを含んで構成されている。属性データとして、お客様氏名２８２に対し＜お客様氏名＞属性および＜苦情報告回数１１＞が付与され、文章２８４に対し＜不評＞属性および＜製品Ａ＞属性が付与され、さらに文章２８４内の電話番号２８６に対し＜お客様電話番号＞および＜苦情報告回数１１＞が付与されている。ここで、電話番号２８６は、当該文書データ２８０の書誌情報のお客様氏名２８２および文脈上の位置づけから、お客様氏名２８２に対応する電話番号であると判定されたものとする。

図７（Ａ）を参照すると、全職位および全部門のユーザ属性が付与されたユーザには、Ｎが１０以上の＜苦情報告回数Ｎ＞が付されたお客様個人名に対する閲覧権限が与えられている。このため、お客様氏名２８２は、これらのユーザには、閲覧可能と判定される。しかしながら、これらのユーザには、お客様電話番号を閲覧する権限が与えられていないため、他の条件式により権限が与えられない限り、文章２８４に対する閲覧権限が与えられた場合であっても、お客様電話番号２８６は、閲覧不可と判定される。

図９は、お客様の声を標題とした文書データおよび属性データを一例として示す図である。図９に示す文書データ２９０は、受信日、受付者氏名、お客様氏名および標題を含む書誌情報と、文章２９４とを含んで構成されている。また、文章２９４は、個人名２９６を含んでいる。属性データとして、文章２９４に対し＜賞賛＞属性および＜製品Ａ＞属性が付与され、さらに文章２９４内の個人名２９６に対し＜個人名＞および＜賞賛対象＞が付与されている。なお、個人名２９６には、品詞間の係り受け関係など文脈上の位置づけにより、当該個人名が賞賛対象であると判定され属性が付されているものとする。

図７（Ｂ）を参照すると、＜賞賛＞属性が付与された文章中の＜賞賛対象＞属性が付された個人名は、全職位および全部門のユーザ属性が付与されたユーザに対し閲覧権限が与えられている。このため、個人名２９６は、文章２９４自体の閲覧権限を有するユーザであれば、閲覧可能と判定される。

上述したように、本実施形態の文書閲覧システム１００では、ユーザの役職・職位を示すユーザ属性、業務範囲に応じて定められる部門や担当製品などを示すユーザ属性により、文書データ単位に加え、言語解析処理により与えられる語、句、節、文章など種々の粒度の意味単位にて閲覧制御することが可能となる。意味単位レベルの粒度で閲覧制御が可能とされるので、文書データ単位の閲覧権限を従来に比べて広く付与し、開示しても良い情報を可能な限り広く閲覧に供することができる。したがって、本実施形態の文書閲覧システム１００は、情報資源の有効利用を可能とする。また、上記意味単位での閲覧制御では、言語解析処理により意味単位に与えられた意味属性を考慮して行なわれるため、その文脈上の位置づけに応じた閲覧制御が可能となる。

なお、図３に示した実施形態では、サーバ１０４のコンピュータ装置３４は、ハードウェアおよびソフトウェアが協働して、文書データに対して言語解析処理を適用して、属性インデックスを作成する文書分析装置としての機能と、クライアント１０２からの文書閲覧の照会に応答して、文書データに含まれる情報の閲覧の可否を動的に判定し、照会結果を返す文書閲覧制御装置としての機能との両方を提供する。

しかしながら、他の実施形態では、上記機能を分離して、ハードウェアおよびソフトウェアが協働して、文書閲覧制御装置としての機能を専ら提供するサーバ、文書分析装置としての機能を専ら提供するサーバを用いて文書閲覧システムを構成することもでき、特に限定されるものではない。

（５）文書データ登録更新方法
以下、図１０を参照して、文書データの登録更新方法について説明する。図１０は、サーバが実行する文書データの登録更新方法の実施形態を示すフローチャートである。図１０に示す処理は、サーバ１０４の起動などに応答して、ステップＳ１００から開始し、ステップＳ１０１では、サーバ１０４は、文書データ登録更新の開始条件を満たすか否かを判定する。上記開始条件としては、予め設定したスケジュールの予定日時が到来したこと、未登録の文書データが所与の閾値を上まわったこと、システム管理者から外部指令があったことなどを条件とすることができるが、特に限定されるものではない。

ステップＳ１０１で、開始条件を満たさないと判定された場合（ＮＯ）には、適宜、所定の時間待機して、再びステップＳ１０１へ処理をループさせる。一方ステップＳ１０１で、開始条件が満たされたと判定された場合（ＹＥＳ）には、ステップＳ１０２へ処理を渡す。ステップＳ１０２では、自然言語解析部５２は、文書データ格納部５０から、未登録の文書データを読み出し、ステップＳ１０３で、形態素解析部５４に文書データを与え、形態素解析処理を実行させる。形態素解析部５４は、文書データから抽出されたテキストを形態素に分割し、品詞、活用などを同定して、形態素解析結果を生成する。

ステップＳ１０４では、自然言語解析部５２は、形態素解析処理により得られた形態素解析結果を、係り受け解析部５６に与え、係り受け解析処理を実行させる。係り受け解析部５６は、形態素解析結果から、文節、各文節間の係り受け関係、同格関係、並列関係を同定し、係り受け解析結果を生成する。ステップＳ１０５では、自然言語解析部５２は、得られた係り受け解析結果を属性付与部５８に与え、属性付与処理をさらに実行させる。属性付与部５８は、係り受け解析結果から、種々の表現辞書を参照し、固有表現の抽出や文章内容を識別し、語、句、節、文章など種々の粒度の意味単位および文書データに対し、属性をタグ付けする。ステップＳ１０６では、自然言語解析部５２は、属性付与部５８に対し、文書属性インデックス格納部６６および意味単位属性インデックス格納部６８の各インデックスにタグ付けした属性を登録する処理を実行させる。

ステップＳ１０２からステップＳ１０６までの処理により、１つの文書データが文書閲覧システム１００に登録されることとなる。ステップＳ１０７では、自然言語解析部５２は、例えば文書データに付される処理済みを示すフラッグを検証し、未処理の文書データが存在するか否かを判定する。ステップＳ１０７で、未処理の文書データがまだ存在すると判定された場合（ＹＥＳ）には、ステップＳ１０２へ処理を渡し、すべての未処理の文書データについて、ステップＳ１０２〜ステップＳ１０６の処理を繰り返させる。一方、ステップＳ１０７で、未処理の文書データが存在しないと判定された場合（ＮＯ）には、ステップＳ１０８へ処理を渡す。

ステップＳ１０８では、サーバ１０４は、統計解析処理の開始条件を満たすか否かを判定する。統計解析処理の開始条件は、特に限定されるものではなく、予め設定したスケジュールの予定日時が到来したこと、前回の統計解析処理から所与数以上の文書データが登録されたこと、システム管理者から外部指令があったことなどを条件とすることができる。また、他の実施形態では、文書登録が完了する毎に無条件で統計解析処理を実施するよう構成することもできる。

ステップＳ１０８で、統計解析処理の開始条件を満たさないと判定された場合（ＮＯ）には、ステップＳ１０１へ処理を渡す。一方、ステップＳ１０８で、開始条件を満たすと判定された場合（ＹＥＳ）には、ステップＳ１０９へ処理を渡す。ステップＳ１０９では、自然言語解析部５２は、属性付与部５８に対し、統計解析処理を実行させ、ステップＳ１０１へ処理を渡す。ステップＳ１０９では、属性付与部５８は、意味単位属性インデックス内の語、句について、出現頻度など統計値を算出し、適宜、既に意味単位に付与され統計値を示す属性を適宜更新し、新たな意味単位に対し統計値を示す意味属性をタグ付けする。

（６）文書データ閲覧照会処理方法
以下、図１１を参照して、文書データの閲覧照会処理方法について説明する。図１１は、サーバが実行する文書データの閲覧照会処理方法の実施形態を示すフローチャートである。図１１に示す処理は、ステップＳ２００から開始し、ステップＳ２０１で、クライアント１０２からの文書閲覧の照会を受信する。文書閲覧の照会は、照会入出力部７４に入力され、文書閲覧制御部７２に閲覧データの作成が依頼される。ステップＳ２０２では、文書閲覧制御部７２は、照会に含まれるユーザ識別値をユーザ情報ＤＢ７６に与えて、閲覧の主体となるユーザに関連付けられたユーザ属性、および閲覧権限を定義付ける条件式を読み出す。

ステップＳ２０３では、文書閲覧制御部７２は、文書・属性取得部７０を介して、文書属性インデックス格納部６６から、照会された文書データに付与された文書属性を取得する。ステップＳ２０４では、文書閲覧制御部７２は、取得した文書属性と、ユーザ属性とを用いて、当該ユーザの文書データ自体に対する閲覧権限があるか否かを判定する。ステップＳ２０４の判定で、文書データ単位の閲覧権限が無いと判定された場合（ＮＯ）には、ステップＳ２１２へ処理を渡す。ステップＳ２１２では、文書データ自体が閲覧不可であるとして、エラーメッセージを含む閲覧データを照会入出力部７４に報告する。そして、照会入出力部７４は、クライアント１０２へ閲覧データを返信する。この場合、クライアント１０２のディスプレイ上には、文書データ自体の閲覧の権限が与えられていない旨のエラー通知が表示されることとある。

一方、ステップＳ２０４で、文書データ単位の閲覧権限を有していると判定された場合（ＹＥＳ）には、ステップＳ２０５へ処理を渡す。ステップＳ２０５では、文書閲覧制御部７２は、文書・属性取得部７０を介して、文書データ格納部５０が格納する文書データ、および意味単位属性インデックス格納部６８から属性データを取得する。

ステップＳ２０６では、文書閲覧制御部７２は、取得した属性データを用いて、意味属性が付された意味単位をデータの先頭から検索し、ステップＳ２０７では、意味属性が付された意味単位が発見されたか否かを判定する。ステップＳ２０７で、意味属性が付与された意味単位が発見された場合（ＹＥＳ）には、ステップＳ２０８へ処理を渡す。

ステップＳ２０８では、文書閲覧制御部７２は、検索された意味単位に対し、ユーザが閲覧権限を有するか否かを判定する。ステップＳ２０８では、当該意味単位に付与された意味属性を、ユーザに対し定義された閲覧権限の条件式に与え、閲覧権限を判定する。ステップＳ２０８で、当該意味単位に対する閲覧権限を有していると判定された場合（ＹＥＳ）には、ステップＳ２０６へ処理を渡し、次の属性が付与された意味単位を対象とした処理を繰り返す。一方、ステップＳ２０８で、当該意味単位に対する閲覧権限が無いと判定された場合（ＮＯ）には、ステップＳ２０９へ処理を渡す。ステップＳ２０９では、取得した文書データから、閲覧不可とされた意味単位に対応する部分の情報を削除またはマスクする処理を施し、ステップＳ２０６へ処理を渡し、次の意味単位を対象とした処理を繰り返す。

一方、ステップＳ２０７で、属性が付与された意味単位が見つからない場合（ＮＯ）には、それ以上文書データが閲覧制御すべき情報を含んでいないため、ステップＳ２１０へ処理を渡す。ステップＳ２１０では、閲覧不可の情報が削除またはマスクされた文書データを、閲覧データとして返信し、ステップＳ２１１で処理を終了させる。

上述の実施形態によれば、閲覧の主体となるユーザと、文書データのテキスト情報中の意味属性が関連付けられた種々の粒度の意味単位に対する閲覧権限とを対応付けて定義し、意味属性が関連付けられた意味単位に対する閲覧の可否を、上記閲覧権限の定義に従って判定する。これにより、非構造化情報であるテキスト情報に対し、柔軟かつ、きめ細やかな閲覧制御が実現される。

より具体的な企業における事例を挙げると、品質管理部門のマネージャにとっては、お客様から報告された障害内容の詳細、例えばパーツナンバーなどを知る必要があるが、お客様情報自体は知る必要が無いということが考えられる。一方で、セールス部門のマネージャは、お客様へのご報告を行うために、お客様情報が必要となる。

本実施形態の文書閲覧システム１００によれば、障害報告を含む文書であるかといった各文書の内容を示す文書に付された属性と、ユーザ属性とを組み合わせて閲覧権限を判定することによって、各ユーザの役割に応じて、個人情報を開示しても良いか否かを動的に判定することが可能となる。

その他、問題解析の担当者は、自身の担当する製品の障害内容の詳細を知る必要があるが、他の製品の情報を知る必要がないということが考えられる。本実施形態の文書閲覧システム１００によれば、どの製品についての障害報告かといった文章の内容を示す文章に付された意味属性と、ユーザ属性とを組み合わせて閲覧権限を判定することによって、各ユーザの役割に応じて、文章を開示しても良いか否かを動的に判定することが可能となる。

その他、障害報告の統計的分析を行うためには、通常は、個々の報告の詳細は不要であるが、統計的に特徴のある事象が検知された場合には、その詳細を確認したいという要望がある。本実施形態の文書閲覧システム１００によれば、統計解析の結果導き出されるクレーマといった属性によっても、ユーザ属性を組み合わせて閲覧権限を判定することによって、特定の担当者に特定のお客様の個人情報を開示するという制御も可能となる。

また上述までは、情報に対するアクセスを制御する情報処理システムの一例として、文書内の情報に対する閲覧を制御する文書閲覧システムを例に説明した。しかしながら、制御対象のアクセス権限は、情報の内容を閲覧する権限に限定されるものではなく、情報の存在を知る権限、情報の内容に追記する権限、情報の内容を削除する権限などに対し拡張することができることは、当業者であれば、容易に想到することができるものである。

以上説明したように、本発明によれば、非構造化情報であるテキスト情報に含まれる、語、句、節、文、複数文など、種々の粒度を有する意味単位を含む情報に対し、アクセス主体に定義された権限に応じた、柔軟かつ、きめ細やかなアクセス制御を実現する、情報処理システム、情報処理装置、情報処理方法およびプログラムを提供することができる。

また本発明によれば、テキスト情報に含まれる、語、句、節、文、複数文など、種々の粒度を有する意味単位を含む情報につき、該意味単位が表現する意味内容に応じた、柔軟かつ、きめ細やかなアクセス制御を実現する、情報処理システム、情報処理装置、情報処理方法およびプログラムを提供することができる。

さらに、本発明によれば、テキスト情報に含まれる、語、句、節、文、複数文など、種々の粒度を有する意味単位の情報につき、統計処理により導き出される経時的な変化に応じた、柔軟かつ、きめ細やかなアクセス制御を実現する、情報処理システム、情報処理装置、情報処理方法およびプログラムを提供することができる。

また、本発明では、日本語以外にも、例えば、英語、フランス語、ロシア語、韓国語など、いかなる言語に対しても好適に適用可能である。

なお、本発明につき、発明の理解を容易にするために各機能部および各機能部の処理を記述したが、本発明は、上述した特定の機能部が特定の処理を実行する外、処理効率や実装上のプログラミングなどの効率を考慮して、いかなる機能部に、上述した処理を実行するための機能を割当てることができる。

本発明の上記機能は、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｊａｖａ（登録商標）Ｂｅａｎｓ、Ｊａｖａ（登録商標）Ａｐｐｌｅｔ、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔ、Ｐｅｒｌ、Ｒｕｂｙなどのオブジェクト指向プログラミング言語、ＳＱＬなどの検索言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。

これまで本発明を、特定の実施形態をもって説明してきたが、本発明は、実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

本実施形態の文書閲覧システムの概略図。サーバのハードウェア構成の実施形態を示す図。本実施形態のサーバのコンピュータ装置上に実現される文書閲覧システム１００の機能ブロック１５０を示す。自然言語解析部による自然言語解析処理を、各処理により生成されるデータ構造とともに示す概略図。ユーザ情報ＤＢに格納される権限定義データの実施形態を示す図。属性間の関係を模式的に示す図。ユーザ情報ＤＢに格納される権限定義データの他の実施形態を示す図。文書データおよび属性データを概略的に示す図。他の文書データおよび属性データを概略的に示す図。サーバが実行する文書データの登録更新方法の実施形態を示すフローチャート。サーバが実行する文書データの閲覧照会処理方法の実施形態を示すフローチャート。

符号の説明

１２…ＣＰＵ、１４…キャッシュ・メモリ、１６…システム・メモリ、１８…バス、２０…グラフィックス・ドライバ、２２…ＮＩＣ、２４…ディスプレイ、２６…Ｉ／Ｏバス・ブリッジ、２８…バス、３０…記憶装置、３２…入力装置、３４…コンピュータ装置、５０…文書データ格納部、５２…自然言語解析部、５４…形態素解析部、５６…係り受け解析部、５８…属性付与部、６０…形態素辞書格納部、６２…係り受け辞書格納部、６４…表現辞書格納部、６６…文書属性インデックス格納部、６８…意味単位属性インデックス格納部、７０…文書・属性取得部、７２…文書閲覧制御部、７４…照会入出力部、７６…ユーザ情報ＤＢ、７８…ユーザ情報登録部、８０…ファイル・アクセス機構部、１００…文書閲覧システム、１０２…クライアント、１０４…サーバ、１０６…データ格納部、１０８…ネットワーク、１１４…インターネット、１５０…機能ブロック、２００…テキスト情報、２１０…形態素解析結果、２２０…自然言語解析結果、２２２…文書属性、２３０…ユーザ−属性テーブル、２４０…ユーザ属性−権限テーブル、２４２…ユーザ属性−権限テーブル、２４４…ユーザ属性−権限テーブル、２５０，２５２，２５４，２６０，２６２，２６４…属性、２７０，２８０，２９０…文書データ、２７２，２８２…お客様氏名、２７４，２８４，２９４…文章、２７６，２８６…電話番号、２９６…個人名

Claims

情報に対するアクセスを制御する情報処理システムであって、前記システムは、
文書データを格納する文書格納部と、
前記文書データのテキストに含まれる意味単位に対し、属性を付与する解析部と、
前記文書データの前記意味単位と、該意味単位に付与された前記属性とを対応づけて格納する属性インデックス格納部と、
前記属性に関連付けられた前記意味単位を含む情報に対する、アクセス主体のアクセス権限を定義付ける権限定義データを格納する権限定義格納部と、
前記権限定義データを参照し、文書データ内の意味単位を含む情報につき、該意味単位に関連付けられた前記属性に応じて、前記アクセス主体によるアクセスの可否を判定するアクセス制御部と、
文書データへのアクセス照会の入力に応答して、前記アクセス制御部の判定に従った照会結果を出力する入出力部と
を含む、情報処理システム。
前記解析部は、さらに、統計解析処理により、前記属性インデックス格納部に格納された意味単位に対し、前記統計解析処理により算出された統計値を示す属性を付与する、請求項１に記載の情報処理システム。
前記属性インデックス格納部は、前記文書データと、該文書データに対して付された属性とをさらに対応付けて格納し、前記アクセス制御部は、前記権限定義データを参照し、前記文書データに付与された前記属性に応じて、さらに前記文書データ自体に対するアクセスの可否を判定する、請求項１に記載の情報処理システム。
前記解析部は、前記文書格納部から文書データを読み出して、テキストを取得し、辞書を用いた自然言語解析処理により、該テキストから意味単位を抽出して、各該意味単位に属性を付与する、請求項１に記載の情報処理システム。
前記入出力部は、前記アクセス制御部が閲覧不可と判定した前記意味単位を含む情報を前記文書データから削除または前記文書データにマスクしたデータを、前記照会結果として出力する、請求項１に記載の情報処理システム。
各々の前記意味単位は、語、句、節、文、および複数文からなる群から選択された粒度を有する、請求項１に記載の情報処理システム。
情報に対するアクセスを制御する情報処理装置であって、前記装置は、
文書データと、該文書データのテキストに含まれる意味単位に対し付与された属性とを取得する取得部と、
前記属性に関連付けられた前記意味単位を含む情報に対する、アクセス主体のアクセス権限を定義付ける権限定義データを格納する権限定義格納部と、
前記権限定義データを参照し、文書データ内の意味単位を含む情報につき、該意味単位に関連付けられた前記属性に応じて、前記アクセス主体によるアクセスの可否を判定するアクセス制御部と、
文書データへのアクセス照会の入力に応答して、前記アクセス制御部の判定に従った照会結果を出力する入出力部と
を含む、情報処理装置。
前記取得部は、前記文書データに対して付された属性をさらに取得し、前記アクセス制御部は、前記権限定義データを参照し、前記文書データに付与された前記属性に応じて、さらに前記文書データ自体に対するアクセスの可否を判定する、請求項７に記載の情報処理装置。
前記アクセス制御部は、該意味単位に関連付けられた統計値を示す属性に応じて、前記アクセス主体によるアクセスの可否を判定する、請求項７に記載の情報処理装置。
前記入出力部は、前記アクセス制御部が閲覧不可と判定した前記意味単位を含む情報を前記文書データから削除または前記文書データにマスクしたデータを、前記照会結果として出力する、請求項７に記載の情報処理装置。
各々の前記意味単位は、語、句、節、文、および複数文からなる群から選択された粒度を有する、請求項７に記載の情報処理装置。
情報に対するアクセスを制御する情報処理方法であって、前記方法は、
コンピュータ装置が、文書データへのアクセス照会の入力を受けるステップと、
前記コンピュータ装置が、文書データと、該文書データのテキストに含まれる意味単位に対し付与された属性とを取得するステップと、
前記コンピュータ装置が、前記属性に関連付けられた前記意味単位を含む情報に対する、アクセス主体のアクセス権限を定義付ける権限定義データを読み出すステップと、
前記コンピュータ装置が、前記権限定義データを参照し、文書データ内の意味単位を含む情報につき、該意味単位に関連付けられた前記属性に応じて、前記アクセス主体によるアクセスの可否を判定するステップと、
前記コンピュータ装置が、前記判定に従った照会結果を出力するステップと
を含む、情報処理方法。
コンピュータ装置が、文書データを読み出すステップと、
コンピュータ装置が、前記文書データのテキストに含まれる意味単位に対し、属性を付与するステップと、
コンピュータ装置が、前記文書データの前記意味単位と、該意味単位に付与された前記属性とを対応づけて格納するステップと、
をさらに含む、請求項１２に記載の情報処理方法。
さらに、格納された前記意味単位に対し、統計解析処理により算出された統計値を示す属性を付与するステップを含む、請求項１２に記載の情報処理方法。
請求項１〜６のいずれか１項に記載の各機能部をコンピュータに実現するためのコンピュータ実行可能なプログラム。
請求項７〜１１のいずれか１項に記載の各機能部をコンピュータに実現するためのコンピュータ実行可能なプログラム。
情報に対するアクセスを制御する情報処理システムであって、前記システムは、
文書データを格納する文書格納部と、
前記文書データのテキストに含まれる意味単位に対し、属性を付与する解析部と、
前記文書データの前記意味単位と、該意味単位に付与された前記属性とを対応づけて格納する属性インデックス格納部と、
前記属性に関連付けられた前記意味単位を含む情報に対する、アクセス主体のアクセス権限を定義付ける権限定義データを格納する権限定義格納部と、
前記権限定義データを参照し、文書データ内の意味単位を含む情報につき、該意味単位に関連付けられた前記属性に応じて、前記アクセス主体によるアクセスの可否を判定するアクセス制御部と、
文書データへのアクセス照会の入力に応答して、前記アクセス制御部の判定に従った照会結果を出力する入出力部と
を含み、
前記解析部は、前記文書格納部から文書データを読み出して、テキストを取得し、辞書を用いた自然言語解析処理により、該テキストから意味単位を抽出して、各該意味単位に属性を付与し、さらに、統計解析処理により、前記属性インデックス格納部に格納された意味単位に対し、前記統計解析処理により算出された統計値を示す属性を付与し、
前記属性インデックス格納部は、前記文書データと、該文書データに対して付された属性とをさらに対応付けて格納し、
前記アクセス制御部は、前記権限定義データを参照し、前記文書データに付与された前記属性に応じて、さらに前記文書データ自体に対するアクセスの可否を判定する、
前記入出力部は、前記アクセス制御部が閲覧不可と判定した前記意味単位を含む情報を前記文書データから削除または前記文書データにマスクしたデータを、前記照会結果として出力し、
各々の前記意味単位は、語、句、節、文、および複数文からなる群から選択された粒度を有する、情報処理システム。